Hommage an die IBM Spracherkennung.
In den 90er-Jahren glich es einer Sensation, wenn Menschen mit Computern sprechen konnten, auch wenn die Entwicklung der Spracherkennungstechnologie weit länger zurückliegt. Das kannte man aus Science-Fiction Filmen wie Odyssee im Weltraum mit dem Computer HAL 9000, aber nicht in der Realität.
Zu dieser Zeit begann einer der aufregendsten Abschnitte in den vielen Jahren meiner IBM Zugehörigkeit und heute ist das Thema aktueller und spannender als je zuvor. Von 1994 an hatte ich das Vergnügen, in einem weltweit agierenden Team zur Vermarktung von IBM Spracherkennungsprodukten mitzuwirken.
Spracherkennung von IBM
Nach langen Jahren der Entwicklung wurde Ende 1993 ein futuristisches Produkt angekündigt, das IBM Personal Dictation System, das kurze Zeit später den Namen IBM VoiceType Diktiersystem trug. Eine Software (SW) als reine PC-Lösung, die für den Einsatz in Unternehmen, in der Medizin, in juristischen Berufen und später für den Massenmarkt gedacht war. Das war etwa zur gleichen Zeit wie die kostenlose Freigabe das World Wide Web für die Öffentlichkeit. Es gab ein paar Mitstreiter am Markt, wie Dragon Systems oder Philips, und das machte die Sache noch spannender.
Das System war sprecherabhängig, wurde zuerst auf die eigene Stimme trainiert und los gings mit dem Diktieren. Trotz der Herausforderungen wie Klangvariationen, Wortformen, Homofonen, der Groß- und Kleinschreibung, den zusammengesetzten Wörtern bzw. Derivationen und möglicher Störungsgeräusche, war die Erkennungsrate zu Beginn gut. Durch Training, durch Erweiterungen des Wortschatzes und den Einsatz spezieller Fachvokabulars wurde das System stetig besser.
Erstaunen überall
1994 wurde die englische Version auf der CeBIT vorgestellt und hat Besucher, Presse und uns gleichermaßen begeistert. Es folgten unendlich viele Demonstrationen auf unglaublich vielen Veranstaltungen. Wir waren im Dauerzustand unterwegs, um die SW bei Kunden vorzuführen oder auf Messen zu zeigen. Von der „elektronischen Sekretärin“ war die Rede und alle, die nicht sicher und flink auf der Tastatur waren, sollten Spaß daran finden.
Wo wir auch vorgeführt haben, eines war gewiss, wir haben die Menschen in Erstaunen versetzt. Das hat uns eine unglaubliche Freude bereitet. Der Zulauf auf unseren Messeständen war gigantisch und es drängten sich jeden Tag Massen von Besuchern vor unserem Stand, um das zu sehen und zu hören. Der einzige Showstopper war die eigene Stimme. Die SW hielt problemlos durch, aber wir nicht. Nach ein paar Tagen waren wir alle regelmäßig so heiser, dass oft weitere Demonstratoren hinzugeholt werden mussten.
Aber die Spracherkennung wurde auch belächelt, von all denen, die glaubten, das wird kein Mensch jemals brauchen.
OS/2 vs. Windows
Das Produkt wurde auf der CeBIT 1995 in einer deutschen Version vorgestellt, mit speziellen Fachvokabulars für Ärzte und Anwälte als Add-on und wir konnten trotz des Geräuschpegels einer Messehalle problemlos live demonstrieren. Das Produkt hieß IBM Voicetype Diktiersystem für OS/2. Die Betonung liegt auf OS/2, dem damaligen Betriebssystem der IBM. Im Jahr darauf sind wir mit der Windows Version angetreten, was zu endlosen Diskussionen mit dem IBM Messeteam führte. Schlussendlich wurden wir auf dem Software-Stand in Halle 2 der CeBIT in die hinterste Ecke gestellt, weil wir unbedingt auf dem Mitbewerber-Betriebssystem präsentieren wollten. Zu dieser Zeit war IBM gleich IBM und nichts anderes. Das hat sich zum Glück geändert.
Bei der Wahl der Produktnamen ist die IBM allerdings schon damals ihrem Ideenreichtum treu geblieben. Der Name der Software wurde immer wieder geändert, bis zu IBM ViaVoice. Ende der 90er-Jahre wurde die SW dann nur noch von IBM Geschäftspartnern und anderen Firmen als Re-Publishing, Preload oder im Bundle angeboten.
Ich wechselte in das Datenmanagement-Team und verlor das Thema im Laufe der Jahre allmählich aus den Augen.
Heute ist es fast schon Normalität
Das ist nur ein kleiner Abriss über diese spannende Zeit. IBM ist einer der Vorreiter dieser Technologie und ich bin glücklich, dass ich diese Reise ein paar Jahre so intensiv begleiten durfte.
Das immense Investment in die Entwicklung der Spracherkennung seit den 60er-Jahren hat sich für die IBM sicher gelohnt.
Die heutige Watson® Speech-Technologie ist Teil der führenden IBM-KI-Plattform und ermöglicht Spracherkennung, Transkription und Sprachsynthese in mehreren Sprachen.
- Watson® Speech-to-text für eine schnelle und präzise Umwandlung der menschlichen Sprache in ein Textformat, für die unterschiedlichsten Anwendungen.
- Watson® Text-to-speech zur Umwandlung von Text in natürlich klingende Sprache, ebenfalls für mehrere Sprachen und in verschiedenen Stimmen.
In unserer Welt, in der die künstliche Intelligenz (KI) auf dem Vormarsch ist, ist es fast normal, mit Systemen wie PC, Smartphone, Navigationssystem oder Smart Speakern per Sprache zu kommunizieren und elektronische Diktiersysteme sind weiter im Einsatz.
Doch die Entwicklungen gehen weiter und es bleibt weiterhin spannend, was die Zukunft uns an Technologien bringen wird.
Ihre Gabriela von Bargen
Marketing
Quellen:
Das große Spracherkennungsbuch (ISBN: 3-929510-67-7), größtenteils diktiert mit IBM ViaVoice 98, von meinem geschätzten Ex-Kollegen, Harry R. Ihm – das einzige Buch, von dem ich weiß, dass ich namentlich erwähnt werde. 🙂
IBM Webseite Spracherkennung https://www.ibm.com/de-de/cloud/learn/speech-recognition
Fotos: G.v.Bargen
Wenn Sie mehr darüber wissen wollen, welche Möglichkeiten der KI sich für Sie eröffnen, dann besuchen Sie unsere KI Themenseite und sprechen Sie mit unserem KI-Expertenteam.