Mit Spracherkennung Politikern auf den Zahn fühlen
Palo Alto/Berlin, 21. Juli 2008, www.ne-na.de - Wer kennt das nicht: Gerade zu Wahlkampfzeiten verlieren sich Politiker in ihren Reden oftmals in Floskeln, Endlosschleifen und rhetorischen Leerformeln - die wichtigen Informationen werden darunter verschüttet.. Um dem zu entgehen, bietet Google eine neue Suchfunktion an. Google Elections Video Search wandelt die Reden der Politiker in Texte um und synchronisiert sie mit den Videos auf YouTube. Der Zuschauer muss sich nicht mühevoll die langatmigen Reden ansehen, sondern kann den Politikern gezielt auf den Zahn fühlen, indem er über Suchbegriffe die Rede eingrenzt. Die gewünschten Teilbereiche werden gelb markiert, vorspulen wird somit kinderleicht. Parallel zum gesprochenen Wort werden zudem die Texte eingeblendet.
Möglich wird diese Suchfunktion durch die so genannte Speech-to-Text-Technologie. Dafür wandelt ein Algorithmus jedes gesprochene Wort in Text um. Eine bislang nicht fehlerfreie Anwendung, wie die Google-Produktmanager Arnaud Sahuguet und Ari Bezman im Unternehmensblog http://googleblog.blogspot.com/2008/07/in-their-own-words-political-videos.html bestätigen: „Spracherkennung ist ein schwieriges Problem, das noch nicht vollständig gelöst ist. Wir arbeiten jedoch ständig daran, die Genauigkeit der Algorithmen und die Transkriptionsresultate zu verbessern“, führen die beiden Manager aus.
Bis dahin könne es vorkommen, dass einzelne Wörter oder Phrasen nicht richtig erkannt werden und Kauderwelsch auf dem Monitor erscheint. „Die menschliche Sprache ist einfach ein unglaublich komplexes System. Sobald man sie analysiert und nachzubilden versucht, offenbart sich eine Unzahl von Tücken. Allein die Koartikulation bringt Algorithmen leicht ins Schleudern. Darunter versteht man das Phänomen, dass Laute und Worte immer etwas anders ausgesprochen werden, je nachdem in welcher lautlichen Nachbarschaft sie vorkommen. Der gleiche Laut und das gleiche Wort existieren also in zahlreichen Aussprachevarianten“, erklärt Bernhard Steimel, Sprecher der Voice Days http://www.voicedays.de, im Gespräch mit dem Onlinemagazin NeueNachricht http://www.ne-na.de.
Bei einem geschätzten englischen Wortschatz von 600.000 bis 800.000 Wörtern, so der Duden http://www.duden.de, muss der Computer demnach mit einer fast unüberschaubar großen Menge an sprachlichem Input umgehen können. „Noch komplizierter wird es bei verschiedenen Rednern, wenn sich der Algorithmus den Eigenheiten des Sprachapparates des jeweiligen Sprechers anpassen muss“, so Steimel weiter. „Die Tage der ersten Generation der so genannten ‚Sprachcomputer’ sind glücklicherweise gezählt. Die Technologie ist inzwischen reif für Sprachdialoge, die die Erwartungen des Menschen besser verstehen. Gestützt auf eine neue Technologie-Generation entwickeln wir modulare, natürlich-sprachliche Dialogsysteme, die den Nutzer als Dialogpartner betrachten und natürlich-sprachliche Dialoge in höchster Qualität ermöglichen“, sagt Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.
Die Produktmanager von Google wollen mit Google Elections Video Search nicht nur die Transparenz des US-Wahlkampfes erhöhen, sie erhoffen sich auch mehr Informationen darüber, wie Anwender mit Videos und eingebundenen Sprachapplikationen umgehen. „Auch wenn die transkribierten Texte noch nicht zu 100 Prozent genau sind, hoffen wir, dass die Suchfunktion für die Anwender nützlich ist“, so Sahuguet und Bezman.
Redaktion
medienbüro.sohn
Ettighoffer Straße 26 A
53123 Bonn
Tel: 0228 – 620 44 74
Fax: 0228 – 620 44 75
Mobil: 0177 620 44 74
medienbuero@sohn.de
www.ne-na.de
Möglich wird diese Suchfunktion durch die so genannte Speech-to-Text-Technologie. Dafür wandelt ein Algorithmus jedes gesprochene Wort in Text um. Eine bislang nicht fehlerfreie Anwendung, wie die Google-Produktmanager Arnaud Sahuguet und Ari Bezman im Unternehmensblog http://googleblog.blogspot.com/2008/07/in-their-own-words-political-videos.html bestätigen: „Spracherkennung ist ein schwieriges Problem, das noch nicht vollständig gelöst ist. Wir arbeiten jedoch ständig daran, die Genauigkeit der Algorithmen und die Transkriptionsresultate zu verbessern“, führen die beiden Manager aus.
Bis dahin könne es vorkommen, dass einzelne Wörter oder Phrasen nicht richtig erkannt werden und Kauderwelsch auf dem Monitor erscheint. „Die menschliche Sprache ist einfach ein unglaublich komplexes System. Sobald man sie analysiert und nachzubilden versucht, offenbart sich eine Unzahl von Tücken. Allein die Koartikulation bringt Algorithmen leicht ins Schleudern. Darunter versteht man das Phänomen, dass Laute und Worte immer etwas anders ausgesprochen werden, je nachdem in welcher lautlichen Nachbarschaft sie vorkommen. Der gleiche Laut und das gleiche Wort existieren also in zahlreichen Aussprachevarianten“, erklärt Bernhard Steimel, Sprecher der Voice Days http://www.voicedays.de, im Gespräch mit dem Onlinemagazin NeueNachricht http://www.ne-na.de.
Bei einem geschätzten englischen Wortschatz von 600.000 bis 800.000 Wörtern, so der Duden http://www.duden.de, muss der Computer demnach mit einer fast unüberschaubar großen Menge an sprachlichem Input umgehen können. „Noch komplizierter wird es bei verschiedenen Rednern, wenn sich der Algorithmus den Eigenheiten des Sprachapparates des jeweiligen Sprechers anpassen muss“, so Steimel weiter. „Die Tage der ersten Generation der so genannten ‚Sprachcomputer’ sind glücklicherweise gezählt. Die Technologie ist inzwischen reif für Sprachdialoge, die die Erwartungen des Menschen besser verstehen. Gestützt auf eine neue Technologie-Generation entwickeln wir modulare, natürlich-sprachliche Dialogsysteme, die den Nutzer als Dialogpartner betrachten und natürlich-sprachliche Dialoge in höchster Qualität ermöglichen“, sagt Lupo Pape, Geschäftsführer von SemanticEdge in Berlin.
Die Produktmanager von Google wollen mit Google Elections Video Search nicht nur die Transparenz des US-Wahlkampfes erhöhen, sie erhoffen sich auch mehr Informationen darüber, wie Anwender mit Videos und eingebundenen Sprachapplikationen umgehen. „Auch wenn die transkribierten Texte noch nicht zu 100 Prozent genau sind, hoffen wir, dass die Suchfunktion für die Anwender nützlich ist“, so Sahuguet und Bezman.
Redaktion
medienbüro.sohn
Ettighoffer Straße 26 A
53123 Bonn
Tel: 0228 – 620 44 74
Fax: 0228 – 620 44 75
Mobil: 0177 620 44 74
medienbuero@sohn.de
www.ne-na.de