TP1: Multimodale Erkennung und Modellierung

Sprache ist für das mobile Dialogszenario in SmartWeb als Eingabemodalität von entscheidender Bedeutung. Aufgrund der hohen Anforderungen an die Spracherkennung - sowohl im Hinblick auf den angestrebten Funktionsumfang als auch im Hinblick auf die geforderte Robustheit gegen Hintergrundlärm und spontane Sprache - wird der serverbasierten Spracherkennung für Einsatzszenarien außerhalb des Kfz eine entscheidende Bedeutung zukommen.

Spracherkennungssysteme arbeiten heute stets mit einem endlichen und auch aufgrund technischer Randbedingungen begrenzten Vokabular. Unabhängig von der verwendeten Vokabulargröße führt dies in der Praxis dazu, dass stets ein gewisser Prozentsatz der gesprochenen Wörter außerhalb des Erkennungsvokabulars liegt (OOV = out of vocabulary); je nach Anwendung können dies selbst bei aufwändig und nachhaltig betriebener Pflege des Wortschatzes ca. 5 % aller gesprochenen Wörter sein.

Im SmartWeb-Szenario ist über die Anforderungen eines normalen, anwendungsspezifischen Spracherkenners hinaus die mobile Informationsabfrage mit einem potentiell unendlich großen Vokabular vorgesehen. In diesem Fall ist es also nicht nur möglich, sondern sogar sehr wahrscheinlich, dass gerade die inhaltlich entscheidenden Wörter der Informationsabfrage nicht durch das Systemvokabular abgedeckt sind.

Im Projekt werden Verfahren entwickelt, die durch die Ergänzung des Vokabulars um ein geeignetes Inventar von Wortuntereinheiten (z.B. Laute, Silben) und durch eine entsprechende Erweiterung des grammatischen Sprachmodells die Erkennung und Verarbeitung von unbekannten Wörtern ermöglicht (Wort/Wortuntereinheiten-Hybrid-Erkenner). Unbekannte Wörter sollen erkannt und durch Folgen solcher Wortuntereinheiten approximiert werden, wodurch sie einer weiteren Verarbeitung zugänglich gemacht werden. Eine erkannte Laut- oder Silbenfolge kann beispielsweise zu einer "phonetischen" Suche im Web verwendet werden, indem mögliche Graphem-Repräsentationen aus der Wortuntereinheiten-Repräsentation abgeleitet werden, die dann zur Suche verwendet werden. Aufgrund des dynamisch aufgebauten Aussprachelexikons mit Wörtern verschiedener Sprachen muss der Spracherkenner poly-lingual ausgelegt werden; d.h. es muss ein Modellinventar für mehrere Sprachen gleichzeitig verfügbar sein.

Multimodale mobile Endgeräte, die im Gespräch visuelle Informationen anbieten, führen im Gespräch zu einem Nutzerverhalten, das sich deutlich von der Nutzung herkömmlicher Mobiltelefone unterscheidet. Im Gespräch in weitgehend ruhiger Umgebung hält man diese Geräte in aller Regel nicht ans Ohr, sondern in einem gewissen, individuell verschiedenen Abstand vor dem Gesicht ("face-to-face"). Dieses Verhalten und die schwierigen Bedingungen der Anwendungsszenarien (hoher Geräuschpegel z.B im Fußballstadion) haben einen deutlichen Einfluss auf die Qualität und den Signal-Rausch-Abstand (SNR) des aufgenommenen Sprachsignals. Ohne eine spezielle Anpassung der Spracherkennung ist in diesem Fall ein deutlicher Einbruch bei der Erkennungsleistung zu erwarten.

Der Zugriff auf SmartWeb geschieht entweder im Feld über PDA/Smartphone(UMTS) mit einem serverbasierten Worterkenner oder im mobilen Kfz-Szenario über einen in das KFZ eingebetteten Erkenner. Bei PDA/Smartphone kann dies durch multimodale Eingabe, wie z.B. durch Stift ergänzt werden. Zusätzlich sollen auch durch eine Kamera das Gesicht und damit dessen unterschiedliche Positionen aufgezeichnet werden. In all diesen Fällen liegen erschwerte Bedingungen vor, die sich sehr stark von denen der bisher überwiegend verwendeten Laboraufnahmen unterscheiden: variierende Umweltgeräusche und Fahrgeräusche im Kfz-Szenario, und ebenfalls stark variierende Hintergrundgeräusche und wechselnde Lichtverhältnisse im Feld, bis hin zu extremen Störungen, etwa bei Schlachtrufen von Fans im Stadion. Daher würden Spracherkennung und Dialogverarbeitung ohne unterstützende multimodale Erkennung und -verarbeitung eine schlechtere Performanz aufweisen. Besonders in mobilen Situationen und im Umgang mit multiplen Domänen ist eine Erkennung des adäquaten Kontextes und seine Berücksichtigung nötig, um die intuitive Bedienbarkeit des Systems und die Zufriedenheit des Benutzers zu erhöhen.

Bei der durch SmartWeb angestrebten Entwicklung eines mobilen multimodalen Dialogassistenten in offenen Domänen und Themenbereichen ist die gesprochene Sprache eine zentrale Kommunikationsmodalität für die Mensch-Technik-Interaktion für das Semantische Web. In Kommunikationssituationen, die technisch und situativ den Einsatz der vollen multimodalen Funktionalität erlauben, muss die lautsprachliche Ausgabe des Dialogassistenten mit anderen Ausgabemodalitäten, und zwar z.B. Musik als weiterer akustischer Ausgabe sowie visueller (Text, Grafik, Bild, Video) und haptischer Präsentation, räumlich und zeitlich synchronisiert werden. Die Synchronisation selbst erfolgt über die Multimedia-Präsentationskomponente, jedoch müssen auch lautsprachliche Eigenschaften an die multimodale Interaktion angepasst werden. Dies geschieht in der sprachlichen Äußerung zum Beispiel durch deiktischen Verweis auf Objekte, die synchron in einer zusätzlichen Modalität dargeboten werden, oder durch eine adäquate Prosodie. In Kommunikationssituationen mit Einschränkung der multimodalen Funktionalität spielt die Sprachausgabe oft die tragende Rolle.

Jüngste Forschungsergebnisse (z.B. in SmartKom, aber auch in unabhängigen Studien) unterstreichen die besondere Wichtigkeit einer hochgradig natürlichen Sprachausgabequalität. Benutzer eines Dialogsystems akzeptieren technisch klingende Stimmen nur widerwillig; sie erwarten eine Sprachausgabe, deren Stimmqualität einer natürlichen Stimme entspricht und deren melodische und rhythmische Strukturierung einer von einem Menschen produzierten Äußerung nahe kommt. Eine natürlich klingende Sprachausgabe reduziert generell die kognitive Belastung des Benutzers des Dialogassistenten - einschlägig insbesondere für den Einsatz im Fahrzeug. Eindeutig als synthetisch erkennbare Sprache aktiviert im Kontrast zu natürlichen Sprachstimuli zusätzliche Hirnareale.


© Webmaster
Last modified: Tue Jun 29 11:09:37 CEST