TP5: On- und offline Extraktion von semantischen Strukturen

Neben den Benutzer-Anfragen, die mit Hilfe der in TP 4 entwickelten ontologischen Infrastruktur beantwortet werden können, soll SmartWeb auch Antworten zu nicht antizipierbaren Fragen ermitteln, wozu u.a. dynamische Informationsquellen genutzt werden sollen.

Nicht alle denkbaren Benutzerfragen können im Voraus in den entwickelten Ontologien Berücksichtigung finden. Zudem ändern sich die Inhalte des Web ständig, was flexible Zugriffsverfahren nötig macht. Aus diesem Grund stellt SmartWeb erstens Module zur Verfügung, die in der Lage sind, aus semantisch nicht annotierten Webseiten die entsprechend relevanten Informationen zu extrahieren. Zweitens werden Komponenten zur automatischen Generierung von semantisch annotierten Webseiten entwickelt. Um beiden Aspekten Rechnung zu tragen, ist TP 5 in zwei Arbeitspakete untergliedert: "Extraktion aus syntaktischen Webseiten" und "Automatische Generierung von semantischen Webseiten".

Das Arbeitspaket "Extraktion aus syntaktischen Webseiten" umfasst die Teilkomponenten, die für die automatische Beantwortung beliebiger Benutzeranfragen in Echtzeit zuständig sind. Die gesuchten Informationen werden dazu aus semantisch nicht annotierten Webseiten ermittelt. Das Arbeitspaket implementiert daher alle für ein Frage-Antwort-System notwendigen Komponenten. Hierzu gehören: Fragenanalyse, Dokumentsuche und -bewertung, sowie Extraktion bzw. Selektion der gesuchten Information.

Im Arbeitspakt "Automatische Generierung von semantischen Webseiten " werden die von Experten entwickelten Ontologien aus TP 4 sowie linguistisches Wissen genutzt, um automatisch weitere Webseiten semantisch zu annotieren. Die Dokumentensammlung wird dazu dynamisch um zahlreiche Webseiten erweitert, die sowohl un- als auch semi-strukturierte Daten enthalten. Unter semi-strukturierten Daten versteht man in diesem Zusammenhang z.B. Tabellen, während unstrukturierte Daten Texte und Bilder bzw. Logos sein können. Um beiden Datentypen zu verarbeiten, werden Verfahren zur automatischen Analyse entwickelt. Für die Annotierung von Texten werden verschiedene Ansätze aus dem Bereich der Informationsextraktion eingesetzt. Dabei wird sowohl linguistisches Wissen als auch die Struktur des Dokuments berücksichtigt. Daneben werden mit Hilfe von Bilderkennungsverfahren Bilder analysiert und annotiert.



© Webmaster
Last modified: Wed May 16 14:54:12 CET