Arbeitsbereich WSVFachbereich InformatikUniversität Hamburg
18.418 Seminar: Informationsextraktion
Sommersemester 2006
Veranstalter
Christopher Habel
Zeit/Ort
Fr 10-12 F-535
KVV-Eintrag
Inhalt
Angesichts der rasant wachsenden Verfügbarkeit elektronischer Textdokumente sind die klassischen Verfahren zur Dokumentenrecherche und -klassifikation, wie sie z.B. in Web-Suchmaschinen eingesetzt werden, allein nicht mehr ausreichend, um angemessen auf die ansteigende Informationsflut reagieren zu können.

Diese Verfahren werden zunehmend ergänzt durch Techniken zur Inhaltserschließung, mit denen semi-strukturierte Information aus Texten extrahiert werden kann, um sie z.B. über Datenbanken in strukturierter Form verfügbar zu machen. Derzeit untersuchte Anwendungsfelder sind etwa die Sammlung und Aufbereitung von Stellenangeboten, Unfallmeldungen, Produkt- und Lieferanteninformationen sowie Firmennachrichten. Neuere Entwicklungen haben darüber hinaus das Ziel, eine gezielte Beantwortung von natürlichsprachlichen Fragen zum Inhalt von sehr großen Textsammlungen zu ermöglichen.

Voraussetzung dafür, dass leistungsfähige Computersysteme automatisch relevante, unter Umständen durch Kontexte bzw. Aufgaben spezifizierte Information aus Texten extrahieren können, ist eine systematische Einbeziehung (computer-)linguistischer Konzeptionen in den Entwurf und die Realisierung derartiger Systeme. Mit anderen Worten, dies ist ein Aufgabenfeld, das eine interdisziplinäre Zusammenarbeit der Linguistik und der Informatik erforderlich macht.

Im Seminar werden klassische und neue Arbeiten aus den Bereichen Wissensverarbeitung, Computerlinguistik und 'intelligente Informationssysteme' behandelt, die theoretische und praktische Grundlagen für die maschinelle Informationsextraktion betreffen.
Termine
07.04.2006Einführung
21.04.2006Informationsextraktion
Fragestellungen und 'state of the art' (Die mittleren 90er-Jahre)
Literatur: Cowie, Jim & Lehnert, Wendy (1996). Information Extraction. Communications of the ACM, 39. 80-91. pdf
Gaizauskas, Robert & Wilks, Yorick (1998). Information Extraction: Beyond Document Retrieval. Journal of Documentation, 54. 70-105. (Vorversion: Technical report CS -- 97 -- 10, Department of Computer Science, University of Sheffield, 1997) pdf