Training und Evaluierung von probabilistischen kontextfreien Grammatiken,
CoLi, Universität des Saarlands, Sommersemester 2002

zweistündiges Projektseminar des 2. Studienabschnitts, mit zweistündigen Übungen.

Leitung: Detlef Prescher, Language Technology Lab, DFKI GmbH, und Karin Müller, CoLi, Universität des Saarlands
Voraussetzungen: geringfügige Linguistik-, sowie Shell/Perl-Kenntnisse werden hilfreich sein
Schein (4 Punkte): durch Abgabe eines Forschungspapiers (7 Seiten)
Projektseminar: Fr 11:00-12:30; Geb. 17.2, Konferenzraum 2.11
Übung: Mi 14:15-15:45; Geb. 17.2, CIP-Raum
Beginn: 17.04.2002

Inhalt: In der maschinellen Sprachverarbeitung wurden probabilistische kontextfreie Grammatiken in den letzten 5 Jahren sehr populär. In der Regel denkt man hierbei an kontextfreie Grammatiken, die von einer vorhandenen Baumbank, etwa der Penn Treebank für Englisch oder dem NEGRA Korpus für Deutsch, abgelesen und trainiert werden (überwachtes Training). Ein neuerer Forschungszweig beschäftigt sich mit dem Training manuell geschriebener Grammatiken auf freiem Text (unüberwachtes Training). Diese alternative Methode ist attraktiv, weil man für sie keine grossen Baumbanken aus mehreren zehntausend Sätzen erstellen (oder kaufen) muss, und freier Text in vielen Sprachen in grossem Umfang zur Verfügung steht. In dem Projektseminar wollen wir uns mit beiden Trainingsmethoden beschäftigen, um ihre Vor- und Nachteile in anwendungsnahen Experimenten kennenzulernen. Es ist geplant, einige kontextfreie Grammatiken (für die Syntax, Morphologie oder Phonologie) in Gruppenarbeit manuell zu entwickeln (oder von evtl. vorhandenen Baumbanken abzulesen), sowie mit für Forschungszwecke frei verfügbarer Software zu trainieren. Ein Schwerpunkt des Projektseminars wird auf der linguistischen Evaluierung der erhaltenen Grammatiken liegen. Hierfür werden wir einige sehr kleine Baumbanken erstellen, d.h. für uns interessante linguistische Analysen von relativ kurzen Texten vornehmen, um die Ergebnisse der probabilistischen kontextfreien Grammatiken mit korrekten linguistischen Annotationen vergleichen zu können. Nach einer Einführung, wie man ein Forschungspapier aufbaut, welche Inhalte wichtig sind, sollen in den Kleingruppen die durchgeführten Experimente und Ergebnisse in einem Forschungspapier beschrieben werden.


Good News: Im Juni 2003 wurde das im Projektseminar erarbeitete Forschungspapier zur Präsentation auf einer internationalen Konferenz akzeptiert!


Literatur (wird periodisch ergänzt):