Training und Evaluierung von probabilistischen kontextfreien Grammatiken,
CoLi, Universität des Saarlands,
Sommersemester 2002
zweistündiges Projektseminar des 2. Studienabschnitts,
mit zweistündigen Übungen.
Leitung:
Detlef Prescher,
Language Technology Lab, DFKI GmbH, und
Karin Müller,
CoLi, Universität des Saarlands
Voraussetzungen:
geringfügige Linguistik-, sowie Shell/Perl-Kenntnisse
werden hilfreich sein
Schein (4 Punkte):
durch Abgabe eines Forschungspapiers (7 Seiten)
Projektseminar:
Fr 11:00-12:30;
Geb. 17.2, Konferenzraum 2.11
Übung:
Mi 14:15-15:45; Geb. 17.2, CIP-Raum
Beginn:
17.04.2002
Inhalt:
In der maschinellen Sprachverarbeitung wurden probabilistische
kontextfreie Grammatiken in den letzten 5 Jahren sehr populär. In
der Regel denkt man hierbei an kontextfreie Grammatiken, die von einer
vorhandenen Baumbank, etwa der Penn Treebank für Englisch oder
dem NEGRA Korpus für Deutsch, abgelesen und trainiert werden
(überwachtes Training). Ein neuerer Forschungszweig
beschäftigt sich mit dem Training manuell geschriebener
Grammatiken auf freiem Text (unüberwachtes Training). Diese
alternative Methode ist attraktiv, weil man für sie keine grossen
Baumbanken aus mehreren zehntausend Sätzen erstellen (oder
kaufen) muss, und freier Text in vielen Sprachen in grossem Umfang zur
Verfügung steht.
In dem Projektseminar wollen wir uns mit beiden Trainingsmethoden
beschäftigen, um ihre Vor- und Nachteile in anwendungsnahen
Experimenten kennenzulernen. Es ist geplant, einige kontextfreie
Grammatiken (für die Syntax, Morphologie oder Phonologie) in
Gruppenarbeit manuell zu entwickeln (oder von evtl. vorhandenen
Baumbanken abzulesen), sowie mit für Forschungszwecke frei
verfügbarer Software zu trainieren.
Ein Schwerpunkt des Projektseminars wird auf der linguistischen
Evaluierung der erhaltenen Grammatiken liegen. Hierfür werden wir
einige sehr kleine Baumbanken erstellen, d.h. für uns
interessante linguistische Analysen von relativ kurzen Texten
vornehmen, um die Ergebnisse der probabilistischen kontextfreien
Grammatiken mit korrekten linguistischen Annotationen vergleichen zu
können. Nach einer Einführung, wie man ein Forschungspapier
aufbaut, welche Inhalte wichtig sind, sollen in den Kleingruppen die
durchgeführten Experimente und Ergebnisse in einem
Forschungspapier beschrieben werden.
Good News: Im Juni 2003 wurde das im Projektseminar erarbeitete
Forschungspapier zur Präsentation auf einer internationalen
Konferenz
akzeptiert!
Sisay Fissaha, Daniel Olejnik, Ralf Kornberger, Karin Müller,
Detlef Prescher (2003).
Experiments in German Treebank Parsing.
In
Proceedings of the
6th International Conference on Text, Speech and Dialogue (TSD-03)
, 8 pages (to appear).
Ceske Budejovice, Czech Republic.
Literatur (wird periodisch ergänzt):
Franz Beil, Glenn Carroll, Detlef Prescher, Stefan Riezler, Mats Rooth
(1998).
Inside-Outside Estimation
of a Lexicalized PCFG for German --- GOLD.
In AIMS Report 4(3). University of Stuttgart.
Franz Beil, Glenn Carroll, Detlef Prescher, Stefan Riezler, Mats Rooth
(1999).
Inside-Outside Estimation
of a Lexicalized PCFG for German.
In Proceedings of ACL-99. College Park, MD.
Rens Bod (2001).
What is the Minimal Set of Fragments that Achieves Maximal Parse
Accuracy?.
Proceedings ACL-2001, Toulouse, France.
Thorsten Brants (1999).
Cascaded Markov Models. In Proceedings of 9th Conference
of the European Chapter of the Association for Computational
Linguistics (EACL-99). Bergen, Norway.
Thorsten Brants, Matthew Crocker (2000).
Probabilistic Parsing and Psychological Plausibility.
In Proceedings of the 18th International
Conference on Computational Linguistics, Saarbrücken/Luxembourg/Nancy.
Glenn Carroll, Mats Rooth (1998).
Valence Induction with a Head-Lexicalized PCFG.
In Proceedings of EMNLP. Granada.
Eugene Charniak (1996).
Tree-bank grammars
Technical Report CS-96-02, Department of
Computer Science, Brown University.
Eugene Charniak (1997).
Statistical techniques for natural language parsing.
AI Magazine.
Eugene Charniak (1997).
Statistical parsing with a context-free grammar
and word statistics.
Proceedings of the Fourteenth National Conference on Artificial
Intelligence AAAI Press/MIT Press, Menlo Park.
Eugene Charniak (2000).
A Maximum-Entropy-Inspired Parser.
Proceedings of NAACL-2000.
Michael Collins (1996).
A New Statistical Parser Based on Bigram Lexical
Dependencies.
In Proceedings of the 34th Annual Meeting of
the ACL, Santa Cruz.
Michael Collins, Jan Hajic, Lance Ramshaw, Christoph Tillmann (1999).
A Statistical Parser for Czech.
In proceedings of ACL 99.
Murat Ersan, Eugene Charniak (1995).
A statistical syntactic disambiguation program
and what it learns.
TR CS-95-29 Brown University, Department of Computer Science.
Mark Johnson (1999).
PCFG models of linguistic tree representations.
Computational Linguistics.
Karin Müller (2001).
Probabilistic Context-Free Grammars for Syllabification and
Grapheme-to-Phoneme Conversion.
In Proceedings of EMNLP 2001, Pittsburgh (PA).
Karin Müller (2001).
Automatic Detection of Syllable Boundaries
Combining the Advantages of Treebank and
Bracketed Corpora Training.
In Proceedings of ACL 2001, Toulouse, France.
Karin Müller (2001).
Evaluating Syllabification: One Category Shared by Many Grammars.
In Proceedings of the LREC-02 Workshop: Beyond PARSEVAL,
Las Palmas, Gran Canaria.
Detlef Prescher. (2002).
EM-basierte maschinelle Lernverfahren für natürliche Sprachen.
Ph.D. Thesis, 366 pages.
IMS, Universität Stuttgart.
Detlef Prescher (2001).
Inside-Outside Estimation Meets Dynamic EM - GOLD.
Research Report-01-02.
DFKI Language Technology Lab, Saarbrücken.
Detlef Prescher (2001).
Inside-Outside Estimation Meets Dynamic EM.
In Proceedings of the 7th International Workshop on Parsing
Technologies, Beijing, China.
Adwait Ratnaparkhi (1997).
A Linear Observed Time Statistical Parser Based on Maximum
Entropy Models.
In Proceedings of the Second
Conference on Empirical Methods in Natural Language Processing.
Brown University, Providence, Rhode Island.
Helmut Schmid (2000).
LoPar: Design and Implementation.
Bericht des Sonderforschungsbereiches 340.
Institute for Computational Linguistics,
University of Stuttgart.
Helmut Schmid, Sabine Schulte im Walde (2000).
Robust German Noun Chunking with a Probabilistic
Context-Free Grammar.
In Proceedings of COLING-00. Saarbrücken, Germany.
Sabine Schulte im Walde (2000).
The German Statistical Grammar Model:
Development, Training and
Linguistic Exploitation.
Arbeitspapiere des Sonderforschungsbereichs 340.
Institut für Maschinelle Sprachverarbeitung, Universität
Stuttgart.
Sabine Schulte im Walde, Helmut Schmid, Mats Rooth, Stefan Riezler, Detlef Prescher (2001).
Statistical Grammar Models and Lexicon Acquisition.
In Linguistic Form and its Computation,
CSLI Publications, Stanford, CA.
Wojciech Skut, Brigitte Krenn, Thorsten Brants, Hans Uszkoreit (1997).
An Annotation Scheme for Free Word Order Languages.
In Proceedings of the Fifth Conference on Applied Natural Language
Processing (ANLP-97). Washington, DC, USA.