eBooks

Computerlexikographie

2007
978-3-8233-7315-5
Gunter Narr Verlag 
Claudia Kunze
Lothar Lemnitzer

Diese Einführung wendet sich insbesondere an Studierende der Philologien, denen sich auf dem Gebiet der Erstellung elektronischer Wörterbücher ein interessantes und zukunftsweisendes Tätigkeitsfeld erschließt. Es wendet sich sogleich an lexikograhische Praktiker mit Interesse an neueren Entwicklungen in der Computerlexikographie. Neben ausführlichen darstellenden Teilen, die mit vielen Beispielen illustriert werden, gibt es zahlreiche Übungen für das Selbststudium und den Unterricht. Das Buch wird durch eine Linksammlung zu den relevanten Quellen und Wörterbüchern im WWW abgerundet. Es empfiehlt sich für alle, die auf den Gebieten der Lexikographie und der Sprachtechnologie tätig sind, über die Entwicklungen und Möglichkeiten des Computereinsatzes auf dem Laufenden zu sein.

Claudia Kunze / Lothar Lemnitzer Computerlexikographie Eine Einführung Gunter Narr Verlag Tübingen Bibliografische Information der Deutschen Bibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.d-nb.de abrufbar. © 2007 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Internet: http: / / www.narr.de E-Mail: info@narr.de ISBN 978-3-8233-6315-6 Inhalt 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 Das Lexikon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1 Begriffsbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2 Lexikalische Datenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4 Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3 Lexikalische Semantik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1 Lexikalisches Zeichen und lexikalisches System . . . . . . . . . . . . . . . . 16 2 Die Struktur des lexikalischen Zeichens . . . . . . . . . . . . . . . . . . . . . . . 19 3 Komponentielle Semantik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4 Relationale Semantik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5 Polysemie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6 Ambiguität und das Problem der Disambiguierung von Textwörtern 58 7 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4 Lexikalisches und enzyklopädisches Wissen . . . . . . . . . . . . . . . . . . 62 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2 Die Lexikon vs. Enzyklopädie-Debatte . . . . . . . . . . . . . . . . . . . . . . . . 64 3 Lexikalische und enzyklopädische Informationen in Wörterbüchern und Lexika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5 Wörterbuchstrukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 1 Analyse von Wörterbuchstrukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 2 Parsing von Wörterbuchartikeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 3 Kodierung von Wörterbuchartikelstrukturen . . . . . . . . . . . . . . . . . . . . 108 4 Standardisierung von Wörterbuchartikelstrukturen . . . . . . . . . . . . . . 121 5 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 6 Lexikalische und ontologische Ressourcen . . . . . . . . . . . . . . . . . . . 133 1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 2 Lexikalisch-semantische Wortnetze . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 3 FrameNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 4 Ontologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 5 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 2 Inhalt 7 Lexikalische Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 2 Lexikalische Regeln in der Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 3 Lexikalische Regeln zur Behandlung von Sinnerweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 4 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 8 Lexikalische Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 2 Frequenzinformationen in Printwörterbüchern . . . . . . . . . . . . . . . . . . 186 3 Die Statistik von Häufigkeit und Verteilung . . . . . . . . . . . . . . . . . . . . 189 4 Morphologische Produktivität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 5 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 6 Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 9 Morphologie für die Computerlexikographie . . . . . . . . . . . . . . . . . 201 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 2 Einige grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 3 Eine morphologische Wortgrammatik . . . . . . . . . . . . . . . . . . . . . . . . . 205 4 Morphologische Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 5 Morphologische Informationen in Wörterbüchern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 6 Systeme für die automatische morphologische Analyse . . . . . . . . . . 216 7 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 10 Akquisition lexikalischer Informationen . . . . . . . . . . . . . . . . . . . . . 230 1 Begriffliches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 3 Lexikonmodell und lexikalisches Zeichen . . . . . . . . . . . . . . . . . . . . . . 236 4 Lexikalische Kategorien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 5 Drei Arten lexikalischer Akquisition . . . . . . . . . . . . . . . . . . . . . . . . . . 242 6 Allgemeine Methodik der lexikalischen Akquisition . . . . . . . . . . . . . 252 7 Akquisition lexikalischer Daten durch Korpusanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 8 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 9 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 11 Mehrgliedrige lexikalische Einheiten . . . . . . . . . . . . . . . . . . . . . . . 278 1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 2 Kollokationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281 Inhalt 3 3 Phraseme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 4 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311 12 Glossar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 1 Einleitung Für Jahrhunderte war das Handwerk der Wörterbucherstellung auf materielle Medien wie Pergament oder Papier und geeignete Schreibwerkzeuge angewiesen. Die Erfindung des Buchdrucks und, Jahrhunderte später, der Schreibmaschine, erleichterten das Handwerk selber und die Vervielfältigung und Verbreitung seiner Produkte. Dennoch blieb bis vor ca. dreißig Jahren der Zettelkasten der wesentliche Bezugspunkt der lexikographischen Arbeit: Wörterbücher entstanden durch die Kompilierung der von hunderten Beiträgern gesammelten Informationen. Der andere Bezugspunkt lexikographischer Arbeit war der Wörterbuchbenutzer, der in einem gedruckten Werk die Informationen finden sollte, die er benötigte, und das möglichst schnell. Platz war in gedruckten Werken das größte Problem. So entwickelte das lexikographische Handwerk über die Jahrhunderte ausgefeilte Techniken der Gewinnung und Darstellung der lexikographischen Informationen auf der zweidimensionalen Fläche der Buchseite. Es forderte und fordert dem Benutzer auch heute einiges an Kenntnissen und Fähigkeiten ab, die gerade benötigte Information in den meist nicht kleinen Druckwerken zu finden. Vor etwa 30 Jahren kehrte der Computer dann auch in die Wörterbuchverlage ein und veränderte das Handwerk grundlegend: • Der Zettelkasten ist nun nicht mehr die einzige Materialbasis lexikographischer Arbeit, ja oftmals nicht einmal die wichtigste, auch wenn er noch nicht aus den Redaktionsstuben vrschwunden ist. Statt dessen bezieht man sich heute selbstverständlich auf große digitalisierte Textsammlungen, aus denen die lexikographisch relevanten Informationen destilliert werden müssen. Dazu bedarf es ausgefeilter und effizienter, aber möglichst einfach zu bedienender Abfragetechniken; • zum gedruckten Buch als Medium ist nun das digitalisierte, elektronische Wörterbuch getreten. Es ist zu erwarten, dass das elektronische Wörterbuch das Printwerk auf Dauer ablösen wird, jedenfalls in den zentralen Benutzergruppen, die heute über einen Computer oder über ein mobiles Endgerät verfügen; der Platz für die Präsentation der lexikographischen Informationen ist in diesem Medium kein Problem mehr. Dafür stellen sich andere editorische Herausforderungen, vor allem hinsichtlich der Präsentation der Informationen und ihrer effektiven und benutzerfreundlichen Erschließung; Einleitung 5 • schließlich ist der Computer selbst zum „Konsumenten“ lexikographischer Daten geworden, genauer: sprachtechnologische Software, die umfassende linguistische und lexikalische Informationen benötigt. Diese Informationen sind für viele sprachtechnologische Anwendungen essenziell, und es gibt einen wachsenden Markt für lexikalische Daten, die für diese neue „Zielgruppe“ geeignet sind. Die Herausforderung liegt darin, die lexikographischen Daten in einer so strikt formalen Weise zu präsentieren, dass sprachtechnologische Anwendungen sie nutzen können. Computer sind nach wie vor weniger tolerant gegenüber Fehlern und Auslassungen als Menschen. Die zweite große Herausforderung besteht darin, die Daten so zu modellieren, dass sie von vielen sprachtechnologischen Anwendungen genutzt werden können. Die soeben genannten Herausforderungen in der lexikographischen Praxis müssen von Spezialisten gelöst werden, die etwas von lexikographischen Prozessen, von Computern und insbesondere von Sprachtechnologie verstehen. Dieses Spezialgebiet wird C OMPUTERLEXIKOGRAPHIE genannt. Definition 1. Als Computerlexikographie bezeichnen wir Lexikographie mit dem Computer und für den Computer. Die lexikographische Arbeit gestaltet sich umfangreich und datenintensiv, so dass maschinelle Unterstützung dieses Prozesses unerlässlich ist. Lexikographen werden bei der Erhebung, Bearbeitung, Darstellung und Verarbeitung lexikographischer Daten unterstützt. Wörterbuchbenutzern wird der elektronische Zugriff auf die für sie relevanten Daten ermöglicht. Schließlich benötigen sprachverarbeitende Systeme lexikalische Ressourcen, welche verarbeitungsrelevante lexikalische Informationen über ein Inventar von Wörtern einer oder mehrerer Sprachen zur Verfügung stellen. Computerlexikographie umfasst daher nicht nur die konkrete Erstellung von Wörterbüchern, also das Verfassen von Lexikonartikeln oder Einträgen, sondern auch die theoretische Auseinandersetzung mit Lexikonmodellen und Wörterbuchstrukturen sowie die Abschätzung der Anforderungen, die an einen bestimmten Lexikontyp gestellt werden. Aufgrund der Dynamik und Wechselwirkung dieser Entwicklungen sind die Möglichkeiten der Computerlexikographie noch längst nicht ausgeschöpft. Dieses Buch gibt einen einführenden Überblick über das Feld und orientiert sich dabei am Stand der Forschung. Der folgende Abschnitt stellt die relevanten Themen kurz vor und verweist auf die Kapitel, in denen sie ausführlich besprochen werden: Die Darstellung des sprachbezogenen lexikalischen Wissens ist eingebettet in den Zusammenhang einer Theorie des lexikalischen Zeichens und der lexikalischen Semantik, für die in unserem Zusammenhang die Schlüsselbegriffe der Polysemie, Homonymie und Ambiguität relevant sind und erörtert 6 Einleitung werden. Wir werden uns in Kapitel 3 auf die Aspekte der lexikalischen Semantik beschränken, die für die Computerlexikographie relevant sind. Unsere Darstellung wird sich aber nicht auf Einzelwörter beschränken. Es werden auch Fügungen von Wörtern, so genannte Mehrwortlexeme betrachtet, die besonders interessante Forschungsphänomene darstellen und spezifische Anforderungen an das Lexikonmodell sowie an Verarbeitungssysteme stellen. Eine grundlegende theoretische Unterscheidung mit weitreichenden praktischen Konsequenzen ist die zwischen lexikalischem Wissen und allgemeinem Weltwissen. Auf der Ebene des Lexikonmodells spiegelt sich diese Unterscheidung in der Trennung von Sprachwörterbuch und Sachwörterbuch oder Enzyklopädie wider. Auf der Ebene der Bedeutungsbeschreibung lexikalischer Einheiten ist die Beschränkung auf sprachliche Aspekte der Wortbedeutung wesentlich, um lexikographische Beschreibungen handhabbar zu halten. Wir stellen die aktuelle Diskussion um diese Unterscheidung in Kapitel 4 dar. Die Strukturierung lexikalischer Information im Wörterbucheintrag setzt voraus, dass auf der Basis einer Eintragsspezifikation, welche die Angabetypen und Klassifikationskriterien festlegt, eine geeignete Auswahl relevanter Worteigenschaften beschrieben wird. Diese Beschreibung unterliegt gewissen Anordnungs- und Aufbereitungskonventionen, welche zusammen die Artikelstruktur kennzeichnen. Eine standardisierte Artikelstruktur ist nicht nur für den menschlichen Benutzer hilfreich, sondern auch Voraussetzung für die Transformation der Angaben im Wörterbucheintrag in die Struktur einer lexikalischen Datenbank. Dies ist das Ziel des Wörterbuchparsings, das die Struktur standardisierter Wörterbuchartikel in Printwörterbüchern nutzt, um die dort vorhandenen Angaben in digitalisierte lexikalische Datenbanken zu übernehmen. Wir gehen in Kapitel 5 auf diese Aspekte ein und stellen eine Initiative vor, die das Ziel hat, Artikelstrukturen in elektronischen lexikalischen Ressourcen zu standardisieren. Ausgehend von Organisationsmodellen lexikalischer Daten, die eher auf der konzeptuellen Ebene anzusiedeln sind, gelangt man zu technisch-organisatorischen Modellen, die unmittelbar die physikalische Speicherung und Repräsentation der Daten betreffen. Eine herausragende Rolle spielen hier Datenbankmodelle für die statische und dynamische Verwaltung der Daten und XML als Markupsprache für semistrukturierte Daten, die in Textdateien oder Datenbanksystemen gespeichert werden können. Auch hierauf gehen wir in Kapitel 5 ein. Wortnetze und Ontologien sind Organisationsformen lexikalischer Ressourcen, die eine bedeutende Rolle für sprachtechnologische Anwendungen spielen. Diese lexikalischen Ressourcen ordnen den Wortschatz nach lexikalisch-semantischen Kriterien. Bedeutungsverwandte Wörter und Konzepte werden miteinander verknüpft. Ontologien sind dabei, wie wir sehen Einleitung 7 werden, strenger formalisiert als Wortnetze. Beide Arten von Ressourcen eignen sich für jeweils andere sprachtechnologische Anwendungen. Kapitel 6 ist der Beschreibung dieser lexikalischen Ressourcen gewidmet. Lexikalische Regeln sind Mechanismen, die man ausschließlich bei solchen lexikalischen Ressourcen findet, die von sprachtechnologischen Systemen verwendet werden. Sie erlauben die kompakte Darstellung von Regularitäten auf allen Ebenen der lexikographischen Beschreibung. Mit lexikalischen Regeln kann man linguistische Generalisierungen kodieren. Sie machen so die wiederholte Darstellung derselben Zusammenhänge bei vielen einzelnen Einträgen überfüssig. Menschliche Benutzer werden die Darstellung dieser Zusammenhänge beim einzelnen Wörterbucheintrag bevorzugen. Deshalb finden wir diese Regeln nicht in traditionellen Wörterbüchern. Tatsächlich ist das Design dieser Regeln eine der Fähigkeiten, die Computerlexikographen gegenüber traditionellen Lexikographen auszeichnet. Wir behandeln lexikalische Regeln ausführlich in Kapitel 7. Mit der Verfügbarkeit sehr großer Textkorpora als Datenbasis für lexikalische und linguistische Arbeiten bekommt die lexikalische Statistik eine prominente Rolle. Quantitative Sprachmodelle können die (computer)lexikographische Arbeit in vielerlei Hinsicht unterstützen, wie wir in Kapitel 8 zeigen. Für Sprachen mit einer reicheren Morphologie spielt die Berücksichtigung von Flexion und Wortbildung, im einfachsten Fall bei der Ermittlung von Grundformen für Textwörter (die Lemmatisierung), eine wichtige Rolle. Für die Lemmatisierung und morphologische Wortanalyse gibt es heute ausgereifte sprachtechnologische Werkzeuge, die wir in Kapitel 9 vorstellen werden. Ebenfalls dort werden wir auf die Präsentation morphologischer Informationen in Printwörterbüchern eingehen. Formbezogene elektronische Ressourcen sollten mindestens dieses Niveau der Beschreibung erreichen. Die Akquisition lexikalischer Information aus Korpora ist dann wichtig, wenn ein Wörterbuch aufgebaut, erweitert, verbessert oder aktualisiert werden soll. Da schon viel lexikalisches Wissen in den unterschiedlichsten Quellen vorliegt, liegt der Gedanke nahe, bereits existierende Quellen auszubeuten, wie wir im Kapitel über das Wörterbuchparsing gezeigt haben. Daneben bieten sich große digitale Textsammlungen an. Diese sind heute für alle großen europäischen Sprachen verfügbar. Wichtig ist jeweils das zugrunde liegende Lexikonmodell, in das die neuen Informationen integriert werden sollen. Außerdem spielen Verarbeitungsprozesse, die zur Erkennung und Voranalyse der lexikalischen Einheiten führen, eine große Rolle, genau wie statistische Verfahren zur Ermittlung der Relevanz lexikalischer Information. In Kapitel 10 werden wir diese Aspekte diskutieren und abschließend ein allgemeines Vorgehen für Projekte der lexikalischen Akquisition vorstellen. 8 Einleitung Den mehrgliedrigen lexikalischen Einheiten ist das letzte Kapitel gewidmet. Hier gehen wir vor allem auf Kollokationen und Phraseme ein. Beide Typen mehrgliedriger lexikalischer Einheiten standen in den letzten Jahren im Zentrum der computerlexikographischen Diskussion. Ausgangspunkt war die Erkenntnis, dass eine Herangehensweise an die automatische Sprachanalyse, die sprachliche Äußerungen als Kombinationen voneinander unabhängiger Einzelwörter auffasst, zu kurz greift. Mehrgliedrige Einheiten mit eingeschränkter Kombinierbarkeit und einer Bedeutung, die über die Summe ihrer Teile hinausgeht, durchziehen unsere sprachlichen Äußerungen. Es ist deshalb wichtig, sie bei der Textanalyse zu erkennen und angemessen lexikalisch zu beschreiben. In einem Abschnitt von Kapitel 10 stellen wir einige Werkzeuge vor, mit denen Sie selbst Korpora unter den verschiedensten Aspekten analysieren können. Dies soll Ihnen helfen, die in diesem Buch vorgestellten Techniken und Methoden auszuprobieren und selbständig lexikalische Studien zu betreiben. Das Buch wird durch eine Webseite - http: / / www.lemnitzer.de/ lothar/ CoLex - begleitet, auf der wir a) weiteres Material zur Verfügung stellen; b) wir Sie über die Computerlexikographie-Tagungen, neue Literatur etc. auf dem Laufenden halten und c) auf die nie ganz zu vermeidenden Tippfehler hinweisen 1 . 1 Ein großer Teil der Lehrmaterialien, aus denen dieses Buch entstand, wurde von uns im Rahmen des BMBF-geförderten Projekts Medienintensive Lehrmodule für die Computerlinguistik-Ausbildung (MiLCA) in den Jahren 2001-2004 entwickelt. Wir danken dem BMBF und seinem Projektträger für die materielle und ideelle Unterstützung des Vorhabens. 2 Das Lexikon Nach der Lektüre dieses Kapitels werden Sie wissen, was im Kontext verschiedener Theorien unter einem Lexikon und unter einem lexikalischen Zeichen zu verstehen ist. Die meisten der hier angeschnittenen Themen werden in Kapitel 3 weiter vertieft. 1 Begriffsbestimmung In der modernen Linguistik werden mit G RAMMATIK und L EXIKON zwei elementare Teilsysteme der Sprache unterschieden. Das grammatische Modul legt das Kategorieninventar der linguistischen Betrachtungsebenen und die Regularitäten ihrer Verknüpfungen fest, während das Lexikon den Wortschatz einer Sprache beisteuert. Idiosynkratische, d.h. nicht vorhersagbare Eigenschaften von Wörtern finden ihren Platz im Lexikon. Diese Eigenschaften sind auf allen linguistischen Ebenen von der Phonetik und Phonologie bis hin zur Pragmatik zu spezifizieren. Der Begriff des Lexikons in der Sprachwissenschaft ist vielschichtig und ist ein gutes Beispiel für die Polysemie eines sprachlichen Zeichens, auf die wir in Kapitel 3, Abschnitt 5 zu sprechen kommen: • In der Psycholinguistik (vgl. Jackendoff (1990), Pinker (1996)) wird das Lexikon als mentales Konstrukt sowohl eines Sprechers als auch einer Sprachgemeinschaft aufgefasst. Es wird versucht, die Struktur des mentalen Lexikons kognitiv adäquat zu modellieren. • In der generativen Grammatik fungiert das Lexikon als Modul, in dem Wörter und ihre idiosynkratischen Eigenschaften aufgelistet werden. Diese Wörter werden in eine syntaktische Struktur eingesetzt, sie instantiieren die abstrakten Kategorien der präterminalen Knoten im Syntaxbaum, z.B. V → gehen. Diese Sichtweise entspricht dem in Chomsky (1965) dargestellten Modell der generativen Grammatik. • In der Form des gedruckten oder elektronischen Wörterbuchs liefert ein Lexikon dem menschlichen Benutzer Angaben zu den sprachlichen Eigenschaften der verzeichneten lexikalischen Einheiten; im zweisprachigen Wörterbuch findet man vor allem Übersetzungsäquivalente. 10 Das Lexikon • Ein Printwörterbuch kann mit den gleichen Informationssequenzen digitalisiert und in maschinenlesbarer Form zur Verfügung gestellt werden. Maschinenlesbare Wörterbücher werden ebenfalls als Lexika bezeichnet. • Eine weitere Erscheinungsform des Lexikons ist die Lexikonkomponente in einem Sprachverarbeitungssystem. Die jeweilige sprachverarbeitende Anwendung verlangt von den lexikalischen Ressourcen spezifische lexikalische Information. Diese müssen in einer Form kodiert sein, die vom sprachverarbeitenden System eindeutig interpretiert und verarbeitet werden kann. Wir werden diese Lesarten im Folgenden voneinander abgrenzen, obgleich sie natürlich Beziehungen zueinander aufweisen. Von einem Lexikon als Teil oder Modul einer Sprachtheorie, also im Sinne der zweiten Definition, wird man klare Kriterien hinsichtlich des Umfangs der verzeichneten lexikalischen Zeichen sowie hinsichtlich der Angaben zu diesen Zeichen erwarten. Auf der anderen Seite stehen relativ kurzlebige Printwörterbücher wie die neusten Auflagen des Rechtschreibduden, bei denen von Auflage zu Auflage Wörter aufgenommen und wieder entfernt werden. Statt klarer Kriterien bei der Auswahl der linguistischen Beschreibungsebenen haben sich in der praktischen Lexikographie Konventionen ausgebildet darüber, welche Angabetypen in welchen Typen von Wörterbüchern zu finden sind. Dies wird oftmals schon im Namen des Wörterbuchs deutlich (Rechtschreibwörterbuch, Valenzwörterbuch etc.). Bei den lexikalischen Ressourcen für sprachverarbeitende Systeme haben sich für die meisten europäischen Staaten als Quasi-Standard formbasierte, vor allem die morphologischen Eigenschaften der sprachlichen Zeichen beschreibende und lexikalisch-semantische Ressourcen im Stile der Wortnetze etabliert. In allen Fällen ist das Lexikon ein offenes System und somit stärkeren Wandlungen unterworfen als das grammatische System einer Sprache. Lexikalische Neubildungen wie Topterrorist, Selbstmordattentat und Spendensumpf sind so geläufig, dass sie zumindest zeitweise in das Lexikon einer Sprachgemeinschaft Eingang finden könnten. Ein paar Jahre später sind sie möglicherweise wieder völlig außer Gebrauch. Es ist daher relativ zeitaufwändig, das Lexikon einer Sprache aktuell zu halten, sei es als lexikalische Ressource für sprachverarbeitende Systeme, sei es als Printwörterbuch. Heutzutage werden überwiegend Korpora zeitgenössischer Texte für die Auswahl des zu beschreibenden Wortschatzes und vor allem für die Registrierung neuer Wörter eingesetzt. Wir werden später auf diesen Aspekt der computergestützten Lexikographie eingehen. Auch wenn wir uns in diesem Buch vornehmlich mit einem anwendungsorientierten Lexikonbegriff befassen, kommen wir nicht umhin, verbindliche Das Lexikon 11 Kriterien dafür festzulegen, was wir unter einem Lexikon im Folgenden verstehen wollen: • Einem Lexikon sollte ein explizites Lexikonmodell zugrunde liegen, an dem sich zum Beispiel die Erstellung dieses Lexikons ausrichtet. Dieses Modell kann durchaus in Abhängigkeit von einem bestimmten Anwendungszweck entwickelt werden. • Das Lexikonmodell sollte die elementaren Einheiten im Lexikon festlegen. Die prototypische lexikalische Einheit ist das Wort. Das Lexikon kann aber auch sprachliche Einheiten unterhalb der Wortebene (Morpheme) oder oberhalb der Wortebene (Mehrwortlexeme) zum Gegenstand haben. Wir werden auf beide in separaten Kapiteln eingehen. • Das Lexikonmodell sollte zu Unterscheidungskriterien für lexikalische Einheiten führen. Diese sind in erster Linie semantischer Natur, können aber auch formbasiert sein. Wir haben diesem wichtigen Gegenstand ein eigenes Kapitel gewidmet. Im Folgenden werden wir einige Typen digitaler lexikalischer Ressourcen beschreiben, die auch unter dem Sammelbegriff lexikalische Datenbanken zusammengefasst werden. 2 Lexikalische Datenbanken Wir wollen zunächst festlegen, was wir unter dem Begriff LEXIKALISCHE D ATENBANK verstehen. Lexikalische Datenbanken sind digitale lexikalische Ressourcen, die in einer Form abgespeichert sind, dass die einzelnen Datensätze konsistent im Hinblick auf eine formale Beschreibung ihrer Struktur sind. Ein einzelner Datensatz kann dabei einem Wörterbuchartikel entsprechen oder einem Artikelteil. Er kann aber auch artikelübergreifende Strukturen umfassen. Die formale Beschreibung der Datenstruktur kann in Form eines konzeptuellen Schemas vorliegen, wenn die Daten z.B. in einem relationalen Datenbanksystem abgespeichert sind. Sie kann in Form einer Dokumentgrammatik vorliegen, wenn die Daten als annotierte Dokumente verwaltet werden 1 . Generell gilt, dass relationale Datenbanksysteme und die für die Modellierung der Daten verwendeten konzeptuellen Schemata eine rigidere Strukturierung der Daten erzwingen als Dokumentgrammatiken für XML-annotierte Daten. Man spricht deshalb von relationalen Datenbanken als Verwaltungssystemen für strukturierte Daten und von XML-basierten Datenbanken als Verwaltungssystemen für semi-strukturierte Daten. Die Entscheidung für eine der beiden Alternativen hängt letztlich von der Qualität der zu modellierenden Daten ab. Deshalb kann das Für und Wider beider Alternativen nicht unabhängig von konkreten Projekten diskutiert werden. Ein LEXIKALISCHES I NFORMATIONSSYSTEM ist umfassender als eine LEXIKALISCHE D ATENBANK . Es enthält eine lexikalische Datenbank für die Speicherung und Verwaltung der Daten, darüber hinaus aber auch Benutzerschnittstellen für den Zugriff auf diese Daten. Wir werden in Kapitel 5, Abschnitt 1.5 detaillierter auf zwei lexikalische Informationssysteme eingehen. 2.1 Typen lexikalischer Datenbanken Unter maschinenlesbaren Wörterbüchern (‚machine readable dictionaries‘, MRDs) verstehen wir die elektronischen Versionen allgemeinsprachlicher Printwörterbücher, die meist in Form von Satzbändern vorliegen, oder auch maschinell hergestellte und genutzte Wörterbücher. Da sie für den menschlichen Benutzer bestimmt sind, sollten möglichst alle Informationen in natürlicher Sprache vorliegen. Insbesondere in Großbritannien sind maschinenlesbare Wörterbücher in der akademischen Forschung intensiv genutzt worden, seit der Longman Verlag, und später auch andere britische Verlage, ihre Daten zur Verfügung stellten 2 . Berühmt ist die maschinenlesbare Version der er- 1 Vgl. hierzu Kapitel 5, Abschnitt 3 in diesem Buch. 2 Wir stellen in Kapitel 5, Abschnitt 2.4 ein Projekt vor, in dem Daten aus einem maschinenlesbaren Wörterbuch extrahiert und weiterverwendet wurden. Das Lexikon 13 sten Auflage des Longman Dictionary of Contemporary English von 1978 3 . Die Rohdaten maschinenlesbarer Wörterbücher enthalten die für weitgehend manuell erstellte Printwörterbücher charakteristischen Inkonsistenzen. Dies muss bei der Analyse und beim Parsen dieser Daten beachtet werden 4 . Unter maschinenverarbeitbaren Wörterbüchern (‚machine tractable dictionary‘, MTD) verstehen wir lexikalische Ressourcen, die lexikalisches Wissen in einer Art und Weise kodieren, dass Computersysteme, insbesondere sprachtechnologische Anwendungen, darauf zugreifen können. Die darin enthaltenen Angaben müssen in einem zu spezifizierenden, expliziten Format vorliegen. Maschinenverarbeitbare Wörterbücher können in den unterschiedlichsten sprachtechnologischen Anwendungen eingesetzt werden und dementsprechend auch unterschiedliche Schwerpunkte setzen. Sie können etwa Angaben zur Morphologie oder zur Syntax oder Semantik enthalten oder kombinierte Ressourcen darstellen. Es werden jeweils formal explizite kanonische Angaben bereitgestellt, auf die der Computer zugreifen kann. Ein Beispiel für ein maschinenverarbeitbares Wörterbuch ist das deutsche Wortnetz GermaNet, auf das wir in Kapitel 6 näher eingehen werden. Im Wortnetz sind überwiegend semantische Informationen kodiert. Ein weiteres Beispiel ist das an der Fernuniversität Hagen entwickelte HagenLex 5 . Das Stuttgarter Lexikon IMSLex hingegen enthält überwiegend formbasierte Informationen. Das Informationsprogramm umfasst Flexionsmorphologie, Derivations- und Kompositionsmorphologie und Valenzangaben 6 . MTDs können auf eine spezifische Theorie zugeschnitten sein, etwa auf den HPSG-Formalismus (Head Driven Phrase Structure Grammar) oder die Diskursrepräsentationstheorie (DRT). Ein für die Entwicklung maschinenverarbeitbarer Wörterbücher relevanter Aspekt war und ist die Frage, inwieweit man die lexikalischen Daten theorieneutral modellieren und sie damit für viele sprachtechnologische Anwendungen nutzbar machen kann. GermaNet und IMSLex sind Beispiele für weitgehend theorieneutrale lexikalische Ressourcen. Wichtig sind in diesem Zusammenhang auch lexikalische Datenbanken, die Fachterminologie enthalten. Oftmals haben große Firmen ihre eigenen Terminologien aufgebaut; und europäische Bemühungen zielten auf die Vereinbarung von Standards, um die Terminologiedaten austauschen bzw. wiederverwerten zu können, z.B. Interactive Terminology for Europe (IATE) 7 . 3 Vgl. Procter (1978). 4 Auf das Wörterbuchparsing gehen wir detaillierter in Kapitel 5, Abschnitt 2 ein. 5 Vgl. Hartrumpf et al. (2003): http: / / pi7.fernuni-hagen.de/ forschung/ hagenlex/ hagenlex-de.html . 6 Detailliertere Informationen finden sich unter http: / / www.ims.uni-stuttgart. de/ projekte/ IMSLex/ . 7 Vgl. http: / / iate.europa.eu/ iatediff/ . 14 Das Lexikon Lexikalische Wissensbanken schließlich sind maschinenverarbeitbare lexikalische Ressourcen, die auch außersprachliches Wissen einbeziehen. Eine klare Unterscheidbarkeit von lexikalischen Datenbanken und lexikalischen Wissensbanken ist nicht immer gegeben. Die Unterscheidung der beiden Ressourcentypen stammt aus der Zeit zu Beginn der Neunziger Jahre, als der Diskurs über Sprach- und Weltwissen einen (vorläufigen) Höhepunkt erfuhr. Eine heute sehr einflussreiche enzyklopädische Ressource, und damit Wissensbank, ist die Wikipedia. Die deutsche Ausgabe dieser Enzyklopädie befindet sich unter http: / / de.wikipedia.org . Die Wikipedia ist der Prototyp einer dynamischen lexikalischen Ressource, mit Hunderten, wenn nicht Tausenden Änderungen täglich. Die Sprachtechnologie beginnt gerade erst, sich den Reichtum dieser Ressource nutzbar zu machen 8 . Das Gegensatzpaar STATISCH und DYNAMISCH zielt auf die Konzeption der Datenbanken schlechthin: eine statische Datenbank ist hinsichtlich der Informationsstruktur, die sie repräsentiert, festgelegt, während eine dynamische Datenbank neue Informationstypen integrieren kann. So weist zum Beispiel der von Petra Ludewig beschriebene Prototyp einer L EXICAL K NOWLED - GE B ASE Import- und Exportfunktionen auf, welche die Zusammenführung und Wiederverwendung lexikalischer Information aus externen Ressourcen ermöglicht 9 . Solche dynamischen Systeme benötigen Programme, wie die sog. L EXICON B UILDERS , die automatisch Wörterbücher erstellen können, indem sie Informationen aus bestehenden Wörterbüchern, aus Dokumenten und Korpora akquirieren und zusammenführen. Hyperlexika sind als Hypertexte realisierte Lexika und Lexikonsysteme, vor allem im World Wide Web (WWW), bei denen ebenfalls zwischen statischen und dynamischen Varianten unterschieden wird: statische Hyperlexika sind vorkompilierte WWW-Versionen eines gedruckten Wörterbuchs als abfragbare Datenbanken. Dynamische Hyperlexika sind nicht vorkompiliert und bieten keine Indexauflösung, sondern eine Suche an, und können daher mit sehr großer Kombinatorik abgefragt werden, ähnlich wie WWW- Suchmaschinen. Insgesamt gesehen werden dynamische benutzerdefinierte lexikalische Informationssysteme immer wichtiger. Im Kontext der technischen Möglichkeiten einer verbesserten Datengewinnung durch automatische Verfahren der Informationsextraktion aus Dokumenten und Korpora könnte der klassische Lexikonbegriff, der von einem relativ fixen Repertoire lexikalischer Einheiten ausgeht, eine Umbewertung erfahren. Ad-hoc gebildete Lexika für die unterschiedlichsten Zwecke und Anwendungen könnten einerseits in Bezug auf Qualität, Abdeckung und Einsetzbarkeit zu Evaluationsproblemen führen 8 Vgl. Zesch et al. (2007). Die Autoren haben eine Schnittstelle für die Programmierung (API) entwickelt, mit deren Hilfe man auf die Daten der Wikipedia-Datenbank zugreifen kann. 9 Vgl. Ludewig (1993). Das Lexikon 15 und für die lange angestrebte Standardisierung kontraproduktiv sein, andererseits für größere Flexibilität und empirisch gesichertes Datenmaterial sorgen. 3 Weiterführende Literatur Eine lesenswerte Referenz zum Lexikon in der psycholinguistischen Erforschung vor allem des Spracherwerbs ist die Arbeit von Eve Clark (1993). Zum Lexikon in der theoretischen Sprachwissenschaft vor allem der generativen Prägung geben die Arbeiten des Sonderforschungsbereichs „Theorie des Lexikons“ Auskunft 10 . Im Zentrum des Interesses stehen hier aber sicher maschinenlesbare Wörterbücher und Lexika für sprachtechnologische Anwendungen. Für Erstere ist immer noch die Arbeit von Boguraev und Briscoe (1989) die erste Referenz. Kritisch zum Nutzen von maschinenlesbaren Wörterbüchern für die Sprachtechnologie äußern sich Nancy Ide und Jean Véronis (1993). Einen relativ neuen Ansatz präsentiert Daelemans (2000) unter dem Namen „Inductive Lexicon“. Die Standardreferenz zum von Pustejovsky propagierten „Generative Lexicon“ ist sein Aufsatz von 1991, auch wenn es viele neuere, auch in diesem Buch erwähnte Arbeiten aus diesem theoretischen Umfeld gibt. Am Schluss wollen wir mit der Arbeit von Christopher Habel (1985) einen etwas in die Jahre gekommenen, aber zumindest aus historischer Sicht interessanten Artikel zum Platz des Lexikons in der Forschung zur künstlichen Intelligenz empfehlen. 4 Aufgabe 1. Welche Wörterbücher, Lexika und Enzyklopädien kennen Sie bzw. haben Sie schon mal benutzt? Berichten Sie von Ihren Erfahrungen. Was könnte man Ihrer Meinung nach an Wörterbüchern verbessern? 10 Vgl. http: / / www.phil-fak.uni-duesseldorf.de/ sfb282/ . 3 Lexikalische Semantik In diesem Kapitel werden Sie die lexikalisch-semantischen Zusammenhänge kennenlernen, die für die Computerlexikographie von zentraler Bedeutung sind. Sie erfahren insbesondere mehr zur komponentiellen Semantik und zur relationalen Semantik. Wir gehen ausführlich auf das zentrale Konzept der Polysemie ein. Zum Abschluss des Kapitels führen wir die beiden Konzepte der Unterspezifizierung und der Ambiguität ein. 1 Lexikalisches Zeichen und lexikalisches System Die lexikalische Semantik befasst sich mit den lexikalischen Zeichen sowie dem lexikalischen System oder Lexikon einer Sprache. Lexikalische Zeichen sollten nicht mit Wörtern verwechselt werden. Jede sprachliche Einheit, der eine Bedeutung zugeordnet werden kann, ist ein lexikalisches Zeichen und damit Teil des lexikalischen Systems einer Sprache. Neben einfachen Wörtern sind dies Wortteile, M ORPHEME genannt, und wortübergreifende Ausdrücke, vor allem Phraseme, aber auch Kollokationen. Wir unterscheiden also: • -bar - ein Morphem, das als Suffix an verbalen Stämmen Adjektive bildet, z.B. lernbar, • Sack - ein Wort bzw. einfaches lexikalisches Zeichen, • die Katze im Sack kaufen - ein Phrasem, dessen Bedeutung nichts mit Katzen und Säcken zu tun hat, sondern mit Dingen, die man unbesehen erwirbt, • den Tisch decken - eine Kollokation. Wir werden in Kapitel 9 näher auf Morpheme und Wortstrukturen eingehen. Den mehrwortigen Lexemen ist ebenfalls ein eigenes Kapitel gewidmet (Kapitel 11). Im Folgenden werden wir vor allem auf Wörter und Wortbedeutungen eingehen, möchten aber nochmals betonen, dass der Begriff des lexikalischen Zeichens mehr umfasst als nur Wörter. Wir werden zunächst auf die Betrachtung des lexikalischen Zeichens in der strukturalistischen Semantik eingehen. Von Saussure ausgehend werden Lexikalische Semantik 17 wir einige semiotische Modelle des sprachlichen Zeichens vorstellen. Diese Modelle behandeln die dichotomische und späterhin trichotomische Struktur von lexikalischer Form, lexikalischer Bedeutung und Referenten von Wörtern. Viele, nicht nur strukturalistische, Semantiker gehen davon aus, dass die Bedeutungsseite des sprachlichen Zeichens in B EDEUTUNGSATOME dekomponierbar ist. Im weiteren Sinn wird die Bedeutung des gesamten Vokabulars einer Sprache als Kombination einer endlichen und zumeist sehr kleinen Menge von Bedeutungsatomen (oder P RIMITIVEN ) betrachtet. Diese Annahme geht auf eine Analogie zur Lautform von Wörtern zurück. Die Phoneme einer Sprache können als Kombinationen einer endlichen und sehr kleinen Menge von Lauteigenschaften beschrieben werden. Atomistische Ansätze der Wortsemantik sind sowohl in der allgemeinen Linguistik als auch in der Computerlinguistik sehr beliebt. Wir werden in drei Abschnitten dieses Kapitels einflussreiche klassische und neuere Ansätze der kompositionellen Semantik vorstellen: Katz und Fodors Markertheorie, Wierzbickas semantische Primitive und Pustejovskys Theorie des generativen Lexikons. Neben dem einzelnen lexikalischen Zeichen ist das lexikalische System oder Subsystem einer Sprache der Untersuchungsgegenstand der lexikalischen Semantik. Ein beliebter Gegenstand war und ist das lexikalische Feld. Ein lexikalisches Feld besteht aus einer Menge lexikalischer Zeichen, deren Bedeutungen über lexikalisch-semantische Relationen verbunden sind. Einige bekannte lexikalische Relationen sind die S YNONYMIE , A NTONYMIE , H YPERONYMIE und H YPONYMIE . Einige Forscher, vor allem aus dem Bereich der kognitiven Linguistik und künstlichen Intelligenz, postulieren die Existenz konzeptueller Strukturen, von mentalen Strukturen also, die in bestimmter Weise zu den Strukturen im lexikalischen System einer Sprache korrespondieren 1 . Reuland und Ankersmit haben die Beziehungen zwischen konzeptuellen Strukturen und Strukturen von lexikalischen Einträgen genauer untersucht 2 . Lexikalisch-semantische Relationen sind ein wichtiges Strukturierungsmittel in der Computerlexikographie. In den alphabetisch angeordneten Wörterverzeichnissen von Printwörterbüchern werden diese Relationen durch Verweise realisiert. In Spezialwörterbüchern wie zum Beispiel den Wortnetzen, auf die wir später genauer eingehen werden, sind lexikalische Einheiten entsprechend der sie verbindenden lexikalisch-semantischen Relationen gruppiert. In diesem Kapitel werden wir uns noch ausführlicher mit einem Bereich der lexikalischen Semantik beschäftigen, der sich RELATIONALE S E - MANTIK nennt. 1 Vgl. Sowa (1983). 2 Vgl. Reuland und Ankersmit (1993). 18 Lexikalische Semantik Polysemie von lexikalischen Einheiten ist ein Phänomen, das sich bisher dem vollen Verständnis aller wortsemantischen Theorien entzieht. Mit Polysemie bezeichnet man die Tatsache, dass ein lexikalisches Zeichen in mehr als einer Bedeutung verwendet werden kann (z.B. Satz → ‚Einheit der Sprache‘, ‚großer Sprung‘, ‚Spielabschnitt beim Tennis‘ etc.). Die verschiedenen Bedeutungen eines Wortes sind einigen Theorien zufolge miteinander verbunden. Eine Richtung der aktuellen Forschung befasst sich damit, ob Beziehungen zwischen den Bedeutungen von Wörtern sich generalisieren und damit als Regularitäten darstellen lassen (z.B. haben viele Wörter verwandte Bedeutungen, die eine Institution und das Gebäude, das diese Institution beherbergt, bezeichnen, z.B. Schule, Finanzamt). Man spricht dann von RE - GULÄRER P OLYSEMIE . In der lexikographischen Praxis stellt sich ständig die Frage, wie viele Bedeutungen oder Lesarten für ein Wort bzw. einen Wörterbucheintrag angesetzt werden sollen - im Duden Universalwörterbuch werden 12 Lesarten für das Wort Satz unterschieden, in anderen Wörterbüchern sind es weniger oder mehr, die Spannbreite ist gerade bei stark polysemen Wörtern bemerkenswert. Eng mit der Polysemie verbunden ist die Ambiguität von Textwörtern. Eine noch nicht gemeisterte Herausforderung für sprachtechnologische Programme besteht darin, die genaue Bedeutung eines Worts im Kontext eines Textes zu bestimmen. Das Forschungsprogramm, das zur Lösung dieser Frage bzw. zu einem funktionierenden System beitragen möchte, nennt sich W ORD S ENSE D ISAMBIGUATION , was sich in etwa mit ‚Lesartenbestimmung von Textwörtern‘ übersetzen lässt. Einen Überblick über den Stand der Forschung geben Jean Véronis und Nancy Ide 3 . Ein von Eneko Agirre herausgegebener Sammelband präsentiert die neuesten Forschungsansätze 4 . 3 Vgl. Ide und Véronis (1998). 4 Vgl. Agirre und Edmonds (2006). 2 Die Struktur des lexikalischen Zeichens 2.1 Die Saussureschen Dichotomien Um einen Eindruck davon zu bekommen, wie die Form- und Inhaltsseite lexikalischer Zeichen aufeinander bezogen werden können, werden wir uns zunächst die strukturalistische Theorie des lexikalischen Zeichens ansehen. Diese Theorie nahm ihren Ursprung bei Ferdinand de Saussure, der als Wegbereiter der modernen Linguistik gilt. Seine wegweisende Vorlesung ‚Cours de linguistique générale‘ (Deutsch: Grundfragen der allgemeinen Sprachwissenschaft, de Saussure (2001)) wurde 1916 auf der Basis der Mitschriften von Zuhörern veröffentlicht. Zwei Wortpaare sind grundlegend für Saussures Konzept der Wortbedeutung: • LANGUE vs. PAROLE (auf Deutsch: Sprachsystem vs. Sprachgebrauch) • RELATIONS PARADIGMATIQUES vs. RELATIONS SYNTAGMATIQUES (paradigmatische vs. syntagmatische Beziehungen) 5 Mit der ersten Unterscheidung etabliert Saussure Sprache als System, das von den Verwendungsinstanzen der Sprache, dem Sprachgebrauch, zu unterscheiden ist und einen eigenen Untersuchungsgegenstand der Linguistik darstellt. Entsprechend ist das Lexikon eine Abstraktion aus den zahlreichen Verwendungen lexikalischer Einheiten in Wort und Schrift. Sprache in diesem Sinne ist ein statisches System mit einem sozialen Wert, der durch Konvention festgelegt wird. Das Objekt der linguistischen Forschung ist dieses soziale Produkt, das sich im Gehirn jedes einzelnen Sprechers manifestiert. Dieses Produkt liegt allen konkreten Äußerungen (also dem Sprachgebrauch) zugrunde. Der konkrete Sprachgebrauch wiederum ist geprägt von Varianz in Tonfall, Tonhöhe, dialektaler Einfärbung etc., von welcher auf der Ebene des Sprachsystems abstrahiert wird. Eine ähnliche Unterscheidung wird im Rahmen der generativen Grammatik durch das Begriffspaar COMPETENCE und PERFORMANCE getroffen. Während die Performanz den aktuellen Sprachgebrauch einer bestimmten Person zu einer bestimmten Zeit bezeichnet, mit allen Idiosynkrasien, individuellen Eigenheiten, Fehlern etc., referiert Chomsky 6 mit dem Begriff der Kompetenz auf das Sprachvermögen als eine kognitive Fähigkeit aller Sprecher. Beide Theoretiker würden sicher der Aussage zustimmen, dass das Abstraktum, LANGUE oder K OMPETENZ genannt, der eigentliche Gegenstand der Linguistik ist. Die generative Grammatik geht hier noch einen Schritt weiter mit der Behauptung, dass Sprachkompetenz ohne Rückgriff auf die Performanz, also einzelne Äußerungen, untersucht werden kann. Viele Lin- 5 Wir gehen in Abschnitt 4 dieses Kapitels näher auf dieses Gegensatzpaar ein. 6 Vgl. Chomsky (1969). 20 Lexikalische Semantik guisten folgen dem nicht (mehr). Die Unterscheidung dieser beiden Aspekte von Sprache hat Auswirkungen auf den Begriff der (lexikalischen) Bedeutung. Zum einen spiegelt sich die Unterscheidung wider in dem Begriffspaar der DENOTATIVEN B EDEUTUNG , einem Abstraktum, das sich im Wörterbuch findet, und der REFERENTIELLEN B EDEUTUNG , die eine Eigenschaft der konkreten Äußerung ist. Betrachten wir ein Beispiel: The Hitchhiker’s Guide to the Galaxy notes that Disaster Area, a plutonium rock band from the Gagrakacka Mind Zones, are generally held to be not only the loudest rock band in the Galaxy, but in fact the loudest noise of any kind at all. (Adams (1980), S. 114) In diesem Beispiel beziehen sich die Wörter bzw. Wortsequenzen Disaster Area, rock band und noise auf den gleichen Sachverhalt bzw. das gleiche außersprachliche Objekt, obwohl sie verschiedene denotative Bedeutungen haben. In Fällen wie diesen spricht man in der Linguistik übrigens von K O - REFERENZ . Eine weitere wichtige begriffliche Dichotomie, die auf de Saussure zurückgeht, ist die zwischen SUBSTANCE und VALEUR (Substanz vs. Wert). Der Begriff der Substanz bezeichnet die ungeformte Masse der Laute und der Bedeutungen bzw. Begriffe. Das sprachliche Zeichen ist es, das diese Substanz formt und unterteilt. Die Substanz von Laut und Bedeutung existiert unabhängig von einzelnen Sprachen, sie ist universal, wohingegen jede einzelne Sprache diese Substanz anders formt und gliedert. Ein gutes und oft zitiertes Beispiel hierfür ist die Unterteilung des Farbspektrums (der Substanz) in verschiedene lexikalische Felder in verschiedenen Sprachen. Sprecher haben die prinzipielle Fähigkeit, zwischen Farbnuancen zu unterscheiden, haben aber nicht immer Begriffe für diese Unterscheidungen. Die Form, die der Substanz gegeben wird, bezeichnet de Saussure als Valeur. Der Wert eines sprachlichen Zeichens kann wie folgt formalisiert werden: Sei Z eine endliche Menge von Zeichen z 1 . . . z n . Der Wert eines bestimmten Zeichens z i ist nun Z − ( z 1 . . . z i − 1 . . . z i + 1 . . . z n ) . Da N ein endlicher Wert ist, lässt sich diese Formel nur auf endliche Mengen von phonologischen oder semantischen Einheiten anwenden. Diese Auffassung des Wertes eines sprachlichen Zeichens hat sich als besonders fruchtbar erwiesen für die Theorie lexikalischer Felder 7 , die auf endlichen Mengen von lexikalischen Einheiten errichtet werden. Für das offene Vokabular lebender Sprachen ist diese Formalisierung aber weniger gut geeignet. 7 Ein Paradebeispiel ist das lexikalische Feld der Farbbezeichnungen. Das objektiv vorhandene Farbspektrum wird in verschiedenen Sprachen durch unterschiedlich große Mengen von Ausdrücken abgedeckt und unterteilt, so dass ein Ausdruck innerhalb des Vokabulars einer Sprache ein bestimmtes Spektrum bezeichnet: grün ist das, was nicht blau, gelb etc. ist. Lexikalische Semantik 21 Wenn zum Beispiel eine Sprache nur ein Adjektiv zur Verfügung hat, um auszudrücken, dass etwas groß ist ( Z de = groß), dann ist die Valeur dieses Zeichens höher als in einer Sprache, die für diesen Begriff drei Ausdrücke zur Verfügung hat ( Z en = big, large, huge). Ein anderes Beispiel ist die Benennung von Wörterbüchern: Der Ausdruck Handwörterbuch, der für sich genommen schwer zu interpretieren ist (ein Wörterbuch, das in eine Hand passt? ein Wörterbuch, das immer zur Hand ist? ), erhält eine klare Bedeutung als Teil eines Feldes von Wörterbuchbezeichnern wie Miniwörterbuch, Taschenwörterbuch, Handwörterbuch, Großwörterbuch, in dem jeder dieser Bezeichner auf einen Wörterbuchtyp einer gewissen Größe referiert. Auf die lexikalische Semantik bezogen, nimmt de Saussure an, dass das individuelle lexikalische Zeichen zwei Seiten hat: die Formseite ( SIGNIFI - ANT ) und die Inhaltsseite ( SIGNIFIÉ ). Beide Seiten zusammen bilden das lexikalische Zeichen. Beide Seiten sind dazu geeignet, als Ordnungsaspekt für Wörterbücher zu fungieren. Saussure verwendet hierfür die Metapher eines Stücks Papier, bei dem die Formseite die Vorderseite und die Inhaltsseite die Rückseite bildet. Wenn die Vorderseite verschwindet, dann verschwindet automatisch auch die Rückseite, und umgekehrt (vgl. de Saussure (2001), S. 101). Die Beziehung von Form und Inhalt ist allerdings arbiträr, und es wird durch Konvention zwischen den Sprachbenutzern festgelegt, welcher Begriff z.B. mit der Formseite ‚TISCH‘ verbunden wird (vgl. de Saussure (2001), S. 66ff.). In anderen Sprachen ist dieser Begriff mit einer anderen lexikalischen Form verbunden. Das Wirken der Konvention bei der Ausprägung des Vokabulars einer Sprache kann man anhand der Etablierung neuer Wörter erkennen. So gab es für die Sportschuhe mit Rollen zeitweise zwei Wörter: Rollerblades und Inlineskates. Die Sprachgemeinschaft hat sich letztendlich für das zweite Wort als die konventionelle lexikalische Form entschieden. Zusammenfassend kann man sagen, dass Saussures semantische Theorie ATOMISTISCH oder ANALYTISCH ist. Saussure geht davon aus, dass die Inhaltsseite eines lexikalischen Zeichens weiter zerlegt werden kann in individuelle Konzepte. Zugleich ist seine Theorie, wie der Begriff der Valeur zeigt, HOLISTISCH . Sprache ist ein System oder eine Struktur, in der alle Elemente miteinander verbunden sind. Seine Theorie ist UNIVERSAL insofern, als er eine einzelsprachenübergreifende Substanz von Form und Bedeutung annimmt, die in jeder Sprache anders strukturiert wird. Sie ist MENTAL insofern, als Saussure sich auf Lautformen und Bedeutungen als mentale Zustände bzw. Gedanken bezieht. Seine Annahme einer engen Beziehung zwischen lexikalischer Form und lexikalischer Bedeutung, die in der Papiermetapher zum Ausdruck kommt, setzt seiner Theorie allerdings Grenzen. Im Rahmen dieses Konzepts des le- 22 Lexikalische Semantik xikalischen Zeichens ist es nicht möglich, Phänomene wie Polysemie und Synonymie angemessen darzustellen. Deshalb ist Saussures Theorie unzureichend als Basis für die (Computer)-Lexikographie. Sie wurde in der Folge denn auch modifiziert. Wir werden uns diese Modifikationen in den folgenden Abschnitten ansehen. 2.2 Modifikationen im Rahmen des Strukturalismus Die strukturalistische Linguistik in der Folge von de Saussure modellierte weitere Aspekte der Form, der Bedeutung und der Funktion lexikalischer Zeichen. Ogden und Richards (vgl. 1949) entwickelten ein Modell des sprachlichen Zeichens, das sie als Dreieck darstellten. An den Ecken des Dreiecks findet man S YMBOL , also die Formseite des Zeichens, THOUGHT bzw. RE - FERENCE als die Inhaltsseite des Zeichens und, am rechten unteren Ende, den REFERENT als außersprachlichen Bezugspunkt. Ein Symbol „symbolisiert“ ein Gedankenobjekt und steht für ein Referenzobjekt. Das Referenzobjekt ist das außersprachliche Korrelat des sprachlichen Zeichens. Der Akt der Referierens wird als ein kognitiver Prozess betrachtet - durch Gebrauch des sprachlichen Zeichens wird auf etwas Außersprachliches referiert. Während Abbildung 1: Modell des sprachlichen Zeichens nach Ogden und Richards also de Saussure auf Substanz und Form sprachlicher Zeichen im Verhältnis zu mentalen Zuständen der Sprecher abzielt, erweitern seine Nachfolger das Bild um den außersprachlichen Referenten und die Funktion sprachlicher Zeichen, auf Außersprachliches zu referieren. Stephen Ullmann (1962) stellt sein Modell des lexikalischen Zeichens ebenfalls als Dreieck dar und projiziert die Formseite des Zeichens (hier NAME genannt) und die Inhaltsseite ( SENSE ) ebenfalls auf die linke Seite. Auf der rechten Seite finden wir wieder den außersprachlichen Bezugspunkt Lexikalische Semantik 23 ( THING ). Mit SENSE wird entweder der mentale oder der informationelle Inhalt des Zeichens bezeichnet. Ullmanns Auffassung zufolge ist die Untersuchung der Beziehung zwischen dem Zeicheninhalt und seinem außersprachlichen Bezugsobjekt kein Gegenstand der linguistischen Forschung (vgl. Ullmann (1962)). Abbildung 2: Modell des sprachlichen Zeichens nach Ullmann Heger erweitert das Modell des lexikalischen Zeichens um eine weitere Ebene und entwickelt das Dreieck so zu einem Trapez weiter. Nach wie vor befindet sich die Beziehung zwischen Form- und Inhaltsseite des Zeichens auf der linken Seite und die Beziehung zum außersprachlichen Referenten auf der rechten Seite. Der entscheidende Unterschied ist nun, dass durch das Auffalten der Spitze des Dreiecks die Inhaltsseite des sprachlichen Zeichens als etwas Strukturiertes dargestellt werden kann, nämlich als eine Kombination von Bedeutungselementen, die Heger S EME nennt 8 . Eine Zeichenform kann auf diese Weise mit einem Konglomerat von Bedeutungen verbunden werden. Dies ist das Merkmal der Polysemie (Satz → / großer Sprung/ , / sprachliche Einheit/ etc.). Mehrere elementare Bedeutungseinheiten formen ein S EMEM , eine komplexe Bedeutungseinheit. Da dieses Modell es also erlaubt, komplexe Bedeutungseinheiten aus einfacheren Elementen zu konstruieren, können damit lexikalisch-semantische Beziehungen definiert werden, für die die älteren Modelle nicht ausgestattet waren. Dazu gehören: • Synonymie: Zwei sprachliche Einheiten verfügen über Inhaltsseiten, die ein Semem gemeinsam haben (Computer und Rechner haben die Bedeutung ‚elektronische Rechenanlage‘ gemeinsam. Rechner hat darüber ein weiteres Semem, das auf rechnende Menschen referiert). Die Klassen der außersprachlichen Objekte, auf die die beiden sprachlichen Zeichen in 8 Also ist Semantik die Lehre von den Semen. 24 Lexikalische Semantik Abbildung 3: Modell des sprachlichen Zeichens nach Heger dieser durch das gemeinsame Semem repräsentierten Bedeutung referieren, sind extensionsgleich 9 . • Antonymie: Die Sememe zweier sprachlicher Zeichen sind so beschaffen, dass alle bis auf ein Sem gleich sind. Junge und Mädchen teilen die Seme / belebt/ , / menschlich/ , / jung/ , unterscheiden sich aber in dem Sem, das auf das Geschlecht referiert (/ männlich/ vs. / weiblich/ ). Die Klassen der außersprachlichen Objekte, auf der die beiden sprachlichen Zeichen hinsichtlich des gemeinsamen Semems referieren, sind disjunkt. • Hyponymie: Die Sememe zweier lexikalischer Zeichen, die in der Relation der Hyponymie zueinander stehen, teilen sich einen gewissen Bestand an Semen. Die Bedeutungsseite des Hyponyms, also des spezielleren Begriffs, hat darüber hinaus weitere Seme. So teilen sich die lexikalischen Zeichen Pflanze und Rose einige Seme, z.B. / Ding/ , / belebt/ , Rose hat aber weitere Seme, die die „Rosenhaftigkeit“ ausmachen, z.B. / hat Dornen/ . Die Menge der Referenten des Unterbegriffs ist eine Untermenge der Referenten des Oberbegriffs. Mit anderen Worten: jede Rose ist eine Pflanze, aber nicht jede Pflanze ist eine Rose. • Kohyponymie: Die Sememe zweier Kohyponyme haben eine gewisse Menge von Semen gemeinsam, nämlich diejenigen, die sie mit dem gemeinsamen Hyperonym (Oberbegriff) teilen. Darüber hinaus unterscheiden sie sich in mindestens einem Sem (Schimmel und Rappen teilen sich die Seme, die sie mit ihrem Oberbegriff Pferd gemeinsam haben, die Farbe ihres Fells ist ein Bedeutungselement, das die beiden unterscheidet). Die Klassen der Referenten zweier Kohyponyme sind disjunkt. Zum Abschluss dieses Abschnitts fassen wir die hier dargestellten strukturalistischen Theorien des lexikalischen Zeichens zusammen: • Diese Theorien sind lokal ATOMISTISCH . Es wird davon ausgegangen, dass die Bedeutung sprachlicher Zeichen sich in Bedeutungselemente zer- 9 Die Extension eines sprachlichen Zeichens sind die Objekte oder Klassen von Objekten, auf die sich dieses sprachliche Zeichen bezieht. Lexikalische Semantik 25 legen lässt. Die Bedeutungselemente korrespondieren zu mentalen Zuständen und referieren auf Klassen außersprachlicher Dinge und Sachverhalte. • Der Begriff des Sems als Basiselement der Bedeutung sowie kombinatorische Operationen, die diese Seme zu größeren Einheiten, den Sememen, zusammenbringen, erlauben eine angemessene Darstellung einer Reihe von lexikalisch-semantischen Beziehungen. Der theoretische Rahmen des Strukturalismus, in welchen diese Modelle der lexikalischen Semantik eingebettet sind, scheint heute überholt. Innerhalb dieses theoretischen Rahmens war und ist es nicht möglich, mehr als einige Bereiche des Vokabulars zu beschreiben, die sich für eine solche Beschreibung besonders gut eignen, z.B. das lexikalische Feld der Verwandtschaftsbeziehungen. Trotzdem haben diese Theorien einen bedeutenden Einfluss auf die Semantik und die (Computer-)Lexikographie gehabt. 3 Komponentielle Semantik 3.1 Der Ansatz von Katz und Fodor Gerald Katz and Jerry Fodor entwickelten Ende der 60er und Anfang der 70er Jahre des vergangenen Jahrhunderts eine semantische Metatheorie im Rahmen der generativen Semantik. Diese Metatheorie nennt die Kriterien, denen eine semantische Theorie für sprachliche Zeichen natürlicher Sprache genügen muss. A semantic metatheory must provide criteria for evaluating individual semantic theories and establish the adequacy of such criteria. (Katz und Fodor (1963), S. 208) Im Allgemeinen muss eine semantische Theorie die Fähigkeit von Sprechern einer natürlichen Sprache erklären, eine theoretisch unendliche Menge wohlgeformter Äußerungen zu produzieren bzw. zu verstehen, d.h. korrekt zu interpretieren und explizieren zu können. Insbesondere muss eine semantische Theorie erklären können, wie Sprecher einer Sprache • die unterschiedlichen Lesarten von Sätzen und deren semantischen Inhalt bestimmen können; • semantische Abweichungen erkennen; • entscheiden, ob ein Satz die Paraphrase eines anderen Satzes ist oder nicht. Man erkennt den engen Bezug dieser semantischen Metatheorie zum Programm der generativen Grammatik. So bildet denn auch die Sprecherkompetenz den Bezugspunkt dieser semantischen Metatheorie: zur Kompetenz gehört z.B. die Fähigkeit, semantische Anomalien und bedeutungsgleiche Äußerungen zu erkennen. Im Bereich der Konstruktion von lexikalischen Einträgen, also Beschreibungen lexikalischer Einheiten, führen Katz und Fodor die Begriffe M ARKER und D ISTINGUISHER ein. The semantic markers and distinguishers are the means by which we can decompose the meaning of one sense of a lexical item into its atomic concepts, and thus exhibit the semantic structure in a dictionary entry and the semantic relations between dictionary entries. That is, the semantic relations among the various senses of different lexical items are represented by formal relations between markers and distinguishers. (Katz und Fodor (1963), S. 185f.) Die Marker entstammen einem begrenzten Vokabular zu einem gegebenen „konzeptuellen Raum“ (‚conceptual space‘). Sie bilden die primären lexikalischen Deskriptoren. Distinguisher sind sekundäre lexikalische Deskriptoren, Lexikalische Semantik 27 deren Zweck es ist, Wortbedeutungen bis zum notwendigen Detaillierungsgrad zu unterscheiden. In Abbildung 4 ist das Konzept bachelor (‚Junggeselle‘) dargestellt. Marker sind mit runden, Distinguisher mit eckigen Klammern gekennzeichnet. Abbildung 4: Marker und Distinguisher am Beispiel der semantischen Struktur von bachelor Katz und Fodors Annahme, die sie mit den meisten komponentiell orientierten Semantikern teilen, ist, dass es eine Menge von semantischen Basiskomponenten gibt. In diese Basiskomponenten können alle lexikalischen Zeichen - genauer: deren Inhaltsseiten - zerlegt werden. Der Begriff der Wortbedeutung beruht auf diesen Basiselementen und der vollständigen Zerlegbarkeit der Wortbedeutungen in diese Basiselemente, welche ein sprachunabhängiges, UNIVERSALES Vokabular bilden. Die Elemente dieses Vokabulars wiederum repräsentieren K ONZEPTE , die die mentalen Korrelate der Wortbedeutungen bilden. Dieses Vokabular von Basiselementen sei hinreichend, um eine unendliche Menge von Äußerungen zu produzieren. Komponentielle Ansätze der Semantik waren auch im Bereich der künstliche-Intelligenz-Forschung populär. Eine endliche Menge von semantischen Basiseinheiten ist sehr praktisch, wenn man Bedeutungs- und Weltwissen in einer formalen und damit für den Rechner verarbeitbaren Weise modellieren möchte, z.B. für die maschinelle Übersetzung mithilfe einer Interlingua, vgl. Kapitel 6. Das Prinzip der vollständigen Zerlegbarkeit von Wortbedeutungen in einfachere Basiseinheiten ist aus der Phonologie übernommen. In dieser linguistischen Teildisziplin hat man erfolgreich das Phomeninventar der Sprachen auf eine begrenzte Menge sog. distinktiver Merkmale reduzieren können. Die folgende Äußerung von Chomsky (zitiert bei Pulman) belegt, dass diese Analogie tatsächlich gezogen wurde: 28 Lexikalische Semantik [T]he very notion ‚lexical entry‘ presupposes some sort of fixed, universal vocabulary in terms of which these objects are characterized, just as the notion ‚phonetic representation‘ presupposes some sort of universal phonetic theory. (zit. in Pulman (1983), S. 29) In der Tat ist das Unterfangen, ein universales Vokabular von semantischen Basiseinheiten zu finden, faszinierend: • Ein solches Vokabular wäre eine generative Bedeutungskomponente, da prinzipiell eine unendliche Menge von Wortbedeutungen aus dieser endlichen Menge konstruiert werden könnte. • Aufgrund der möglichen Kombinationen könnten die lexikalischen Lücken von Einzelsprachen als nicht realisierte Kombinationen der Basiseinheiten identifiziert werden (im Deutschen gibt es z.B. kein lexikalisches Zeichen, das den Zustand ‚keinen Durst mehr habend‘ bezeichnet). • Lexikalische Zeichen könnten in Felder gruppiert werden, deren Struktur durch Oppositionen der Basiselemente gebildet wird. Wir haben uns bei dieser Darstellung bewusst für den Irrealis entschieden, da sich dieses Programm im weiteren Verlauf als undurchführbar und die damit verbundenen wissenschaftlichen Perspektiven als unrealistisch erwiesen haben. Schon bald wurde Kritik an der undifferenzierten Analogie zur Phonologie laut. So schreibt etwa Pulman (vgl. Pulman (1983), S. 30): [...] the distinctive features of phonemes are in principle relatable to properties of the human vocal tract, acoustic properties and properties of the perceptual system, and the set of distinctive features is therefore constrained by the observable facts of human physiology. Languages are strictly comparable with respect to these properties. Nothing of this holds for semantic markers or ‚concepts‘. The existence of a limited set of basic concepts is mere speculation as is our intuition that ‚the same concept‘ is expressed by lexical items in different languages. Es ist unmöglich, ein System von semantischen Markern als Basiselementen der Bedeutung auf die Gegebenheiten eines beobachtbaren, außersprachlichen Systems zu stützen. Wir haben keinen Zugang zu den mentalen Zuständen, die den Konzepten entsprechen könnten. Wenn man also, wie dies wiederholt gemacht wurde, das Verb to kill (‚töten‘) auf einen Ausdruck CAUSE(X, Y) AND BECOME_NOT_A- LIVE(Y) einer semantischen Metasprache abbildet, so verwendet man da- Lexikalische Semantik 29 mit noch lange keine Konzepte, deren Existenz nachgewiesen wäre, sondern lediglich andere Ausdrücke der englischen Sprache 10 . Neben diesen prinzipiellen wissenschaftlichen Problemen der komponentiellen Semantik entstehen die folgenden praktischen Probleme, wenn man dieses Programm ernsthaft verfolgen wollte: • Es besteht keine Einigkeit über den Inhalt und Umfang des Vokabulars einer semantischen Metasprache. Entsprechend problematisch ist die Abgrenzung zwischen Markern und Distinguishern. • Es gibt keine Einigkeit über die Methoden, mit denen man semantische Marker entdecken könnte. • Es gibt keine Einigkeit darüber, welches Vokabular von Basiselementen ausreichend ist, um alle möglichen Wortbedeutungen zu konstruieren, oder zumindest die existierenden Wortbedeutungen einer Sprache. Wenn man das Programm der Ermittlung semantischer Basiseinheiten exhaustiv verfolgt, dann wird dieses Vokabular mit großer Wahrscheinlichkeit den Umfang des natürlichen Vokabulars der untersuchten Sprache erreichen. Damit entfällt natürlich auch jegliche Rechtfertigung für die Bildung eines Metavokabulars. Trotz dieser prinzipiellen und praktischen Probleme hatte die komponentielle Semantik Auswirkungen auf die praktische Lexikographie. Die komponentielle Semantik bietet den Rahmen, um die komplexe Bedeutung lexikalischer Zeichen (z.B. töten) als eine Kombination von lexikalischen Zeichen mit einfacherer Bedeutung darzustellen (z.B. bewirken, nicht, leben). Die Menge der hierfür benötigten lexikalischen Zeichen mit einfacher Bedeutung könnte das Basisvokabular lexikalischer Bedeutungsbeschreibungen bilden. Basisvokabular und die mit diesem Vokabular beschriebenen sprachlichen Zeichen, also Objektsprache und Metasprache, entstammen dabei derselben natürlichen Sprache, z.B. dem Englischen oder dem Deutschen. So verwendet z.B. das ‚Longman Dictionary of Contemporary English‘ eine Liste von Basiseinheiten, das sog. Defining Vocabulary (vgl. Quirk (1995), S. B16). Es umfasst ca. 2000 lexikalische Einheiten. In den Bedeutungsbeschreibungen der anderen lexikalischen Einheiten werden, wo immer dies möglich ist, nur diese Basislexeme verwendet. Dahinter steht die Überlegung, dass Lerner, die zunächst die Bedeutungen dieser elementaren lexikalischen Einheiten lernen, mithilfe dieser einfacheren Einheiten die Bedeutungen der schwierigeren lexikalischen Einheiten entschlüsseln können. 10 Man könnte auch Ausdrücke der polnischen Sprache verwenden, das macht keinen Unterschied. Wichtig ist, dass man keinen Zugang auf die Konzepte hinter den sprachlichen Ausdrücken hat. 30 Lexikalische Semantik 3.2 Der Ansatz von Wierzbicka In seiner kritischen Würdigung der komponentiellen Semantik versucht Pulman, die Idee der semantischen Marker dadurch zu retten, dass er diesen den Status von normalen englischen Wörtern gibt: Consider the claim that AND, LIKE and INCHOATIVE are semantic primes in the sense that they are part of a basic sub-vocabulary of English [...] suitable for the partial or total description of many other English words which they can, in combination, paraphrase [...] the enterprise of semantic description on the level of word meaning is the adoption of this sub-vocabulary as a metalanguage. (vgl. Pulman (1983), S. 37) Dieses Zitat beschreibt ziemlich gut das Forschungsprogramm von Anna Wierzbicka, die versucht, eine Menge von semantischen Primitiven als Untermenge des Vokabulars der Objektsprache festzulegen 11 . Sie schreibt: • The lexicon of any language can be divided into two parts: a small set of words [...] that can be regarded as indefinable, and a large set of words that [...] in fact can be defined in terms of the words from the set of indefinables. • For any language, its indefinables can be listed [...] • Although the set of indefinables is in each case language specific, one can hypothesize that each such set realizes, in its own way, the same universal and innate ‚alphabet of human thought‘. (Wierzbicka (1992), S. 209) Wierzbicka postuliert zunächst 14 semantische Primitive für das Englische, unter Anderen: I, WANT , KIND , NO 12 . Die Bedeutungen der anderen englischen Wörter seien „Konfigurationen“ dieser semantischen Primitive. In ihrem hier zitierten Aufsatz aus dem Jahr 1992 beschreibt sie unter anderem das Wortfeld der (englischen) Verben, die Sprechakte bezeichnen. Sprechakte sind für sie „things that one can do with words“. In den nun folgenden Beispielen aus dieser Arbeit werden wir den definierten Term in Großbuchstaben schreiben. Die Definitionen selbst stehen in einfachen Anführungszeichen. • ASK und ORDER: ‚(I say: ) I want you to do it‘ • ORDER impliziert: ‚(I think: ) you have to do it‘ • ASK impliziert dies nicht: ‚(I think: ) you don’t have to do it because of this‘. 11 vgl. Wierzbicka (1992), S. 209ff. 12 Für die vollständige Liste vgl. Wierzbicka (1992), S. 210. Lexikalische Semantik 31 Eine Stärke des Ansatzes, Bedeutungen mithilfe eines kontrollierten Vokabulars zu paraphrasieren, liegt darin, dass man semantische Differenzen, die Unterschieden in den syntaktischen Verwendungsweisen der lexikalischen Einheiten entsprechen, genauer herausarbeiten kann. So beinhalten die Sprechakte PLEAD , ARGUE und REASON (‚plädieren‘, ‚streiten‘, ‚auseinandersetzen‘) den Austausch von Argumenten. Dementsprechend kann die Rolle des Adressaten syntaktisch realisiert werden: plead, argue, reason WITH SOMEBODY. Diese Verknüpfung von semantischer und syntaktischer Ebene kann allerdings zu einer zirkulären Argumentation führen. Die syntaktischen Verwendungsmuster eines Wortes sind der Beobachtung - z.B. in einem Textkorpus - unmittelbar zugänglich, die Bedeutung eines Wortes aber bestenfalls mittelbar. Man könnte geneigt sein, aus Differenzen in der syntaktischen Verwendungsweise zweier Wörter auf semantische Unterschiede zu schließen und anschließend zu behaupten, dass diese Bedeutungsunterschiede die Differenzen in der syntaktischen Verwendungsweise „bewirken“. Einige der Einwände, die gegen das strukturalistische Konzept von Semen und Sememen und auch gegen den Ansatz von Katz und Fodor vorgebracht wurden, können hier wiederholt werden: Zunächst wirkt die Auswahl des Basisvokabulars von semantischen Primitiven arbiträr. Es gibt keine außersemantische Argumentation, mit der diese Auswahl gerechtfertigt werden könnte. Wierzbicka erweitert im Laufe ihrer Arbeit das Vokabular der semantischen Primitive von zunächst 14 auf 30. Ebenso bleibt die Behauptung, dass diese Menge von semantischen Primitiven, seien es nun 14 oder 30, das Basisvokabular des menschlichen Denkens bilde, jedenfalls in seiner englischsprachigen Version, unbewiesen. Diese Behauptung ist für die praktische Arbeit mit diesen semantischen Primitiven allerdings unerheblich. Die Zerlegung von Bedeutungen in diese semantischen Primitive ist dennoch nützlich, um generische Schemata oder Bedeutungskonfigurationen zu ermitteln sowie Beziehungen zwischen einzelnen Bedeutungen. Damit lassen sich sowohl Polysemiestrukturen einzelner lexikalischer Zeichen als auch lexikalisch-semantische Beziehungen zwischen lexikalischen Zeichen formal als Gemeinsamkeiten und Differenzen in den Bedeutungskomponenten darstellen. 3.3 Das generative Lexikon Ein neuerer Ansatz der komponentiellen Semantik, der viele Anhänger in der Computerlinguistik gefunden hat, stammt von James Pustejovsky. Seine Beliebtheit bei Computerlinguisten ist allerdings nicht der einzige Grund, diesen 32 Lexikalische Semantik Ansatz hier zu besprechen. Pustejovskys Ansatz hat auch einige interessante Arbeiten in der Computerlexikographie inspiriert. Sein Begriff der semantischen Primitive weicht stark von der „traditionellen“ Auffassung, wie sie etwa von Wierzbicka vertreten wird, ab. Er sucht stattdessen: [...] a new way of viewing primitives, looking more at the generative or compositional aspects of lexical semantics, rather than the decomposition into a specified number of primitives [...] (Pustejovsky (1991), S. 417) Pustejovsky betrachtet das Verhältnis von logischer und syntaktischer Form sprachlicher Äußerungen. Die syntaktische Struktur sprachlicher Äußerungen ist der Ausgangspunkt seiner Beschreibungen. Ohne deren Untersuchung und Beschreibung sei eine lexikalisch-semantische Theorie zum Scheitern verurteilt 13 . Pustejovskys Ansatz ist es, die logische Form von Äußerungen auf das Lexikon im Allgemeinen und auf generative Mechanismen (G ENERATIVE DEVICES ) des Lexikons im Besonderen zu stützen. Durch eine vollständig kompositionelle Semantik natürlicher Sprache versucht Pustejovsky, die generative Kapazität der Sprache zu erklären 14 . Dies umfasst die Fähigkeit der Sprecher, semantisch wohlgeformte von nichtwohlgeformten Äußerungen zu unterscheiden. Wir haben diese Fähigkeit bereits im Ansatz von Katz und Fodor als Kriterium einer semantischen Theorie kennengelernt. Stärkeren Bezug zur lexikalischen Semantik haben Pustejovskys Versuche, Erklärungen für die sprachlichen Phänomene der M ETONYMIE 15 und der P OLYSEMIE zu finden. Metonymie Pustejovskys Begriff der Metonymie geht auf Geoffrey Nunberg (1978) zurück. Danach bedeutet dieser Begriff, dass eine Phrase an Stelle einer anderen Phrase gebraucht wird. Pustejovsky gibt die folgenden Beispiele: (1) John began the book (John begann das Buch). Erläuterung: die Bedeutung kann sein, dass John begann, ein Buch zu lesen oder ein Buch zu schreiben. 13 Vgl. Pustejovsky (1991), S. 410. 14 Vgl. Pustejovsky (1991), S. 419. 15 Die Metonymie ist eine Stilfigur, bei der ein Ausdruck durch einen anderen ersetzt wird, der mit ersterem in sachlichem, aber nicht in semantisch-begrifflichem Zusammenhang steht, z.B. Ersetzung eines Wortes, das ein Getränk bezeichnet, durch ein Wort, das ein Gefäß bezeichnet, das dieses Getränk typischerweise enthält, in Ich nehme noch ein Glas. Lexikalische Semantik 33 (2) John began the cigarette (John begann die Zigarette). Erläuterung: John begann damit, die Zigarette zu rauchen. (3) John began the beer (John begann das Bier). Erläuterung: John begann damit, das Bier zu trinken. (4) Mary enjoyed the book (Maria genoss das Buch). Erläuterung: Maria genoss es, das Buch zu lesen. (5) Mary enjoyed the cigarette (Maria genoss die Zigarette). In all diesen Beispielen übernimmt das Objekt des Satzes (das Buch, das Bier, etc.) die Rolle der Verbalphrase, die die eigentliche Handlung ausdrückt (lesen, trinken etc.). Die Ereignislesart des (Teil-)Satzes, die normalerweise durch das Verb vermittelt wird, das ein Teil des kompletten Arguments des Hauptverbs wäre (beginnen), wird nun durch die Nominalphrase getragen. In Pustejovskys Worten wird der Kopf der Objekt-Nominalphrase in die Rolle des Ereignistyps gezwungen. Reguläre Polysemie Um das Phänomen der regulären Polysemie sprachlicher Zeichen zu erklären, wählt Pustejovsky die folgenden Beispiele: (6) He baked the potato (Er backte die Kartoffel). (7) He baked the cake (Er backte den Kuchen). In Beispiel (6) wird eine Zustandsänderung (der Kartoffel) ausgedrückt, wohingegen in Beispiel (7) ein Objekt (der Kuchen) geschaffen wird. Anstatt nun einen Bedeutungswechsel beim Verb anzunehmen, und dieses als polysem zu beschreiben, geht Pustejovksy einen anderen Weg und schreibt den Bedeutungsunterschied in beiden Sätzen allein dem Objekt zu: [W]e can derive both word senses of verbs like bake by putting some of the semantic weight on the NP. This view suggests that [...] the verb itself is not polysemous. (Pustejovsky (1991), S. 423) Was an den obigen Beispielen anhand einer Verb-Komplement-Struktur 16 gezeigt wurde, funktioniert auch bei Nomen-Modifikator-Strukturen 17 , wie die folgenden Beispiele zeigen: (8) She is a fast typist (Sie ist eine schnelle Tipperin). Erläuterung: Sie ist eine Person, die schnell tippt. 16 Eine Verb-Komplement-Struktur ist ein Fügung aus einem Verb (z.B. backen) und dessen notwendiger Ergänzung (z.B. Kuchen). 17 Eine Nomen-Modifikator-Struktur ist eine Fügung aus einem Substantiv (z.B. Entscheidung) und einem modifizierenden Element, meistens einem Adjektiv (z.B. schnell). 34 Lexikalische Semantik (9) This is a fast car (Dies ist ein schnelles Auto). Erläuterung: Dies ist ein Auto, das schnell fährt. (10) This is a fast waltz (Dies ist ein schneller Walzer). Erläuterung: Dies ist ein Walzer mit schnellem Tempo. Anstatt den Modifikator als ambig darzustellen, nimmt Pustejovsky an, dass die Nominalphrase, welche durch das Adjektiv modifiziert wird, die Bedeutungsverschiebung in den obigen Sätzen auslöst. Die Modifizierung in diesen Sätzen ist verschiedenen Bedeutungsaspekten des Nomens geschuldet, in Pustejovskys Terminologie: Unterschieden in deren Qualiastruktur. Lexikalisch-semantische Beschreibungen im generativen Lexikon Die Maschinerie, die Pustejovsky verwendet, um die Phänomene der logischen Metonymie und der regulären Polysemie (auch Sinnerweiterung genannt) 18 zu beschreiben, entstammt der lexikalischen Semantik, da sie auf Strukturen der Wortbedeutung aufbaut: [T]he theory of decomposition outlined here is based on the central idea that word meaning is highly structured, and not simply a set of semantic features. (Pustejovsky (1991), S. 419) Die Bedeutung einer lexikalischen Einheit besteht aus den folgenden Komponenten: • der Argumentstruktur (‚argument structure‘), • der Ereignisstruktur (‚event structure‘), • der Qualiastruktur (‚qualia structure‘), • der Vererbungsstruktur (‚inheritance structure‘). Wir werden uns hier auf die Beschreibung der Qualiastruktur 19 beschränken. Diese stellt Pustejovskys originären Beitrag zur lexikalischen Semantik dar. Die Qualiastruktur eines Wortes spezifiziert die folgenden Aspekte seiner Bedeutung: • die Beziehung zwischen dem (außersprachlichen) Denotat und seinen Bestandteilen (C ONSTITUTIVE ROLE ). Dies können das Material, das Gewicht oder Teile und Komponenten sein (z.B. Fenster - Glas); • die physikalischen Eigenschaften des Denotats und seine Gestalteigenschaften, die es gegenüber seiner Umwelt hervorheben (F ORMAL ROLE ). Dies können die räumliche Anordnung, die Größe, die Form, die Dimensionalität, die Farbe und die Position sein (z.B. Türrahmen - Öffnung); 18 Auf die reguläre Polysemie gehen wir in Abschnitt 5.5 dieses Kapitels ausführlicher ein. 19 Das Konzept der Q UALIA geht auf Aristoteles zurück, wie Stephan Walter (2001) ausführlich in seiner Diplomarbeit darlegt. Lexikalische Semantik 35 • der Zweck oder die Funktion des Denotats (T ELIC ROLE ), z.B. der Zweck, den dieses Denotat bei der Ausführung einer Handlung hat (z.B. Buch - lesen); • die Umstände seiner Entstehung (A GENTIVE ROLE ). Dies können der Erschaffer bzw. Hersteller sein oder die Unterscheidung zwischen natürlicher Art (Pflanze, Tier, Holz etc.) und Artefakt (Computer, Stuhl). Auf den ersten Blick wirkt diese Liste arbiträr. Auf den zweiten Blick wird man anerkennen müssen, dass diese vier Kategorien konzeptuellen Kategorien oder unserem Basiswissen über ein Objekt oder ein Ereignis bzw. einen Sachverhalt entsprechen 20 . Darüber hinaus hilft die Qualiastruktur, die oben mit den Beispielen (1) bis (10) illustrierten Phänomene zu erklären: 1. Die Beispiele für logische Metonymie können mit Bezug auf den Zweck oder die Funktion des Denotats (Telic role) des Objektnomens erklärt werden. Zweck und Ziel eines Buches ist es, gelesen zu werden, eines Bieres, getrunken zu werden, usw. Das Verb kann sich in angemessenen Kontexten auch auf die Umstände der Entstehung (Agentive role) des durch das Objektnomen Bezeichneten beziehen. Ein Buch wird geschrieben bzw. verfasst. Bei unserem oben genannten Buch-Beispiel haben wir es also wieder mit einer Mehrdeutigkeit zu tun. Ein Buch beginnen kann also heißen, dass man das Schreiben oder das Lesen eines Buchs beginnt. Da Bücher aber wahrscheinlich häufiger gelesen als geschrieben werden (jedenfalls hoffen wir das von diesem Buch sagen zu können), ist die Lesart ein Buch lesen wahrscheinlicher als ein Buch schreiben. 2. Reguläre Polysemie kann in ähnlicher Weise erklärt werden. Das Adjektiv schnell in den oben genannten Beispielen bezieht sich auf die Telic role des durch das modifizierte Nomen Bezeichneten. In diesem Sinn modifiziert das Adjektiv nicht das Nomen, sondern ein Ereignisverb (fahren, tippen, usw.), hat also adverbialen Charakter. Die Interpretation der Beispielsätze gelingt deshalb auch, wenn man von einem einzigen Sinn des Modifikators ausgeht. Ähnliches lässt sich vom Verb backen sagen, das sich in unserem Beispiel auf die Umstände der Entstehung des Objekts bezieht. Das Bezugsobjekt ist entweder ein Artefakt (im Falle des Kuchens) oder ein natürlich entstandenes Objekt (im Falle der Kartoffel). Dieser Unterschied bedingt den Unterschied im Prozess des Backens. Pustejovsky nennt diese Konstruktionen von Verben und bestimmten Aspekten der Bezugsnomen K OSPEZIFIKATION (‚cospecification‘) (vgl. Pustejovsky (1991), S. 422). 20 Vgl. Pustejovsky (1991), S. 427. 36 Lexikalische Semantik Widersprüchliche Beobachtungen Wenn man sich die wenigen Daten ansieht, die Pustejovsky in seinen Artikeln heranzieht, dann erscheinen seine theoretischen Schlussfolgerungen überzeugend. Es drängt sich jedoch die Frage auf, ob die Theorie der Qualiastrukturen auch auf einen größeren Teil des Lexikons anwendbar ist. Zunächst wollen wir sehen, ob die metonymischen beginnen- und genießen-Konstruktionen sich auf weitere Nomen als die paar oben erwähnten Beispiele anwenden lassen. Es gibt auch Gegenbeispiele, die wir aus Verspoors Dissertation zitieren (vgl. Verspoor (1997)). Die folgenden Beispiele mit beginnen klingen seltsam, wenn nicht sogar falsch. Nach Pustejovskys Theorie müssten sie aber wohlgeformt sein, da hier, wie in den obigen Beispielen, beginnen sich mit der Zweck-Rolle aus der Qualiastruktur des Objektnomens verbindet. Die vermutlich weggelassenen Verben werden hier in Klammern angegeben. (11) John began the film - John begann den Film (=anschauen) (12) John began the door - John begann die Tür (=hindurchgehen) (13) John began the nails - John begann die Nägel (=einschlagen) Verspoor stellt dem entgegen, dass auch keine aspektuellen Eigenschaften des Verbs beginnen hinreichen, um zu erklären, warum diese Beispiele merkwürdig oder falsch klingen. Korpusanalysen Verspoor stellt die Frage, wie verbreitet metonymische Konstruktionen für die genannten und ähnliche Verben (begin, finish, etc.) im Sprachgebrauch sind. Sie durchsucht das 100 Millionen Wörter große British National Corpus (BNC) und zusätzlich das Lund Oslo Bergen (LOB) Korpus des Britischen Englisch. Sie kommt zu dem Ergebnis, dass metonymische Konstruktionen mit diesen Verben selten vorkommen. Tatsächlich machen sie gerade mal ein halbes Prozent aller Verwendungen des Verbs begin aus. Metonymische Konstruktionen mit dem Verb finish sind etwas häufiger 21 . Die qualitative Untersuchung der Korpusbelege ist noch interessanter. Die Menge an Objektnomen, die Teil von metonymischen Konstruktionen mit begin und finish sind, ist nämlich ebenfalls sehr gering. Auf Seite 186 ihrer Dissertation listet Verspoor alle Beispiele auf und ordnet sie insgesamt 16 Kategorien zu. Dies sind u.a. • eat FOOD / MEAL (Essen, Mahlzeit) 21 Vgl. Verspoor (1997), S. 186. Lexikalische Semantik 37 • drink LIQUID (Flüssigkeiten) • smoke cigarette (Rauchwaren, aber z.B. nicht pipe (Pfeife)) • do business (Geschäfte) Die Beschränkung dieser Konstruktionen auf eine relativ kleine Zahl nominaler Kategorien scheint willkürlich zu sein und bedarf einer weiteren Deutung. Auch Pustejovsky und Bouillon 22 haben das Problem erkannt und schlagen vor, die Menge der Nomenkategorien, die in diesen metonymischen Konstruktionen Platz finden, durch eine reichere Qualiastruktur systematisch beschränken bzw. bestimmen zu können. Verspoor wählt einen anderen Weg, um diese Beschränkungen zu erklären. Sie vermutet, dass ein gewisser Grad an Konventionalisierung diese an sich ungewöhnlichen Konstruktionen lizensiert. Ein Nomen wird stärker an Verben gebunden, die typischerweise mit diesem Nomen vorkommen, und nur in diesen typischen Verbindungen ist diese metonymische Konstruktion akzeptabel 23 . Vorkommensfrequenz spielt also bei der Entscheidung, ob eine metonymische Konstruktion akzeptabel ist, eine Rolle. Verfeinerung der Regeln Mit Bezug auf Arbeiten von Godard und Jayez 24 und Pustejovsky und Bouillon 25 präsentiert Verspoor schließlich fünf Prinzipien, welche die Beschränkung von metonymischen Konstruktionen auf bestimmte Nomenklassen bestimmen und erklären helfen 26 . Die unakzeptablen Konstruktionen, die durch das jeweilige Prinzip ausgeschlossen werden, sind in Klammern hinter jedem Prinzip genannt. Die Beispiele entnehmen wir den Arbeiten von Verspoor und von Pustejovsky und Bouillon. 1. Die aspektuellen Verben (beginnen etc.) fungieren als Kontrollverben, d.h. dass das Subjekt des Matrixverbs auch das nicht-realisierte Subjekt der verkürzten Verbalphrase ist. Diese Regel erklärt, dass Beispiel (14) nicht wohlgeformt ist. 2. Die Nominalphrase in der metonymischen Konstruktion muss auf eine begrenzte Entität oder Menge referieren. Diese Einschränkung erklärt, warum Beispiel (16) nicht wohlgeformt ist. 3. Die Nominalphrase in der metonymischen Konstruktion muss sich auf ein Objekt beziehen und nicht auf ein Ereignis. In dem Satz Maria begann ihre Rede ist keine Inkompatibilität der semantischen Typen nachzuweisen, da sich das Objektnomen Rede bereits auf ein Ereignis bezieht. 22 Vgl. Pustejovsky und Bouillon (1995). 23 Vgl. Verspoor (1997), S. 188. 24 Vgl. Godard und Jayez (1993). 25 Vgl. Pustejovsky und Bouillon (1995). 26 Vgl. Verspoor (1997), Kapitel 5.5. 38 Lexikalische Semantik 4. Die standardmäßige Interpretation einer metonymischen Konstruktion bezieht sich auf die Umstände der Entstehung des Objektnomendenotats (die Agentive role) oder auf den Zweck (die Telic role). Die Standardinterpretationen werden deshalb von der lexikalischen Spezifikation des Objektnomens in dessen Qualiastruktur hergeleitet. Diese Regel schließt Beispiel (17) aus, bei dem dem Objektnomendenotat weder eine klare agentive Rolle noch eine klar telische Rolle zugeschrieben werden kann. 5. Ereignisverben unterscheiden sich in der Art und Weise ihrer Interaktion mit dem Kontext. In dieser Hinsicht unterscheiden sich begin und enjoy. Einige Verben, etwa enjoy, erlauben die Überdeckung der lexikalischen Bedeutung des Objektnomens durch den Kontext, und damit eine kontextuelle Umdeutung, andere Verben, etwa begin erlauben dies nicht. Das Verhältnis von Ereignisverben zum Kontext gehört zum Sprecherwissen, das in die Interpretation von Äußerungen einfließt. Auf diese Weise gelingt es, einige Äußerungen in sinnvoller Weise zu interpretieren. So ist das Beispiel (19) inakzeptabel, wohingegen Beispiel (20) im Kontext von Beispiel (18) sinnvoll interpretiert werden kann. Die Prinzipien beziehen sich auf die folgenden, zum Teil akzeptablen, zum Teil unakzeptablen, Beispiele: (14) *The acid began the marble (corrode) - Die Säure begann den Marmor (zersetzen) (15) John began the cheese / book (eat/ read) - John begann das Buch / den Käse (essen/ lesen) (16) *John began cheese / books (eat/ read) - John begann Bücher/ Käse (essen/ lesen) (17) *John began the stone (kick? ? ) - John begann den Stein (treten? ? ) (18) John will be audited by the tax service, so he has been destroying things which might incriminate him. He has destroyed the files and the computer disks. - Die Steuerprüfung wird Johns Unterlagen prüfen. Er hat bereits Dinge vernichtet, die ihn belasten könnten. Er hat Akten und Disketten vernichtet. (19) *He will begin the books tomorrow (destroy) - Er wird morgen die Bücher beginnen (vernichten) (20) He will begin on the books tomorrow (destroy) - Er wird morgen mit den Büchern beginnen (vernichten) (21) My goat likes to eat everything it finds. - Meine Ziege isst alles, was sie findet. Lexikalische Semantik 39 (22) In particular, it enjoyed your book (eat) - Besonders gern mochte sie dein Buch (essen). Es ist allerdings zu beachten dass keines der oben genannten Prinzipien Beispiel (11) ausschließt. Prinzip vier könnte wohl so ausgelegt werden, dass die Agentive role hier standardmäßig aktiviert wird und die Standardinterpretation die ist, dass John Regisseur oder Produzent ist. Im Falle des Buches wird allerdings zunächst die Telic role aktiviert, was bei der Interpretation mit unseren Erwartungen bzw. unserem Hintergrundwissen zu erklären ist: ein Buch wird eher gelesen als geschrieben. Brauchen wir die Qualiastruktur? Natürlich ist diese Frage polemisch, aber man sollte zumindest Verspoors Forderung nach einer genaueren Untersuchung ernst nehmen: More generally, an investigation of the motivation for qualia structure seems necessary at this juncture, including a theory of how qualia structure is acquired when learning a language and what dictates the inclusion of information in qualia structure in the lexicon. (Verspoor (1997), S. 204) 4 Relationale Semantik 4.1 Einführung Nachdem wir den Begriff der Bedeutung für einzelne sprachliche Zeichen ausführlich besprochen haben, wenden wir uns nun den relationalen Strukturen innerhalb des Lexikons zu. Es geht um die lexikalisch-semantischen Beziehungen zwischen sprachlichen Zeichen. Die Struktur des Lexikons einer Sprache enthält zwei Arten von Beziehungen: • PARADIGMATISCHE B EZIEHUNGEN und • SYNTAGMATISCHE B EZIEHUNGEN . Paradigmatische Beziehungen bestehen zwischen Wörtern, die in systematischer Weise bedeutungsverwandt sind. Meist betrifft dies Wörter derselben Wortart, z.B. halten/ festhalten, fleißig/ emsig, Wut/ Zorn. Alle Wortpaare sind Synonyme zueinander. Wörter können aber auch wortartübergreifend in Wortfamilien gruppiert sein, z.B. Wut, wütend, wüten. Neben den etablierten lexikalisch-semantischen Beziehungen kann man assoziative Beziehungen aufstellen, etwa zwischen Blume und duften. Ein wichtiger Aspekt paradigmatischer Relationen ist es, dass die Mitglieder einer solchen Relation in Satzkontexten gegeneinander austauschbar sind, wobei die Bedeutung des Satzes unverändert bleibt (Synonymie) oder sich in systematischer Weise verändert (etwa bei der Antonymie). Syntagmatische Relationen hingegen basieren auf dem gemeinsamen Vorkommen der so verbundenen Wörter in sprachlichen Äußerungen. Die bekanntesten syntagmatischen Beziehungen sind: die Kollokation (z.B. Tisch decken, Antrag stellen, gelber Sack), Funktionsverbgefüge (z.B. zum Abschluss bringen) und typische Verb-Komplement-Beziehungen wie Apfel essen. Letztere wurden wiederholt als Instanzen von Selektionsbeschränkungen oder Selektionspräferenzen modelliert, in dem Sinne, dass essen nur Lebensmittel in der Objektposition selegiert. 4.2 Paradigmatische Beziehungen Im Folgenden geben wir einen Überblick über die wichtigsten paradigmatischen Beziehungen zwischen lexikalischen Zeichen. Synonymie Die Synonymie verbindet Wörter mit gleicher (denotativer) Bedeutung, wie etwa Streichholz und Zündholz. Synonyme sind idealerweise in allen Kontexten austauschbar, ohne dass sich die Bedeutung des Kontextes verändert. Dies Lexikalische Semantik 41 ist allerdings in den wenigsten Fällen so, da sich auch scheinbar bedeutungsgleiche Wörter wie ordnen und aufräumen in subtilen Bedeutungsnuancen unterscheiden können, vgl. Beispiele (23) und (24). (23) Jenny ordnet ihre Papiere. (24) Jenny räumt ihr Büro auf. Plesionymie Plesionyme oder Quasi-Synonyme haben eine sehr ähnliche, aber eben nicht identische Bedeutung. Dies dürfte für weitaus mehr Wortpaare zutreffen als Bedeutungsgleichheit, also echte Synonymie. Eine detaillierte Diskussion der Plesionymie findet sich bei Edmonds und Hirst (vgl. Edmonds und Hirst (2002)). Ein gutes Beispiel ist das Wortpaar Handeln/ Tun. Das erste Wort hat eine eher positive Konnotation, das zweite Wort einen eher negativen Beigeschmack, was man anhand von Korpusbelegen überprüfen kann. Hyperonymie und Hyponymie Diese Beziehung zwischen Unter- und Oberbegriff sorgt für den hierarchischen Aufbau des Lexikons oder für die Ordnung des Vokabulars vom allgemeinsten Begriff (Ding, Handlung etc.) zum spezifischen Begriff (z.B. Plasmabildschirm). Plasmabildschirm und LCD-Bildschirm sind beides Hyponyme des gemeinsamen Hyperonyms Bildschirm. Cruse definiert die Beziehung der Hyponymie mit den Mitteln der (erlaubten) logischen Folgerungen zwischen Sätzen, die einen Oberbzw. Unterbegriff enthalten (vgl. Cruse (1986), S. 89ff.). Aus dem Satz In dieser Vase steht eine Rose folgt In dieser Vase steht eine Blume, nicht aber umgekehrt. Holonymie/ Meronymie Dies ist die Beziehung zwischen einem Ganzen (z.B. dem Holonym Rad) und seinen Teilen (z.B. den Meronymen Speiche, Nabe). Interessanterweise ist diese Beziehung nicht symmetrisch, wie das folgende Beispiel zeigt: (25) Apfelkuchen ist das Holonym zu Apfel. Zwar enthält jeder Apfelkuchen (hoffentlich) Äpfel, aber nicht jeder Apfel ist Teil eines Apfelkuchens, der Begriff Apfel kann daher nicht als Meronym zu Apfelkuchen beschrieben werden. Dies ist ein Grund, zwei verschiedene Relationen mit verschiedenen Richtungen anzusetzen. Weiterhin zeigt Roger Chaffin (vgl. Chaffin (1992)), dass die Beziehung der Holonymie bzw. Meronymie nicht zwangsläufig transitiv ist - im Ge- 42 Lexikalische Semantik gensatz etwa zur Relation der Hyperonymie/ Hyponymie. Betrachten wir die folgenden Beispiele: (26) The head IS PART OF the statue - Der Kopf ist Teil der Statue (27) The statue IS PART OF the Etruscan collection - Die Statue ist Teil der Etruskischen Sammlung (28) ? ? The head IS PART OF the Etruscan collection - Der Kopf ist Teil der Etruskischen Sammlung (29) Fingers ARE PART OF the hand - Finger sind Teil der Hand (30) The hand IS PART OF the arm - Die Hand ist Teil des Arms (31) ? ? Fingers are part of the arm - Finger sind Teil des Arms Die Beispiele (28) und (31) sind als Schlüsse aus den Beispielen (26) bzw. (29) und den Beispielen (27) bzw. (30) merkwürdig. Diese Merkwürdigkeit des Schlusses liegt laut Chaffin daran, dass die Teil-Ganzes-Beziehungen in den Beispielen (26) / (29) und (27) / (30) von verschiedener Art sind. In Beispiel (26) handelt es sich z.B. um eine Beziehung zwischen einem Teil einer Ganzheit, in Beispiel (27) um das Mitglied einer Kollektion. Bei den Beispielen (29) und (30) sind die Verhältnisse genau umgekehrt. Chaffin schlägt deshalb vor, die Teil-Ganzes-Relation in sieben Unterrelationen aufzuteilen 27 . • OBJECT : COMPONENT (z.B. Tasse : Griff ) • EVENT : FEATURE (z.B. Stierkampf : Torero) • COLLECTION : MEMBER (z.B. Wald : Baum) • MASS : PORTION (z.B. Brot : Scheibe) • PROCESS : PHASE (z.B. Begräbnis : Aussegnung) • AREA : PLACE (z.B. Wald : Lichtung) • OBJECT : STUFF (z.B. Fenster : Glas) Während also in den Beispielen (26) und (29) die Unterrelationen COMPO- NENT und MEMBER vermischt wurden, ist dies beim folgenden Beispiel nicht der Fall, der Schluss in Beispiel (34) ist deshalb gültig: (32) The carburator is part of the engine (COMPONENT) - Der Vergaser ist Teil des Motors (33) The engine is part of the car (COMPONENT) - Der Motor ist Teil des Autos (34) The carburator is part of the car (COMPONENT) - Der Vergaser ist Teil des Autos 27 Vgl. Chaffin (1992), S. 263. Tabelle 10.5. Lexikalische Semantik 43 Inkompatibilität Diese Relation besteht zwischen lexikalischen Einheiten 28 , die, wenn sie in einem Satz gegeneinander ausgetauscht werden, die Bedeutung der resultierenden Sätze umkehren, so dass die beiden Sätze einander widersprechen. Lyons unterscheidet drei Arten der Inkompatibilität: Antonymie: Die Antonymie umfasst Kontraste oder Extrempunkte bei skalierbaren Merkmalen (z.B. GROSS-KLEIN, KALT-WARM). Dazu zählen auch implizit skalierbare Merkmale wie z.B. VIELE-WENIGE. Die Gradierbarkeit ist hier implizit, da die Norm, nach der sich die Verwendung dieses Merkmals richtet, implizit ist. Wenn z.B. jemand sagt, er habe viel Geld für ein Produkt ausgegeben, so bezieht er sich auf eine Norm, also einen üblichen Preis. Diese Norm muss nicht von jedem geteilt werden. Der Hersteller des Produkts mag da ganz anderer Meinung sein. Komplementarität: Die Annahme, dass ein Prädikat eines komplementären Wortpaares auf etwas zutrifft, impliziert, dass das andere Prädikat des Wortpaares zugleich nicht darauf zutrifft. Beispiele für komplementäre Wortpaare sind LEBENDIG-TOT, MÄNNLICH-WEIBLICH, LE- DIG-VERHEIRATET. Komplementäre Wortpaare bezeichnen also binäre Merkmalspaare im Sinne eines Entweder-Oder. Konversion: Konversionspaare bezeichnen meist gegensätzliche Perspektiven auf eine Handlung oder ein Ereignis. Beispiele hierfür sind kaufen - verkaufen oder geben - nehmen. Bei diesen Beispielen sind sowohl syntaktische Transformationen als auch ein Wechsel der thematischen Rollen involviert. Zu einem vollständigen Bild der lexikalisch-semantischen Relationen gehören auch die syntagmatischen Relationen. Wir werden diese ausführlicher in Kaptitel 11 behandeln. 28 Als lexikalische Einheit (‚lexical unit‘) bezeichnen wir, Cruse (1986) folgend, ein sprachliches Zeichen, das genau aus einer Form und einer Bedeutung besteht. 5 Polysemie 5.1 Eine Vorbemerkung Lexikalische Zeichen können in verschiedenen Kontexten mit verschiedenen Bedeutungen verwendet werden. Wenn diese Bedeutungen systematisch unterscheidbar sind, dann wird sich dies in der lexikalischen Beschreibung dieser sprachlichen Zeichen niederschlagen. Ein lexikalisches Zeichen kann dabei, wie wir noch sehen werden, als Homonym oder als Polysem behandelt werden. Eine Alternative zur einfachen Auflistung von Lesarten im Wörterbuch ist es, lexikalische Regeln zu formulieren, die reguläre Bedeutungsverschiebungen oder Bedeutungserweiterungen generisch formulieren und dementsprechend von jedem passenden Wörterbucheintrag referenziert werden können. Da solche Regeln nicht gut für menschliche Benutzer von Printwörterbüchern geeignet sind, bietet sich diese Vorgehensweise vor allem für elektronischen Wörterbücher an. Wir werden in Kapitel 7 ausführlicher auf lexikalische Regeln und die Konsequenzen ihrer Anwendung auf das Wörterbuchdesign eingehen. 5.2 Einleitung Das Phänomen der Polysemie lexikalischer Zeichen ist von zentraler Bedeutung für die Organisation des Lexikons. Mit Cruse (vgl. Cruse (1986), S. 76) definieren wir LEXIKALISCHE E INHEIT als ein Paar aus einer lexikalischen Form und einer Wortbedeutung. Ein polysemes sprachliches Zeichen umfasst damit mehrere formgleiche lexikalische Einheiten. Das sprachliche Zeichen Tafel kann z.B. eine von drei lexikalischen Zeichen referenzieren - das Schreibgerät, den festlichen Tisch oder die Form, in der Schokolade verkauft wird. Das Gegenstück zur Polysemie auf der Ebene des Sprachgebrauchs ist die A MBIGUITÄT . Ein ambiges Textwort kann auf mehrere lexikalische Einheiten abgebildet werden. Wenn wir dem Wort Tafel im Text begegnen, ist dieses im Sinne der o.g. lexikalischen Zeichen ambig. Die Auswahl genau einer lexikalischen Einheit als Gegenstück eines ambigen Textworts nennt man D ISAMBIGUIERUNG . Sprachtechnologische Anwendungen, deren Erfolg von der Disambiguierung von Textwörtern abhängt, benötigen kontextuelle Hinweise, um die passende lexikalische Einheit zu ermitteln. So sind z.B. die Kontextwörter Schule oder schreiben geeignet, um das Textwort Tafel als ‚Schreibfläche‘ zu disambiguieren. Polysemie ist ein Begriff, der theoretisch schwer zu fassen ist. Er bezeichnet die Beziehung zwischen einer lexikalischen Form und mindestens zwei Lexikalische Semantik 45 lexikalischen Bedeutungen. Lexikalische Bedeutungen sind selbst theoretische Konstrukte. Sie sind nicht beobachtbar und unterliegen damit immer der Willkür verschiedener Interpretationen, mit Folgen für die lexikographische Praxis und ihre Produkte. Die zentralen Fragen in Bezug auf die Polysemie sind daher: Wie viele Bedeutungen hat eine lexikalische Form? Welche Bedeutung eines Wortes wird in einem bestimmten Kontext aktiviert? Es gibt zwei Wege, das Polysemieproblem anzugehen und Antworten auf diese beiden Fragen zu finden: 1. Der erste Weg besteht in einer deduktiven Grundlegung des Begriffs der P OLYSEMIE , also seiner Herleitung aus grundlegenden linguistischen Prinzipien. Dies sollte zu einer intensionalen Definition 29 des Begriffs führen. Hieraus wiederum sollten sich operationale Kriterien ableiten lassen, mit deren Hilfe es sich konsistent entscheiden lässt, ob ein sprachlichen Zeichen polysem ist, und, wenn ja, wie viele Bedeutungen es hat. 2. Der zweite Weg führt über die lexikographische Praxis. Man kann versuchen, aus bekannten lexikographischen Prozessen den idealen lexikographischen Umgang mit Polysemie zu rekonstruieren. Man kann mit einem bestimmten, möglichst maßgeblichen Wörterbuch beginnen und die lexikographischen Entscheidungen, die im Einzelfall zu einer Aufteilung in verschiedene Lesarten führten, nachvollziehen. Wir werden hier beide Wege einschlagen. Zunächst werden wir eine vorläufige Definition des Begriffs Polysemie entwickeln. Diese muss möglicherweise verändert werden, wenn wir beide Arten des Umgangs mit Polysemie näher betrachtet haben. 5.3 Eine vorläufige Definition Beginnen wir mit zwei Definitionen aus der Literatur zu diesem Thema: Polysemie (Mehrdeutigkeit) liegt vor, wenn ein Ausdruck zwei oder mehr Bedeutungen aufweist, die allesamt etwas gemeinsam haben und sich meist aus einer Grundbedeutung ableiten lassen. (Bußmann (1990), Artikel Polysemie) A word with (at least) two entirely different meanings yet sharing a lexical form is said to be homonymous [...] while a word with several related senses is said to be polysemous [...] (Ein Wort mit mindestens zwei komplett verschiedenen Bedeutungen, die dieselbe lexikalische 29 Die Intension eines Begriffs ist dessen logischer Inhalt, während die Extension der Umfang eines Begriffes mit Bezug auf die von diesem Begriff bezeichneten Objekte ist. 46 Lexikalische Semantik Form haben, wird homonym genannt. Ein Wort mit mehreren verbundenen Bedeutungen ist polysem.) (vgl. Lyons (1977)) Ein charakterisierendes Merkmal der Polysemie, das in beiden Definitionen genannt wird, erweist sich allerdings bei näherem Hinsehen als unzureichend. Ein Wort kann mehrere Bedeutungen haben und dennoch nicht polysem sein. Betrachten wir die Ambiguität im folgenden Satz: Ich mag diese Jacke. In Sätzen wie diesen ist die Bedeutung von Jacke unterspezifiziert. Mit diesem Satz kann man auf den Typ referieren (die Jacke mit dem Fellkragen) oder auf ein bestimmtes Exemplar (die Jacke da hinten rechts, sie riecht ganz besonders). Hier liegt eine reguläre Unterscheidung in Typ und Exemplar vor. Normalerweise wird man diese regelmäßige und transparente Bedeutungsvarianz nicht als zwei verschiedene Bedeutungen eines sprachlichen Zeichens betrachten. Es empfiehlt sich, hier von durch den Kontext evozierten Aspekten der Bedeutung zu sprechen. In gleicher, unterspezifizierter Weise, kann der Ausruf Löwe! auf ein bestimmtes Tier, den Geruch eines Löwen, die Spur eines Löwen usw. referieren 30 . [P]olysemy is a concept at a crossroads which must be understood in terms of its relation to homonymy, alternations, collocations and analogy [...] (Kilgarriff (1992), S. 8) Kilgarriffs Charakterisierung der Polysemie wird der Komplexität des Phänomens gerechter. Er stellt eine Beziehung her zwischen der Polysemie im Zentrum und Homonymie auf der einen Seite, regulärer Bedeutungsalternanz auf der anderen Seite. Polysemie steht so in der Mitte eines Kontinuums. Der Begriff ist in dem Sinne unscharf, als es keine klaren, unabhängigen Grenzen zwischen Polysemie und Homonymie einerseits und Polysemie und Bedeutungsalternanz andererseits gibt. In der praktischen lexikographischen Arbeit müssen solche Grenzen natürlich gezogen werden, aber dies sind praktische Erwägungen und können sich nicht auf klare linguistische Kriterien berufen. Nachdem wir nun drei Definitionen aus der Literatur analysiert haben, wollen wir nun eine eigene vorläufige Definition des Begriffs geben. Definition 1. Ein polysemes Wort verbindet eine lexikalische Form mit mindestens zwei Bedeutungen. Diese Bedeutungen sind in mindestens einem Aspekt miteinander verbunden, z.B. bei der lexikalischen Form ‚Birne‘als Frucht und als Leuchtkörper über das Element der Form (im Gegensatz zur Homonymie). Für jeweils zwei Bedeutungen dieses Wortes gilt, dass die eine Bedeutung nicht aus der anderen Bedeutung mithilfe allgemeiner Regeln hergeleitet werden kann (im Gegensatz zur Bedeutungsalternanz). 30 Quine verwendet mit ‚Gavagai‘ ein ähnliches Beispiel, vgl. Quine (1960), Kapitel 1, unser Beispiel orientiert sich daran. Lexikalische Semantik 47 Definition 2. Eine Bedeutung eines Wortes repräsentiert einen Verwendungstyp. Der Verwendungstyp eines Wortes wird aus hinreichend ähnlichen Verwendungen eines Wortes abstrahiert. Das Wort ist in diesen Verwendungen frei mit anderen Wörtern kombiniert, bildet mit diesen also keine feste Wendung. Mit diesen beiden Definitionen wird Polysemie aus der Wortbedeutung und Wortbedeutung aus den Verwendungsweisen eines Wortes hergeleitet. Die Verwendungsweisen eines Wortes lassen sich z.B. in einem Textkorpus beobachten und analysieren. Der Begriff der Polysemie wird auf diese Weise empirisch fundiert. Es muss sich allerdings in der Praxis erweisen, ob die Kriterien für die Abgrenzung zwischen Polysemie und Homonymie einerseits und zwischen Polysemie und Bedeutungsalternanz anderseits operationalisierbar sind, ob sie also in den meisten Fällen zu konsistenten und nachvollziehbaren Entscheidungen führen. 5.4 Polysemie und Homonymie Die Unterscheidung zwischen Polysemie und Homonymie betrifft u.a. das praktische Problem, wie viele Einträge für eine lexikalische Form (ein Lemma) in einem Wörterbuch angesetzt werden sollten. Wir haben bereits das von Lyons aufgestellte Kriterium für diese Unterscheidung genannt: Wenn zwei Bedeutungen in irgendeiner Weise miteinander verbunden sind, dann sind dies zwei Bedeutungen eines polysemen lexikalischen Zeichens. Wenn die Bedeutungen nicht miteinander verbunden sind, dann handelt es sich um zwei unabhängige sprachliche Zeichen mit jeweils einer dieser beiden Bedeutungen. In der Praxis wird die Unterscheidung zwischen Polysemie und Homonymie auf Grund der folgenden Kriterien getroffen: • Formales Kriterium: Wenn zwei lexikalische Zeichen zwar die gleiche Grundform haben, sich aber in der Aussprache unterscheiden oder in ihren Vollformen, dann sind diese beiden sprachlichen Zeichen homonym. Ein Beispiel für die verschiedene Aussprache bei gleicher Form ist modern, das einmal auf der ersten Silbe betont wird und einmal auf der zweiten Silbe. Ein Beispiel für die gleiche Grundform und verschiedene Vollformen ist hängen, das in einem Fall die Vollformen hing, gehangen etc. hat, im anderen Fall die Vollformen hängte, gehängt. Diese formalen Unterschiede korrelieren meist mit weiteren morphologischen, syntaktischen oder semantischen Unterschieden. Im ersten Beispiel gehören die beiden lexikalischen Zeichen unterschiedlichen Wortklassen an, im zweiten Fall bestehen Unterschiede im Valenzrahmen der beiden Verben. 48 Lexikalische Semantik • Semantische und logische Kriterien: Wenn kein Zusammenhang zwischen den Bedeutungen zweier formgleicher sprachlicher Zeichen hergestellt werden kann, dann werden diese als Homonyme behandelt. Dies ist z.B. bei Schloss (‚Art von Gebäude‘ und ‚Schließvorrichtung‘) der Fall. • Etymologische Kriterien: wenn zwei formgleiche lexikalische Zeichen sich sprachgeschichtlich aus unterschiedlichen sprachlichen Zeichen entwickelt haben und die Form beider Zeichen sich erst im Laufe der Geschichte einander angeglichen haben, dann werden diese beiden Zeichen als Homonyme behandelt. Dies ist z.B. bei Bank der Fall. Die Perspektive auf diese Unterscheidung ist in den ersten beiden Fällen synchron, geht also von der gegenwärtigen Sprachverwendung aus. Im letzten Fall ist sie diachron, setzt also Kenntnisse der Sprachgeschichte voraus. Die Perspektive auf die gegenwärtigen Sprachverhältnisse scheint uns die bessere zu sein, da man vom durchschnittlichen Sprachbenutzer keine Kenntnisse der sprachgeschichtlichen Verhältnisse erwarten kann. Die Unterscheidung nach etymologischen Kriterien ist damit eine Übung für Spezialisten und dürfte z.B. bei den meisten Benutzern von Wörterbüchern keine Rolle spielen. Die Diversität der Kriterien erschwert die Ermittlung von operationalen Verfahren, mit denen Homonyme von Polysemen so unterschieden werden können, dass diese Unterscheidung unumstritten und für jeden nachvollziehbar ist. Lyons empfiehlt daher an anderer Stelle, diese Entscheidung einfach zu umgehen. Er schlägt zwei alternative Vorgehensweisen vor: • Homonyme maximieren: Für jede Bedeutung einer lexikalischen Form wird ein neuer Wörterbucheintrag angesetzt. In einem Printwörterbuch würde dies zu einer intolerablen Vervielfachung von Einträgen führen. Auch die Suche nach der gerade benötigten Bedeutung würde wahrscheinlich kompliziert werden. In einem Wörterbuch für den Computer, also für sprachtechnologische Pogramme, könnten weitere Mechanismen wie die Vererbung von Eigenschaften diese Probleme lösen. Auch die Suche in diesen Strukturen stellt kein Problem dar. Es bleibt allerdings ein Vorbehalt gegenüber dieser Lösung: Beziehungen zwischen Bedeutungen sprachlicher Zeichen, die miteinander verbunden sind, lassen sich in einer solchen Struktur nur mit zusätzlichen Mitteln ausdrücken. • Polyseme maximieren: Diese Strategie geht davon aus, dass keine zwei lexikalischen Einheiten komplett verschieden sind, wenn sie sich syntaktisch nicht unterscheiden und die Menge der Vollformen beider sprachlichen Zeichen gleich ist. Eine Konsequenz dieser Lösung könnte sein, dass bei lexikalischen Formen mit sehr vielen Bedeutungen (z.B. im Deutschen halten) die Wörterbuchartikel leicht unübersichtlich werden. Lexikalische Semantik 49 Welche Strategie man wählt, das hängt letztlich von weiteren Entscheidungen ab wie der Zielgruppe der lexikalischen Ressource, dem Medium, in dem diese erstellt wird, der lexikographischen Tradition, etc. 5.5 Polysemie und Bedeutungsalternanz Der Begriff der Bedeutungsalternanz oder regulären Polysemie ist im Kontext der generativen Grammatik bzw. generativen Semantik von großer Bedeutung. Es passt gut in das Konzept des generativen Lexikons, das wir bereits in Abschnitt 3.3 dieses Kapitels eingeführt haben. Reguläre Polysemie ist das Ergebnis von Prozessen der Bedeutungserweiterung oder Bedeutungsalternanz, die durch die Verwendung eines sprachlichen Zeichens in verschiedenen, systematisch zusammenhängenden Kontexten ausgelöst werden. Dies ist ein produktiver Prozess, solange ein lexikalisches Zeichen in unterschiedlichen Kontexten verwendet wird. Im Rahmen des generativen Lexikons wird reguläre Polysemie durch lexikalische Regeln und Beschränkungen der Anwendung dieser lexikalischen Regeln modelliert. Diese Art der Modellierung trägt der Tatsache Rechung, dass reguläre Polysemie ein produktiver Prozess ist und alle zukünftigen Bedeutungserweiterungen und Bedeutungsalternanzen sich nicht in einer statischen Liste von lexikalischen Einheiten erfassen lassen. Sehen wir uns z.B. die Alternanz von ‚verzehrbarer Substanz‘ - ‚Portion dieser Substanz‘an: (35) Mary drank two glasses of whiskey. (36) Mary drank two whiskeys. Diese Bedeutungserweiterung (von Substanz um Portion dieser Substanz) wird durch einen Wechsel in der Klasse des Nomens begleitet. Im ersten Beispiel gehört das Nomen der Klasse der unzählbaren Nomen an, im zweiten Beispiel der Klasse der zählbaren Nomen. Diese Bedeutungserweiterung kann auf viele, wenn nicht alle trinkbaren Flüssigkeiten und essbaren Substanzen angewendet werden. Pustejovsky (1991) nennt eine Reihe logischer Mehrdeutigkeiten, die auf die komplexe Struktur der beteiligten sprachlichen Zeichen zurückgeführt werden können. Sie sind das Ergebnis der Wechselwirkung von sprachlichem Zeichen und Kontext, nicht das Ergebnis eines Bedeutungswechsels dieses sprachlichen Zeichens. Im Folgenden geben wir die Liste wieder, die sich in dem erwähnten Aufsatz findet (Pustejovsky (1991), S. 432), und illustrieren jede dieser Ambiguitäten mit einem Beispiel. 50 Lexikalische Semantik Alternanz zwischen zählbarem Nomen und unzählbarem Nomen: (37) Wir haben gestern einen Hasen gesehen. (38) Wir haben gestern Hase mit Rotkohl gegessen. Alternanz zwischen Behältnis und Inhalt: (39) Dies ist ein sehr großes Glas. (40) Wir haben dann noch zwei Gläser getrunken. Alternanz zwischen Figur und Hintergrund: (41) Wir haben die Fenster weiß gestrichen. (42) Der Dieb kam durchs Fenster. Alternanz zwischen Produzenten und Produkt: (43) VW hat einen drastischen Stellenabbau angekündigt. (44) Ich fahre meinen VW jetzt seit über zehn Jahren und bin zufrieden. Alternanz zwischen Pflanze, Holz und Frucht: (45) Die Kirsche da hinten will ich dieses Jahr fällen lassen. (46) Ich habe mich bei meinem neuen Schlafzimmer diesmal für Kirsche entschieden. (47) Diese Kirsche war sehr süß und saftig. Sind alle so? Alternanz zwischen Prozess und Ergebnis: (48) Der Neubau (der Brücke) wird ein Vermögen kosten. (49) Der Neubau war nicht zur geplanten Zeit bezugsfertig. Alternanz zwischen Zustand und Gegenstand: (50) Gehacktes / Die Illustrierte / Das Geblümte (Kleid) Alternanz zwischen Ort und Bewohnern: (51) Ich habe letztes Jahr Warschau besucht. (52) Warschau hat diesmal die Bürgerplattform gewählt. Es gibt noch weitere Bedeutungsalternanzen, die auf Gruppen von lexikalischen Zeichen zutreffen 31 . 31 Vgl. Buitelaar (1998). Lexikalische Semantik 51 Einige dieser Bedeutungsalternanzen sind völlig transparent und treffen auf eine offene Liste von lexikalischen Zeichen zu, z.B. die Alternanz zwischen Ort und Bevölkerung. Es ist deshalb zumindest bei elektronischen Wörterbüchern zu empfehlen diese Alternanz als lexikalische Regel zu formulieren. Menschliche Benutzer eines Printwörterbuchs werden wahrscheinlich sogar ohne diese Information auskommen, da für sie diese Alternanz selbstverständlich ist. Lexikalische Regeln dieser Art werden von Briscoe und Copestake aufgestellt 32 . Sie nennen das Phänomen KONSTRUKTIVE P OLYSEMIE (‚constructional polysemy‘). Desweiteren führen sie auch Beschränkungen für diese Regeln ein. Diesen Beschränkungsmechanismus nennen sie B LOCKIERUNG (‚blocking‘). Es gibt einige Tests, mit deren Hilfe man feststellen kann, ob ein lexikalisches Zeichen wirklich polysem bzw. ambig ist (Fall 1) oder ob eine Bedeutung des Zeichens eine reguläre Erweiterung bzw. Alternanz einer anderen Bedeutung ist (Fall 2). Einige Konstruktionen führen zur Anomalie in Fall 1, aber nicht, wenn Fall 2 vorliegt: • Z EUGMA ist eine Koordination, in welcher ein Prädikat mit syntaktisch oder semantisch inkompatiblen Argumenten verbunden wird. Ein Zeugma entsteht nur bei echt polysemen Argumenten, vgl. (53) vs. (54). • Überkreuz-Lesarten (‚cross-readings‘). Dieser Test lässt sich auf Koordinations-Strukturen anwenden. Überkreuzlesarten sind nicht verfügbar bei Beispiel (55), aber bei Beispiel (56). (53) *I tried to take the plane to Chicago, but it was too heavy. (Ich wollte das Flugzeug nach Chicago nehmen, aber es war zu schwer.) (54) That book has thousands of pages and is quite unreadable. (Das Buch hatte mehrere Tausend Seiten und ist nur schwer zu lesen.) (55) Susi und Gabi haben Ponys. (56) Susi und Gabi hoben ihre Hand. Eine Interpretation von Beispiel (55), nach der Susi ein kleines Pferd und Gabi eine bestimmte Frisur haben, ist nicht möglich. Es ist allerdings möglich, dass Susi ihre linke Hand und Gabi ihre rechte Hand hoben. Dieses Testergebnis bestätigt, dass Pony ‚Pferd‘ und Pony ‚Frisur‘ zwei verschiedene Bedeutungen dieses lexikalischen Zeichens sind, wohingegen rechte Hand und linke Hand unter das lexikalische Zeichen ‚Hand‘ subsumiert werden kön- 32 Vgl. Briscoe und Copestake (1991). 52 Lexikalische Semantik nen, das lexikalische Zeichen ist unterspezifiziert hinsichtlich der Seitigkeit der Hand 33 . Kilgarriff (1997) kritisiert diese Tests mit den folgenden Argumenten: • In vielen Fällen ist es schwierig, Testsätze zu konstruieren. Dies ist gänzlich unmöglich bei Koordinationsstrukturen, wenn zwei Lesarten eines lexikalischen Zeichens mit Unterschieden in der syntaktischen Distribution einhergehen. • Die Sätze müssen von Muttersprachlern auf ihre Akzeptanz hin bewertet werden. Dabei ist es allerdings schwierig, die linguistischen Unterschiede von den nichtlinguistischen Unterschieden zwischen den Testsätzen zu trennen. Beides aber beeinflusst die Urteile der Testpersonen. Es muss konkreten Untersuchungen überlassen bleiben, die Frage zu klären, ob sich linguistische Aspekte der Testsätze von den pragmatischen Aspekten („Könnte ich unter bestimmten Umständen diesen Satz nicht doch verwenden bzw. verstehen und akzeptieren? “) trennen lassen. Lascarides und Copestake haben dies jedenfalls versucht 34 . Wir müssen zugeben, dass wir bei unserem Versuch, Polysemie intensional zu definieren, nicht besonders weit gekommen sind. Wir müssen letztendlich Kilgarriffs skeptischer Einschätzung zustimmen, dass Polysemie kein Begriff ist, der sich innerhalb einer semantischen Theorie präzise bestimmen lässt. Im nächsten Abschnitt werden wir beschreiben, wie Lexikographen in der praktischen Wörterbucharbeit mit dem Problem der Polysemie und der Bedeutungsunterscheidung umgehen. Wir werden zeigen, wie die Lexikographie den Begriff der Wortbedeutung mit dem Begriff des Verwendungstyps verknüpft. Wir sind bereits früher in diesem Kapitel darauf eingegangen. 5.6 Die Sichtweise der Lexikographie Der lexikographische Prozess Wie gehen Lexikographen das Problem der Bedeutungsunterscheidung an? Zunächst gibt es eine gewisse Tradition in der Lexikographie, sich bei der Erstellung neuer Wörterbücher an existierenden Wörterbüchern und den dort vorgenommenen Bedeutungsunterscheidungen zu orientieren. Damit ist das Problem auf eine sehr einfache Weise gelöst: man übernimmt die Bedeutungsunterscheidungen, die bereits etabliert sind. Wir möchten diese Praxis aber nicht als Modell für unsere Betrachtungen des lexikographischen Prozesses verwenden. 33 Die Beispiele (53), (54) und (55) sind Lascarides und Copestake (1996) entnommen bzw. nachgebildet. Beispiel (56) ist einem Beispiel von Kilgarriff (1997) nachgebildet. 34 Vgl. Lascarides und Copestake (1996). Lexikalische Semantik 53 Unser idealer Lexikograph ist wirklich an einer linguistisch begründeten und am Sprachgebrauch orientierten Bedeutungsunterscheidung interessiert. Er hat für diese Aufgabe ein großes Textkorpus zur Verfügung, das den aktuellen Sprachgebrauch in ausgewogener Weise dokumentiert. Aus diesem Korpus entnimmt er Belege, die ihm helfen, begründete Entscheidungen zu treffen. Für den Rest dieses Kapitels wollen wir außerdem, vielleicht unrealistischerweise, annehmen, dass weder zeitliche noch sonstige Restriktionen die lexikographischen Entscheidungen beeinflussen. Unser Lexikograph sieht sich einer endlichen Menge von Belegen für die Verwendung eines lexikalischen Zeichens gegenüber. Er wird eine Liste von Belegen in Form einer Konkordanz für die Vorkommen dieses lexikalischen Zeichens bekommen. Zunächst wird er, eventuell mit Unterstützung der von ihm verwendeten Software, die Belege so gruppieren, dass jede Gruppe einen bestimmten Verwendungstyp repräsentiert. Kilgarriff beschreibt diesen Teil der lexikographischen Arbeit wie folgt. Für jedes Wort muss der Lexikograph 1. eine Konkordanz der Verwendungsinstanzen abrufen; 2. die Verwendungsinstanzen in Cluster aufteilen, so dass nach Möglichkeit die Mitglieder jedes Clusters sehr viel miteinander und möglichst wenig mit den Mitgliedern des anderen Clusters gemeinsam haben; 3. für jedes Cluster die gemeinsamen Merkmale herausarbeiten. Dabei können die Cluster durchaus noch einmal neu organisiert werden; 4. Schlüsse auf die Bedeutungen bzw. Lesarten des lexikalischen Zeichens ziehen und diese Schlüsse in die spezifische Sprache der lexikographischen Bedeutungsbeschreibungen übertragen. Die Entscheidungen hinsichtlich der Unterteilung eines lexikalischen Zeichens in Lesarten sind meist stark subjektiv. Dies könnte man an Hunderten, wenn nicht gar Tausenden von Beispielen belegen, bei denen sich die Unterteilung in Lesarten von Wörterbuch zu Wörterbuch unterscheidet. Kilgarriff stellt fest, dass der dritte der oben beschriebenen Schritte ein höchst fehleranfälliger Versuch ist, intuitive Kriterien bei der Gruppenbildung nachträglich zu explizieren (vgl. Kilgarriff (1997)). Ein nicht zu vermeidendes Dilemma der lexikographischen Arbeit ist es, dass abstrakte Bedeutungen aus einer endlichen und in vielen Fällen sehr kleinen Menge von Belegen gewonnen werden müssen. Das Sprachsystem, das zumindest in einem Aspekt, dem lexikalischen, beschrieben werden soll, ist aber unendlich und unterliegt permanenten Veränderungen. Letztendlich heißt dies, dass ein gedrucktes Wörterbuch, wenn es erscheint, in einigen Aspekten schon wieder veraltet ist. 54 Lexikalische Semantik Die Trenner und die Zusammenfasser Hinsichtlich der Gruppierung von Belegen zu Verwendungsmustern kann man zwei Typen von Lexikographen unterscheiden: die Zusammenfasser (englisch: ‚lumper‘) und die Trenner (englisch: ‚splitter‘). Die Zusammenfasser sind bemüht, so wenige Gruppen wie möglich aus den Daten zu gewinnen, um die Zahl der Lesarten für ein lexikalisches Zeichen möglichst gering zu halten. Sie neigen dazu, feinere Bedeutungsunterscheidungen zu ignorieren. Die Trenner hingegen berücksichtigen so viele Unterschiede in den Verwendungsweisen wie möglich. Praktische Erwägungen und Festlegungen in konkreten Wörterbuchprojekten legen der lexikographischen Arbeit beider Gruppen jedoch Grenzen auf. Zumeist kommen diese Festlegungen den Zusammenfassern entgegen. SFIP - eine Faustregel Kilgarriff entwickelt eine Faustregel für die praktische lexikographische Arbeit der Bedeutungsunterscheidung. Ein Verwendungsmuster, das zu einer Lesart abstrahiert wird, sollte hinreichend häufig belegt sein (‚sufficiently frequent‘ - SF) und nicht hinreichend erschließbar aus anderen Verwendungsweisen (‚insufficiently predictable‘ - IP), vgl. Kilgarriff (1997): [...] if the instance exemplifies a pattern [of usage] which is sufficiently frequent, and is insufficiently predictable from other meanings or uses of the word, then the pattern qualifies for treatment as a dictionary sense [...] (Kilgarriff (1997), S. 12) Erstens sollte also ein Cluster groß genug sein und nicht nur ein oder zwei Korpusbelege enthalten. Dies ist natürlich schwierig zu realisieren für Wörter, die insgesamt nur sehr selten vorkommen. Allerdings werden Wörter, die nur sehr selten vorkommen, meistens nur eine Bedeutung haben und das Problem der Bedeutungsunterscheidung stellt sich gar nicht. Zweitens sollten die Bedeutungen, die sich aus den Verwendungsmustern ableiten lassen, nicht aus einer Kernbedeutung des Wortes regulär ableitbar sein. In Kilgarriffs Worten: A usage type is [...] predictable if language learners or users familiar only with a core sense for the word in question could, on hearing the word in a context demanding some other reading, correctly interpret it and draw appropriate inferences. (Kilgarriff (1992), S. 52) Wir werden, um das soeben Gesagte zu veranschaulichen, aus der Arbeit von Kilgarriff (vgl. 1997) einige Beispiele zum Stichwort handbag zitieren: Lexikalische Semantik 55 (57) She bought a new handbag (sie kaufte eine neue Handtasche) 35 . (58) [...] determined women armed with heavy handbags (entschlossene Frauen, mit schweren Handtaschen bewaffnet). (59) [...] tension mounted between trendy regulars [...] and the Hitman’s handbag brigade (die Spannung zwischen den Stammgästen und Hitman’s Handtaschenbrigade wuchs an). Diese Belege sollen drei Verwendungsmuster des Wortes repräsentieren: • ein Accessoire der weiblichen Garderobe (häufige Verwendung); • eine Waffe (ebenfalls häufig, aber als metaphorische Verwendung vorhersagbar); • Utensil eines weiblichen oder eher noch homosexuellen Discobesuchers (selten verwendet, nicht vorhersagbar). Die durch das Korpus belegte häufige Verwendung von handbag als Waffe würde diese Lesart für die Aufnahme in ein Wörterbuch qualifizieren. Diese Bedeutung ist allerdings aus der Kernbedeutung herleitbar, da jeder schwere, bewegliche Gegenstand auch als Waffe verwendet werden kann. Auf diese Lesart kann also verzichtet werden, vor allem wenn Platzgründe gegen eine Aufnahme sprechen. Die Lesart als Waffe kann als reguläre Bedeutungsalternanz charakterisiert werden. Dafür spricht, dass das folgende Beispiel kein Zeugma ist: (60) I used my knife and Mary used her handbag, and so we got rid of the gang (ich benutzte das Messer und Marie ihre Handtasche, und so schlugen wir die Bande in die Flucht). Die sehr spezielle Lesart, die in Beispiel (59) illustriert wird, ist zu selten, um als Lesartenkandidat für ein allgemeinsprachliches Wörterbuch in Frage zu kommen. Ein Wörterbuch einer bestimmten Gruppensprache hingegen mag es aufführen. Was wir aus den Einblicken in die lexikographische Praxis bisher lernen konnten: • Es gibt kein objektives Kriterium für eine Bedeutungsunterscheidung und die Ableitung von Bedeutungen aus Verwendungsmustern. Bereits die Zusammenfassung zu Verwendungsmustern ist abhängig von den Korpusdaten, die dem Lexikographen zur Verfügung stehen. Die einzelnen Entscheidungen sind deshalb heuristisch und von Faustregeln geleitet. • Der individuelle Stil und die Vorlieben der Lexikographen führen zu zwei Arbeitsweisen: dem Trennen und dem Zusammenfassen. Bedeutungsbe- 35 Dies ist ein erfundenes Beispiel. 56 Lexikalische Semantik schreibungen können deshalb auch als Post-hoc-Rechtfertigungen dieser Strategien gelesen werden. Das bisher gezeichnete Bild des lexikographischen Prozesses veranlasst Kilgarriff denn auch zu seiner provokanten Einschätzung des Wertes von Wörterbüchern und der dort kodierten Informationen für sprachtechnologische Anwendungen und für die Aufgabe der automatischen Bedeutungsbestimmung von Textwörtern im Besonderen: The implication for WSD [word sense disambiguation] is that word senses are only ever defined relative to a set of interests. The set of senses defined by a dictionary may or may not match the set that is relevant for an NLP [Natural Language Processing] application [...] One leading lexicographer doesn’t believe in word senses. I don’t believe in word senses, either. (Kilgarriff (1997), S. 18) 5.7 Unterspezifizierung Das Konzept der Polysemie wurde auch im Rahmen der Zwei-Ebenen- Semantik behandelt (vgl. Bierwisch (1983), Wunderlich (1997)). Der Ansatz, mit dem die Polysemie im Rahmen dieser Theorie beschrieben wird, ist die sog. U NTERSPEZIFIZIERUNG . Die Vertreter der Zwei-Ebenen-Semantik stellen fest, dass die semantische Repräsentation von lexikalischen Einheiten in verschiedener Weise unterspezifiziert sein kann. Wir werden den theoretischen Rahmen der Zwei-Ebenen-Semantik in Kapitel 4 beschreiben. Die zwei Ebenen der Wortbedeutung, die in dieser Theorie getrennt werden und ihr ihren Namen gaben, sind die Logische Form eines sprachlichen Ausdrucks (LF) und die konzeptuelle Form (CF). Das Konzept der Unterspezifizierung ist die theoriespezifische Antwort auf das Phänomen der regulären Polysemie. Regulär polyseme lexikalische Zeichen werden interpretiert, indem Regeln auf eine unterspezifizierte Bedeutungsrepräsentation angewendet werden. Mithilfe der Regeln werden diese Zeichen in einer für die Interpretation des Ausdrucks ausreichenden Weise spezifiziert. Diese Regeln gehören der konzeptuellen Ebene an. Auch der Kontext eines Textworts im sprachlichen Ausdruck und der außerlinguistische Kontext der Äußerung werden in Betracht gezogen. Als Beispiel wollen wir die in verschiedenen Beziehungen zueinander stehenden Bedeutungen des Wortes Universität in den folgenden Sätzen betrachten. (61) An diesem Freitag morgen verließ Bill die Universität und nahm ein Taxi. (Universität → Gebäude) Lexikalische Semantik 57 (62) Zwei Jahre lang lehrte Bill an der Universität Osnabrück. (Universität → Institution) (63) Die Universität erstreckt sich mittlerweile über das gesamte Gelände hinter dem Bahnhof. (Universität → Campus) (64) Die Universität ist eine typisch europäische Institution, die im Hochmittelalter entstand. (Universität → Bildungsprinzip) (65) Die Universität macht übermorgen einen Betriebsausflug. (Universität → Gesamtheit der Beschäftigten der Institution) Die Zusammenhänge zwischen den Bedeutungen des Wortes Universität in diesen Beispielen werden von der Zwei-Ebenen-Semantik als konzeptuelle Verschiebungen einer radikal unterspezifizierten Grundbedeutung beschrieben. Diese unterspezifizierte Grundbedeutung lässt sich als Bedeutungspostulat etwa in der folgenden Form darstellen: (66) λ ( X ) PURPOSE( X , W ) & PROCESS OF HIGHER EDUCATI- ON( X , W ) 36 . Kontextuell erzwungene Lesarten wie Gebäude usw. werden im Prozess der Interpretation einer Äußerung hergeleitet. Die Quelle dieser Herleitung ist das konzeptuelle System des Interpreten, in dem der Prozess der Weiterbildung mit den Gebäuden, in denen dieser Prozess normalerweise stattfindet, verknüpft ist. Das Konzept der Unterspezifikation beeinflusst die Lexikonkonzeption auf folgende Weise: • Die lexikalisch-semantische Beschreibung wird einfach und generell gehalten. • Das Lesarteninventar einer lexikalischen Form wird reduziert 37 . • Die Interpretation von Ausdrücken, in denen das lexikalische Zeichen vorkommt, wird überwiegend vom konzeptuellen System des Interpreten gesteuert. 36 Umgangssprachlich: das Bezeichnete hat einen Zweck und dieser Zweck ist auf den Prozess der höheren Bildung bezogen. 37 Insofern kommt dieser Ansatz der lexikographischen Praxis des Zusammenfassens, wie im letzten Abschnitt beschrieben, entgegen. 6 Ambiguität und das Problem der Disambiguierung von Textwörtern Im Bereich der automatischen Interpretation von sprachlichen Ausdrücken, einem zentralen Teil vieler sprachtechnologischer Anwendungen, spielt die korrekte Zuordnung einer Bedeutung zu einem Textwort eine wichtige Rolle. Um einen Ausdruck korrekt und eindeutig zu interpretieren, muss jedem Wort genau eine Bedeutung zugeschrieben werden. Die Disambiguierung von Textwörtern (‚Word Sense Disambiguation‘) ist eine Voraussetzung für den Erfolg vieler sprach- und texttechnologischer Anwendungen, z.B. der MASCHINELLEN Ü BERSETZUNG , der I NFORMATI - ONSERSCHLIESSUNG (‚Information Retrieval‘) oder dem automatischen Beantworten von Fragen aus einer Faktenbasis (‚Question Answering‘). Aus diesem Grunde benötigen die meisten sprachtechnologischen Anwendungen lexikalische Ressourcen, sowohl allgemeinsprachliche als auch fachsprachliche. Wortnetze, auf die wir in einem späteren Kapitel ausführlicher eingehen werden, sind eine gute Quelle für Wortbedeutungen im allgemeinsprachlichen Bereich. Auch wenn, wie verschiedene Experimente gezeigt haben, die Lesartenunterscheidung in lexikalischen Ressourcen nicht immer für jede Anwendung optimal ist, scheint es doch besser, eine zu grobe oder zu feine Lesartenunterscheidung zu haben als gar keine. Wir werden im Rest des Kapitels zeigen, wie sprachtechnologische Anwendungen von der Disambiguierung von Textwörtern profitieren können: • Der Disambiguierung von Wortbedeutungen kommt z.B. bei der Informationserschließung eine wichtige Rolle zu. Auf eine Suchanfrage müssen diejenigen Dokumente gefunden werden, die mit dieser Suchanfrage zusammenhängen. Stellt man, wie heute noch üblich, diesen Zusammenhang ausschließlich über die lexikalischen Formen her, die Anfrage und Zieldokument gemeinsam sind, dann beeinflussen Ambiguitäten in der Suchanfrage und in den Zieldokumenten das Suchergebnis negativ. Wenn sowohl die Suchanfrage als auch die Zieldokumente automatisch disambiguiert werden könnten, dann wäre eine präzise Suche nach einem Konzept möglich, z.B. mit dem Suchwort Java nach allen Dokumenten, die etwas über die Insel dieses Namens enthalten. Texte, die sich mit der Programmiersprache oder der Kaffeesorte gleichen Namens befassen, könnten ausgeblendet werden. Ein lexikalisch-semantisches Netz macht weiterhin benachbarte Konzepte und Wörter verfügbar, etwa Insel und Philippinen für unser Beispiel. Die Erweiterung der Suchanfrage um Wörter, die benachbarte Konzepte benennen, kann die Trefferquote (‚Recall‘) der Lexikalische Semantik 59 Suchanfrage erhöhen. Ein solches System wurde z.B. an der Universität Magdeburg entwickelt 38 . • Textklassifikation: Texte werden in ein Raster vorgegebener Kategorien (z.B. Produktanfrage, Preisanfrage, Rechnung, Beschwerde) oder Textsorten (z.B. Nachricht, Kommentar, Analyse) eingeordnet. Systeme für die automatische Einordnung von Texten werden in der Regel mit Texten und deren Kategorien trainiert, um hieraus Einordnungsregeln zu lernen. Ein neuer Text wird diesen Einordungsregeln entsprechend klassifiziert. Ein wichtiger Indikator für die Einordnung sind bestimmte Schlüsselwörter und -begriffe, die in den Texten vorkommen. De Buenaga, Rodriguez, Gomez-Hidalgo und Diaz-Agudo (1997) verwenden neben diesen Schlüsselwörtern auch benachbarte Wörter, die sie aus Wortnetzen wie dem Princeton WordNet extrahieren. • Die semantische Annotation von Korpora erleichtert den automatischen Zugang zur Bedeutungsstruktur von Texten. Dies ist für Anwendungen der künstlichen Intelligenz ebenso hilfreich wie für die medizinische oder technische Dokumentation. Semantisch orientierte lexikalische Ressourcen, die die notwendige Information für die Annotation bereitstellen, sind für diese Aufgabe am besten geeignet. Ziel ist es, nach einer gewissen Trainingsphase die semantische Annotation automatischen Taggern zu überlassen und entweder eine gewisse Fehlerrate in Kauf zu nehmen oder das Ergebnis manuell zu korrigieren. Letzteres ist immer noch kostengünstiger als die Annotation komplett manuell durchzuführen, wenn das Taggingergebnis eine bestimmte Fehlerrate nicht übersteigt. Ein deutsches Korpus wird im SALSA-Projekt an der Universität Saarbrücken semantisch annotiert 39 . Die automatische Disambiguierung von Textwörtern lohnt sich allerdings nicht für jede sprachtechnologische Anwendung, wie Kilgarriff feststellt (vgl. Kilgarriff (1997)). Es ist also in jedem einzelnen Fall die Kosten-Nutzen- Relation abzuwägen, wobei systematische Evaluationen der Qualität und des Effekts von Disambiguierungsverfahren sehr nützlich sind. Seit 1998 werden Qualität und Nutzen von Disambiguierungsverfahren, auch im Verhältnis zur Güte intellektueller Disambiguierung auf den sog. SENSEVAL, neuerdings SEMEVAL, Konferenzen evaluiert 40 . 38 ‚Clever Search‘, vgl. Kruse et al. (2005). 39 http: / / www.coli.uni-saarland.de/ projects/ salsa/ , vgl. Burchardt et al. (2006). 40 Vgl. Kilgarriff und Palmer (2000), SENSEVAL: http: / / www.senseval.org/ , SEME- VAL: http: / / nlp.cs.swarthmore.edu/ semeval/ index.shtml . 60 Lexikalische Semantik 7 Weiterführende Literatur Es gibt eine ganze Reihe guter Einführungen in die lexikalische Semantik. Stellvertretend hierfür sei die Einführung von Schwarz und Chur (2007) und von Cruse (1986) erwähnt. Auf die Literatur zum Generativen Lexikon haben wir bereits in Kapitel 2 hingewiesen. Einen guten Überblick über die linguistische Forschung zur Polysemie gibt Gergely Pethö (2001). Für Fortgeschrittene sei außerdem der von Yael Ravin herausgegebene Sammelband Polysemy. Theoretical and computational approaches (2002) empfohlen. Über relationale Ansätze der lexikalischen Semantik informieren Martha Evens (1992) und Lynne Murphy (2003). 8 Aufgaben 1. Die folgenden Beispielverwendungen sollen zu geeigneten Lexikoneinträgen zusammengefasst werden: welche Konzepte gibt es und welche Lesarten? Überlegen Sie geeignete Oberbegriffe oder Umschreibungen für die gruppierten Beispiele! Verb: aufsetzen a) Er setzte einen Kaffee auf. b) Setz doch die Brille auf! c) Bevor ich ins Bett gehe, setz ich noch das Schreiben auf. d) Das setzt ja allem die Krone auf! e) Ich setzte dem alten Mann den Hut auf, bevor er ging. f) Ich muss noch diese Kirschen aufsetzen. g) Ich kann diese Mütze unmöglich aufsetzen. h) Ich setze schon mal die Kartoffeln auf. i) Du musst die Bowlingkugel mit Gefühl aufsetzen. j) Der Pilot setzte sanft auf. k) Nach drei Stunden hatten wir endlich den Vertrag aufgesetzt. l) Setz das Holz auf! (Handwerkerjargon) m) Peter musste die Kegel wieder aufsetzen. n) Lass uns doch noch ein Stockwerk aufsetzen! o) Beim Husten setzt er sich im Bett auf. p) Das Rotwild setzt jedes Jahr neu auf. (Jägersprache) Adjektiv: streng a) Er hat einen strengen Vater. b) Diese strenge Frisur steht dir einfach nicht. c) Aus dem Hausflur kam ihm ein strenger Geruch entgegen. d) In dem strengen Winter kamen viele Soldaten um. e) Die strengen Gesetze lassen kaum Milde zu. Lexikalische Semantik 61 f) Der Diabetiker musste strenge Diät halten. g) Das musst du nicht so streng nehmen. h) In dieser Saison ist wieder ein strenger Kleidungsstil gefragt. Nomen: Fall a) Der Fall Vera Brühne sorgte jahrzehntelang für Aufsehen. b) Der Schirm öffnete sich im Fall. c) In diesem Fall rate ich Ihnen von einer Unterschrift ab. d) Du bist wirklich ein hoffnungsloser Fall! e) In der Region traten zwei Fälle von Hirnhautentzündung auf. f) Schlimm, wenn man den dritten und vierten Fall nicht unterscheiden kann! g) Der neue Rechtsanwalt übernahm meinen Fall. h) Gebannt beobachtete die Öffentlichkeit den tiefen Fall des einstigen Superstars. i) Peter ist nicht mein Fall. j) Newton erkundete die Bedingungen des freien Falls. 2. Ähnlich wie unser Beispiel Universität in Abschnitt 5.7 kann Kirsche mehrere Bedeutungen haben, die in den folgenden Beispielsätzen aktiviert werden: (67) Die Kirschen waren krank und mussten gefällt werden. (68) Die Kirschen waren verfault und mussten weggeworfen werden. (69) Sie ließen sich eine Kommode aus Kirsche anfertigen. Entwickeln Sie eine minimale, unterspezifizierte Bedeutungsbeschreibung, unter der sich alle drei Lesarten von Kirsche subsumieren lassen. Welcher weitere Aspekt der Bedeutung wird in den drei Belegbeispielen aktiviert? 3. Im Abschnitt 5.5 dieses Kapitels stellen wir Muster regulärer Polysemie vor. Überlegen Sie für jedes Muster ein eigenes Beispiel. Finden Sie einen eigenen, noch nicht genannten Alternationstyp regulärer Polysemie! 4 Lexikalisches und enzyklopädisches Wissen Nach der Lektüre dieses Kapitels werden Sie den Unterschied zwischen lexikalischem und enzyklopädischem Wissen kennen und die Folgen dieser Unterscheidung für die Gestaltung von Wörterbuchartikeln, insbesondere für die Bedeutungsbeschreibung ermessen können. Sie werden zugleich den Unterschied zwischen Sprachwörterbuch einerseits und Sachwörterbuch oder Enzyklopädie andererseits nachvollziehen können und wissen, was Sie in beiden finden bzw. nicht finden können. 1 Einleitung Eine lang anhaltende, gleichwohl immer noch aktuelle Debatte in der Forschung in den Bereichen der Linguistik, Sprachphilosophie, Kognitionswissenschaft, künstlichen Intelligenz etc. betrifft die Abgrenzung zwischen lexikalischem und enzyklopädischem Wissen. Mit lexikalischem Wissen wird hier vor allem auf die semantische Ebene referiert, denn syntaktisches oder morphologisches lexikalisches Wissen von Weltwissen zu unterscheiden ist meist kein Problem. In erster Linie geht es also darum, lexikalische Semantik (Sprachwissen) und pragmatische Semantik (Weltwissen) zu unterscheiden, was voraussetzen würde, dass es einen engeren Bereich der semantischen Analyse gibt, der deutlich individuierbar ist. Dieser engere Bereich des semantischen Wissens könnte zum Beispiel darin bestehen, dass man einen Begriff in das verfügbare Sprachsystem einordnen und entsprechend gebrauchen kann, ohne alle Eigenschaften des bezeichneten Gegenstandes oder Sachverhaltes zu kennen. So kann man sinnvoll auf einen Wiedehopf oder eine Buche referieren, nur mit dem Wissen, dass es sich um einen Vogel bzw. einen Baum handelt. Nicht einmal die unterscheidenden Merkmale zu anderen Vögeln oder Bäumen muss man kennen; aufgrund der Sprachkompetenz weiß man, dass sie keine Amseln und Eiben sind. Die Ebene enzyklopädischen Wissens ist weiter gefasst und umfasst spezifische Eigenschaften zu den Begriffen, die bis in den fachsprachlichen Bereich gehen, z.B. über Aussehen und Herkunft, Verhalten des bezeichneten Objekts. So finden sich Wiedehopf als rackenartiger Vogel und Buche als Kätzchenblütler auch in biologischen Taxonomien, die dem Laien meist un- Lexikalisches und enzyklopädisches Wissen 63 bekannt sind und deren Verwendung in der Alltagssprache eher kontraproduktiv ist. Enzyklopädisches Wissen beinhaltet alle möglichen Aspekte des Weltwissens, und umfasst auch episodisches Wissen (z.B. das Verhalten des Wiedehopfes, den man einmal im Zoo gesehen hat), prozedurales Wissen (z.B. das Anlegen eines Buchenhains), Wissen über Personen und Fakten etc. und ist deshalb zumindest im Prinzip unerschöpflich. Mit der Lexikon-Enzyklopädie-Unterscheidung werden weitere Gegensatzpaare mit ähnlichen Abgrenzungsproblemen bezüglich ihrer Zuständigkeiten verknüpft: • Semantik vs. Pragmatik; • Sprachwissen vs. Weltwissen; • definitorisches vs. enzyklopädisches Wissen über Wörter; • essenzielle Eigenschaften vs. kontingente Eigenschaften; • analytische vs. synthetische Aussagen; • lexikalisches Wissen über Wörter vs. nicht-lexikalisches Wissen über Dinge; • Eigennamen vs. definite Beschreibungen 1 . Auch wenn man annimmt, dass es diese Unterscheidungen zwischen den o.g. Wissenssphären gibt, so ist die genaue Grenzziehung unklar. Wenn diese Grenzziehung aber unklar ist, dann ist sie vielleicht nicht so operativ für die Semantik, wie man aufgrund der Intensität der Debatte meinen könnte 2 . 1 Vgl. Allan (1995). 2 Auch auf der Ebene der Pragmatik kann man unterscheiden zwischen einer linguistischen Ausrichtung, die etwa mit Deixis oder Präsuppositionsanalyse bzw. Diskursanalyse beschäftigt ist, und einer extra-linguistischen Ausrichtung, die beliebige akzidentielle Faktoren aus der außersprachlichen Wirklichkeit heranzieht, z.B. Äußerungssituation, Sprecherintention und anderes Situationswissen. In der Lexikographie wird die pragmatische Ebene meist durch U SAGE N OTES oder entsprechende Umschreibungen, die Gebrauchsbedingungen spezifizieren, abgedeckt. 2 Die Lexikon vs. Enzyklopädie-Debatte Wir wollen im Folgenden einen kurzen Überblick über den Stellenwert der Lexikon-Enzyklopädie-Unterscheidung in verschiedenen Theoriezusammenhängen geben. 2.1 Strukturalismus Die strukturalistische Auffassung von der Sprache als System und die strikte Orientierung am objektiv beobachtbaren Zeichen bezieht sich auch auf die Konzeption des Lexikons, für das eine semantische Struktur angenommen wird, die unabhängig von einer mentalen Repräsentation semantischer Einheiten in der menschlichen Kognition existiert. Die Semantik wird als autonome Disziplin in der Linguistik aufgefasst. Ein Merkmalsinventar expliziert systematisch die Bedeutung von Wörtern. Kontextvarianz und Weltwissen werden als Gegenstände der Betrachtung ausgeklammert. 2.2 Generative Grammatik Die Dichotomie von lexikalischem und enzyklopädischem Wissen geht auf Katz und Fodor 3 zurück, deren Forschung der Semantikkomponente zu einem eigenen Stellenwert innerhalb der syntaxdominierten Transformationsgrammatik verhalf. Ziel ihrer semantischen Theorie war die Beschreibung der Fähigkeit von Sprechern, eine prinzipiell unendlich große Menge syntaktisch generierter oder generierbarer Sätze ihrer Sprache semantisch interpretieren zu können 4 . Katz und Fodor wollten aber das Objekt ihrer Betrachtung einschränken auf einen weitgehend isolierten satzsemantischen Bedeutungsbegriff. Kontextuelles Wissen sollte weitestgehend ausgeklammert werden. Von daher rührt die Festlegung auf linguistisch relevantes Wissen, das zur semantischen Analyse von isolierten Sätzen notwendig sei; während der „Rest“ (etwa zur Bestimmung der Satzkontexte) dem enzyklopädischen Wissensbereich zufalle. Im Rahmen dieser Theorie stellt das Lexikon eine semantische Subkomponente dar, das die Aufgabe hat, linguistische Formen mit Bedeutungen zu verknüpfen. Auf der semantischen Ebene der lexikalischen Einträge spiegelt sich die grundsätzliche Dichotomie in der Verwendung von unterschiedlichen Beschreibungsentitäten, den sog. M ARKERN für das Kennzeichnen eines sprachsystematisch relevanten Merkmals und D ISTINGUISHERN für die Charakterisierung beliebiger weiterer semantischer Eigenschaften. Ihre 3 Vgl. Katz (1966). 4 Ausführlicher hierzu Kapitel 3, Abschnitt 3 in diesem Buch. Lexikalisches und enzyklopädisches Wissen 65 Merkmalsstruktur stellt eine Fortentwicklung des strukturalistischen Instrumentariums der Komponentenanalyse dar, ein Beispiel ist in Abb. 5 dargestellt. Abbildung 5: Marker und Distinguisher am Beispiel der semantischen Struktur von bachelor Es ist kritisch anzumerken, dass die Annahme zweier Beschreibungskategorien auf formaler Ebene allein die Existenz dieser Unterscheidung nicht rechtfertigt. Bolinger 5 hat gezeigt, dass die Unterscheidung dieser beiden Entitäten hinfällig ist, indem er alle über die Distinguisher vermittelten semantischen Informationen als Marker darstellen konnte. Ab den 1970er Jahren dienten die Marker und Distinguisher Katz zur Identifikation linguistischen Wissens. Obwohl der Ansatz aus der Mode gekommen ist, hatte er seinerzeit einen enormen Einfluss auf die nachfolgenden Entwicklungen der generativen Semantik, der kognitiven Semantik und der Prototypensemantik. 2.3 Kognitive Semantik Die Unterscheidung zwischen lexikalischem und enzyklopädischem Wissen wird im Rahmen der kognitiven Semantik als überflüssige Dichotomie charakterisiert 6 und zugunsten einer unikal enzyklopädischen Semantikauffassung geopfert. Geeraerts 7 begreift lexikalische Konzepte als integralen Part der menschlichen Kognition, anstatt sie als Teil einer unabhängigen Sprachstruktur innerhalb des kognitiven Systems anzusehen. Nach Auffassung der kognitiven Linguisten, zu denen seit den 1980er Jahren auch die ursprünglich als Prototypensemantiker geltenden Linguisten Lakoff und Fillmore zählen, 5 Vgl. Bolinger (1965). 6 Vgl. Langacker (1987), S. 154-166. 7 Vgl. Geeraerts (1988). 66 Lexikalisches und enzyklopädisches Wissen gibt es keine separate, spezifisch linguistische oder semantische Organisation von Wissen, weshalb auch keine isolierte Forschung zur lexikalischen Semantik möglich sei. Der einzige Weg zur adäquaten Beschreibung lexikalischer Konzepte liege in einer interdisziplinär geprägten kognitiven Perspektive aus den Disziplinen der Künstlichen Intelligenz, Psychologie, Neuropsychologie und Anthropologie. Auch die von Fillmore 8 begründete Framesemantik, die zur Darstellung prototypischer Szenarien für sprachliche Konzepte zunächst noch auf unterschiedliche Ebenen - Ereignis, konzeptuelle Entität, Abstraktion, Vorstellung, Interpretation und sprachliche Aktivierung - zurückgriff, hat sich zu einem kognitiven Ansatz mit einer unikalen Repräsentation, dem Frame, für lexikalische und enzyklopädische Information entwickelt 9 . Eine kognitive Semantikerin und Universalienforscherin, welche die Unterscheidung zwischen lexikalischem und konzeptuellen Wissen aufrechterhält, ist Anna Wierzbicka 10 . Sie hat allerdings einen weit gefassten Lexikonbegriff, der für den Eintrag Maus folgende Eigenschaften und Fakten enthält 11 : charakteristische Größe, Form und Farbe von Mäusen, ihre Gewohnheiten und Fortbewegungsart sowie ihre Geräusche. Mäuse seien ängstlich, ruhig und unauffällig, sie werden von Katzen gejagt; sie essen gern Käse und leben in der Nähe von Menschen; sie werden als Plage aufgefasst und die Menschen wollen sie loswerden. (Wierzbicka, zit. nach Peeters (2000), S. 16f.) Den gewaltigen Umfang dieser Definition rechtfertigt sie mit linguistischen Beispielen und Redensarten, in denen Maus verwendet wird: • eine Katze kann ein guter Mäusefänger sein, • eine schüchterne, ängstliche oder unauffällige Person kann als Maus bezeichnet werden, z.B. als graue Maus, • Idiome, z.B. arm wie eine Kirchenmaus. Als enzyklopädische Fakten über Mäuse sind aber z.B. genaue geographische Verteilungen, Länge der Schwangerschaft, Körpergewicht für Wierzbicka vom linguistischen Wissen ausgeschlossen. Es dürfte klar sein, dass die Abgrenzung von Sprachwissen und Weltwissen auf Grund dieses Kriteriums sehr schwierig und kaum objektivierbar ist. 8 Vgl. Fillmore (1976). 9 Vgl. Fillmore (1985). 10 Vgl. Wierzbicka (1985). 11 Vgl. Peeters (2000), S. 16f., übersetzt und verkürzt, d.A. Lexikalisches und enzyklopädisches Wissen 67 2.4 Fortentwicklungen der Generativen Grammatik Eine deutliche Trennung von semantischem und enzyklopädischem Wissen nimmt die Zwei-Ebenen-Semantik in der Linguistik an 12 . Die S EMANTI - SCHE F ORM (SF) beschreibt die rein grammatische Ebene der Semantik, also die Aspekte der Bedeutung, die syntaktisch relevant sind, und die KONZEP - TUELLE S TRUKTUR (CS) die semantische Ebene, die den Teil der menschlichen Kognition und außersprachlichen Wirklichkeit repräsentiert. Auf der Ebene der semantischen Form werden Wortbedeutungen prädikatenlogisch repräsentiert und über ihre Argumentstruktur durch die Anwendung von so genannten Linking Rules in die Syntax projiziert. Auf der Ebene der Konzeptuellen Struktur werden sortale Indizes für die Gebrauchsbedingungen von Wörtern (etwa Adjektiven), aspektuelle Eigenschaften, aber auch nicht formalisierbares Wissen behandelt. Im Ansatz von Wunderlich dient CS dazu, enzyklopädisches Wissen aus der Betrachtung auszulagern und sich einer engen Betrachtung der lexikalischen Semantik in Form einer Prädikat- Argument-Struktur zu widmen. Bierwisch und Lang 13 nutzen CS für die Explikation von Dimensionsadjektiven, die unter Rückgriff auf Weltwissen angemessener beschrieben werden können. Für Jackendoff 14 , der ebenfalls formale Notationen in seiner Analyse von semantischen Rollen und Bewegungskonzepten verwendet und genau wie die generative Grammatik eine autonome Syntaxkomponente annimmt, ist hingegen die Semantik unterschiedslos konzeptuell geprägt und unmittelbarer Bestandteil der menschlichen Kognition. Eine unabhängige lexikalische Semantik nimmt er also nicht an, und Lexikoneinträge werden direkt auf das mentale Lexikon abgebildet. 2.5 Generatives Lexikon Pustejovsky (1991) unterscheidet linguistisches Wissen von Allgemeinwissen (englisch: ‚common sense knowledge‘). Diese Unterscheidung ist insofern missverständlich, als das enzyklopädische Wissen nun gerade nicht von jedem Sprecher einer Sprachgemeinschaft geteilt wird. In seiner Theorie des generativen Lexikons werden viele Wissenselemente, die andere Forscher im Bereich des enzyklopädischen Wissens ansiedeln, als lexikalisches Wissen integriert. So werden von Pustejovsky postulierte Prozesse des sog. S ELEC - TIVE B INDING und der T YPE C OERCION als lexikalische Phänomene aufgefasst. 12 Vgl. Bierwisch (1983), Wunderlich (1996). 13 Vgl. Bierwisch und Lang (1987). 14 Vgl. Jackendoff (1990). 68 Lexikalisches und enzyklopädisches Wissen Beim Selective Binding werden Adjektive als Funktoren auf eine semantische Rolle oder Qualia im Nomen abgebildet: (1) ein guter Pilot (2) ein gutes Essen (3) ein gutes Buch So kann in Beispiel (1) mit gut auf die Flugkünste des Piloten referiert werden, in (2) sowohl auf den Gehalt als auch den Geschmack oder auch die Menge eines Essens und in (3) auf die Qualität eines Buches oder die subjektive Einschätzung eines Lesers dieses Buches. Selective Binding behandelt die Kontextsensitivität von Adjektiven innerhalb der lexikalischen Komponente. Ein weiterer generativer Mechanismus, die Type Coercion, nutzt ebenfalls die Qualia Structure von Nomen, um spezifische Bedeutungen zu rekonstruieren. Im folgenden Beispiel: (4) Ich habe früher immer gern Grass gelesen. würden wir als direktes Objekt ein geschriebenes Objekt erwarten. Da hier nun ein Autor auftaucht, muss eine Reinterpretation des Objekts als Bücher von Grass erfolgen. Die Information, dass Grass ein Autor ist, würde man eher dem Weltwissen zuordnen, aber dass geschriebene Objekte einen Autor haben, ist in der A GENTIVE ROLE der Qualia Structure kodiert. Taucht nun in der Objektposition kein geschriebenes Objekt auf, sondern ein Name, den wir nicht einordnen können, weil wir zum Beispiel Grass nicht kennen, können wir aufgrund unseres Wissens über die Selektionspräferenz des Verbs lesen immerhin schließen, dass es um die Werke eines Autors geht. Es vollzieht sich also ein Type Shift vom Eigennamen zu geschriebenen Objekten des mit dem Eigennamen referierten Autors. Nach Pustejovsky weisen Prädikate auf der Ebene der Tiefenstruktur ihren Argumenten semantische Typen zu, etwa begin seinem Objektargument den semantischen Typ E VENT . Findet sich nun kein Ereignis in der Objektposition, wie im folgenden Beispiel, (5) Peter began the book. (Peter begann das Buch) dann setzt Type Coercion ein, die auf lexikalischer Information beruht, die mit dem Nomenkomplement verknüpft ist. Über die telische und agentive Rolle der Qualiastruktur von Buch können wir nun zwei Lesarten rekonstruieren: Lexikalisches und enzyklopädisches Wissen 69 (6) Peter began reading the book. (Peter fing an, das Buch zu lesen) (7) Peter began writing the book. (Peter fing an, das Buch zu schreiben) Die beschriebenen generativen Prozesse, die Pustejovsky im Lexikon verortet, werden unter anderen Bezeichnungen, nämlich E VALUATIVE FEATURES für die Adjektivselektion bei Fillmore 15 , I SOTOPY und A LLOTOPY für Type Coercion bei Klinkenberg 16 , als Mechanismen betrachtet, die teilweise oder ganz auf enzyklopädisches Wissen zurückgreifen. 2.6 Abschlussbemerkung Wir haben gesehen, dass es zur Unterscheidung von Lexikon und Enzyklopädie sehr heterogene Vorstellungen in verschiedenen theoretischen Lagern gibt. Falls überhaupt eine Abgrenzbarkeit zweier Wissenstypen postuliert wird, ist umstritten, wo genau diese Grenze verläuft. Mitunter wird eine der beiden Komponenten zu Ungunsten der jeweilig anderen aufgebläht. Diese Betrachtung kann die Debatte nur exemplarisch wiedergeben. Für einen umfassenderen Überblick sei ausdrücklich auf Peeters 17 verwiesen. Im Rahmen der korpusbasierten Computerlexikographie bekommt die Grenzziehung einen geringeren Stellenwert, obgleich die Möglichkeiten existieren, häufig assoziiertes Wissen zu lexikalischen Zeichen anhand von Korpusfrequenzen zu testen 18 . 15 Vgl. Fillmore (1969). 16 Vgl. Klinkenberg (1983). 17 Vgl. Peeters (2000). 18 Ausführlicher dazu Kapitel 8 in diesem Buch. 3 Lexikalische und enzyklopädische Informationen in Wörterbüchern und Lexika 3.1 Einführung Obgleich die Vagheit der Unterscheidung von semantischem und enzyklopädischem Wissen - oder Sprach- und Sachwissen - auch auf der Ebene der Wörterbuchklassifikation eine Rolle spielt, gibt es in der Praxis relativ gut erfassbare Unterschiede auf der Beschreibungsebene. Mag im Einzelnen auch unklar sein, wo die semantische Ebene aufhört und die enzyklopädische beginnt, ist es unwahrscheinlich, in einem W ÖRTERBUCH , das sich der Beschreibung von S PRACHWISSEN widmet, mehr und ausführlichere sprachliche Informationen zu einem gegebenen Stichwort vorzufinden als in einer E NZYKLOPÄDIE , welche vor allem S ACHWISSEN zu einem Lexikonwort zur Verfügung stellt. Außerdem trifft eine Enzyklopädie eine andere Auswahl über die enthaltenen lexikalischen Einheiten: es finden sich mehr Fachausdrücke jeglicher Art und Eigennamen als in einem allgemeinsprachlichen Wörterbuch. John Haiman 19 , der als Theoretiker gegen eine Unterscheidung von lexikalischem und enzyklopädischem Wissen plädiert und Wörterbücher als Enzyklopädien auffasst, stellt fest: Having demonstrated that dictionaries are not in principle different from encyclopedias, I do not, in my wildest dreams, expect that sales and production of either one or the other will come to an end. Part of the reason for this is that the distinction between dictionaries and encyclopedias, while theoretically untenable, has the happy property of working very well in practice. (Haiman (1980), S. 355) Dagegen hat Frawley 20 die Eigenständigkeit des Wörterbuchs verteidigt und den offensichtlichen Widerspruch, den Haiman fast genussvoll zelebriert, aufgedeckt und angegriffen. Theoretische Probleme haben die Nutzer der Wörterbücher oft nicht, egal ob sprachliches Wissen von Weltwissen hinreichend unterscheidbar ist oder ob erkenntlich ist, wo in der Bedeutungserklärung die enger gefasste semantische Information aufhört und wo das enzyklopädische Hintergrundwissen einsetzt. Wörterbuchbenutzern geht es darum, Wissen über ein nachgeschlagenes Wort zu erfahren und sie sind durchaus in der Lage, mit der Lektüre des Artikels abzubrechen, wenn sie genug erfahren haben, bzw. ein anderes, ausführlicheres Nachschlagewerk zu konsultieren, wenn die gelieferten Informationen die Ausgangsfrage nicht beantworten konnten. 19 Vgl. Haiman (1980). 20 Vgl. Frawley (1981). Lexikalisches und enzyklopädisches Wissen 71 Im günstigsten Fall werden Benutzer ein Wörterbuch entsprechend ihres Informationsbedürfnisses auswählen. Suchen sie sehr ausführliche Sachinformation, so werden sie vermutlich gleich auf eine umfangreiche Enzyklopädie wie die 30-bändige Brockhaus-Enzyklopädie 21 zurückgreifen; reicht ihnen eine knappe Definition mit einem typischen Verwendungsbeispiel, so ist die Konsultation des einbändigen Duden Universalwörterbuchs 22 meist ausreichend. Im Falle der Suche nach formbezogener Information zu einer lexikalischen Einheit ist ein Wörterbuch das geeignete Medium der Recherche. Ist eine gute Übersetzung gesucht, muss ein zweisprachiges Wörterbuch konsultiert werden. Schließlich haben die Autoren von Wörterbüchern und Enzyklopädien andere Prioritäten als die Theoretiker, weil von ihnen ja ein Produkt verlangt wird, das, so unvollkommen es unter sprachtheoretischem Aspekt sein mag, ein wertvolles Wissensrepertoire für Schule, Studium, Beruf und Alltag darstellt. Wörterbücher entstehen oft unter großem zeitlichen Druck und mit knappen personellen Ressourcen, so dass ein pragmatisches Vorgehen bei der Erstellung der Artikel erforderlich ist, was die Übernahme von Strukturen und Inhalten von Artikeln anderer Wörterbücher einschließt. 3.2 Was unterscheidet Wörterbücher, Lexika und Enzyklopädien? Im Unterschied zu nicht-linguistischen Nachschlagewerken, wie Farbtafeln, Formelbüchern, Straßenkarten, Telefonbüchern etc., zeichnen sich Wörterbücher dadurch aus, dass sie sprachliche Informationen über Wörter und visuell oder sprachlich repräsentierte Begrifflichkeiten 23 enthalten, die durch eine äußere Zugriffsstruktur - etwa die alphabetische Anordnung der Wörterbuchartikel - abrufbar sind. Über Mikro- und Makrostruktur von Wörterbüchern wird ausführlich in Kapitel 5 die Rede sein. Wie erklären die Experten der Praxis nun selbst den Unterschied zwischen verschiedenen Wörterbüchern? Das Duden Universalwörterbuch 24 definiert zu den Stichwörtern Wörterbuch, Lexikon und Enzyklopädie: (8) Wörterbuch, das Nachschlagewerk, in dem die Wörter einer Sprache nach bestimmten Gesichtspunkten ausgewählt, angeordnet und erklärt sind; ein ein-, zweisprachiges, etymologisches W.; ein W. der deutschen Umgangssprache. 21 Vgl. Brockhaus-Redaktion (1996). 22 Vgl. Dudenredaktion (1996). 23 Z.B. in B ILDWÖRTERBÜCHERN und anderen onomasiologischen Wörterbüchern. 24 Vgl. Dudenredaktion (1996). 72 Lexikalisches und enzyklopädisches Wissen (9) Lexikon, das 1. nach Stichwörtern geordnetes Nachschlagewerk für alle Wissensgebiete oder für ein bestimmtes Sachgebiet: ein L. in fünfzehn Bänden; ein L. der Kunstwissenschaft; L. für Wirtschaft und Handel; L. zur Sexualität; er ist ein wandelndes/ lebendes L. (ugs. scherzh.: weiß auf allen Gebieten Bescheid; 2. (veraltet) Wörterbuch 3. (Sprachw.) a. Gesamtheit der selbstständigen bedeutungstragenden Einheiten einer Sprache; Wortschatz im Unterschied zur Grammatik einer Sprache; b. (in der generativen Grammatik) Sammlung der Lexikoneinträge einer Sprache. (10) Enzyklopädie, die Nachschlagewerk, in dem der gesamte Wissensstoff aller Disziplinen oder nur eines Fachgebiets in alphabetischer oder systematischer Anordnung dargestellt ist. Die Definitionen im sechsbändigen Brockhaus-Wahrig 25 sind verblüffend ähnlich; der Text in den Definitionen für Lexikon und Enzyklopädie ist fast identisch; nur in Bezug aufWörterbuch ist der Brockhaus-Wahrig ausführlicher und schließt auch Angaben zur sprachlichen Form, sowie etymologische Angaben und Übersetzungsinformationen ein. Auch die Beispiele für verschiedene Unterarten und Einsatzbereiche der Wörterbücher sind vielfältiger: (11) Wörterbuch alphabetisch oder nach bestimmten begrifflichen Gesichtspunkten geordnetes Verzeichnis des Wortschatzes oder eines Teils der Sprache, i.d.R. mit Erklärungen zu Form und / oder Inhalt und / oder Geschichte der Wörter oder mit Übersetzungen in eine andere Sprache; Fremd-, Fach-, Synonym-, Bildwörterbuch; ein zweisprachiges, mehrsprachiges Wörterbuch; ein rückläufiges, ein etymologisches Wörterbuch; ein W. der Kaufmannssprache; ein deutsch-englisches, englisch-deutsches W.; ein literarisches, medizinisches, theologisches W. Auffällig ist: Wörterbuch und Enzyklopädie sind in den Definitionen klar voneinander abgegrenzt. Den eigentlich interessanten Eintrag, der im Duden Universalwörterbuch und Brockhaus-Wahrig ja fast identisch ist, gibt das polyseme Lexikon mit seinen drei Lesarten her, nämlich a) als Enzyklopädie, b) als Wörterbuch und c) als (abstrakte) Komponente im Sprachsystem. Damit ist der Begriff Lexikon Mittler zwischen den Facetten der Lexikographie und das Verbindungsglied zur Lexikologie, und ein Teil der begrifflichen Verwirrung stammt gewiss aus einem unreflektierten Gebrauch dieses Wortes. Aber wir werden noch sehen, dass bei konkreten Analysen sprachliche und sachliche Informationen ineinander übergehen und schwer zu trennen sind. 25 Wahrig et al. (1980-1984). Lexikalisches und enzyklopädisches Wissen 73 Wir unterscheiden vorläufig folgende Arten von sprachlichen Nachschlagewerken: • Wörterbuch: ein Nachschlagewerk, das sprachliches (= formbasiertes und inhaltsbezogenes) Wissen zu Wörtern oder anderen lexikalischen Einheiten enthält, z.B. das Duden Universalwörterbuch; • Enzyklopädie: ein Nachschlagewerk, das Sach- und Fachwissen zu lexikalischen Einheiten und Begriffen enthält, z.B. die Enzyklopädie von Brockhaus oder auch die Online-Enzyklopädie Wikipedia 26 ; • das enzyklopädische Wörterbuch, das sowohl Sprachals auch Sachwissen zu lexikalischen Einheiten aufführt 27 ; • das Übersetzungswörterbuch, das die Äquivalente zu lexikalischen Einheiten in der Zielsprache bereitstellt 28 ; • das Fachwörterbuch, das überwiegend sachbezogene Informationen zu den Fachtermen einer Disziplin bereitstellt 29 ; • das Fremdwörterbuch, in dem nicht-native Wörter aufgelistet und beschrieben werden 30 . 3.3 Der Beispieleintrag Banane in Wörterbuch und Enzyklopädie Dieser Abschnitt stellt den von Lothar Lemnitzer und Stefan Engelberg (2001, S. 11) ausführlich besprochenen Beispieleintrag Banane in Wörterbuch und Enzyklopädie vor. Banane als eine Sorte Obst wird klassischerweise als NATURAL KIND TERM 31 bezeichnet, eine Charakterisierung, die auch auf andere natürliche Arten zutrifft. Die theoretische Lexikonforschung hat für natürliche Arten, die in ihrem Referenzverhalten hybride Züge zwischen indefiniten Beschreibungen und Eigennamen aufweisen, extreme Definitionen vorgeschlagen, wie etwa Wierzbicka 32 für horse 33 : (12) A horse is an animal called horse. Im Verlauf der weiteren Forschung sind dann zunehmend prototypisch inspirierte Definitionen für Auftretensfälle natürlicher Arten entwickelt worden, denn diese scheinen den jeweiligen internalisierten Konzepten der Sprecher 26 de.wikipedia.org . 27 Z.B. Brockhaus-Redaktion (1968). 28 Z.B. Vennebusch (1980). 29 Z.B. Bußmann (1990). 30 Z.B. Dudenredaktion (1990). 31 Nach Putnam, vgl. Putnam (1973). 32 Vgl. Wierzbicka (1972). 33 Wierzbicka (1972), S. 54. 74 Lexikalisches und enzyklopädisches Wissen zu entsprechen, also das Sprachwissen am ehesten zu reflektieren. Aber nun zu dem Beispiel, das zwei Artikel zum Eintrag Banane präsentiert 34 : (13) Ba-na-ne die: -, -n; e-e längliche, gekrümmte, tropische Frucht mit gelber Schale u. e-m weißen, süß schmeckenden Fruchtfleisch || Abbildung unter Obst || K-: Bananen-, -schale, -staude (14) Banane (Musa), tropische baumartige großblättrige Staude mit palmenartigem Aussehen und deren gelbschalige Frucht. Die vitaminhaltigen Früchte werden grün geerntet und erhalten ihre Reife während des Transports zum Verbraucher. In den Anbaugebieten (Tropen, zum Teil auch Subtropen) ist die Banane Grundnahrungsmittel. Bekannt sind auch die Faser- (Manilahanf) und die Zierbanane. - Bananenkulturen wurden bereits von den Geographen Alexanders des Großen beschrieben, das heutige Europa kennt sie seit der Entdeckung Amerikas. Im Beispiel (13) ist neben formbasierter Information, wie Silbentrennung, Angabe des Wortakzents, Genus, Pluralbildung, eine kurze wenn auch mit vielen Attributen gespickte Definition als Frucht gegeben. Frucht bezeichnet den Oberbegriff und ist als Kern sprachlichen Wissens über Banane anzusehen; ebenso käme hier auch Obst in Frage. Die Angaben länglich, gekrümmt, gelbe Schale, süß schmeckendes Fruchtfleisch referieren auf prototypisches Wissen über eine Banane; tropisch könnte schon eine enzyklopädische Eigenschaftszuschreibung sein, wie sie aber für die Beschreibung natürlicher Arten auch im Wörterbuch häufig vorkommt. Es gibt einen Verweis auf eine Abbildung im semantischen Feld Obst. Ferner werden Beispiele für Komposita, in denen Banane auftritt, aufgeführt: Bananenstaude, Bananenschale. Der Eintrag in Beispiel (14) enthält keine formbasierten Angaben, dafür den botanischen Fachausdruck und die enzyklopädisch relevante Einordnung als Staude und deren gelbschalige Frucht. Dass sie ein Nahrungsmittel mit gelber Schale ist, erfahren wir auch hier, aber nichts zur Form (gekrümmt) und zum Geschmack. Neben der botanischen Einordnung werden Angaben zu ihrem Ernährungswert und Transportweg, inklusive Reifungsprozess, gemacht. Wir erfahren so auch, dass die Banane ein wichtiges Produkt und ein Grundnahrungsmittel für die Bevölkerung der Anbaugebiete darstellt. Es werden zwei Unterarten der Banane, die vermutlich nicht essbar sind, genannt. Es gibt einen historischen Verweis auf ihre Bekanntheit in Nichtanbaugebieten und eine Abbildung. Trotz der partiellen Überlappung von Sprach- und Weltwissen in beiden Definitionen, die aufzeigt, dass die minutiöse Unterscheidbarkeit beider Wör- 34 Der erste Eintrag stammt aus dem Langenscheidt Großwörterbuch Deutsch als Fremdsprache Götz (1998), der zweite aus der Enzyklopädie von Trautwein (Boos et al. (2000)). Lexikalisches und enzyklopädisches Wissen 75 terbuchtypen in Bezug auf alle Wissenssegmente schwierig bleibt, werden die generischen Unterschiede zwischen Wörterbuch und Enzyklopädie an diesem Fallbeispiel recht deutlich. Im Typus der enzyklopädischen Wörterbücher 35 sind Sprach- und Sachinformationen in einem Eintrag verknüpft und werden z.T. explizit in der Artikelstruktur kenntlich gemacht. Diese Hybridform bietet sich für Wörterbuchbenutzer an, die neben umfangreicher Sachinformation auch elementare grammatische Angaben über ein Stichwort nachschlagen wollen. Die gemeinsame Abhandlung in einem Eintrag bietet sich nicht zuletzt deshalb an, als die alphabetische stichwortbezogene Zugriffsstruktur von Wörterbüchern und Enzyklopädien sehr ähnlich ist. Für die Integration fachsprachlichen Wissens und die Erwähnung kultureller Besonderheiten in Lernerlexika und bilingualen Lexika, z.B. gesellschaftliche Gepflogenheiten, landestypische Einstellungen bis hin zu Eigennamen von wichtigen Personen und Institutionen, eignen sich enzyklopädische Wörterbücher hervorragend und erfreuen sich zunehmender Beliebtheit. Elektronische Wörterbücher können sich den heterogenen Nutzerbedürfnissen besser anpassen, da sie nicht mehr auf Sparsamkeit und Beschränkung in der Repräsentation lexikographischen Wissens zu achten haben. 4 Weiterführende Literatur Die erste Referenz für einen tiefergehenden Einstieg in das Thema ist das Buch von Bert Peeters The lexicon-encyclopedia interface und besonders die von ihm verfasste Einleitung. Peeters betrachtet die Thematik aus linguistischer Sicht. Den lexikographischen Standpunkt stellt Fernando Lara (1989) dar, der Artikel ist allerdings auf Französisch abgefasst. Einen guten Überblick gibt auch das erste Kapitel der Einführung in die Lexikographie von Engelberg und Lemnitzer (2001). Das Projekt Cyc ( www.cyc.com ) ist ein Projekt aus den Frühzeiten der künstlichen Intelligenz mit dem Ziel, so viel Weltwissen wie möglich zu sammeln und in maschinenverarbeitbarer Form verfügbar zu machen. Ein Blick auf die Website des Projekts lohnt sich, wenn man wissen will, was in dieser Hinsicht bisher erreicht worden ist. Erwähnt werden soll hier auch das kommunitäre Wikipedia-Projekt ( de.wikipedia.org ), das recht stattliche Enzyklopädien in zahlreichen Sprachen aufgebaut hat, weiter entwickelt und diese Daten der Öffentlichkeit, und damit auch der computerlexikographischen Forschung, zur Verfügung stellt. 35 Vgl. z.B. Brugère-Trélat (1980). 76 Lexikalisches und enzyklopädisches Wissen 5 Aufgaben 1. Schlagen Sie im Duden Universalwörterbuch und in der Wikipedia- Enzyklopädie ( de.wikipedia.org ) jeweils die folgenden Begriffe nach: • Quantensprung • raffiniert • Delfin Kennzeichnen Sie jeweils die Bereiche lexikalischen und enzyklopädischen Wissens in den Einträgen! 2. Für welches Stichwort würden Sie welches Nachschlagewerk konsultieren? (Zur Auswahl stehen: Wörterbuch, Enzyklopädie, enzyklopädisches Wörterbuch, Fachwörterbuch, Fremdwörterbuch und Übersetzungswörterbuch.) Bitte begründen Sie Ihre Wahl! a) Halloween b) trinken c) Libido d) Tübingen e) Birkenfeige f) Zylinder g) Disagio h) employer i) abseits j) Untersuchungsausschuss k) Tigerstaat l) wegen 5 Wörterbuchstrukturen In diesem Kapitel werden Sie etwas über die Strukturen von Wörterbüchern und Wörterbuchartikeln erfahren. Sie werden am Ende dieses Kapitels wissen, wie man diese Strukturen mithilfe von Markupsprachen in digitalen Wörterbüchern kodieren kann. Sie werden zwei Beispiele für lexikalische Informationssysteme kennengelernt und gesehen haben, welche Bedeutung eine explizite Strukturierung der zugrunde liegenden Daten für solche Informationsdienste hat. Sie haben außerdem einen Standardisierungsvorschlag für Artikelstrukturen und ihre Elemente kennengelernt. Sie wissen, wie ein Wörterbuchparser funktioniert, der ein Printwörterbuch in ein maschinenlesbares Wörterbuch umwandelt. 1 Analyse von Wörterbuchstrukturen 1.1 Einleitung Das lexikalische Wissen, das in Wörterbüchern kodiert ist, wird dem Wörterbuchbenutzer nicht beliebig, willkürlich und unsortiert, sondern in einer vom Wörterbuchhersteller festgelegten Anordnung, die nach formalen und inhaltlichen Kriterien vorgenommen ist, präsentiert. Das erste und wichtigste, eigentlich selbstverständliche Kriterium, das nichts mit der Bedeutung der beschriebenen lexikalischen Einheiten zu tun hat, ist die (meist) alphabetische Anordnung der Wörterbucheinträge. Sobald man also die Grundform des gesuchten Stichwortes weiß, kann nachgeschlagen werden. Hierbei kann die Benutzerin erwarten, dass die Reihenfolge: orthographische Form vor morpho-syntaktischer Form vor Definition vor Beispielverwendungen zu einem Stichwort in fast allen Standardwörterbüchern europäischer Sprachen strikt eingehalten wird. Sie kann ebenso darauf bauen, dass bei polysemen Ausdrücken (also solchen mit mehreren Lesarten) für jede Lesart eine eigene Definition und spezifische Beispiele angegeben werden; auch, dass diese unterschiedlichen Lesarten zum gleichen Stichwort typographisch deutlich, meist numerisch, voneinander abgegrenzt sind. Dass Wörterbuchhersteller bei der Auswahl, Anordnung und dem Umfang der lexika- 78 Wörterbuchstrukturen lischen Elemente in den Wörterbuchartikeln unterschiedliche Schwerpunkte setzen, überrascht angesichts der Vielzahl der Typen und Verwendungsszenarien von Wörterbüchern nicht (für einen Überblick, vgl. Engelberg und Lemnitzer (2001), Kapitel 2). Die oft unter pragmatischen Gesichtspunkten erstellten Heuristiken für die lexikographische Abhandlung einer Vielzahl von Wörtern wurden von den lexikologischen Theoretikern oft mit Skepsis betrachtet oder nicht ernst genommen: „Lexicography is anecdotal, circular, and devoid of any scholarly value“ (Raskin (1985), S. 99). Der Lexikographie wurde der Status einer echten Wissenschaft meist abgesprochen, wenn auch nicht der einer wissenschaftlichen Praxis, einer Praxis also, die sich so weit wie möglich von wissenschaftlichen Erkenntnissen und Prinzipien leiten lässt. Es gibt auch ernstzunehmende Befürworter dieser lexikographischen Praxis als Wissenschaft, wie etwa Willard van Orman Quine, der die Logik des Lexikons (Wörterbuchs) der Logik der Metasprache (vgl. Quine (1981)) vorzieht. Ein real existierendes Lexikon bzw. dessen Definitionen bildete auch das Hintergrundwissen für Quillians Modellierung des semantischen Gedächtnisses (vgl. Quillian (1966)), das in der künstlichen Intelligenz und Informatik die Ära der so genannten ‚semantischen Netze‘ einleitete. Aus der Perspektive theoretisch orientierter (Meta)-Lexikographen 1 wurde der Gedanke ab den 1970er Jahren faszinierend, auch die Betrachtung von Wörterbüchern, die bis dato nicht als eigener Gegenstand wissenschaftlicher Forschung galt, unter formalen Kriterien vorzunehmen, Strukturmuster zu beschreiben und abzubilden und der Wörterbuchforschung einige Termini (also ein Fachvokabular der Lexikographie) zur Verfügung zu stellen. In diesem Zusammenhang sind die Begriffe M AKROSTRUKTUR , M IKROSTRUK - TUR und V ERWEIS ( UNGS ) STRUKTUR bzw. M ESOSTRUKTUR geprägt worden, deren Konzepte für die Wörterbuchanalyse ein wichtiges Instrumentarium bereitstellen. Von der formalen Explikation existierender Wörterbücher sollten natürlich auch Impulse für neuartige Wörterbuchkonzeptionen ausgehen. Überlegungen zur Gestaltung von Mikrostrukturen müssen auch für elektronische Wörterbücher und hypertextuelle Wörterbücher neu überdacht werden. Es bleibt anzumerken, dass unabhängig davon, ob Print- oder elektronische Wörterbücher entstehen, Überlegungen und Entscheidungen zur Modellierung der Elemente in Wörterbüchern eine unerlässliche Grundvoraussetzung für die Wörterbucherstellung sind. 1 Vgl. z.B. Rey-Debove (1971),Wiegand (1977), Wiegand (1989), Wiegand (1998). Wörterbuchstrukturen 79 1.2 Makrostruktur Definition 1 (Makrostruktur). Unter der M AKROSTRUKTUR eines Wörterbuches verstehen wir die geordnete Menge seiner Lemmata. Das Lemma als Epiphänomen vermittelt zwischen Makro- und Mikrostruktur 2 . Um eine Trägermenge von Lemmata als Grundlage für die Anordnung von Wörterbuchartikeln zu erstellen, müssen Textwörter in ihrer meist flektierten Form lemmatisiert werden. Im Prinzip wird bei der Lemmatisierung von möglichen morphologischen Varianten abstrahiert, und es wird die kanonische Form oder Grundform veranschlagt: bei Nomen der Nominativ Singular, bei Verben der Infinitiv und bei Adjektiven die prädikative Form. So hat der Lemmabegriff, den ein Wörterbuch ansetzt, unmittelbare Auswirkungen auf die Makrostruktur: Stellen wir mehrdeutige Wörter als Homonyme (mehrere Einträge) oder Polyseme (innerhalb eines Eintrags) dar? Es gibt aber weitere Probleme bei • attributiven Adjektiven wie *letzt*, das in dieser „Grundform“ ja gar nicht auftritt, und bei dem man sich für eine der Varianten (letzt, letzte (r,s), letzto.Ä.) entscheiden muss; ebenso bei substantivierten Adjektiven (Kranker, Kranke) oder Partizipien (Inhaftierter, Inhaftierte) und bei regelmäßigen Genusvarianten, etwa bei Berufsbezeichnungen (IngenieurIn, SchuhmachermeisterIn); • lautlichen Varianten, z.B. duss(e)lig, die in einem Lemma zusammengefasst oder als zwei getrennte Lemmata, die aufeinander verweisen, repräsentiert werden; und bei orthographischen Varianten, die seit der Rechtschreibreform verstärkt auftreten (Potential, Potenzial); in diesen Zusammenhang fällt auch die Entscheidung, wie Zahlwortvarianten (zehnfach, 10-fach) behandelt werden; • Mehrwortlexemen, deren Umfang und Zitierform oft unklar sind: einen Bärendienst erweisen, jemandem einen Bärendienst erweisen, jemandem einen echten (wirklichen, wahrhaftigen, richtigen...) Bärendienst erweisen. Mitunter ist auch unklar, unter welchem Lemma das Mehrwortlexem verzeichnet werden soll: einen Bock schießen unter schießen oder Bock. Die Makrostruktur ist eine elementare Zugriffsstruktur im Wörterbuch. Lemnitzer und Engelberg (2001, S. 125) unterscheiden: 2 Diese Definition ist enger als die gemeinhin in der Metalexikographie mit Bezug auf Printwörterbücher verwendete. Dort umfasst die Makrostruktur als Trägermenge alle Teile eines Wörterbuchs, also z.B. auch Benutzungshinweise, lexikographische Einführung, Wörterverzeichnis und Abkürzungsverzeichnis, vgl. hierzu z.B. Engelberg und Lemnitzer (2001), Kap. 4. Unsere engere Definition, die sich im Wesentlichen auf das Wörterverzeichnis bezieht, erscheint uns aber im Kontext der Computerlexikographie angemessener. Wir haben es hier mit lexikalischen Ressourcen zu tun, bei denen die Verbindung des Wörterverzeichnisses zu anderen Bestandteilen viel weniger klar ist. 80 Wörterbuchstrukturen • monoakzessive Wörterbücher mit einer äußeren Zugriffsstruktur (es gibt nur ein Wörterverzeichnis und einen Suchpfad im Wörterbuch); • monoakzessive Wörterbücher mit mehreren äußeren Zugriffsstrukturen (es gibt mehrere Wörterverzeichnisse mit unterschiedlichen Stichwörtern: z.B. Allgemeinwortschatz, Eigennamenverzeichnis); • polyakzessive Wörterbücher mit mehreren äußeren Zugriffsstrukturen: zwei Verzeichnisse (Wörterverzeichnis und Register) und zwei verschiedene Suchpfade stehen zum Beispiel in Thesauri zur Verfügung; • polyakzessive Wörterbücher mit einer äußeren Zugriffsstruktur: es gibt nur ein Verzeichnis, aber Verweise zwischen Lemmata, die wir in der alphabetischen Struktur des Wörterverzeichnisses weiterverfolgen müssen. Normalerweise ist in Wörterbüchern westlicher Sprachen die alphabetische, genauer gesagt die initialalphabetische Anordnung für die Makrostruktur bestimmend; eine finalalphabetische Ordnung findet man etwa in arabischen Wörterbüchern. Auch Zeichensprachen wie das Chinesische müssen sich anderer Zugriffsstrukturen bedienen. In einem Thesaurus wie WordNet, der die semantischen Beziehungen zwischen Konzepten kodiert, fungiert die alphabetische Ordnung ebenfalls nicht als primäre Zugriffsstruktur. Die alphabetische Ordnung in herkömmlichen Wörterbüchern hat noch zwei Varianten: nischenalphabetische Strukturen (welche ebenfalls strikt der alphabetischen Ordnung gehorchen) und nestalphabetische Strukturen, welche bei so genannter Gruppierung, etwa von Komposita zu einem generischen Begriff, den Fluss der alphabetischen Ordnung durchbrechen 3 . Ein wesentlicher Nachteil der alphabetischen Ordnungsstruktur liegt auf der Hand: Sie spiegelt nicht die konzeptuell motivierte Wortschatzstruktur. Daher sollten Wörterbücher Ordnungskriterien oder Zugriffsstrukturen zur Verfügung stellen, die der semantischen Struktur des Wortschatzes besser gerecht werden. 1.3 Mikrostruktur Definition 2 (Mikrostruktur). Die M IKROSTRUKTUR bezeichnet die hierarchische Binnengliederung eines Wörterbucheintrages zu einem gegebenen Lexikonstichwort oder Lemmazeichen als konkrete Analyse eines gegebenen lexikalischen Eintrags, aber auch als Abstraktion über Typen lexikalischer Einträge (abstrakte Mikrostruktur). Der Begriff der Mikrostruktur geht auf Josette Rey-Debove (1971) zurück, die ihn auf die lineare Analyse von Textsegmenten in Wörterbuchartikeln anwendet. Auch der Begriff des lexikographischen Informationsprogramms ist 3 z.B. Apfel[...]; Apfelbaum, Apfelschnaps, Apfeltasche, Apfeltorte, [...] Apfelsine - das Nest zu Apfel enthält Lemmata, die striktalphabetisch Apfelsine nachgeordnet sein müssten. Wörterbuchstrukturen 81 von Rey-Debove geprägt worden. Die Theorie der Mikrostruktur von Wörterbuchartikeln ist in den siebziger Jahren von Wiegand (vgl. Wiegand (1977)) in Anlehnung an die Forschungen Rey-Deboves begonnen und in der Folgezeit (vgl. Wiegand (1989)) zu einem hierarchischen Modell ausgearbeitet worden. Zunächst ist der Zugriff auf die Mikrostruktur zu einem gegebenen Lemma meist Ziel der Wörterbuchrecherche: man sucht z.B. Information über die Schreibung, Lautung, morphosyntaktischen oder anderen grammatischen Charakteristika oder über die Bedeutung und/ oder Verwendung eines bestimmten lexikalischen Zeichens. Im folgenden Beispiel sehen wir den Eintrag aus dem Duden Universalwörterbuch 4 zu Pamphlet: (1) Pamph|l e t, das: -[e]s, -e [frz. Pamphlet, engl. Pamphlet = Broschüre, H. u.]: Streit- oder Schmähschrift: ein politisches P., ein P. gegen jmdn schreiben, verfassen Der Eintrag zu Pamphlet enthält folgende Angaben: • Pamphlet besteht aus den Silben Pamph und let, mit Betonung auf der zweiten Silbe mit langem Vokal. • Pamphlet bezeichnet ein Substantiv Neutrum Singular und kann den Genitiv Singular sowohl mit -es als auch -s sowie den Nominativ Plural mit -e bilden. • Das Wort wurde aus dem Englischen ins Französische und dann aus dem Französischen entlehnt; die weitere Herkunft ist ungeklärt. • Es wird im bildungssprachlichen Deutsch abwertend gebraucht und bedeutet Kampfschrift oder Schmähschrift. • Es wird wie in den folgenden Beispielphrasen verwendet: ein politisches Pamphlet, ein Pamphlet gegen jemanden schreiben und ein Pamphlet gegen jemanden verfassen. Wie man am Artikel und der hier gegebenen Paraphrasierung der Angaben sieht, werden die Informationen im Wörterbuchartikel stark verdichtet, z.B. durch Abkürzungen und Ersetzungen von Wörtern und Wortteilen durch Platzhalter. Dies ist der Platzökonomie bei Printwörterbüchern geschuldet und hat keine weitere, prinzipielle Ursache. Bei der Digitalisierung von Wörterbüchern oder der Neuerstellung von elektronischen lexikalischen Ressourcen kann und sollte auf solche Techniken der Informationsverdichtung verzichtet werden. In der jüngeren Metalexikographie, die den lexikographischen Arbeitsprozess und seine Produkte detailliert beschrieben hat, wurde auch ein Inventar 4 Vgl. Dudenredaktion (1996). 82 Wörterbuchstrukturen von sog. Angabetypen aufgestellt (vgl. hierzu Wiegand (1989)). Diese Angabetypen bilden die Trägermengen der Mikrostrukturen vieler Wörterbücher. Wir werden deshalb im Folgenden einen Überblick über die gängigsten Angabetypen und funktionalen Textsegmente geben 5 : • Jeder Wörterbuchartikel (WA) hat zwei Hauptelemente, den Formkommentar (FK) und den Semantischen Kommentar (SK); • Informationen zum Lemma: Lemmazeichengestaltangabe (LZGA) zur Aufführung der Zitierform des Lemmas, Lemmazeichengestaltangabe für die schriftliche Realisierung (LZGA.sR); • phonetisch-phonologische und orthographische Angaben: Ausspracheangabe (AusA), Akzentangabe (AkzA), Vokalqualitätsangabe (VQA), Silbenangabe (SA), Rechtschreibangabe (RA), Worttrennungsangabe; • morphologische Angaben: Flexionsangabe (FlA), Genusangabe (GA), Graduierungsangabe (GradA), Kompositumsangabe (KompA), Wortfamilienangabe(WfA), Deklinationsangabe (DekA), Pluralbildungsangabe (PlbA), Singularbildungsangabe (SgbA); • syntaktische Angaben: Wortangabe (WA), Wortartenangabe (WAA), Angabe zur syntaktischen Valenz (VVA), Adjektivdistributionsangabe (attributive, prädikative oder adverbiale Verwendung von Adjektiven); • syntaktisch-semantische Angaben (SynSem): zum Beispiel Kollokationsangabe (KollA), Idiomangabe, Sprichwortangabe (SprichwA), Kompetenzbeispielangabe (KBeiA) für Angabe von Beispielen, die nur auf Kompetenz des Lexikographen gestützt sind, Belegbeispielangabe für meist korpusbasierte Beispiele (BeiA) plus Belegstellenangabe (BStA) für die Angabe der Fundstelle; • semantische Angaben (SK): Bedeutungsangabe (BA), Bedeutungsparaphrasenangabe (BPA), Synonymenangabe (SynA), die Antonymenangabe (AntA), Polysemieangabe (PA), Illustrationsangabe (IA), Übersetzungsäquivalentangabe (WÄA); • pragmatische Angaben (PragA): Fachgebietsangabe (FGA), Stilschichtenangabe (StilA), Häufigkeitsangabe (HA), Angabe zur zeitlichen Einordnung (diachrA) wie z.B. veraltet, Angabe zur räumlichen Verbreitung, Fremdwortherkunftsangabe, Normierungsangabe, Textsortenangabe (z.B. Zeitungssprache), Mediumsangabe (z.B. gesprochene Sprache); • sonstige Angaben: Etymologische Angabe (EtyA), Verweisangabe (VerwA). Diese Angaben werden in größeren Strukturen zusammengefasst: Formkommentar (FK), grammatische Angaben (GramA), semantischer Kommentar, pragmatisch-semantische Angaben (PragSemA). 5 In Klammern hinter den Angabetypen stehen die gebräuchlichen Abkürzungen, die auch wir in diesem Buch hin und wieder verwenden werden. Wörterbuchstrukturen 83 Wir wollen uns exemplarisch eine konkrete Mikrostruktur anschauen: (2) Rappe, der: -en, -en ‚schwarzes Pferd‘ Abbildung 6: Strukturgraph des Wörterbuchartikels Rappe Dieses Beispiel steht für die Mikrostruktur eines konkreten Lexikoneintrags. Diese konkreten Mikrostrukturen können zu Äquivalenzklassen zusammengefasst und damit zu abstrakten Mikrostrukturen generalisiert werden. Abstrakte Mikrostrukturen spezifizieren ein einheitliches Informationsprogramm für große Gruppen von lexikalischen Einträgen. Sie sind somit ein gutes Mittel für die Standardisierung bei der Erstellung von Wörterbuchartikeln und eine Orientierungshilfe für Wörterbuchbenutzer. Folgende Punkte muss man beim Ansetzen abstrakter Mikrostrukturen berücksichtigen: • Die Angaben bestimmter Angabeklassen müssen in allen abstrakten Mikrostrukturen realisiert sein. Dies sind die obligatorischen Angaben, z.B. die Lemmazeichengestaltangabe; • Angaben spezifischer Angabeklassen sind nur für spezifische abstrakte Mikrostrukturen obligatorisch (z.B. Genusangaben für Substantive); • Angaben einiger Angabeklassen sind für alle abstrakten Mikrostrukturen optional (etwa Beispielangabe oder Belegangabe); • Angaben mancher Angabeklassen sind für einige abstrakte Mikrostrukturen optional, während sie für andere Strukturen nicht zulässig sind (Graduierungsangaben sind etwa nur bei Adjektiveinträgen möglich). Erwähnt werden soll an dieser Stelle, dass Wiegand des Weiteren zwischen einfachen integrierten Mikrostrukturen, einfachen, nicht-integrierten und er- 84 Wörterbuchstrukturen weiterten integrierten Mikrostrukturen unterscheidet, wobei Letztere fähig sind, dem Artikel nachgestellte Verweisstrukturen in die Mikrostruktur zu integrieren 6 . Die vollständige Beschreibung der Mikrostrukturen in einem Wörterbuch muss folgende Informationen enthalten: 1. alle funktionalen Textsegmente, die im Wörterbuch vorkommen; 2. für alle Angaben bestimmter Angabeklassen, ob sie notwendig, optional oder nicht zulässig sind; 3. alle Lemmazeichentypen; 4. Zuschreibung aller abstrakten Mikrostrukturen zu den jeweiligen Lemmazeichentypen. Für eine ausführlichere Darstellung sei auf Wiegand (1989) verwiesen. Seine verdienstvollen Forschungen haben - auch wenn das Beschreibungsinstrumentarium gewöhnungsbedürftig, nicht immer sehr übersichtlich (mit vielfältigen Benennungen und Kürzeln) und in der Kopierung von Strukturrepräsentationen redundant ist - Begrifflichkeiten für die Wörterbuchanalyse hervorgebracht, die den Forschungsboom in der (Computer-)Lexikographie der vergangenen Jahrzehnte initiierten und terminologisch begleiteten. 1.4 Verweisstrukturen Wörterbücher machen regen Gebrauch von Verweisen, d.h. der Wörterbuchbenutzer wird bei der Recherche zu einem Stichwort zu einem anderen Wörterbuchartikel gelenkt, den er zur Vervollständigung der Information nachschlagen soll. Meist ist dieser Verweis durch ein Pfeilsymbol repräsentiert. Viele Verweise betreffen lexikalisch-semantische Relationen (etwa den Verweis auf ein semantisches Gegenteil, ein Antonym) oder grammatische Derivationsbeziehungen zwischen dem Stichwort und einer Grundform (trug zu tragen). Es kann aber auch auf ein bedeutungstragendes Stichwort aus einem Phrasem verwiesen werden (z.B. jmdn. über den → Leisten ziehen). Feste Konventionen für Verweise gibt es nicht; so kann auch eine Phrase das weitere Nachschlagen induzieren: (nautisch: die Nautik betreffend). Ärgerlich sind Verweise dann, wenn sie immer weiter vom eigentlichen Suchwort fort verweisen oder gar zirkulär sind, also ein erster Lexikoneintrag auf einen anderen verweist und dieser wieder auf ersteren: kaufen auf erwerben und erwerben auf kaufen. Für eine gelungene Verweisstruktur im Wörterbuch ist wesentlich, dass die Einträge konsistent sind, also dass nicht etwa auf einen Eintrag verwiesen wird, den es in dem speziellen Wörterbuch gar nicht gibt. Man unterscheidet: 6 Vgl. die Zusammenfassung in Engelberg und Lemnitzer (2001), S. 141ff. Wörterbuchstrukturen 85 • Grammatische Verweise: Diese Verweise haben die Funktion, die Unzulänglichkeiten der Makro- und Mikrostruktur von Printwörterbüchern auszugleichen. Die alphabetische Anordnung von Einträgen im Wörterbuch erzwingt es, dass z.B. die Grundformenangabe als Verweis auf die Grundform realisiert wird, wenn diese Grundform alphabetisch weit entfernt vom Stichwort ist (z.B. buk → backen). • Inhaltliche Verweise: Diese Verweise realisieren auf der Ebene der Wörterbuchstruktur Relationen, die im Wortschatz vorhanden sind, z.B. die paradigmatischen Relationen (Synonymie etc.). Die grammatischen Verweise sind medienspezifisch. In elektronischen Wörterbüchern können und sollten sie entfallen. Für die lexikalisch-semantischen Verweise ist es vielversprechend, mit Dafydd Gibbon (2001) eine sog. lexikalische M ESOSTRUKTUR anzunehmen, welche die paradigmatischen Relationen zwischen sinnrelational aufeinander bezogenen lexikalischen Einheiten expliziert. Diese Mesostruktur ist auch für Lexikonmodelle, die mit Objekthierarchien und Defaulthierarchien arbeiten, sehr hilfreich, da sie generalisierende Elemente in einer wörterbuchumspannenden Verweisstruktur zusammenfasst. 1.5 Wörterbuchstrukturen in lexikalischen Informationssystemen Wir haben uns exemplarisch Mikrostrukturen angeschaut und eine Vorstellung davon bekommen, wie heterogen Wörterbücher sind und wie sie in unterschiedlicher Weise das potenziell zur Verfügung stehende Informationsprogramm in Form von abstrakten Mikrostrukturen realisieren. Wir werden im Folgenden das System elexiko 7 , das am Institut für deutsche Sprache (IDS) entwickelt wird, vorstellen. Hier steht ein umfassendes lexikalisches Informationsprogramm im Hintergrund, aus dem verschiedene abstrakte Informationsstrukturen abgeleitet werden können. Elektronische Wörterbücher in der Art von elexiko werden auch L EXIKALISCHE I NFOR - MATIONSSYSTEME genannt. Im Anschluss daran werden wir das Digitale Wörterbuch der deutschen Sprache 8 vorstellen, das ebenfalls als lexikalisches Informationssystem betrachtet werden kann. Der Vergleich beider Systeme wird zeigen, was beim heutigen Stand der Technik im Bereich der lexikalischen Informationssysteme möglich ist. elexiko In elexiko werden die lexikalischen Informationen, welche die Mikrostrukturen instantiieren, zum größten Teil von Hand auf Grundlage sorgfältiger 7 www.elexiko.de , vgl. Haß (2005). 8 http: / / www.dwds.de/ , vgl. Geyken (2005). 86 Wörterbuchstrukturen Korpusanalysen erstellt oder zumindest verifiziert. Beim Ausfüllen der Mikrostrukturen werden zwei Strategien verfolgt: • HORIZONTAL : Es wird eine minimale Menge von Angaben für alle Stichwörter der Stichwortliste erstellt. Die Stichwortliste enthält ca. 300 000 Elemente. Sie wurde auf der Basis der IDS-Korpora erstellt 9 . • VERTIKAL : Zu wenigen Einträgen wird nahezu das ganze Informationsprogramm erstellt. Zurzeit trifft dies tatsächlich nur für ein paar Hundert Einträge zu. Diese doppelte Herangehensweise, bei der auch die Arbeitsergebnisse anderer lexikographischer Projekte am Institut für deutsche Sprache einbezogen werden, wird durch die mehrschichtige Architektur von elexiko ermöglicht: • Auf der Datenspeicherungsebene wird ein Datenbankmanagementsystem verwendet. Dies ist zur Zeit ORACLE 10 . • Auf der konzeptuellen Ebene werden die abstrakten Mikrostrukturen durch Dokumenttypdefinitionen beschrieben. Diese legen das Format von XMLannotierten Dokumenten fest, und jeder Wörterbuchartikel kann als solches XML-annotiertes Dokument betrachtet werden 11 . • Aus den Elementen der Mikrostruktur kann auf der Präsentationsebene für jeden Benutzertyp oder jede Benutzungssituation eine konkrete Artikelstruktur aufgebaut werden. Die Artikelstruktur kann während der Konsultation verändert werden, durch Ausblenden oder Einblenden von Angaben. Das elexiko zugrunde liegende Hypertextsystem erschließt die benötigte Information aus einer Datenbank und macht sie im WWW verfügbar. Zu diesen Informationen gehören: • Schreibung und Worttrennung. Diese werden vom Institut für deutsche Sprache selbst erstellt bzw. kontrolliert. • Morphologische Angaben. Hier wird, wenn diese nicht von den Lexikographinnen selber spezifiziert wurden, auf das morphologische Informationssystem von Canoo 12 verwiesen. • Syntaktische, semantische und pragmatische Angaben. Diese sind zur Zeit nur für die „vertikal“ bearbeiteten Artikel verfügbar. Sie sind vollständig an Korpora überprüft und wenn möglich mit Korpusbelegen versehen (ein Beispiel wird in Abbildungen 8 und 9 gezeigt). 9 Vgl. Schnörch (2005). Ein Teil der Lemmastrecke ist in Abbildung 7 dargstellt. 10 Vgl. für die folgende Darstellung Müller-Spitzer (2005). 11 Zu XML und DTDs siehe Abschnitt 3. 12 S. www.canoo.net . Wörterbuchstrukturen 87 Abbildung 7: elexiko - ein Teil der Lemmastrecke Hängt beim Printwörterbuch die Auswahl des Mikrostrukturenprogramms vom jeweiligen Adressatenkreis ab, so ist bei dem beschriebenen Hypertextsystem keine solche Ausrichtung vorhanden; vielmehr wird beim Aufbau der Präsentationsform auf das Repertoire der enthaltenen Elemente zugegriffen und so die jeweilig geeignete Mikrostruktur zusammengestellt. Eine Schnittstelle für die Benutzer benötigt also zur Abdeckung aller möglicherweise auftretenden Adressatenprofile ein lexikographisches Maximalprogramm, das außerdem stets überarbeitet und ergänzt werden können muss. 88 Wörterbuchstrukturen Abbildung 8: elexiko - Lesartenübergreifende Informationen des gut ausgebauten Artikels zum Stichwort Service Abbildung 9: elexiko - Informationen zu einer Lesart des Stichworts Service. Die Informationen sind auf „Karteikarten“ verteilt. Korpusbelege werden von Hand den Lesarten zugeordnet. Laut Auskunft der Autoren umfasst das maximale Informationsprogramm der Mikrostruktur mehrere Hundert Angabetypen. Naturgemäß sind nicht alle Angaben realisiert, selbt bei den vertikal bearbeiteten Artikeln nicht. Wörterbuchstrukturen 89 Die Anforderungen, welche die Formulierung eines derart umfassenden Mikrostrukturenprogramms ermöglichen, liegen in formaler Eindeutigkeit und logischer Konsistenz, die in einem interaktiven Prozess von Linguisten, Lexikographen und Informatikern hergestellt und gesichert werden. Deshalb ist die durch die Dokumenttypdefinitionen festgelegte konzeptuelle Struktur des Wörterbuchartikels auch ständiger Veränderung unterworfen, was hohe Anforderungen an die Werkzeuge für die Erstellung von Einträgen und an die Methoden zur Erstellung von Benutzersichten stellt. Nimmt die traditionelle Metalexikographie für jeden Lemmazeichentyp je eine spezifische abstrakte Mikrostruktur an, so ist die Existenz mehrerer paralleler Strukturen für eine generische Artikelstruktur problematisch. Diese kann besser durch eine unikale polyfunktionale in sich modular gegliederte Mikrostruktur erfasst werden, die alle spezifischen Artikelpositionen und Informationsarten für unterschiedliche Lemmatypen, aber auch unter unterschiedlichen Bearbeitungsschwerpunkten (Kollokationen oder Neologismen) enthält. Der modular-hierarchische Charakter der Mikrostruktur bleibt dabei erhalten; gewisse Informationstypen sind von anderen abhängig, etwa die Flexionsmerkmale von der Wortart. Die grundlegende Einheit als „Träger“ einer Mikrostruktur ist nicht das Lemma oder Lexem, sondern die LEXIKALISCHE E INHEIT (‚lexical unit‘), ein lexikalischer Form-Bedeutungs-Komplex. Der Zusammenhang von polysemen lexikalischen Einheiten in einem Lexem muss dann eigens spezifiziert werden. Nicht ganz einfach ist die Benennung der Felder - sie sollte linguistisch motiviert sein, aber auch nicht zu Missverständnissen bei linguistischen Laien führen. In elexiko wurde das Problem so gelöst, dass Sichten für den linguistischen Laien und für den linguistischen Experten definiert werden können, wobei sich vor allem das lexikographische Beschreibungsvokabular, aber auch die Explizitheit der Angaben in beiden Sichten unterscheidet 13 . Die Navigationsstrukturen, die Teil des Informationssystems sind und wahrscheinlich eher der Makrostruktur als der Mikrostruktur zuzurechnen sind, müssen noch daraufhin evaluiert werden, wie sie den Benutzern und ihren Informationsbedürfnissen entgegenkommen. Hierzu gehören auch die Mächtigkeit und die Funktionen der Suchmaschine, die einen gezielten Zugriff auf einzelne Artikel ermöglicht. Wir halten insgesamt die folgenden Punkte für das lexikalische Hypertextsystem elexiko fest: • Fixe Mikrostrukturen für Lemmata werden aufgegeben zugunsten eines modularen Systems zur Erzeugung dynamischer Mikrostrukturen für 13 Vgl. Müller-Spitzer (2005), S. 46-50. 90 Wörterbuchstrukturen Lesarten, das auf ein adressatenunabhängiges lexikographisches Vollprogramm zugreifen kann. • Die lineare Struktur eines traditionellen Wörterbuchs wird durch eine hypertextuelle, verlinkte Struktur ersetzt. Dadurch ist mehr Eigeninitiative und Auswahl bei der Informationsrecherche möglich. • Die Repräsentation der Mikrostrukturprogramme in einer Reihe von Dokumenttypdefinitionen gestattet eine datenbankunabhängige Modellierung und sorgt für die Nachhaltigkeit der im Projekt aufgebauten Wissensstrukturen. • Neben dem Verzicht auf eine konkrete Ausrichtung, die für traditionelle Wörterbücher unerlässlich ist, wird auch der traditionelle Term des Lemmas, Lexems oder Lexikoneintrags aufgebrochen. Elementare Einheit ist nun die Lesart oder Lexical unit 14 . Digitales Wörterbuch der deutschen Sprache Einen gänzlich anderen Weg beschreitet das Projekt Digitales Wörterbuch der deutschen Sprache. Grundlage des Informationssystems ist eine digitalisierte Version des Wörterbuchs der deutschen Gegenwartssprache (WDG) 15 . Das Informationsprogramm ist damit zunächst durch die Daten dieses Wörterbuchs vorgegeben. Tatsächlich werden den Benutzern die Artikel dieses Wörterbuchs zu einem angefragten Stichwort präsentiert, mit geringer Anpassung des Layouts (s. Abbildung 10). Die Abhängigkeit des Informationssystems vom WDG hat die folgenden Konsequenzen: • Es wird kein eigenständiges Informationsprogramm entwickelt. Das Informationsprogramm des WDG wird lediglich um einige Angabetypen erweitert (s. unten). • Die Angaben im WDG sind z.T. veraltet. So wird die lexikalische Einheit Service - im Sinne von / Dienst, Bedienung/ - als „Neulexem“ bezeichnet. Neuere Wörter wie Flyer oder Engine fehlen. Das Informationsprogramm des WDG wird um folgende, automatisch aus Korpora extrahierten Angaben erweitert: • Belegbeispielangaben zum Stichwort (allerdings nicht auf eine bestimmte Lesart bezogen); • Angaben zu Kollokanten zum Stichwort; • Angaben zu lexikalisch-semantischen Relationen. 14 Gelegentlich, z.B. im Kontext des PAROLE Projekts, wird auch der Ausdruck S EMANTIC UNIT verwendet, vgl. Calzolari et al. (2004). 15 Vgl. Klappenbach (1965). Wörterbuchstrukturen 91 Abbildung 10: DWDS - Artikel zum Stichwort Service aus dem WDG, das Bestandteil dieses Informationssystems ist Die automatisch generierten Daten genügen sicher nicht lexikographischen Ansprüchen, sie helfen aber dem kundigen Benutzer, einige Fragen zu beantworten (s. Abbildungen 11, 12 und 13). Eine systematische Evaluierung dieser Aspekte ist uns allerdings nicht bekannt. Abbildung 11: DWDS - Lexikalisch-semantische Relationen zum Stichwort Service 92 Wörterbuchstrukturen Abbildung 12: DWDS - Kollokationsgraph zum Stichwort Handeln Lexikalische Informationssysteme - Ein Vergleich Nach einem Vergleich beider Systeme sehen wir erhebliche Vorteile bei einer Herangehensweise, bei der zunächst ein abstraktes Informationsprogramm für Wörterbuchartikel definiert und formal beschrieben wird, wie dies bei elexiko der Fall ist 16 . Unseres Erachtens spricht nichts gegen die Übernahmen von Daten aus anderen lexikalischen Ressourcen, etwa maschinenlesbaren Wörterbüchern wie dem WDG. Die Daten müssen aber auf das Lexikonmodell, also das Informationsprogramm des lexikalischen Informationssystems zugeschnitten werden. Sie sollten außerdem auf ihre Korrektheit und Aktualität geprüft werden. Eine interessante dynamische Bereicherung des Informationsprogramms ist es, wenn automatisch aus Korpora gewonnene Informationen einbezogen werden. Selbst wenn diese Daten nicht den Qualitätsstandards lexikographischer Angaben genügen, kann der kundige Benutzer durch Interpretation dieser Daten für ihn wertvolle Informationen erschließen (s. Abbildungen 11, 12 und 13). Dies erscheint uns eine sinnvolle Alternative zur zeit- und kostenaufwändigen Erstellung einer hinreichend großen Zahl von Angaben zu einer 16 Vgl. hierzu auch Kapitel 10 in diesem Buch. Wörterbuchstrukturen 93 Abbildung 13: DWDS - Kollokationsgraph zum Stichwort Tun. Ein geübter Benutzer kann aus den Kollokationsgraphen in der letzten und dieser Abbildung erschließen, dass die Verwendung des Wortes Tun mit negativen Konnotationen verbunden ist, die Verwendung des Wortes Handeln aber mit positiven Konnotationen. hinreichend großen Anzahl von Stichwörtern. Letztendlich entzieht sich das elexiko-System bisher einer benutzungsbezogenen Evaluation dadurch, dass nur zu einer verschwindend kleinen Zahl von Stichwörtern ein angemessener Teil des Informationsprogramms realisiert wurde. Auf der Grundlage eines kooperativ erstellten Lexikonmodells erscheint uns deshalb eine angemessene Akquisitionsstrategie zu sein: • Angaben aus anderen lexikalischen Ressourcen, vor allem maschinenlesbaren Wörterbüchern, zu übernehmen, wenn diese geprüft wurden und in das Lexikonmodell passen; • Angaben aus Korpora automatisch zu generieren; • Angaben, die nicht auf den ersten beiden Wegen generiert werden können, manuell zu erstellen. 2 Parsing von Wörterbuchartikeln 2.1 Einleitung Die Grundidee des Wörterbuchparsing ist es, das in Wörterbüchern vorhandene lexikalische Wissen für sprachtechnologische Anwendungen zu erschließen. Dazu müssen die funktionalen Textsegmente durch Segmentierung der Artikel erkannt und das in ihnen enthaltene Wissen in das Lexikonmodell der lexikalischen Ressource (lexikalische Datenbank o.Ä.) eingeordnet werden. Beim P ARSEN von Wörterbucheinträgen wird das Satzband eines Printwörterbuchs automatisch in ein Format überführt, das die Struktur der Wörterbuchartikel explizit und hierarchisch repräsentiert. Dabei wird der Input des Satzbandes syntaktisch analysiert, und es wird eine digitale Repräsentation des Wörterbuchtextes erzeugt, auf dessen Teile dann z.B. bei sprachtechnologischen Anwendungen zugegriffen werden kann. Die Strukturanalyse und -zuweisung einer Eingabekette muss auf einen Grammatikformalismus als Regelwerk zurückgreifen. In den Anfängen des Wörterbuchparsings wurde die zugrunde liegende Grammatik an den Artikelstrukturen (abstrakten Mikrostrukturen) eines bestimmten Wörterbuches orientiert. Zunehmend aber wurde es wichtig, Grammatiken für Parser zu entwickeln, die die Strukturen diverser Wörterbücher beschreiben (vgl. Neff und Boguraev (1990)). Was muss nun eine Parsergrammatik für die adäquate Strukturierung von Wörterbuchtexten leisten? 1. Wörterbuchartikelgrammatiken definieren Wohlgeformtheitsbedingungen für Wörterbucheinträge und deren Konstituenten. Wörterbuchstrukturen, die nicht durch die Grammatik lizenziert sind, werden als nicht wohlgeformt ausgemustert und markiert. 2. Der Parser überprüft damit ebenso die Konsistenz der Wörterbuchkodierung, zum Beispiel auch für zukünftige Ausgaben eines Wörterbuches. 3. Der verwendete Grammatikformalismus sollte einfach und leicht adaptierbar sein (etwa um Änderungen in der Artikelstruktur reflektieren zu können). Im Folgenden wird das LexParse System beschrieben, das von Ralf Hauser im Rahmen des ELWIS-Projektes an der Universität Tübingen entwickelt wurde (vgl. Feldweg et al. (1993)). Mit LexParse wurden u.a. Teile des Duden Stilwörterbuchs und des Duden Bedeutungswörterbuchs geparst. Außerdem ist mithilfe von LexParse am Seminar für Sprachwissenschaft das maschinenlesbare HarperCollins Wörterbuch Deutsch-Englisch in eine strukturannotierte, digitale Version überführt worden. LexParse eignet sich übrigens auch zum Parsen wörterbuchähnlicher Referenzwerke wie Bibliographien und Enzyklopädien. Wörterbuchstrukturen 95 Zur Benennung der funktionalen Textsegmente standardisierter Wörterbuchartikel und zur Wörterbuchgrammatikentwicklung ist die in Abschnitt 1 vorgestellte Theorie Wiegands zugrunde gelegt worden, die die wesentlichen strukturellen Eigenschaften von Wörterbuchtexten erfasst: • Wörterbuchartikelgrammatiken definieren Wohlgeformtheitsbedingungen für den Zugriff auf die Ordnungsstrukturen, d.h. Mikro- und Makrostruktur, durch den Parser; • Wörterbucheinträge fungieren als Basiseinheiten. Sie werden durch ein Lemmazeichen eingeleitet; • für nischenalphabetische Ordnung werden Untereinträge geclustert (innerhalb eines Eintrags); • für nestalphabetische Ordnung muss darüber hinaus die strikt-alphabetische Reihenfolge durchbrochen werden. Es werden zwei Arten von Relationen unterschieden, die zusammen die hierarchische Mikrostruktur von Wörterbucheinträgen determinieren: 1. PARTITIVE R ELATIONEN , welche auf der Menge der Angabeklassen definiert sind und die partitive Mikrostruktur bestimmen. So trennt z.B. eine partitive Relation den Formkommentar (FK) mit all seinen Angaben vom semantischen Kommentar (SK), eine weitere partitive Relation unterteilt den semantischen Kommentar ggf. in semantische Subkommentare. 2. P RÄZEDENZRELATIONEN , welche auf der Menge elementarer, d.h. terminaler Angaben definiert sind und die Abfolge in der Mikrostruktur festlegen (z.B. kann durch eine Präzedenzrelation festgelegt werden, dass der Formkommentar dem semantischen Kommentar vorausgeht). Hierarchische Mikrostrukturen können als eine kontextfreie Wörterbuchartikelgrammatik WAG = CEI, CNI, R, WA beschrieben werden mit 1. CEI, dem terminalen Alphabet von WAG, als Menge der Klassen der elementaren Angaben (z.B. WA, WAA, vgl. Abschnitt 1.3); 2. CNI, der Menge der nicht-terminalen Symbole von DG, als Menge der Klassen der nicht-elementaren Angaben (z.B. FK und SK); 3. R, der Menge der kontextfreien Ersetzungsregeln; 4. WA (=Wörterbuchartikel), dem initialen Symbol der Grammatik. WA ist ein Element aus der Menge CNI. Die Strukturanzeiger, die zur Erkennung der Wörterbuchform verwendet werden, unterteilen sich in nicht-typographische (wie Klammern und Punktzeichen) und typographische Strukturanzeiger (Font und Typeface), die keine eigentlichen Textsegmente, sondern Attribute von Segmenten wie Angaben darstellen. Sie steuern die initiale Segmentierung des Wörterbuchartikels in funktionale Textsegmente. 96 Wörterbuchstrukturen Aufbau und Design der modularen LexParse-Architektur werden im nächsten Abschnitt ebenso beschrieben wie die Interaktion der einzelnen Module. In Abschnitt 2.3 dieses Kapitels werden Auszüge aus der Grammatik und ein geparster Musterartikel vorgestellt. LexParse ist in C++ implementiert und kann beim Seminar für Sprachwissenschaft der Universität Tübingen angefordert werden 17 . Sowohl beim Parsen syntaktischer Strukturen natürlicher Sprache als auch beim Parsen von Wörterbucheintragsstrukturen werden jeweilig dem in Textsegmente unterteilten Inputstring unter Rückgriff auf eine Grammatik automatisch hierarchische Strukturen zugewiesen. Trotz dieser Ähnlichkeit gibt es zwischen Syntaxparsing und Wörterbuchparsing erhebliche Unterschiede: • Beim Parsen von Sätzen spielt die Rekursion von Strukturen, also die Wiederholung einer übergeordneten durch eine eingebettete Struktur - etwa in Adjektivphrasen oder Nebensätzen - eine wichtige Rolle; beim Wörterbuchparsing ist dagegen die Iteration von Angaben eines bestimmten Angabentyps (etwa mehrere Beispielsätze im Beispielfeld) das vorherrschende Strukturmerkmal; Rekursion im Wörterbucheintrag ist nur bei Nischen und Nestern gegeben, wenn die Struktur eines Untereintrags mit der Struktur des Haupteintrags identisch ist. • Ein syntaktischer Parser konsultiert in der Regel ein Lexikon, um den vorkommenden terminalen Elementen (Wörtern) syntaktische Kategorien zuzuweisen. Ein Pendant hierzu, also ein Lexikon für den Wörterbuchparser, das in Bezug auf die unrestringierten Definitions- oder Beispielangaben alle möglichen Auftretensfälle abdeckt, gibt es nicht. Es können lediglich die möglichen Werte für gewisse geschlossene Angabeklassen eingeschränkt werden, etwa für die Genusangabe bei Substantiven. • Die beim Syntaxparsing vorherrschende strukturelle und lexikalische Ambiguität, die ein immenses Problem für diese Art von Parsern darstellt, hat keine Entsprechung im Parsen von Wörterbucheinträgen. Wörterbuchartikel haben eine festgelegte Mikrostruktur, die sich meist eindeutig interpretieren lässt. Dafür gibt es beim Wörterbuchparsen Ambiguität hinsichtlich der Struktur-Anzeiger (structural indicators, SI), die in mehrfacher Funktion auftreten können, etwa der Slash (/ ) als Trennungszeichen zwischen lexikalischen Varianten oder als Einbettungszeichen für eine pragmatischsemantische Angabe. Zeichen, die im Artikel ausschließlich als Strukturanzeiger auftreten, werden DEFINITE S TRUKTURANZEIGER genannt. Die Ambiguität kann einfach aufgelöst werden, wenn die Funktionsvarianten in unterscheidbaren kontextuellen Umgebungen auftreten. Wenn der Kontext nicht ausreicht, um die Funktion des Strukturanzeigers zu bestimmen, 17 http: / / www.sfs.uni-tuebingen.de/ de_nf_asc_resources.shtml . Wörterbuchstrukturen 97 ist die Fehleranfälligkeit natürlich höher. Verwendete Symbole wie der Doppelpunkt im Duden-Stilwörterbuch können ebenfalls ambig sein und entweder eine strukturell signifikante Rolle spielen oder aber auch als unspezifisches Zeichen (ohne strukturelle Funktion) in einem Beispielsatz auftreten. Diese zweite Art von Ambiguität gilt in Bezug auf sog. indefinite Strukturanzeiger. • Der Wörterbuchparser muss mit beiden Arten von Ambiguitäten umgehen können, da die Erkennung der Artikelstruktur von der korrekten Interpretation der Strukturanzeiger abhängig ist. Vor allem die falsche Interpretation der indefiniten Strukturanzeiger führt zu falschen Segmentierungen und inadäquaten Analyseergebnissen. Außer der automatischen Erkennung und korrekten Interpretation der Strukturanzeiger sollte ein Wörterbuchparser den folgenden Anforderungen genügen, um den Konvertierungsprozess vom Satzband in lexikalische Datenbanken zu gewährleisten: • Der verwendete Grammatikformalismus muss mit Fonts, typographischen Markern und Zählmechanismen zurechtkommen, die durch kontextfreie Grammatiken nicht behandelt werden können. • Der Formalismus muss die für die hierarchische Mikrostruktur typische Iteration behandeln können, was durch rekursive Regeln nicht angemessen geleistet wird. • Ein einfacher Grammatikformalismus sollte den Aufbau eigener Wörterbuchgrammatiken für den Nutzer ermöglichen. • Das Format der Parsingbäume sollte durch den Nutzer konfigurierbar sein, hierarchische Attribut-Wert-Strukturen abbilden und annotierte Strukturen in XML als Zwischenausgabe für die Konvertierung in andere Formate erzeugen. • Der Parser sollte spezielle Funktionen und Protokolldateien vorsehen, um die Entwicklung und das Debuggen von Wörterbucheintragsgrammatiken zu unterstützen. • Alle Einstellungen und Optionen beim Parsen müssen permanent speicherbar sein, um darauf folgende Parsingvorgänge leichter handhabbar zu machen. • Die Implementierung des Programms sollte möglichst plattformneutral sein. 2.2 Die Architektur von LexParse Das LexParse System (vgl. Abbildung 14), das aus der Konfigurationsdatei und dem auszuführenden Programm besteht, ist modular aufgebaut: 98 Wörterbuchstrukturen • Die M AIN F UNCTION initialisiert alle Datenstrukturen und übernimmt die Programmeinstellungen. Hier befindet sich auch der ‚Main Loop‘ für das Wörterbuchartikelparsen; • Die P ARSING E NGINE besteht aus drei unterschiedlichen Komponenten, dem Preprocessor, dem Scanner und dem eigentlichen Parser. • Die O UTPUT F UNCTION zeigt den Ergebnisbaum in verschiedenen benutzerdefinierten Formaten; hier können auch textuelle Konversionen der Terminalknoten des Parsebaums vorgenommen werden. Im Folgenden sollen die verschiedenen Module kurz charakterisiert werden: • Die K ONFIGURATIONSDATEI ist eine ASCII Textdatei, die alle wichtigen Einstellungen, Befehle und die Wörterbucheintragsgrammatik enthält, und bei Bedarf in verschiedene Dateien aufgeteilt werden kann, etwa zur Trennung allgemeiner Einstellungen von wörterbuchspezifischen Einstellungen. LexParse liest und interpretiert die Konfigurationsdatei und überprüft die Grammatik und alle Einstellungen nach Vollständigkeit. Sind keine Fehler aufgetreten, kann das festgelegte Inputfile für das Parsing geöffnet werden. • Der P REPROCESSOR liest das Inputfile und konvertiert Satzband-spezifische Formatsequenzen und Kontrollkodes in ein unabhängiges Format. • Der S CANNER segmentiert die Sequenzen aus dem Preprocessor in T O - KEN , d.h. funktionale Textsegmente oder Strukturanzeiger. • Diese Token werden vom P ARSER anhand der Wörterbucheintragsgrammatik auf entsprechende Parsebäume abgebildet. • Der P OSTPROCESSOR nimmt kontextuelle Konversionen der Terminalknoten des Parsebaumes vor, etwa die Konversion von Umlauten. Die Bäume werden vom Programm in den benutzerdefinierten Einstellungen repräsentiert; nicht wohlgeformte Strukturen werden im größeren Kontext dargestellt. • Die verschiedenen Verarbeitungsstufen werden in den jeweiligen Logfiles protokolliert. • Ein Statusreport gibt Aufschluss über die Anzahl korrekter und inkorrekter Einträge sowie die Dauer des Parsings. In LexParse werden zwei verschiedene Arten von Token unterschieden, X CO - DE TOKENS und L ITERAL TOKENS : Xcodes sind vordefinierte Symbole zur Repräsentation der Strukturanzeiger, während Literals Zeichenketten (Wort, Zahl oder Satzzeichen) darstellen. Die Tokenisierung wird durch verschiedene Wortgrenzen, Interpunktionszeichen und Xcodes geleitet. Es ist wichtig zu verstehen, dass die Unterscheidung von Xcodes und Literals elementar für das LexParse System ist. Die Xcodes helfen bei der Disambiguierung der Strukturanzeiger; alle Token, denen keine Xcodes zugewiesen werden, behandelt LexParse als Literals. Weiter ist die Erkennung des Schrifttyps Wörterbuchstrukturen 99 bzw. die Veränderung des Fonts oder Schrifttyps (etwa der Übergang von Kursivzu Fettdruck) eine wesentliche Voraussetzung für das Parsen von Satzbändern. Typographische Eigenschaften und Veränderungen werden entsprechenden Xcodes zugewiesen. Schrifttypveränderungen werden mit grammatischen Regeln, die allerdings nicht kontextfrei sind, hergeleitet. Abbildung 14: Architektur von LexParse 2.3 Eine Beispielgrammatik Die folgende Beispielgrammatik beschreibt ein Fragment des Duden Stilwörterbuchs 18 . Zur Veranschaulichung präsentieren wir außerdem einen passenden, wohlgeformten Beispieleintrag aus diesem Wörterbuch und den aus der Analyse resultierenden Strukturbaum. [PreProcess] ChangeRep = " } } $ " -> " " ; end-of-line marker ; begin of a lemma and boldface Change = "òT2ûò5û" -> "#XFLBE# #XFTxb#" 18 Vgl. Drosdowski (1988). 100 Wörterbuchstrukturen DeleteRep = "} - }$" ; hyphen Delete = "òvr10û" ; italic correction [Scanner] AddLetters = "äöüÄÖÜß" XPSEM = " ; " XPCOL = " : " XFLEN = "&#230; " ; control codes for typefaces ( ’Settings: TypefaceStates’) XFTst = "ò1û" XFTit = "ò2û" XFTbo = "ò3û" XFTxb = "ò5û" [Parser] Start = WA IndentLog = On RecoverCounterError = Yes ExpandAbbrev = LZGA SkipCriticalIsError = Yes [Grammar] ; --- Wörterbuchartikel WA -> XFLBE; FK; SK; XFLEN | WA_Err. ; error handler WA_Err -> * XFLEN @. ; error handler ; --- Formkommentar FK -> LZGA [ GrA ] XPCOL | FK_Err. ; error handler FK_Err -> * XPCOL @. ; error handler LZGA -> XFTxb: $ [ ","^ ]. ; Lemmazeichengestaltangabe GrA -> GA. ; Grammatische Angabe GA -> XFTst: { "der", "die", "das" }. ; --- Semantischer Kommentar SK -> &lt; PAA, PragSemA, BeiGA >. ; --- Typen von Polysemieangaben PAA -&gt; XFTbo: %1, ".", %Ra. ; Polysemieangabe (arabisch) ; --- Pragmatisch Semantische Angabe PragSemA-&gt; BPA. Wörterbuchstrukturen 101 ; --- Bedeutungsangaben BPA -&gt; XFTit: * XPCOL ; --- Beispielgruppenangabe BeiGA -&gt; BeiA &lt; XPSEM, BeiA &gt; [ "." ]. ; --- Beispielangabe BeiA -&gt; XPCOL: ; no XCodes XPCOL herein! XFTst: $$. [Labels] WA = "Wörterbuchartikel" WA_Err = "Fehler in Wörterbuchartikel" FK = "Formkommentar" FK_Err = "Fehler in Formkommentar" LZGA = "Lemmazeichengestaltangabe" GA = "Genusangabe" GrA = "Grammatische Angabe" SK = "Semantischer Kommentar" PAA = "Polysemieangabe (arabisch)" PragSemA = "Pragmatisch-Semantische Angabe" BPA = "Bedeutungsparaphrasenangabe" BeiGA = "Beispielgruppenangabe" BeiA = " Beispielangabe" Der folgende Eintrag für das Stichwort Treffen stammt aus dem Duden Stilwörterbuch: Treffen, das: 1. Zusammenkunft, Begegnung: regelmäßige, seltene T.: ein T. der Abiturienten; ein T. der Außenminister; ein T. verabreden, veranstalten; an einem T. teilnehmen; zu einem T. kommen. 2. (milit. veraltet) Gefecht: frische Truppen ins T. führen; . 3. (Sport) Wettkampf ein faires, spannendes T.; das T. endete unentschieden; sie konnte das T. für sich entscheiden. * (geh.): etwas ins Treffen führen (etwas als Argument vorbringen). Im Folgenden zeigen wir den Strukturbaum, der das Ergebnis der Analyse des oben gezeigten Wörterbuchartikels durch LexParse ist. WA - Wörterbuchartikel +--> FK - Formkommentar | +--> LZGA - Lemmazeichengestaltangabe "Treffen" | +--> GrA - Grammatische Angabe | +--> GA - Genusangabe "das" +--> SK - Semantischer Kommentar | +--> SSK1 - Semantischer Subkommentar 1. Stufe | | +--> PAA - Polysemieangabe (arabisch) "1." | | +--> PragSemA - Pragmatisch-Semantische 102 Wörterbuchstrukturen Angabe | | | +--> BA - Bedeutungsangabe | | | +--> BPA - Bedeutungsparaphrasenangabe "Zusammenkunft, Begegnung" | | +--> BeiGA - Beispielgruppenangabe | | +--> BeiA -Beispielangabe "regelmäßige, seltene Treffen" | | +--> BeiA -Beispielangabe "ein Treffen der Abiturienten" | | +--> BeiA -Beispielangabe "ein Treffen der Außenminister" | | +--> BeiA -Beispielangabe "ein Treffen verabreden, | | +--> BeiA -Beispielangabe "an einem Treffen teilnehmen" | | +--> BeiA -Beispielangabe "zu einem Treffen kommen" | +--> SSK1 - Semantischer Subkommentar 1. Stufe | | +--> PAA -Polysemieangabe (arabisch ) "2." | | +--> PragSemA - Pragmatisch-Semantische Angabe | | | +--> PragA - Pragmatische Angabe "militär. veraltet" | | | +--> BA - Bedeutungsangabe | | | +--> BPA - Bedeutungsparaphrasenangabe "Gefecht" | | +--> BeiGA - Beispielgruppenangabe | | +--> BeiA - Beispielangabe "frische Truppen ins Treffen führen" | +--> SSK1 - Semantischer Subkommentar 1. Stufe | +--> PAA - Polysemieangabe (arabisch) "3." | +--> PragSemA - Pragmatisch-Semantische Angabe | | +--> PragA - Pragmatische Angabe "Sport" | | +--> BA - Bedeutungsangabe | | +--> BPA - Bedeutungsparaphrasenangabe Wörterbuchstrukturen 103 "Wettkampf" | +--> BeiGA - Beispielgruppenangabe | +--> BeiA - Beispielangabe "ein faires, spannendes Treffen" | +--> BeiA - Beispielangabe "das Treffen endete unentschieden" | +--> BeiA - Beispielangabe "sie konnte das Treffen für sich entscheiden" +--> PKP - Postkommentar zur Phraseologie +--> SKP - Subkommentar zur Phraseologie +--> PhrasA - Phrasemangabe "etwas ins Treffen führen" +--> KPB - Kommentar zur Phrasembedeutung +--> PBA - Phrasembedeutungsangabe "etwas als Argument vorbringen" 2.4 Extraktion von semantischen Angaben aus maschinenlesbaren Wörterbüchern Einleitung Ein beliebtes maschinenlesbares Wörterbuch aus dem angelsächsischen Raum war und ist das Longman Dictionary of Contemporary English (LDOCE). Der Verlag stellte schon bald nach dem Erscheinen 1978 die Satzbänder der ersten Auflage dieses Wörterbuchs der computerlinguistischen Forschung zur Verfügung. Zu dieser Zeit setzte sich in der Computerlinguistik die Erkenntnis durch, dass sprachtechnologische Anwendungen realer Größe ohne lexikalische Ressourcen mit hoher Abdeckung des Wortschatzes nicht realisierbar sind. Aus der Konvergenz der Lexikographie, vor allem des Longman Verlags, und der Computerlinguistik entstand das vor allem in den achtziger und neunziger Jahren aktive Forschungsfeld, das sich der Analyse, Konversion und Nutzung von lexikographischen Beschreibungen aus digitalisierten Printwörterbüchern widmete. Wir werden in Kapitel 10 eine Bilanz dieser Aktivitäten ziehen. An dieser Stelle wollen wir beispielhaft ein Projekt beschreiben, in dem die semantischen Informationen aus dem Longman Dictionary of Contemporary English 19 analysiert und genutzt wurden. Der Ansatz von Piek Vossen et al. (1989) entstand im Umfeld des LINKS Projekts zur Entwicklung einer Datenbank semantischer Beschreibungen, in der Bedeutungsbeschreibungen des LDOCE systematisch verknüpft und gespeichert wurden. Theoretische Grundlage dieser Datenbankentwicklung ist 19 vgl. Procter (1978). 104 Wörterbuchstrukturen der Ansatz von Simon Dik (1978), ein komponentieller Ansatz der lexikalischen Semantik, der ohne Rückgriff auf metasprachliches Vokabular wie semantische Primitiva auskommt und stattdessen schrittweise lexikalische Bedeutungen auf ein Basisvokabular reduziert. Der Ansatz von Dik passt auch deshalb gut zum analysierten Wörterbuch, weil das LDOCE ein wohldefiniertes und eingeschränktes Vokabular für die Bedeutungsbeschreibungen verwendet. In diesem Projekt wurden folgende Verarbeitungsschritte vorgenommen: • grammatische Kodierung des (restringierten) Definitionsvokabulars und seiner flektierten Formen und automatische Einsetzung dieser Kodierung in alle Bedeutungsbeschreibungen: als Ergebnis entstand ein grammatisch annotiertes Korpus von Bedeutungsbeschreibungen; • Entwicklung einer syntaktischen Typologie für die Strukturen von Bedeutungsbeschreibungen unterschiedlicher Kategorien, z.B. Nomen, Verben, Adjektive: hierbei entstanden für jede der Kategorien Parsergrammatiken, die jeweils helfen, die syntaktischen Strukturen der Bedeutungsbeschreibungen zu identifizieren und in Prä- und Postmodifikatoren sowie Kernels zu segmentieren; • parallel zur syntaktischen Typologie wurde eine semantische Typologie aufgebaut; • beide Typologien wurden in einer relationalen Datenbank verknüpft, um syntagmatische und paradigmatische Verknüpfungen zwischen den Wörtern angemessen zu erfassen, die sinnrelationalen Verbindungen und Eigenschaften abzubilden und dadurch semi-automatische Verfahren im Bereich der Text-und Diskursanalyse zu unterstützen; • die Einträge dieser Datenbank wurden mit der im Satzband der computerlesbaren Version des LDOCE verfügbaren pragmatischen Information über Sachbereichsfelder (Subject Field Codes) und das Sprachregister (Speech Register Codes) verknüpft. Diese Informationen sind hilfreich für den Zugriff auf eine Wortverwendung in einer bestimmten Domäne, z.B. I NSTRUMENT im Bereichsfeld M EDIZIN . Für jeden Eintrag wurden fünf Angaben spezifiziert: LDOCE Subject field code, Box code (mit stilistischer Information), orthographische Form, syntaktische Kategorie (POS-Code) und die Bedeutungsbeschreibung. Auf alle Felder kann einzeln zugegriffen werden. So wird der Eintrag: (3) ‚anaesthetist‘: a doctor who gives an anaesthetic to a patient before he is treated by another doctor in folgende Teile zerlegt: • subject fields: mdon- Wörterbuchstrukturen 105 • semantic label: ....h...y. • entry (POS): anaesthetist (n) • marker (beginning of meaning description): ul UL • meaning description: a doctor who gives an anaesthetic to a patient before he is treated by another doctor Die Bedeutungsbeschreibungen, die aus einem sog. kontrollierten Vokabular mit ca. 2000 Items zusammengesetzt sind, werden mit den entsprechenden POS-Codes versehen, um ein grammatisch getaggtes Korpus von Bedeutungsbeschreibungen zu erhalten, mit dem jeweiligen Kategorienlabel für jedes Wort aus dem verwendeten Definitionsvokabular, wie im folgenden Beispiel: (4) a [D0] doctor [N0] who [P0] gives [VJ] an [D0] anaesthetic [N0- 1A01XX] to [I0TO] a [D0] patient [A0] before [C0I0] he [P0] is [BJ] treated [VD] by [I0] another [D0P0] doctor [N0] Die Bedeutungsbeschreibung für Nomen wird auf vier Ebenen vorgenommen: • Wortsequenz: a man who gives • POS Sequenz: Det Noun RelPronoun Verb • Syntaktisches Pattern: [NP[DET a] [N (or KERNEL) man]] [RELCLAUSE who gives] • Semantisches Pattern: Quantor category activity-spec. modifier Die Grundstruktur einer Nominalphrase besteht aus einem (optionalen) Determiner, einer (optionalen) modifizierenden Komponente (P RE -K ERNEL oder P OST -K ERNEL ) und einem obligatorischen syntaktischen K ERNEL . Typen nominaler Bedeutungsbeschreibung Wir werden im Folgenden einige Typen der nominalen Bedeutungsbeschreibung darstellen. Diese Typen sind das Ergebnis einer Verallgemeinerung der individuellen Bedeutungsparaphrasen aus dem LDOCE. L INKS : Hier ist der syntaktische Kernel in semantischer Hinsicht ein Hyperonym des Eintragswortes und wird in der Bedeutung von den Prä- und Postmodifikatoren eingeschränkt, z.B. 20 : (5) flamingo: a small tropical water BIRD with long thin legs (6) lap dog: a small pet DOG 20 Die hyperonymischen Substantive werden im Folgenden in Großbuchstaben dargestellt. 106 Wörterbuchstrukturen S YNONYMS : Hier sind keine Restriktionen oder Modifikatoren notwendig, da die gesamte Information in einem Wort, eben dem Synonym, ausgedrückt wird. Das Synonym kann auch als impliziter Verweis aufgefasst werden, also als Aufforderung, weitere Informationen beim Eintrag des synonymen Wortes zu erschließen. (7) abbattoir: slaughterhouse L INKERS : So werden Kernel bezeichnet, die relativ bedeutungsleer sind und auf ein anderes, ebenfalls in der Bedeutungsparaphrase auftauchendes Wort verweisen, für welches an anderer Stelle im Lexikon weitere Informationen zu finden sind. Die Zielwörter dieser Linkers sind in den folgenden Beispielen durch Fettdruck hervorgehoben. (8) breastplate: a PIECE of armour worn to protect the chest (9) arab: a TYPE of fast graceful horse Auch diese Bedeutungsparaphrasen können als implizite Verweise interpretiert werden. Nicht alle nominalen Bedeutungsbeschreibungen mit einem Kernel, der ein of -Komplement enthält, sind aber als Linker zu betrachten. So gibt es z.B. formal analoge Konstruktionen, in denen der Kernel ähnliche semantische Information wie ein Link trägt: (10) beef: the MEAT of farm cattle (11) lights: the LUNGS of sheep, pigs, etc. used as food Andere solche of -Komplemente enthaltende Kernel unterscheiden sich von Linkern, indem sie einen Wortklassenwechsel in der Bedeutungsbeschreibung (auf die nicht-nominale Ebene) einleiten und mit Relativsätzen zu paraphrasieren sind. Das sind die so genannten S HUNTER , die ebenfalls wie Linker einen relativ bedeutungsleeren Kernel enthalten: (12) adornment: the ACT of adorning (‚an act which consists of adorning‘) (13) actuality: the STATE of being real (‚a state which consists of being real‘) Es passen auch Kernels, die von Relativsätzen gefolgt werden, in das Shunter- Paradigma: (14) camper: a PERSON who camps Wörterbuchstrukturen 107 Neben relativ klaren Fällen gibt es auch Probleme der Klassifizierung, weil manche Kernels zwischen Links und Shuntern stehen, wie die folgenden Beispiele zeigen: (15) acting: the ART of representing a character. esp. on stage or for a film (16) admixture: a SUBSTANCE that is added to another in a mixture Wegen der gleichwertigen Verteilung des semantischen Gehalts werden sie aber als Linker charakterisiert. Außerdem gibt es noch Kernel, die Shuntern ähneln, bei denen aber das „Shunten“ auf den Kernel selbst erfolgt: (17) advent: the COMING of Christ to the world (18) aspiration: the PRONUNCIATION of the letter h Wir haben am Beispiel der Analyse von Bedeutungsparaphrasen eines Printwörterbuchs gesehen, dass • sich diese Bedeutungsparaphrasen in syntaktische Strukturmuster klassifizieren lassen, wenn diese linguistisch annotiert und diese Annotationen analysiert werden; • aus diesen syntaktischen Strukturmustern unterschiedliche Beziehungen zwischen der paraphrasierten lexikalischen Einheit, dem Kern der Paraphrase sowie weiteren Wörtern der Paraphrase hervorgehen; • sich aus diesen Relationen Beziehungen zwischen lexikalischen Einheiten ableiten, die in etwa den an anderer Stelle beschriebenen sinnrelationalen Beziehungen im Wortschatz einer Sprache entsprechen (vgl. Kapitel 3, Abschnitt 4.2); • dass sich diese Informationen in eine lexikalische Datenbank überführen lassen, wenn das Lexikonmodell, das dieser Ressource zugrunde liegt, die Kodierung von Sinnrelationen vorsieht. Es wird aber im Falle jedes einzelnen Wörterbuchs bzw. Analyseprojekts genau zu untersuchen sein, mit welcher Präzision das Stichwort mit den lexikalischen Einheiten der Bedeutungsparaphrase verbunden werden kann. Zu viele Fehlzuordnungen wirken sich negativ auf das Kosten-Nutzen-Verhältnis einer solchen Analyse aus. Eventuell kann es danach günstiger sein, sinnrelationale Strukturen im Wörterbuch überwiegend händisch zu erstellen. Ein Verfahren wie das hier beschriebene kommt sowieso nur für solche Wörterbücher in Frage, in denen das Verfahren der Bedeutungsparaphrasierung bereits stark formalisiert ist. 3 Kodierung von Wörterbuchartikelstrukturen 3.1 Einführung Kommen lexikalische Ressourcen in sprachtechnologischen Systemen zum Einsatz, so ist es essenziell, dass die in ihnen enthaltenen Informationssegmente eindeutig gekennzeichnet sind. Die Datenfelder, aus denen die Einträge einer lexikalischen Ressource bestehen, sollten außerdem so gekennzeichnet sein, dass Entwickler von Programmen von den Namen der Datenfelder auf ihren Inhalt, also die Art der zur Verfügung stehenden Information, schließen können. Dies gilt besonders dann, wenn die Entwickler einer sprachtechnologischen Anwendung mit den Entwicklern der verwendeten lexikalischen Ressourcen nicht in Kontakt stehen, sondern auf die Konsistenz der Ressource und insbesondere der verwendeten Kennzeichnungen und deren Dokumentation vertrauen müssen. Zur Auszeichnung von Texten und Dokumenten sind sogenannte Markupsprachen entwickelt worden. Die ‚Text Encoding Initiative‘ (TEI) 21 , die die Verwendung von Markupsprachen für alle Arten von Dokumenten, auch von Wörterbuchartikeln, standardisiert, sagt hierzu: [...] different documents of the same type can be processed in a uniform way. Programs can be written which take advantage of the knowledge encapsulated in the document structure information [...] (TEI Guidelines, Kapitel 2) Wir werden sehen, wie wichtig die Textauszeichnung mit SGML (S TANDAR - DIZED G ENERALIZED M ARK - UP L ANGUAGE ) oder XML (E XTENSIBLE M ARK - UP L ANGUAGE ) für die Computerlexikographie ist. 3.2 Strukturbeschreibende Auszeichnung Die S TRUKTURBESCHREIBENDE A USZEICHNUNG ist eine Methode zur Kennzeichnung von Textteilen nach ihrer Funktion für das Textganze. Mit der Auszeichnung der logischen Struktur eines Textes nimmt man bewusst Abstand von der Beschreibung des äußeren Erscheinungsbildes, des Layouts. Struktur und Layout von Texten und ihren Teilen werden auf prinzipielle Weise getrennt. Durch die geschickte Wahl der Namen für die Auszeichnungselemente (engl. TAGS ) kann man zudem erreichen, dass aus dem Namen eines Textteils auf dessen Inhalt geschlossen werden kann. Es ist außerdem eine empfehlenswerte Praxis, die Semantik der Namen, die man den Auszeichnungselementen gibt, in einer Dokumentation niederzulegen, um zukünftigen 21 http: / / www.tei-c.org/ Guidelines2/ . Wörterbuchstrukturen 109 Benutzern der Dokumente das Verständnis zu erleichtern bzw. Missverständnisse zu vermeiden. Der Name eines Auszeichnungselements für einen Teil eines Wörterbuchartikels kann sich zum Beispiel an verbreiteten Namenskonventionen oder, sofern vorhanden, an Standards orientieren. Wir werden in Abschnitt 4 dieses Kapitels Konventionen und sich entwickelnde Standards für Wörterbuchartikel und ihre Bestandteile, die Angabeklassen, ausführlich beschreiben. An den dort eingeführten Namenskonventionen kann man die Benennung der Auszeichnungselemente orientieren. Die Struktur eines Dokuments - genauer: einer Klasse gleichartiger Dokumente - wird in einer Dokumenttypdefinition (im Folgenden: DTD) oder in einem Dokumentschema beschrieben. Diese Beschreibung hat die Form einer KONTEXTFREIEN G RAMMATIK . Mit der Bereitstellung einer solchen Dokumentgrammatik ist eine wichtige Voraussetzung für die strukturelle Analyse - das Parsing - der Dokumente, die mit der Beschreibung konform gehen, gegeben 22 . Existiert bereits eine DTD, die die zu erstellenden Dokumente in geeigneter Weise spezifiziert, dann kann man beginnen, die Teile des Dokuments mit Tags zu versehen, deren Namen den Element-Namen in der zugrunde liegenden DTD entsprechen müssen. Hierfür gibt es mittlerweile eine Reihe nützlicher Werkzeuge. Im anderen Fall sollte man damit beginnen, die gewünschte(n) Dokumentstruktur(en) zu beschreiben und diese Beschreibung in einer DTD oder einem Schema zu formalisieren (s. unten). Auszeichnungselemente Ein Auszeichnungselement (im Folgenden: T AG ) ist ein Kennzeichner, der direkt in den Text eingefügt wird, einen Textteil umschließt - es gibt also ein Anfangstag und ein Endtag - und die Funktion dieses Textteils beschreibt. Das Endtag hat den gleichen Namen wie das Starttag, die Namen beider Tags sind also identisch. Tags werden konventionell in spitze Klammern eingeschlossen, das End-Tag erhält obendrein einen Slash (= / ) vor den Namen. (19) <Grußformel Language="de" Style="unpersönlich"> Sehr geehrte Damen und Herren </ Grußformel> Wir sehen an Beispiel (19) ein weiteres Merkmal von Tags. Sie können neben dem Namen auch eine Reihe von A TTRIBUTEN enthalten. Attribute dienen der weiteren Charakterisierung der umschlossenen Textelemente. Das Textelement Grußformel wird in Hinblick auf die Sprache und den Stil charak- 22 Ein Dokument, das die Produktion eines Strukturbaumes mit dem obersten Element der DTD als Wurzelknoten erlaubt, bezeichnet man als KONFORM mit der gegebenen DTD. Zum Thema Parsing von Wörterbuchartikeln vgl. Abschnitt 2 dieses Kapitels. 110 Wörterbuchstrukturen terisiert. Eine spezifische Grußformel erhält dann Werte für jedes der beiden Attribute. In unserem Beispiel sind dies Werte für die Attribute Sprache (deutsch) und Stil (unpersönlich). Zur Dokumentation einer DTD gehört auch, dass man die Wertebereiche aller Attribute so genau wie möglich festlegt. Verwendung einer DTD Sie können strukturbeschreibende Auszeichnungen verwenden, wenn Sie einen Text neu erstellen oder wenn Sie einen bereits bestehenden Text nachträglich strukturieren und markieren. • Wenn Sie ein Dokument neu anlegen, dann bestimmen Sie zunächst das Wurzelelement, welches meist den Typ des Dokuments bezeichnet (z.B. Wörterbuch). Sie bestimmen sodann die Art und die Namen der Textelemente, die die Struktur des Textes tragen (die Trägermenge) sowie deren Abfolge. Alles zusammen nennt man das I NHALTSMODELL des Textes. Sie können auch auf eine bereits existierende DTD, die ungefähr Ihr gewünschtes Textmodell wiedergibt, zurückgreifen und ggf. diese DTD anpassen. Wir haben ein Beispiel einer Definition von Wörterbuchartikelstrukturen durch eine DTD in Abschnitt 1.5 beschrieben. Dort werden die Inhaltsmodelle bzw. Mikrostrukturen verschiedener Sorten von Wörterbuchartikeltypen festgelegt. Die RedakteurInnen sind an dieses Schema bzw. diese Schemata gebunden. Es liegt in der Verantwortung der Redaktionsleitung, die in der DTD festgeschriebenen Regeln in der praktischen Arbeit durchzusetzen. Dies kann auch durch den Einsatz geeigneter Tools für die Texterstellung erreicht werden 23 . • Wenn Sie ein bereits existierendes Dokument analysieren und nachträglich mit inhaltsbeschreibenden Tags versehen wollen, dann sind Sie auf eine Dokumentation der Textstruktur angewiesen. Vor einer solchen Situation steht man oft als Computerlexikograph, wenn man ein existierendes Printwörterbuch nachträglich digitalisieren will oder muss. Im Idealfall bekommt man Kontakt zu den RedakteurInnen, die das lexikographische Manual, also die Mikrostruktur für die verschiedenen Artikeltypen festgelegt haben. Ist dies nicht der Fall, dann muss man die Struktur der Wörterbuchartikel aus den typographisch meist reich markierten Artikeln rekonstruieren. Das Ergebnis dieser Rekonstruktion wird dann sinnvollerweise in die explizite Form einer Dokumentgrammatik, also einer DTD, gebracht. Diese Arbeit wird natürlich weiter erschwert durch Inkonsistenzen in den uns vorliegenden Daten, wenn z.B. eine als obligatorisch klassifizierte Angabe in einem Artikel fehlt. Bei jeder Abweichung muss man 23 Vgl. Müller-Spitzer (2005). Wörterbuchstrukturen 111 sich deshalb fragen: Handelt es sich um einen Kodierungsfehler der ausführenden LexikographInnen oder handelt es sich um eine Strukturvariante, die bei der Rekonstruktion der Dokumentstruktur(en) bisher übersehen wurde? 3.3 Ein Beispielartikel Rekonstruktion der Struktur des Wörterbuchartikels Stellen wir uns nun vor, wir hätten die Aufgabe zu erfüllen, die Struktur eines Wörterbuchartikels zu rekonstruieren und diesen Wörterbuchartikel mit strukturbeschreibenden Tags zu versehen. Was wir vorliegen haben, ist ein Text, der aus den üblichen Symbolen des Alphabets der beschriebenen Sprache besteht. Informationen über die Struktur dieses Artikels - genauer: Artikelteils - werden dem Benutzer vor allem durch das verwendete Layout vermittelt. (20) Gummi 1. n Gehen wir davon aus, dass der Artikel mit HTML (H YPERTEXT M ARKUP L ANGUAGE ), der derzeit am häufigsten verwendeten Auszeichnungssprache für Webdokumente, erstellt wurde, dann sieht der Text „in Wirklichkeit“ so aus: (21) <b>Gummi</ b> 1. <i>n</ i> Wir interpretieren das vorliegende Textsegment wie folgt (bedenken Sie aber, dass dies nicht die einzig mögliche und auch nicht die einzig korrekte Interpretation dieses Textsegments ist): Es handelt sich um den Beginn eines Wörterbuchartikels. Gegenstand des Artikels ist ein sprachliches Zeichen des Deutschen. Dieses sprachliche Zeichen wird hier durch die Lemmazeichengestaltangabe (LZGA) repräsentiert. Der LZGA folgt ein nichttypographischer Strukturanzeiger, eine Ziffer, die offenbar den folgenden Artikel strukturiert. Da das sprachliche Zeichen in dieser Form mit zwei verschiedenen Genera - Maskulinum und Neutrum - in Gebrauch ist, können wir vermuten, dass die Ziffer eine homonyme Lesart einleitet. Der Homonymennummernangabe folgt eine grammatische Angabe, und zwar die des grammatischen Geschlechts (Genus) des beschriebenen sprachlichen Zeichens. Das Genus - Neutrum - wird durch den Buchstaben n signalisiert. Zugleich können wir aus dieser Genusangabe (GA) die Wortartangabe (WA) - nämlich: Substantiv - erschließen. Das Ergebnis der Analyse können wir mithilfe von XML in die folgende Struktur konvertieren: 112 Wörterbuchstrukturen <eintrag id="1850"> <hom id="1850_1"> <lemma> <gestalt>Gummi</ gestalt> </ lemma> <formkommentar> <wortart> Substantiv </ wortart> <genus> Neutrum </ genus> </ formkommentar> </ hom> </ eintrag> Was wir bisher hierhin geleistet haben, ist: • Wir haben die Beschreibung der logischen Struktur des Artikels vom typographischen Layout, das uns gleichwohl wichtige strukturelle Hinweise lieferte, abgekoppelt; • wir haben diese logische Struktur, die Angabetypen, anhand einer konkreten Instanz rekonstruiert; • wir haben von der textuellen Erscheinung der Angaben abstrahiert. Das n als Kürzel für das Genus ist eine für Printwörterbücher typische Textkompression. Wir verwenden im rekonstruierten Fragment die ausgeschriebene Version des Namens; • wir haben implizite Information - hier die Angabe der Wortart (WA) - explizit gemacht; • wir haben den sequenziellen Ursprungstext in eine hierarchische Form gebracht. So sind die Angaben zu Wortart und Genus als „Formkommentar“ zusammengefasst. Die DTD des Wörterbuchartikels Die bisher von uns gesammelten Informationen sind ausreichend, um eine Dokumenttypdefinition (DTD) für dieses Artikelsegment und hoffentlich recht viele weitere Artikelsegmente zu erstellen: <! ELEMENT eintrag (hom+)> <! ATTLIST eintrag id ID #IMPLIED> <! ELEMENT hom (lemma, formkommentar)> <! ATTLIST hom id ID #IMPLIED> <! ELEMENT formkommentar (wortart, genus? )> <! ELEMENT lemma (#PCDATA)> <! ELEMENT wortart (#PCDATA)> <! ELEMENT genus (#PCDATA)> Die wichtigsten Strukturelemente dieser DTD sind: Wörterbuchstrukturen 113 • Die E LEMENTDEKLARATION . Diese besteht aus dem Elementnamen und dem Inhaltsmodell des Elements. Im obigen Beispiel werden z.B. Inhaltsmodelle für die Elemente hom und formkommentar festgelegt. • Das I NHALTSMODELL . Das einfachste Inhaltsmodell ist beliebiger Text (#PCDATA = ‚Parsed Character Data‘). Ein Inhaltsmodell kann aber auch aus den Namen weiterer Elemente bestehen. Im Inhaltsmodell werden ferner die Anordnung der Inhaltselemente sowie deren Vorkommensbedingungen festgelegt. Die Anordnung der Elemente wird durch die Anordnung der Elementnamen im Inhaltsmodell wiedergegeben. In unserem Beispiel folgt auf die obligatorische Wortartangabe (WA, Element wortart) eine fakultative Genusangabe (GA, Element genus). • Die V ORKOMMENSBEDINGUNGEN . Ein Element muss entweder genau einmal vorkommen (keine Markierung), oder es kann keinmal oder genau einmal vorkommen (markiert durch ein Fragezeichen), oder es kann beliebig oft vorkommen (markiert durch einen Stern, den sog. K LEENE STAR ), oder es kann beliebig oft, mindestens aber einmal, vorkommen (markiert durch ein Pluszeichen). Diese sog. I TERATIONSOPERATOREN werden auch im Kontext regulärer Sprachen verwendet. • Die A TTRIBUTDEKLARATION . Attribute werden als Liste zu einem Element deklariert. Für jedes Attribut werden der Name, sein Datentyp oder Wertebereich und die Optionalität bzw. Obligatheit der Angabe spezifiziert. Ein wichtiger, auch mehrmals in unserem Fragment verwendeter Datentyp ist der Identifier (ID). Für diesen Datentyp gilt: jeder ID-Wert darf pro Dokument nur einmal vergeben werden. Dies ist nicht alles, was man zum Format einer DTD sagen kann. Es gibt eine Reihe weiterer Details, die allerdings für unsere recht kleine DTD unerheblich sind. Ausführlicher werden DTDs in der Einführung von Henning Lobin 24 behandelt. Im lexikalischen Informationssystem elexiko kommt, wie wir gesehen haben, außerdem eine komplexe DTD zum Einsatz und unterstützt sowohl den lexikographischen Prozess als auch die Gestaltung von unterschiedlichen Informationsprogrammen für verschiedene Benutzergruppen 25 . 3.4 Ein komplexeres Beispiel: GermaNet In diesem Abschnitt präsentieren wir als ein Fallbeispiel die Konversion der Datenstruktur des deutschen Wortnetzes GermaNet in ein XML-Format, für das gleichzeitig eine DTD entwickelt wurde. Wir haben uns für GermaNet als Beispiel entschieden, weil: 24 Vgl. Lobin (2000), Kapitel 2 und 3. 25 Vgl. Müller-Spitzer (2005). 114 Wörterbuchstrukturen 1. GermaNet am Seminar für Sprachwissenschaft der Universität Tübingen entwickelt wurde. Die Daten stehen uns also zur Verfügung, und die ProjektmitarbeiterInnen, die gleichzeitig AutorInnen dieses Buches sind, kennen Aufbau und Struktur des GermaNet; 2. GermaNet eine wichtige on-line Ressource für das NLP darstellt, was wir in Kapitel 6 thematisieren; 3. die Konsistenz der Daten durch deren automatische Konvertierung in andere Formate weitgehend gesichert ist. Wir können uns daher auf wesentliche strukturelle Aspekte konzentrieren. GermaNet ist ein Wortnetz des Deutschen, das nach lexikalisch-semantischen Prinzipien organisiert ist. Es wurde im Rahmen eines Projektes entwickelt, das die lexikalisch-semantische Disambiguierung von lexikalischen Einheiten in Texten zum Ziel hatte. Die Struktur des Wortnetzes orientiert sich an der Struktur des Princeton WordNet. GermaNet stellt aber eine Eigenentwicklung dar und weist strukturelle Besonderheiten auf. Teile der Daten wurden in das mehrsprachige „EuroWordNet“ integriert. GermaNet verknüpft die Bedeutungen von nominalen, verbalen und adjektivischen lexikalischen Einheiten miteinander. Es kann deshalb als ein on-line verfügbarer Thesaurus des Deutschen betrachtet werden. Wir werden uns in Kapitel 6 mit den semantischen Inhalten von GermaNet befassen. Hier geht es uns zunächst darum, die Struktur der Daten, die diese Ressource ausmachen, zu verstehen und in XML-konforme Dokumente zu konvertieren. Wir visualisieren die Struktur der Daten in einem Entity-Relationship-Graphen. Wir werden außerdem einen Blick in die sog. Lexicographer’s Files werfen. Diese Files sind die Arbeitsdateien der LexikographInnen, die dort neue Daten kodieren, Einträge korrigieren oder modifizieren etc. Die folgenden strukturellen Relationen und Trägermengen bilden zusammen das deutsche Wortnetz: • Zentrale Repräsentationseinheiten für K ONZEPTE stellen in GermaNet die sogenannten S YNSETS dar. GermaNet repräsentiert sowohl Konzepte (Knoten) als auch Relationen (Kanten) zwischen diesen Konzepten. • Ein Synset besteht aus einer Menge von LEXIKALISCHEN E INHEITEN (‚lexical units‘), mindestens aber einer. Wir haben bereits in Kapitel 3 eine lexikalische Einheit definiert als eine Einheit, die aus einer Form und einer Bedeutung besteht. • Synsets sind wortartenhomogen, d.h. dass sie ausschließlich lexikalische Einheiten einer Wortart enthalten. Ein Gliederungsaspekt ist deshalb der nach Wortarten: Nomen-Synsets, Verb-Synsets, Adjektiv-Synsets. • Synsets können durch verschiedene KONZEPTUELLE R ELATIONEN miteinander verknüpft werden (Hyperonymie-Hyponymie; Teil-Ganzes; kausale Beziehung etc.). Die Relation der Hyperonymie/ Hyponymie bildet Wörterbuchstrukturen 115 das hierarchische Gerüst des Wortnetzes. Innerhalb dieser Beziehung ist „multiple Vererbung“ möglich, d.h. dass ein Konzept mehrere übergeordnete Konzepte haben kann. • Synsets können u.a. genauer charakterisiert werden durch: eine B EDEU - TUNGSPARAPHRASE (‚gloss‘), ein oder mehrere B EISPIELE (‚examples‘) sowie eine A TTRIBUTION , in der zumeist auf Abweichungen zwischen grammatischem und natürlichem Geschlecht hingewiesen wird. • Verb-Synsets werden grammatisch charakterisiert durch die S UBKATE - GORISIERUNGSRAHMEN (‚subcat frames‘), in denen die beteiligten lexikalischen Einheiten auftreten können. • Lexikalische Einheiten können verknüpft werden durch die LEXIKA - LISCH - SEMANTISCHE R ELATION der Antonymie und durch die morphologisch motivierte Relation der Pertonymie. • Lexikalische Einheiten können markiert sein als ORTHOGRAPHISCHE V ARIANTE (einer anderen lexikalischen Einheit), als STILISTISCH MAR - KIERTE F ORM oder als E IGENNAME . Die Struktur des Wortnetzes soll durch die folgende graphische Abbildung veranschaulicht werden. Die zentralen Elemente sind die O BJEKTE (Synsets und Lexical Units), die R ELATIONEN (konzeptuelle Relationen verbinden die Synsets miteinander, lexikalisch-semantische Relationen verbinden die Lexical Units miteinander) und die A TTRIBUTE , die sowohl die Objekte als auch die Relationen identifizieren bzw. charakterisieren. Für die Umsetzung dieser Struktur (oder auch ähnlicher Strukturen) in eine DTD werden die folgenden Regeln angewendet: • Objekte werden als Elemente modelliert; • Relationen werden als Links modelliert; Links werden in XML besonders behandelt und erhalten eine eigene Spezifikation (XLink); • identifizierende Attribute werden als Attribute der Elemente, die sie identifizieren, modelliert; • charakterisierende Attribute werden als Elemente innerhalb des Inhaltsmodells der Elemente, die sie charakterisieren, modelliert. Da es in einem Entity-Relationship-Diagramm allerdings keine Möglichkeit gibt, identifizierende von charakterisierenden Attributen zu unterscheiden, und da es ebenso keine verbindlichen Richtlinien für die Verwendung von Elementen und Attributen in DTDs gibt, liegt die Umsetzung von Attributen des ER-Modells in eine DTD im Ermessen der DTD-Designer. Wir haben uns für die folgende Umsetzung des Datenmodells in DTDs entschieden. Die folgende DTD beschreibt Dokumente, in denen die Beschreibungen von Synsets und Lexical Units abgelegt sind. <! ELEMENT synsets (synset)+> 116 Wörterbuchstrukturen Abbildung 15: Datenstruktur von GermaNet als Entity-Relationship-Graph <! ELEMENT synset ((lexUnit)+, attribution? , frames? , paraphrases? , examples? )> <! ATTLIST synset id ID #REQUIRED wordClass CDATA #IMPLIED lexGroup CDATA #IMPLIED> <! ELEMENT lexUnit (orthForm)+> <! ATTLIST lexUnit id ID #REQUIRED StilMarkierung (ja|nein) "nein" sense CDATA #REQUIRED orthVar (ja|nein) "nein" artificial (ja|nein) #REQUIRED Eigenname (ja|nein) #REQUIRED> <! ELEMENT orthForm (#PCDATA)> <! ELEMENT paraphrases (paraphrase)+> <! ELEMENT paraphrase (#PCDATA)> <! ELEMENT examples (example)+> Wörterbuchstrukturen 117 <! ELEMENT example (text, frame*)> <! ELEMENT frames (frame)+> <! ELEMENT attribution (#PCDATA)> <! ELEMENT text (#PCDATA)> <! ELEMENT frame (#PCDATA)> Die zweite DTD beschreibt Dokumente, in denen die Relationen zwischen Synsets bzw. Lexical Units abgelegt sind. <! ELEMENT relations (lex_rel | con_rel)*> <! ELEMENT lex_rel (locator+, arc+)> <! ATTLIST lex_rel name (antonymy | pertonymy | participleOf) #REQUIRED dir (one | both) #REQUIRED sense CDATA #REQUIRED xmlns: xlink CDATA #FIXED ’http: / / www.w3.org/ 1999/ xlink’ xlink: type (extended) #FIXED ’extended’> <! ELEMENT con_rel (locator+, arc+)> <! ATTLIST con_rel name (hyperonymy | meronymy | holonymy | entailment | causation | association) #REQUIRED dir (one | both) #REQUIRED xmlns: xlink CDATA #FIXED ’http: / / www.w3.org/ 1999/ xlink’ xlink: type (extended) #FIXED ’extended’> <! ELEMENT locator EMPTY> <! ATTLIST locator xlink: type (locator) #FIXED ’locator’ xlink: href CDATA #REQUIRED xlink: label CDATA #REQUIRED> <! ELEMENT arc EMPTY> <! ATTLIST arc xlink: type (arc) #FIXED ’arc’ xlink: from CDATA #REQUIRED xlink: to CDATA #REQUIRED xlink: actuate (onRequest) #FIXED ´onRequest’ xlink: show (other) #FIXED ’other’> 118 Wörterbuchstrukturen 3.5 Konversion der GermaNet-Daten in XML Im Folgenden wollen wir den Prozess beschreiben, der zur Konversion der ursprünglichen Lexikographenfiles von GermaNet in eine Reihe von Dokumenten, die zu den im letzten Abschnitt skizzierten DTDs konform sind, führt. Zunächst wollen wir einen Ausschnitt eines Lexikographenfiles betrachten. { ? geistspezifisch, } { ? intelligenzspezifisch, ? geistspezifisch,@} { [klug, dumm,! ] intelligent, ? intelligenzspezifisch,@} { clever,klug,@ } { [scharfsinnig, nomen.Kognition: Scharfsinn,\] klug,@ (’mit Scharfsinn’) } { [einfallsreich, nomen.Kognition: Einfall,\] klug,@ } { kreativ, einfallsreich,@ } { weise, klug,@ (’mit Weisheit’) } { schlau, klug,@ } { hell, klug,@ ("ein heller Kopf") } ..... Diese Form der Kodierung der lexikographischen Daten weist folgende Charakteristika auf: • Die Daten sind in einer einfachen Textdatei kodiert; die LexikographInnen bearbeiten die Daten unmittelbar in diesem File, was die Gefahr von Fehlkodierungen in sich birgt. Die Daten müssen deshalb vor ihrer Konvertierung auf ihre K ONSISTENZ geprüft werden; • Relationen werden mithilfe von Symbolen dargestellt; der Skopus der Relationen ist implizit gegeben. Vor dem Relations-Symbol steht der Name des Verweisziels; • Verweise (zu anderen Synsets oder Lexical Units) sind direkt und ausschließlich an der Verweisquelle kodiert, sie sind also Bestandteil der Synsets bzw. lexikalischen Einheiten, von denen sie ausgehen; • Substrukturen werden durch Klammerung dargestellt; • einige Attribute werden durch Symbole dargestellt, die unmittelbar an die Repräsentation einer lexikalischen Einheit angehängt werden. Dies erschwert die Suche nach lexikalischen Einheiten, da diese Symbole von der Wort-Zeichenkette wieder abgetrennt werden müssten; • es gibt weder für Synsets noch für lexikalische Einheiten eindeutige Schlüssel („unique identifier“). Die Konversion der Daten umfasst deshalb die folgenden Teil(schritt)e: Wörterbuchstrukturen 119 • Die Konsistenz der Daten wird geprüft. Da es rund um GermaNet aber bereits andere Konverter gibt, die ebenfalls eine Konsistenzprüfung vornehmen, ist die Prüfung der hier beschriebenen Programme auf ein Minimum beschränkt. Überprüft werden lediglich die kritischen Stellen, an denen die bisher existierenden Konvertierer nicht zuverlässig arbeiten. • Relationen werden zunächst explizit kodiert. Erst in einem zweiten Konversionsschritt werden die Relationen aus dem Informationsgefüge der Synsets und Lexical Units gelöst und in einer eigenen Datenstruktur repräsentiert. • Substrukturen werden durch das (hierarchische) Inhaltsmodell der Elemente repräsentiert. • Die Attributsymbole werden von der Form des graphischen Repräsentanten einer Lexical Unit oder eines Synsets getrennt und explizit als Attribute der entsprechenden Elemente kodiert. • Im Zuge der Konversion wird für jedes Synset und für jede Lexical Unit ein eindeutiger Kennzeichner („identifier“) vergeben. Diese Kennzeichner dienen auch der Referenzierung der Elemente in Verweisen. Die neue XML-Datenrepräsentation ist besser geeignet als die bisherige: • für den Zugriff von Anwendungsprogrammen auf die Daten als lexikalische Ressource (via standardisierte Application Programme Interfaces, APIs), • für die Verknüpfung der lexikalischen Ressource mit anderen lexikalischen Ressourcen, die etwa detailliertere Angaben zur Form und Funktion der Lexical Unit beitragen könnten, • für die Verknüpfung des deutschen Wortnetzes mit Wortnetzen anderer Sprachen, • für die Konversion in andere web-fähige Formate, was die Verwendung der Ressource als ontologische Ressource für die Entwicklung des „Semantic Web“ geeignet macht. In Zusammenhang mit diesem Ausblick auf weitere Anwendungen des Wortnetzes wollen wir darauf hinweisen, dass die Modellierung der Datenstruktur selbst und deren Beschreibung, etwa in Form einer DTD, keinesfalls als ein einmaliger Prozess anzusehen ist. Die Datenstruktur wird im Kontext der Anforderungen verschiedener Anwendungen ständig adaptiert und optimiert. Im Folgenden bilden wir ein Synset und eine Relation ab, aus der die Struktur und XML-Auszeichnung der Daten deutlich werden: <synset id="vKommunikation.524" wordClass="verben"> <lexUnit Eigenname="nein" artificial="nein" id="vKommunikation.524.lesen2" orthVar="nein" sense="2" stilMarkierung="nein"> 120 Wörterbuchstrukturen <orthForm>lesen</ orthForm> </ lexUnit> <frames> <frame>NN.PP</ frame> </ frames> <paraphrases> <paraphrase>Vorlesungen halten</ paraphrase> </ paraphrases> <examples> <example> <text>Er liest [über] englische Literatur.</ text> </ example> <example> <text>Der Autor liest aus seinen Werken.</ text> </ example> </ examples> </ synset> <con_rel name="hyperonymy" dir="one" xmlns: xlink="http: / / www.w3.org/ 1999/ xlink" xlink: type="extended"> <locator xlink: type="locator" xlink: href="verben.Kommunikation.xml #vKommunikation.523" xlink: label="vKommunikation.523"/ > <locator xlink: type="locator" xlink: href="verben.Kommunikation.xml #vKommunikation.524" xlink: label="vKommunikation.524"/ > <arc xlink: type="arc" xlink: from="vKommunikation.524" xlink: to="vKommunikation.523" xlink: actuate="onRequest" xlink: show="other"/ > </ con_rel> 4 Standardisierung von Wörterbuchartikelstrukturen 4.1 Standardisierungsinitiativen Der Reichtum an linguistischen Informationen zu lexikalischen Zeichen hat vor allem in den großen Sprachen zu einer Vielfalt von Wörterbüchern geführt. Neben den standardsprachlichen Allgemeinwörterbüchern mit einem reichen Informationsprogramm und stark standardisierten Artikelstrukturen gibt es eine Vielzahl von ein- und mehrsprachigen Spezialwörterbüchern 26 . Diese Pluralität der Wörterbücher und Artikelstrukturen ist im Bereich der Sprachtechnologie keinesfalls erwünscht. Natürlich ist es auch hier umso besser, je reicher und vielfältiger die Informationen zu lexikalischen Einheiten sind und je besser die Abdeckung der beschriebenen Sprache durch die lexikalischen Ressourcen ist. Die lexikalischen Ressourcen sollten im Idealfall aber wie Bausteine kombinierbar sein, damit ein für die jeweilige Anwendung maßgeschneidertes Informationsprogramm zur Verfügung gestellt werden kann. Dies ermöglicht zugleich die Wiederverwendung einmal erstellter Ressourcen in verschiedenen Anwendungen und minimiert den Erstellungsaufwand für neue Ressourcen. Das Ziel kann nur erreicht werden, wenn ein allgemeinverbindlicher Standard hinsichtlich der Struktur von Wörterbuchartikeln, der Angabetypen und der Wertebereiche dieser Angabetypen geschaffen und durchgesetzt wird. Die sprachtechnologische Gemeinschaft arbeitet bereits mehr als fünfzehn Jahre an diesem Ziel. Die wichtigsten Meilensteine sollen kurz genannt werden, bevor wir auf die neuesten Entwicklungen eingehen. • Das europäische Projekt MULTILEX 27 entwickelte Anfang der neunziger Jahre einen Standard für Wörterbuchartikel in mehreren Sprachen, der auf europäischer Ebene durchgesetzt werden sollte. Das damals entwickelte Format spielt in der heutigen Standardisierungsdiskussion keine Rolle mehr. • Die europäische ‚Expert Advisory Group on Language Engineering Standards‘ (EAGLES) 28 entwarf auch einen Standardvorschlag für C OMPU - TATIONAL L EXICONS 29 . Dieser basierte auf einer Analyse bestehender lexikalischer Ressourcen und formulierte Empfehlungen (‚Recommendations‘), die für die weitere Entwicklung einflussreich waren. 26 Engelberg und Lemnitzer 2001 geben in Kapitel 1.3 und Kapitel 2 einen Einblick in diese Vielfalt. 27 S. http: / / www.computing.surrey.ac.uk/ AI/ PROFILE/ projs_term_ mlex.html . 28 S. http: / / www.ilc.cnr.it/ EAGLES/ home.html . 29 S. http: / / www.ilc.cnr.it/ EAGLES/ browse.html . 122 Wörterbuchstrukturen • Das GENELEX-Projekt als ein europäisches Projekt mit starker industrieller Beteiligung hatte ebenfalls die Erstellung eines generischen Modells für wiederverwendbare lexikalische Ressourcen zum Ziel 30 . • Im PAROLE-Projekt ging es nicht vorwiegend um die Entwicklung von Standards, sondern darum, „to offer a large-scale harmonised set of ‚core‘corpora and lexica for all European Union languages.“ 31 Die Struktur der entwickelten lexikalischen Ressourcen orientiert sich am EAGLES und am GENELEX Format. Aufbauend darauf ging es im SIMPLE Projekt darum, „to add semantic information, selected for its relevance for LE applications, to the set of harmonised multifunctional lexica built for 12 European languages by the PAROLE consortium“ 32 , und damit um die Erweiterung dieser Ressourcen. • Das ISLE-Projekt 33 thematisierte den Entwurf und die Implementierung von Standards für Sprachressourcen, u.a. auch für Lexika 34 . Ein besonderes Anliegen von ISLE war die Verbindung zu ähnlichen Initiativen in den USA und den asiatischen Ländern. Insgesamt lässt sich zu all diesen Standardisierungsbemühungen nur kritisch anmerken, dass diesen kurzfristig angelegten und geförderten Projekten und Initiativen die Macht und das organisatorisch-administrative Instrumentarium fehlten, um die entworfenen Standards zu implementieren und langfristig durchzusetzen. ISLE endete, als letztes der vorgenannten Projekte, im Jahr 2002. 4.2 Das Lexical Markup Framework Das Modell Die Bemühungen waren aber keinesfalls fruchtlos oder ohne Einfluss. Im Gegenteil haben sich die beteiligten Seiten weltweit zu einer Arbeitsgruppe unter dem Dach der ‚International Organisation for Standardisation‘ 35 zusammengeschlossen. Als Arbeitsgruppe innerhalb des ‚Technical Committee 37 - Terminology and other language and content resources‘ wird seit Anfang der Dekade ein L EXICAL M ARKUP F RAMEWORK entwickelt 36 . 30 Vgl. http: / / perso.orange.fr/ laurence.zaysser/ llc94.html . 31 S. http: / / www.elda.org/ catalogue/ en/ text/ doc/ parole.html . 32 S. http: / / www.ub.es/ gilcub/ SIMPLE/ simple.html . 33 ‚International Standards for Language Engineering‘, s. http: / / www.ilc.cnr.it/ EAGLES96/ isle/ complex/ clwg_home_page.htm . 34 S. http: / / www.ilc.cnr.it/ EAGLES96/ isle/ complex/ clwg_home_page. htm , Homepage der ‚Computational Lexica Working Group‘. 35 www.iso.org . 36 Den Entwurf des Standards findet man unter http: / / www.tagmatica.fr/ doc/ ISO24613cdRev9.pdf . Wörterbuchstrukturen 123 Das Dach, die normative Kraft und die administrative Unterstützung der ISO könnte diesem Standard zur Durchsetzung verhelfen. Er könnte deshalb die Arbeit an lexikalischen Ressourcen für längere Zeit beeinflussen, wenn nicht gar bestimmen. Wir werden ihn deshalb an dieser Stelle ausführlicher vorstellen. Das Lexical Markup Framework • bezieht die Arbeiten und Errungenschaften der oben beschriebenen Vorläuferprojekte mit ein; • unterstützt die Anwendung des Standards bei der Erstellung neuer lexikalischer Ressourcen; • unterstützt die Konvertierung von bestehenden lexikalischen Ressourcen in Formate, die standardkonform sind; • erleichtert somit den Austausch und die Verknüpfung verschiedener lexikalischer Ressourcen, sofern sie standardkonform sind, und forciert damit deren Wiederverwendung; • greift bei der Festlegung des lexikalischen Informationsprogramms auf Datenkategorien zurück, die ebenfalls Gegenstand der Normierung durch die ISO sind 37 . Der Standard definiert den K ERN einer lexikalischen Ressource - Lexikon bzw. lexikalische Datenbank - und die Mikrostruktur eines lexikalischen Eintrags. Neben dieser Kernstruktur werden fünf für die Sprachtechnologie zentrale Ressourcen als Erweiterungen des Kerns festgeschrieben: • Maschinenlesbare Wörterbücher; • morphologische Ressourcen für sprachtechnologische Anwendungen; • syntaktische Ressourcen für sprachtechnologische Anwendungen; • semantische Ressourcen für sprachtechnologische Anwendungen; • mehrsprachige Ressourcen; • Muster für mehrgliedrige lexikalische Einheiten. Wir werden im Folgenden den Kern und einige der Erweiterungen vorstellen. Dabei werden wir graphische Darstellungen der Strukturmodelle aus dem Standardtext kopieren. Die Darstellung erfolgt in der U NIFIED M ODELLING L ANGUAGE (UML) 38 . Da wir keine Kenntnisse dieser Modellierungssprache erwarten, finden Sie in Abbildung 16 die wichtigsten Darstellungsmittel zusammengefasst. 37 D ATA C ATEGORY R EPOSITORY genannt, vgl. Romary (2003). 38 Vgl. z.B. Kecher (2006). Ein Tutorial zum UML finden Sie unter http: / / pigseye. kennesaw.edu/ ~dbraun/ csis4650/ A&D/ UML_tutorial/ index.htm . 124 Wörterbuchstrukturen Abbildung 16: Darstellungsmittel der Unified Modelling Language Der Kern des Lexical Markup Frameworks Wie in Abbildung 17 ersichtlich, ist das umfassendste Objekt die (L EXICAL ) D ATABASE . Sie umfasst ein oder mehrere Lexika (Objekt L EXICON . Dies ist bereits alles, was über die Makrostruktur einer lexikalischen Ressource ausgesagt wird. Der Rest des Modells bezieht sich auf den lexikalischen Eintrag ( LEXICAL ENTRY ), der Bestandteil des Lexikons ist, und auf die Verweisstrukturen. Der lexikalische Eintrag besteht aus einem Formkommentar (‚form‘) und einem semantischen Kommentar (‚sense‘). Ein lexikalischer Eintrag kann mit anderen lexikalischen Einträgen in Beziehung gesetzt werden (‚EntryRelation‘). Ebenso kann ein ‚sense‘-Objekt mit anderen ‚sense‘-Objekten in Beziehung gesetzt werden (‚senseRelation‘). Über den R EPRESENTATION F RA - ME , der dem ‚form‘-Objekt zugeordnet ist, können mehrere orthographische Wörterbuchstrukturen 125 Abbildung 17: Kernmodul des Lexikonmodells Formen des Lemmazeichens dem Eintrag zugeordnet werden. Abbildung 18 zeigt einen einfachen Eintrag für das Stichwort clergyman. Abbildung 19 zeigt eine Anwendung des ‚RepresentationFrame‘-Objekts. Die beiden Instanzen dieses Objekts repräsentieren das Lemmazeichen in arabischer Schrift und die Transkription in lateinischer Schrift. Im Folgenden werden wir auf zwei der oben genannten normativen Erweiterungen des Kerns eingehen: das morphologische Modul und das mehrsprachige Modul. In Abbildung 20 ist die Erweiterung des Formkommentars zu sehen, über die eine Beschreibung der Wortstruktur und eine explizite Nennung des Formenparadigmas möglich sind. Eine andere Erweiterung ermöglicht den Verweis auf eine lexikonexterne morphologische Komponente, die aus einer Grundform alle flektierten Formen erzeugt. Abbildung 21 zeigt einen Teil der Erweiterung für bi- und multilinguale Wörterbücher. Lexikalische Zeichen zweier oder mehrerer Sprachen können über ihre Bedeutung (‚sense‘-Objekt) einander zugeordnet werden (‚sense axis‘). Darüberhinaus können lexikalische Einträge über eine TRANSFER AXIS und 126 Wörterbuchstrukturen Abbildung 18: Ein einfaches Beispiel Abbildung 19: Beispiel für die Verwendung des Representation Frame Verwendungsbeispiele über eine EXAMPLE AXIS zugeordnet werden. Dies ist in der Abbildung nicht dargestellt. Wörterbuchstrukturen 127 Abbildung 20: Erweiterungen für die morphologische Beschreibung Abbildung 21: Erweiterung für multilinguale Ressourcen Abbildung 22 zeigt eine Zuordnung zweier Lesarten (‚senses‘) über die SEN - SE AXIS . Das englische Wort river hat zwei französische Pendants (rivière und fleuve). Nur rivière kommt jedoch als Äquivalent der Bedeutung von river in Frage, nicht fleuve. Ersteres ist über die sense axis direkt mit river verbunden, Letzteres indirekt. Umsetzung des Modells Die Implementierung und Durchsetzung dieses Modells als Standard umfasst drei Aspekte: 1. Die Verabschiedung des Vorschlags als Standard durch die ISO-Gremien; 2. Anleitungen für die Anwendung des Standards bei der Erstellung neuer Ressourcen; 128 Wörterbuchstrukturen Abbildung 22: Erweiterung für multilinguale Ressourcen, ein Beispiel 3. Verfahren für die Konvertierung bestehender Ressourcen in das Format, das der Standard vorgibt. Zum ersten Punkt können wir nichts sagen, da wir nicht in den Diskussions- und Entscheidungsprozess involviert sind. Es bleibt aber ein Moment der Unsicherheit, solange die Empfehlung der Arbeitsgruppe nicht als Standard verabschiedet ist. Änderungen sind möglich. Deshalb kann dieser Abschnitt auch nur den Stand des Jahres 2006 wiedergeben. Zum zweiten Punkt macht der Standardentwurf konkrete Vorschläge, insbesondere zur Definition einer standardkonformen Lexikonstruktur 39 . Der Prozess ist in Abbildung 23 dargestellt. Er umfasst: • die Auswahl des Kernmoduls und der notwendigen Erweiterungsmodule, • die Auswahl der benötigten Datenkategorien aus dem Datenkategorie- Register 40 , • die Beschreibung und Registrierung von Datenkategorien, die (noch) nicht im Datenkategorie-Register zur Verfügung stehen, • die Zusammenfügung dieser Elemente zu einer standardkonformen Artikelstruktur. Am Ende dieses Designprozesses wird dann vermutlich ein XML Schema stehen, aus dem dann Datenbankrepräsentationen und Verfahren für die manuelle oder automatische Erstellung der konkreten Einträge abgeleitet werden können. Zum dritten Punkt, der Konversion bestehender lexikalischer Ressourcen, präsentiert Gil Francopoulo einige Fallstudien: a) eine Ressource im OLIF Format 41 ; b) eine Ressource im CLIPS Format 42 ; c) eine Ressource 39 Vgl. ISO 37/ SC4 (2006), S. 21f. 40 Vgl. hierzu Wright (oJ) und Romary (2003). 41 S. http: / / www.olif.net/ . 42 S. http: / / www.ilc.cnr.it/ clips/ . Wörterbuchstrukturen 129 Abbildung 23: Verlaufsdiagramm des Designprozesses für eine neue lexikalische Ressource im LC-Star Format 43 ; d) eine Ressource im WordNet Format 44 ; e) eine Ressource im FrameNet Format 45 ; f) das Format der elektronischen Version des Explanatory Dictionary of Contemporary French. Francopoulo modelliert die Struktur dieser Ressourcen als UML-Graphen oder als XML-annotierte Daten, beschreibt den Konvertierungsprozess und präsentiert das gewählte Beispiel aus der Quellressource in einem LMF-konformen Format 46 . 4.3 Ausblick Die Tatsache, dass sich die ISO mit der Standardisierung befasst bzw. diese unter ihrem organisatorischen Dach stattfinden lässt, zeigt das große Interesse an diesen Aktivitäten. Es wird sich aber noch erweisen müssen, ob die Strukturmodelle und Datenkategorien allen Zwecken gerecht werden. Es ist jedoch ein Fortschritt, dass der Standard Erweiterungsmöglichkeiten zulässt und Verfahren dafür zur Verfügung stellen will. Wir müssen also abwarten, ob die Verfahren zur Erweiterung des Modells, insbesondere die Registrierung neuer Datenkategorien, in der Praxis funktionieren werden. 43 S. http: / / www.lc-star.com/ . 44 S. http: / / wordnet.princeton.edu/ . 45 S. http: / / framenet.icsi.berkeley.edu/ . 46 Vgl. Francopoulo (2005). 130 Wörterbuchstrukturen 5 Weiterführende Literatur Den besten, wenn auch nicht ganz leicht zu lesenden Überblick über Artikelstrukturen im Wörterbuch gibt Herbert-Ernst Wiegand (Wiegand (1989), Wiegand (1998)). Etwas leserfreundlicher aufbereitet ist die Materie in Kapitel 4 der Einführung in die Lexikographie von Stefan Engelberg und Lothar Lemnitzer (2001). Das Lexical Markup Framework ist bisher nirgends in ausreichender Weise beschrieben, der Standard befindet sich derzeit noch in der Entwicklung. Die beste momentan verfügbare Referenz zum Thema ist Romary et al. (2006). Über das lexikalische Informationssystem elexiko gibt der von Ulrike Haß herausgegebene Sammelband (Haß (2005)) einen guten Überblick. Das System LexParse wird ausführlich von Hauser und Storrer (1993) beschrieben. 6 Aufgaben Pracht f splendo(u)r, magnificence; verschwenderische: luxury; feierliche: pomp, state; auffällige: display, rich array; Glanz glitter; F kalte ∼ cold splendo(u)r; ∼ entfalten display splendo(u)r; fig. F es war e-e wahre ∼ F it was just great; ∼ aufwand m gorgeous display, sumptuousness; → a. Pracht; ∼ ausgabe f Buch édition de luxe ((fr.); ∼ bau m magnificent ((od.) palatial) building; ∼ exemplar n splendid specimen; F ((Person) a. → Prachtkerl. fördern v/ t. further, advance, promote; (ermutigen) encourage; (anregen) stimulate; (helfen) aid, assist; (förderlich sein) be conducive to; promote; al Gönner patronize, support, Am. a. sponsor; Bgb. haul, produce; Pumpe deliver; (befördern) convey, transport; ⊕ (zuführen) feed; (beschleunigen) speed up, expedite; sim des Mitglied supporting (od. subscribing) member; → zutage. 1. Entwerfen Sie Strukturbäume zu den obigen Wörterbucheinträgen, die die Mikrostruktur dieser Einträge abbilden. Verwenden Sie dabei die von Wiegand eingeführten Termini und Abkürzungen. Greifen Sie dabei ggf. auch auf den Text von Wiegand (1989) aus der weiterführenden Literatur zurück. 2. Kodieren Sie einen dieser Wörterbuchartikel in XML, indem Sie die folgende DTD verwenden: <! ELEMENT dictionary (entry)+> <! ELEMENT entry (hom+)> <! ATTLIST entry id ID #REQUIRED> <! ELEMENT hom (form, sense+)> <! ATTLIST hom id CDATA #REQUIRED> <! ELEMENT form (orth, (pron | grammar)*)> Wörterbuchstrukturen 131 <! ELEMENT grammar (pos | (gender, infl? ))+> <! ELEMENT sense (trans | phrase | xr)+> <! ATTLIST sense id CDATA #REQUIRED> <! ELEMENT trans (usg? , arg*, tr, context*)+> <! ELEMENT tr (equiv, usg? )> <! ELEMENT context (source, target)> <! ELEMENT phrase (orth, trans+)> <! ELEMENT xr (orth, sense-id? )> <! ATTLIST xr idref CDATA #REQUIRED> <! ELEMENT pos (n|v|a|adv)> <! ELEMENT gender (#PCDATA)> <! ELEMENT orth (#PCDATA)> <! ELEMENT pron (#PCDATA)> <! ELEMENT usg (#PCDATA)> <! ELEMENT arg (#PCDATA)> <! ELEMENT infl (#PCDATA)> <! ELEMENT source (#PCDATA)> <! ELEMENT target (#PCDATA)> <! ELEMENT equiv (#PCDATA)> <! ELEMENT sense-id (#PCDATA)> Hinweise zur Arbeit (die vollständige und dokumentierte DTD finden Sie auf der Webseite, die dieses Buch begleitet): • Segmentieren und analysieren Sie den Artikel. • Übernehmen Sie die Artikelteile, die sich mit der vorhandenen DTD annotieren lassen. • Wenn ein Artikelteil nicht in die vorhandene DTD passt, dann vermerken Sie dies bitte. 3. Bei der Analyse von Wörterbuchdefinitionen sind Bedeutungsbeschreibungen für Nomen oft schwierig zu parsen. Vossen et al. (1989) haben das sog. Kontrollvokabular des LDOCE, das ca. 2 000 Wörter umfasst, die in den Definitionen zur Bedeutungsexplikation verwendet werden, untersucht und aufbereitet. Die sog. Kernels (Headwords) in den Definitionen werden unterschiedlich, je nach ihrem semantischen Gehalt, klassifiziert. Mitunter gibt es Ambiguitäten (vgl. die of -Phrasen-Modifikation innerhalb der Definitionen). Anhand der folgenden Beispiele sollen Gruppen analog typischer Strukturen gebildet und informell erklärt werden: • cocktail: „a mixed alcoholic drink“ • bourgeois: „a member of the middle class“ • air mattress: „airbed“ • author: „the writer of a book, newspaper article, play, poem, etc.“ 132 Wörterbuchstrukturen • ambiguity: „the condition of being ambiguous“ • destroyer: „a person who destroys“ • abbey: „the group of people living in such a building“ • detonation: „the noise of an explosion“ • discouragement: „something that discourages“ • car: „automobile“ 6 Lexikalische und ontologische Ressourcen In diesem Kapitel stellen wir Ihnen populäre maschinenverarbeitbare Ressourcen für die Lexikographie, Computerlinguistik und Sprachtechnologie vor. Mit Wortnetzen lernen Sie einen besonders beliebten Ressourcen- Typ kennen, der durch seine einfache Struktur und hohe konzeptuelle Abdeckung in zahlreichen Szenarien angewendet wird. Mittlerweile gehören Wortnetze zur Grundausstattung der Ressourcen-Infrastruktur einer Sprache. Mit FrameNet ist ein komplexerer, auf der Frame-Semantik basierender Ansatz entwickelt worden, welcher vor allem semantische und syntaktische Strukturen im Umfeld von Verbkonzepten erfasst und computertechnisch auch für theoretische Fragestellungen verfügbar macht. Wir geben Ihnen abschließend einen Überblick über Ontologien, die Wissensmodellierungen jeglicher Art zum Inhalt haben, und in vielen wissenschaftlichen und technischen Disziplinen sowie in Web-Anwendungen eine zunehmend wichtige Rolle spielen. 1 Überblick In diesem Abschnitt stellen wir elektronische Lexikonressourcen vor, die als maschinenverarbeitbare Wörterbücher („machine-tractable dictionary“, kurz: MTD) und lexikalische Wissensbasen („lexical knowledge base“, kurz: LKB) in computerlinguistischen Anwendungen und sprachverarbeitenden Prozessen genutzt werden. Die wesentlichen Anwendungsszenarien in der Sprachverarbeitung umfassen • die Lesartendisambiguierung; • die Informationserschließung und Informationsextraktion; • die linguistische Annotierung von Sprachdaten auf verschiedenen Beschreibungsebenen; • die Textklassifikation und automatische Textzusammenfassung; • die Entwicklung von Werkzeugen für die Sprachanalyse bzw. -generierung; • die maschinelle oder maschinengestützte Übersetzung. 134 Lexikalische und ontologische Ressourcen Wir beschreiben zunächst mit lexikalisch-semantischen Wortnetzen einen Typus semantischer Online-Lexika, der seit der Entwicklung des Princeton WordNet sehr populär geworden ist. Neben einer Vielzahl bereits existierender Ressourcen gibt es zahlreiche Initiativen zum Aufbau einzelsprachlicher und sprachübergreifender Wortnetze bzw. Wortnetzverbünde. Während Wortnetze auch in sprachtechnologischen Anwendungen, die nicht genuin (computer-)linguistisch motiviert sind, beliebte Hintergrundressourcen darstellen, ist mit dem aus der Fillmoreschen Frame-Theorie hervorgegangenen FrameNet ein Ressourcentyp entstanden, der vor allem für theoretische (computer-)linguistische Fragestellungen relevant ist. So werden die gegenüber Wortnetzen reichhaltigeren Frames für die Analyse und Annotierung von Sprachkorpora eingesetzt. Frames sind außerdem durch die stark konzeptuelle Ausprägung besser geeignet für Belange der Universalienforschung und der maschinellen Übersetzung bzw. Interlinguaforschung. In einem weiteren Abschnitt stellen wir mit Ontologien Begriffsnetze aus der künstlichen Intelligenz (KI), Informatik und Semantic-Web-Forschung vor, welche in zahlreichen (kommerziellen) Szenarien der Sprachverarbeitung eine zentrale Rolle einnehmen. Ontologien werden nach strengeren Kriterien formalisiert als Wortnetze und spielen in Bezug auf die Modellierung spezifischer Fachdomänen eine wichtige Rolle. Sie sind daher als Organisationsform für (fachsprachliche) Konzepte in vielen wissenschaftlichen Disziplinen, wie z.B. der Biotechnologie und Medizin, von großem Nutzen. Nicht explizit beschreiben, sondern nur erwähnen wollen wir in unserer Darstellung die Open-Source-Lexika und -Enzyklopädien, die gemeinschaftlich durch eine Vielzahl von Nutzern bzw. Autoren aufgebaut wurden und sich in der stetigen Weiterentwicklung befinden. Diese dynamischen Formen der Lexikographie ebenso wie das „Web as Corpus“-Projekt werden zukünftig eine wichtige Rolle spielen und die bislang hierarchisch-normativ geprägte Lexikographiepraxis nachhaltig verändern. Nachteilig zum gegenwärtigen Zeitpunkt sind die mangelnde Kontrolle und Konsistenz bei der Erstellung der Lexikonartikel. Ebenfalls von der Betrachtung ausgenomen bleiben in dieser Einführung Lexika für multimodale Systeme (vgl. Gibbon (2001)), die aufgrund der Komplexität ihrer enthaltenen Daten auf mehreren Repräsentationsebenen, z.B. zur Kennzeichnung von Wortbetonungen oder begleitenden Gesten, bislang nicht über Prototypenstatus hinausgehen 1 . Auch soll an dieser Stelle auf die für Dialogsysteme wichtigen Lexika für gesprochene Sprache lediglich verwiesen werden 2 . 1 Vgl. das Projekt MODELEX an der Universität Bielefeld, http: / / coral.lili. uni-bielefeld.de/ modelex/ . 2 Vgl. das Bayrische Archiv für Sprachsignale: http: / / www.phonetik. uni-muenchen.de/ Bas/ BasHomedeu.html . 2 Lexikalisch-semantische Wortnetze 2.1 Einleitung In diesem Kapitel werden lexikalisch-semantische Wortnetze im Stile des Princeton WordNet (vgl. Miller (1990), Fellbaum (1998)) als eine besondere Spielart elektronischer Ressourcen, als so genannte Online-Thesauri, vorgestellt. Solche Wortnetze bilden die häufigsten und wichtigsten Wörter einer Sprache und ihre bedeutungstragenden Beziehungen zu anderen Wörtern der Sprache ab. Im Wortnetz ist ein Wort als Konzeptknoten mit seinen semantischen Verknüpfungen repräsentiert: z.B. Stuhl mit dem Oberbegriff Sitzmöbel und seinen Unterbegriffen Drehstuhl, Klappstuhl, Kinderstuhl etc. Der Oberbegriff ist darüber hinaus mit den Konzepten Lehne, Sitzfläche und Bein verbunden, die Teile eines Sitzmöbels repräsentieren, vgl. Abb. 24. Abbildung 24: Ausschnitt aus der GermaNet-Hierarchie, Teilbaum Sitzmöbel Ein Konzept ist also nicht nur über seinen Knoten, sondern auch über seine Relationen charakterisierbar. Da die zugrunde liegende Repräsentationseinheit, das so genannte S YNSET , gleiche Bedeutungen, die Synonyme, zu einem Konzeptknoten zusammenfasst und nicht etwa gleiche Wörter, werden in Wortnetzen Lesarten unterschieden. Diese Lesartendisambiguierung ist eine unabdingbare Voraussetzung für Anwendungen im Bereich der maschinellen Übersetzung und der Informationserschließung, zur semantischen Annotierung von Sprachkorpora und für die Entwicklung verschiedener Werkzeuge zum Sprach- und Informationserwerb und für die Übersetzung. Wortnetze bilden natürlich-sprachliche Hierarchien ab und sind - zumindest vorläufig - von den O NTOLOGIEN aus dem Umfeld der künstlichen Intelligenz zu unterscheiden, die (meist sprachunabhängige oder domänenspezifische) konzeptuelle Begriffsnetze konstituieren. Der folgende Abschnitt beschreibt detailliert das lexikalisch-semantische Wortnetz GermaNet (vgl. Kunze und Naumann (1999-2007)) und dessen Einbindung in das polylinguale EuroWordNet, das 136 Lexikalische und ontologische Ressourcen im Rahmen eines europäischen Projektes 1996-1999 für acht Sprachen aufgebaut wurde (vgl. Vossen (1999)). 2.2 GermaNet - ein deutsches Wortnetz Mit GermaNet ( http: / / www.sfs.uni-tuebingen.de/ lsd ) ist ein elektronisches semantisches Lexikon aufgebaut und ein wichtiger Beitrag zur wissensbasierten Ressourcenbildung für das Deutsche geleistet worden. Im Wesentlichen orientiert sich das deutschsprachige Wortnetz am Datenbankformat und an den Strukturierungsprinzipien des Princeton WordNet 1.5, das als „Mutter aller Netze“ eine Vorreiterrolle für viele einzelsprachliche Wortnetz-Initiativen spielte. 3 GermaNet ist jedoch keine pure Übersetzung des WordNet, sondern setzt eigene Schwerpunkte in der Konzeptrepräsentation (vgl. Hamp und Feldweg (1997)). GermaNet ist aus verschiedenen lexikographischen Quellen, z.B. dem Wehrle und Eggers (1989) und dem Brockhaus-Wahrig (1980-1984), und unter der Berücksichtigung von Korpusfrequenzen von Hand aufgebaut worden. In GermaNet sind die bedeutungstragenden Kategorien der Nomina, Verben und Adjektive modelliert. Zentrales Repräsentationskonzept ist das Synset, welches die Synonymenmenge eines gegebenen Konzeptes bereitstellt, z.B. {Streichholz, Zündholz}, {fleißig, eifrig, emsig, tüchtig} und {vergeben, verzeihen}. Im Wortnetz sind semantische Relationen zwischen den Konzepten (Synsets) oder einzelnen Varianten (Synonymen aus den Synsets) kodiert. Zur Zeit enthält GermaNet ca. 53 500 Synsets mit ca. 76 500 Lexical Units, davon knapp 39 000 Nomen, 9 000 Verben und 5 500 Adjektive. Das deutsche Wortnetz wird durch den Abgleich der Datenbankeinträge mit Frequenzlisten aus Korpora systematisch um fehlende Konzepte ergänzt. GermaNet repräsentiert nur wenige Mehrwortlexeme wie gesprochene Sprache oder Neues Testament. Eigennamen treten hauptsächlich im Wortfeld der Geographie auf, z.B. als Städtenamen, und werden speziell markiert. Relationstypen in GermaNet Die Aussagekraft semantischer Netze liegt in den zahlreichen sinnhaften Verknüpfungen zwischen den repräsentierten Knoten. GermaNet unterscheidet zwischen LEXIKALISCHEN und KONZEPTUELLEN R ELATIONEN : • Lexikalische Relationen sind bidirektionale Beziehungen zwischen Wortbedeutungen wie die Synset-interne S YNONYMIE (Bedeutungsgleichheit zwischen Ruf und Leumund) und die A NTONYMIE (Gegenteiligkeit), etwa zwischen Geburt und Tod, glauben und zweifeln, schön und hässlich. 3 Das Urmodell semantischer Netze entwickelte Quillian (vgl. Quillian (1966)) zur Modellierung des semantischen Gedächtnisses innerhalb der KI. Lexikalische und ontologische Ressourcen 137 • Konzeptuelle Relationen wie H YPONYMIE , H YPERONYMIE , M ERONY - MIE , I MPLIKATION und K AUSATION bestehen zwischen Konzepten, gelten also für alle Realisierungen innerhalb eines Synsets. Hyponymie und Hyperonymie konstituieren KONVERSE R ELATIONSPAARE : so ist Gebäude das Hyperonym zu Haus und Haus ein Hyponym von Gebäude. Das wichtigste Strukturierungsprinzip in semantischen Netzen stellt die hierarchiebildende Hyponymierelation, wie sie z.B. zwischen Rotkehlchen und Vogel besteht, dar. Besonders die Nomina haben Ketten mit tiefen Hierarchien, wie z.B. das Konzept Kieferchirurg mit 15 Dominanzstufen. In GermaNet sind auch die Verben und Adjektive taxonomisch (d.h. unter Rückgriff auf die Hyponymierelation) gegliedert. Die Meronymierelation (Teil- Ganzes-Beziehung) wird nur für Nomina angenommen: Ein Dach kann nicht angemessen als eine Art Gebäude klassifiziert werden, sondern ist Teil eines Gebäudes. Teil-Ganzes-Beziehungen können auch abstrakter Natur sein, z.B. in Bezug auf die Mitgliedschaft in einer Gruppe (Vorsitzender einer Partei) oder als Material in einer Komposition (Fensterscheibe aus Glas). Typischerweise wird die Verknüpfung zwischen lexikalischen Resultativen wie töten und sterben oder öffnen und offen als K AUSATIONSRELATION spezifiziert. Die kausale Relation kann klassenübergreifend zwischen allen Kategorien kodiert werden. Seltener hingegen wird von der Implikationsbeziehung oder dem E NTAILMENT Gebrauch gemacht, wie etwa zwischen gelingen und versuchen. Die Bedeutung eines Wortes ist durch die Gesamtheit der Relationen, die sie zu anderen Wortbedeutungen aufweist, gekennzeichnet. Es gibt in GermaNet über die ausführlich beschriebenen Relationen hinausgehend noch die P ERTONYMIE (eine Art semantischer Derivationsbeziehung wie z.B. zwischen finanziell und Finanzen) und eine Ä HNLICHKEITSRELATION ( SEE ALSO ), die assoziativen Verknüpfungen Rechnung trägt wie zwischen Weltrangliste und Tennis oder Talmud und Judentum. Abbildung 25 zeigt das kausative Verb öffnen mit allen semantisch korrelierten Konzepten. Synsets und Varianten sind mit den entsprechenden Lesartennummern aus GermaNet aufgeführt. Die Verbindung des Synset öffnen_3, aufmachen_2 mit seinem Hyperonym wandeln_4, verändern_2 wird durch den nach oben weisenden Pfeil repräsentiert, mit den drei Hyponymen aufstoßen_2, aufbrechen_1 und aufsperren_1 durch jeweils abwärts gerichtete Pfeilspitzen, und die kausale Relation zum intransitiven Konzept öffnen_1, aufgehen_1 durch den Pfeil mit gestrichelter Linienführung. Die beiden Varianten im Synset haben unterschiedliche Antonyme: öffnen_3 hat als Antonym schließen_7, und aufmachen_2 das Antonym zumachen_2. Die Antonymierelation ist durch den Doppelpfeil gekennzeichnet. 138 Lexikalische und ontologische Ressourcen Abbildung 25: Ausschnitt aus der GermaNet-Hierarchie, Teilbaum öffnen Kreuzklassifikation und künstliche Konzepte Ein Konzept wie Banane kann ebenso wie eine Reihe weiterer Früchte gleichermaßen als Pflanze und als Nahrungsmittel klassifiziert und somit unterschiedlichen semantischen Feldern zugeordnet werden. Damit man auf diese Information zugreifen kann, empfiehlt sich die K REUZKLASSIFIKATION solcher Konzepte in verschiedenen Hierarchien, vgl. Abbildung 26. Wortnetze Abbildung 26: Beispiel für eine Kreuzklassifikation sollen nur tatsächlich vorkommende lexikalische Einheiten einer Sprache abbilden. In GermaNet wird jedoch Gebrauch von KÜNSTLICHEN K ONZEP - TEN gemacht, wenn diese geeignet sind, die Hierarchie besser zu strukturieren und unmotivierte Ko-Hyponymie zu vermeiden. Nach Cruse (1986) sollten Ko-Hyponyme auf einer Basis von Ähnlichkeit, die durch den gemeinsamen Mutterknoten gegeben ist, möglichst inkompatibel zueinander sein, vgl. Lexikalische und ontologische Ressourcen 139 Säugling, Kleinkind, Vorschulkind, Schulkind als Unterbegriffe zu Kind, die einander wechselseitig ausschließen. Im Wortfeld Lehrer sind Unterbegriffe wie Fachlehrer, Berufsschullehrer und Konrektor nicht sinnvoll auf einer gemeinsamen Hierarchieebene anzusiedeln. Um das Teilnetz symmetrischer zu gestalten, werden mit ? Schullehrer und ? hierarchischer_Lehrer zwei künstliche Konzepte eingeführt, vgl. Abbildung 27. Abbildung 27: Beispiel für die Verwendung artifizieller Konzepte GermaNet kodiert darüber hinaus Subkategorisierungsrahmen zur Kennzeichnung des syntaktischen Komplementierungsverhaltens von Verben. Da in dieser Darstellung der Schwerpunkt auf den semantischen Relationen in Germa- Net liegt, mögen an den Verbrahmen Interessierte die GermaNet-Homepage konsultieren, zur Erklärung der Notation, Verwendung der Rahmentypen und der Illustration mit entsprechenden Beispielsätzen 4 . 2.3 EuroWordNet, ein polylinguales Wortnetz Das Basisvokabular des GermaNet, etwa 15 000 Synsets, ist in das polylinguale EuroWordNet 5 für acht europäische Sprachen integriert worden, vgl. Vossen (1999). EuroWordNet modelliert die wichtigsten Konzepte des Englischen, Spanischen, Holländischen, Italienischen, Französischen, Deutschen, Tschechischen und Estnischen mit ihren semantischen Relationen. Kernkomponente der Datenbankarchitektur ist der I NTERLINGUALE I NDEX (ILI), an den die einzelsprachlichen Wortnetze geknüpft sind. Der ILI fungiert als sprachunabhängige Komponente und besteht aus einer unstrukturierten Liste von ILI-Records, die an WordNet Synsets (und somit englischen Konzepten) orientiert und durch einen eindeutigen Code (‚unique identifier‘) gekennzeichnet sind. Konzepte der einzelnen Sprachen werden mit sprachübergreifenden Relationen an passende Übersetzungsäquivalente aus dem ILI angebunden. Über den ILI können dann mittelbar spezifische Sprach- 4 S. http: / / www.sfs.uni-tuebingen.de/ lsd/ . 5 S. http: / / www.hum.uva.nl/ ~ewn/ . 140 Lexikalische und ontologische Ressourcen paare zu erfragten Konzepten gebildet werden, z.B. guidare: conducir (Italienisch: Spanisch) für das Konzept drive in Abbildung 28. Abbildung 28: Architektur des EuroWordNet Zu den sprachunabhängigen Komponenten zählen neben dem ILI die T OP - O NTOLOGIE mit 63 semantischen Merkmalen und die D OMÄNEN -O NTO - LOGIE , die semantische Felder zur Verfügung stellt. Alle einzelsprachlichen Wortnetze enthalten eine gemeinsame Menge so genannter B ASE C ON - CEPTS , 1000 Nomen und 300 Verben, die als zentrales Vokabular des polylingualen Wortnetzaufbaus fungieren und die Kompatibilität der einzelnen Sprachnetze gewährleisten. Base Concepts werden durch semantische Merkmale oder Merkmalskombinationen aus der Top-Ontologie charakterisiert, z.B. Werkzeug durch die Merkmale ARTEFACT , INSTRUMENT , OBJECT . Base Concepts dominieren viele Knoten und/ oder eine hierarchisch vielstufige Kette von Unterbegriffen oder sie sind häufig auftretende Konzepte in mindestens zwei Sprachen. Sie sollen konkreter als die semantischen Merkmale der Top-Ontologie wie DYNAMIC , FUNCTION und PROPERTY sein, aber wiederum abstrakter als die von Rosch (1978) postulierten B ASIC L EVEL C ONCEPTS , z.B. Tisch und Hammer. Der angemessene Abstraktionsgrad für Base Concepts wird von den jeweiligen Oberbegriffen der Basic Level Concepts, z.B. Möbel für Tisch und Werkzeug für Hammer erreicht. Nachdem das Inventar der Base Concepts mit dem ILI verknüpft worden war, sind Top-Konzepte und Hyponyme erster Ordnung gelinkt worden, was zu einem ersten Datenensemble von ca. 7 500 Synsets führte. Der Aufbau einzelsprachlicher Netze konnte dann unabhängig erfolgen, zumal die Vererbung der semantischen Merkmale der Top-Ontologie ermöglicht, die Abdeckung der Netze in einzelnen semantischen Feldern statistisch zu unter- Lexikalische und ontologische Ressourcen 141 suchen und damit eine gewisse Ausgewogenheit zwischen den Sprachen sicherzustellen. Aufgrund unterschiedlicher Lexikalisierungsmuster der einzelnen Sprachen, die auf sprachliche und kulturelle Unterschiede zurückgehen, und aufgrund von Kodierungslücken im Princeton-WordNet (das ja die Basisressource für den ILI darstellt), können nicht immer angemessene Übersetzungen der einzelsprachlichen Konzepte gefunden werden. Daher sind auch nicht-synonymische sprachübergreifende Verknüpfungen sowie die Kombination mehrerer nicht-synonymischer Links möglich. Z.B. ist für das Konzept Sportbekleidung kein synonymisches Targetkonzept sports garment im ILI verfügbar. Ersatzweise können zwei sprachübergreifende Links zum Hyperonym garment (‚Kleidung‘) und zum Holonym sports equipment (‚Sportausrüstung‘) etabliert werden. Die internationale Zusammenarbeit zum Aufbau eines polylingualen Wortnetzes hat geholfen, einen Quasi-Standard für Wortnetze zu entwickeln und weist somit Modellfunktion für die Integrierung weiterer Sprachen auf. In diesem Zusammenhang ist im Sommer 2000 die ‚Global WordNet Association‘ ( http: / / globalwordnet.org/ ) gegründet worden. Mittlerweile gibt es mehrere polylinguale Architekturen, die auf den ILI von EuroWordNet zurückgreifen, wie z.B. in BalkaNet, einem Verband (süd-)osteuropäischer Sprachen 6 und CoreNet (für das Chinesische, Koreanische und Japanische) 7 realisiert. 6 Vgl. Tufi¸ s et al. (2004). 7 http: / / bola.or.kr/ CoreNet_Project/ . 3 FrameNet 3.1 Einleitung Mit FrameNet ist am ICSI in Berkeley seit 1997 8 eine elektronische Ressource aufgebaut worden, die nach den Prinzipien der Fillmoreschen Frame- Semantik modelliert ist (vgl. Fillmore (1968), Fillmore und Atkins (1992)). Ein „semantic frame“ ist eine konzeptuelle Struktur zur Beschreibung eines spezifischen Situationstyps, Objekttyps oder Ereignistyps mit seinen jeweilig verknüpften Partizipanten und Eigenschaften. So involviert der Frame A PPLY _ HEAT als Rollen die Frame-Elemente (FE) COOK , FOOD und HEA - TING _ INSTRUMENT , und wird durch Verben wie kochen, backen, braten, schmoren, dämpfen, blanchieren, garen etc. aktiviert. Prädizierende Kategorien 9 wie Verben, Adjektive, deverbale, deadjektivische und relationale Nomina dienen als Strukturelemente für semantische Frames, während referierende Nomina (‚common nouns‘) gewöhnlich als Filler der Frame-Elemente fungieren (vgl. Fillmore und Baker (2002): „Predicating words [...] can be thought of as representing a kind of questionnaire listing the expected types of participants and props (frame elements) in their respective frames.“). Ein Beispiel für den HEILEN -Frame mit seinen typischen Frame-Bestandteilen zeigt Abb. 29. Die Namensgebung in Anlehnung an WordNet deutet bereits an, dass die FrameNet-Entwickler ebenfalls einen Online-Thesaurus aufbauen, der allerdings nicht synsetbasiert, sondern framebasiert ist. Im Unterschied zu Word- Net erfolgte der Aufbau des FrameNet komplett korpusbasiert - jede Lesart und grammatische Variante wird durch ein Korpusbeispiel belegt 10 . Viele weniger reichhaltig strukturierte Nomina werden im FrameNet-Rahmen nicht annotiert, so dass FrameNet keine umfassende konzeptuelle Abdeckung aufweist. Diese kann durch die komplementären WordNet Hierarchien ergänzt werden. Anders als die wortart-internen Synsets können Frames Relationen zwischen Wörtern unterschiedlicher Wortarten aufweisen. Basiseinheit oder 8 Vgl. Baker et al. (2003), Ruppenhofer et al. (2006). 9 Verben, Adjektive und relationale Nomina werden als Prädikate aufgefasst, d.h. als Elemente, welche die Spezifikation von Partizipanten, den Argumenten, erfordern. Prädikate werden z.B. nach ihrer Stelligkeit unterschieden: so verlangen einstellige Prädikate wie schön oder schlafen genau ein Argument, zweistellige Prädikate wie betrachten zwei Argumente, usw. Vor allem bei Verben spricht man von Prädikaten mit obligatorisch zu realisierenden Argumenten. Die Schreibweise orientiert sich an der prädikatenlogischen Notation: schön(Peter) bzw. betrachten(Peter, Carla); solange die Argumente nicht gebunden sind, werden Individuenvariablen wie x und y verwendet. 10 Allerdings ist dies kein prinzipieller Unterschied, da WordNet seit 1985 entwickelt wurde, als noch nicht so umfangreiche digitale Sprachdaten vorlagen wie heute. Neuere Wortnetzentwicklungen, z.B. das polnische Wortnetz, werden ebenfalls korpusbasiert aufgebaut, vgl. Derwojedowa et al. (2007). Lexikalische und ontologische Ressourcen 143 Abbildung 29: Frame zum Thema heilen, nach Lowe et al. (1997) Frame-auslösendes Element ist die LU („lexical unit“), die ebenfalls unter Rückgriff auf Cruse 11 als ein Form-Bedeutungspaar, also eine disambiguierte Lesart, definiert wird. Polyseme Wortformen gehören also zu unterschiedlichen Frames. FrameNet enthält mehr als 10 000 LUs, die in ca. 800 hierarchisch relationierten Frames organisiert und mit mehr als 135 000 annotierten Sätzen belegt sind. Das FrameNet-Modell ist mittlerweile Ausgangspunkt für die Entwicklung framesemantischer Lexika in verschiedenen Sprachen, z.B. für das Deutsche („German FrameNet“ in Austin 12 , „SALSA“ in Saarbrücken 13 ), für das Spanische („Spanish FrameNet“ in Barcelona 14 ) und das Japanische („Japanese FrameNet“ 15 ). Außerdem gibt es mit BiFrameNet 11 Vgl. Cruse (1986). 12 http: / / gframenet.gmc.utexas.edu/ . 13 http: / / www.coli.uni-saarland.de/ projects/ salsa/ . 14 http: / / gemini.uab.es: 9080/ SFNsite . 15 http: / / jfn.st.hc.keio.ac.jp/ . 144 Lexikalische und ontologische Ressourcen (Fung und Chen (2004)) einen statistikbasierten Ansatz zur lexikalischen Beschreibung des Chinesischen und Englischen in Hinblick auf die maschinelle Übersetzung. Durch die Ausrichtung auf die natürlichsprachlichen Sätzen zugrunde liegenden konzeptuellen Strukturen eignet sich FrameNet vor allem für grammatische und diskursorientierte Fragestellungen in computerlinguistischen Szenarien. 3.2 Informationen zu Lexical Units in FrameNet FrameNet fokussiert auf die syntakische und semantische Valenz bedeutungstragender prädizierender Kategorien. Dazu werden für eine gegebene lexikalische Einheit (LU) alle syntaktischen und semantischen Rahmen, die möglich und im British National Corpus und anderen Referenzkorpora belegt sind, annotiert, vgl. das Beispiel des englischen Verbs get in Abb. 30. Abbildung 30: Lesarten und Frames für get, nach Viberg (2002) Für die Annotierung von Frame-Element-Realisierungen im laufenden Text sind Tripel vorgesehen, die z.B. das Frame-Element FOOD , seine grammatische Funktion (z.B. OBJECT ) und den Phrasentyp ( NP ) spezifizieren. Eine vollständige Annotierung enthält 1. die o.g. dreischichtige Repräsentation für alle Sätze; 2. die vollständigen Frames und Frame-Element-Beschreibungen; 3. die Beziehungen zwischen den Frames 4. sowie lexikalische Einträge, die Valenzpattern für jede annotierte LU zusammenfassen. Lexikalische und ontologische Ressourcen 145 Die lexikalischen Einheiten (LUs) in FrameNet werden wie folgt behandelt: • LUs erhalten eine Definition, die entweder aus dem COD (Concise Oxford Dictionary) übernommen oder von den FrameNet-Lexikographen entwickelt wird; • alle kombinatorischen Möglichkeiten der LU in Bezug auf syntaktische und semantische Valenz werden exemplifiziert; • die Beispiele sind allesamt Korpusbelege aus dem British National Corpus oder aus repräsentativen Korpora des LDC 16 und keine Konstrukte; • jede LU ist mit einem passenden semantischen Frame verknüpft und somit auch zu anderen Einheiten, die diesen Frame aktivieren, wodurch sich Gruppen semantisch ähnlicher oder korrelierter LUs herausbilden: dies unterstreicht die konzeptuell basierte und nicht wortformbezogene Vorgehensweise. Darüber hinaus werden hierarchische Beziehungen zwischen einzelnen Frames und Frame-Elementen etabliert, welche die in FrameNet kodierte Information vielfältig verknüpfen. 3.3 Relationen zwischen Frames und Frame-Elementen Die konzeptuelle Modellierung semantischer Felder in Frames legt die Nutzbarmachung der mehr oder weniger geradlinigen Relationen zwischen Frames nahe. Unter anderem gibt es die folgenden charakteristischen Beziehungen: 1. Vererbung zwischen übergeordnetem („parent frame“) und untergeordnetem („child frame“) Frame in Form einer IS-A Hierarchie, wobei auch die Frame-Elemente des übergeordneten an diejenigen des untergeordneten Frames gebunden sind: so erbt der REVENGE -Frame die Frame-Elemente vom REWARDS _ AND _ PUNISHMENT -Frame. 2. Enthaltensein eines Subereignisses in einem übergeordneten komplexen Ereignis, ausgedrückt durch eine SUBFRAME-Beziehung zwischen Child Frame und Parent Frame. Ein Beispiel ist hier der CRIMINAL _ PRO - CESS -Frame mit den Subframes ARREST , TRIAL und SENTENCING . 3. Präsupposition (Voraussetzen) eines übergeordneten Frames durch einen untergeordneten Frame, wobei aber nicht alle Frame-Elemente des Parent Frame an diejenigen des Child Frame gebunden sein müssen. Z.B. setzt der SPEED -Frame den MOTION -Frame voraus. 4. Auch die Perspektivierung der Child Frames in Bezug auf einen neutralen Parent Frame kann erfasst werden: z.B. beim EMPLOYMENT _ START - Frame mit den gerichteten Subframes GET _ A _ JOB aus Arbeitnehmersicht vs. HIRE aus Arbeitgeberperspektive. 16 Linguistic Data Consortium. 146 Lexikalische und ontologische Ressourcen 3.4 Frames als interlinguale Strukturen zum Aufbau multilingualer lexikalischer Datenbanken In einem neueren Forschungspapier beschreibt Boas (2005) die Rolle, die Frames für die Alignierung polylingualer Ressourcen spielen können. Wir erinnern uns daran, dass auch im WordNet-Kontext durch den ILI ein interlingual angelegtes Lesarteninventar zur Verlinkung verschiedensprachiger Wortnetz-Ressourcen gegeben ist. Allerdings reichen die Frames allein für die Identifizierung von Übersetzungsäquivalenten nicht aus, sondern die syntaktischen und semantischen Valenzstrukturen müssen einbezogen werden. Boas fasst die für den Aufbau multilingualer lexikalischer Datenbanken einschlägigen Problemkreise zusammen: • Die Polysemie innerhalb einer Sprache (die wir in Zusammenhang mit der Etablierung unterschiedlicher Lesarten in Kapitel 3 schon kennengelernt haben) und die divergierenden Polysemiestrukturen in verschiedenen Sprachen: den relativ seltenen Fall der Überlappung von Lesarten in zwei Sprachen bis hin zur vollständigen Unverbundenheit von Lesarten. Das folgende Beispiel mit der konzeptuellen Grundbedeutung „bodennahe Fortbewegung“ hat unterschiedliche sprachspezifische Realisierungen: so umfasst das englische crawl die deutschen Konzepte krabbeln und kriechen; • die unterschiedlichen syntaktischen Realisierungen in Zusammenhang mit spezifischen Lesarten innerhalb einer Sprache und in Gegenüberstellung zweier Sprachen; • unterschiedlich feine Lexikalisierungsmuster in verschiedenen Sprachen; • unterschiedliche Paraphrasierungsrelationen für Übersetzungsäquivalente; • die prinzipielle Frage, ob ein Interlingua-Ansatz oder ein transferbasierter Ansatz für die Alignierung benutzt wird; • die Überlegung, ob beim Alignieren auf maschinenlesbare Versionen von Printwörterbüchern zurückgegriffen werden soll oder nicht besser Informationen aus heutzutage verfügbaren elektronischen Korpora in zahlreichen Sprachen heranzuziehen sind 17 . Weil auch der monolinguale Aufbau des englischen FrameNet konzeptuell motiviert war, d.h. von Frames ausgehend auf die sprachspezifischen Realisierungen dieser Frames zugreift, ist die Idee naheliegend, dieselben Frames als Grundlage für den Aufbau paralleler Frame-Fragmente in anderen Sprachen zu nutzen. Das Vorgehen gliedert sich wie folgt: 17 Vgl. hierzu auch Kapitel 10. Lexikalische und ontologische Ressourcen 147 • in der FrameNet-Datenbank wird die FrameNet-Struktur auf ihr abstraktes Gerüst reduziert, d.h. sprachspezifische LUs, zugehörige Informationen und Korpusbelege werden entfernt; • konzeptbezogene Information zu Frames, Relationen zwischen Frames, Frame-Elementen und Frame-Element-Relationen bleiben verfügbar; • nun wird die Datenbank mit nicht-englischen lexikalischen Beschreibungen angereichert; • zu einem gegebenen Frame, z.B. COMMUNICATION _ RESPONSE , werden die entsprechenden Frame-Elemente betrachtet, z.B. ADDRESSEE , MES - SAGE , SPEAKER , TOPIC und TRIGGER , und für diese mithilfe von Lexika und parallelen Korpora passende, d.h. denselben Frame aktivierende LUs in der nicht-englischen Sprache ermittelt; für das Deutsche z.B. LUs wie beantworten, Antwort, entgegnen, Entgegnung; • die Liste von LUs, die z.B. den COMMUNICATION _ RESPONSE -Frame aktivieren, wird in die Datenbank aufgenommen und mit Informationen zur Form, Wortart, Bedeutung und formaler Komposition einer jeden LU versehen; • danach werden in repräsentativen Korpora Beispielvorkommen dieser LUs in charakteristischen Verwendungen (syntaktischen Rahmen) gesucht; • die neu aufgebauten Subkorpora werden dann mit framesemantischer Annotierung versehen; • die resultierenden annotierten Sätze stellen idealerweise eine exhaustive Liste aller syntaktischen Vorkommensmöglichkeiten von Frame-Elementen zu der gegebenen LU zur Verfügung; • die LUs werden schließlich mit ihren annotierten Beispielsätzen in der Datenbank abgelegt. Nach der Erstellung paralleler Lexikonfragmente unterschiedlicher Sprachen können diese, über semantische Frames vermittelt, miteinander verknüpft werden. Dabei wird geprüft, welche englischsprachigen LUs auf welche LUs nicht-englischer Sprachen abzubilden sind. Dazu müssen alle Valenzpattern der zu linkenden LUs in beiden Sprachen genau analysiert werden, und zwar wird für jede Frame-Element-Position untersucht, welche syntaktischen Realisierungen sie hat (vgl. Abb. 32). Erst dann können die geeigneten Übersetzungsäquivalente ermittelt werden (z.B. zwischen dem Englischen und Spanischen, vgl. Abb. 33). Trotz des Postulats, dass Frames sprachunabhängige konzeptuelle Entitäten darstellen, ist Boas zurückhaltend und bezeichnet Frames als „interlinguale Repräsentationen“, die sowohl Aspekte einer „reinen“ Interlingua als auch solche transferbasierter Systeme (Letztere vor allem in Bezug auf kulturspezifische Frames, wie von Wanner und Mel’ ˇ cuk (2001) vorgeschlagen) kombi- 148 Lexikalische und ontologische Ressourcen Abbildung 31: Annotierte Belege für announce Abbildung 32: Frames für announce, mit deutschen Äquivalenten Abbildung 33: Korrespondenz zwischen einem englischen ANSWER -Frame und einem spanischen RESPONDER -Frame Lexikalische und ontologische Ressourcen 149 nieren. Da Frames zunächst aus der Betrachtung englischsprachiger Konzepte hervorgingen, muss ihr Generalisierungspotenzial anhand vieler Sprachen und umfangreicher Sprachdaten empirisch überprüft werden. Zusammenfassend lässt sich konstatieren, dass FrameNet unter den von Boas genannten Rahmenbedingungen besser geeignet ist für eine theoretisch angemessene multilinguale Verknüpfung als WordNet. Das vorgeschlagene Verfahren zur Ermittlung syntaktischer und semantischer Rahmenbedingungen für LUs ist allerdings sehr aufwändig. Nicht nur, dass von den Frames ausgehend zunächst die passenden LUs in allen relevanten Rahmen (korpus)belegt, analysiert und annotiert werden müssen, der lexikographische Prozess erfordert auch profunde Kenntnisse der framesemantischen Theorie und syntaktisch-semantischer Argumentstrukturbegriffe, setzt also theoretisches Wissen voraus. Ein sofortiger Einsatz in der maschinellen Übersetzung ist nicht möglich, auch wenn die involvierten Datenextraktions- und Annotierungsprozesse (teil)automatisiert werden können. Das Projekt realisiert Grundlagenforschung zu interlingualen Strukturen und konzeptuellen Universalien. Über diese Beiträge zur Theoriebildung der Framesemantik hinaus sind die entstehenden frame-annotierten Korpora für zahlreiche wissensbasierte Anwendungen, wie z.B. das Textverstehen, von großem Wert. 4 Ontologien 4.1 Einleitung und Überblick Die prinzipielle Kapazität des Menschen, auf sein Allgemeinwissen, Fachwissen und Kontextwissen zurückzugreifen, dieses durch Nachschlagen in Referenzwerken wie Lehrbüchern und Lexika zu ergänzen und mit seinem gespeicherten Wissen zu verbinden, kann von Computern noch nicht in gleicher Weise geleistet werden. Ein wichtiger Schritt zur Automatisierung wissensbasierter Aufgaben, z.B. der Kommunikation von Informationen, Fakten und Sachverhalten, liegt in der Bereitstellung von für diesen Aufgabenkomplex relevanten Begrifflichkeiten und ihrer Zusammenhänge in einer formalen Struktur. Für solche Wissensrepräsentationen hat sich seit der Arbeit von Gruber (1993) der Begriff O NTOLOGIE etabliert. Eine Ontologie definiert er als „an explicit formal specification of a shared conceptualization of a domain of interest“. In dieser Definition sind vier charakteristische Eigenschaften von Ontologien aufgeführt: • die Darstellung eines konzeptuellen Bereiches, d.h. eines Wissensbereiches in einem standardisierten Vokabular, das auch Terminologie genannt wird; • eine gemeinsame Grundlage für die Modellierung des Wissensbereiches durch eine (maßgebende) Gruppe von Leuten; • Ausrichtung auf eine Interessensdomäne, z.B. einen bestimmten Fachbereich oder einen Anwendungshintergrund; • explizite Formalisierung des Wissens, um logische Prozesse des Schlussfolgerns aus den Daten zu ermöglichen. Hauptsächliche Verwendung finden Ontologien in der Informatik und ihren benachbarten Disziplinen sowie in zahlreichen Fachwissenschaften, in den Bereichen der Wissensrepräsentation, der Kommunikation von Wissen (wozu auch Metadaten gehören), dem Inferieren über Wissensbestände und der Wiederverwendung von Wissensbeständen. Ontologien sind in vielerlei Hinsicht nützliche Ressourcen: • Die Explizierung von (Domänen)wissen erleichtert den Austausch über die Grundannahmen einer Wissensdomäne; die Begriffsbestimmung über relevante Informationen kann leichter kommuniziert werden. • Durch die Trennung von Domänenwissen und operationalem Wissen ist ein zielgerichteter Zugriff auf diese unterschiedlichen Wissenstypen und deren Wiederverwendbarkeit möglich. • Mit ihnen werden Referenzressourcen für Anwendungen in einer Domäne oder einem spezifischen Anwendungsszenario geschaffen. Lexikalische und ontologische Ressourcen 151 Seit Postulierung des Zeitalters des „Semantic Web“ (vgl. Berners-Lee et al. (2001)) erfreuen sich Ontologien besonderer Popularität. Web-Dokumente werden mit semantischen inhaltsbeschreibenden Metadaten annotiert und durch Inferenzregeln miteinander verknüpft, so dass intelligente Suchverfahren unterstützt werden. Ontologien können die hierfür benötigten Metadaten und Regeln bereitstellen, z.B. als Grundlage der Kommunikation zwischen zwei Agenten, vgl. Guarino (1998). Guarino unterscheidet T OP - L EVEL -O NTOLOGIEN , die allgemein ausgerichtet sind, von D OMÄNEN - O NTOLOGIEN , die bestimmte Anwendungsbereiche fokussieren. Der Begriff der Ontologie umfasst im weitesten Sinne auch die aus dem Umfeld der semantischen Netzwerke (vgl. Sowa (1991)) und Expertensysteme (vgl. Brachman und Schmolze (1985)) hervorgegangene Wissensrepräsentation mittels KONZEPTUELLER G RAPHEN und herkömmlicher Daten- und Klassenmodelle. Wir wollen zunächst kurz auf die historische Grundlage des Ontologiebegriffs eingehen, die Aristotelische Kategorisierung von Begriffen beschreiben und eine formale Begriffsbestimmung im Rahmen der Formal Concept Analysis vorstellen. Danach werden wir Unterschiede zwischen einer Taxonomie und einer Ontologie skizzieren. Wir zeigen exemplarisch, welche Schritte zum Aufbau einer Ontologie notwendig sind. Abschließend stellen wir einige Ontologien vor, die u.a. in Zusammenhang mit Wortnetzen als linguistischen Ontologien relevant sind. 4.2 Ursprünge des Ontologiebegriffes Der Begriff O NTOLOGIE ist im Rahmen der Philosophie als Lehre vom Seienden und der Seinshaftigkeit in Zusammenhang mit der Aristotelischen Metaphysik geprägt worden. Im Mittelpunkt stand dabei die Betrachtung der Hintergründe realer Dinge und der abstrakten Entitäten (res abstractae): die Ideen, Vorstellungen und Beweggründe. Aristoteles, der einige grundlegende Begriffe geprägt hat, die heute zum Inventar ontologischer Klassifikation gehören, gilt als Klassiker der Wissensrepräsentation und des logischen Schließens. Für die Strukturierung von T AXONOMIEN relevante Begriffe der Ebenenspezikationen gehen auf seinen Ansatz zurück: mit dem G ENUS - TERM ein allgemeiner Klassenbegriff zur Kennzeichnung einer natürlichen Art oder Kategorie (vgl. Rosch (1978) und ihre Redeweise vom B ASIC L E - VEL T ERM ), mit dem Term S PECIES die Realisierung der Subklassen, mit der D IFFERENTIA das relevante unterscheidende Merkmal zur Auszeichnung einer Spezies. In der mittelalterlichen Scholastik bilden die vorgestellten aristotelischen Termini das prominente Definitionsmuster, das allerdings weniger der Gliederung des Sprachwissens als der Strukturierung der Welt dient: Ein Objekt wird klassifiziert durch das G ENUS PROXIMUM , das durch den 152 Lexikalische und ontologische Ressourcen unmittelbaren Oberbegriff gegeben ist, und die charakteristische D IFFEREN - TIA SPECIFICA . Auch die Syllogismen, als Schemata logischen Schließens das Urmodell der Inferenzregeln, gehen auf Aristoteles zurück. Syllogismen bestehen aus zwei Prämissen (Obersatz (1) und Untersatz (2)) sowie einer Schlussfolgerung bzw. Konklusion (3). (1) Alle Menschen sind sterblich. (2) Sokrates ist ein Mensch. (3) Sokrates ist sterblich. Trotz der philosophischen Fundierung des Ontologiebegriffs, der Anlass zu einigen Missverständnissen 18 gibt, haben die meisten modernen Ansätze nur wenig Bezug zu den metaphysisch inspirierten Wurzeln, sondern verstehen sich pragmatisch als sprachliche Kategorisierungen von Wissensbereichen. Auch innerhalb der analytischen Philosophie ist der Sprach- und Sprecherbezug zunehmend wahrgenommen worden. So schreibt Hesse (2002): „Eine Ontologie [...] gibt dem Hörer oder Sprecher die Existenzvoraussetzungen an, an die er sich durch das Akzeptieren einer Sprache oder Theorie bindet.“ Mit Objekten, Klassen und Merkmalen haben wir wesentliche Bausteine einer konzeptuellen Modellierung verfügbar, die z.B. in einer Merkmalsmatrix zur Beschreibung verschiedener realer und fiktiver Objekte mittels formaler Attribute, wie bei Priss (vgl. Abb. 34) im Kontext der „Formal Concept Analysis“ (FCA), erfasst und in eine Gittermodellierung (C ONCEPT L ATTI - CE ) übertragen werden kann 19 , vgl. Abb. 35. Abbildung 34: Formale Beschreibung berühmter Tiere, nach Priss (2006) 18 So muss unter Umständen, vor allem im interdisziplinären Austausch, a priori geklärt werden, was man unter einer Ontologie versteht. 19 Ein Gitter vereint Prinzipien der Mengenlehre, Topologie und Geometrie und dient in der Mathematik zur Zerlegung eines Raumes in disjunkte Subräume. Lexikalische und ontologische Ressourcen 153 Abbildung 35: Konzeptuelle Gittermodellierung zu 34, nach Priss (2006) 4.3 Taxonomien und Ontologien Bei der formalen Modellierung von Wissen ist ein Kontinuum, ausgehend von relativ wenig strukturierten Listen wie z.B. Glossaren bis hin zu ausbuchstabierten Ontologien, zu verzeichnen. Taxonomische Gliederungen stellen eine mögliche Vorstufe zu einer Ontologie dar, indem sie Elemente eines gegebenen Wissensbereiches benennen und nach bestimmten Klassifikationsprinzipien, z.B. Sinnrelationen, strukturieren. Taxonomien zeichnen sich nach Cruse (1986) durch folgende Eigenschaften aus: • hierarchische Gliederung der klassifizierten Elemente vom Allgemeinen zum Spezifischen; • Hyponymie zwischen Tochter- und Mutterknoten sowie Inkompatibilität zwischen Schwesterknoten sind als konstituierende Merkmale notwendig, aber nicht hinreichend; bei einer Unterteilung der Tiere in Pferde und Schafe und der sukzessiven Unterteilung der Pferde in Hengste und Stuten bzw. der Schafe in Widder und Mutterschafe ist das Prinzip der Differenzierung nicht konsequent durchgehalten worden: die Unterscheidung der Tierarten ist von anderer Qualität als die Geschlechterdifferenzierung; • sie erfordern einheitliche Strukturierungsprinzipien, die in der Hierarchie konstant durchzuhalten sind: die vertikale Relation der kettenbildenden D OMINANZ und die horizontale Relation der D IFFERENZ (d.h. eine Rela- 154 Lexikalische und ontologische Ressourcen tion muss durch sich wechselseitig ausschließende Pfade in eine indefinite Anzahl sukzessiver Stufen durchgehalten werden); • Ebenenspezifikation in einer Taxonomie erfolgt vom Wurzelknoten (Ebene 1) aus in Entfernung zu diesem, d.h. ein Element auf der Ebene 2 ist ein Knoten abwärts vom Wurzelknoten, ein Knoten auf der Ebene n ist n − 1 Knoten abwärts verortet; • natürliche Taxonomien haben häufig 5 Ebenen und enden meist auf dem wichtigsten, d.h. generischen Level: hier finden sich Vertreter der Basic Level Category wie Tisch, Vogel und Auto. Differenzierungen werden häufig durch Komposita realisiert. In Abbildung 36 sehen wir Steffen Staabs Beispiel für eine einfache Taxonomie aus der Wissenschaftswelt mit vier Ebenen: Abbildung 36: Taxonomische Gliederung einer Wissensdomäne nach Staab (2006) Ein T HESAURUS reichert die taxonomische Struktur mit sinnrelationalen Beziehungen zwischen den repräsentierten Elementen an, wie im Beispiel von Staab mit den expliziten Verknüpfungen der Synonymie und Similarität, vgl. Abb. 37. Wir haben in Zusammenhang mit Wortnetzen wie GermaNet bereits Thesauri kennengelernt und wichtige Sinnrelationen besprochen. Eine Ontologie spezifiziert die Objekte als Klassen und Instanzen in einem formalen Modell und definiert explizite Verknüpfungen zwischen den Objektklassen und Instanzen als Eigenschaftszuschreibungen, vgl. Abb. 38. Die formale Grundlage ermöglicht die Anwendung von Inferenzregeln, z.B. „If a topic is described in a document, then a document is about a topic.“ Ontologien gestatten die Anwendung genereller logischer Regeln und Axiome, Lexikalische und ontologische Ressourcen 155 Abbildung 37: Thesaurische Gliederung der Wissensdomäne nach Staab (2006) disjunkter sowie inverser Regeln und auch die Einschränkungen von Wertebereichen. Zur Modellierung von Ontologien wird zunehmend die Web On- Abbildung 38: Ontologische Gliederung der Wissensdomäne nach Staab (2006) tology Language OWL ( http: / / www.w3.org/ TR/ owl-features/ ) verwendet, ein Standard des W3C, der auf XML und RDF(S) basiert und aus 156 Lexikalische und ontologische Ressourcen der Familie der Description Logics (DL) hervorgegangen ist und damit prädikatenlogische Expressivität und Entscheidbarkeit impliziert. OWL trägt mehr Semantik zur Beschreibung von Klassen und Eigenschaften bei als XML und RDF(S), und kann besser maschinell interpretiert werden. OWL kann benutzt werden, um die Bedeutung von Termen sowie die Relationen zwischen Termen explizit zu repräsentieren. Daher stellt OWL zurzeit die beliebteste Metasprache zur Wissensrepräsentation dar. 4.4 Schritte zum Aufbau einer Ontologie Noy und McGuinness (2001) beschreiben anhand der Beispielmodellierung der Domäne „Wine“ die Vorgehensweise zur Erstellung einer eigenen Ontologie. Bevor eine Ontologie aufgebaut wird, muss man sich vergegenwärtigen, dass es sich dabei um einen iterativen, kreativen Prozess handelt, für den es weder einen einzig richtigen Weg noch eine allgemeingültige Lösung gibt. Ein pragmatischer bzw. anwendungsorientierter Bezug sollte dabei gegeben sein; dieser bedingt natürlich auch das Design der Ontologie. Die folgenden Schritte werden vorgeschlagen: 1. Die spezifische Wissensdomäne und deren Umfang festlegen: Dies umfasst die anvisierte Abdeckung der Ontologie in Bezug auf die zu modellierende Domäne und deren Spezifizität, den Anwendungszweck der Ontologie, den Kreis der Anwender bzw. Weiterentwickler sowie die einschlägigen Fragen, auf welche die Ontologie Antworten bereitstellen soll. Dazu ist es hilfreich, einen umfassenden Fragekatalog zusammenzustellen, der sowohl das Design der Ontologie leitet als auch ihrer späteren Evaluierung dient, z.B. Fragen wie: Welche Sorten von Rotwein gibt es? Ist Riesling ein Weißwein? Welcher Wein passt zu welchem Essen? etc. 2. Existierende Ontologien ggf. einbinden: Bevor man das Rad neu erfindet, sollte geprüft werden, ob die anvisierte Domäne nicht bereits ontologisiert worden ist. Da die Modellierung einer Wissensdomäne sehr zeitaufwändig ist, können bereits existierende Ressourcen übernommen oder auf den eigenen Anwendungszweck zugeschnitten werden. Zahlreiche bereits getestete Ontologien sind im Web über Linksammlungen zugreifbar, z.B. http: / / www.ksl.stanford.edu/ software/ ontolingua/ . 3. Wichtige Begriffe und Termini zusammenstellen: Es ist sehr hilfreich, die Begriffe und Terme, die man in einer Ontologie modellieren will, sowie ihre Eigenschaften aufzulisten. Welche Begriffe will man erklären oder in Aussagen einbinden, welche ihrer Eigenschaften charakterisieren? Das könnte in der Beispieldomäne etwa folgende Begriffe umfassen: wine, white wine, grape, winery, location, color, sugar content, flavor, body etc. Lexikalische und ontologische Ressourcen 157 4. Erstellen der Klassenhierarchie: Die Begriffe werden nun in einer Klassenhierarchie geordnet, entweder in einem T OP - DOWN -Prozess, der vom generellsten Konzept der Hierarchie als Top-Knoten ausgehend zu den spezifischen Konzepten gelangt (etwa von Wine über White wine und Red Wine zu Syrah und Cabernet Sauvignon), oder in einem B OTTOM - UP - Verfahren, das zunächst spezifische Begriffe passenden generelleren Konzepten unterordnet (etwa Paulliac und Margaux zu Medoc), für die wiederum eine Superklasse ermittelt wird (Bordeaux), oder in einer Kombination beider Verarbeitungsverfahren, die mit den einschlägigen Begriffen startet und diese angemessen generalisiert bzw. spezialisiert. Einige Abbildung 39: Spezifizitätsebenen in der Taxonomie für „Wine“ Richtlinien sollten beim Aufbau von Klassenhierarchien beachtet werden: • Klassenhierarchien konstituieren IS - A Hierarchien: Wenn B als Subklasse von A modelliert ist, so ist B „a kind of“ A (z.B. Chardonnay als Unterklasse von White wine „is a kind of“ White wine). • Die Subklassenbeziehung in einer Klassenhierarchie ist transitiv: Ist B eine Subklasse von A ist und C eine Subklasse von B, dann ist C 158 Lexikalische und ontologische Ressourcen eine Subklasse von A: Chardonnay als „kind of“ White wine ist auch ein „kind of” Wine, wenn auch keine direkte Subklasse. • Wenn die Domäne sich verändert, muss die Klassenhierarchie adaptiert werden, z.B. galt Zinfandel immer als Subklasse von Red wine. Durch Kelterverfahren wurde ein White zinfandel kreiert, dessen Farbe nun rosé ist. Die Zinfandel-Klasse muss also nun in zwei Klassen White zinfandel und Red zinfandel aufgeteilt werden und wird entsprechend entweder als Rosé oder als Red wine klassifiziert. • Synonyme für dasselbe Konzept repräsentieren keine unterschiedlichen Klassen, sondern verschiedene Namen oder Bezeichner für dieselbe Klasse, vgl. Shrimps und Prawns. Viele Systeme gestatten, eine Liste von Synonymen zu einem Konzept zu assoziieren. In Wortnetzen ist dafür das Synset-Konzept kreiert worden. • Die Klassenhierarchie sollte keine Zyklen enthalten, d.h. nicht zulassen, dass A als Subklasse von B und B zugleich als Subklasse von A fungiert. • Direkte Subklassen der gleichen Klasse sollten den gleichen Spezifizitätsgrad aufweisen, z.B. White wine und Red wine als Unterklassen von Wine. • Es gibt keine genau festgelegte Anzahl direkter Subklassen zu einer gegebenen Klasse, aber die Existenz nur einer direkten Subklasse könnte auf die Unvollständigkeit der Hierarchie hinweisen. Auf der anderen Seite können mehr als 12 direkte Subklassen zu einer Klasse Bedarf für intermediäre Kategorien aufzeigen. 5. Klasseneigenschaften bestimmen: Für jede der Eigenschaften COLOR , BODY , FLAVOR , LOCATION muss die Klasse festgelegt werden, die sie beschreibt, also für COLOR die Klasse wine, und für die Eigenschaft LO - CATION die Klasse winery. Die Eigenschaften werden als S LOTS den jeweiligen Klassen zugeordnet, und zwar auf der generellstmöglichen Ebene (z.B. beschreibt die Eigenschaft TANNIN LEVEL nicht die Klasse aller Weine, sondern die Klasse Red wine und wird genau dieser Klasse zugeordnet und an Subklassen von Red wine wie Bordeaux oder Merlot vererbt). Objekt-Eigenschaften in einer Ontologie können unterschiedliche Dinge bezeichnen: • genuine Eigenschaften wie F LAVOR ; • äußere Eigenschaften wie N AME oder Anbaugebiet A REA ; • konkrete oder abstrakte Teile eines strukturierten Objekts (z.B. als Gang einer Mahlzeit); • Relationen zwischen Klassenindividuen und anderen Items (z.B. MA - KER eines Wine, als Repräsentant der Beziehung zwischen Wine und Winery). Lexikalische und ontologische Ressourcen 159 6. Einschränkungen über Eigenschaften treffen, mit den folgenden Möglichkeiten: • Kardinalität eines Slots, zur Festlegung der verschiedenen Werte, die er annehmen kann: Z.B. SINGLE , wenn nur ein Wert möglich ist, oder MULTIPLE , wenn mehrere Werte möglich sind. Beispiel: BODY als Eigenschaft der Klasse Wine ist vom Kardinalitätstyp SINGLE , da ein Wein nur einen Körper haben kann: PRODUCES als Slot der Klasse Winery hat den Kardinalitätstyp MULTIPLE , da mehrere verschiedene Weine produziert werden. • Typ des Wertes eines Slots: Welche Art von Werten kann ein Slot annehmen? Z.B. den Wertetyp STRING für Slots wie NAME - der Wert ist dann eine einfache Zeichenkette - oder ENUMERATED für eine Liste möglicher Werte, die ein Slot wie FLAVOR annehmen kann: STRONG | MODERATE | DELICATE . • Domäne und Wertebereich (Range) eines Slots: Welche Klassen weisen die Eigenschaft auf und welche Klassen sind mögliche Werte? Z.B. die Klasse Winery ist die Domäne der PRODUCES -Eigenschaft. Als Wertebereich wird mit Wine die generellste Klasse angegeben, die verfügbar ist. 7. Erstellen der Instanzen einer Klassenhierarchie: hierfür benötigt man individuelle Instanzen einer gegebenen Klasse, z.B. Chateau-Morgan- Beaujolais als Instanz der Klasse Beaujolais spezifizieren die folgenden zugehörigen Eigenschaften, vgl. B ODY : Light C OLOR : Red F LAVOR : Delicate T ANNIN LEVEL : Low G RAPE : Gamay (instance of the Wine grape class) M AKER : Chateau-Morgon (instance of the Winery class) R EGION : Beaujolais (instance of the Wine-Region class) 4.5 Verschiedene Ontologien für die Sprachverarbeitung Wie bereits erwähnt gibt es eine Vielzahl von Ontologien für unterschiedliche Fachbereiche und diverse Anwendungsszenarien. Für die Linguistik sind vor allem Ontologien relevant, die helfen, Wortnetze im Stile des Princeton WordNet im Bereich des Semantic Web zu nutzen. Dies kann durch eine partielle oder umfassende Anbindung an eine bestehende allgemeinsprachliche Ontologie geschehen oder durch eine direkte Konversion der Wortnetze in eine Webrepräsentationssprache wie OWL. Dazu gibt es bereits verschiedene Ansätze, vgl. van Assem et al. (2006). Es gibt verschiedene Ontologien, 160 Lexikalische und ontologische Ressourcen die Open-source verfügbar für Anwendungen sind, z.B. SUMO, OpenCyc, WordNet, GUMO, DOLCE, etc. • Mit der Suggested Upper Merged Ontology SUMO ( http: / / www. ontologyportal.org/ ) ist eine allgemeinsprachliche Ontologie entwickelt worden, die 1500 Klassen und 4000 Axiome enthält, mit fachspezifischen Ontologien aber auf ein Vielfaches erweitert werden kann. Die generischen Konzepte des WordNet sind mit SUMO und dessen Top- Level-Struktur verlinkt, was für viele sprachtechnologische Anwendungen vorteilhaft ist. • Das DOLCE/ OntoWordNet-Projekt 20 ist noch stärker auf die Alignierung mit WordNet konzipiert. Im Mittelpunkt steht eine möglichst breite Abdeckung der WordNet-Konzepte als Klassen und Instanzen der DOLCE- Ontologie, wobei formale Inkonsistenzen des WordNet überprüft und bereinigt werden. • OpenCyc ( www.opencyc.org/ ) hingegen hat sich eine breitere Abdeckung, nämlich die Erfassung des gesamten Weltwissens zum Ziel gesetzt. Neben Alltagswissen ist auch umfangreiches Fachwissen enthalten, zur breit angelegten Unterstützung maschinellen Inferierens. Mittlerweile sind mehr als 100 000 Begriffe mit mehr als 1 000 000 Eigenschaften und Fakten repräsentiert. • Bei der General User Model Ontology GUMO 21 steht die Modellierung durch den Anwender im Vordergrund, der sein Modell anhand verschiedener Dimensionen wie R AUM , Z EIT , F ÄHIGKEITEN , E REIGNIS - SE und G EGENSTÄNDE entwickeln kann. GUMO ist in OWL entwickelt und stellt das Vokabular für die verschiedenen Bereiche zusammen, ohne Axiome und Restriktionen zu determinieren. GUMO ist eine interessante Plattform zur Simulation realer (Teil-)Welten, wie z.B. Geschäfte, Museen und Flughäfen. Ontologien werden auch zukünftig ein spannendes und entwicklungsfreudiges Forschungsfeld sein, das für (Computer-)Linguisten eine große Herausforderung darstellt, nicht zuletzt in Hinblick auf die Verknüpfbarkeit mit lexikalischen Ressourcen. 5 Weiterführende Literatur Als Hintergrundlektüre zur empirischen Fundierung lexikalisch-semantischer Relationen sowie lexikalischer Hierarchien ist nach wie vor die hervorragende deskripitive Abhandlung von Cruse (1986) zu empfehlen. Im Buch wer- 20 Vgl. http: / / www.loa-cnr.it/ DOLCE.html . 21 http: / / www.ubisworld.org . Lexikalische und ontologische Ressourcen 161 den neben sprachanalytischen Betrachtungen brauchbare heuristische Tests zur Ermittlung sinnrelationaler Strukturen vorgestellt. Einen Überblick über lexikalisch-semantische Wortnetze im Kontext der Computerlinguistik gibt Kunze (2004) für das Deutsche. Desweiteren sind Fellbaum (1998) für die Beschreibung des WordNet und Vossen (1999) zum Thema der multilingualen Wortnetz-Architektur relevant. Zahlreiche Überblicksartikel zum Frame- Net-Ansatz finden sich auf der Webseite der FrameNet-Entwickler: http: / / framenet.icsi.berkeley.edu/ . Für diejenigen, die an Details der FrameNet-Repräsentation zur syntaktischen und semantischen Argumentstruktur interessiert sind, empfiehlt sich der bislang noch nicht publizierte Leitfaden von Ruppenhofer et al. (2006), der als pdf-Dokument von der Projektseite (Link: „The book“) heruntergeladen werden kann. Einen umfassenden Einblick in die Welt der Ontologien geben Staab und Studer (2004) aus anwendungsorientiertem Blickwinkel. Einen Brückenschlag zwischen Computersemantik, Informatik und Philosophie nehmen Nirenburg und Raskin in ihrem Lebenswerk Ontological Semantics (2004) vor, das allerdings an den Leser einige Anforderungen stellt. Für die Verfolgung aktueller Entwicklungen im Bereich der Ontologien sei auf die im Text bereits genannten Links verwiesen. 6 Aufgaben 1. Wir haben in Abschnitt 2.2 dieses Kapitels gesehen, dass ein unikaler Meronymiepointer für Wortnetze problematisch ist. Was spricht Ihrer Meinung nach dafür, auch die Relation der Antonymie weiter zu untergliedern? Diskutieren Sie Vorschläge, die u.a. bei Cruse (1986) Kapitel 9-11 und im Vorwort von Agricola und Agricola (1992) gemacht werden. 2. Modellieren Sie folgende Begriffe in einem semantischen Netz. Markieren Sie dabei diejenigen Wörter, die stilistisch von der allgemeinsprachlichen Norm abweichen. • äußern, kommunizieren, quatschen, fragen, behaupten, nachbohren, aussagen, polemisieren, verhören, kommentieren, schweigen, gestikulieren, berichten, diktieren, Polemik, schreiben, mitteilen, vernehmen, auffordern, interviewen, Äußerung, dementieren, antworten, lästern • Dichter, SchriftstellerIn, Auslandskorrespondent, LeserIn, KünstlerIn, WerbetexterIn, Schreiber, Protokollant, KritikerIn, Leserschaft, Romanautor, BestsellerautorIn, Schreiberling, Dramatiker, WirtschaftsjournalistIn, Lyriker, Reporter, AuslandskorrespondentIn, Leserkreis, Journalist, SchriftführerIn, Poet, AutorIn, Bücherwurm, BuchautorIn 3. Synsets fassen Synonyme zu einem Konzept zusammen. Mitunter wird der Synonymbegriff in GermaNet relativ weit gefasst, so dass etwa {flei- 162 Lexikalische und ontologische Ressourcen ßig, emsig, tüchtig, arbeitsam}, {schaffen, erschaffen, erzeugen, machen, schöpfen} oder {Versager, Niete, Null} jeweilig als Synonyme abgebildet werden. Welche Vor- und welche Nachteile ergeben sich Ihrer Meinung nach aus diesem großzügigen Synonymiebegriff für verschiedene Anwendungen, z.B. • die Informationserschließung? • die maschinelle Übersetzung? 4. Entwickeln Sie eine kleine Ontologie zu einer Wissensdomäne Ihrer Wahl. Orientieren Sie sich dabei an dem von Noy und McGuinness (Noy und McGuinness (2001)) vorgeschlagenen Verfahren. Die Ontologie sollte Ihrer Erfahrungswelt entstammen. Z.B. könnten Sie einen Ausschnitt aus dem semantischen Feld N AHRUNG oder M ÖBEL modellieren oder aus Ihrem studentischen Umfeld, wie etwa S TUDIENPLANUNG . 5. Zusatzaufgabe für Studierende mit sprachtechnologischen Vorkenntnissen: Modellieren Sie Ihre Ontologie in der Web Ontology Language OWL. Greifen Sie dabei auf die OWL-Richtlinien des W3C-Konsortiums ( http: / / www.w3.org/ TR/ owl-features/ ) zurück und verwenden Sie den Ontologie-Editor Protégé 22 . 22 Vgl. http: / / protege.stanford.edu/ . 7 Lexikalische Regeln Wenn Sie dieses Kapitel durchgearbeitet haben, werden Sie ein für digitale lexikalische Ressourcen charakteristisches Strukturmerkmal kennengelernt haben und wissen, welche Zwecke man mit der Formulierung von lexikalischen Regeln verfolgt. Sie werden die Schwierigkeiten bei der Formulierung von solchen Regeln einzuschätzen wissen und haben Beispiele für solche Regeln aus den Bereichen der Syntax und Semantik gesehen. 1 Einführung Die Redeweise von lexikalischen Regeln entstand im Kontext der generativen Grammatik, genauer gesagt, der Kontroverse zwischen Transformationalisten und Lexikalisten, die jeweils unterschiedliche Beschreibungsstrategien für Wortbildungs- und Satzbildungsprozesse innerhalb der generativen Grammatik postulierten. Während Transformationalisten 1 die Ähnlichkeit von Wortbildung und Satzproduktion, etwa in Bezug auf Rekursivität und Generativität ihrer jeweiligen Strukturen, hervorhoben und Wortbildungsprozesse ebenfalls als reguläre transformationelle Prozesse beschrieben, die aus einer syntaktischen Tiefenstruktur hervorgehen, situierten die Lexikalisten 2 diese Prozesse in der lexikalischen Komponente des Sprachsystems. Gegen die transformationalistische Hypothese führte etwa Motsch ins Feld, dass sich Produktivitätsbeschränkungen in der Wortbildung, wie in Beispiel (1) gezeigt, ebenso wenig mit syntaktischen Regeln erfassen lassen wie semantische Restriktionen wie in Beispiel (2) und pragmatische Akzeptabilitätsprobleme wie in Beispiel (3). (1) Pinsel → pinseln, aber Besen → *bese(l)n (2) affig vs. *löwig (3) hobeln vs. *zangen 1 Vgl. Chomsky (1970). 2 In Anlehnung an Jackendoff (1975), auch Motsch (1979) und Höhle (1982a), Höhle (1982b) für das Deutsche. 164 Lexikalische Regeln Diese Phänomene sowie analoge Prozesse bei der Wortneubildung werden adäquater im Rahmen eines lexikalistischen Ansatzes, bei dem einfache und komplexe Wörter im Lexikon aufgeführt werden, modelliert. Systematische, vorhersagbare Information über lexikalische Zeichen bzw. vorhersehbare Zusammenhänge zwischen Klassen lexikalischer Zeichen werden durch sog. ‚Redundanzregeln‘ erfasst, etwa die Beschreibung von syntaktischen Prozessen zwischen zwei Konstruktionstypen (Aktiv-Passiv, Dativalternation). Diese werden über Lexikonregeln, die auf Lexikoneinträgen beruhen, und nicht über Transformationsregeln, die auf lexikalisch spezifizierten Phrasemarkern operieren, erfasst. Da in den letzten Dekaden das Lexikon in Theorie und Praxis zunehmend in den Mittelpunkt des Interesses rückte, wurde auch die Erforschung der Regularitäten im Lexikon auf morphologischer, syntaktischer und semantischer Ebene sehr populär. Neben syntaktischen Phänomenen im Bereich der Diathesen (Verbalternationen) sind die systematische Polysemie und die logische Metonymie als semantische Paradefälle für die Anwendung lexikalischer Regeln ausgearbeitet worden. Seit den späten achtziger Jahren sind Lexikalische Regeln vor allem im Zusammenhang mit merkmalsbasierten Grammatikformalismen diskutiert worden: im generativen Lexikon 3 , in der HPSG 4 und TDFS 5 . Das hängt mit der guten Verarbeitbarkeit der prozessualen Information in vererbungsbasierten Ansätzen zusammen: Die merkmalsbasierte Spezifikation der Klassen lexikalischer Zeichen dient als Inputbedingung, die Regeln und die Outputstrukturen können optimal repräsentiert und verarbeitet werden. Es wird allerdings nicht Gegenstand dieser Lehreinheit sein, näher in merkmalsbasierte Grammatiktheorien wie die HPSG einzuführen. Es gibt formalismusunabhängige Forschungen wie etwa die Arbeiten von Nick Ostler und Sue Atkins 6 , die für lexikalische Regeln den Terminus LE - XICAL IMPLICATION RULES verwenden. Ostler und Atkins sehen eine lexikalische Basis für Sinnalternationen, während Geoffrey Nunberg und Annie Zaenen 7 zwischen lexikalisch und pragmatisch induzierten Bedeutungsübertragungen differenzieren. Andere in diesem Zusammenhang geprägte Begriffe für lexikalische Regeln sind • S EMANTIC TRANSFER RULES 8 , 3 Pustejovsky (1989), Pustejovsky (1991). 4 Head Driven Phrase Structure Grammar, Flickinger (1987), Meurers (1999). 5 Typed Default Inheritance Feature Structures, vgl. Copestake und Briscoe (1995), Briscoe und Copestake (1991), Copestake und Briscoe (1999). 6 Vgl. Ostler und Atkins (1992). 7 Vgl. Nunberg und Zaenen (1992). 8 Vgl. Leech (1981). Lexikalische Regeln 165 • S ENSE TRANSFERS 9 , • S ENSE EXTENSIONS 10 und • (lexical) SUBREGULARITIES 11 . Für die Computerlexikographie sind lexikalische Regeln deshalb wichtig, weil sie produktive Prozesse in der Sprache (Sinnerweiterung, systematische Polysemie, Wortneuschöpfungen) modellieren und das Konzept einer dynamischen im Unterschied zur statischen lexikalischen Wissensbank stützen. Das heißt zum Beispiel, dass Sinnerweiterungen nicht explizit aufgelistet werden. Stattdessen werden sie durch lexikalische Regeln für entsprechend zu kennzeichnende Lexikoneinträge instantiiert. Ein Problem dabei ist, die Klassenmerkmale der lexikalischen Zeichen, auf die spezifische lexikalische Regeln anwendbar sind, genau festzulegen. Im zweiten Abschnitt dieses Kapitels werden wir lexikalische Regeln in der Syntax thematisieren, der dritte Abschnitt stellt einige semantische Anwendungsfälle und deren Problematik vor. 9 Vgl. Sag (1981). 10 Vgl. Pustejovsky (1991). 11 Vgl. Wilensky (1991). 2 Lexikalische Regeln in der Syntax In diesem Abschnitt werden einige (morpho-)syntaktische lexikalische Regeln vorgestellt, wie sie in Dan Flickingers Konzeption eines hierarchischen Lexikons 12 formuliert wurden. Flickingers Arbeit hat zahlreiche Forschungen, die sich im Bereich der HPSG, TFS und anderen merkmalsbasierten Grammatiktheorien anschlossen, stimuliert. Er entwickelt eine Wortklassenhierarchie und den Begriff von vererbungsbasierter Information zur ökonomischen Repräsentation von lexikalischen Strukturen. So werden beispielsweise die gemeinsamen Eigenschaften aller Verben ebenso wie die spezifischen Eigenschaften gewisser Unterklassen von Verben im Formalismus charakterisiert und abgebildet. Ein spezifisches Verb erbt alle Merkmale übergeordneter Verben und weist darüber hinaus die bestimmenden Merkmale seiner Unterklasse auf. Flickingers Neuerung besteht darin, lexikalische Regeln im Zusammenhang mit einer Wortklassenhierarchie und dem Konzept der Vererbung zu explizieren. Eine lexikalische Regel repräsentiert eine systematische Beziehung (die Ausnahmen nicht unbedingt ausschließt) zwischen zwei Wortklassen bzw. zwischen den Mitgliedern einer Wortklasse und denen einer anderen Wortklasse. Jede Wortklasse kann Information über relevante lexikalische Regeln enthalten, genau wie individuelle Einträge, welche die Information erben oder überschreiben können. Bei Flickinger werden drei Fälle unterschieden: • Einfache Anwendbarkeit der Regel, • Anwendung der Regel, aber mit morphologischen oder semantischen Besonderheiten, die durch den Eintrag oder die Wortklasse gegeben sind, • Nichtanwendbarkeit der Regel. Für die verschiedenen Klassifikationen lexikalischer Regeln (major/ minor, inflectional/ derivational, same-arity/ changed-arity) wird ein unikaler formaler Mechanismus angenommen, unabhängig davon, ob diese Generalisierungen nun die Derivationsmorphologie oder Argumenterweiterungen betreffen. In Abbildung 40 sehen wir die abstrakte Repräsentation einer lexikalischen Regel, die übrigens bidirektional definiert ist, so dass beide Einträge eines regelhaft verbundenen Paars auf die Existenz und Eigenschaften des jeweils anderen Eintrags verweisen. Eine lexikalische Regel umfasst zwei Teile: • die Mengen verbundener lexikalischer Einträge werden identifiziert und anhand ihrer Klasse(n) spezifiziert; • die Abbildungen (M APPINGS ) M1-M5 auf den verschiedenen linguistischen Ebenen werden definiert - S PELLING der Set1-Mitglieder mit 12 Vgl. Flickinger (1987). Lexikalische Regeln 167 S PELLING der Set2-Mitglieder etc. -, ohne dass auf jeder der fünf Ebenen strukturverändernde Prozesse obligatorisch wären. Abbildung 40: Generelles Format einer lexikalischen Regel Flickinger unterscheidet zwischen idiosynkratisch spezifizierter Information, die in einem nicht-redundanten, minimal spezifizierten Eintrag aufgeführt ist, und vererbter Information. Lexikalische Regeln gelten für minimal spezifizierte Einträge, ohne dass diese den Zugriff auf vererbte, vorhersagbare Information benötigen. Lexikalische Regeln müssen so nur auf die Wortklassen beteiligter Einträge und die idiosynkratischen Eigenschaften dieser Einträge rekurrieren. Identität ist die Default-Relation für alle Attribute, die nicht eigens in der Regel erwähnt sind. In Abbildung 41 sehen wir eine lexikalische Regel für die Flexion zur P AST -T ENSE -Bildung im Englischen, zum Ausdruck der Relation etwa zwischen walk und walked. Die lexikalische Regel gilt zwischen zwei Mengen von Einträgen, eine davon repräsentiert durch den kanonischen Eintrag LE1 und die andere Menge durch LE2. Die LR-PAST-Regel drückt eine Beziehung zwischen Mitgliedern der BASE-Wortklasse und der PAST-Wortklasse aus, die auf jedes englische Verb mit BASE-Form und PAST-Form zutrifft, unabhängig von der Zahl seiner Argumente oder seinem eventuellen Status als Hilfsverb. Anhand der Passivregel in Abbildung 42 soll die Wechselwirkung zwischen Vererbungsprinzipien und lexikalischer Regel aufgezeigt werden: Die Regel ist sowohl in der TRANSITIVE-Klasse als auch in der PASSIVE- Klasse aufgeführt und gilt für Mitglieder der TRANSITIVE-Klasse, wird aber weiter eingeschränkt auf solche, die gleichzeitig Mitglieder der PAST- PARTICIPLE-Klasse sind, und setzt sie zu Mitgliedern der PASSIVE-Klasse in Beziehung. 168 Lexikalische Regeln Abbildung 41: Regel für die Bildung der „regulären“ Past-Tense-Form. „LE1-Classes - BASE“ steht für die Klasse BASE INTRAN- SITIVE MAIN VERB, „LE2-ClassesPAST“ für die Klasse PAST INTRANSITIVE MAIN VERB; „AFFIX-ED“ soll die Affigierung des Past Tense-Morphems (normalerweise -ed) charakterisieren. „PAST LE1-Semantics“ steht für die semantische Regel, welche die Bedeutung von LE1 und LE2 zueinander in Beziehung setzt. Abbildung 42: Regel für die englische Passiv-Bildung Abbildung 43: Wortklasse Passiv Also wird hier nicht auf die BASE-Klasse zurückgegriffen (wie bei der Regel in Abbildung 42), sondern auf die PAST-PARTICIPLE-Unterklasse, da Passivformen all die dort spezifizierten Merkmale aufweisen (vgl. Abbildung 43). Zur größeren Komplexität der Passivregel trägt über den Bezug auf die PAST-PARTICIPLE-Klasse hinaus die Relation CHANGE-ARITY bei. Die- Lexikalische Regeln 169 se setzt die unterschiedlichen Komplementierungsrahmen der Aktiv-Passiv- Diathese zueinander in Beziehung. Ein weiteres Phänomen kommt in der Demotion des Aktiv-Subjekts als obliques Objekt der Passivform zum Ausdruck, bei gleichzeitiger Anhebung des Aktiv-Objekts zum Passivsubjekt. Ein in der Literatur viel diskutierter Alternationstyp ist die Dativalternation für ditransitive Verben mit einer Variante, die zwei NP-Komplemente aufweist, gegenüber der NP-PP-Komplementierung: Die Produktivität der Regel für neue Dativverben, wie fax, email, forward, spricht für die Annahme einer Defaultregel, vgl. Beispiele (6) und (7). (4) I gave John a book. (Ich gab John ein Buch) (5) I gave a book to John. (Ich gab ein Buch an John) Der Dativshift ist aufgrund seiner Ausnahmen (es gibt Verben, die keine to-NP Alternante erlauben wie spare und Verben, welche nur die NP-PP- Komplementierung gestatten wie donate) ein interessantes, wenn auch problematisches Anwendungsfeld. Daher stellt sich die Frage, ob eine Defaultregel für die beiden Klassen ditransitiver Verben angenommen werden soll, was bedeuten würde, Ausnahmen lexikalisch zu spezifizieren, oder ob man keine allgemeine Regel annimmt, sondern nur die Verben angibt, auf welche die Regel anwendbar ist. (6) I emailed/ forwarded you my abstract this morning. (7) I emailed/ forwarded my abstract to him this morning. Die Dativregel hat keinen morphologischen Effekt, aber wie bei der Passivregel gibt es mit der Argumentkonverse eine veränderte Thetarollenzuweisung (R ECIPIENT vs. T HEME ), was in der Regel in Abbildung 44 nicht explizit gemacht wird, aber bei einem voll spezifizierten Eintrag für das Mapping auf der semantischen Ebene repräsentiert werden müsste. Abbildung 44: Lexikalische Regel zur Dativalternation Wir werden uns nun Fällen zuwenden, in denen lexikalische Regeln nicht generell für eine Wortklasse spezifiziert werden können: 170 Lexikalische Regeln • ein Eintrag kann idiosynkratisch eine lexikalische Regel spezifizieren, ohne dass diese auf die gesamte Wortklasse zutrifft; • ein Eintrag kann die Anwendung einer lexikalischen Regel blockieren, die im Allgemeinen auf seine Klasse angewendet werden kann; • ein Eintrag kann trotz der generellen Teilnahme an der lexikalischen Regel unvorhersehbare phonologische, morphologische und semantische Informationen enthalten, die als idiosynkratisch zu repräsentieren sind. Eine regelhafte Beziehung von eingeschränkter Anwendbarkeit ist die Kausativ-Inchoativ-Alternation, die Paare von Einträgen mit einer transitiven und einer intransitiven Lesart verbindet: (8) Peter opened the door. (Peter öffnete die Tür) (9) The door opened. (Die Tür öffnete sich) Solche Paare sind allerdings nicht sehr zahlreich (im Englischen gibt es u.a. noch: drop, roll, break, im Deutschen: kochen, rollen); trotzdem scheint die Bezogenheit der Einträge eine Generalisierung zu verlangen. In der Kausativierungsregel in Abbildung 45 sind Ähnlichkeiten mit der Struktur der Passivregel erkennbar, obgleich die Anwendung der Regel sich natürlich auf transitive Verben beschränkt. Das intransitive open unterscheidet sich von seinem transitiven Gegenstück darin, dass es zur Klasse INCOMPLETE (eine Unterklasse der INTRANSITIVE Klasse) gehört und dass es das transitive Objekt als Subjekt ausdrückt. Das transitive open kann semantisch mit Bezug auf Kausalität beschrieben werden. Abbildung 45: Lexikalische Regel zur Kausativ-Inchoativ-Alternation Wir haben beim Dativshift schon gesehen, dass nicht alle ditransitiven Verben an der lexikalischen Alternation teilnehmen. So ist für das Verb donate die Dativalternante nicht möglich: (10) John donated the book to the library. (John spendete das Buch an die Bibliothek) Lexikalische Regeln 171 (11) *John donated the library the book. (John spendete das Buch der Bibliothek) Diese idiosynkratische Blockierung der Defaultregel für ditransitive Verben wird im lexikalischen Eintrag selbst vorgenommen (vgl. Abbildung 46, letzte Zeile): Abbildung 46: Lexikalischer Eintrag zum Stichwort donate In der Regel in Abbildung 47 wird die Blockierung der Passivregel für get ebenfalls im Lexikoneintrag ausgedrückt, vgl.: (12) Bill will get Sue to dance. (13) *Sue was gotten to dance. Das macht vor allem deshalb Sinn, weil get in seiner Klasse OBJECT-EQUI das einzige Verb ohne Passivbildung ist, so dass es sich hier wahrhaft um eine idiosynkratische Erscheinung handelt. Schließlich sei noch beispielhaft die irreguläre Schreibung einer Past Tense Form - pay → paid - angeführt, die über die Blockierung der entsprechenden lexikalischen Regel vorgenommen wird, vgl. Abbildung 48. Arbeiten zu lexikalischen Regeln sind von zahlreichen Computerlinguisten und -lexikographen, aber auch von Lexikologen und Theoretikern, fortgeführt worden. Dabei sind die Repräsentationsmechanismen fortentwickelt und modifiziert worden 13 . Hervorzuheben sind die Forschungen von Copestake im Rahmen der T Y - PED D EFAULT I NHERITANCE F EATURE S TRUCTURES (TDFS), die im Rahmen von computerlexikographischen Projekten wie ACQUILEX mit der Re- 13 Vgl. z.B. Meurers (1999). 172 Lexikalische Regeln Abbildung 47: Lexikalischer Eintrag zum Stichwort get Abbildung 48: Lexikalischer Eintrag zum Stichwort pay präsentation und Verarbeitung großer Mengen an lexikalischen Daten angewendet wurden 14 . Besonderer Schwerpunkt ihrer Arbeiten sind lexikalische Regeln auf semantischer Ebene. In diesem Band kann nicht in den komplexen Rahmen der TDFS eingeführt werden. Dennoch sollen zum Abschluss dieses Unterkapitels Repräsentationen aus Copestake und Briscoe (1999) zur Beschreibung von Diathesen angeführt werden. In Abbildung 49 wird ein Vererbungsbaum für Bewegungsverben im Englischen gezeigt, welcher den KOHÄSIVEN Eigenschaften spezifischer Verben Rechnung trägt. So erben intransitive Bewegungsverben wie gallop Merk- 14 Vgl. Copestake und Briscoe (1995), Briscoe und Copestake (1991), Copestake und Briscoe (1999). Lexikalische Regeln 173 male sowohl aus der Klasse intransitiver Verben als auch aus der Klasse der Bewegungsverben. Abbildung 49: Hierarchie von Bewegungsverb-Klassen Abbildung 50 zeigt das Template der lexikalischen Regel zur Kausativ- Inchoativ-Alternation, und Abbildung 51 eine Anwendung dieser lexikalischen Regel auf das Alternationspaar: (14) John gallopped the horse. (15) The horse galloped. Abbildung 50: Template der lexikalischen Regel zur Kausativ-Inchoativ- Alternation 174 Lexikalische Regeln Abbildung 51: Anwendung der lexikalischen Regel auf das Verb gallop 3 Lexikalische Regeln zur Behandlung von Sinnerweiterungen Auch auf der Ebene der lexikalischen Semantik gibt es Regularitäten, über die man Generalisierungen treffen möchte. Schon die Behandlung der Verbdiathesen hat gezeigt, dass neben den syntaktischen Korrelationen auch regelgeleitete semantische Beziehungen zwischen den lexikalischen Varianten bestehen. Im Rahmen des Generativen Lexikons 15 ist die von Juri Apresjan 16 und später von Manfred Bierwisch 17 beobachtete und beschriebene Vielfalt regulär polysemer Phänomene vor allem im Nominalbereich auf die Qualiastruktur, eine vielschichtige, funktionale Struktur zur Repräsentation und Verarbeitung von Nomen, abgebildet worden. Diese Struktur sieht unterschiedliche Rollen, etwa für Buch als physisches Objekt oder als geistiges Produkt, vor 18 . Mit der Qualiastruktur, die als RQS (Relativized Qualia Structure) eine wichtige Rolle in einem großen europäischen computerlexikographischen Projekt (ACQUILEX) spielte, hat man die Möglichkeit einer hierarchischen merkmalsbasierten Repräsentation für Nomina-Einträge verbunden. In diesem Kontext erwuchs die Idee, semantische Ableitungen der systematischen Polysemie und metonymische Prozesse der S INNERWEITERUNGEN (‚Sense extensions‘) mithilfe lexikalischer Regeln zu erfassen 19 . Berühmt geworden in diesem Zusammenhang ist das sog. G RINDING , das aus einem zählbaren Substantiv (count noun) ein unzählbares Substantiv (mass noun) deriviert, um die Fleischbedeutung eines Tierkonzeptes abzuleiten, vgl.: (16) I like to eat haddock. (Ich mag Schellfisch) vs. There is a haddock in the water. (Ein Schellfisch ist im Wasser) Im Typensystem von Copestake und Briscoe ist die Typenhierarchie als partielle Ordnung definiert. Eine lexikalische Regel ist in der Lexical Knowledge Base ein Typ (LEXICAL-RULE) mit den Merkmalen 0 und 1, die beide Werte vom Typ lex_sign annehmen müssen, vgl. Abb. 52. Neue lexikalische Einträge können durch die Unifikation einer Kopie des lexikalischen Eintrags mit der Merkmalsstruktur am Ende des Pfades [1] mit einer Kopie der lexikalischen Regel generiert werden: die Merkmalsstruktur am Ende von Pfad 15 Vgl. Pustejovsky (1989), Pustejovsky (1991). 16 Vgl. Apresjan (1973). 17 Vgl. Bierwisch (1983). 18 Vgl. auch Abschnitt 3.3 des Kapitels zur lexikalischen Semantik in diesem Buch. 19 Vgl. Briscoe und Copestake (1991). 176 Lexikalische Regeln [0] ist dann das neue lexikalische Zeichen. Lexikalische Regeln sind mit dem Typ ihrer Input- und Output- Merkmalsstrukturen indiziert, so dass sie nur auf Einträge eines geeigneten Typs angewendet werden. Abbildung 52: Generisches Format einer lexikalischen Regel Eine dem Typensystem entsprechende Grinding-Regel sieht aus wie in Abbildung 53, in der ein zählbares Substantiv in ein unzählbares Substantiv transformiert wird. In der Inputstruktur sehen wir, dass die (Relativierte) Qualiastruktur (RQS) Eigenschaften für ein individuiertes physisches Objekt (‚ IND _ OBJ ‘) festschreibt, beim Output hingegen Eigenschaften für eine amorphe Substanz (‚ SUBSTANCE ‘). Abbildung 53: Generisches Schema der Grinding-Regel Eine spezialisierte Regel gibt es für das A NIMAL G RINDING , um die regelgeleitete Beziehung zwischen Tier und Fleisch vom Tier abzubilden. Die Regel ist in Abbildung 54 dargestellt. Durch die Typenhierarchie können geeignete Teile des Lexikons charakterisiert werden, auf welche die Regel angewendet werden kann. Lexikalische Regeln können durch Vererbung im Typensystem parametrisiert werden. In der RQS der Inputstruktur ist die Eigenschaft der Essbar- Lexikalische Regeln 177 keit des Tieres Voraussetzung für die Transformation in ein Nahrungsmittel (‚ FOOD _ SUBSTANCE ‘). Abbildung 54: Regel für das Animal-Grinding Wenden wir nun die lexikalische Regel auf den (hier nicht aufgeführten) Basiseintrag für haddock an, so erhalten wir die folgende Outputstruktur, partiell dargestellt in Abbildung 55. Nun liegt ein unzählbares Substantiv in der Nahrungsmittellesart vor, in dessen Qualiastruktur eine Rolle (PURPOSE) mit dem Wert eat spezifiziert ist. Dieser Wert erwächst aus dem Constraint des Types FOOD _ SUBSTANCE , der wiederum vom Typen FOOD (in der Typenhierarchie der übergeordnete Knoten) vererbt wird. Abbildung 55: Lexikalischer Eintrag für haddock Der metaphorische Gebrauch eines Tiernamens kann z.B. durch die lexikalische Regel in Abbildung 56 abgeleitet werden, wenn etwa von einem Mann behauptet wird, er sei ein (toller) Hecht, ein Ochse oder ein Affe, oder von einer Frau, sie sei eine Ziege oder Kuh. Auffällig ist hier, dass der Wert für 178 Lexikalische Regeln das Attribut SEX der gleiche in der Tier- und der Menschlesart ist. Da gibt es sicher Ausnahmen wie Harro ist eine richtige Sau. Abbildung 56: Lexikalische Regel für die Tiermetapher Auch sequenzielle Abfolgen verschiedener lexikalischer Regeln sind möglich, wobei Zirkularität vermieden werden muss. Ein Beispiel hierfür ist eine Regel für das P ORTIONIEREN , bei dem ein Essen oder Trinken denotierendes, unzählbares Substantiv in ein zählbares verwandelt wird, das auf eine Portion dieses Nahrungsmittels referiert, vgl. drei Colas, zwei Schellfische. Beim Schellfisch würde also zunächst Grinding und dann Portionieren erfolgen. In den Regeln muss aber prinzipiell eingeschränkt werden, dass der Output einer Regel als Input einer konversen Regel verwendet wird. Copestake und Briscoe 1999 haben ihren Ansatz weiter ausgearbeitet und modifiziert; diverse lexikalische Regeln sind reformuliert worden, so dass etwa von Semiproduktivität lexikalischer Regeln bei den Sinnerweiterungen die Rede ist. Damit wird kritischen Punkten, wie im nächsten Unterkapitel thematisiert, zu Blockierungsphänomenen und auch zur marginalen Relevanz der beschriebenen Phänomene Rechnung getragen. Außerdem müssen sowohl das altbekannte Problem berücksichtigt werden, dass manche der als ambig gekennzeichneten Konzepte vermutlich eher vage bzw. unterspezifiziert sind, als auch die Tatsache, dass bei regulär polysemen Begriffen nicht immer leicht zu bestimmen ist, welche Lesart die Basis und welche die Ableitung darstellt. Lexikalische Regeln 179 3.1 Problematisierung der Behandlung systematischer Polysemie Geoffrey Nunberg 20 unterscheidet zwischen lexikographischen und lexikologischen Ansätzen zur Beschreibung von systematischer Polysemie. Er demonstriert dies am Beispiel der oben eingeführten Grinding Rule, die ein zählbares Substantiv in ein unzählbares Substantiv transformiert (a rabbit → rabbit). In der Lexikologie sei eine einzige Transferfunktion anzunehmen, die keine Interpretationen des unzählbaren Substantivs unterscheidet, z.B. rabbit meat (das Fleisch) gegenüber rabbit fur (das Fell). Innerhalb der Lexikographie erfolgen weitere Präzisionen (sense precisions) über SEMANTISCHE L I - ZENZIERUNGEN , denen ein von lexikalischen Regeln verschiedener Status zugeschrieben wird. Bei den Transferfunktionen wird eine Wortklasse auf eine andere Wortklasse abgebildet. Es stellt sich die Frage, wann und auf welchem Abstraktionsniveau eine Transferfunktion explizit repräsentiert werden soll. Zur Individuierung von Transfer-Funktionen wollen wir uns die folgenden Beispiele ansehen 21 : (17) John was eating rabbit. (John aß Kaninchen) (18) I refuse to wear rabbit. (Ich lehne es ab, Kaninchen zu tragen) (19) There was rabbit splattered all over the highway. (Kaninchen war über die ganze Autobahn verteilt) (20) The table was made of oak. (Der Tisch ist aus Eiche) (21) We had sun all day at the beach. (Wir hatten den ganzen Tag Sonne) (22) That’s a lot of shopping center for a small town. (wörtlich: Das ist eine ganze Menge Einkaufszentrum für so eine kleine Stadt) Nicht alle zählbaren Substantive können aber in unzählbare Substantive umgewandelt werden, da es für manche von ihnen keine ‚M ASSE ‘-Lesart gibt bzw. sie sehr ungewöhnlich ist (vgl. Beispiel (22)). In einem Wörterbuch eine solche Masse-Lesart für shopping center zu finden ist sehr unwahrscheinlich, dahingegen erwartet man sie für rabbit oder oak. Bei der Spezifizierung des Wertebereichs der Funktion handelt es sich bei den Beispielen (17) bis (20) immer um eine Substanz, die vom assoziierten zählbaren Substantiv deriviert ist, Beispiel (21) referiert allerdings auf das Sonnenlicht, das ja nicht Teil der Sonne ist, und Beispiel (22) enthält mit Einkaufszentrum eine Maßeinheit. Nimmt man nun eine Anzahl verschiedener Transferfunktionen an, die über eine spezifische Domäne im Geltungsbereich 20 Vgl. Nunberg und Zaenen (1992), Nunberg (1995). 21 Vgl. Nunberg (1995). 180 Lexikalische Regeln definiert sind, dann differenziert die Grinding-Funktion als solche nicht die verschiedenen Lesarten von rabbit, sondern es sind darüber hinaus spezifische Regeln notwendig, um diese zu unterscheiden 22 . So könnten Funktionen zunehmender Spezifizität über restringiertere Domänen und Wertebereiche definiert werden, je nachdem etwa, ob eine Substanz aus der Rinde, dem Holz, den Blättern, der Saat oder dem Harz eines Baumes gewonnen wird. Aus der lexikologischen Perspektive aber spricht gegen die Individuierung, dass Begriffe wie rabbit eher vage als ambig sind, vgl. Beispiel (23): (23) My religion forbids me to eat or wear rabbit. (Mein Glaube verbietet es mir, Kaninchen zu essen oder zu tragen) Blockierungsphänomene wie die Verwendung von pork, veal, beef anstelle der Masse-Lesarten von pig, calf und cow werden eher aus pragmatischen Maximen als aus semantischen Prinzipien hergeleitet, vgl. (24) Hindus are forbidden to eat cow/ ? beef. (Hindus dürfen keine Kühe essen), wo die Beschränkung sich auf die Kuh als solche, weniger auf das Rindfleisch bezieht. In der lexikographischen Beschreibung der Polysemiephänomene wird oft ausgeklammert, dass Grinding auf gewisse taxonomische Stufen beschränkt ist, z.B. auf fish und nicht mammal oder sehr spezifische Fischsorten wie Rhode Island Red. Ferner wird nicht präzisiert, wie der Output des Transfers bestimmt wird, ob z.B. die Pelz- oder Fleischlesart von rabbit selegiert wird. Außerdem wird die Blockierung gewisser unzählbarer Substantive durch die Existenz lexikalisierter Konkurrenten ausgespart. Obwohl Einträge wie pork und beef vorhanden sind, wird nicht gesagt, dass diese gegenüber pig und cow präferiert werden. Diese Mängel resultieren aus der Trennung von Lexikon und Enzyklopädie, die gerade für einige Fälle regulärer Polysemie nicht so strikt eingehalten werden kann. Nunberg schlägt den Begriff L EXICAL LICENSE vor, um Regularitäten, die auf Weltwissen beruhen, lexikalisch entsprechend als mögliche Kandidaten von Transferfunktionen zu kennzeichnen. Diese Lizenzierungen können auch als Gebrauchskonventionen ( CONVENTIONS OF USE ) aufgefasst werden und sollen explanativ sein für sprachübergreifende Verteilungen von Transferfunktionen. Insgesamt gesehen wird der Einbezug pragmatisch generierter Wortverwendungen in der lexikographischen Beschreibungen gerechtfertigt. 22 Vgl. Apresjan (1973), Ostler und Atkins (1992). Lexikalische Regeln 181 Grundlage einer gründlichen und präzisen Beschreibung können Korpusrecherchen sein. 4 Weiterführende Literatur Lexikalische Regeln sind etwas aus der Mode gekommen. Deshalb gibt es auch keine neuere Literatur zu diesem Thema. Als Einstieg in das Thema können wir aber Meurers (1999), natürlich den „Klassiker“ von Dan Flickinger (1987) und die Arbeiten von Copestake und Briscoe, vor allem Copestake und Briscoe (1999), empfehlen. 5 Aufgaben 1. Bei einigen transitiven Verben kann das Objekt implizit, d.h. unrealisiert bleiben, vgl. (25) Britta liest ein Buch. (26) Britta liest. Es gibt zwei Verbrealisierungen des Prädikats lesen, die semantisch miteinander verbunden sind. Das kann durch eine lexikalische Regel ausgedrückt werden: „Wenn V ein transitives Verb ist mit der Bedeutung α , dann ist V auch ein intransitives Verb mit der Bedeutung λ x λ s ∃ y ( α (y)(x)(s))“ Das führt zu folgenden Verbrepräsentationen: (27) λ x λ s λ y read(s,x,y) (28) λ x λ s ∃ y read(s,x,y) Anmerkung: Der Buchstabe λ (Lambda) ist ein Symbol, durch das die folgende Variable gebunden wird. In der intransitiven Variante wird die zweite Individuenvariable existenzquantifiziert, um so auch das nicht realisierte Objekt zu binden. a) Welche der folgenden Verben (basteln, malen, ermorden, essen, beenden, zerstören, bügeln) gehören zur Klasse der Verben, die diese Alternation aufweisen? Begründen Sie Ihre Wahl. b) Geben Sie Beispiele für diesbezügliche transitive und intransitive Verwendungen an. c) Wie könnte die Klasse von Verben, welche die Objektdeletionsregel bedienen, semantisch näher charakterisiert werden? 2. Es gibt Verbalternationen mit einer transitiven Variante und einer intransitiven Variante, die sowohl eine Reduktion der Argumentstellen als auch 182 Lexikalische Regeln eine Veränderung der vom Subjekt ausgedrückten semantischen Rolle nach sich ziehen. Zu diesem Alternationstyp zählt die so genannte Kausativ-Inchoativ-Alternation mit den Beispielverben kochen, schmelzen, zerbrechen, vgl.: (29) Britta kocht die Suppe. (30) Die Suppe kocht. Entwerfen Sie eine lexikalische Regel im Format Flickingers, welche diese Alternation erfasst. Überlegen Sie sich weitere Beispielverben, welche in dieser Alternation produktiv sind. 8 Lexikalische Statistik Am Ende dieses Kapitels wissen Sie, womit die lexikalische Statistik sich befasst. Sie wissen, was diafrequente Angaben in Wörterbüchern sind, wie Indizes aufgebaut sind und wie Wortschatzprofile aus Texten entstehen. Am Beispiel einer Fallstudie aus der Morphologie haben Sie gesehen, wie man Frequenzangaben zur Wortverteilung mit lexikologischen Fragestellungen verbinden kann. 1 Einleitung Es ist nicht einfach, den Begriff LEXIKALISCHE S TATISTIK und das Forschungsgebiet, auf das sich der Begriff bezieht, einzuführen. Das Forschungsgebiet ist im Vergleich zur Computerlinguistik oder Computerlexikographie sehr alt. Es ist im Kontext quantitativer literaturwissenschaftlicher Studien entstanden, in denen es darum geht, einen Text unklaren Ursprungs einem Autor zuzuordnen oder quantitative Metriken für die Stilanalyse zu entwickeln ( QUANTITATIVE S TILISTIK ). Der andere Ursprung der lexikalischen Statistik ist der Bereich der QUANTITATIVEN L INGUISTIK . Quantitativ arbeitende Linguisten beschäftigen sich schon seit einer ganzen Weile mit der Untersuchung von quantitativen Aspekten des Sprachgebrauchs, was manchmal in scharfem Kontrast zur generativen Schule gesehen wird. Eines der berühmtesten Ergebnisse der quantitativen Linguistik ist das so genannte Zipfsche Gesetz, auf das wir später zurückkommen werden. Es wurde immerhin schon in den zwanziger Jahren des letzten Jahrhunderts aufgestellt. Wir verlassen nun die historische Darstellung und begeben uns auf die Suche nach einer Definition dieses Gebiets. Eine sehr allgemeine Definition lautet, dass lexikalische Statistik sich mit der quantitativen Analyse von Wörtern in Texten beschäftigt, also mit Verteilungen von Wortfrequenzen 1 . Lexikalische Statistiker zählen die Wörter in Texten, berechnen die Verhältnisse zwischen diesen Wörtern und vergleichen Wortfrequenzen und Verhältnisse in verschiedenen Texten. Betrachten wir ein 1 „Word frequency distributions“ lautet der Titel eines einschlägigen, einführenden Buchs von Harald Baayen, vgl. Baayen (2001). 184 Lexikalische Statistik paar Beispielfragen, die man wahrscheinlich mithilfe der lexikalischen Statistik beantworten kann. • Wie oft kommt ein Lemma L in einem gegebenen Korpus vor (absolute und relative Werte)? • Gegeben sei ein Wort (z.B. also oder Tafel) - wie oft kommt es in seinen verschiedenen Funktionen oder Bedeutungen in einem Textkorpus vor? • Wie groß ist der Anteil der Wörter, die nur einmal im Text vorkommen (die so genannten H APAX L EGOMENA )? Wie groß ist der Anteil der 100 häufigsten Wörter an einem Text (Korpus)? • Wie viele Wörter mit einem bestimmten Präfix oder Suffix (z.B. Cyber-, -bar) kommen in einem gegebenen Korpus vor? Wie viele dieser Wörter sind Hapax Legomena? • Unterscheidet sich der Anteil an Hapax Legomena in kleinen und großen Texten? Mit anderen Worten: gibt es einen funktionalen Zusammenhang zwischen der Proportion an Hapax Legomena und der Größe des Texts (Korpus)? • Gibt es ein Mittel, um das A KTIVITÄTSPROFIL eines Texts oder das Maß seines lexikalischen Reichtums durch die Analyse seines Wortschatzes zu erfassen und zu vergleichen? Allgemein gibt es zwei Anwendungsbereiche für lexikalische Statistik. Zum einen ist dies die (Computer-)Lexikographie und Lexikologie: Die Einheiten des Lexikons können durch ihre Häufigkeit und Verteilung in Texten und gesprochener Sprache näher charakterisiert werden. Zum anderen sind dies die Textlinguistik und die Texttechnologie: Texte können anhand der Frequenz und Verteilung des Wortschatzes, aus dem sie aufgebaut werden, charakterisiert werden. Der erste Aspekt gehört ganz klar zum Thema dieses Kapitels. Die ersten vier Fragen aus der obigen Liste sind Beispiele für den lexikonzentrierten Ansatz. Der zweite Bereich mit den beiden letzten Fragen, die als Beispiel dafür dienen sollen, wird hier nicht weiter verfolgt 2 . Der Nutzen der lexikalischen Statistik für die Computerlexikographie soll nun an einem einfachen Beispiel veranschaulicht werden. Eines der größten Probleme bei der automatisierten Behandlung natürlicher Sprache ist deren allgegenwärtige Ambiguität 3 . Viele der Ambiguitäten sind für den menschlichen Leser nicht einmal sichtbar. Dies hat wohl mit der Seltenheit manch möglicher Interpretation zu tun. Diese seltenen Lesarten werden vom menschlichen Zuhörer oder Leser einfach nicht in Betracht 2 Für nähere Informationen zu diesem Thema konsultiere man Baayen (2001) oder Mehler (2004). 3 Vgl. Abschnitt 6 des Kapitels zu lexikalischer Semantik in diesem Buch. Lexikalische Statistik 185 gezogen. Sie müssen jedoch von Software zur automatischen Sprachanalyse aussortiert werden. (1) Klauen wollte er nicht (‚He did not want claws‘ vs. ‚He did not want to steal‘) Eine der beiden Lesarten (hier durch die erste englische Übersetzung identifiziert) kommt einem menschlichen Leser kaum in den Sinn, aber sie ist eine perfekte Interpretation dieses Satzes. Dies wird deutlicher, wenn man das obige Beispiel mit dem Satz Klingen wollte er nicht (‚He did not want blades‘) vergleicht. Das Substantiv Klaue im Plural kommt wesentlich seltener vor als das Verb klauen 4 . Die Frequenz lexikalischer Einheiten spielt also bei der Interpretation eine Rolle, indem dem menschlichen Benutzer mögliche, aber unwahrscheinliche Interpretationen gar nicht erst „in den Sinn kommen“. 4 Und vermutlich sagt uns unser Weltwissen, dass Menschen keine Klauen haben und sich solche normalerweise auch nicht wünschen, dass sie aber leider häufiger mit der Tätigkeit des Stehlens zu tun haben. 2 Frequenzinformationen in Printwörterbüchern Im Gegensatz zu literaturwissenschaftlichen Studien und quantitativer Linguistik hat die traditionelle Lexikographie nicht viel von quantitativen lexikalischen Studien profitiert. Immerhin gibt es für einige Sprachen spezielle Frequenzwörterbücher 5 . Diese sind aber in der Regel schon über 30 Jahre alt und reflektieren damit nur sehr unzureichend das Bild des zeitgenössischen Wortschatzes dieser Sprachen. Da heutzutage große Korpora für die meisten Sprachen und Werkzeuge für die quantitative Analyse zur Verfügung stehen, muten gedruckte Frequenzwörterbücher heute anachronistisch an. Diese Wörterbücher sind jedoch Ausnahmen der allgemeinen Regel, dass traditionelle Lexikographen sich nicht um die Frequenzdistribution der lexikalischen Einheiten kümmern, die sie beschreiben. Dieser Aspekt des Wortschatzes wird aus gutem Grund ausgeblendet. Frequenzdaten sind nicht die Art Information, die ein Muttersprachler in einem einsprachigen Wörterbuch sucht. Es ist behauptet worden, dass Frequenzangaben in monolingualen Wörterbüchern von den Benutzern herangezogen werden, um auf die stilistische Wirkung dieser Wörter zu schließen (vgl. Schaeder (1982)). Diese Behauptung wurde jedoch nicht durch empirische Studien zur Wörterbuchbenutzung überprüft. Untersuchungen zum Verhalten von Wörterbuchbenutzern haben gezeigt, dass sie monolinguale Wörterbücher ihrer Muttersprache hauptsächlich dazu benutzen, um Informationen über Schreibung, Aussprache und Bedeutung seltener Wörter (oder über seltenere Bedeutungen häufiger lexikalischer Einheiten) zu erhalten. Es ist sehr viel wahrscheinlicher, dass sie diesen seltenen Wörtern/ Bedeutungen in Texten begegnen als dass sie die Wörter benutzen wollen. Somit brauchen sie die Hilfe des Referenzwerks, um Wissenslücken zu schließen. Daher verdienen die seltenen Phänomene mindestens so viel lexikographische Aufmerksamkeit wie die häufigen. Das Bild ändert sich jedoch, wenn Sprachlerner ins Spiel kommen. Diejenigen, die eine Sprache als Fremdsprache lernen, sind mit den Häufigkeitsaspekten des Wortschatzes dieser Sprache nicht vertraut, aus dem einfachen Grund, weil sie nicht so vielen natürlichen Äußerungen aus dieser Sprache ausgesetzt waren. Frequenzangaben verdienen daher mehr Aufmerksamkeit und Platz in den so genannten Lernerwörterbüchern. Die Wörterbücher dieses Typs, die für das Englische erstellt wurden, sind in dieser Hinsicht modellhaft. Wir werden uns daher einige Beispiele anschauen. Der Aspekt der Verwendungshäufigkeit kommt bei der Auswahl der lexikalischen Einheiten, die ins Wörterbuch aufgenommen werden sollen, ins 5 Z.B. für Deutsch: Kaeding (1963) und Ruoff (1990), für Französisch Juilland et al. (1970), für Englisch West (1953). Lexikalische Statistik 187 Spiel. Dies gilt besonders für Lernerwörterbücher, die eine im Verhältnis zu allgemeinsprachlichen Standardwörterbüchern beschränkte Makrostruktur aufweisen und einen klaren Fokus auf häufige Phänomene der Sprache setzen. Zumindest die englischen Lernerwörterbücher sind auf der Grundlage umfangreicher Korpusanalysen oder - wie die erste Ausgabe des Oxford Advanced Learner’s Dictionary of Current English (Hornby (1948)) - auf der Grundlage eines Frequenzwörterbuchs entstanden. Im Prinzip müsste dieselbe restriktive und damit häufigkeitsgestützte Lemmaselektion auch für nichtlemmatische Objekte, etwa Phraseme, angewandt werden. Verfahren zur Frequenzmessung von Kollokationen oder Phrasemen sind aber weniger ausgereift und kommen deshalb, wenn überhaupt, erst neuerdings ins Spiel (vgl. hierzu z.B. Evert (2005)). Bei der Selektion und Anordnung der semantischen Lesarten für ein Lemma spielt die Vorkommenshäufigkeit eine wichtige Rolle. Die häufigsten Bedeutungen eines Worts sollten zuerst präsentiert werden, Homonyme sollten gemäß ihrer Häufigkeit sortiert aufgelistet werden. Einige britische Lernerwörterbücher markieren die häufigsten Wörter der Sprache. Das Longman Dictionary of Current English benutzt dafür ein Markierungssystem mit drei Werten für drei Häufigkeitsgruppen in der gesprochenen Sprache (S1-S3) und drei Werte für die Häufigkeitsgruppen in der geschriebenen Sprache (W1-W3). Subtilere Frequenzerwägungen betreffen einige Merkmale der beschriebenen lexikalischen Einheiten. Beispielsweise könnte es Schreibalternativen geben, die ohne jegliche Bedeutungsänderung austauschbar sind. Sprachlerner sind dankbar, wenn sie zu der häufigsten, d.h. unmarkierten Form gelenkt werden (ein Beispiel ist der gleichzeitige Gebrauch von starken und schwachen Flexionsformen bei einigen deutschen Verben, z.B. backen, senden). Das Longman Dictionary of Current English, dritte Auflage 6 , markiert Frequenzunterschiede zwischen geschriebenem und gesprochenem Englisch. Hier werden für beide Modi die relativen Häufigkeiten des Vorkommens angegeben und graphisch in Form von Balkendiagrammen dargestellt. So kann der Unterschied zwischen der geschriebenen und gesprochenen Sprache auf einen Blick erfasst werden 7 . Außerdem werden nützliche Hinweise zu den Gebrauchshäufigkeiten von Quasi-Synonymen gegeben. Diese Informationen helfen dem Benutzer, das richtige Register und die richtige Alternative für die Sprachproduktion auszuwählen. Im Gegensatz zur ausführlichen Annotation von lexikalischen Einheiten in einigen Wörterbüchern des britischen Englisch sind die Frequenzangaben 6 Quirk (1995). 7 Wer sich dies einmal ansehen möchte, den verweisen wir z.B. auf das Stichwort bad in Quirk (1995). 188 Lexikalische Statistik in deutschen einsprachigen Wörterbüchern eher armselig. Schaeder (1982) gibt eine Liste von pragmatischen Markierungen, die die Gebrauchshäufigkeit einer lexikalischen Einheit anzeigen sollen (z.B. oft, meist, selten, häufig, gelegentlich, auch), kritisiert aber aus gutem Grund die Vagheit dieser Termini und die Inkonsistenz ihrer Anwendung in einigen einsprachigen Wörterbüchern. Der Gebrauchswert dieser Information ist mehr als zweifelhaft, insbesondere, da die meisten dieser Aussagen auf der Intuition der Lexikographen und nicht auf Korpusstudien beruhen. 3 Die Statistik von Häufigkeit und Verteilung Im folgenden Abschnitt werden wir einige Beispielstatistiken betrachten, die dabei helfen könnten, Informationen über Häufigkeit und Verteilung von lexikalischen Einheiten in Texten zu liefern und diese lexikalischen Einheiten damit näher zu bestimmen. Indizes von Texten und Textkorpora Die einfachste Frequenzdatenstruktur ist ein Index. Typischerweise listet ein Index alle Z EICHENKETTEN (englisch: ‚Strings‘) 8 auf, die in einem Text (Korpus) vorkommen, zusammen mit einer Zahl, die die Vorkommenshäufigkeit dieses Strings im Korpus angibt. Der Index-String ist ein so genannter T YPE und die Strings, die tatsächlich im Korpus vorkommen, werden T OKEN genannt. Mit anderen Worten: die String-Token werden gezählt, der String wird durch den String-Type repräsentiert und dieser Type wird mit der Tokenhäufigkeit versehen. Die Frequenz kann als Zahl der absoluten Vorkommen ( f w für ein Wort w ) oder der relativen Vorkommen ( f ( w ) N , wobei N die Gesamtzahl der Token im Korpus ist) dargestellt werden. Ein Index kann alphabetisch oder numerisch nach der Token-Häufigkeit sortiert werden. Die zweite Ordnungsart ist beispielsweise interessant für die Aufgabe der Lemmaselektion in der Lexikographie. Für diese Art von Index sind einige Verbesserungen vorgeschlagen worden: • Die Entfernung von „Nicht-Wörtern“ aus der Liste, d.h. von Strings, die offensichtlich keine Instanzen eines lexikalischen Zeichens sind. Solche Artefakte, die z.B. durch Worttrennung am Zeilenende ohne Trennstrich entstehen können, findet man z.B. relativ häufig in Zeitungskorpora oder Texten aus dem WWW. • Aufbau eines umgekehrten Index. In diesem Fall werden die Strings mit den letzten Buchstaben zuerst repräsentiert, zum Beispiel der String database als esabatad. Dies ist besonders nützlich für morphologische Untersuchungen: alle Strings mit demselben Suffix werden zusammen gruppiert. • Gruppierung von Wortformen unter ihrer gemeinsamen Basisform (dem L EMMA ) und das Zusammenzählen der Vorkommen all dieser Wortformen. Das Ergebnis ist im Wesentlichen ein L EMMAINDEX , der für lexi- 8 Unter einer Zeichenkette verstehen wir eine Folge von alphanumerischen Symbolen, die (noch) nicht semantisch interpretiert wurde. 190 Lexikalische Statistik kographische Zwecke nützlicher ist als ein Vollformenindex. Allerdings ist auch die Herstellung eines solchen Index aufwändiger. • Ausblenden von orthographischen Idiosynkrasien. Der willkürliche Gebrauch des Bindestrichs in einem Wort ist hierfür ein Beispiel. Beispielsweise würden hier die Strings data-base und database als Token desselben Typs (database) gezählt. • Rekonstruktion von lexikalischen Einheiten mit diskontinuierlichen Konstituenten. So sollte im Satz Er sah das nicht ein eine Instanz des Verbs einsah in den Index eingefügt werden und nicht ein Vorkommen von sah und eines von ein. • Aufbau eines n-Gramm-Index 9 , d.h. n-Gramme von Strings oder Graphemen werden aufgelistet und gezählt. Vieles kann unternommen werden, um die Qualität des Indexes zu verbessern, aber jeder Schritt setzt irgendeine Art der Vorverarbeitung des Rohtexts voraus, weshalb man zwischen der Qualität des Index und dem Aufwand seiner Generierung abwägen muss. In lexikographischen Anwendungen wird der Index häufig durch Konkordanzen ergänzt. Eine Konkordanz in ihrer einfachsten Form ist eine Liste von Textzeilen, in denen der Schlüsselbegriff von einem Kontext von z.B. 50 Buchstaben oder 10 Wörtern links und rechts umgeben ist. Da Konkordanzdaten nichts mit Wortfrequenzen zu tun haben, gehen wir hier nicht weiter ins Detail. Parametrisierte Indizes Parametrisierte Indizes sind Indizes, bei denen entweder die Liste der Indexmitglieder auf Strings beschränkt ist, die ein bestimmtes Kriterium erfüllen oder bei denen kategoriale Informationen zu den bloßen quantitativen Angaben hinzugefügt werden. Illustrieren wir dies anhand von ein paar Beispielen: • In Ruoffs Häufigkeitswörterbuch gesprochener Sprache 10 sind die Indizes nach der Wortart der Wörter angeordnet. Es gibt separate Indizes für Nomen, Verben, Adjektive usw. Mit anderen Worten: Ein Type wird nicht als bloßer String aufgelistet, sondern als Wort mit morpho-syntaktischer Funktion. Die Vorbereitung eines solchen Indexes setzt die manuelle oder automatische Kategorisierung jedes einzelnen Worts voraus. Zum Glück ist die Kategorisierung von Wörtern gemäß ihrer Wortart, also Part-of- Speech-Tagging, heutzutage eine hinreichend gut funktionierende Technik. 9 Ein n-Gramm ist eine Folge von n linguistischen Elementen des gleichen Typs. Ein Trigramm von Graphemen z.B. ist eine Folge von drei Graphemen. 10 Vgl. Ruoff (1990). Lexikalische Statistik 191 • Ein sehr spezieller Index wäre ein Index aller Konjunktionen mit ihren Positionen im Satz im Sinne von [+/ - satzinitial]. Einige der Konjunktionen, z.B. sonst, können zumindest im Deutschen beide Positionen einnehmen. Einige Grammatiken machen eine Unterscheidung zwischen Konjunktionen und Konjunktionaladverbien, um den Unterschied widerzuspiegeln. Für NLP-Anwendungen könnte es dennoch nützlich sein, wenn die quantitativen Beziehungen zwischen diesen beiden Typen bekannt wären (Beispiele für diese Klasse von lexikalischen Einheiten sind allerdings, jedoch). Der Gebrauch von parametrisierten Indizes oder, anders gesehen, von Statistiken über die Frequenz und Verteilung von Wörtern einer bestimmten lexikalischen Kategorie, wäre sehr hilfreich für NLP-Anwendungen. Die folgenden Beispiele sollen dies belegen: • der String einen ist mit größerer Wahrscheinlichkeit eine Form des indefiniten Artikels als ein Numeral oder eine Verbform, • der String kosten ist mit größerer Wahrscheinlichkeit eine Wortform der lexikalischen Einheit kosten statt eine Form der lexikalischen Einheit kosen. Die Summe der quantitativen Information, die man aus einem Textkorpus gewinnt, wird S PRACHMODELL genannt. Die lexikalische Ebene ist nur ein Teil hiervon, andere Teile könnten sich zum Beispiel mit der syntaktischen Struktur eines gegebenen Satzes usw. befassen. Das Sprachmodell hängt stark von dem Textkorpus, aus dem es abgeleitet wurde, ab, und es ist eine der schwierigen Aufgaben der Sprachstatistik, das Modell über diese Daten hinaus zu generalisieren. Eine Technik, die hierfür benutzt wird, nennt sich E XPECTA - TION M AXIMISATION , aber diese liegt außerhalb des Skopus dieses Buches. 4 Morphologische Produktivität 4.1 Einleitung In diesem Abschnitt werden wir morphologische Produktivität als einen Aspekt der lexikalischen Statistik betrachten, der Auswirkungen sowohl auf traditionelle als auch auf computationelle Wörterbücher hat. Der Begriff P RODUKTIVITÄT bezieht sich auf das Potenzial von Morphemen, insbesondere Affixen, an Neuwortbildungen teilzunehmen. Morpheme, die in vielen neuen Wörtern gefunden werden, nennt man hochproduktiv. Es lohnt sich, ihr Verhalten zu untersuchen und sie als lexikalische Einheiten in Wörterbücher aufzunehmen. Morpheme, die selten oder nie bei der Wortbildung vorkommen, können vernachlässigt werden. Es ist jedoch sinnvoll, diejenigen Wörter ins Wörterbuch aufzunehmen, die mit ihrer Hilfe gebildet wurden, da sie für den Sprecher der Gegenwartssprache vielleicht nicht mehr transparent sind. Wir werden im Folgenden Beispiele beider Kategorien sehen. 4.2 Textprogression und Wortschatzentwicklung Sprachbenutzer neigen dazu, neue Wörter zu prägen, und sie werden damit nicht aufhören, solange sie die Sprache benutzen. Wir können daher erwarten und erfahren täglich, dass wir auf Wörter treffen, die uns bisher unbekannt waren. Die Wortwarte 11 ist eine seit September 2000 täglich aktualisierte und auf Zeitungstexten basierende Sammlung von neuen Wörtern des Deutschen. Sie umfasst mittlerweile über 25 000 Wörter. Die Beobachtung, dass der Wortschatz einer Sprache täglich wächst, kann auch formaler ausgedrückt werden. Sei • N die Anzahl der laufenden Wörter (Tokens) im Text (Korpus), • V die Menge der Worttypen (der Wortschatz) im Korpus, • w i ein bestimmter Worttyp, • f ( w i ) die Vorkommensfrequenz des Worttyps w i im Korpus und • r der R ANG eines Worttyps gemäß seiner Vorkommenshäufigkeit: das Wort bzw. die Wörter, die am häufigsten vorkommen, belegen Rang 1, die zweithäufigsten Wörter belegen Rang 2 usw. Wörter, die gleich häufig vorkommen, bilden eine Menge. Jedes Element dieser Menge belegt den gleichen Rangplatz. Die Anordnung dieser Wörter ist willkürlich. Wir illustrieren die Beziehung zwischen Text und Wortschatz und die Beziehung zwischen Textprogression und Wortschatzentwicklung durch ein Beispiel aus Harald Baayens (vgl. Baayen (2001)) Arbeit zur Wort-Frequenz- Distribution. Baayen nahm den Roman Alice in Wonderland als Beispieltext 11 S. www.wortwarte.de . Lexikalische Statistik 193 für seine statistischen Beobachtungen. Die Länge des Romans ( N ) beträgt 26 505 laufende Token. Wie wir sehen werden, unterteilt Baayen das Korpus in fünf Teile von ungefähr 5000 laufenden Wörtern, um die Wortschatzentwicklung bei wachsender Korpusgröße darzustellen. Tabelle 1 zeigt einen Teil der Wortfrequenzliste aus Alice in Wonderland; i ist ein numerischer Index; w i ist das Wort an dieser Indexposition - die Liste ist alphabetisch nach dieser Spalte sortiert; f ( i, 26505) ist die Häufigkeit, mit der dieses Wort im Text vorkommt. i w i f(i,26505) 1 a 629 2 alice 386 3 alice’s 12 4 and 866 5 bank 3 6 beginning 14 7 book 7 8 but 170 9 buy 57 10 conversation 10 11 conversations 1 12 do 81 13 get 46 14 had 177 15 having 10 16 her 247 17 in 365 18 into 67 19 is 108 20 it 528 ... ... ... Tabelle 1: Ausschnitt einer Wortfrequenzliste für den Text Alice in Wonderland, entnommen Baayen (2001) Die Beobachtungen, die man anhand dieser Tabelle machen kann, sind an sich nicht besonders interessant, aber im Hinblick auf unsere Aufgabe kann man sich vorstellen, dass man leicht eine Liste von Wörtern mit einem bestimmten Muster ableiten und damit ein Profil der Häufigkeiten dieser Wörter in einem gegebenen Text (Korpus) erhalten kann; z.B. eine Liste von Wörtern, die auf -able oder -ible enden. Je größer das Korpus ist, umso interessanter werden die daraus abgeleiteten Listen. Tabelle 2 aus derselben Quelle zeigt einen Index von Worthäufigkeiten m , numerisch sortiert und in umgekehrter Reihenfolge angeordnet. Dies ist das 194 Lexikalische Statistik so genannte Frequenzspektrum des Texts. Für jeden Frequenzwert m wird die Anzahl der Wörter angegeben, die mit dieser Häufigkeit im Text vorkommen (die V m , N -Spalte). Das Ergebnis ist nicht überraschend: Es gibt viele Wörter, die nur einmal im Text vorkommen, und wenige, die mit einer hohen Frequenz vorkommen. Baayen nennt Ersteres LARGE NUMBER OF RARE EVENTS (LNRE), was eine ziemlich ungewöhnliche Eigenschaft für P OPULATIONEN ist, die statistisch erfasst werden. m V(m,N) 1 1176 2 402 3 233 4 154 5 99 6 57 7 65 8 52 9 32 10 36 ... ... 510 1 528 1 540 1 629 1 726 1 866 1 1631 1 Tabelle 2: Frequenzspektrum für Alice in Wonderland Dies ist der statistische Aspekt in der Beziehung zwischen einem Text und seinem Wortschatz. Bisher haben wir nur einen „Schnappschuss“, d.h. einen gegebenen Text mit ca. 26 500 laufenden Wörtern, und die Wortfrequenzdistributionen darin betrachtet. Wenn wir jeder Frequenzkohorte einen Rang geben, d.h. dem Wort, das 1631 Mal vorkommt, den Rang 1, dem Wort, das 866 Mal vorkommt, den Rang 2 und so weiter, und den 1176 Wörtern, die nur einmal im Text vorkommen (den Hapax Legomena), die höchsten Ränge (s. Tabelle 3, in der ein Teil dieser Liste wiedergegeben ist), so können wir eine vereinfachte Version von Zipfs Gesetz formulieren: „Die Vorkommenshäufigkeit eines Worts (bzw. der Logarithmus dieses Werts) in einem Text ist invers zu seiner Rangzahl (bzw. dem Logarithmus dieses Werts).“ 12 12 Für eine präzisere Beschreibung und weitere Details siehe Baayen (2001), S. 13-24. Lexikalische Statistik 195 z f z (z, N ) word 1 1611 the 2 866 and 3 726 to 4 629 a 5 540 she 6 528 it 7 510 of 8 460 said 9 410 I 10 386 Alice ... ... ... Tabelle 3: Teil einer Wortfrequenzliste, die aus Alice in Wonderland abgeleitet und nach Frequenz geordnet ist Kommen wir nun zum dynamischen Aspekt der Beziehung zwischen Text und Wortschatz, d.h. dem Verhältnis zwischen Textprogression und Wortschatzentwicklung. Die Graphik in Abb. 57 zeigt, dass der Anteil der Hapax Legomena im Wortschatz eines Textes abnimmt, wenn die Größe des Texts, gemessen an der Anzahl der laufenden Wörter, zunimmt. Evert und Lüdeling machten (in einem unveröffentlichten Aufsatz) dieselbe Beobachtung. Der Anteil der Hapax Legomena in einem Beispieltext mit 229 laufenden Wörtern beträgt ca. 65%, wohingegen das Verhältnis der Hapax Legomena in einem Kontrollkorpus von ca. 36 Millionen laufenden Wörtern bei etwa 57% liegt, wobei auch dies immer noch ein großer Anteil ist. Der abnehmende Anteil von Hapax Legomena bei steigender Textgröße ist nur ein Aspekt der Textprogression. Der relevantere Aspekt ist, dass die absolute Zahl der Wortschatzelemente (Worttypen) stetig mit der Zunahme der Textkorpusgröße steigt. Abb. 58, wiederum aus Baayens Buch, zeigt dies anhand des ca. 100 Millionen Token umfassenden British National Corpus. Das Diagramm zeigt die erwartete Wortschatzgröße bei unterschiedlichen Korpustextgrößen (große Punkte). 4.3 Eine Anwendung aus dem Bereich der Morphologie Eine eigene Studie Wir werden in Kapitel 9 zeigen, dass die meisten neuen Wörter aus bestehenden Elementen gebildet werden, nämlich aus Stämmen und Affixen. Die Bildung eines neuen Worts durch Kombination eines möglicherweise komplexen Stamms mit einem Affix nennt man D ERIVATION . 196 Lexikalische Statistik Abbildung 57: Abhängigkeit des Anteils der Hapax Legomena von der Korpusgröße Einige Affixe werden sehr häufig für die Bildung neuer Wörter verwendet. Diese Affixe nennt man PRODUKTIV . Beispiele für das Deutsche sind die Affixe -bar und -los. Andere Affixe werden selten für die Neuwortbildung benutzt. Diese nennt man UNPRODUKTIV . Ein Beispiel für das Deutsche ist das Suffix -sam. Wir erwarten, dass Wortformen, die mithilfe von produktiven Affixen gebildet werden, eine relativ hohe Wachstumsrate mit zunehmender Textgröße zeigen im Vergleich zu Wörtern, die mit unproduktiven Affixen gebildet werden. Wir wollen nun überprüfen, ob sich diese Intuition an deutschen Korpusdaten bestätigen lässt. Wir simulierten die Zunahme der Textgröße durch zwei deutsche Textkorpora: • Das Mannheimer Korpus (MK1), das vom Institut für Deutsche Sprache bereitgestellt wird; mit ca. 10 Millionen laufenden Wörtern. • Das taz Korpus - 20 Jahrgänge die tageszeitung, am Seminar für Sprachwissenschaft der Universität Tübingen aufbereitet, mit etwa 200 Millionen laufenden Wörtern. Lexikalische Statistik 197 Abbildung 58: (Erwartete) Wortschatzzunahme auf der Grundlage des British National Corpus In einem einfachen Extraktionsprozess wurden alle Adjektive, die auf -bar, -sam, -los enden, extrahiert, zunächst vom MK1 Korpus allein, danach von beiden Korpora zusammen. Wir beobachten die folgenden Wachstumsraten ( f M K 1 → f M K 1+ taz ): • Für -bar: 249 → 2041 • Für -los: 222 → 1332 • Für -sam: 59 → 322 Erstaunlicherweise gibt es keinen klaren Unterschied in der Wachstumskurve, wenn man bedenkt, dass die Kurve auf einem niederen Niveau für -sam, auf einem mittleren Level für -los und auf einer etwas höheren Ebene für -bar beginnt. Ein weiterer interessanter Parameter könnte die Proportion der Hapax Legomena sein, gemessen sowohl bezüglich MK1 als auch bezüglich des kombinierten Korpus. • Für -bar: 43,78 % vs. 40,18 % 198 Lexikalische Statistik • Für -los: 40,54 % vs. 48,57 % • Für -sam: 30,5 % vs. 49,06 % Es gibt wiederum keine klare Tendenz in den Daten. Beispielsweise gibt es einen beachtlich hohen Anteil an Hapax Legomena mit dem Affix -sam. Dies verlangt nach einer qualitativen Analyse. Diese Analyse ergab Folgendes: Es gibt viele Hapax Legomena mit dem Affix -sam, die gebildet werden, indem ein bereits existierendes -sam-Wort als Stamm verwendet wird, z.B. bühnenwirksam, medienwirksam, lakonisch-bedeutsam. Dennoch gibt es einige echte Ausnahmen, die unser Interesse als Lexikographen auf sich ziehen, z.B. anratsam, lachsam. Dagegen findet man mit -los wesentlich mehr echte Derivationen, z.B. abstandslos, adjektivlos, zugangslos. Wir wollen im Folgenden noch einen weiteren, von Stefan Evert und Anke Lüdeling gewählten Ansatz für die Bestimmung von morphologischer Produktivität betrachten. Eine weitere Studie zu qualitativ-quantitativen Aspekten der Wortbildung In jüngster Zeit ist in verstärktem Maße die Produktivität von Wortbildungselementen, wie z.B. dem Suffix -bar, untersucht worden. Die Produktivität in der Wortbildung hat einen qualitativen und einen quantitativen Aspekt. Beide erfordern unterschiedliche Analysemethoden. Zwar steht in diesem Kapitel der quantitativ-statistische Aspekt im Mittelpunkt der Betrachtung, wir haben aber am Beispiel unserer eigenen Studie gesehen, dass sich beide Aspekte nicht so einfach trennen lassen. • Ein qualitativer Aspekt der Wortbildung hängt mit der Menge der Elemente, mit denen ein bestimmtes Morphem kombiniert werden kann, zusammen. So ist z.B. der Anwendungsbereich des Suffixes -bar auf verbale Basen beschränkt, und hier fast ausschließlich auf die transitiven Verben. Das Suffix -sam hingegen tritt zusammen mit verbalen Basen (arbeitsam) und mit adjektivischen Basen (selt-sam) auf. Der Anwendungsbereich von -bar und damit die Menge der hiermit bildbaren Wörter ist also beschränkter als der Anwendungsbereich von -sam. • Der quantitative Aspekt der Wortbildung kann informell beschrieben werden als die Wahrscheinlichkeit, mit der man auf ein mit einem bestimmten Morphem gebildetes neues Wort trifft, nachdem man bereits eine bestimmte Anzahl von Wörtern beobachtet hat. In einer anderen Sichtweise wird der Produktivitätsindex bestimmt von der relativen Anzahl der Wörter, die bisher nur einmal in den beobachteten Daten auftauchten 13 . In 13 Eine formale Beschreibung dieses als ‚Vocabulary Growth Curve‘ bezeichneten Phänomens gibt Baayen (2001). Lexikalische Statistik 199 dieser Interpretation wird man nach Analyse eines Korpus der deutschen Gegenwartssprache feststellen, dass das Suffix -bar relativ produktiv ist. Lüdeling und Evert 14 untersuchen den quantitativen Aspekt der Produktivität des Suffixes -lich. Sie verwenden hierfür ein Zeitungskorpus von ca. 3 Millionen laufenden Wörtern. Die Analyse der Klasse aller mit -lich gebildeten Wörter ergibt ein ziemlich unscharfes Bild. Die Analyse wird aber präziser, nachdem die Autoren vier verschiedene Klassen gebildet haben: a) -lich mit adjektivischer Basis (grün-lich), b) -lich mit verbaler Basis (z.B. vergesslich), c) -lich mit nominaler Basis (z.B. ärzt-lich) und d) -lich mit phrasaler Basis (z.B. vorweihnacht-lich). Die Kombination des Suffixes mit nominaler Basis ist sehr produktiv, die Kombination mit verbaler Basis hingegen unproduktiv. Für die beiden anderen Bildungsmuster ist die Datenmenge zu gering für eine ausreichend genaue Bewertung. Die Autoren zeigen weiterhin, dass es auch unter den Nomen herausragend produktive Stämme gibt (z.B. Xgeschicht-lich), die eine weitere Klassifizierung der Nomen nahelegen. Wie man an diesem Beispiel sieht, kann die qualitative Analyse von der quantitativen Analyse profitieren, ist aber für ein ausreichend detailliertes Bild von der Produktivität von Wortbildungselementen unerlässlich. Anke Lüdeling, Stefan Evert und Ulrich Heid 15 zeigen aber auch, dass der automatischen Analyse von Korpora im Hinblick auf Anzahl und Häufigkeit von Wortbildungsmustern Grenzen gesetzt sind. Dies hängt mit der Fehleranfälligkeit der Analysemöglichkeiten zusammen, die eine manuelle Durchsicht der Daten beim heutigen Stand der Technik erforderlich machen. Was können wir aus diesen einfachen Experimenten lernen? Erstens ist eine rein quantitative Betrachtung der Daten nicht angemessen. Man muss z.B. alle Wörter ausfiltern, die wahrscheinlich durch Komposition entstanden sind. Dies ist jedoch keine triviale Aufgabe und bietet sich nur bedingt für eine Automatisierung an. Zweitens sollte die Untersuchung gerade zum Verhältnis von Korpusgröße und Wortschatzentwicklung auf einer ausreichenden Menge von Datenpunkten beruhen. Welche Menge dabei ausreichend ist, muss empirisch bestimmt werden. Man kann bei zu wenigen Beobachtungen nicht sagen, welche gemessenen Proportionswerte mit der allgemeinen Wachstumskurve übereinstimmen und welche nicht. Wir haben auch gesehen, dass -los und -bar zwei produktive Affixe sind, die selbst als lexikalische Einheiten behandelt werden sollten. Wir haben ebenfalls herausgefunden, dass das Affix -sam trotz seiner prinzipiellen Unproduktivität einige Derivationen bildet, für die eine Aufnahme ins Lexikon 14 Lüdeling und Evert (2003). 15 Vgl. Lüdeling et al. (2000) und Evert und Lüdeling (2001). 200 Lexikalische Statistik sich ggf. lohnen könnte. Bei Produktivität geht es nicht nach dem „Ja“ oder „Nein“, sondern nach dem „Mehr“ oder „Weniger“. Für eine qualitativ-quantitative Untersuchung kann es sehr hilfreich sein, die derivierten Wörter nach Eigenschaften der Derivationsbasis zu klassifizieren. Auf diese Weise können präzisere Aussagen zur Produktivität der Wortbildungselemente hinsichtlich verschiedener Bildungsmuster getroffen werden. Die Darstellung dieser Verhältnisse gehört zu einer vollständigen lexikographischen Beschreibung von Wortbildungselementen. 5 Weiterführende Literatur Eine gute, wenn auch sehr anspruchsvolle Lektüre ist das Buch von Harald Baayen zu Word Frequency Distributions (2001). Wenn man erst einmal sicheren statistischen Boden unter die Füße bekommen will, dann sollte man es zunächst mit dem „linguists guide to statistics“ von Brigitte Krenn probieren (s. www.essex.ac.uk/ linguistics/ clmt/ papers/ stats/ KrennSamuelson.ps ) oder auch mit der Einführung von M.P. Oakes (1998). Von der lexikographischen Warte aus betrachtet Schaeder das Frequenzproblem (s. Schaeder (1982) und Schaeder (1989)). 6 Aufgabe 1. Schätzen Sie für die folgenden Wörter, ob sie sehr selten (Vorkommen in einem großen Zeitungskorpus: < 10), gelegentlich (10-100 Vorkommen), normal häufig (100-1000), häufig (1000-10000) oder sehr häufig (> 10000) vorkommen. Begründen Sie Ihre Annahmen. Bruder, Schwester, Messer, Gabel, Löffel, holzschnittartig, gutartig, Stuhl, Bürostuhl, Sessel, Pflanze, Blume, Rose, Heckenrose, auseinanderfalten, auseinanderlegen, auseinandersetzen Vergleichen Sie Ihre Intuitionen mit den Frequenzdaten der Wortlisten, die wir auf der unser Buch begleitenden Webseite für Sie bereitgestellt haben. 9 Morphologie für die Computerlexikographie In diesem Kapitel lernen Sie die Grundbegriffe der Morphologie kennen, die Sie im Kontext der Computerlexikographie benötigen. Sie erfahren, wie morphologische Angaben und Zusammenhänge in Wörterbüchern kodiert werden. Schließlich lernen Sie mit GERTWOL ein Werkzeug zur automatischen morphologischen Analyse von komplexen Wortformen kennen. 1 Einleitung Die morphologische Analyse von Wortformen ist für ein Unterfangen wie die textbasierte Computerlexikographie aus zwei Gründen von besonderer Bedeutung: 1. Lexikalische Einheiten treten in Texten als Wortformen auf, die für morphosyntaktische Kategorien wie Person, Kasus, Numerus etc. markiert sind. Die Markierung erfolgt im Deutschen durch die Verbindung von Wortstämmen mit Flexiven und/ oder durch die Veränderung der Wortstämme selbst (durch Umlaut oder Ablaut). Das bedeutet andersherum, dass man, wenn man eine Wortform im Text einer Einheit im Lexikon zuordnen möchte, diese Veränderungen an der Wortform rückgängig machen muss, um zur lexikalisch relevanten Grundform zu gelangen. Man spricht bei diesem Prozess von L EMMATISIERUNG . Die Markierung morphosyntaktischer Merkmale an lexikalischen Einheiten wird in der F LE - XIONSMORPHOLOGIE beschrieben. 2. In jedem neuen Text finden sich Wörter, die im Wörterbuch noch nicht verzeichnet sind. Da dies mit der Produktivität der Sprache und insbesondere des lexikalischen Systems zu tun hat, ist dies kein Problem, das sich durch die Vergrößerung der lexikalischen Basis lösen ließe. Jedes Wörterbuch ist in Bezug auf die Menge der möglichen lexikalischen Zeichen einer Sprache unvollständig. Wenn wir aber die Prozesse verstehen, die zur Bildung neuer Wörter führen, dann können wir diese neuen Wörter oft auf bekannte lexikalische Einheiten zurückführen. Die Konstruktion neuer lexikalischer Zeichen aus elementaren Einheiten wird in der W ORT - 202 Morphologie für die Computerlexikographie BILDUNG beschrieben. Hier spielen die Prozesse der D ERIVATION und der K OMPOSITION eine wichtige Rolle. Hiermit haben wir auch die wichtigsten Gegenstände oder Teilgebiete der linguistischen Morphologie benannt. Wir werden hier keine Einführung in die linguistische Morphologie geben, sondern beschränken uns auf die für uns relevanten Aufgaben der Suche im Wörterbuch und der Lexikonerweiterung. Eine gute Einführung in das generelle Gebiet der Morphologie geben Bergenholtz und Mugdan (1979) sowie, für die Wortbildung, Motsch (1999). 2 Einige grundlegende Begriffe Zunächst wollen wir einige für dieses Kapitel zentrale Begriffe einführen: • Ein T OKEN ist eine Zeichenkette in einem Text. Diese Zeichenkette kann in den meisten Fällen als T EXTWORT interpretiert werden. Davon zu unterscheiden sind die sog. N ICHT -W ÖRTER , die das Ergebnis von Schreibfehlern, fehlerhaften Trennungen, irrtümlich gesetzten oder nicht entfernten Steuerzeichen etc. sind. • Ein T YPE ist ein Repräsentant einer Menge von Token, die gleich sind oder ähnlich genug, dass man sie zu einer Klasse zusammenfassen kann. Nach dieser Definition besteht der Satz (1) Weil sie so rasten, mussten sie oft rasten. aus 8 Token (oder 10, wenn man die beiden Interpunktionszeichen mitzählt), die üblicherweise zu 6 (8) Types zusammengefasst werden: Weil, sie, so, rasten, mussten, oft, (,),(.). • Ein M ORPHEM ist die kleinste bedeutungstragende Einheit und als solche der kleinste Bestandteil lexikalischer Zeichen, dem eine eigenständige Funktion zugeschrieben werden kann. Morpheme sind systematische Abstraktionen über den real in Wörtern auftretenden Bestandteilen, den Morphen. • Ein M ORPH ist ein Bestandteil eines Wortes, welches einem Morphem zugeordnet werden kann. So sind die Zeichenketten s (in: Garten-s) und en (in: Soldat-en) Morphe, die das Morphem / Genitiv Singular/ realisieren. Die Zeichenkette ung hingegen realisiert in Sprung kein Morphem, sondern ist unselbständiger Bestandteil des Wortstamms. • Ein S TAMM -M ORPHEM oder Wortstamm ist das zentrale, bedeutungstragende Element eines Wortes. Ein Wort muss mindestens einen Wortstamm aufweisen. So ist seh Stamm von sehen, ansehnlich, Fernseher etc. Wortstämme kann man nach ihrer primären Wortklasse in Nominalstämme, Verbalstämme, Adjektivstämme usw. aufteilen. Mehrere Wortstämme können zu einem Kompositum verbunden werden. Ein oder mehrere Wortstämme bilden den W ORTKERN . • Ein D ERIVATIONSMORPHEM oder Affix ist ein Morphem, das zu einem Stamm hinzutreten kann und diesen Stamm sowohl in Hinblick auf die morphosyntaktische Klasse (Wortart) als auch in Hinblick auf die Bedeutung systematisch verändern kann. So tritt das Suffix -bar an Verbalstämme, verändert die Wortklasse zu Adjektiv und fügt der Bedeutung des Verbalstamms die Modalität des „Möglichseins“ hinzu. • Ein F LEXIONSMORPHEM tritt zu einem Stamm, einem Kompositum oder einem derivierten Wort und markiert die morphosyntaktische Kategorie 204 Morphologie für die Computerlexikographie dieses sprachlichen Zeichens. Mehrere Flexionsmorpheme können zusammen auftreten und z.B. bei Verben Tempus, Numerus und Person markieren (mach-t-est). • Ein F UGENELEMENT kann, meist aus lautlichen Gründen, zwischen zwei Stamm-Morpheme treten. Die Fugenmorphe des Deutschen sind zwar in der Form mit Flexiven des Deutschen identisch, nicht jedoch in ihrer Distribution. So ist z.B. das -s in Arbeit-s-amt kein Genitivmorphem. • Die G RUNDFORM einer lexikalischen Einheit ist die Form, unter der diese lexikalische Einheit im Wörterbuch verzeichnet wird. Diese Form wird auch Z ITIERFORM genannt. Es gibt wortarten- und sprachspezifische Konventionen für die Bildung der Grundform einer lexikalischen Einheit. Die Grundform kann mit dem Wortstamm zusammenfallen (z.B. rot), kann aber ebenso über den Stamm hinausgehen (Stamm: seh; Grundform: sehen). 3 Eine morphologische Wortgrammatik Ebenso wie Phrasen in Sätzen weisen die Bestandteile komplexer Wörter Stellungsregularitäten und gegenseitige Abhängigkeiten auf, so dass die gelegentlich verwendete Redeweise von einer Wortsyntax und deren Regelsystem, der W ORTGRAMMATIK , durchaus sinnvoll ist. • Man kann Bedingungen oder Beschränkungen für die Aufeinanderfolge der verschiedenen Arten von Morphemen (Stamm, Affix, Flexiv) beschreiben, die zu einer kanonischen Wortstruktur führen. So stehen Flexive im Deutschen immer am Ende eines Wortes, also nach den Stämmen und den Suffixen. Man kann für ein einfaches deutsches Wort mit einer Kernstruktur folgendes reguläre Muster angeben: (2) PRÄ* STAMM [FUGE? STAMM]* SUFF* FLEX* PRÄ = Präfix, STAMM = Stammmorphem, FUGE = Fugenelement, SUFF = Suffix, FLEX = Flexiv; der Stern wird, wie in regulären Ausdrücken üblich, dazu verwendet, um das markierte Element als optional und beliebig oft iterierbar zu kennzeichnen. Das beliebig ist allerdings eine theoretische Option, man wird wenige Wörter mit mehr als zwei Präfixen oder mehr als vier Stämmen finden. Instanzen dieses Strukturmusters sind: (3) ver-un-treu-en, Un-wäg-bar-keit, Arbeit-s-amt-s-statistik-en Aus Wörtern mit einfachem Kern lassen sich wiederum komplexe Wörter mit mehreren Kernstrukturen bilden (evtl. mit Fugenmorphem): (4) Ver-legen-heit + Lös-ung -> Ver-legen-heit-s-lös-ung • Zwischen Morphemen verschiedener Klassen bestehen Beziehungen der Rektion oder der Subkategorisierung, wie man sie auch ähnlich in der Syntax findet. So subsumiert das Suffix -bar ausschließlich verbale Stämme und führt, wie viele Suffixe, eine Änderung der Wortart, hier in Richtung Adjektiv, herbei. • Für die morphologische Analyse von großer Bedeutung ist die RIGHT HAND HEAD RULE . Diese von Williams (vgl. Williams (1981)) formulierte Regel besagt, dass in morphologisch komplexen Wörtern das am weitesten rechts auftretende Element der Head (Kopf) dieses Wortes ist, d.h. dass dieses Element alle Merkmale, deren Ausprägung auf der entsprechenden morphologischen Ebene festgelegt werden, determiniert. Um also die Merkmalsausprägungen eines Phantasiewortes wie Wrxlbarkeit bestimmen zu können, muss man das am weitesten rechts stehende Element identifizieren. Da dies (vermutlich) das Suffix -keit ist, kann ich dieses 206 Morphologie für die Computerlexikographie Wort lexikalisch beschreiben als ein Substantiv mit dem Genus Femininum und einer bestimmten Flexionsklasse. Das Flexiv -en (Wrxlbarkeiten) würde das Wort weiter für einen Numerus und einen bzw. mehrere Kasus spezifizieren. Dies alles kann man wohlgemerkt über diese Wortform(en) aussagen, ohne etwas über die Bedeutung des Stammes (wrxl) zu wissen. Wenn wir Informationen über die Rektionseigenschaften des Suffixes -bar hinzuziehen, können wir den unbekannten Stamm weiter als Verbalstamm klassifizieren und von der Existenz eines Verbs wrxln ausgehen. Es ist bei der (teil)automatischen Analyse unbekannter Wörter in Texten deshalb üblich, rechts zu beginnen und - meist nach dem Verfahren des LONGEST MATCH - Flexive und Suffixe zu identifizieren, die ja in der Regel einer geschlossenen Klasse bekannter Elemente entstammen, danach von links nach Präfixen zu suchen und für den Rest die Hypothese aufzustellen, dass es sich um den Stamm des Wortes handelt. 4 Morphologische Analyse 4.1 Flexionsmorphologische Analyse Wie oben bereits erwähnt, bilden die Flexive den rechten Rand von Wörtern. Es gibt sehr wenige Ausnahmen, in denen ein Flexiv im Wortinneren stehen kann (eine Loseblattsammlung → einer Lose-n-blatt-sammlung). Flexive determinieren die Merkmale eines Wortes, die dessen Kongruenz mit anderen Wörtern z.B. in einer Nominalphrase oder einer Verbalphrase herstellen (Kasus, Numerus, Tempus, Person etc.). Das System der Flexionsmorpheme ist dabei das wichtigste Mittel. Darüber hinaus kennt das Deutsche die Markierung von morphosyntaktischen Merkmalen durch Umlautung (z.B. Bogen - Bögen) oder Ablautung des Stammes (z.B. schwimmen - schwammen). Das Inventar der Flexive ist im Deutschen relativ klein und umfasst lediglich einige Dutzend Elemente. Diese Elemente kann man zu Gruppen zusammenfassen, je nach der grammatischen Funktion, die sie markieren. Bei der morphologischen Analyse, speziell der Erkennung von Flexionsmorphemen, begegnen (teil)automatische Verfahren zwei Arten von Ambiguität: 1. Eine Zeichenkette wie z.B. -en kann entweder Teil eines Wortstamms oder Instanz eines Flexionsmorphems sein. Die Wortform Rahmen ist so interpretierbar als eine Instanz des lexikalischen Zeichens / Rahm/ (mit Flexionsendung) oder als Instanz des lexikalischen Zeichens / Rahmen/ (ohne Flexionsendung). Diese Art der Ambiguität verschlechtert das Ergebnis einer Lemmatisierung, wenn man nicht die Angabe von mehreren möglichen Lemmata zu einer Vollform in Kauf nehmen möchte. Eine Möglichkeit der Disambiguierung ist es, statistische Verfahren anzuwenden und konkret die im gegebenen Kontext wahrscheinlichere Grundform auszuwählen. 2. Die Flexive selbst sind hinsichtlich ihrer Funktion mehrdeutig. So kann die Zeichenkette -en, an einen verbalen Stamm angehängt, diesen verbalen Stamm als Infinitivform oder als erste oder dritte Person Plural des Präsens ausweisen. Diese Form der Ambiguität stellt dann ein Problem dar, wenn solche oder davon abgeleitete Merkmale an einer konkreten Instanz, also einem verbalen Textwort, markiert werden sollen. Dies geschieht z.B. beim Part-of-speech-Tagging, wo gemeinhin eine Unterscheidung zwischen infiniter und finiter Verbform getroffen werden muss. Auch in diesem Fall wird in der Regel mit statistischen Verfahren gearbeitet und die in einem gegebenen Kontext wahrscheinlichere Merkmalsausprägung ausgewählt. 208 Morphologie für die Computerlexikographie 4.2 Derivationsmorphologische Analyse Ebenso wie bei den Flexionsmorphemen handelt es sich bei dem Kern der Derivationsmorpheme um eine relativ stabile, überschaubare Menge von Elementen. Den größten Anteil bilden die Suffixe, daneben gibt es einige wenige Präfixe. In der deutschen Derivationsmorphologie gibt es keine Infixe. Die Menge der Derivationsmorpheme ist allerdings zu den Stamm-Morphemen hin offen. Es gibt eine Zwischenklasse, die man A FFIXOIDE oder K ONFIXE nennt 1 . Unter einem Konfix wird ein Wortbildungselement mit lexikalischbegrifflicher Bedeutung verstanden, das nicht wortfähig ist, sondern nur in Kombination mit anderen Morphemen auftreten kann; entweder nur als Derivationsbasis (fanat-) oder nur als Erstbzw. Zweitglied in Komposita (bio-, -naut, -thek) oder sowohl als Basis als auch als Kompositionsglied (therm). (Müller (1998), S. 214) Die Existenz also einer virtuell offenen Klasse von Wortbildungsmitteln macht die ständige Pflege bzw. Aktualisierung dieses Lexikonausschnitts notwendig. Zwei in den letzten Jahren sehr produktive Konfixe sind cyber- und pseudo-. Auch die automatische Erkennung von Derivationsmorphemen muss mit Ambiguität umgehen können. Eine Zeichenkette wie -ung kann sowohl - in den meisten Fällen - ein Suffix sein als auch Teil eines Wortstamms (etwa in Dung und Sprung). Zu dem Suffix -bar gibt es einen formgleichen Stamm, wie z.B. in Cocktailbar. 4.3 Kompositionsmorphologische Analyse Der Prozess der Komposition operiert über der offenen Klasse der Wortstämme und der komplexen Wörter und ist der im Deutschen produktivste Prozess. Die resultierenden Komposita können deshalb nicht vollständig im Lexikon erfasst werden. Es ist aber für viele sprachtechnologische Anwendungen nützlich, wenn nicht im Lexikon verzeichnete Komposita formal in ihre Bestandteile zerlegt werden und diese Bestandteile im Lexikon aufgefunden werden können. Bei der Analyse von Komposita muss man prinzipiell mit zwei Arten von Ambiguität rechnen: • Rein formale Ambiguitäten treten im Deutschen sehr selten auf. Zwei Beispiele hierfür sind: (5) Staub-ecke-n vs. Stau-becken 1 Vgl. Müller (1989), Müller (1998). Morphologie für die Computerlexikographie 209 (6) Wacht-raum vs. Wach-traum • Bei drei- und mehrgliedrigen Komposita können strukturelle Ambiguitäten entstehen, die die Analyse erschweren. So kann eine Hofmusikkapelle eine Musikkapelle am Hofe eines Adeligen sein oder eine Kapelle, die Hofmusik spielt. Gänzlich unhandhabbar ist eine automatische Rekonstruktion der syntaktischen und semantischen Beziehungen der Bestandteile, die im Kompositum verdichtet werden. Diese Beziehungen sind zu komplex für eine automatische Analyse. Ein bekanntes Beispiel ist das Wortpaar Schweineschnitzel - Jägerschnitzel, zwei formal analoge Formen, deren Bestandteile aber in zwei verschiedenen inhaltlichen Beziehungen stehen (Schnitzel vom Schwein bzw. Schnitzel nach Jägerart). Das vermutlich im Hinblick auf Geschwindigkeit und Genauigkeit beste System für die morphologische Analyse des Deutschen ist GERTWOL. Es gibt einen Webzugang zu diesem System 2 . Dort können Sie selbst die Fähigkeiten dieses Programms testen. Wir werden GERTWOL in Abschnitt 6 dieses Kapitels ausführlich beschreiben. 2 http: / / www2.lingsoft.fi/ cgi-bin/ gertwol . 5 Morphologische Informationen in Wörterbüchern 5.1 Einführung Wir beginnen unsere Betrachtungen darüber, wie verschiedene morphologische Beschreibungen kodiert werden, bei den Printwörterbüchern und ihren elektronischen Derivaten, also Wörterbüchern, die auf Rechnern verfügbar sind, aber primär für den menschlichen Benutzer bestimmt sind. Die bekannten ein- und zweisprachigen Wörterbücher haben zum Teil sehr unterschiedliche Verfahren der Darstellung flexionsmorphologischer Beschreibungen lexikalischer Einheiten entwickelt. Die Art der Angabe(n) und deren Präsentation hängen u.a. von der Art des zu beschreibenden Phänomens und von der Zielgruppe ab. Wir wollen uns deshalb einige Verfahren im Detail ansehen. 5.2 Angaben zur Flexion Eines der seltener anzutreffenden Verfahren ist die Angabe aller Vollformen einer lexikalischen Einheit. In Printwörterbüchern bietet sich dies aus Platzgründen nur bei Lexemen mit unregelmäßigen Paradigmen an. Bei elektronischen Wörterbüchern entfällt das Platzargument und die Angabe aller Vollformen ist auch bei regelmäßig flektierenden lexikalischen Einheiten eine erwägenswerte Alternative. Abbildung 59 zeigt einen Ausschnitt des Artikels throw aus dem Collins English Dictionary 3 : Abbildung 59: Artikel zum Stichwort throw aus dem Collins English Dictionary Ein in der deutschen einsprachigen Lexikographie häufig verwendetes Verfahren ist die Angabe von Eckformen bei Substantiven. Aus der meist ver- 3 Vgl. CED (1995). Morphologie für die Computerlexikographie 211 dichteten Angabe von Genitiv Singular und Nominativ Plural (SgbA und PlbA) neben der Zitierform, dem Nominativ Singular, soll es dem geübten Benutzer möglich sein, alle anderen Formen zu erschließen. In Abbildung 60 sehen wir den Eintrag Rahmen aus der elektronischen Version von Wahrigs Deutschem Wörterbuch 4 . Abbildung 60: Artikel zum Stichwort Rahmen aus der elektronischen Version von Wahrigs Deutschem Wörterbuch Eine Variante dieses Verfahrens ist die Angabe von Eckformen unregelmäßiger Verben, entweder in einer gesonderten Tabelle in den Umtexten oder direkt in den Artikeln der entsprechenden Verben. Dieses Verfahren findet man sowohl in einsprachigen als auch in zweisprachigen Wörterbüchern. In der Regel werden der Infinitiv, die zweite oder dritte Person Singular Präsens, die erste Person Singular Präteritum und das Partizip Perfekt angegeben (Beispiel: raten, rätst, riet, geraten). Während bei den ersten beiden Verfahren die Informationen direkt im Formkommentar des Artikels gegeben werden, macht das nun beschriebene Verfahren Gebrauch von Verweisen. Diese führen entweder aus dem Wörterverzeichnis heraus zu Formentafeln, die in den Umtexten des Wörterbuchs stehen, oder sie verweisen auf einen Eintrag im Wörterverzeichnis, in dessen Formkommentar die benötigten Informationen gegeben werden. In Abbildung 61 sehen wir den Eintrag Rahmen aus der elektronischen Version 4 Vgl. Wahrig (1997). 212 Morphologie für die Computerlexikographie des Bertelsmann Rechtschreibwörterbuchs 5 . Wenn man die Ziffer, die in ein Register von Formentafeln verweist, anklickt, dann erhält man die entsprechende Formentafel, die das komplette Formenparadigma anhand eines kanonischen Beispieleintrags angibt. Abbildung 61: Artikel zum Stichwort Rahmen aus der elektronischen Version des Bertelsmann Rechtschreibwörterbuchs Alle drei Verfahren helfen den Benutzern in der Produktionssituation. Genauer unterstützen sie diese bei der Bildung der korrekten Vollform des gewünschten lexikalischen Zeichens während der Textproduktion. Das im Folgenden beschriebene Verweis-Verfahren findet man vor allem in zweisprachigen Wörterbüchern und in einsprachigen Lernerwörterbüchern. Unregelmäßige Vollformen lexikalischer Zeichen werden als Verweiseinträge in das Wörterverzeichnis aufgenommen. Die Angaben bestehen aus der zugehörigen Grundform, unter der alle weiteren Informationen zu erschließen sind, und manchmal zusätzlich aus der Angabe der morphosyntaktischen Merkmale der Vollform. Benutzer werden auf diese Weise bei der Lemmatisierung während der Rezeption fremdsprachiger Texte unterstützt. 5 Vgl. Bertelsmann (2003). Morphologie für die Computerlexikographie 213 In Beispiel (7) sehen wir den Verweiseintrag cupo aus dem Klett Wörterbuch Spanisch-Deutsch 6 . (7) cupo I. 3. pret de caber II. . . . Besonders schwierig ist die Angabe vermuteter Einschränkungen bei der Bildung der Vollformen. Die häufigsten Fälle sind die Angabe eines nicht vorhandenen Plurals (PlbA: o. Pl.) und die Angabe zur Einschränkung der Steigerbarkeit von Adjektiven. Beide Arten von Angaben sind nur in der Produktionssituation von Nutzen und auch dann nur zuverlässig, wenn sie sich auf eine gründliche Korpusanalyse stützen. Dies ist bei den einsprachigen Wörterbüchern des Deutschen bis heute nicht der Fall. 5.3 Angaben zur Derivation Wünschenswertes Minimalprogramm ist das Verzeichnen der Affixe, Affixoide und Konfixe, entweder als eigene Einträge bzw. als Lesarten existierender Einträge im Wörterverzeichnis, oder als separate Liste in den Umtexten. Die Affixoide und Konfixe gehören zum offenen Teil der Lexik, sie sind deshalb ebenso zu aktualisieren wie der Bestand der selbständigen lexikalischen Einheiten. Müller (1989) schlägt die folgenden Angaben für Einträge zu Wortbildungselementen vor: • Eine ausreichende semantische Einordnung, differenziert nach Gebrauchsweisen, • Charakterisierung der Basiswörter nach Wortart sowie ggf. in grammatischer und semantischer Hinsicht, • Veränderungen bei der Wortbildung (Umlautung, Fugenmorpheme etc.), • Restriktionen bei der Auswahl der Wortbasis, • Hinweise auf Synonyme und Antonyme. In Folgenden wird ein Wörterbucheintrag zum Wortbildungselement -able aus dem Oxford Advanced Learner’s Dictionary of Current English 7 dargestellt. Dieser Artikel erfüllt sicher nicht alle Anforderungen, die Müller nennt, ist aber schon verhältnismäßig reich an Informationen. Einen alternativen Weg beschreitet Kempckes Wörterbuch Deutsch als Fremdsprache 8 . Wie man in Abb. 63 sehen kann, werden im Stile einer Wortfamilie zu elementaren lexikalischen Einheiten Derivationen und Komposita aufgeführt. Dies ist eine Möglichkeit, in ein Wörterbuch mit stark selektiver Lemma-Auswahl 6 Vgl. Klett (1996). 7 Hornby (1995). 8 Vgl. Kempcke (2000). 214 Morphologie für die Computerlexikographie -able, -ible [...] suff 1 (with ns forming adjs) having or showing the quality of fashionable ◦ comfortable; 2 (with vs forming adjs) (a) that may or must be: eatable ◦ payable ◦ reversible. (b) tending to: changeable ◦ perishable. Abbildung 62: Artikel zum Stichwort -able, -ible (nur ca. 20 000 Einträge) weitere sprachliche Zeichen einzuführen und so Lerner systematisch bei der Erweiterung ihres Wortschatzes zu unterstützen. 1 mehr [...] <Indefinitpron.: für Mask., Fem., Neutr. und Pl.; Komp. zu ↗ 1 viel; ↗ auch mehrere>; ↗ TAFEL X / drückt aus, dass eine Anzahl, eine Menge über ein bestimmtes Maß hinausgeht/ : <adj.> er hat (viel) ∼ Geld, Bücher als wir; er will noch ∼ Bücher kaufen; es waren ∼ Leute da, als du denkst; <subst.> er hat ∼ verlangt, als sie leisten konnte; sie hat ∼ von ihm erwartet; darf es etwas ∼ sein? 2 mehr, Mehr, mehren, mehrerlei, mehrfach, Mehrheit vermehren - mehrdeutig, Stimmenmehrheit, vielmehr; vgl. mehr/ Mehr-; vgl. viel Abbildung 63: Artikel zum Stichwort mehr Am Rande sei vermerkt, dass nur die regelmäßige Analyse von Korpora, die Aufschluss geben über den gegenwärtigen Sprachgebrauch, eine zuverlässige Basis für die Beschreibung von Wortbildungselementen darstellen kann. Durch eine solche Analyse kann man neue Wortbildungselemente ausmachen und die Produktivität existierender Wortbildungselemente einschätzen. Weitere Informationen dazu finden Sie im Kapitel zur lexikalischen Statistik. 5.4 Angaben zur Komposition Die Aufnahme von Komposita in ein Wörterbuch ist immer selektiv; dabei haben opake Komposita, also Komposita, deren Gesamtbedeutung sich nicht regelhaft aus der Bedeutung ihrer Bestandteile erschließen lässt, Vorrang vor transparenten Komposita. Langenscheidts Lernerwörterbuch und das sechsbändige WdG beschreiten wiederum einen interessanten Sonderweg. Dieser soll am Beispiel des Eintrags zum Lemma Lehrer im Langenscheidt Großwörterbuch Deutsch als Fremdsprache 9 beschrieben werden. In diesem Wörterbuch werden transparente Komposita als Sublemmata ohne eigenen semantischen Kommentar an den Schluss des Artikels zu einem der beteiligten Wortstämme bzw., bei polysemen Lexemen, an den Schluss des jeweiligen semantischen Subkommen- 9 Vgl. Götz (1998). Morphologie für die Computerlexikographie 215 L e h · rer der; -s, -; j-d, der bes an e-r Schule Unterricht gibt ↔ Schüler < ein strenger, erfahrener L. > : Er ist L. für Mathematik u. Physik an e-m Gymnasium; Wen habt ihr als L. in Sport? ‖ K-: Lehrer-, -ausbildung, -beruf, -ehepaar, -kollegium, -konferenz, -mangel, -schwemme, -zimmer, -überschuß ‖ K-: Berufsschul-, Grundschul-, Hauptschul-, Sonderschul-,; Biologie-, Chemie-, Deutsch-, Englisch-, Französisch-, Latein-, Mathematik-, Physik-, Sport- ‖ hierzu L e h · re · rin die; -, -nen Abbildung 64: Artikel zum Stichwort Lehrer tars gestellt. Die Stellung des Wortstamms innerhalb der aufgereihten Komposita, als Erst- oder Letztglied, wird durch ein Symbol am Anfang der Kompositareihe angezeigt. 6 Systeme für die automatische morphologische Analyse 6.1 GERTWOL Nachdem wir uns ausführlicher die gängige Praxis der Kodierung morphologischer Informationen in Wörterbüchern, die für menschliche Benutzer erstellt wurden, angesehen haben, wollen wir nun als Kontrast ein System für die automatische morphologische Analyse und speziell dessen lexikalische Ressource betrachten. Sie können sich durch einen Test der Online-Demo von GERTWOL 10 einen Überblick über Funktionsweise des Programms verschaffen. GERTWOL (‚German Two Level Morphology‘) wurde in Finnland entwickelt und wird von der Firma Lingsoft vertrieben. Für eine kommerziell vertriebene Software ist das Produkt relativ gut öffentlich dokumentiert. Die Entwickler selbst charakterisieren GERTWOL wie folgt: GERTWOL ist ein System zur automatischen Wortformerkennung deutscher Wörter. Die theoretische Grundlage des GERTWOL-Systems bildet die sprachunabhängige morphologische Analysemethode Z WEI -E BENEN -M ODELL [...] von Professor Kimmo Koskenniemi [...] GERTWOL verfügt über ein Wortformenlexikon von etwa 60 000 Wortformen, deren Geltungsbereich durch eine umfassende Derivationsmorphologie und einen vollständigen Mechanismus zur Kompositabildung erheblich erweitert wird [...] Bei der morphologischen Analyse gibt GERTWOL die möglichen Lesungen einer deutschen Wortform an. Die Lesungen bestehen aus der Grundform des Wortes und aus morphologischen Daten zur Grundform. (Haapalainen (1995), http: / / www2.lingsoft.fi/ cgi-bin/ gertwol ) GERTWOL verfügt über einen Regelapparat für die morphologische Analyse und eine umfangreiche lexikalische Ressource. Die sprachunabhängige Basis der Regelkomponente bildet die Zwei-Ebenen-Morphologie (vgl. Koskenniemi (1983)). Aus der Sicht unseres Themas ist aber vor allem die verwendete lexikalische Ressource interessant. Die Kodierung morphologischer Information soll im Vergleich zu den Kodierungsgepflogenheiten in Printwörterbüchern, die wir im letzten Abschnitt dargestellt haben, diskutiert werden. Die folgenden Ausführungen stützen sich vor allem auf Haapalainen und Majorin (1994): • GERTWOL liefert eine vollständige flexionsmorphologische und eine umfassende derivations- und kompositionsmorphologische Analyse, aber prinzipiell weder semantische noch syntaktische Analysen. 10 http: / / www2.lingsoft.fi/ cgi-bin/ gertwol . Morphologie für die Computerlexikographie 217 • Die lexikalischen Daten von GERTWOL basieren auf dem lexikalischen Material eines deutsch-englischen Wörterbuchs von HarperCollins. Der Datenbestand wurde aber korpusbasiert erweitert. Außerdem wurde eine große Zahl an Eigennamen hinzugefügt. Das Wortformenlexikon von GERTWOL umfasst insgesamt etwa 85 000 Einträge. • Die lexikalische Ressource von GERTWOL umfasst ein Stammformenlexikon und ein Vollformenlexikon sowie weitere Teillexika (s. unten). • Ein Stammform-Eintrag besteht aus der Stammform des jeweiligen Wortes sowie dem passenden Flexionsklassenkürzel, das die so genannten Fortsetzungsklassen, also die Endungsparadigmen, spezifiziert. • Ein Vollform-Eintrag besteht aus einer Wortform und deren morphosyntaktischen Merkmalen. • Die in GERTWOL kodierten Flexionsklassen fassen Gruppen von Stammformen sowie Fortsetzungsklassen zusammen. Es werden außerdem morphophonemische Phänomene wie der schwa-Ausfall berücksichtigt. • Verben werden hinsichtlich des Modus, Tempus, der Person und des Numerus gekennzeichnet. Es gibt zwölf Konjugationsklassen für schwach konjugierende Verben. Die starken Verben sind in zwölf Hauptkonjugationsklassen eingeteilt. • Substantive werden hinsichtlich Genus, Numerus und Kasus gekennzeichnet. Die Substantive sind in GERTWOL in zehn Hauptdeklinationsklassen eingeteilt. Eine weitere Untergliederung führt zu ca. 300 Deklinationsklassen. Jede Deklinationsklasse besteht aus einer Fortsetzungsklasse mit Singularformen und einer mit Pluralformen. Darüber hinaus werden produktive Ableitungselemente (=Derivationssuffixe) morphosyntaktisch markiert. • Adjektive werden durch die Merkmale Komparierbarkeit, Numerus, Kasus und Genus charakterisiert. Die regelmäßigen Adjektive werden in siebzehn Deklinationsklassen eingeteilt. Darüber hinaus werden produktive Ableitungselemente (=Derivationssuffixe) morphosyntaktisch markiert. • Neben diesen Hauptwortklassen werden einige Pronomina, die Artikel, Numeralia und Eigennamen morphologisch kodiert. • GERTWOL beschreibt das System der Präfigierung der Verben. Dabei werden abtrennbare und nicht-abtrennbare Präfixe unterschieden. Es beschreibt ebenfalls Präfixe von Substantiven und Adjektiven. • Hinsichtlich der Suffigierung wird unterschieden zwischen: a) Derivation ersten Grades als der Suffigierung an einen Wortstamm und b) syntagmatischer Derivation als Anfügen eines Suffixes an ein anderes Suffix. GERTWOL enthält etwa 80 Wortbildungsmuster dieses Typs. • In GERTWOL wird auch der nicht-markierte Übergang einer lexikalischen Einheit von einer Wortklasse zu einer anderen markiert (Konversi- 218 Morphologie für die Computerlexikographie on). Unter dieses Schema werden auch substantivische Zusammenrückungen (z.B. Stelldichein) subsumiert. • Im Bereich der Kompositionsmorphologie werden vor allem die Fugenmorpheme behandelt. Dabei wird davon ausgegangen, dass die Fugenelemente deklinationsklassenspezifisch sind. • Diejenigen substantivischen Zweitglieder von Komposita, die nicht als selbständige Wörter vorkommen, wurden in ein Teillexikon aufgenommen. Ebenfalls in ein Teillexikon werden die Halbsuffixe und nichtselbständigen adjektivischen Zweitglieder aufgenommen. • Suffixe werden in heimische (native) und fremde Suffixe getrennt. Von dieser geschlossenen Klasse der Suffixe werden die hier als H ALBSUF - FIXE bezeichneten Affixoide und Konfixe getrennt und in einem anderen Teillexikon beschrieben. Abbildung 65 zeigt die Analyse des Stichworts Arbeitervereinigung, Abbildung 66 die zum Stichwort abzusingen. Abbildung 65: Informationen zum Stichwort Arbeitervereinigung Abbildung 66: Informationen zum Stichwort abzusingen Morphologie für die Computerlexikographie 219 6.2 WordManager und Canoo Eine Alternative zu GERTWOL ist der WordManager, der seit den 1980er Jahren von einem Team um Marc Domenig entwickelt wird. Die wichtigsten Komponenten von WordManager sind: • ein Lemmatisierer, der Vollformen auf die Basisform(en) reduziert; • eine Flexionsanalyse, die die Flexionselemente eines Wortes bestimmt; • eine Wortanalyse. Es wird geprüft, ob ein Wort wohlgeformt ist, und die Wortelemente werden bestimmt; • ein Wortformengenerator, der zu einer Basisform alle Vollformen bestimmt. Hinter der Analyse steckt ein Wörterbuch mit ca. 250 000 Basisformen, die zu mehr als 3 Millionen Vollformen expandiert werden können. Der Word- Manager ist aber auch in der Lage, unbekannte Wörter zu analysieren, wobei die Analyse natürlicherweise nicht fehlerfrei ist. Hinter dem WordManager steht Finite State Transducer Technologie. Abbildung 67 zeigt einen einfachen Transducer für einige englische Wortformen. Der Transducer verknüpft zwei Ebenen: die lexikalische Form (rechte Seite, hinter dem Doppelpunkt) und die Oberflächenform (linke Seite, vor dem Doppelpunkt). Mit einem solchen Transducer kann aus der abstrakten lexikalischen Repräsentation dineVSg3 die Oberflächenform dines gebildet werden, oder, umgekehrt, die Oberflächenform dines auf die lexikalische Form dineVSg3 abgebildet werden. Die Oberflächenform wird, mit anderen Worten, als Vollform des Verblexems „dine“ mit den weiteren morphologischen Attributen Person: 3 und Numerus: Singular beschrieben. Das Gesamtsystem ist natürlich viel kom- Abbildung 67: Finite State Transducer 220 Morphologie für die Computerlexikographie plexer, das Prinzip der morphologischen Analyse und Generierung dürfte an diesem einfachen Beispiel aber deutlich werden. Eine für den Benutzer sicht- und nutzbare Anwendung des WordManager ist das Informationssystem auf der Webseite von Canoo 11 . Wenn man die Seite aufruft, erhält man ein spartanisch gestaltetes Fenster mit der Möglichkeit, ein Wort einzugeben, und Links zu wichtigen Bereichen der Site (Wörterbücher, Rechtschreibung, Flexion, Wortbildung, Index und Terminologie). Diese Seite eignet sich sehr gut zum Experimentieren, ebenso wie die Zugangsseite von GERTWOL. Den Kern des Canoo-Informationsservice bildet die morphologische Analyse von Wörtern. Sie wird gestützt bzw. begleitet von einer Reihe von Spezialwörterbüchern. Abbildung 68 zeigt die Wortbildungsanalyse von Grundversorgung und Abbildung 69 die Flexionsanalyse von vorsingen. Canoo Abbildung 68: Wortbildungsanalyse von Grundversorgung stellt eigene Spezialwörterbücher für die Rechtschreibung, Flexion, Wortbildung und Morphologie zur Verfügung. Als externe Ressourcen sind das Deutsch-Englische Übersetzungswörterbuch von LEO und die deutsche Wikipedia verlinkt 12 . Die Spezial-Wörterbücher basieren, so die Einführung, auf dem Morphologischen Wörterbuch von Canoo. Was steckt dahinter? Verfolgt man den Weg weiter, dann erhält man eine englische Beschreibung dieser Ressource: The German Morphological Dictionary has 200 000 plus lexeme entries and generates more than 2 million words. For each entry, the dictionary knows: all word forms generated by the entry, irrespective of whether they are contiguous strings or multi-word units, and 11 S. www.canoo.net/ 12 Die Links erscheinen allerdings nur für Stichwörter, die in dem Canoo-Wörterbuch selbst verzeichnet sind. Es wäre aber gerade hilfreich, auf diese externen Ressourcen verwiesen zu werden, wenn kein Eintrag vorhanden ist. Dies ist etwa für das unten diskutierte Stichwort Cyberwar der Fall. Canoo kann dieses Stichwort nicht weiter analysieren, ein Link zu Wikipedia würde dem Ratsuchenden aber weitere nützliche Informationen liefern. Morphologie für die Computerlexikographie 221 Abbildung 69: Flexionsanalyse von vorsingen all morphosyntactic and spelling characteristics for each word form; what entries have been derived from this entry; what entry (or entries) this entry has been derived from (if it is complex); the inflection rule associated with the entry; the word formation rule(s) associated with the entry; the spelling rules associated with the entry. Im Rechtschreibwörterbuch finden sich über 250 000 deutsche Schlagwörter und Redewendungen in alter und neuer Schreibung - gemäß der ab dem 1. August 2006 geltenden Regelung - sowie in regionalen Varianten, mit genauen Angaben zum heutigen Gebrauch und Links zu den Regeln der neuen Rechtschreibung. Das Informationsprogramm dieses Wörterbuchs umfasst u.a.: • alte und neue Schreibung (mit Darstellung des Verhältnisses der beiden Varianten zueinander: die neue Variante ersetzt die alte oder tritt gleichberechtigt neben sie), 222 Morphologie für die Computerlexikographie • Angaben zu regionalen Varianten, • Angaben zum Gebrauch, • Links zu den Regeln der neuen Rechtschreibung, • bei Verben das für die Bildung der zusammengesetzten Zeitformen verwendete Hilfsverb, • bei Substantiven das Genus. • Bei Einzelwörtern, deren Schreibung sich nach der Orthographiereform verändert, gibt es einen Hinweis auf die entsprechende orthographische Regel. • Bei Wörtern, deren Schreibung in der Schweiz von der Schreibung in Deutschland abweicht, wird die Schweizer Schreibung entsprechend diatopisch markiert. Abb. 70 zeigt Informationen aus dem Rechtschreibwörterbuch zum Stichwort Aufschluß. Abbildung 70: Informationen zum Stichwort Aufschluß Im Flexionswörterbuch finden sich die vollständigen Flexionstabellen für über 200 000 deutsche Stichwörter mit rund 2 Millionen Wortformen und Wortkategorisierungen sowie Links zu den entsprechenden Flexionsregeln. Für die Substantive gibt es hier übersichtlich angeordnete Deklinationstabel- Morphologie für die Computerlexikographie 223 len. Wenn ein Substantiv zwei Deklinationsparadigmen aufweist (z.B. Mangel, Service), dann sind auch zwei (homographe) Einträge vorhanden, aus denen ausgewählt werden kann. Auf die Umlautung im Plural wird unter dem Etikett Besonderheiten eigens hingewiesen. Nebeneinander stehende Varianten von Flektionsformen (z.B. indigenes und eingedeutschtes Paradigma) werden ebenfalls angeführt, z.B. bei Index, Atlas, Konto. Abbildung 69 zeigt einen Ausschnitt der Flexionsinformation zum Stichwort vorsingen. Im Wörterbuch der deutschen Wortbildung finden sich Darstellungen der Wortbildungszusammenhänge für über 200 000 deutsche Stichwörter, mit Links zu den entsprechenden Wortbildungsregeln. Es werden morphologische Wortanalysen in Form von Ableitungsgraphen gezeigt sowie weitere Derivationen und Komposita, die auf der Grundlage des Suchwortes gebildet werden und im Wörterbuch vorhanden sind. Bei Lexemen, deren Schreibung in mindestens einer der Vollformen von der Orthographiereform berührt wird, wird dies angezeigt, inkl. Link zum entsprechenden Eintrag im Rechtschreibwörterbuch. Abbildung 71 enthält einen Teil des Ableitungsgraphen zum Stichwort Versorgung. Im Wörterbuch der Morphologie finden sich morphosyntaktische Klassifizierungen der rund 2 Millionen Wortformen der 200 000 deutschen Stichwörter. Man kann sowohl Wortformen als auch Wortbildungen interaktiv analysieren und generieren (Eigendarstellung). Zu Vollformen werden die Lexeme (repräsentiert durch die Grundform) mit den grundlegenden morphosyntaktischen Merkmalen angezeigt sowie die Positionen, die die Vollformen in den Paradigmen dieser Lexeme annehmen. Die Tabellen sind graphisch gut gestaltet und dadurch übersichtlich. Über die Website wird außerdem ein Rechtschreibprüfer angeboten. In ein Textfeld kann man (z.B. mit Cut und Paste) Text eingeben und auf korrekte Schreibung gemäß alter oder neuer Rechtschreibung prüfen lassen. Es werden die Wörter angezeigt, deren Schreibung durch die Orthographiereform berührt werden. Je nach Auswahl (alte oder eine Variante der neuen Rechtschreibung) werden die entsprechend der Varianten richtig geschriebenen Wörter ebenso angezeigt wie die falsch geschriebenen Wörter. Es werden ebenfalls die Wörter angezeigt, die nicht begutachtet werden konnten, weil die lexikalischen Ressourcen diese nicht abdeckten. Interessant ist die Vielzahl der Varianten, nach denen geprüft wird. Es stehen nicht nur alte und neue Rechtschreibung zur Verfügung sondern auch Stile wie der Ortographiestil der Z EIT und der NZZ, die jeweils in Details von den kanonischen Regeln abweichen. Fazit: Das System hat eine beeindruckende Abdeckung, besonders in der Kombination eines großen Wörterbuchs mit einer Analysekomponente für unbekannte Wörter. Die dahinter steckende Zwei-Ebenen-Morphologie mit Finite State Transducern ist mit der hinter GERTWOL steckenden Technik 224 Morphologie für die Computerlexikographie Abbildung 71: Kompositafeld zum Wortbildungselement Versorgung vergleichbar. Ein Analyseversuch mit den Eingabewörtern Zeitungsangebot und dazwischensang, die beide vermutlich nicht in den Systemwörterbüchern vorhanden, aber relativ einfach zu analysieren sind, zeigt vergleichbare Resultate: • Während man bei GERTWOL eine äußerst knapp formulierte Analyse erhält, bekommt man bei CANOO eine weniger aussagekräftige, graphisch aber ansprechender gestaltete Beschreibung. Weitere Informationen kann man durch Anklicken der Analyseelemente abrufen. Morphologie für die Computerlexikographie 225 • Bei GERTWOL signalisiert man durch Großschreibung des Wortes, dass es sich um ein Nomen handelt. Bei Canoo spielt die Schreibung am Wortanfang keine Rolle. Canoo liefert daher für dazwischensang eine weitere Analyse mit sang als nominalem Kopf, die in diesem Fall nicht zutrifft. • Beide Systeme stoßen dort an ihre Grenzen, wo weder das gesamte Wort noch die Bestandteile in den lexikalischen Ressourcen verzeichnet sind. Wir wählen als Analysebeispiel das Wort Cyberwar 13 . Dies wird von keinem der beiden Systeme analysiert. 6.3 Morphy Das morphologische Analysesystem Morphy, entwickelt von Wolfgang Lezius, unterscheidet sich in mehrfacher Hinsicht von den anderen beiden o.g. Systemen. Morphy ist ein frei verfügbares Softwarepaket, das man sich von der Webseite des Entwicklers 14 herunterladen kann. Es ist für das Betriebssystem Windows von Microsoft verfügbar. Als Applikation, die auf dem eigenen Rechner läuft, kann man es in den eigenen Workflow einbauen. So kann man zum Beispiel Wortlisten von Morphy komplett analysieren lassen. Morphy ermöglicht die morphologische Analyse und Synthese von deutschen Wörtern sowie deren kontextsensitive Wortartenbestimmung. In unserem Zusammenhang ist nur der erste Aspekt wichtig, wir wollen uns deshalb hier auf diesen beschränken. Ein eher kleines Wörterbuch mit 50 000 Grundformen-Einträgen ist Bestandteil von Morphy. Es scheint außerdem dadurch aufgebläht zu sein, dass bei den Substantiven auf den ersten Blick sehr viele deverbale Substantivkonversen (z.B. das Hierhereilen) aufgenommen sind. Man wird also von der angegebenen Zahl Abstriche machen müssen. Unterteilt ist das Wörterbuch in acht verschiedene Wortklassen: Substantive normal, Substantive Ausnahmen, Adjektive, Verben regelmäßig, Verben unregelmäßig, Eigennamen, sonstige und hochfrequente (Wörter). Man kann das Wörterbuch selbst pflegen und erweitern. Wir haben dies nicht getan, doch scheint dies nicht sehr kompliziert zu sein, wenn man die Grundformen neuer Einträge selbst einbringt. Die Analyse von Grundversorgung sieht wie folgt aus: • Kompositum von Grundversorgung Grund/ Versorgung, richtet sich nach: Substantivform von Versorgung Nominativ Singular (femininum); • Kompositum von Grundversorgung Grund/ Versorgung, richtet sich nach: Substantivform von Versorgung Genitiv Singular (femininum); • Kompositum von Grundversorgung Grund/ Versorgung, richtet sich nach: Substantivform von Versorgung Dativ Singular (femininum); 13 Ende Februar 2007 verzeichnete Google für dieses Wort ca. 62 000 Treffer auf deutschen Webseiten. 14 S. http: / / www.wolfganglezius.de/ doku.php? id=public: cl: morphy . 226 Morphologie für die Computerlexikographie • Kompositum von Grundversorgung Grund/ Versorgung, richtet sich nach: Substantivform von Versorgung Akkusativ Singular (femininum). Die Analyse von vorsang: • Verbform von (vor)singen (unregelmäßig) 1.Person Singular Präteritum (Gebrauch nur im Nebensatz); • Verbform von (vor)singen (unregelmäßig) 3.Person Singular Präteritum (Gebrauch nur im Nebensatz). Die Beschreibung fällt etwas lang aus, ist aber zutreffend. In Abbildung 72 sehen Sie die generierten Vollformen zum Stichwort singen. Abbildung 72: Informationen zum Stichwort singen Bei unbekannten Wörtern versucht Morphy keine Analyse, sondern gibt lediglich einen Tipp zur Wortart des Wortes ab. Die fehlende Analysekomponente für unbekannte Wörter, zusammen mit dem relativ kleinen Wörterbuch, ist ein gravierender Nachteil von Morphy gegenüber den anderen beiden oben beschriebenen Systemen. Wir möchten unseren Lesern aber empfehlen, Morphy selbst auf dem Rechner zu installieren - dies ist eine Angelegenheit von Morphologie für die Computerlexikographie 227 wenigen Minuten -, es zu testen und sich ein eigenes Bild zu machen, genauso wie von den beiden anderen Systemen. Wolfgang Lezius verbrachte einige Zeit mit der Weiterentwicklung von Morphy am Institut für maschinelle Sprachverarbeitung in Stuttgart. Dort wird auch weiter an Werkzeugen für die morphologische Analyse gearbeitet. Eines der neueren Produkte ist SMOR. Der Entwickler von SMOR, Helmut Schmid, beschreibt das System wie folgt: a morphological analyser for German inflection and word formation implemented in finite state technology. Unlike purely lexicon-based approaches, it can account for productive word formation like derivation and composition. The implementation is based on the Stuttgart Finite State Transducer Tools (SFST-Tools), a non-commercial FST platform. It is fast and achieves a high coverage. (Schmid (2004), S. 1263) Das System ist also technisch mit dem GERTWOL und dem Word Manager vergleichbar 15 . 6.4 Morphologische Analyse und Präsentation im Vergleich Am Schluss dieses Kapitels wollen wir die Darstellung morphologischer Merkmale sprachlicher Zeichen in Printwörterbüchern und in lexikalischen Ressourcen für sprachtechnologische Anwendungen beschreiben. Wir orientieren uns dabei wieder an den drei Ebenen der Flexion, der Derivation und der Komposition. Flexion In Printwörterbüchern wie auch in GERTWOL werden die Endungsparadigmen kodiert, in GERTWOL freilich in expliziterer Weise als in Printwörterbüchern. Bei Canoo und Morphy scheinen die Paradigmen komplett kodiert zu sein. In Printwörterbüchern werden für Substantivlemmata meist nur die Eckformen für die Bildung des Singulars und des Plurals angegeben. Die Berücksichtigung morphophonemischer Phänomene führt in GERTWOL zur Bildung einer recht großen Zahl von Flexionsklassen insbesondere bei den Substantiven. Umlautung wird in GERTWOL durch eine Regel abgedeckt. Dies muss in Printwörterbüchern an jedem einzelnen Eintrag markiert werden. Stark unregelmäßige Formen werden in GERTWOL, Canoo etc. als Wortformen komplett aufgelistet. Explizite Nennung erfolgt hier auch in den meisten Printwörterbüchern. 15 Es gibt auf den Seiten des Instituts keinen Hinweis auf SMOR, für weitere Details frage man also am besten den Autor. 228 Morphologie für die Computerlexikographie Derivation In GERTWOL werden sowohl die Affixe als auch die Affixoide explizit aufgeführt (die Affixe vollständig) und morphosyntaktisch klassifiziert. Auf ähnliche Weise werden Affixe auch in Printwörterbüchern behandelt, allerdings selten mit der Systematik und Konsistenz, mit der dies in GERTWOL geschieht. Da GERTWOL prinzipiell keine syntaktischen Angaben macht, fehlen auch Angaben zur Subkategorisierung von Suffixen, wie sie z.B. im Oxford Advanced Learner’s Dictionary (OALD) gegeben werden. Morphologische Konversion wird in Printwörterbüchern nur dort beschrieben, wo sie mit einer semantischen Veränderung einhergeht. Auch hier scheint man mit GERTWOL systematischer vorgegangen zu sein. Komposition Eine reine Auflistung von Komposita, wie man sie in Printwörterbüchern findet, erübrigt sich bei Systemen, die über eine Analysekomponente für unbekannte Wörter verfügen wie GERTWOL und Canoo. Auch die in diesem Zusammenhang für die Lemmaaufnahme wichtige Unterscheidung zwischen transparenten und opaken Komposita 16 entfällt bei Ressourcen, die prinzipiell keine semantischen Beschreibungen vornehmen. Umso wichtiger ist bei GERTWOL und Word Manager die systematische Behandlung von Fugenmorphemen, die hier den Flexionsklassen der Stämme zugeordnet werden. In Printwörterbüchern hingegen werden Fugenmorpheme als Wortbildungselemente ohne eigenen semantischen Status nicht behandelt. Man würde eine systematische Beschreibung auch eher in einer (Wörterbuch-)Grammatik erwarten. 7 Weiterführende Literatur Zur weiteren Lektüre eigenen sich besonders generelle Einführungen in die germanistische Lexikographie, z.B. die von Henning Bergenholtz und Joachim Mugdan (1979) oder von Christa Bhatt (1991). Die maschinelle morphologische Analyse behandeln Harald Trost (2004) und Walter Daelemans (2004). Lexikographische Aspekte der Beschreibung und Präsentation morphologischer Eigenschaften lexikalischer Einheiten behandeln Joachim Mugdan (1989) und Wolfgang Rettig (1989). 16 Bei transparenten Komposita kann man die Gesamtbedeutung aus der Bedeutung der Bestandteile erschließen, z.B. Apfelbaum. Bei opaken Komposita ist das nicht der Fall, z.B. bei Bierdeckelsteuer. Morphologie für die Computerlexikographie 229 8 Aufgaben 1. Analysieren Sie die folgenden komplexen Wörter (unter Angabe eines Strukturbaums und der Klassen der Elemente - Präfix, Stamm etc.) und vergleichen Sie Ihr Ergebnis mit der Analyse, die GERTWOL und Canoo liefern: a) Unvereinbarkeitsbeschluss b) Abschirmungsvereinbarung c) Akquisitionsshop d) Allgefahrenversicherung e) Volatilitätsunterbrechung 2. Wählen Sie ein Affix aus (z.B. -ig, -heit, -keit, -ung, -mäßig, -sam; ver-, be-, vor-, ent-, er-, ge-) und beschreiben Sie dieses lexikalisch. Geben Sie an, welche grammatischen Eigenschaften der suffigierten Wörter durch das Suffix festgelegt werden und welche Beschränkungen das Suffix in Bezug auf die Wortbasis ausübt (z.B.: wählt nur zählbare Nomen aus). Nennen Sie ebenfalls semantische Effekte, sofern sich diese generalisieren lassen. 3. Welche Besonderheit erregte die Aufmerksamkeit (nicht nur) der Linguisten bei dem Schlagwort „unkaputtbar“, mit dem einst eine Softdrink- Firma für Ihre Plastikflaschen (und natürlich für deren Inhalt) warb? Kennen Sie ähnliche Beispiele, bei denen mit nicht-wohlgeformten Wörtern Aufmerksamkeit erregt wurde? 10 Akquisition lexikalischer Informationen Am Ende dieses Kapitels wissen Sie, was lexikalische Akquisition im Kontext der Computerlexikographie bedeutet. Sie kennen die drei Felder, in denen die maschinelle Extraktion lexikalischer Daten aus Textkorpora erfolgreich angewendet wurde und wird. Sie sind schließlich mit einer Methodik für das Vorgehen bei der Akquirierung lexikalischer Daten vertraut. 1 Begriffliches In diesem Kapitel geht es um die Akquisition, also die Gewinnung von lexikalischen Informationen aus Textkorpora. Die gewonnenen Informationen bilden die Basis des lexikalischen Wissens, mit dem Anwendungen der maschinellen Sprachverarbeitung operieren. Damit unterscheiden sich die im Folgenden dargestellten Forschungen und Entwicklungen von einigen anderen Arbeiten, die unter dem gleichen Namen - L EXICAL A CQUISITION - durchgeführt wurden und werden, die wir aber an dieser Stelle nur kurz erwähnen wollen: • In der psycholinguistischen Forschung zum Erstsprachenerwerb wird unter Lexical Acquisition der Erwerb der Daten, die für den Aufbau des mentalen Lexikons notwendig sind, verstanden. Gute Beispiele für diese Forschungsrichtung sind z.B. die Arbeiten von Pinker (Pinker (1984), Pinker (1989)) und Eve Clark (1993). Aufbau und Struktur des mentalen Lexikons von Sprechern sind jedoch nicht Gegenstand dieses Bandes. • Es gibt einige Verfahren der linguistischen Annotation von Texten, bei deren zyklischer Vorgehensweise die Akquisition von lexikalischen Informationen aus den zu annotierenden Texten zwar auch eine gewisse Rolle spielt, deren primäres Ziel aber die Beschreibung bzw. Annotation von textuellen Einheiten ist. Meist werden bei diesen Verfahren die lexikalischen Kategorien vorausgesetzt bzw. bereits existierenden lexikalischen Ressourcen entnommen. Zu diesen Verfahren, auf die wir hier nicht weiter eingehen, gehören das W ORTARTENTAGGING (‚part of speech tagging‘) und die Zuweisung von semantischen Kategorien ( WORD SENSES ), das sog. ‚sense tagging‘. Akquisition lexikalischer Informationen 231 • Vor allem in den 1980er und frühen 1990er Jahren wurden maschinenlesbare Wörterbücher für den Aufbau lexikalischer Ressourcen verwendet. D.h es geht hierbei eher um die Erschließung bereits vorhandener lexikalischer Daten als um die Gewinnung neuer Informationen. Es soll nicht verschwiegen werden, dass es einige Projekte gab, die etwa die Bedeutungsbeschreibungen als besondere Textsorte analysiert haben, jedoch sind diese Bemühungen zu sehr am Rande unseres eigentlichen Themas. Einen guten Überblick über diesen Bereich geben Boguraev und Briscoe (1989), eine kritische Bilanz dieses Unternehmens ziehen Nancy Ide und Jean Véronis (Ide und Véronis (1993), Ide und Véronis (1995)). • Damit verwandt sind die Versuche, semantische Wortnetze (im Stile des englischsprachigen Princeton WordNet) für neue Sprachen in der Weise aufzubauen, dass die Struktur des WordNet direkt übernommen und die lexikalische Substanz mit wenigen Modifikationen in die eigene Sprache übersetzt wird. Auch hierbei handelt es sich eher um eine Konvertierung bzw. Adaptierung als um eine Generierung neuer lexikalischer Informationen. Nichtsdestotrotz kann ein solcher Ansatz für die Linguistik der jeweiligen Sprachen bedeutsam und nützlich sein. • Wir stützen uns auf schriftsprachliche Korpora als Quelle für die Gewinnung lexikalischer Informationen. Ansätze zum Aufbau lexikalischer Ressourcen aus Korpora gesprochener Sprache betrachten wir hier nicht. Einige interessante Beiträge hierzu finden Sie bei Eynde und Gibbon (2000). 2 Motivation Die Motivation, lexikalische Informationen aus Textkorpora zu extrahieren, erwächst aus der folgenden Situation: 1. Die maschinelle Verarbeitung natürlicher Sprache ist auf große Mengen präziser lexikalischer Informationen angewiesen. 2. Versuche, bereits existierende, aber nicht formalisierte lexikalische Beschreibungen als Quelle für lexikalische Ressourcen von NLP-Systemen zu verwenden, haben sich als weitgehend unfruchtbar erwiesen. Zu Punkt 1: Der Bedarf sprachtechnologischer Anwendungen an lexikalischen Informationen ist prinzipiell viel umfassender als der Bedarf menschlicher Wörterbuchbenutzer, die eine lexikalische Lücke schließen oder Zweifel hinsichtlich einer Sprachnorm klären wollen. Lexikalische Ressourcen ersetzen bei einem sprachverarbeitenden System das mentale Lexikon menschlicher Sprecher, sind also nicht mit einem gelegentlich konsultierten Referenzwerk zu vergleichen. Insofern ist die lexikalische Akquisition, die bei dieser Art von lexikalischen Ressourcen betrieben werden muss, der Lexical Acquisition im Rahmen des Erstsprachenerwerbs von Kindern näher als den lexikographischen Bemühungen beim Erstellen von Printwörterbüchern. Bei aller Skepsis gegenüber der Vergleichbarkeit von menschlichen und maschinellen Agenten sollte dieser Aspekt nicht gänzlich ignoriert werden. Systeme für die Verarbeitung natürlicher Sprache benötigen lexikalisches Wissen u.a. • zur Auflösung lexikalischer und struktureller Ambiguitäten. Beispiele hierfür sind: (1) Die Bäuerin verkauft die Kuh, weil sie Schulden hat. (2) Die Bäuerin verkauft die Kuh, weil sie nicht ausreichend Milch gibt. (3) Sarah aß den Kuchen mit dem Löffel. (4) Sarah bewunderte den Kuchen mit dem Zuckerguss. • um in Fällen, bei denen sich Mehrdeutigkeiten nicht aufgrund der verfügbaren lexikalischen Informationen auflösen lassen, wie in dem folgenden Beispiel (5) Maria bekam dann doch noch das Buch von Heidegger. die wahrscheinlichste(n), das heißt in der Regel die bisher am häufigsten beobachtete(n) Alternative(n) zu ermitteln. Hierzu sind quantitative lexikalische Informationen notwendig. Diese kann man nur auf der Grundla- Akquisition lexikalischer Informationen 233 ge einer sehr großen Menge von Beobachtungen gewinnen. Eine Analyse von Belegen aus einem Korpus, die eine ähnliche Struktur aufweisen wie Beispiel (5), wird möglicherweise zeigen, dass die Präpositionalphrase (von Heidegger) wesentlich häufiger die Nominalphrase (das Buch) als die Verbalphrase (bekam) modifiziert, obwohl beides strukturell möglich ist. Das damit verbundene generelle Problem ist die korrekte Zuordnung der Präpositionalphrase im Strukturbaum (PP-A TTACHMENT ). • um einem Satz, der syntaktisch erfolgreich analysiert wurde, semantisch interpretieren zu können. Ein NLP-System muss eine Verbindung zwischen einem kohärenten Text und dessen Diskurswelt herstellen können. Die lexikalisch-semantische Information im Wörterbuch ist hierfür essenziell. Eine semantische Interpretation ist die elementare Voraussetzung für eine angemessene kontextsensitive Übersetzung von Sätzen oder für Relevanzentscheidungen im Rahmen der automatischen Zusammenfassung von Sätzen. Der Wert qualitativ hochwertiger und quantitativ gut ausgebauter lexikalischer Ressourcen wurde ersichtlich, als man von akademischen Prototypen sprachtechnologischer Systeme zu industriell nutzbaren Anwendungen überging. Letztere müssen einen viel umfassenderen Gegenstand abdecken als besagte akademische Prototypen: • Systeme zur automatischen Spracherkennung müssen z.B. mehr als zehn Sätze eines einzelnen Sprechers erkennen können. Das Vokabular für realistische Anwendungen entspricht mindestens dem eines mittleren bis großen Wörterbuchs. • Systeme für die automatische Textübersetzung müssen mehr als nur fünfzig Sätze, die interessante linguistische oder translatorische Phänomene beschreiben, gut übersetzen können. Die Mehrzahl der zu übersetzenden Äußerungen sind linguistisch „uninteressant“, basieren aber auf einem mit jedem weiteren Satz bzw. Text kontinuierlich wachsenden Vokabular. Man bezeichnete die Diskrepanz zwischen den neuen, gewachsenen Anforderungen und den im Verhältnis dazu mageren Umfängen lexikalischer Ressourcen als L EXICAL B OTTLENECK , der den Erfolg ernst zu nehmender Anwendungen der maschinellen Sprachverarbeitung gefährdete. Man begann deshalb Anfang der 1980er Jahre, systematisch große lexikalische Ressourcen für sprachtechnologische Anwendungen aufzubauen. Zu Punkt 2: In den 1980er und frühen 1990er Jahren ging man davon aus, dass ein nicht geringer Teil des Bedarfs an lexikalischen Informationen, die für sprachverarbeitende Systeme benötigt wurden, durch bereits existierende Wörterbücher abgedeckt werden könnte. Zwar sind diese für menschliche Benutzer konzipiert, dennoch beziehen sie sich auf den gleichen Gegenstand: 234 Akquisition lexikalischer Informationen eine natürliche Sprache in ihrem gegenwärtigen Stadium. Warum sollten diese Daten, wenn man sie in eine von Anwendungen maschineller Sprachverarbeitung nutzbares Format brachte, nicht die Lücken schließen können, die in den digital verfügbaren Ressourcen dieser Zeit auszumachen waren? Britische Wörterbuchverlage, vor allem Longman, stellten die Satzbänder ihrer Printwörterbücher der Forschung zur Verfügung. Da dies im Prinzip ein maschinenlesbares Format ist, spricht man von maschinenlesbaren Wörterbüchern. Zunächst einmal wurden die Einträge dieser Wörterbücher in die Textsegmente zerlegt, die bestimmten Angabetypen entsprachen. Allein das stellt bereits eine komplexe, nicht leicht zu lösende Aufgabe dar (wir haben uns damit in Abschnitt 2 des Kapitels über Wörterbuchstrukturen beschäftigt). Diese Angaben oder Datenelemente mussten sodann in eine für sprachtechnologische Anwendungen geeignete Form überführt werden. Meist handelte es sich dabei um lexikalische Datenbanken oder Wissensbanken. Traditionelle Printwörterbücher erwiesen sich aber als schlecht oder gar nicht für diesen Zweck geeignet. Die wichtigsten Gründe hierfür sind: • Die Informationen in den meisten traditionellen Wörterbüchern reflektieren nicht die Häufigkeit, mit der die beschriebenen Objekte, Strukturen, Eigenschaften etc. in Texten vorkommen. Frequenzinformation in diesen Ressourcen ist höchst lückenhaft und meist zu ungenau (F REQUENZ - P ROBLEM ). • Dadurch, dass keine quantitativen Daten erhoben werden, sind die in einem Printwörterbuch vorhandenen Angaben aus der Sicht des tatsächlichen Sprachgebrauchs verzerrt. Sehr seltene Lesarten (z.B. ein Wurf Hasen im Eintrag Satz) stehen neben sehr häufigen Lesarten (syntaktische Konstruktion im gleichen Eintrag). Wenn man an die Zielgruppe von Printwörterbüchern und deren Nachschlagebedürfnisse denkt, dann ist dieses Verfahren sicher gerechtfertigt. Greift ein Syntaxparser aber auf diese ungewichtete Information zu, dann kann dies zu einer „kombinatorischen Explosion“ von Lesarten (G EWICHTUNGS -P ROBLEM ) führen. • Angaben, die in traditionellen Wörterbüchern gemacht werden, z.B. zu Kollokationen oder Satzmustern/ Valenz, sind ebenfalls, gemessen an dem Wörterbuchgegenstand, lückenhaft (A BDECKUNGS -P ROBLEM ). • Die Beschreibungen in Printwörterbüchern geben nicht den aktuellen Stand der Sprache, die deren Gegenstand ist, wieder. Das liegt vor allem daran, dass ein Zeitraum von bis zu mehreren Jahrzehnten zwischen der ersten Anfertigung der lexikalischen Beschreibungen und der Nutzung dieser Daten in sprachtechnologischen Anwendungen liegt. Die verschiedenen linguistischen Ebenen unterliegen nicht gleichermaßen dem Phänomen des Sprachwandels. Insofern ist auf lexikalische Beschreibungen syntaktischer Eigenschaften größerer Verlass als auf die Beschreibung Akquisition lexikalischer Informationen 235 lexikalisch-semantischer Eigenschaften. Das größte Problem liegt im rapiden Wandel des lexikalischen Inventars einer Sprache, was zu einer Diskrepanz zwischen verzeichnetem und verwendetem Vokabular führt (A KTUALITÄTS -P ROBLEM ). • Den Beschreibungen liegt immer eine Interpretation der Daten durch die Lexikographen zugrunde - sofern überhaupt mit authentischen Daten gearbeitet wurde. In vielen Fällen werden Bedeutungsparaphrasen aus anderen Wörterbüchern übernommen oder Beispiele frei erfunden (S UBJEKTIVITÄTS -P ROBLEM ). • Viele der lexikalischen Beschreibungen lassen die notwendige Konsistenz für maschinell nutzbare lexikalische Ressourcen vermissen. Das gilt z.B. für das Verhältnis zwischen lexikalischer Einheit und lexikalischsemantischer Beschreibung. Die Art und Weise dieser Beschreibung sollte sich bei semantisch ähnlichen Begriffen (z.B. Kohyponymen eines gemeinsamen Hyperonyms) ähneln. Dies ist aber nicht gewährleistet, wenn die entsprechenden Einträge von verschiedenen BearbeiterInnen erstellt werden und die lexikographischen Arbeitsanweisungen zu großen individuellen Spielraum lassen (K ONSISTENZ -P ROBLEM ). Fazit dieser bei den meisten Printwörterbüchern beobachteten Mängel ist, dass alle Beschreibungen bis auf die allereinfachsten, z.B. phonologische oder morphologische Angaben, nicht ohne gründliche Nachbereitung in das Schema einer lexikalischen Datenbank oder Wissensbank übernommen werden können. Damit entfällt aber der Vorteil der schnellen Verfügbarkeit der Beschreibungen, und es bietet sich natürlich an, sofort auf die Daten zurückzugreifen, aus denen idealerweise lexikalische Beschreibungen hervorgehen: auf Korpusdaten, die den aktuellen Sprachgebrauch repräsentieren. Die relativ leichte Verfügbarkeit dieser Daten, zumindest für die gut dokumentierten Sprachen, legt es außerdem nahe, an Methoden der lexikalischen Akquisition, die auf diesen Daten basieren, zu arbeiten. 3 Lexikonmodell und lexikalisches Zeichen Lexikalische Akquisition, so wie sie hier verstanden wird, hat die Gewinnung empirisch gesicherter Beschreibungen von Eigenschaften lexikalischer Zeichen zum Ziel. Die Beschreibungen können sich auf verschiedene Eigenschaften dieser lexikalischen Zeichen beziehen. Voraussetzung ist aber immer eine klare Konzeption davon, was man als lexikalisches Zeichen betrachtet. Eine eindeutige Antwort auf diese Frage ist aus zwei Gründen wichtig. 1. Erstens müssen die durch den Akquisitionsprozess gewonnenen Beschreibungen der entsprechenden Einheit im Lexikon zugeordnet werden. Dabei macht es natürlich einen Unterschied, ob man eine quantitative Kennziffer wie die Vorkommenshäufigkeit einem Lexem zuschreibt oder einer - manuell oder automatisch - disambiguierten lexikalischen Einheit oder ob sich die Kennziffer gar nur auf eine Wortform im Paradigma eines Lexems bezieht. Mag dieser Fall noch relativ einfach klingen, so wird das Zuordnungsproblem schon größer bei der Frage, welcher Einheit man empirisch ermittelte Subkategorisierungsrahmen zuweist. Geht man von einer durch Bedeutungsanalyse gewonnenen Binnenstrukturierung eines verbalen Lexems aus und schreibt damit den Subkategorisierungsrahmen einer lexikalischen Einheit zu oder verwendet man andersherum die empirisch gewonnenen Subkategorisierungsrahmen dazu, um ein Verblexem in verschiedene lexikalische Einheiten zu strukturieren? Dies ist letztendlich auch die Frage nach dem Primat der Syntax oder dem der Semantik im Wechselverhältnis dieser beiden Beschreibungsebenen. 2. Zweitens muss der Status der Einheiten geklärt sein, die während der Analyse betrachtet werden. Wenn man eine Analyse der Einheiten vornimmt, die mit einer bestimmten Einheit gemeinsam in signifikant häufiger Weise vorkommen (wir wollen dieses Verfahren K OOKKURRENZ - A NALYSE nennen), dann muss man die Frage beantworten können, ob die im Zentrum der Analyse stehende Einheit eine Wortform ist (z.B. härter) oder eine von diesen Vollformen abstrahierte Grundform (hart) und ob somit alle unter das Paradigma dieses Lexems fallenden Wortformen betrachtet werden. Eine davon unabhängige Frage ist, ob man das lexikalische Zeichen oder die gewählte Vollform in allen Bedeutungen betrachtet oder aber eine Lesart auswählt (z.B. hart in der Bedeutung von schwer [zu ertragen]). Diese Entscheidungen haben Konsequenzen für die Auswahl der Daten, aus denen die gewünschten Informationen extrahiert werden. Das jeder Untersuchung zugrunde zu legende Modell des lexikalischen Zeichens hat sowohl einen syntagmatischen als auch einen paradigmatischen Aspekt. Akquisition lexikalischer Informationen 237 Der SYNTAGMATISCHE A SPEKT betrifft die lineare Komplexität sprachlicher Zeichen. Man kann entweder von einer Auffassung des lexikalischen Zeichens ausgehen, das sich in etwa mit der des orthographischen Wortes deckt, oder von einer Auffassung, nach der auch Teile eines orthographischen Wortes oder Folgen orthographischer Wörter den Status unabhängiger lexikalischer Zeichen erlangen können. Nach der zweiten Auffassung kommt bar (in Wörtern wie fruchtbar, machbar) oder rot sehen lexikalischer Status zu. Eine unmittelbare Folge dieser Auffassung ist, dass man die Zeichenkette rot in dem Satz Da sah er rot und schlug zu nicht als eine Instanz des Lexems rot betrachten darf. Der PARADIGMATISCHE A SPEKT betrifft die bereits weiter oben genannte Binnengliederung eines Lexems in Lesarten oder Bedeutungen. Ausführlicher werden Polysemie und Homonymie als Eigenschaften lexikalischer Zeichen und die damit verbundenen Probleme der Binnengliederung in Kapitel 3.5 behandelt. Im Zusammenhang mit der Akquisition lexikalischer Informationen stellt sich die Frage, ob und wie der Suchraum auf die Vorkommen eines lexikalischen Zeichens in einer bestimmten Lesart eingeschränkt werden kann. Dies setzt erstens einen Standard für die Binnengliederung eines Lexems (gelegentlich wird hier die semantische Gliederung des Lexems in einem anerkannten Wörterbuch zugrunde gelegt) und zweitens die Möglichkeit, diesen Standard den Korpusbelegen zuzuweisen, voraus. Wir werden allerdings sehen, dass z.B. die systematische Betrachtung der mit einem bestimmten Verb vorkommenden Nomen als Nebeneffekt eine semantische Disambiguierung dieser Nomen zur Folge haben kann. Dies ist letztlich eine empirische Bestätigung des von Cruse angenommenen „Bedeutungsvertrags“: Very often a sentence contains more than one ambiguous word form; in such cases, there will occur a kind of mutual negotiation between the various options so as to achieve the most normal combination. (Cruse (1986), S. 55) 4 Lexikalische Kategorien Bei der Analyse von lexikalischen Beschreibungen in maschinenlesbaren Wörterbüchern stellte sich auch die Frage nach der Eignung dieser Beschreibungen oder Angaben für die Anforderungen sprachverarbeitender Systeme. Es ist dabei nicht nur so, • dass viele Informationen nur implizit gegeben werden und erschlossen werden müssen - zum Beispiel muss aus der Genusangabe m für ein lexikalisches Zeichen in einem deutschen Wörterbuch meist die Information erschlossen werden, dass es sich bei dem beschriebenen sprachlichen Zeichen um ein Substantiv handelt, • dass viele Datenstrukturen über die ganze Breite des Datenangebots hinweg inkonsistent sind, und • dass Wörterbücher dieser Art quantitative Verhältnisse des Sprachgebrauchs gar nicht oder nur in unzureichender Weise registrieren. Ein großes Problem ist der Mangel an geeigneten lexikalischen Kategorien, anhand derer das Inventar an lexikalischen Zeichen hierarchisch gegliedert werden könnte. Die lexikalischen Kategorien, die in vielen Printwörterbüchern verwendet werden, sind entweder linguistisch inadäquat (etwa die Kategorisierung von Verben in transitive, intransitive und reflexive Verben), oder sie sind, wie konzeptuelle Kategorien, in Angaben zur Bedeutung versteckt und müssen aus diesen Texten erst erschlossen werden. Daher gab und gibt es Anlass, über eine angemessene lexikalische Wissensstruktur und deren Leistungsfähigkeit nachzudenken. Eine lexikalische Wissensstruktur ist dabei mehr als eine lexikalische Datenbank, in der die Strukturen maschinenlesbarer Wörterbücher mehr oder weniger genau nachgebildet werden. Man braucht präzise lexikalische Kategorien, um Generalisierungen ermöglichen, so dass die Zuordnung einer lexikalischen Einheit zu einer dieser Kategorien weitergehende Schlüsse über syntaktische oder semantische Eigenschaften dieser lexikalischen Einheit erlaubt. Boguraev und Pustejovsky charakterisieren eine solche lexikalische Wissensstruktur (L EXICAL K NOWLEDGE B ASE ) als a large-scale repository of lexical information, which incorporates more than just static descriptions of words [...] It is essentially a dynamic object, as it incorporates, in addition to its information types, the ability to perform inferences over them and thus induce word meaning in context. (Boguraev und Pustejovsky (1996b), S. 9) Eine geeignete lexikalische Wissensstruktur sollte Akquisition lexikalischer Informationen 239 • Beschränkungen in der Distribution 1 von Wörtern, • Abhängigkeit(en) der Interpretation von Wörtern vom Kontext ihres Auftretens und • linguistische Generalisierungen darstellen können (vgl. Boguraev und Pustejovsky (1996a)). Letztlich führte diese Erkenntnis zu einer deduktiven Herangehensweise an die Daten, die in maschinenlesbaren Wörterbüchern kodiert sind: Ausgehend von einer schematischen Datenorganisation, die sich für möglichst viele Anwendungen der Sprachverarbeitung eignet, versucht man, dieses Schema mit Daten aus einem oder mehreren maschinenlesbaren Wörterbüchern zu instantiieren. Véronis und Ide sprechen von „precise templates for classes of objects“ 2 und präsentieren an gleicher Stelle ein solches Schema für den Eintrag abricot 3 , siehe Abbildung 73. Abbildung 73: Eintragsschema für das Stichwort abricot 1 Mit Distribution wird die Verteilung innerhalb von Phrasen- und Satzstrukturen bezeichnet. Die Distribution von attributiven Adjektiven im Deutschen ist z.B. so, dass sie immer vor dem Substantiv, das sie modifizieren, auftreten. 2 Ide und Véronis (1995), S. 31. 3 Vgl. Ide und Véronis (1995). 240 Akquisition lexikalischer Informationen Während sich dieses Verfahren für die Analyse maschinenlesbarer Wörterbücher als Quelle anbietet, da sich in diesem Fall die Extraktion lexikalischer Informationen als Transfer lexikalischer Beschreibungen von einem Format in ein anderes gestaltet, ist ein solches deduktives Vorgehen bei der Verwendung von Textkorpora nicht so naheliegend. Ein angemessenes deduktives Vorgehen könnte in etwa so aussehen: 1. Man bildet eine lexikalische Kategorie als eine Gruppe von lexikalischen Einheiten, die in Bezug auf das oder die charakterisierenden Eigenschaften gleich oder ähnlich sind. Die Klasse sollte linguistisch motiviert sein und/ oder sich für die Zwecke maschineller Sprachverarbeitung, z.B. der maschinellen Übersetzung, als nützlich erweisen. 2. Sodann analysiert man, welche distributionellen Gemeinsamkeiten die Elemente dieser lexikalischen Klasse gegebenenfalls aufweisen. Als Basis hierfür kann ein unbearbeitetes oder ein linguistisch vorverarbeitetes Korpus dienen. 3. In einem dritten, konstruktiven Schritt kann man alle neu zu klassifizierenden lexikalischen Zeichen dieser Klasse zuweisen, wenn sie in Bezug auf die distributionellen Charakteristika hinreichende Ähnlichkeit aufweisen. Ein gutes Beispiel für eine solche Herangehensweise ist die Arbeit von Merlo und Stevenson, die Verbklassen charakterisieren und Verbvorkommen in Texten aufgrund kontextueller Eigenschaften diesen Verbklassen zuordnen (Merlo und Stevenson (2001)). Anders als in vielen früheren Arbeiten, die die Extraktion von syntaktischen Subkategorisierungsrahmen für Verben zum Ziel hatten (Brent (1993), Manning (1993)), bilden bzw. übernehmen die Autorinnen Klassen, die sich aus der semantischen Argumentstruktur von Verben ergeben. Die Bildung der Klassen ist also hier zunächst linguistisch motiviert und nicht von Überlegungen hinsichtlich der Distribution ihrer Elemente im Text geleitet. Das Ziel der beschriebenen Experimente ist es, einzig aufgrund der in Korpora vorgefundenen Belege Verben einer von drei ausgewählten Klassen zuzuordnen. Die gewählten Klassen sind die der unergativen Verben, die der unakkusativen Verben und die der Verben mit optionalem Objekt. Das Interessante an dieser Auswahl ist nun, dass die Verben aller drei Gruppen dieselben Valenzrahmen haben können, eine Unterscheidung auf der syntaktischen Ebene also nicht möglich ist. Die Autorinnen ermitteln fünf Merkmale, in denen sich die Verben der drei Klassen unterscheiden: 1. Häufigkeit des transitiven Gebrauchs 2. Häufigkeit des kausativen Gebrauchs 3. „Belebtheit“ des Subjekts Akquisition lexikalischer Informationen 241 4. Häufigkeit des Gebrauchs im Passiv 5. Häufigkeit des Auftretens des Verbs im Partizip Perfekt (past participle) Alle diese Merkmale lassen sich aus den Vorkommenskontexten der entsprechenden Verben in einem Korpus ermitteln, wenn es getaggt und oberflächlich geparst ist. Darüber hinaus zeigen Lernexperimente, in denen mit Trainings- und Testmengen gearbeitet wird, dass diese fünf Merkmale zusammengenommen einen hohen Informationswert für die korrekte Zuordnung neuer Verben haben. Wenn sich genügend Belege finden, dann können neue Verben mit einer Trefferrate von etwa 70 % der richtigen Verbklasse zugeordnet werden. Die Qualität dieser Untersuchung besteht vor allem darin, dass von unabhängig, nämlich zunächst ausschließlich linguistisch bzw. semantisch motivierten Verbklassen ausgegangen wird und für diese Verbklassen Distributionsmuster in Texten gesucht werden. Es wird eben nicht von leicht unterscheidbaren Distributionsmustern auf Klassen geschlossen, die möglicherweise linguistisch von geringerer Relevanz sind. An diesem Beispiel wird deutlich, inwiefern ein explizites Lexikonmodell den Akquisitionsprozess beeinflusst: • Das Lexikonmodell beeinflusst die Bildung lexikalischer Klassen, die Gegenstand des Akquisitionsprozesses sein sollen. • Es lässt sich a priori ermitteln, ob in (unannotierten oder annotierten) Texten Signaturen zu finden sind, die mit den Eigenschaften der lexikalischen Zeichen korrelieren und für ihre Klassenzugehörigkeit charakteristisch sind. Es lässt sich so auch feststellen, ob und unter welchen Bedingungen das Akquisitionsprojekt erfolgreich sein kann. • Es ergeben sich Kriterien, nach denen der Erfolg des Projekts im Anschluss bewertet werden kann (Aspekt der Evaluation). 5 Drei Arten lexikalischer Akquisition 5.1 Einleitung Wir werden uns im Folgenden auf drei Arten der lexikalischen Information, die aus Texten gewonnen werden können, konzentrieren. Diese Informationen liefern Antworten auf die folgenden drei Fragen: 1. Ist eine Zeichenkette Verwendungsinstanz eines lexikalischen Zeichens, Teil der Verwendungsinstanz eines komplexen lexikalischen Zeichens oder lexikalisch nicht interpretierbar? (I DENTIFIKATION ) 2. Welche morphosyntaktischen, syntaktischen und semantischen Merkmale können einem lexikalischen Zeichen zugeschrieben werden bzw. welchen aufgrund morphosyntaktischer, syntaktischer oder semantischer Eigenschaften konstituierten lexikalischen Kategorien kann das lexikalische Zeichen zugeordnet werden? (K LASSIFIKATION ) 3. Inwieweit sind die Kontexte, in denen das sprachliche Zeichen auftreten kann, syntaktisch und semantisch auf idiosynkratische Weise restringiert bzw. wie viel Informationen über die Kontexte seines Auftretens vermittelt das sprachliche Zeichen? (D ISTRIBUTION ) Für alle drei Arten der lexikalischen Akquisition werden wir im Folgenden ein verallgemeinerbares Fallbeispiel darstellen. 5.2 Identifikation Die grundlegendste, aber keinesfalls einfachste Aufgabe ist es zu ermitteln, welche Zeichenketten in einem Text Instanzen oder Verwendungen lexikalischer Zeichen sind und welche nicht. Die Formulierung dieser Aufgabe scheint sinnvoll, wenn man sie vor dem Hintergrund der folgenden beiden Überlegungen betrachtet: • Keine lexikalische Ressource ist vollständig in dem Sinne, dass sie das Vokabular beliebiger Texte abdeckt. Wir sehen hier von geschlossenen Textmengen wie dem Werk eines verstorbenen Autors und einem darauf basierenden Autorenwörterbuch ab. In einer aktuell verwendeten Sprache werden täglich neue Wörter gebildet. Den größten Fundus von Neuschöpfungen bilden die Eigennamen und die Wortbildungen der Fachsprachen. Mit der Verarbeitung eines neuen Textes - Archivierung, Übersetzung o.Ä. - müssen also zwangsläufig neue lexikalische Einheiten akquiriert werden. • Nicht jede Zeichenkette ist eine Instanz oder Verwendung einer lexikalischen Einheit. Die meisten elektronischen Texte wimmeln, wenn sie nicht gründlich vorverarbeitet sind, von Steuerzeichen, abgeschnittenen Akquisition lexikalischer Informationen 243 Wörtern und Zeichenkombinationen. Diese sollen natürlich nicht als Teile des Vokabulars einer Sprache behandelt werden. In englischen Fachtexten spricht man folgerichtig von NON - WORDS . Wir übernehmen deshalb eine Nomenklatur, in der zwischen a) Z EICHENKETTEN als beliebigen Segmenten in Texten, b) W ÖRTERN als interpretierbaren Instanzen lexikalischer Zeichen in Texten und schließlich c) LEXIKALISCHEN Z EICHEN als den von den Wörtern abstrahierten Lexikoneinheiten unterschieden wird (vgl. Lemnitzer (1997)). Diese Untergliederung reflektiert den Umstand, dass z.B. die Zeichenketten elich und 333c gar nicht interpretiert werden können und deshalb auch keine Textwörter sind, die Zeichenketten New und Phnom in deutschen Texten nur unter der Bedingung interpretierbar sind, dass York, Jersey oder Penh o.Ä. folgen und die Zeichenkette grünen unterschiedlich interpretiert, also unterschiedlichen lexikalischen Zeichen zugeordnet werden muss in Abhängigkeit davon, ob die Zeichenkette Tisch folgt oder etwa Mantel (grüner Tisch ist also eine nicht weiter zerlegbare feste Wendung, grüner Mantel nicht). Die Frage nach der „Worthaftigkeit“ einer Zeichenkette stellt sich also beim Übergang vom Text zum Lexikon, dessen Vorform ein lexikalischer Index zu diesem Text sein kann, in zweifacher Weise: 1. Ist eine Zeichenkette Instanz eines lexikalischen Zeichens? 2. Wenn ja, ist dieses lexikalische Zeichen in dem - hier als existent vorausgesetzten - Lexikon verzeichnet oder nicht? Wenn man lexikalische Indizes aufbauen möchte, also Listen von Textwörtern - im Gegensatz zu den heutzutage meist erstellten Listen von Zeichenketten - muss man für jede Zeichenkette, die sich nicht einer bereits registrierten lexikalischen Einheit zuordnen lässt, die Frage beantworten, ob es sich um ein Wort in dem o.g. Sinne handelt. Um die Menge der potenziellen Wörter von den Zeichenketten abzugrenzen, die dafür nicht in Frage kommen, kann man eine W ORTGRAMMATIK entwickeln, die die Menge der potenziellen Wörter definiert. Eine solche Wortgrammatik sollte nicht mit einer morphologisch motivierten Wortgrammatik, wie wir sie in Kapitel 9 eingeführt haben, verwechselt werden. Diese Wortgrammatik kann die Form einer regulären Sprache annehmen, die wie folgt aufgebaut ist: 1. Man definiert ein Wortalphabet als die Menge der Grapheme, die in Wörtern, die zum Bestand der beschriebenen natürlichen Sprache gehören, vorkommen können. Ist dies gegeben, dann besteht ein Wort in diesem weiteren Sinn aus einer Folge von Zeichen des Wortalphabets, die an beiden Seiten von Zeichen der Komplementärmenge begrenzt wird. Zu 244 Akquisition lexikalischer Informationen der Komplementärmenge gehören z.B. die Satzzeichen und die diversen Leerzeichen. 2. Man definiert weitere, die Menge potenzieller Wörter einschränkende Regeln. Beispiele: a) der Bindestrich darf nur im Wortinneren vorkommen; b) ein Großbuchstabe darf nur am Anfang des Wortes vorkommen. Mit der zweiten Regel würde man aber schon wieder Zeichenketten der Form LehrerInnen aus der Menge der legalen Wörter ausschließen. Man muss also sehr vorsichtig und konservativ mit einschränkenden Regeln umgehen. 3. Man definiert die Menge der Bi- oder Trigramme, die in Wörtern vorkommen dürfen bzw. man definiert deren Komplementärmenge. Die Bigramme cz und qw und viele weitere sind in Wörtern der deutschen Sprache ausgeschlossen. Ihr Vorkommen deutet meist darauf hin, dass es sich um einen Eigennamen fremdländischer Herkunft handelt. Komplementär zur Menge der Wörter haben wir die Menge der Zeichenketten, die keine potenziellen Wörter sind, also die Nicht-Wörter. In ihr finden sich vier große Gruppen: • Wörter aus anderen als der untersuchten Sprache. Diese sind für den Aufbau eines Lexikons des Deutschen unerheblich. In dem Maße, wie diese Wörter in die deutsche Sprache integriert werden, muss allerdings die Wortgrammatik für potenzielle Wörter des Deutschen überarbeitet werden. • Falsch geschriebene Wörter. Diese können auf „reguläre“ Wörter abgebildet und damit lexikalischen Zeichen zugeordnet werden, wenn sie einer oder mehreren regulären Zeichenketten hinreichend ähnlich sind. Für die Ähnlichkeit bzw. Distanz zweier Zeichenketten gibt es Metriken (z.B. die Levenshtein-Metrik, vgl. Stephen (1994)). Aufgrund solcher Metriken lassen sich sowohl hinreichende Ähnlichkeit als auch Abbildungsvorschriften bestimmen, was z.B. für Korrekturhilfen wichtig ist. • Kombinationen von Zahlen und Buchstaben, die als N AMED E NTITY eine festgelegte Interpretation haben, etwa als ISBN, Warennummern, Kfz- Kennzeichen etc. Für jeden Typ muss eine eigene Grammatik entwickelt werden. • Eine für die lexikalische Analyse nicht weiter interessante Restklasse. Einen interessanten Sonderfall bilden die Eigennamen. Die meisten Printwörterbücher führen Einheiten dieser lexikalischen Kategorie nicht auf, da die mit ihnen verbundene Bedeutung enzyklopädischer Natur ist. Andererseits stellen diese Einheiten ein wichtiges Element in Texten dar und müssen deshalb bei der automatischen Analyse von Texten berücksichtigt werden. Sie dürfen z.B. bei einer Übersetzung nicht mit übertragen werden. Für Eigennamen können Regeln aufgrund ihrer Auftretenskontexte gebildet werden. Akquisition lexikalischer Informationen 245 Für Mehrwortlexeme, also lexikalische Elemente, deren textuelle Instanzen mehr als ein Wort umfassen, z.B. Kollokationen, Phraseme, komplexe Terme, müssen andere Verfahren zu ihrer Erkennung gefunden werden. Segond et al. (1995) zeigen mit ihrem Formalismus IDAREX (‚Idioms as Regular Expressions‘), wie man diese lexikalischen Einheiten in Texten identifizieren kann, sofern diese als Einträge in einem Lexikon erfasst und entsprechend kodiert sind. Das Auffinden noch nicht registrierter mehrgliedriger Einheiten in Texten ist komplizierter. Hierfür geeignete Verfahren werden u.a. von Lemnitzer (1997) beschrieben. Wir gehen detaillierter in Kapitel 11 darauf ein. 5.3 Klassifikation Einleitung Wenn die potenziellen lexikalischen Einheiten eines Texts identifiziert worden sind, dann folgt als nächste Aufgabe, diese Einheiten weiter lexikalisch zu beschreiben, also z.B. Informationen über ihre Aussprache, ihr Genus, ihre syntaktischen Eigenschaften, ihre Bedeutung zu akquirieren. Diese Aufgabe lässt sich als Klassifikations-Aufgabe formulieren. Statt die Aufgabe zu stellen, es solle ermittelt werden, welches Genus das Textwort w i hat, können wir alternativ formulieren: Stelle fest, welcher der drei Klassen Maskulinum, Femininum, Neutrum dieses Textwort zuzuordnen ist. Die alternative Formulierung der Aufgabe weist auf einen vielversprechenden Lösungsweg. Probleme der Klassifikation lassen sich zum Teil recht erfolgreich mithilfe maschinellen Lernens lösen. Walter Daelemans stellt dies so dar: [Machine] learning is fundamentally a classification task. Given a description in terms of feature-value pairs of an input, a category label is produced. This category should normally be taken from a finite inventory of possibilities, known beforehand. It is our hypothesis that all useful linguistic tasks can be redefined this way. (Daelemans (1995), S.93) Wir gehen davon aus, dass Klassifikationsaufgaben generell von lernenden Verfahren besonders gut gelöst werden können. Lernende Verfahren stellen im Bereich der lexikalischen Akquisition aus Texten eine erwägenswerte Alternative zu statistischen Verfahren dar (vgl. Daelemans und Durieux (2000)). Es hängt von der konkreten Aufgabe ab, für welchen Ansatz man sich entscheidet. Wir werden zunächst lernende Verfahren (M ACHINE L EARNING ) im Allgemeinen beschreiben. Im Anschluss daran werden wir uns einige Beispiele 246 Akquisition lexikalischer Informationen für die Verwendung lernender Verfahren bei der Klassifikation von Textwörtern anschauen. Charakteristika von maschinellen Lernern Mitchell (1997) beschreibt einen maschinellen Lerner wie folgt: A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E. (Mitchell (1997), S. 2) Die Charakteristika eines maschinellen Lerners sind demnach: • Die Aufgabe (T), welche der Lerner durchführen soll. Wir beschränken uns hier auf Klassifizierungsaufgaben. Gegeben seien ein sprachliches Element sowie Eigenschaften dieses sprachlichen Elementes bzw. des Kontextes, in dem dieses sprachliche Element auftritt. Gegeben sei außerdem eine endliche Menge von Klassen oder Kategorien. Ziel ist es, aufgrund der Eigenschaften des sprachlichen Elements oder seines Kontextes dieses genau einer Kategorie zuzuordnen. Das Element kann zum Beispiel ein Wort und die Kategorien können die Wortarten sein, die in einer Grammatik unterschieden werden. Für einen Vokal kann ermittelt werden, ob er in einem bestimmten Kontext (Wort) lang oder kurz ausgesprochen wird. Die Aufgabe besteht nun darin, a) eine Fragestellung so zu formulieren, dass sie mit den Verfahren des maschinellen Lernens zu lösen ist; b) die Eigenschaften der zu klassifizierenden Elemente zu ermitteln, die den stärksten Einfluss auf die Zuweisung des Elements zu einer Klasse bzw. eine hohe Vorhersagekraft haben. • Das Vorwissen (V), über welches der Lerner verfügt. Der Lerner muss erstens wissen, welche Kategorien für die Klassifizierung zur Verfügung stehen. Außerdem werden bereits korrekt zugeordnete sprachliche Elemente für das Training des Lerners benötigt. Es ist u.U. schwierig, die für das Lernen notwendige Mindestmenge an Trainingsdaten zu bestimmen und den Lerner mit einer entsprechend großen Menge an Trainingsdaten zu versorgen. Je größer die Anzahl der Klassen und je größer die Anzahl der klassendeterminierenden Eigenschaften, umso höher ist die Anzahl der benötigten Trainingsinstanzen. Verfahren, den maschinellen Lerner mit vorklassifizierten Daten zu versorgen, nennt man ÜBERWACH - TES L ERNEN (‚supervised learning‘). Hiervon unterscheidet man das UN - ÜBERWACHTE L ERNEN (‚unsupervised learning‘), bei dem der Lerner sich seine Trainingsbeispiele selber generiert. • Die Leistungsfähigkeit (P) eines Lerners, die sich letztendlich nach dem prozentualen Anteil der korrekt zugeordneten Elemente bemisst. In eine Akquisition lexikalischer Informationen 247 aussagekräftige Maßzahl für die Güte eines Lerners muss natürlich auch die Anzahl der Klassen, die zur Auswahl steht, eingehen. Man verwendet deshalb als Grundwert, an dem die Güte eines Lerners gemessen wird, entweder die Prozentzahl korrekter Zuordnungen bei einer zufälligen Zuordnung der Elemente zu den Klassen oder die Prozentzahl korrekter Zuordnungen in dem Fall, dass alle neuen Elemente der am stärksten besetzten Klasse zugewiesen werden. Man verwendet eine Stichprobe bereits korrekt zugeordneter Elemente, um die Leistungsfähigkeit eines Lerners zu testen. Hierfür sondert man meist einen kleinen Teil aus den Trainingsdaten aus und nennt diese Menge die Testmenge. Um auszuschließen, dass die Testdaten im Verhältnis zu den Trainingsdaten besonders schlecht oder gut sind und so ein verzerrtes Bild der Leistungsfähigkeit des Lerners liefern, erfolgen mehrere Trainings- und Testdurchgänge, in denen die Trainings- und Testdaten jeweils anders aufgeteilt werden. Maschinelles Lernen und Lexical Acquisition Daelemans und Durieux (2000) sprechen vom INDUKTIVEN L EXIKON und meinen damit ein Verfahren, mittels maschinellen Lernens lexikalische Beschreibungen aus den Vorkommen lexikalischer Zeichen in Texten zu generieren. Der Grundgedanke hinter diesem Ansatz ist es, bereits existierende lexikalische Beschreibungen sowie ein Korpus als Quellen eines B OOT - STRAPPING genannten Prozesses zu verwenden. Beschreibungen neuer lexikalischer Zeichen werden dadurch gewonnen, dass man die zu beschreibenden lexikalischen Einheiten mit bereits im Lexikon vorhandenen und kategorisierten lexikalischen Einheiten abgleicht. Die gesuchte Eigenschaft des neuen lexikalischen Zeichens wird quasi vorhergesagt aufgrund a) anderer, ermittelbarer Eigenschaften dieses neuen lexikalischen Zeichens, b) relevanter Eigenschaftsausprägungen bereits bekannter lexikalischer Zeichen sowie c) Informationen, die aus den Auftretenskontexten im Korpus gewonnen werden können. Daelemans und Durieux (2000) belegen die Effizienz ihres Akquisitionsverfahren an zwei Fallstudien: • Die Ermittlung der Aussprache neuer lexikalischer Einheiten aufgrund ihrer graphischen Form, in der sie in Texten auftreten. • Die Ermittlung des Genus von lexikalischen Einheiten. In Daelemans et al. (1999) werden weitere Anwendungen beschrieben: • Ermittlung der Wortart von Textwörtern (Part of speech tagging); • Zuordnung von Präpositionalphrasen zu entweder einer Verbalphrase oder einer Nominalphrase im Kontext eines Satzes (PP-A TTACHMENT ); 248 Akquisition lexikalischer Informationen • Erkennung und Segmentierung von Nominalphrasen in Sätzen (sog. N OUN PHRASE CHUNKING ). Die Ermittlung der Aussprache, des Genus und der Wortart von Textwörtern sind für die Belange der lexikalischen Akquisition relevant. Das Interessante an den lernenden Verfahren, wie sie vor allem Daelemans präsentiert, ist, dass man nicht viele Daten über das zu klassifizierende Textwort benötigt. Ein einzelner Beleg ist in vielen Fällen hinreichend. Der Großteil der benötigten Informationen entstammt den sekundären Quellen, vor allem den bereits beschriebenen lexikalischen Einheiten. Dies entspricht sehr gut der Situation, in der man sich zu Beginn der Akquisition lexikalischer Beschreibungen für ein neues Textwort befindet. Die intellektuelle Leistung besteht darin, die wenigen vorhandenen Informationen zu nutzen, um Beziehungen zu den im Lexikon gespeicherten Informationen herzustellen. 5.4 Distribution Eine weitere Sorte von Informationen 4 , die für sprachtechnologische Anwendungen sehr nützlich sein können, sind Relationen zwischen lexikalischen Einheiten. Hier spielen neben morphologischen Relationen (z.B. die Beziehung zwischen Weihe und weihen) vor allem semantische Relationen eine herausragende Rolle. Semantische Relationen sind Beziehungen zwischen lexikalischen Einheiten, genauer: zwischen Bedeutungen lexikalischer Einheiten. Wir wollen dies im Folgenden am Beispiel der Selektionsbeschränkungen zeigen. Unter Selektionsbeschränkungen verstehen wir die Tendenz bestimmter Wörter, nur lexikalische Einheiten bestimmter Kategorien als „Mitspieler“ (also z.B. als Argumente) zuzulassen (essen → Nahrungsmittel). Andere Verwendungsweisen werden von den Sprechern als markiert empfunden (z.B. Angst essen Seele auf ). Für die maschinelle Sprachverarbeitung sind Informationen über Selektionsbeschränkungen aus mehreren Gründen sinnvoll. Zum einen können sie einen wichtigen Beitrag zur syntaktischen und lexikalischen Disambiguierung leisten. Im folgenden Beispiel (6) Der Mann tritt gegen den Ball. wird Ball aufgrund der Selektionsbeschränkungen des Verbs als Spielgerät (und nicht als Tanzveranstaltung) erkannt. Im folgenden Beispiel (7) Das Brot schneidet die Küchenhilfe. 4 Dieser und der folgende Abschnitt wurden freundlicherweise von unserem früheren Kollegen Andreas Wagner beigesteuert, vgl. auch Wagner (2005). Akquisition lexikalischer Informationen 249 folgt aus den Selektionsbeschränkungen von schneiden, und nicht aus der Stellung der Nominalphrasen, welche NP das Subjekt und welche das Objekt des Satzes bildet. Zum anderen können Selektionsbeschränkungen für die Sprachgenerierung eingesetzt werden, indem sie wichtige Hinweise für den Gebrauch bestimmter Wörter liefern, die aus deren Bedeutung nicht unmittelbar hervorgehen. Beispielsweise sollte eine Software für maschinelle Übersetzung das Adjektiv dick in Verbindung mit Flüssigkeiten (dicke Suppe), Gegenständen (dickes Buch) oder Materialien (dicke Wände) mit thick übersetzen, jedoch in Verbindung mit Personen (dicker Mann) oder Körperteilen (dicker Bauch) mit fat. Dies folgt aus den Selektionsrestriktionen für thick bzw. fat, die sich mit denen von dick zwar überlappen, aber nicht vollständig decken. Anzumerken ist, dass prinzipiell jede semantische Eigenschaft eine Rolle bei Selektionsrestriktionen spielen kann. Manche Prädikate stellen sehr spezielle Selektionsanforderungen an ihre Argumente. So selegiert diagonalisieren (im mathematischen Sinn) als unikales Objekt eine Matrix (vgl. McCawley (1968)). Daraus folgt, dass es empirisch nicht adäquat ist, Selektionsbeschränkungen mit einem relativ kleinen Inventar semantischer Merkmale wie <belebt> oder <abstrakt> zu modellieren, wie dies sowohl in der linguistischen Literatur als auch bei Ansätzen zur maschinellen Sprachverarbeitung häufig anzutreffen ist. Selektionsrestriktionen sind zu unterscheiden von Kollokationen (vgl. Kapitel 11). Während Kollokationen spezifische Kookkurrenz-Beziehungen zwischen Wörtern bezeichnen, sind Selektionsbeschränkungen Kookkurrenz- Beziehungen zwischen semantischen Konzepten. So selegiert das Prädikat essen wie bereits oben gesagt, das Konzept <Nahrungsmittel>. Jedoch ist die Wortverbindung Nahrungsmittel essen keine Kollokation. Aus diesem Grund ist es nicht überraschend, dass die neueren Forschungsaktivitäten zur automatischen Akquisition von Selektionsrestriktionen aus Korpora zum großen Teil auf das lexikalisch-semantische Netz WordNet (Fellbaum (1998)) oder vergleichbare Ressourcen anderer Sprachen, wie das deutsche GermaNet, zurückgreifen. In Wortnetzen dieser Art sind synonyme Wortbedeutungen zu semantischen Konzepten zusammengefasst, welche wiederum durch paradigmatische Relationen miteinander verknüpft sind. Insbesondere definieren Hyponymie/ Hyperonymie-Relationen eine hierarchische Struktur über diesen Konzepten. Wir behandeln Wortnetze und insbesondere GermaNet ausführlicher in Kapitel 6. Mit einem strukturierten Inventar von semantischen Klassen können Selektionsrestriktionen als Relationen zwischen Verb- (bzw. Adjektiv-)Konzepten einerseits und Nomen-Konzepten andererseits kodiert werden. Die oben genannten Forschungsaktivitäten (vgl. z.B. Resnik (1993), Ribas (1994), Abe und Li (1996), Agirre und Martinez (2002), Wagner (2005)) 250 Akquisition lexikalischer Informationen verfolgen den Ansatz, statt absoluter Selektionsrestriktionen quantitative Selektionspräferenzen durch statistische Analyse großer Korpora zu akquirieren. Ermittelt werden WordNet-Konzepte, die von einem Prädikat präferiert werden (z.B. <food> als Objekt von eat). Hierbei weisen sie den Konzepten jeweils einen Präferenzwert zu, der die Stärke der Präferenz charakterisiert und auf der Grundlage relativer Häufigkeiten von Prädikat-Argument- Kookkurrenzen im untersuchten Korpus berechnet wird. Tatsächlich haben Selektionsbeschränkungen eher den Charakter von Präferenzen als von scharfen Restriktionen, weshalb man auch heute eher von Selektionspräferenzen spricht. So sind kontextbedingte oder metaphorisch zu interpretierende Abweichungen von Selektionspräferenzen wie in Angst essen Seele auf durchaus gängig. Außerdem können auch innerhalb des durch Selektionsbeschränkungen sanktionierten „semantischen Raumes“ unterschiedliche Präferenzgrade vorliegen. So lassen die Selektionsbeschränkungen von lesen im folgenden Beispiel (8) Der Student liest den Artikel. die Interpretation von Artikel sowohl als Wort als auch als Text zu. Jedoch wird die Text-Lesart stärker präferiert, sofern kein spezifischer Kontext die andere Interpretation nahe legt. Die statistischen Verfahren haben also neben der automatischen Akquisition auf breiter empirischer Basis den Vorteil, dass sie durch die Quantifizierung des Präferenzverhaltens eines Prädikats das Phänomen der Selektionsbeschränkungen adäquater modellieren. Die oben genannten Verfahren unterscheiden sich u.a. in folgenden Punkten: • Einige Autoren (z.B. Resnik) modellieren die Selektionspräferenzen eines Verbs durch Präferenzwerte für alle selegierten Nomen-Konzepte. Andere (z.B. Ribas, Abe/ Li, Agirre/ Martinez und Wagner) ermitteln dagegen eine Menge von Konzepten, die das Selektionsverhalten des betreffenden Verbs auf einer angemessenen Abstraktionsebene repräsentieren. So repräsentiert das Konzept <Nahrungsmittel> die Präferenzen von <essen> auf einer adäquaten Generalisierungsebene, im Kontrast zu spezifischeren Konzepten wie <Obst>, <Braten> oder <Käsekuchen> oder zu abstrakten Konzepten wie <Gegenstand>. • Agirre/ Martinez und Wagner ermitteln Selektionspräferenzen für (semantische) Verbkonzepte. Alle anderen genannten Arbeiten ermitteln Präferenzen für Verbformen. Da Selektionsbeschränkungen semantischer Natur sind, ist die erste Alternative adäquater. Allerdings setzt die damit verbundene Ermittlung der passenden Verblesart größere Datenmengen (Kor- Akquisition lexikalischer Informationen 251 pora) voraus, da eine bestimmte Menge an Belegen für ein Verbkonzept vorhanden sein muss, um verlässliche Informationen statistisch extrahieren zu können. • Die Berechnung der Präferenzwerte variiert mehr oder weniger stark zwischen den verschiedenen Ansätzen. Zu den Details sei auf die jeweiligen Artikel verwiesen. 6 Allgemeine Methodik der lexikalischen Akquisition In diesem Kapitel haben wir die Thematik L EXICAL A CQUISITION unter mehreren Aspekten beleuchtet und einige Fallbeispiele dargestellt. Zum Abschluss wollen wir noch einmal explizit die Schritte zusammenfassen, in die sich ein lexikalisches Akquisitionsprojekt gliedern sollte: 1. Definition der Aufgabe, d.h. die Art der zu extrahierenden Informationen; 2. Auswahl der Datenbasis, d.h. a) der Datenbestände, aus denen die lexikalischen Informationen extrahiert werden sollen (in der Regel werden diese Korpora sein); b) evtl. weiterer Datenquellen, die benötigtes Hintergrundwissen liefern (z.B. existierende lexikalische Ressourcen); 3. Klären der Voraussetzungen, d.h. des zugrunde gelegten Lexikonmodells sowie des verwendeten Konzepts des lexikalischen Zeichens; 4. Festlegung des/ der Extraktionsverfahren; 5. Implementierung dieses Verfahrens; 6. Anwendung der Verfahren auf die Daten; 7. Evaluation 5 des Verfahrens und der Ergebnisse; 8. Anwendung von evtl. aus der Evaluation hergeleiteten Verbesserungsmöglichkeiten des Verfahrens oder der Daten. Bei der Definition der Aufgabe ist nicht nur die Klasse der zu extrahierenden Information zu bedenken (orthographisch, morphologisch, syntaktisch, semantisch; kategorial vs. kombinatorisch), sondern auch ihre spezifische Beschaffenheit (z.B. der Grad der Abstraktheit semantischer Klassen zur Kodierung von Selektionsbeschränkungen). Die diesbezüglichen Anforderungen hängen wesentlich von der intendierten sprachtechnologischen Anwendung der lexikalischen Informationen ab. Das Lexikonmodell und das Konzept des lexikalischen Zeichens als Voraussetzungen beeinflussen unmittelbar die Auswahl der Daten und die Spezifizität bzw. den Skopus der Verwendbarkeit der akquirierten Daten. Die Auswahl der Daten und der angewendeten Verfahren sind miteinander verknüpft. Einerseits stellen die verschiedenen Verfahren (überwachtes bzw. unüberwachtes Lernen, regelbasierte Verfahren, statistische Verfahren, Clustering-Methoden, etc., jeweils in ihren aufgabenspezifischen Ausprägungen) unterschiedliche Anforderungen an die Menge und den Informationsreichtum der benötigten Daten. Andererseits kann die limitierte Verfügbarkeit solcher Daten die Auswahl der anwendbaren Verfahren mehr oder weniger stark einschränken. 5 Als Evaluation bezeichnet man eine unabhängige Bewertung der Güte eines Verfahrens oder eines Programms. Akquisition lexikalischer Informationen 253 Beispielsweise arbeiten manche Verfahren auf der Basis von unannotierten Korpora, während andere Ansätze annotierte Korpora voraussetzen. In vielen Fällen muss ein Kompromiss zwischen den idealen und den real verfügbaren Daten gefunden werden. Benötigt man z.B. syntaktisch annotierte Korpora in einer Menge, die nicht verfügbar ist, so kann man einen Parser auf unannotierte Korpora anwenden. Damit erhält man große Mengen von syntaktisch analysierten Daten, die jedoch Fehler enthalten. Die Evaluation eines Verfahrens kann grundsätzlich auf zwei Arten erfolgen: 1. Man setzt die durch ein bestimmtes Verfahren akquirierten lexikalischen Informationen in sprachtechnologischen Anwendungen (z.B. der lexikalischen Disambiguierung) ein und vergleicht die Performanz dieser Anwendungen mit deren Performanz ohne den Einsatz lexikalischer Informationen bzw. mit der Verwendung von lexikalischen Informationen, die mit anderen Verfahren gewonnen wurden. 2. Man vergleicht die akquirierten Daten mit einem sog. Goldstandard, d.h. manuell erstellten/ überprüften, also im Prinzip fehlerfreien lexikalischen Daten. Die erste Möglichkeit ist speziell auf die getesteten Anwendungen ausgerichtet, was ein Vorteil oder ein Nachteil sein kann, je nachdem, ob man ein für spezielle Zwecke optimiertes oder ein vielseitig verwendbares Lexikon anstrebt. Die zweite Möglichkeit ist anwendungsunabhängig. Sie kann jedoch häufig nicht eingesetzt werden, da in vielen Fällen kein geeigneter Goldstandard vorhanden ist. Eine Aufgabe aus dem Bereich der lexikalischen Akquisition zeichnet sich typischerweise dadurch aus, dass die Art und die Güte der Verfahren, die für ihre Lösung verwendet werden, nicht von vornherein feststehen. Deshalb ist die Evaluierung und Optimierung der verschiedenen Ansätze im Hinblick auf die jeweilige Aufgabe unerlässlich. Insofern ist lexikalische Akquisition auch angewandte Forschung. 7 Akquisition lexikalischer Daten durch Korpusanalyse An verschiedenen Stellen dieses Buches, besonders natürlich in diesem Kapitel, gehen wir auf die Akquisition lexikalischer Informationen ein. Dies ist der zentrale Arbeitsschritt im lexikographischen Prozess, unabhängig davon, ob diese zu einem Printwörterbuch für den menschlichen Benutzer oder zu einer lexikalischen Ressource für sprachtechnologische Anwendungen führt. Heutzutage werden lexikalische Daten meist aus großen Textkorpora gewonnen. Ihnen stehen heute ebenfalls die technischen Mittel und Ressourcen zur Verfügung, um eigene Versuche durchzuführen und eigene lexikalische Daten aus Textkorpora zu erschließen. Wir wollen im Folgenden zwei Möglichkeiten hierfür vorstellen 6 : • Für die Beantwortung von wort- oder phrasenbezogenen Fragen anhand von ausreichend großen, allgemeinsprachlichen Korpora können Sie eines der beiden großen deutschen Korpusrecherchesysteme verwenden: COS- MAS II am Institut für deutsche Sprache 7 oder das Recherchesystem des DWDS-Korpus an der Berlin-Brandenburgischen Akademie der Wissenschaften 8 . • Wenn Sie lexikalische Untersuchungen an einem eigenen Korpus vornehmen wollen, dann müssen Sie ein Werkzeug verwenden, das Sie auf Ihrem Rechner installieren und das ihre Daten durchsucht, Konkordanzen erstellt und statistische Berechnungen durchführt. Wir wollen in diesem Abschnitt als Beispiel für den ersten Weg das Korpusrecherchesystem COSMAS vorstellen. Im Anschluss daran erklären wir den Umgang mit einem kleinen aber durchaus nützlichen Werkzeug namens Ant- Conc für die lexikalische Analyse Ihrer eigenen Texte, das Sie kostenlos aus dem Netz herunterladen können. 7.1 Cosmas Cosmas ist das Korpusrecherche-System des Instituts für deutsche Sprache in Mannheim. Damit ist es möglich, in einigen Korpora des Korpusarchivs in Mannheim zu recherchieren und lexikalische Daten zu akquirieren. Um mit der (linguistischen) Recherche zu beginnen, muss man zunächst: 6 Wenn Sie sich vor ihrer praktischen Arbeit mit Korpora und Korpuslinguistik vertraut machen wollen, dann möchten wir Ihnen dazu die Einführung in die deutsche Korpuslinguistik von Lothar Lemnitzer und Heike Zinsmeister (2006) empfehlen. 7 S. http: / / www.ids-mannheim.de/ cosmas2/ . 8 S. http: / / www.dwds.de/ ? corpus=1&qu=&cc=DWDS&sort=1&res=-1&cp=1 . Akquisition lexikalischer Informationen 255 • ein kleines Verbindungsprogramm, den sog. Client, herunterladen und installieren; • diesen Client starten und sich als Benutzer bei Cosmas registrieren (lassen). Der Client kann von einer Seite des Instituts für deutsche Sprache heruntergeladen werden 9 . Die Installationsanleitungen auf dieser Seite sind verständlich und für die Installation des Clients ausreichend, wenn auch etwas veraltet. Das Programm ist für alle zurzeit gängigen Windows-Plattformen verfügbar. Die Installation des Clients auf zwei verschiedenen Plattformen (Windows 98, Windows 2000) bereitete uns keine Probleme. Wer seinen Rechner bzw. seinen Internetzugang durch eine Firewall schützt, muss einen bestimmten Port öffnen. Dies ist in der Dokumentation beschrieben, kann aber möglicherweise zu Problemen führen, wenn der eigene Rechner Teil eines zentral geschützten Intranets ist. Man muss beim laufenden Betrieb des Clients bei Netzproblemen mit kryptischen Fehlermeldungen rechnen, welche man nicht zu verstehen versuchen sollte. Am besten startet man den Client einfach neu. Alternativ kann man eine plattformunabhängige, webbasierte Recherche über den Webbrowser durchführen 10 . Dieser Service ist zur Zeit der Abfassung dieses Kapitels allerdings noch in der Entwicklung und verfügt nur über einen eingeschränkten Funktionsumfang. Als Nutzer eines anderen Betriebssystems als Microsoft Windows sollte man prüfen, ob man mit den bisher realisierten Funktionen bei der eigenen Recherche auskommt. Wir werden auf diese Art des Zugangs zu COSMAS hier nicht weiter eingehen. Die Anmeldung bei COSMAS dürfte keine Probleme bereiten. Man füllt ein Online-Formular aus und schickt es an den Korpus-Server des Instituts für deutsche Sprache. Binnen weniger Minuten erhält man die Bestätigung mit Zugangsdaten und kann anfangen. Beim Start des Clients meldet man sich mit diesem Benutzernamen und Passwort an. Nach erfolgreicher Anmeldung gelangt man zum Hauptfenster für Suchanfragen. Vor diesem Hauptfenster liegt ein Fenster für die Korpusauswahl (Abb. 74). Wir haben uns für unsere Experimente für das ‚Archiv der geschriebenen Sprache‘ entschieden. In Abb. 74 sehen Sie die Korpora, die Ihnen außerdem zur Verfügung stehen. 9 S. http: / / www.ids-mannheim.de/ cosmas2/ install/ . 10 S. https: / / cosmas2.ids-mannheim.de/ cosmas2-web/ . 256 Akquisition lexikalischer Informationen Abbildung 74: Korpusauswahl Cosmas-Funktionen Mithilfe von Cosmas kann man: • in einigen Korpora des IDS-Archivs recherchieren, • dabei den Suchraum auf Teilkorpora beschränken, • Suchausdrücke formulieren, die aus einer Kombination von Suchtermen bestehen, • zu den Elementen des Suchausdruckes einfache statistische Daten einsehen, • Konkordanzzeilen einsehen, die zum Suchausdruck passen, • eine Kookkurrenzanalyse über diesen Konkordanzdaten durchführen, • die Ergebnisse der Suche auf die eigene Festplatte herunterladen (exportieren). Im Folgenden sollen die wichtigsten Funktionen des COSMAS-Recherchewerkzeugs beschrieben werden. Diese Funktionen werden anhand von Beispielrecherchen unterschiedlicher Komplexität veranschaulicht. Die Recherchezentrale Die Auswahl der Korpora sowie die Recherche in diesen wird über das zentrale Recherchefenster organisiert. Alle Funktionen werden von hier aus gesteuert. Zu diesem Fenster kehrt man nach jeder Suche wieder zurück (Abb. 75), was man allerdings wissen muss. Es gibt von den Unterfenstern aus keinen sichtbaren Weg zurück zum Hauptfenster. Nach dem Start des Clients gelangt man zum Hauptfenster erst nach der Auswahl eines Korpus und der Formulierung einer Suchanfrage. Für die weitere Beschreibung haben wir uns zunächst für eine zeichenorientierte Suchanfrage entschieden. Wir suchen nach allen Akquisition lexikalischer Informationen 257 Abbildung 75: COSMAS Recherchezentrale Vorkommen von Kid oder Kids, wobei wir aus der Liste der Schreibungen jeweils zwei Varianten ausgewählt haben (s. Abb. 76). Das zentrale Recherchefenster enthält die folgenden Bereiche: • Die Menüleiste. Hierüber sind verschiedene in den Menüs organisierte Funktionen erreichbar. • Am linken Rand befindet sich eine Liste von Abfragetemplates, die sog. „Palette“. Das Aussehen dieses Bereichs lässt sich über das Menü ‚Palette‘ verändern. Die Palette enthält Vorlagen, mit denen sich im Mittelteil des Fensters Anfragen zusammenstellen lassen. Dies ist eine Alternative zur zeilenorientierten Definition von Suchausdrücken. Wir werden weiter unten auf die beiden Alternativen eingehen. • In der Mitte befindet sich eine zunächst leere Fläche, auf der zu jeder Anfrage diese Anfrage graphisch repräsentiert wird. Das graphische Element beschränkt sich im Wesentlichen darauf, dass die Schachtelung der Teilausdrücke eines Suchausdrucks verdeutlicht wird. Da wir bereits eine Suchanfrage formuliert haben (s. oben) erhalten wir die Repräsentation dieser Suchanfrage, nämlich eine ODER-Verknüpfung der beiden gewählten Suchausdrücke. • Rechts davon befindet sich eine zuerst ebenfalls leere Fläche. Hier werden die in einer Sitzung durchgeführten Recherchen aufgelistet. In unserem 258 Akquisition lexikalischer Informationen Abbildung 76: Expansionsliste für unsere Suchanfrage. Wir wollen Belege für die Zeichenkette, die wir mit einem +-Zeichen versehen haben. Fall ist das Ergebnis unserer ersten und bisher einzigen Suchanfrage hier registriert. Ein Klick auf eines der Listenelemente startet die Auswertung des Suchterms auf dem geöffneten Korpus. • Darunter befinden sich die Schaltflächen ‚Neu‘ und ‚Suchen‘. Es ist nicht selbsterklärend, welche Aktionen ein Klicken auf eine dieser Schaltflächen auslöst. Deshalb soll dies hier kurz beschrieben werden. Der Effekt, den ein Klick auf die Schaltfläche ‚Neu‘ hat, ist, dass im zentralen Bereich des Fensters das graphische Ergebnis der letzten Suchanfrage gelöscht wird. Ein Klicken auf die Schaltfläche ‚Suchen‘ bewirkt, dass mit dem letzten definierten Suchausdruck auf dem geöffneten Korpus gesucht wird. • Der Suchausdruck steht, als Zeichenkette, im untersten Bereich des Fensters. Klickt man auf diesen Bereich, dann öffnet sich das Fenster, in dem man einen Suchausdruck formuliert. Wir gehen weiter unten genauer auf dieses Fenster ein. Akquisition lexikalischer Informationen 259 Korpusauswahl Beim Start des Clients muss man ein Korpus aus dem IDS-Archiv auswählen. Bei Beginn der Sitzung wird man aufgefordert, ein Archiv aus einer angebotenen Liste auszuwählen. Dieses Archiv ist dann der Gegenstand der Recherchen bzw. der Suchraum. Leider kann man nur jeweils ein Archiv für die Recherche öffnen, nicht mehrere gleichzeitig. Hat man ein Archiv ausgewählt, dann wird die entsprechende Datenbank geöffnet und ein sog. „virtuelles Korpus“ geladen. Ein virtuelles Korpus ist in COSMAS II ein beliebiger Ausschnitt aus einem einzigen Archiv (genauer: eine beliebige Auswahl aus den Dokumenten beliebiger Korpora eines einzigen Archivs). Das virtuelle Korpus legt also fest, welche Dokumente welchen Archivs durchsucht werden sollen, wenn dieses virtuelle Korpus als aktuelles Korpus aktiviert wird. Das einfachste virtuelle Korpus enthält nur ein einziges Dokument, das maximale virtuelle Korpus umfasst alle Dokumente aller Korpora eines Archivs. COSMAS stellt automatisch für jedes verfügbare Archiv mindestens ein vordefiniertes virtuelles Korpus bereit: dieses virtuelle Korpus umfasst das gesamte Archiv. 11 Eine Beschreibung der Korpora, die zur Auswahl stehen, befindet sich auf der Korpusreferenz-Seite von COSMAS II 12 . Hier erfahren Sie mehr zu Aufbau und Größe der Archive. Wir wollen hier nur darauf verweisen, dass das sog. ‚tagged Korpus‘ ein linguistisch annotiertes Korpus darstellt. Die Wortart und u.U. einige morphosyntaktische Eigenschaften aller Wörter dieses Korpus sind in diesem Korpus beschrieben. Diese Features stehen auch bei der Recherche in diesem Korpus zur Verfügung, wie wir später noch sehen werden. Die Feinauswahl von (Teil-)Korpora aus Archiven, der Wechsel des Archivs und einiges mehr lässt sich über das Menü ‚Korpus‘ steuern. • Vordefiniertes Korpus laden: Das Institut für deutsche Sprache hat einige Teilmengen ihrer Archive zu (häufig genutzten) Teilkorpora zusammengefasst und diese virtuellen Korpora mit Namen versehen. Über diesen Menüpunkt kann eines dieser vordefinierten virtuellen Korpora geöffnet und der Suchraum entsprechend auf dieses Korpus eingeschränkt werden. • Gruppen an/ abwählen: Durch positive oder negative Auswahl von Textgruppen kann das aktuelle geladene virtuelle Korpus noch einmal reduziert und der Suchraum damit weiter eingeschränkt werden. Nach der Auswahl der Texte für ein eigenes Teilkorpus wird man aufgefordert, diesem Teilkorpus einen Namen zu geben. Unter diesem Namen kann man 11 Dieses Zitat stammt aus der Online-Dokumentation von COSMAS. 12 S. http: / / www.ids-mannheim.de/ cosmas2/ referenz/ . 260 Akquisition lexikalischer Informationen dieses Teilkorpus sichern und später wieder laden. Dies geschieht über die Menüpunkte ‚eigenes Korpus sichern‘ und ‚eigenes Korpus laden‘. • Korpus-Zufallsauswahl: Der Suchraum wird reduziert auf die Hälfte des momentan geöffneten Korpus. Die Auswahl dieser Hälfte ist zufällig. Diese Funktion ist nützlich, wenn man z.B. Frequenz- und Verteilungsangaben durch Zufallsstichproben absichern will. • Spezielle Korpusauswahl: Hier kann man bestimmte Textmengen über Metadaten (u.a. Textüberschriften) auswählen. Man definiert eine Suchanfrage und erhält die Menge der Texte, die zu diesem Suchausdruck passen, zu einem virtuellen Korpus zusammengefasst. Dieses virtuelle Korpus erscheint auf der rechten Seite, in der Liste der Suchanfragen. Durch Doppelklick auf die entsprechende Schaltfläche kann das Korpus aktiviert werden und steht somit als Suchraum für weitere Abfragen zur Verfügung. In Abb. 77 sehen Sie ein SPEZIELLES K ORPUS . Es enthält gut 1650 Texte, deren Metadaten den String Chirac oder den String Merkel enthielten 13 . Abbildung 77: Spezielles Korpus der Texte, in deren Metadaten entweder Merkel oder Chirac vorkommt 13 Man kann die gleiche Suchanfrage selbstverständlich auch für Sarkozy an Stelle von Chirac durchführen. Allerdings ist die auf diese Weise extrahierte Datenmenge zur Zeit noch unbedeutend klein. Akquisition lexikalischer Informationen 261 • Korpus anzeigen: Hierüber erhält man eine Tabelle mit statistischen Daten zu den Teilen des momentan geöffneten virtuellen Korpus: pro Korpus die Anzahl der Wörter, die Anzahl der Texte und eine kurze Beschreibung der Kollektion, z.B. Kronen Zeitung, August 1985. • Korpus exportieren: Anders als es die gewählte Formulierung erwarten lässt, wird nicht das aktivierte Korpus, sondern lediglich die Beschreibung dieses Korpus, also eine Menge an Metadaten, auf die eigene Festplatte transferiert. • Archiv öffnen: Der Menüpunkt müsste eigentlich ‚Archivliste öffnen‘ heißen. Über die per Mausklick geöffnete Liste kann ein neues Archiv geöffnet werden. Alle mit dem bisherigen Archiv verbundenen Anfragen gehen dann verloren - das ist etwas, was man möglicherweise gar nicht möchte. Man sollte sich also einen Archivwechsel während einer Sitzung gut überlegen. Von der Suchanfrage zur Konkordanz Hat man einmal den Suchraum durch das Öffnen eines virtuellen Korpus festgelegt, dann kann man Anfragen starten, an deren Ende die Ausgabe von Textteilen, sog. Konkordanzen, steht, die auf den definierten Suchausdruck passen. Suchausdrücke lassen sich auf zweierlei Art erzeugen: • als Textstring, den man selbst entwickelt (zeilenorientiert); • als Template, das man sich aus den Vorlagen der Palette zusammenbaut, indem man Werte für die offenen Variablen eingibt (graphisch). COSMAS II bietet Ihnen in einem speziellen Dialogfenster (mit dem Titel zeilenorientierte Eingabe) die Möglichkeit an, Suchanfragen in dem selben Umfang und mit der gleichen Syntax wie in COSMAS I zu formulieren. Wenn Sie also schon mit COSMAS I vertraut sind, wird Ihnen der Einstieg in die COSMAS II-Welt mit dieser Schnittstelle vertraut vorkommen. Falls Sie jedoch von dem vollen Umfang der COSMAS-II-Suchanfragesyntax Gebrauch machen wollen, müssen Sie auf die grafische Schnittstelle wechseln. 14 Das Cosmas-Projekt stellt eine Anleitung zur Formulierung von Suchanfragen zur Verfügung 15 . Wir wollen nun anhand einiger Suchanfragen den Weg von der Suchanfrage zur Konkordanz veranschaulichen. Suchausdrücke formulieren 14 Dieses Zitat stammt aus der Online-Dokumentation von COSMAS. 15 S. http: / / www.ids-mannheim.de/ cosmas2/ hilfe/ suchanfrage/ eingabe/ home.html . 262 Akquisition lexikalischer Informationen Wie bereits erwähnt, werden wir uns zunächst auf die zeilenorientierte Suche beschränken. Das Fenster für die zeilenorientierte Suche öffnet sich, wenn man auf den unteren Bereich des Textsuchfensters klickt (der Aufbau des Textsuchfensters wird weiter oben beschrieben). Abbildung 78: Zeilenorientierte Eingabe eines Suchausdrucks Die Definition von Suchausdrücken mag zunächst komplizierter erscheinen, als sie tatsächlich ist. Nach einigen Übungen sollte man in der Lage sein, einfache und mittelschwere Suchausdrücke zu formulieren. Als erste Hilfestellungen seien empfohlen: • Im Suchtermfester befindet sich eine aufklappbare Liste mit Musterabfragen. Zum Üben kann man einige dieser Suchanfragen ausprobieren, sich die Ergebniskonkordanzen anzeigen lassen und sich so mit den wichtigsten Konstrukten der Abfragesprache vertraut machen; • COSMAS II stellt eine Anleitung zur graphischen Formulierung von Suchanfragen zur Verfügung 16 . Besonders nützlich zum Nachschlagen ist die Kurzübersicht über die Operatoren. Als häufigerer Benutzer kann man 16 S. http: / / www.ids-mannheim.de/ cosmas2/ hilfe/ suchanfrage/ query/ . Akquisition lexikalischer Informationen 263 sich das vollständige Manual ausdrucken, wie es auf dieser Einstiegsseite angeboten wird. Da der graphische Modus mehr Suchoperatoren zur Verfügung stellt, sollten Einsteiger besser direkt diesen Modus erlernen. Aufbau der Suchanfrage-Sprache Die Sprache ist aus drei grundlegenden Elementen aufgebaut: • Suchterme sind die Ausdrücke, die in Korpora gesucht werden sollen. Die Wörter denn und eigentlich sind Beispiele für einfache Suchterme. Einige Ausdrücke fassen mehrere Suchterme zusammen. Wort* repräsentiert als Suchterm alle Wörter, die mit Wort beginnen, also z.B. Wortstamm, Wortart, Wortes. Der Stern (*) steht hierbei für eine beliebige Anzahl beliebiger Zeichen, das Fragezeichen repräsentiert höchstens ein beliebiges Zeichen (Feind? → Feind, Feinde). Es wird zunächst in einer sog. Expansionsliste die Trefferanzahl für alle gefundenen Schreibweisen angegeben (s. in Abb. 76 die Expansionsliste für den Suchterm Kid). • Logische Operatoren. Diese werden einfach als die entsprechenden deutschen Wörter formuliert (und, oder, nicht). Möchte man eines dieser Wörter als Suchterm verwenden, dann muss man es in Anführungszeichen einschließen. • Der Lemmatisierungsoperator. Ein ‚&‘, vor den Suchterm gestellt, bewirkt, dass dieser als Grundform behandelt wird und alle flektierten Formen dieses Lemmas gesucht werden. • Mit Positionsoperatoren, z.B. \ w, \ s, \ p, für Wort, Satz und Paragraph, kann die Distanz zwischen zwei Suchtermen festgelegt werden. Mithilfe der Operatoren können die Positionen der Suchterme so festgelegt werden, dass z.B. zwischen ihnen ein Zwischenraum von zwei Wörtern liegt und der zweite Term dem ersten folgt ( \ +w1). Es kann festgelegt werden, dass sie im selben Satz vorkommen müssen ( \ s0), und vieles mehr. Wir haben uns bei unseren weiteren Recherchen für einen Suchausdruck entschieden, der Belege mit einem Vorkommen einer Vollform des Lemmas Kind und eine der beiden Formen Kid oder Kids liefert: &Kind und (Kid oder Kids). Von der Anfrage zur Konkordanz Durch die Expansionsfenster für alle drei Suchterme haben wir die von uns gewünschten Schreibweisen entschieden. Im Anschluss erhalten wir 4901 Belege. In Abb. 79 sehen wir einen Teil der KWIC-Konkordanz-Zeilen mit Belegen zu unserer Suchanfrage. Für jeden Beleg lässt sich der Volltext anzeigen. Die Konkordanz kann exportiert und am heimischen PC weiter analysiert und verwendet werden. 264 Akquisition lexikalischer Informationen Abbildung 79: KWIC-Konkordanz für den Suchausdruck &Kind und (Kid oder Kids) Analyse des linguistisch annotierten Korpus Wenn man in den getaggten Korpora sucht (man muss das entsprechende Archiv öffnen), dann kann man morphosyntaktische Merkmale, die in den Korpora dieses Archivs annotiert sind, bei der Bildung der Suchausdrücke verwenden. Es wird dazu der ‚MORPH‘-Operator verwendet. In Abb. 80 sehen Sie die graphische Repräsentation der Abfrage, in der nach dem Suchterm modern gesucht wird, aber nur nach verbalen Belegen. Eine Liste der Wortarten und morphosyntaktischen Merkmale erhält man, wenn man mit der Maus auf die Schaltfläche ‚MORPH‘ klickt. Wir haben in Abbildungen 81 und 82 die Treffermengen für die verbale und die adjektivische Lesart dargestellt. Es fällt auf, dass diese beiden Mengen zusammengenommen weniger ergeben als die Treffermenge für die Zeichenkette modern. Es ist uns schleierhaft, wie die verbleibenden Belege annotiert sind. Kookkurrenzanalyse Wir werden im folgenden Kaptitel, in Abschnitt 2, ausführlich die Konzepte der Kookkurrenz und Kollokation diskutieren und zeigen, wie man diese Akquisition lexikalischer Informationen 265 Abbildung 80: Suchanfrage mit Verwendung des MORPH-Operators, um die Treffermenge auf die Verben einzugrenzen Abbildung 81: Ergebnismenge für das verbal annotierte modern 266 Akquisition lexikalischer Informationen Abbildung 82: Ergebnismenge für das adjektivisch annotierte modern berechnet. Sie sollten sich damit vertraut machen, bevor Sie die Kookkurrenzanalyse von COSMAS verwenden. Wir wollen die Kookkurrenzanalyse anhand einer Untersuchung der Kookkurrenzpartner von &Kind, Kid und Kids demonstrieren. Zunächst bilden wir, wie oben beschrieben, eine Konkordanz. Wir wählen hierfür zunächst den Suchterm Kids. Das Ergebnis dieser Suchanfrage wird im rechten Teil des Hauptsuchfensters durch eine Schaltfläche repräsentiert. Wenn man mit der rechten Maustaste auf diese Schaltfläche klickt, dann erhält man ein Kontextmenü, aus dem man den Menüpunkt ‚Kookkurrenzanalyse‘ auswählen kann. Man erhält ein Optionsfenster, in dem man Folgendes einstellen kann: • Die Größe des Fensters um das Schlüsselwort herum. Alle Wörter in diesem Fenster werden als Kookkurrenzpartner gewertet. • Es wird die LOG - LIKELIHOOD RATIO zur Berechnung der Nähe zweier Wörter verwendet. Man kann den Ergebniswert anzeigen lassen oder ausblenden. In Abb. 83 sehen Sie die bindungsstärksten Kookkurrenzpartner zum Schlüsselwort Kids, wir betrachten nur die dem Schlüsselwort unmittelbar voraus- Akquisition lexikalischer Informationen 267 gehenden Wörter. Klickt man auf eine Zeile, dann erhält man die Konkordanzzeilen zum gewählten Wortpaar. In Abb. 84 sehen Sie die bindungsstärksten Kookkurrenzpartner zum Lemma Kind und seinen Vollformen. Eine erste Analyse dieser Ergebnisliste und Betrachtung einiger Konkordanzen erlauben den Schluss, dass das Wort Kid das Wort Kind nicht ersetzt oder verdrängt, sondern eine komplementäre Stelle in einer anderen Stilebene besetzt. Es wird, wie übrigens auch im Englischen, auf einer eher umgangssprachlichen Stilebene und, im Kontrast zum Englischen, sehr häufig in komplexen Eigennamen - von Musikgruppen, Jugendeinrichtungen etc. - verwendet. Abbildung 83: Kookkurrenzpartner zum Schlüsselwort Kids Eine ausgefeiltere, allerdings nicht „offizielle“ Kookkurrenzanalyse ist die Kookkurrenzdatenbank CCDB 17 . Diese Anwendung wird bewusst als experimentell bezeichnet. Ihre Verwendung erfordert einiges an Verständnis der Materie, mehr als die Kookkurrenzanalyse in COSMAS. Der Aufwand lohnt sich, denn man erhält durchaus interessantere und aussagekräftigere Ergebnisse als über COSMAS. 17 http: / / corpora.ids-mannheim.de/ ccdb/ . 268 Akquisition lexikalischer Informationen Abbildung 84: Kookkurrenzpartner zum Lemma Kind und seinen Vollformen 7.2 AntConc AntConc ist ein kleines aber leistungsfähiges Programm, dass Sie auf Ihrem PC installieren 18 und mit dem Sie anschließend Ihre eigenen Korpora durchsuchen können. Entwickelt wurde das Programm von Laurence Anthony am ‚Center for English Language Education‘ der Waseda Universität in Tokio. Das Programm können Sie benutzen, ohne Lizenzgebühren dafür zahlen zu müssen 19 . Für die meisten einfachen lexikalischen Analysen und nicht allzu große Korpora ist dieses Programm bestens geeignet. Was Sie tun können, wenn Sie größere Korpora analysieren wollen oder Ihre Anfragen komplexer sind, das haben wir im letzten Abschnitt beschrieben. Wir werden im Folgenden die für die lexikographische Arbeit wichtigsten Funktionen beschreiben. Die Details aller Funktionen können Sie der Begleitdokumentation des Programms entnehmen. 18 Das Programm können Sie unter Linux, MacOS und Windows verwenden. 19 http: / / www.antlab.sci.waseda.ac.jp/ software.html . Akquisition lexikalischer Informationen 269 Konkordanzen bilden Eine Konkordanz ist eine aus einem Text abgeleitete Datenstruktur. Es werden alle Vorkommen eines Suchausdrucks in einem Text bzw. einem Textkorpus gesucht und diese Vorkommen mit dem umgebenden Kontext dargestellt, jedes Vorkommen auf einer Zeile. Zu jeder Zeile wird die Fundstelle angegeben (siehe Abb. 85). Mit AntConc ist es möglich, direkt aus der Konkordanz an die entsprechende Fundstelle im Text zu springen und so den weiteren Vorkommenskontext zu sehen. Ein Suchausdruck, für den Belege im Korpus gesucht werden, kann aus einem oder mehreren Wörtern oder Wortteilen bestehen. Er kann auch mithilfe von regulären Ausdrücken gebildet werden. Für die Bildung von regulären Ausdrücken steht der volle Funktionsumfang der regex-Bibliothek von Perl zur Verfügung, da AntConc in dieser Programmiersprache entwickelt wurde 20 . Man kann festlegen, ob die Klein- und Großschreibung eines Buchstabens ein Unterscheidungsmerkmal ist oder nicht. Wenn die Zusammenfassung einer Menge von Suchwörtern, für die man Belege haben möchte, als ein regulärer Ausdruck zu kompliziert ist, kann man die einzelnen Wörter als Liste in die Suche einspeisen. Dies gehört zu den „erweiterten“ Suchoptionen. Der Umfang des Kontextes links und rechts des gefundenen Schlüsselworts kann den jeweiligen Bedürfnissen angepasst werden. Für das Studium mancher Wörter reicht ein relativ kleiner Ausschnitt, z.B. bei Adjektiven die darauffolgenden Substantive, die diese modifizieren. Für andere Wörter, z.B. Modaladverbien, ist ein Kontext von mindestens einem Satz notwendig. Wenn der Kontext für einen einzelnen Beleg sich als zu klein erweist, kann man immer noch an die Fundstelle im Text springen. Die Ausgabezeilen der Konkordanz können sortiert werden. Dabei kann der Sortierschlüssel entsprechend der Position relativ zum Schlüsselwort angegeben werden, z.B. als das direkt dem Schlüsselwort vorangehende / folgende Wort. Auf diese Weise werden interessante Listen sichtbar, z.B. werden, bei entsprechender Auswahl, bei einem Substantiv als Schlüsselwort alle unmittelbar vorangehenden Wörter, in den meisten Fällen Adjektive und Artikel, in sortierter Form dargeboten. Graphische Darstellung der Konkordanz Der sog. ‚Concordance Plot‘ liefert eine alternative Darstellung der Belegstellen für den Suchausdruck im Korpus. Jede Datei wird als ein umrandeter 20 Wir gehen an dieser Stelle nicht weiter auf reguläre Ausdrücke ein, sondern empfehlen bei Bedarf die Lektüre eines geeigneten Buches, z.B. Friedl (2002). 270 Akquisition lexikalischer Informationen Abbildung 85: Konkordanz für den regulären Ausdruck lexikalisch[e]? r[mnrs]? . Als Korpus diente unser Buch. Die Belege sind nach dem ersten Wort rechts vom Schlüsselwort sortiert. Kasten dargestellt. Innerhalb dieses Kastens wird für jede Belegstelle, relativ zur Gesamtheit des Textes, eine dünne Linie angezeigt. Der gesamte Kasten wirkt wie ein mehr oder weniger stark besetzter Barcode des repräsentierten Textes (siehe Abb. 86). Der gesamte Plot erlaubt einen schnellen Überblick über die Belegstellen in einem einzelnen Text oder einem Korpus. Mithilfe dieses Plots kann man sich schnell einen Überblick über die R EGIONEN des Korpus verschaffen, in dem viele Belege vorkommen. Diese Regionen wird man als besonders relevant für das durch den Suchausdruck repräsentierte Thema ansehen können. Aus Abb. 86 kann man entnehmen, dass das Wort lexikalisch bzw. dessen einzelne Formen relativ häufig in der Datei DictStruct-8.txt vorkommt, und sehr selten in der Datei Encyc-2.txt. Bildung von Clustern Die Cluster-Funktion kann verwendet werden, um eine sortierte Liste der Wörter zu erzeugen, die um das Schlüsselwort gruppiert sind. Diese Liste kann nach Vorkommenshäufigkeit der N ACHBARSCHAFTSWÖRTER oder Akquisition lexikalischer Informationen 271 Abbildung 86: Concordance Plot für den Suchausdruck, der in Abb. 85 dargestellt ist nach Präfixen oder Suffixen sortiert werden. Es kann eine minimale oder maximale Textlänge für die Nachbarschaft festgelegt werden. Abb. 87 zeigt die häufigsten Cluster aus Schlüsselwort und folgendem Wort. Wie zu erwarten, sind die meisten folgenden Wörter bei dem von uns gewählten Suchausdruck Substantive. Die Liste kann uns z.B. helfen, mehrwortige Terme für ein Glossar auszuwählen (lexikalische Einheit, lexikalisches Zeichen etc.). Als Teil der Clusterungsfunktion steht eine Funktion zur Bildung und Anzeige von N-Grammen zur Verfügung. Mit der N-Gramm-Funktion kann man eine sortierte Liste von N-Grammen anzeigen lassen, die aus Wörtern bestehen. In Abb. 88 haben wir die Liste der Wort-5-Gramme bilden lassen, die in diesem Buch vorkommen. Viele dieser 5-Gramme enthalten überwiegend Steuerzeichen der Auszeichnungssprache LaTeX, mit der dieses Buch erzeugt wurde. Es ist aber z.B. bemerkenswert, dass die Wortsequenz Unterscheidung zwischen Polysemie und Homonymie viermal im Text vorkommt. Kollokationen Die Berechnung von Kollokationen gehört sicher zu den avanciertesten Funktionen dieses Werkzeugs. Wir werden in Abschnitt 2 des Kapitels 11 (Mehr- 272 Akquisition lexikalischer Informationen Abbildung 87: Cluster für den Suchausdruck, der in Abb. 85 dargestellt ist Abbildung 88: 5-Gramme von Wörtern aus unserem Korpus Akquisition lexikalischer Informationen 273 wortlexeme) ausführlich darstellen, was Kollokationen sind und wie sie statistisch ermittelt werden. Wir empfehlen Ihnen, vor Verwendung dieser Funktion diesen Abschnitt zu lesen. Wir wollen außerdem darauf hinweisen, dass das weiter oben beschriebene Korpusrecherchesystem COSMAS über eine wesentlich bessere Funktion zur Berechnung von Kollokationen verfügt als AntConc. So fehlt in AntConc (noch) die Berechnungsmethode der Log likelihood ratio, die wir in Abschnitt 2.5 des Kap. 11 vorstellen und die für die Suche nach Kollokationen in allgemeinsprachlichen Texten am besten geeignet ist. Abbildungen 89 und 90 zeigen die Kollokanten für unseren Suchausdruck, geordnet nach der Bindungsstärke. Für Abb. 89 wurde T - SCORE als Statistik gewählt und für Abb. 90 M UTUAL I NFORMATION 21 . Man sieht an der Ausgabe, dass man, wenn man t-score verwendet, relativ viele hochfrequente Kollokanten erhält, wohingegen die Verwendung von Mutual Information viele relativ selten vorkommende Wörter in den höchsten Rängen einordnet. Dies entspricht dem, was wir in Abschnitt 2.5 des Kapitels zu Mehrwortlexemen zu den Kollokationsmaßen darlegen. Mutual Information als Berechnungsmethode ist deshalb besser geeignet für das Auffinden von terminologischen Ausdrücken in Fachtexten als t-score. Wortbezogene Häufigkeitsstatistik Unter dem Karteikartenreiter ‚Word List‘ stecken einige Funktionen zur frequenzbezogenen Wortformenanalyse. Wir haben in Abb. 91 die Wortformenstatistik für dieses Buch erstellen lassen. Der Text bestand, bei der Erstellung dieser Abbildung, aus 76 202 laufenden Wörtern, die auf 11 855 Wort-Types, also verschiedene Wörter, abgebildet werden. Die Wortliste haben wir rückläufig sortieren lassen, d.h. der letzte Buchstabe jedes Wortes bildet den ersten Sortierschlüssel, danach kommt der zweitletzte Buchstabe, usw. Auf diese Weise kann man sehr gut Gruppierungen von Wörtern mit dem gleichen Suffix erkennen und beschreiben. In der Abbildung zeigen wir den Abschnitt der Wörter, die mit angabe enden und haben damit all die Angabeklassen im Blick, von denen wir im Text sprechen. Klickt man auf eines der Wörter, dann wird eine Konkordanz mit diesem Wort als Suchausdruck angezeigt. Schlüsselwortsuche Mit AntConc kann man in einem einzelnen Text Schlüsselwörter ermitteln, die im untersuchten Text, im Verhältnis zum gesamten Textkorpus, ungewöhnlich häufig vorkommen. Zur Berechnung der Schlüsselworthaftigkeit 21 Die Berechnungsmethode lässt sich im Menü ‚Tool Preferences‘ einstellen. 274 Akquisition lexikalischer Informationen Abbildung 89: Kollokationen zu unserem Suchausdruck, Berechnungsmethode: t-score Abbildung 90: Kollokationen zu unserem Suchausdruck, Berechnungsmethode: Mutual Information Akquisition lexikalischer Informationen 275 Abbildung 91: Rückläufig sortierte Wortliste unseres Korpus stehen Log likelihood oder chi-Quadrat zur Verfügung. Wir haben für unseren Test, den wir in Abb. 92 dokumentieren, das Morphologie-Kapitel gewählt und den Rest des Buches als Referenzkorpus, vor dessen Hintergrund die Verteilung der Wörter in diesem Kapitel berechnet wird. In der Abbildung sieht man die für das Morphologie-Kapitel typischen Wörter. Auf diese Weise kann man Einheiten für eine Keyword-Liste ermitteln. Außerdem ergibt die Menge der Schlüsselwörter eine Art von thematischer Karte des entsprechenden Texts. Insgesamt liefert AntConc eine beeindruckende Menge von Funktionen der zeichenkettenbasierten Analyse von Texten und Textkorpora. Wenn man zusätzlich eine linguistische Voranalyse von Texten benötigt, um z.B. nach spezifisch linguistischen Strukturen zu suchen, dann muss man zu mächtigeren Werkzeugen greifen. Falls man dies beabsichtigt, dann sollte man sich die ‚Corpus Workbench‘ 22 , die an der Universität Stuttgart entwickelt wurde, ansehen. Für viele lexikographische Analysen ist AntConc jedoch ausreichend und zudem benutzerfreundlich. 22 S. http: / / www.ims.uni-stuttgart.de/ projekte/ CorpusWorkbench/ . 276 Akquisition lexikalischer Informationen Abbildung 92: Liste der Schlüsselwörter des Morphologiekapitels unseres Buchs 8 Weiterführende Literatur Eine sehr empfehlenswerte Vertiefung des hier präsentierten Stoffes ist das achte Kapitel des Buchs von Christopher Manning und Hinrich Schütze (1999). Die Einführung des von Uri Zernik herausgegebenen Sammelbands (s. Zernik (1991a)) ist trotz ihres frühen Erscheinungstermins immer noch lesenswert. Ein jüngerer, etwas speziellerer Überblick, der einiges mehr an mathematisch-statistischem Vorwissen verlangt, ist Schulte im Walde et al. (2001). Sergei Nirenburg und Viktor Raskin geben in Kapitel 9 ihrer Monographie zur ontologischen Semantik aus computersemantischer Perspektive einen Einblick in die Akquisition lexikalischen Wissens (s. Nirenburg und Raskin (2004)). Die Sammelbände von Zernik (1991b) und Branimir Boguraev und James Pustejovsky (1996a) geben einen guten Einblick in die verschiedenen Facetten dieses Forschungsbereichs. 9 Aufgaben 1. Zernik betont in seiner Zusammenfassung (1991a, S. 22), dass die Aufgabe der „Lexical Acquisition“ wesentlich einfacher oder in manchen Akquisition lexikalischer Informationen 277 Fällen erst möglich wird, wenn a) neben dem Text weitere Wissensressourcen (wie Wörterbücher) zur Verfügung stehen und b) die Texte, die Grundlage der Akquisition sind, linguistisch vorverarbeitet sind. Beschreiben Sie, welche zusätzlichen Informationen für die von Manning und Schütze beschriebenen Anwendungen, nämlich die • Ermittlung von Subkategorisierungsrahmen für Verben • Ermittlung von Selektionspräferenzen • Gruppierung von lexikalischen Einheiten nach semantischer Ähnlichkeit notwendig bzw. hilfreich sind. 2. Verfahren, die (teil)automatisch Informationen über lexikalische Zeichen aus Texten akquirieren sollen, sind auf Informationen, die durch die Vorkommen dieses Zeichens selbst und durch die Kontexte des Auftretens vermittelt werden, angewiesen. In dieser Übung sollen sie den Prozess der Gewinnung und Interpretation von Informationen dieser Art intellektuell nachvollziehen. Sie erhalten als Materialbasis zwei Konkordanzen mit Belegen für jede der beiden Lesarten von / Haushalt/ (a. Budget; b. Gruppe zusammenlebender Personen). Sie finden diese Konkordanzen auf der dieses Buch begleitenden Website. Analysieren Sie diese Belege und stellen Sie die Merkmale (des Worts selbst und des Kontexts) zusammen, die als gute Indizien für die eine oder andere Lesart dienen können und so für die korrekte Zuordnung weiterer Belege hilfreich sein könnten. Welche der Informationen finden Sie auch in Einträgen zu diesem Stichwort in traditionellen Printwörterbüchern? 11 Mehrgliedrige lexikalische Einheiten Sie werden in diesem Kapitel verschiedene Typen mehrgliedriger lexikalischer Zeichen kennenlernen. Sie werden hinterher wissen, wie man diese komplexen lexikalischen Zeichen in Wörterbüchern kodiert und wie man sie in Texten aufspürt. 1 Einführung Wir haben bereits in Kapitel 3 paradigmatische und syntagmatische Relationen vorgestellt, durch welche die Bedeutung lexikalischer Zeichen zumindest teilweise bestimmt ist. Nachdem wir in Kapitel 6 - in Zusammenhang mit GermaNet - ausführlich auf die paradigmatischen, nämlich lexikalischsemantischen und konzeptuellen, Relationen zwischen sprachlichen Zeichen eingegangen sind, wollen wir in dieser Einheit auf einige syntagmatische Relationen zu sprechen kommen. Wenn wir von einem Modell ausgehen, in dem sprachliche Zeichen, allenfalls eingeschränkt durch ihre syntaktische Kombinierbarkeit, frei distribuiert auftreten können, dann beschreiben wir im Folgenden für einzelne sprachliche Zeichen oder auch für Klassen sprachlicher Zeichen typische Distributionsbeschränkungen. Diese sind aber wiederum so idiosynkratisch, dass sie im Lexikon beschrieben werden sollten. Wir knüpfen damit an Abschnitt 5.4 des Kapitels zur lexikalischen Akquisition an, in dem aus der Sicht der lexikalischen Akquisition Selektionsbeschränkungen als eine Form der Distributionsbeschränkung für lexikalische Zeichen beschrieben wurden. Gegenstände dieses Kapitels sind die syntaktisch-semantische Beziehung der Kollokation, die wir zwischen Paaren von lexikalischen Zeichen ansetzen wollen, und die etwas weiter gefasste, vor allem statistisch definierte Beziehung der Kookkurrenz. Wir werden uns außerdem mit Phrasemen als einer Klasse komplexer Lexeme befassen. Das Charakteristische an Phrasemen ist, dass sie eine Gesamtbedeutung haben, die aus den Bedeutungen ihrer einzelnen Konstituenten nicht erschließbar ist. Darüber hinaus sind viele Phraseme nicht wohlge- Mehrgliedrige lexikalische Einheiten 279 formt, wenn man die grammatischen Regeln für frei kombinierte Äußerungen zugrunde legt. Verschiedentlich wurden und werden die hier beschriebenen lexikalischen Kombinationen unter dem Begriff M EHRWORTLEXEME zusammengefasst. Der Begriff Mehrwortlexem ist allerdings problematisch. Wenn wir uns an der terminologischen Unterscheidung zwischen Z EICHENKETTE , (T EXT -) W ORT und LEXIKALISCHER E INHEIT orientieren, die wir in Abschnitt 3 von Kapitel 10 eingeführt haben, dann können wir einzelne Bestandteile von Mehrwortlexemen (z.B. unikale Komponenten wie gäbe in gang und gäbe) nicht als Textwörter bezeichnen, da sie - außerhalb dieses komplexen Lexems - keine eigene Bedeutung tragen. Man spricht deshalb besser von MEHRGLIEDRIGEN LEXIKALISCHEN E INHEITEN (MLE). Die Glieder können dabei einmal Morphe sein, wie bei den meisten deutschen Komposita (z.B. Zahn-bürste) oder aber Zeichenketten, wie bei vielen englischen oder spanischen Komposita (z.B. tooth brush, cepillo de dientes). Wenn wir von Zeichenketten reden, ersparen wir uns die auf jeden Fall schwierige Entscheidung, ob diese, wenn sie ein mehrgliedriges Lexem instantiieren, wirklich Wörter in dem von uns bestimmten Sinn sind. Wir werden die Klasse der mehrgliedrigen lexikalischen Einheiten (MLE) weiter untergliedern. Die verschiedenen Arten von MLE werden in Printwörterbüchern und elektronischen Wörterbüchern unterschiedlich behandelt, wobei einige Unterschiede der Repräsentation medienspezifisch sind. Wir unterscheiden also: • P HRASEME (engl.: ‚idioms‘). Die Gesamtbedeutungen dieser Zeichen sind nicht aus den Bedeutungen ihrer Teile erschließbar. • K OLLOKATIONEN . Die Bedeutungen von Kollokationen sind in fast allen Fällen aus den Bedeutungen ihrer Bestandteile erschließbar. Das Besondere und Idiosynkratische dieser Konstruktionen besteht darin, dass meist zwei lexikalische Zeichen eine Kombination bilden, die andere, theoretisch mögliche Kombinationen zwischen synonymen lexikalischen Zeichen ausschließen oder markiert erscheinen lassen (z.B. deutsch: schütteres Haar = englisch: thin hair). • M EHRGLIEDRIGE K OMPOSITA . Diese findet man im Englischen und in den romanischen Sprachen, im Deutschen vor allem in den Fachsprachen. Einige Komposita sind transparent, also aus ihren Bestandteilen erschließbar (tooth brush), andere hingegen nicht (rote Laterne). • P HRASALE V ERBEN UND P ARTIKELVERBEN . Verben dieser Klasse bestehen aus einem Basisverb und einem Funktionswort oder Adverb (englisch: (to) throw up; deutsch: aufstoßen). Während diese lexikalischen Zeichen in der deutschen Tradition einelementig repräsentiert werden, 280 Mehrgliedrige lexikalische Einheiten werden im Englischen Verb und Partikel beim Ansetzen einer Grundform getrennt. • M EHRGLIEDRIGE F UNKTIONSWÖRTER . Diese lexikalischen Zeichen bestehen aus Folgen von Präpositionen, Adverbien etc. Diese Bestandteile müssen im Text nicht unmittelbar aufeinander folgen (z.B. deutsch: um NP(gen) willen). • F UNKTIONSVERBGEFÜGE und N OMINALISIERUNGSVERBGEFÜGE bestehen aus einem sehr generellen und bedeutungsarmen Verb und einem Nomen bzw. einer Präpositionalphrase, deren nominaler Teil die eigentliche lexikalische Bedeutung des Ausdrucks trägt (z.B. zum Abschluss bringen, Hilfe leisten). Oftmals gibt es bedeutungsähnliche einfache Verben (abschließen, helfen). Zu den Unterschieden in der Verwendung von einfachem Verb und Funktionsverbgefüge s. Storrer (2006). Wir werden uns im Folgenden auf die beiden wichtigsten und schwierigsten Gruppen beschränken: die Phraseme und die Kollokationen. 2 Kollokationen 2.1 Einleitung Wir werden im Folgenden drei unterschiedliche Auffassungen von Kollokationen darstellen: • Die Auffassung des britischen Kontextualismus, vor allem vertreten durch R. Firth (vgl. Firth (1957); Firth (1968a); Firth (1968b)); • die Auffassung der kontinentaleuropäischen (Meta)-Lexikographie, vertreten hier durch die Schriften von Hausmann (vgl. Hausmann (1985)); • die Auffassung von Kollokationen als L EXICAL F UNCTIONS , die Mel’ ˇ cuk im Rahmen seiner M EANING -T EXT -T HEORY entwickelt hat 1 . Wir werden dabei so wenig wie möglich auf den jeweiligen sprachtheoretischen Rahmen eingehen, sondern uns auf die jeweilige Auffassung von Kollokationen und die praktischen Folgen dieser Sichtweise im Kontext der Computerlexikographie konzentrieren. Der weitere theoretische Hintergrund kann aus den oben angegebenen Texten erschlossen werden. 2.2 Der britische Kontextualismus Die linguistische Forschung des britischen Kontextualismus ist stark empirisch ausgerichtet. Im Mittelpunkt der Untersuchung stehen konkrete Äußerungen bzw. Texte. Ein wichtiger Gegenstand der Untersuchung sind Wörter. Dabei werden Wörter einerseits, aus paradigmatischer Perspektive, als S Y - STEMWÖRTER charakterisiert, andererseits, aus syntagmatischer Perspektive, als S TRUKTURWÖRTER . Dieser Zusammenhang soll in Abb. 93 verdeutlicht werden. W1 und W2 stehen als Strukturwörter in einer syntagmatischen Beziehung zueinander (in unserem Beispiel: harte Währung). W1 kann zugleich als Systemwort betrachtet werden (hier: S2) und steht mit anderen Systemwörtern in einer paradigmatischen Beziehung (S1, S3, S4, in unserem Beispiel: stabile, feste, solide). Das Interesse des Kontextualismus liegt bei den syntagmatischen Beziehungen zwischen Strukturwörtern. So heißt es bei Firth programmatisch: I propose to split up meaning or function into a series of component functions. Each function will be defined as the use of some language form or element in relation to some context. Meaning, that is to say, is to be regarded as a complex of contextual relations, and phonetics, grammar, lexicography and semantics each handles its own 1 Vgl. Mel’ ˇ cuk (1998), Wanner und Mel’ ˇ cuk (1996). 282 Mehrgliedrige lexikalische Einheiten Abbildung 93: Beziehungen zwischen Strukturwörtern und Systemwörtern components of the complex in its appropriate contexts. (Firth (1968a), S. 24) Der Begriff der Kollokation bleibt dabei erstaunlich unscharf: The habitual collocations in which words under study appear are quite simply the mere word accompaniment, the other word-material in which they are most commonly or most characteristically embedded [...] (Firth (1968b), S. 180) Im Prinzip kann in einem Text mit 101 Wörtern jedes Wort mit jedem eine Kollokation bilden, was 10 000 Kollokationen entspricht. Dieses Verfahren ist offensichtlich weder in linguistischer noch in lexikographischer Hinsicht sinnvoll. In der Praxis werden Kollokationen deshalb so bestimmt, dass die in einem Text enthaltenen Strukturwörter direkt aufeinander folgen müssen oder dass ein einzelnes Strukturwort zur Ausgangseinheit bestimmt wird und die für die Beschreibung seiner kollokativen Bedeutung als wichtig erachte- Mehrgliedrige lexikalische Einheiten 283 ten Strukturwörter hinzugenommen werden (vgl. hierzu Lehr (1996), S. 22f.). Firth selber schränkt seinen Begriff der Kollokation durch das Prädikat HA - BITUAL ein (vgl. das obige Zitat; danach wäre die in Abb. 93 hervorgehobene Verbindung von W1 und W2 habituell). Ein anderer Vertreter des Kontextualismus ergänzt das Vorgehen um einen quantitativen Aspekt: In this study we are only concerned with the first category which we shall call co-occurrents in the narrow sense of collocations which are statistically positive and extremely relevant. (Geffroy et al. (1973), S. 115) Wie wir später sehen werden, ist der Begriff der S IGNIFIKANZ des Kovorkommens zweier Textwörter statistisch auf verschiedene Weisen operationalisierbar. Zugleich ist mit dem Term K OOKKURRENZ (englisch: ‚cooccurrence‘) ein Mittel zur weiteren Differenzierung gegeben. K OLLOKA - TION qualifiziert danach ein Wortpaar, das in statistisch signifikanter Weise gemeinsam auftritt. Aber nicht jedes signifikant kovorkommende Wortpaar ist eine Kollokation. Die weitere linguistische Qualifikation leistet z.B. der Ansatz von Hausmann, den wir im nächsten Absatz vorstellen werden. Zunächst wollen wir jedoch auf einige weitere Präzisierungen im Umfeld des Kontextualismus eingehen. Greenbaum 2 möchte syntaktische Beziehungen zwischen den Kollokationspartnern berücksichtigt wissen: A more valuable, if more modest, contribution might be made to the study of collocations if a relatively homogenous class of items were selected and an investigation undertaken of the collocation of each item in the class with other items that are related syntactically in a given way. (Greenbaum (1970), S. 13) Die ursprünglich ungerichtete Beziehung der beiden Kollokationspartner zueinander wird später als gerichtet betrachtet. So unterscheidet z.B. Sinclair zwischen NODE und COLLOCATE . Wir werden diesem Vorschlag bei Hausmann wiederbegegnen. Die Idee der Klassifizierung von lexikalischen Einheiten nach Ähnlichkeiten in ihrem COLLOCATIONAL RANGE wird im Konzept der LEXICAL SETS wiederaufgenommen 3 (s. Abb. 94). Weitgehend ungeklärt bleibt die Frage, welcher Grad der Ähnlichkeit des Kontextes für die Etablierung eines Lexical Sets vorausgesetzt werden muss. 2 Vgl. Greenbaum (1970). 3 Vgl. Sinclair (1991) 284 Mehrgliedrige lexikalische Einheiten Abbildung 94: Beispiel für ein LEXICAL SET 2.3 Hausmanns lexikographischer Ansatz Sowohl in der Praxis als auch in der Theorie hat Franz Josef Hausmann sich vor allem in der deutschen und romanischen Lexikographie einen Namen gemacht. Sein Ansatz, Kollokationen zu bestimmen und zu beschreiben, stützt sich stark auf die strukturalistische Theorie der romanischen Sprachen, z.B. auf Coseriu. Kollokationen sind nach seiner Auffassung nicht ein Phänomen der P A - ROLE , also des empirisch erfassbaren Sprachgebrauchs, sondern, in der Terminologie Coserius, der Norm. Sie sind damit einen Abstraktionsschritt höher angesiedelt als im britischen Kontextualismus. Hausmann richtet sich gegen den britischen Kontextualismus und dessen Frequenzbezogenheit. Kollokationen, die seiner Meinung nach interessant und deshalb verzeichnenswert sind, können durchaus auch selten verwendet werden 4 . Hausmann führt eine Unterscheidung zwischen B ASIS und K OLLOKA - TOR ein. Zwischen diesen beiden Elementen besteht eine gerichtete Beziehung: Die Basis bestimmt den Kollokator. Welche Konsequenzen das für die Lexikographie hat, wollen wir an dem Beispiel der Kollokation schütteres Haar erläutern. Wenn ein Sprecher oder Schreiber einen Text produzieren möchte, dann ist ihm daran gelegen zu erfahren, welche Prädikate dem Gegenstand Haar(e) sprachlich zugeschrieben werden können (lang, kurz, blond, rot, braun, graumeliert, strähnig, voll, dicht, schütter etc.). Dieser potenzielle Benutzer eines Wörterbuchs wird bei der Basis (Haar) nachschlagen, um Unsicherheiten bei der Wortwahl zu klären. Wenn jemand hingegen einen Text liest, dann wird er vermutlich über das Wort schütter stolpern und unter diesem Stichwort nachschlagen, um eine lexikalische Lücke 4 Wir werden aber später sehen, dass es durchaus statistische Verfahren gibt, die diesen Zusammenhang berücksichtigen. Mehrgliedrige lexikalische Einheiten 285 zu schließen. Je nach Verwendungszweck eines Wörterbuches müssen Kollokationen also an unterschiedlichen Stellen eingeordnet werden. Um diesen wörterbuchpraktischen bzw. wörterbuchkritischen Aspekt, und um die Verbesserung der lexikographischen Praxis, geht es Hausmann. 2.4 Kollokationen als Lexical Functions Die Behandlung von Kollokationen als lexikalische Funktionen erfolgt im Rahmen der Meaning Text Theory. Wir werden nicht weiter auf diesen theoretischen Rahmen eingehen. Dieser ist z.B. in Mel’ˇ cuk (1981) dargestellt. Seinen lexikographischen Niederschlag fand und findet dieser theoretische Ansatz in den Explanatory Combinatorial Dictionaries (ECD), die für das Russische und für das Französische erschienen sind 5 . Diese Wörterbücher stellen gewissermaßen einen Typus in der Mitte zwischen dem traditionellen Printwörterbuch und einer lexikalischen Ressource für sprachverarbeitende Systeme dar. Zwar sind die o.g. Wörterbücher als Printwörterbücher erschienen. Die lexikographischen Beschreibungen sind aber so stark formalisiert, dass sie einen überaus kundigen und erfahrenen Benutzer voraussetzen. Andererseits ist diese starke Formalisierung ein Aspekt, der diese Ressourcen für die maschinelle Verarbeitung interessant macht. Der Artikel Colère, der im Folgenden ausschnitthaft wiedergegeben wird, soll diesen Aspekt veranschaulichen. Colère, nom, fém [...] M AGN : forte, grande; terrible; épouvantable; sauvage, folle; aveugle; insurmontable; incroyable, indescriptible, sans nom; hystérique ‖ rage, fureur. M AGN [ actions aggressives ] : furieuse, violente. P RED M AGN : ne plus connaître de bornes. M AGN temp : constante [...] Der uns hier interessierende kombinatorische Aspekt der lexikalischen Beschreibung ist Gegenstand des Artikelteils zur Semantik. Der Anspruch hier ist kein geringerer als eine systematische Abdeckung der Kovorkommens- Restriktionen, die für ein Lexem gelten. Diese Restriktionen sind eine alternative Darstellungsweise für das Kollokationspotenzial eines Lexems. Das Mittel hierfür ist eine begrenzte Menge von lexikalischen Funktionen, wobei es neben einer kleinen Anzahl von Standard-Funktionen noch eine offene Erweiterungsklasse ( NON - STANDARD LEXICAL FUNCTIONS ) gibt. Die formale Definition einer lexikalischen Funktion ist wie folgt: An LF f is a dependency that associates with a Lexeme L , called the keyword of f , a set of (quasi-)synonymous lexemes L i , called the value of f ; an L i expresses - with respect to L - an abstract meaning which corresponds to f . (Wanner und Mel’ ˇ cuk (1996), S. 212) 5 Vgl. Mel’ ˇ cuk und Zolkovskij (1984-1992), Mel’ ˇ cuk (1984-1992). 286 Mehrgliedrige lexikalische Einheiten Wenn man die Terminologien der drei Ansätze vergleicht, dann entspricht dem Keyword in diesem Kontext der Collocator oder die Kollokationsbasis und der Lexemmenge L i , die hier W ERT DER F UNKTION genannt wird, entspricht die Kollokantenmenge. Das Neue und Interessante des Lexical Function-Ansatzes ist genau die Tatsache, dass Gruppen von Kollokanten im Hinblick auf ihre Funktion, die sie in Bezug zur Kollokationsbasis ausüben, zusammengefasst werden. Man beachte aber auch hier die konzeptuelle Nähe zu den Lexical Sets bei John Sinclair. Die Standardfunktionen sind z.B. im Vorwort des Dictionnaire explicatif et combinatoire du français contemporain definiert. Die Definition zur Funktion Magn etwa lautet wie folgt: Magn : provides for its keyword (which is a lexeme with a scalable meaning) an adjectival or adverbial phrase that expresses the meaning ‚intense(ly)‘ (Wanner und Mel’ ˇ cuk (1996), S. 214) Wir haben die Lexikalische Funktion Magn im obigen Artikelausschnitt wiedergegeben. Lexikalische Funktionen können kombiniert und konfiguriert werden, so dass sich aus dem Basisvokabular von ca. 60 Standardfunktionen ein weit größeres Inventar von Funktionen bilden lässt. Die Datenquellen, die mit dem beschriebenen Instrumentarium entwickelt wurden, also die vorhandenen Wörterbücher, sind eine nützliche Quelle für die Sprachproduktion: Man hat, von der gewünschten Funktion eines Kollokanten ausgehend, Zugriff auf die sprachlichen Einheiten, die diese Funktion in Bezug auf das Basiswort erfüllen. 2.5 Signifikantes Kovorkommen von Wortpaaren Einführung In den verschiedenen linguistischen und lexikographischen Theorien, die Kollokationen beschreiben, tauchen immer wieder Prädikationen auf wie z.B. HÄUFIG , REKURRENT , TYPISCHERWEISE , HABITUAL , die quantitativ und statistisch operationalisiert werden müssen. Wir haben aber auch gezeigt, dass sich der Begriff der Kollokation nicht vollständig quantitativ herleiten lässt. Auch aus diesem Grunde haben wir den Term K OVORKOMMEN eingeführt. Dieser lässt sich zusammen mit weiteren Prädikationen (z.B. SIGNIFI - KANT ) auf verschiedene Weise quantifizieren. Wir werden im Folgenden auf einige bisher angewendete Verfahren eingehen, wobei wir uns an Kapitel 5 der Foundations of Statistical Natural Language Processing (Manning und Schütze (1999)) orientieren. Mehrgliedrige lexikalische Einheiten 287 Frequenz von Bigrammen oder Trigrammen Dieses recht einfache Verfahren wird wie folgt auf ein Textkorpus angewendet. Man zerlegt den Text in Bigramme bzw. Trigramme (in diesem Fall Folgen von zwei oder drei Zeichenketten), filtert aus diesen Bi- oder Trigrammen die Zeichenketten heraus, in denen das zu untersuchende Wort (oder eine Wortform des zu untersuchenden Lemmas) vorkommt, und ordnet diese Ketten nach der Häufigkeit des Vorkommens im Text. Man hat auf diese Weise Gruppen - Paare, Tripel - von unmittelbar aufeinander folgenden Wörtern bzw. lexikalischen Zeichen im Blick. Der R ECALL dieses Verfahrens ist nur dann gut, wenn sich die strukturelle Beziehung zwischen Kollokant und Kollokator in deren räumlicher Nähe niederschlägt wie z.B. bei Adjektiv-Substantivpaaren. Die P RECISION dürfte eher schlecht ausfallen, da auch Wortpaare hoch gewertet werden, die lexikographisch uninteressant sind. Dies ist z.B. bei hochfrequenten Kollokanten (der, und etc.) der Fall. Da diese generell häufig vorkommen, werden sie wahrscheinlich auch im Umfeld des Kollokators vorkommen. Mit anderen Worten: Die globale Vorkommenshäufigkeit der Kollokanten wird nicht berücksichtigt und gewichtet. Die Beispiele in Tab. 4 bis 7 zeigen die Kollokanten des Kollokators essen, zum einen in unbereinigter, zum anderen in manuell bereinigter Form. f w w 475 zu 129 und 55 nicht 38 sie 30 nichts 26 Er 25 mehr 24 man 22 wir 21 Ich ... Tabelle 4: Kollokanten des Kollokators essen im Vorfeld Durchschnitt und Varianz In der zweiten Versuchsanordnung wird ein Fenster von Wörtern um ein Schlüsselwort herum betrachtet. Jedes Textwort innerhalb dieses Fensters 288 Mehrgliedrige lexikalische Einheiten f w w 19 gut 17 Fleisch 15 Angst 13 Mittag 12 Kirschen 12 etwas 11 heiß 9 billig 8 Tag 8 Menschen 8 Bananen 7 Gemüse 7 Fisch 7 Eis 7 Brot 6 Schweinefleisch 6 satt 6 Pizza 6 Abend ... Tabelle 5: Ausgewählte Kollokanten des Kollokators essen im Vorfeld f w w 259 und 53 zu 47 haben 45 werden 40 gehen 38 sie 37 ich 34 wird 33 hat 29 wir 29 die 28 will 27 oder 26 mit 22 können 21 er 20 kann 20 bekommen ... Tabelle 6: Kollokanten des Kollokators essen im Nachfeld Mehrgliedrige lexikalische Einheiten 289 f w w 40 gehen 28 will 22 können 20 kann 20 bekommen 19 wollen 17 Seele 14 müssen 12 gab 9 wollte 9 sollen 8 gern 7 mußten 7 Menschen 7 lieber 7 darf 6 soll 6 mußte 6 möchte 6 konnte ... Tabelle 7: Ausgewählte Kollokanten des Kollokators essen im Nachfeld wird als potenzieller Kollokator betrachtet. Es wird nicht nur die Häufigkeit des Kovorkommens von Schlüsselwort und Umgebungswort betrachtet, sondern auch die räumliche Distanz der beiden zueinander in jedem Beleg. Über allen Distanzwerten werden für jedes Paar der Mittelwert und die Varianz berechnet. • Der Varianzwert ist der Indikator für die Güte einer Verbindung. Je niedriger die Varianz, desto konstanter der Abstand von Schlüsselwort und Umgebungswort. • Wenn die Varianz niedrig ist, dann gibt der Mittelwert die „typische Position“ des Umgebungswortes im Verhältnis zum Schlüsselwort an. Ist die Varianz groß, dann ist der Mittelwert ohne Belang. Das Verfahren oder Maß wurde von Smadja eingeführt 6 . Tabelle 8 enthält die Umgebungswerte der Kollokanten des Kollokators Mäusen. Man sieht, dass das Verteilungsmuster von von, mit, den unspezifisch ist, wohingegen die Kollokanten Menschen, transgenen, zerfressen eine klare Präferenz für eine Position aufweisen. Wir haben damit aber noch nichts über 6 Vgl. Smadja (1992). 290 Mehrgliedrige lexikalische Einheiten Kollokant Verteilungsmuster Menschen 0 / 0 / 1 / 0 / 0 / X / 0 / 79 / 1 / 0 / 0 / von 4 / 2 / 4 / 4 / 13 / X / 2 / 0 / 1 / 1 / 0 / mit 0 / 2 / 2 / 9 / 8 / X / 3 / 2 / 2 / 0 / 1 / den 2 / 1 / 3 / 9 / 10 / X / 1 / 1 / 0 / 1 / 1 / transgenen 0 / 0 / 0 / 0 / 5 / X / 0 / 0 / 0 / 0 / 0 / zerfressen 0 / 0 / 0 / 0 / 0 / X / 2 / 0 / 0 / 0 / 0 / Tabelle 8: Verteilungsmuster einiger Kollokanten des Kollokators Mäusen. Die Position des Kollokators im Fenster ist mit X markiert. weitere linguistische Kriterien gesagt, die diese Kollokanten in Verbindung mit Mäusen zu einer Kollokation im engeren Sinn qualifizieren könnten. Testverfahren Was wir eigentlich wissen wollen, ist nicht, ob zwei Wörter in einem Korpus oft miteinander vorkommen, sondern, ob sie deutlich öfter vorkommen, als sie das täten, wenn alle Wörter zufällig verteilt wären. Die Annahme (Hypothese H 0 ) ist die, dass das Vorkommen der zwei untersuchten Wörter unabhängig voneinander ist: H 0 → P ( w 1 , w 2 ) = P w1 × P w2 (1) Es wird die Sicherheit bestimmt, mit der diese Hypothese zurückgewiesen werden kann. Wir werden uns im Folgenden einige Testverfahren ansehen. Der t-Test Es werden Mittelwert und Varianz einer Stichprobe untersucht unter der Hypothese, dass diese Stichprobe aus einer zugrunde liegenden Verteilung mit dem Mittelwert μ stammt. Der ermittelte Kennwert, t , der tatsächlich beobachteten Verteilung gibt an, wie wahrscheinlich es ist, dass die Stichprobe aus der zugrunde liegenden Verteilung stammt. t = ¯ χ − μ sqrt s 2 N (2) Interpretation: Es geht nur die Varianz der Stichprobe in die Berechnung von t ein. Je größer die Varianz, umso kleiner t . Je größer die Abweichung der beiden Mittelwerte voneinander, umso größer ist t . Je größer t , um so sicherer können wir sein, dass die Stichprobe nicht aus der zugrunde liegenden Verteilung stammt, d.h. die Wahrscheinlichkeit, dass diese Behauptung falsch ist, sinkt. Mehrgliedrige lexikalische Einheiten 291 Bezogen auf unser Beispiel bedeutet das: Der t-Test berücksichtigt die Anzahl der Kovorkommen zweier Wörter w 1 und w 2 ( f w1,w2 ) relativ zur Gesamtzahl der Vorkommen beider einzelner Wörter. Der t-Test eignet sich besonders gut dafür, zwei Verteilungen miteinander zu vergleichen. t = ¯ χ 1 − ¯ χ 2 sqrt s 2 1 n 1 + s 2 2 n 2 (3) In diese Gleichung 7 gehen die Varianzen beider Verteilungen ein. Anwendung dieses Verfahrens ist die Ermittlung von Differenzen im Collocational Range zweier bedeutungsähnlicher Wörter (und damit auch die Ermittlung subtiler Bedeutungsdifferenzen). Church et al. (1991) etwa verwenden das Verfahren, um die idiosynkratischen Differenzen in den Kollokantenmengen der bedeutungsnahen Adjektive strong und powerful zu beschreiben. Ein Beispiel aus dem Deutschen sind die beiden Substantive Handeln und Tun. Wenn man die Kollokantenmengen der beiden lexikalischen Zeichen vergleicht, dann wird man feststellen, dass Tun negativere Kollokanten (z.B. verbrecherisch, hinterhältig) an sich bindet als Handeln (z.B. verantwortungsvoll, überlegt). Dies macht dis subtilen Unterschiede in der Verwendung dieser beiden ansonsten synonymen Substantive sichtbar. Der chi-Quadrat Test Der chi-Quadrat-Test basiert auf einer Binomialverteilung. Das klassische Beispiel für diese Verteilung ist der wiederholte Wurf einer Münze. Für jedes Ereignis in einer Folge von Ereignissen wird festgestellt, welcher von zwei Klassen es zugeordnet werden kann. Beim Münzwurf sind die beiden Klassen zum Beispiel Kopf und Zahl. Übertragen auf die Beobachtung des Vorkommens eines Wortes in einer Textbasis lässt sich dies so formulieren: Für jedes Textwort wird festgestellt, ob es sich um das gesuchte Wort handelt oder nicht. Da es sich hier um Paare von Textwörtern handelt, die wir beobachten anhand der Fragestellung, ob ihr tatsächliches Kovorkommen ihr erwartetes Kovorkommen signifikant übersteigt, haben wir es mit vier verschiedenen möglichen Ergebnissen zu tun. In einem festen Kontext, zum Beispiel einem Fenster von fünf Textwörtern, • kommen w 1 und w 2 gemeinsam vor (das uns interessierende Kovorkommen) • kommt w 1 vor, nicht aber w 2 • kommt w 2 vor, nicht aber w 1 • kommen weder w 1 noch w 2 vor 7 Vgl. Manning und Schütze (1999), S. 167. 292 Mehrgliedrige lexikalische Einheiten Die Ergebnisse kann man in eine V IERFELDERTAFEL eintragen. Das abstrakte Schema einer Vierfeldertafel ist in Tabelle 9 dargestellt. Neben den vier Feldern mit den Vorkommenshäufigkeiten bzw. Wahrscheinlichkeiten der vier möglichen Kombinationen enthält die Tafel Randsummen, zu denen jeweils zwei Werte (einer Spalte oder Zeile) aufaddiert sind. O(.,.) O(.,1) O(.,2) O(1,.) O(1,1) O(1,2) O(2,.) O(2,1) O(2,2) Tabelle 9: Abstrakte Vierfeldertafel Wir haben den chi-Quadrat Test auf ein Paar von Textwörtern angewendet, das wir bereits an anderer Stelle gründlicher dargestellt haben (vgl. Kapitel 5.2 in Lemnitzer (1997)). Es handelt sich um die Wörter harten und Bandagen. Die möglichen Kombinationen sind in diesem Fall • (1,1) harte + Bandagen • (1,2) harte + nicht(Bandagen) • (2,1) nicht(harte) + Bandagen • (2,2) nicht(harte) + nicht(Bandagen) Dabei ergab sich folgende Verteilung, die durch die Vierfeldertafel in Tabelle 10 dargestellt wird. 35903211 64 35903147 393 11 382 35902818 53 35902765 Tabelle 10: Vierfeldertafel für unsere Versuchsdaten Setzt man die Werte in die folgende Formel ein, dann erhält man einen Wert von 172 705,5 8 . χ 2 = N ( O 1,1 O 2,2 − O 1,2 O 2,1 ) 2 ( O 1,1 + O 1,2 )( O 1,1 + O 2,1 )( O 1,2 + O 2,2 )( O 2,1 + O 2,2 ) (4) 8 Der Buchstabe O in der abstrakten Vierfeldertafel und der folgenden Formel ist als Platzhalter für den konkreten Wert zu betrachten. Mehrgliedrige lexikalische Einheiten 293 Der Wert ist wie folgt zu interpretieren: Je höher er ist, umso stärker weicht die beobachtete Verteilung (hier das Kovorkommen der beiden Ereignisse) von einer zufälligen Verteilung der Daten ab. Ein entscheidender Nachteil für die Anwendung dieses Tests in unseren Szenarien ist, dass er störanfällig ist und verzerrte Ergebnisse wiedergeben kann, wenn in einer oder mehreren Zellen sehr kleine Werte stehen. Wie wir oben gesehen haben, fallen in den Bereich der Kollokationen aber auch Paare von Textwörtern, die relativ selten vorkommen 9 . Likelihood ratios Die Maximum likelihood ratio ist ein Wert, der das Verhältnis zweier Ereignisräume zueinander ausdrückt - den gesamten Parameterraum und einen Teil dieses Raums. Es wird gegen die Hypothese der Gleichverteilung in beiden Räumen geprüft. Der Test baut ebenfalls auf der Vierfeldertafel auf. Er ist verlässlicher als der soeben beschriebene, vor allem wenn sehr kleine Zahlen in einigen Zellen stehen. Die Funktion ist asymptotisch chi-Quadrat verteilt. Es kann, wie auch im chi-Quadrat-Test, auf die Gleichheit der zweier Binomialverteilungen zugrunde liegenden Parameter geprüft werden. Ähnlich kann auch die Gleichheit der Parameter p(j) von s Binomialverteilungen B(n(j),p(j)) getestet werden. Dazu schreibe man in die erste Zeile einer 2 x s-Tafel jeweils die Anzahl der Erfolge v(j)[...] und in die zweite Zeile die Anzahl der Misserfolge n(j) - v(j). Der Test auf Unabhängigkeit in dieser Kontingenztafel bedeutet dann gerade das Testen der Hypothese H(0): p(1) = ... p(n) (Hartung (1993), S. 496) Dies kann man für eine Vierfeldertafel mit der folgenden Gleichung ausdrücken G 2 = 2 2 ∑ j=1 n 1j ln n 1j n .. n 1. n .j + 2 2 ∑ j=1 n 2j ln n 2j n .. n 2. n .j (5) Eigene Untersuchungen haben ergeben, dass man mithilfe der MAXIMUM LIKELIHOOD RATIO verlässliche und intuitiv einleuchtende Ordnungsstatistiken über den Kollokanten eines Kollokators erreicht. 9 Wir empfehlen allen, die sich weitergehend für diese Teststatistik interessieren, die Webseite http: / / www.georgetown.edu/ cball/ webtools/ web_chi_tut.html mit einem Tutorial zum chi-Quadrat-Test von Prof. Connor-Linton. 294 Mehrgliedrige lexikalische Einheiten Mutual information Das ursprüngliche Anwendungsfeld dieses Verfahrens sind Messungen über zwei Zufallsvariablen. Die Kennziffer quantifiziert die Größe, um die unsere Unsicherheit über die Verteilung der möglichen Ausprägungen einer Zufallsvariable abnimmt, wenn wir die Verteilung der jeweils anderen Zufallsvariablen kennen. Das Maß ist symmetrisch. It is the reduction in uncertainty of one random variable due to knowing about another. (Manning und Schütze (1999), S. 66) Dieser generelle Ansatz kann wie folgt auf unsere Fragestellung nach der Kollokabilität von zwei beliebigen Textwörtern übertragen werden: Zwei Textwörter sind desto enger aufeinander bezogen, je mehr Informationen wir aus den Vorkommen des einen Textwortes über das Vorkommen des anderen Textwortes entnehmen können. Als Findeprozedur für Kollokationen wird allerdings die spezifischere POINTWISE MUTUAL INFORMATION zwischen zwei Ereignissen als Maß angewendet. Gemeinhin wird dieser Wert als Anzahl von Bits für die Kodierung dieser Information gemessen, also als Logarithmus zur Basis 2. Man kann nun recht einfach zeigen, dass dieses Maß seltene Ereignisse bevorzugt: Zwei Ereignisse x und y , die jeweils nur einmal beobachtet werden, dann aber gemeinsam, haben den größten Kennwert, nämlich einen der etwa dem Logarithmus dualis von T entspricht ( T sei hier die Größe des untersuchten Korpus). Diese Bevorzugung seltener Ereignisse führt auch dazu, dass, aus der Sicht der Kollokationssuche, uninteressante Beziehungen bevorzugt werden 10 . MI wird mit folgender Formel bestimmt: M I ( a, b ) = ld P ( a & b ) P ( a ) P ( b ) = ldP ( a, b ) − ld ( P ( a ) P ( b )) (6) Wenn man die Frequenzen als Schätzer für die Wahrscheinlichkeiten einsetzt, erhält man: mi ( a, b ) = ld f a & b T f a T f b T (7) In dem Falle, dass die Vorkommensfrequenz immer 1 ist (also: a und b kommen im Korpus je einmal vor und in diesem einen Fall gemeinsam), dann 10 Man beachte, dass die am Anfang dieses Abschnitts genannten Prädikationen wie REKUR - RENT , HABITUAL nicht mit dieser Teststatistik kompatibel sind. Mehrgliedrige lexikalische Einheiten 295 erhält man, wie man durch Umformung zeigen kann, als Maximalwert den Logarithmus dualis von T. Fazit: MI ist ein gutes Maß für statistische Unabhängigkeit, aber ein schlechtes für statistische Abhängigkeit. Um die Unterschiede deutlich zu machen, zeigen wir zum Schluss eine Liste von Kollokanten zur Basis essen. Die Kollokanten sind geordnet nach den Kennziffern, die einmal mittels des Mutual-Information-Verfahrens ermittelt wurden (Tabelle 11) und zum anderen mittels des Log-Likelihood- Ratio-Verfahrens (Tabelle 12). Ordnungsvs. Teststatistiken Die hier beschriebenen statistischen Testverfahren gehen von bestimmten Verteilungshypothesen aus. Die wichtigste und kritischste Annahme ist die, dass die Wörter in den beobachteten Texten zufällig verteilt sind. Von dieser Annahme ausgehend werden die Abweichungen in den tatsächlich aufgetretenen Verteilungen beobachtet. Der Sinn einer Teststatistik ist der, einen Schwellenwert festzulegen. Wird dieser überschritten, dann kann man mit einer bestimmten Sicherheit sagen, dass die beobachtete Stichprobe nicht mit der Grundgesamtheit, für die diese Verteilungsannahme postuliert wird, übereinstimmt. Die Abweichung ist signifikant. Es ist aber bekannt, dass die meisten Texte kein Produkt von Zufallsprozessen sind. Legt man nun ein gängiges Konfidenzintervall 11 zugrunde, dann sind fast alle beobachteten Erscheinungen SIGNIFIKANT ABWEICHEND von der hypostasierten Zufallsverteilung. Teststatistiken sind deshalb als solche nicht geeignet, um den Ereignisraum schlüssig in interessante und uninteressante Phänomene aufzuteilen. Mit ihrer Hilfe gelingt es aber, eine Ordnung in die große Zahl kovorkommender Textwörter zu bringen. Sie sind deshalb als Ordnungsstatistiken eine große Hilfe, den Weizen von der Spreu zu trennen bzw. die Aufmerksamkeit der Lexikographen auf die Phänomene zu lenken, die interessant und verzeichnenswert sein dürften. 11 Mit Konfidenz bezeichnet man die Sicherheit, mit der aus statistischen Daten ein Schluss gezogen werden, z.B. eine Hypothese bestätigt oder zurückgewiesen werden kann. 296 Mehrgliedrige lexikalische Einheiten Rang Kollokant f y f xy Kennziffer (Beste Werte) ... 1 Ausstattungseinfall 1 1 15.580854 2 scharfwürzige 1 1 15.580854 3 scharfgewürztes 1 1 15.580854 4 Menschenkot 1 1 15.580854 5 Berches 1 1 15.580854 6 Cebeche 1 1 15.580854 7 Chinesen-Pärchen 1 1 15.580854 8 Hähnchenkeulen 1 1 15.580854 9 Babybrei 1 1 15.580854 ... (Mittelteil der Tabelle) ... 500 Rettet 84 1 9.188536 501 Schnitzer 85 1 9.171463 502 anzuziehen 85 1 9.171463 503 Packung 87 1 9.137910 504 Grill 87 1 9.137910 505 Assistentin 87 1 9.137910 506 weißt 88 1 9.121422 507 Frage 89 1 9.105120 508 ausruhen 90 1 9.089000 509 Akkordeon 91 1 9.073059 510 lautlos 91 1 9.073059 511 schlau 92 1 9.057292 ... (schlechteste Werte) 1756 Zeit 50751 1 -0.050295 1757 zwischen 56636 1 -0.208578 1758 seiner 59256 1 -0.273820 1759 dieser 59548 1 -0.280912 1760 für 446872 7 -0.381294 1761 zur 128773 2 -0.393617 1762 Frankfurt 73545 1 -0.585486 1763 unter 75482 1 -0.622991 1764 nach 229414 3 -0.641778 1765 Millionen 79248 1 -0.693233 1766 Prozent 98558 1 -1.007832 1767 des 495138 5 -1.014690 1768 durch 101330 1 -1.047848 1769 bis 148345 1 -1.597743 Tabelle 11: Mit M UTUAL I NFORMATION ermittelte und nach Kennziffer sortierte Kollokanten zu essen Mehrgliedrige lexikalische Einheiten 297 Rang Kollokant f y f xy Kennziffer (Beste Werte) ... 1 zu 543573 313 2187.53987 2 und 1350786 293 1497.93651 3 trinken 603 48 799.519007 4 sie 186307 81 507.750373 5 etwas 23312 50 468.418694 6 nichts 22360 40 360.052717 7 was 40830 43 342.219789 8 Mittag 569 20 299.099809 9 Seele 1554 20 258.498261 10 oder 113926 43 256.834061 11 man 98895 41 252.144986 12 Abend 5361 23 246.736054 ... (Mittelteil der Tabelle) ... 500 Meerestiere 14 1 16.396002 501 schlachtet 15 1 16.253064 502 Saumagen 15 1 16.253064 503 Vogel 15 1 16.253064 504 Camporesi 15 1 16.253064 505 Gesetzesverstöße 15 1 16.253064 506 Wie 30325 4 16.177478 507 Tagen 10687 3 16.172509 508 Aprikosen 16 1 16.119673 509 isch 16 1 16.119673 510 Touristengruppen 16 1 16.119673 ... (schlechteste Werte) 1763 Allgemeinhistoriker 1 1 0.000000 1764 Pfahlburger 1 1 0.000000 1765 Parteien-Erl 1 1 0.000000 1766 Rauchfrei 1 1 0.000000 1767 Fixierlösung 1 1 0.000000 1768 West-Joghurt 1 1 0.000000 1769 Demonstranten-Gruppe 1 1 0.000000 Tabelle 12: Mit L OG -L IKELIHOOD -R ATIO ermittelte und nach Kennziffer sortierte Kollokanten zu essen 3 Phraseme 3.1 Einführung Phraseme stellen für die lexikographische Beschreibung und auch im Verhältnis von Lexikon und Text ein besonderes Problem da. Zunächst einmal sind Phraseme komplexe lexikalische Einheiten. Die Realisierung einer solchen lexikalischen Einheit im Text kann stark variieren. Wir haben es nicht nur, wie bei den eingliedrigen lexikalischen Einheiten, mit durch Flexion veränderten Vollformen zu tun. Die Bestandteile von Phrasemen können, wie wir noch sehen werden, in unterschiedlicher Reihenfolge in Texten auftreten. Andere, nicht zum Phrasem gehörende Wörter können zwischen die Elemente des Phrasems treten. Dennoch kann man bei näherem Hinsehen, und vor allem beim Betrachten vieler Belege, Regularitäten in der textlichen Realisierung von Phrasemen erkennen. In diesem Abschnitt werden wir auf einige Eigenschaften von Phrasemen eingehen sowie auf Regularitäten bzw. Restriktionen bei ihrer textlichen Realisierung. Wir werden im Besonderen auf einen Formalismus eingehen, der es ermöglicht, die verschiedenen Varianten der textlichen Realisierung von Phrasemen in Form von regulären Ausdrücken zu erfassen. Reguläre Ausdrücke in diesem oder einem vergleichbaren Formalismus gehören zur Beschreibung von Phrasemen in lexikalischen Ressourcen für sprachtechnologische Anwendungen. 3.2 Phraseme im Text Viele Phraseme variieren in der Form und Anordnung ihrer Elemente, wenn sie im Text auftreten. Einige ihrer Elemente werden flektiert, um die Kongruenzbeziehungen zwischen den Strukturelementen in einem Satz zu markieren. Dies ist der morphologische Aspekt ihrer Varianz. Hinzu kommt, dass sich Phraseme in unterschiedlichen syntaktischen Konstruktionen unterschiedlich verhalten. Die Anordnung ihrer Bestandteile variiert. Dies ist der syntaktische Aspekt ihrer Varianz. Darüber hinaus können eine Reihe von externen und internen Modifikationen und Erweiterungen die textuelle Form eines Phrasems beeinflussen. Solche Modifikationen und Erweiterungen sollten systematisch für jedes Phrasem erfasst werden. Auf dieser Grundlage können lokale Grammatiken für verschiedene Typen von Phrasemen entwickelt werden, als Bestandteil der lexikalischen Repräsentation dieser mehrgliedrigen lexikalischen Einheiten. Die relevanten Merkmale von Phrasemen sind: • Sie sind NICHT - KOMPOSITIONELL , d.h., dass ihre Gesamtbedeutung nicht aus der Bedeutung ihrer Bestandteile und den Merkmalen ihrer Zusam- Mehrgliedrige lexikalische Einheiten 299 mensetzung abgeleitet werden kann. Die Bedeutung eines Phrasems bezieht sich immer auf den gesamten Ausdruck. • Viele Phraseme erfahren im Text reguläre syntaktische Variationen, in Abhängigkeit von der syntaktischen Umgebung, in die sie eingebettet sind. Allerdings sind die meisten Phraseme syntaktisch nicht so variabel wie analoge, frei geformte Konstruktionen. • Manche Phraseme sind, hinsichtlich einer Grammatik der Sprache bzw. des Sprachstadiums, in der sie verwendet werden, nicht-wohlgeformt, und dennoch sind sie für die Sprecher dieser Sprache akzeptabel. Wir werden im nächsten Abschnitt versuchen, den Begriff des Phrasems zu definieren. Danach werden wir die idiosynkratischen Aspekte des syntaktischen und distributionellen Verhaltens dieser Einheiten beschreiben. Diese Darstellung lehnt sich an die Arbeit von Nunberg, Sag und Wasow (1994) sowie von Brundage et al. (1992) an. 3.3 Begriffsbestimmung Der Begriff P HRASEM ist in der Vielfalt seiner Ausprägungen nicht einfach zu erfassen. Nunberg, Sag und Wasow stellen fest: In actual linguistic discourse [...] ‚idiom‘ is applied to a fuzzy category defined on the one hand by reference to prototypical examples [...] and on the other hand by implicit opposition to related categories like formulae, fixed phrases, collocations, cliches, saying, proverbs and allusions [...] (Nunberg et al. (1994), S. 492) Die Autoren fahren damit fort, sechs Merkmale aufzuzählen, anhand derer sich ihrer Meinung nach der Begriff des Phrasems präziser fassen und abgrenzen lässt 12 : 1. C ONVENTIONALITY : Die Gesamtbedeutung eines Phrasems kann nicht aus den Einzelbedeutungen seiner Bestandteile erschlossen werden. 2. I NFLEXIBILITY : Phraseme sind hinsichtlich ihrer Distribution und syntaktischen Flexibilität stärker eingeschränkt als analoge freie Fügungen. 3. F IGURATION : Phraseme enthalten oftmals stilistische Figuren wie Metapher, Metonymie usw. 4. P ROVERBIALITY : Phraseme formen sich oftmals aus einer stereotypen Beschreibung häufig auftretender Situationen. Ihr Ursprung mag deshalb eine freie Fügung gewesen sein, also eine wörtliche Lesart. Diese hat sich im Laufe der Zeit zu einer Stilfigur entwickelt. Meist kann die ursprünglich wörtliche Lesart von den Sprechern nicht mehr rekonstruiert werden. 12 Wir belassen es bei der Bezeichnung dieser Merkmale bei den von den Autoren verwendeten englischen Ausdrücken, da diese ganz gut verstanden werden können und ihre Bedeutung im Anschluss erläutert wird. 300 Mehrgliedrige lexikalische Einheiten 5. I NFORMALITY : Stilistisch entstammen die meisten Phraseme dem umgangssprachlichen Register. 6. A FFECT : Viele Phraseme werden von Sprechern verwendet, um eine emotionale Einstellung zum bezeichneten Sachverhalt auszudrücken. Phraseme sind häufig im Kontext der formalen Syntax untersucht worden, nicht zuletzt weil ihre Realisierungen oftmals gegen die konventionellen Konstruktionsmuster, die in Grammatiken beschrieben werden, verstoßen. Von besonderem Interesse sind dabei die folgenden Beobachtungen: 1. Phraseme sind unterschiedlich stark fixiert. Einige von ihnen erlauben eine große Zahl von Modifikationen, andere wiederum überhaupt keine. 2. Die meisten Phraseme sind distributionell eingeschränkt. Die Menge der grammatischen Regeln, die auf Phraseme angewendet werden können, ist eine Teilmenge der Regeln, die für analoge freie Fügungen gelten. 3.4 Unterschiede in der Fixiertheit der festen Fügungen Nunberg, Sag und Wasow (1994) sowie Brundage et al. (1992) listen die folgenden Typen von internen Modifikationen für Phraseme auf: • Teile eines Phrasems können durch Adjektive oder Relativsätze modifiziert werden, s. Beispiele (1), (2), (3) und (4). • Teile eines Phrasems können durch quantifizierende Elemente modifiziert werden, s. Beispiele (5) und (6). • Teile von Phrasemen können durch andere lexikalische Einheiten ersetzt werden, ohne dass die Gesamtbedeutung des Phrasems sich verändert, s. Beispiele (7) und (8). • Teile des Phrasems können durch Voranstellung fokussiert werden, s. Beispiele (9) und (10). • Teile eines Phrasems können in einer elliptischen Konstruktion weggelassen werden, s. Beispiele (11) und (12). • Zwischen einem Teil eines Phrasems und einem Pronomen kann eine Beziehung der Koreferenz hergestellt werden, s. Beispiele (13) und (14). (1) leave no legal stone unturned (2) jemanden kräftig in die Pfanne hauen (3) Your remark touched a nerve that I didn’t even know existed (4) Der Chef führte wegen des Verlusts eines der wichtigsten Kunden einen Tanz auf, an den man sich in der Abteilung noch lange nur mit Schrecken erinnerte. (5) We could pull yet more strings (6) Der Beamte drückte dieses Mal beide Augen zu. Mehrgliedrige lexikalische Einheiten 301 (7) to take a bow / curtain (8) er geht mir auf den Wecker / den Zeiger / den Senkel (9) Those strings, he wouldn’t pull for you (10) Dumm und dämlich hat er sich dabei auch noch verdient. (11) My goose is cooked, but yours isn’t. (12) Seinem Bruder hat er reinen Wein eingeschenkt, seiner Schwester nicht. (13) Tabs were kept on Jane Fonda by the F.B.I., but they weren’t kept on Vanessa Redgrave. (14) Die Spatzen pfiffen es mittlerweile vom Dach. Obwohl man nie ganz sicher war, dass das, was man von ihnen so hörte, immer die Wahrheit war. All diese Modifikationen betreffen immer nur einen Teil des Phrasems. Dies bestärkt die Vermutung, dass zumindest die interne Struktur der meisten Phraseme für diejenigen, die das Phrasem verwenden, transparent ist. Nunberg et al. führen eine terminologische Unterscheidung zwischen IDIOMATISCH KOMBINIERTEN A USDRÜCKEN (‚idiomatically combining expressions‘) und FESTEN F ÜGUNGEN / P HRASEMEN (‚idiomatic phrases‘) ein. Erstere sind strukturell transparent für die Sprecher, die sie verwenden, Letztere nicht. Der Hauptpunkt ihrer Argumentation ist, dass die idiomatisch kombinierten Ausdrücke erst post factum für die Sprecher transparent sind. Ihre Bedeutungen können zwar nicht aus den Bedeutungen ihrer Bestandteile erschlossen werden. Aber wenn ihre Bedeutung einmal bekannt ist bzw. gelernt wurde, dann können Bedeutungsbestandteile einzelnen Elementen des Phrasems zugeordnet werden. Nehmen wir z.B. das Phrasem reinen Wein einschenken. Dieses Phrasem bezeichnet ein Ereignis, bei dem es darum geht, dass jemand jemandem eine (für Letzteren unangenehme) Wahrheit mitteilt. Nun kann, in Analogie zur Bedeutung des Phrasems bzw. seiner Paraphrase, eine Analogie gebildet werden zwischen reinem Wein und unangenehmer Wahrheit, sowie zwischen einschenken und mitteilen. Nunberg et al. stellen fest: Modification, quantification, topicalization, ellipsis, and anaphora provide powerful evidence that the pieces of many idioms have identifiable meanings which interact semantically with each other [...] (Nunberg et al. (1994), S. 503) 302 Mehrgliedrige lexikalische Einheiten 3.5 Unterschiede in der syntaktischen Flexibilität der festen Fügungen Nunberg et al. stellen weiter fest, dass die semantischen Eigenschaften von Phrasemen deren Grad an syntaktischer Flexibilität determinieren. We believe that there are a variety of semantic properties of this sort that play a role in understanding why particular idioms undergo certain syntactic processes, and not others. (Nunberg et al. (1994), S. 505) Sie wählen den idiomatisch kombinierten Ausdruck take advantage, um dies zu veranschaulichen. Zunächst paraphrasieren sie die Bedeutung dieses Phrasems mit derive benefit (S. 506f.). Hinsichtlich der syntaktischen Flexibilität dieses Phrasems beobachten sie, dass • ein Teil des Phrasems passiviert werden kann und zwar als - inneres Passiv (Advantage was taken of the students) und als - äußeres Passiv (The students were taken advantage of ); • Teile des Phrasems syntaktisch angehoben werden können (‚Raising‘; Advantage seems to have been taken of the students); • Teile des Phrasems topikalisiert werden oder in einer „cleft“-Konstruktion stehen können (It is advantage, that has been taken of the students). Nicht alle diese syntaktischen Veränderungen können an allen Phrasemen durchgeführt werden. Sie verlieren ihre idiomatische Bedeutung, wenn sie syntaktisch modifiziert werden, s. die folgenden deutschen Beispiele 13 . (15) Stoiber hat kräftig gegen die SPD vom Leder gezogen. (16) Und dann wurde kräftig vom Leder gezogen. (17) Peter musste ins Gras beißen. (18) *Dann wurde kräftig ins Gras gebissen. Es kann mit einigem Recht bezweifelt werden, dass die Unterscheidung zwischen idiomatisch kombinierten Ausdrücken und Phrasemen immer klar ist. Nunberg et al. führen selber das deutsche Phrasem ins Gras beißen als ein Gegenbeispiel an. Nunberg et al. zufolge ist dies ein echtes Phrasem. Dennoch sind syntaktische Veränderungen bei diesem Phrasem möglich, die ansonsten nur bei den idiomatisch kombinierenden Ausdrücken möglich sind. Sie führen dennoch nicht zum Verlust der idiomatischen Lesart, wie die folgenden Beispiele zeigen: 13 Der Stern bedeutet hier, dass die idiomatische Lesart nicht verfügbar ist. Mehrgliedrige lexikalische Einheiten 303 (19) Jens hat ins Gras beißen müssen (20) Ins Gras beißen müssen hat nur Jens. Aber nicht alles ist hier möglich, wie Beispiel (18) zeigt. Brundage et al. nennen weitere Restriktionen, die für Phraseme gelten, nicht aber für analoge freie Fügungen: • Der Numerus-Wechsel kann für Teile des Phrasems beschränkt sein, s. Beispiele (21) und (22). • Ein modifizierendes Adjektiv kann nicht gesteigert werden, s. Beispiele (23) und (24). • Einige adjektivische Phraseme können nur in ihrer Grundform verwendet werden, s. Beispiele (25) und (26). • Substantive, die Teil eines Phrasems sind, lassen keine adjektivische Modifikation zu, s. Beispiele (27) und (28). • Einige Phraseme können nur in Negationskontexten verwendet werden, s. Beispiele (29) und (30). • Bei einigen Phrasemen ist die Wortordnung strikt festgelegt, sie kann in keinem syntaktischen Kontext verändert oder modifiziert werden, s. Beispiel (29). • Bei einigen nominalen Phrasemen ist die Veränderung des Artikeltyps (bestimmter, unbestimmter Artikel) nicht möglich, s. Beispiele (31) und (32). (21) to be on the ball (22) die Katze aus dem Sack lassen (23) a wet blanket (24) eine schnelle Mark verdienen (25) safe and sound (26) gang und gäbe sein (27) to have a (*large) frog in one’s throat (28) vom (*rauen/ *braunen) Leder ziehen (29) not to know chalk from cheese (30) keinen Hehl aus seiner Meinung machen (31) the seven-year itch (32) jemandem einen Bären aufbinden 304 Mehrgliedrige lexikalische Einheiten Im Kontext sprachlicher Kreativität, z.B. in der Zeitungssprache, werden gelegentlich nicht zulässige Erweiterungen fester Fügungen vorgenommen, als Sprachspiele, z.B. Da hat er gleich zwei Katzen aus dem Sack gelassen. 14 3.6 Abschließende Bemerkungen Bisher haben wir Phraseme noch nicht in geeignete Klassen und Subklassen hinsichtlich ihrer syntaktischen Flexibilität eingeteilt. Die Unterscheidung von Nunberg et al. in idiomatisch kombinierte Ausdrücke und feste Fügungen ist ein guter Ausgangspunkt. Diese Gruppierung in lediglich zwei Klassen ist aber noch zu grob für unsere Zwecke. Weitere, empirische und korpusgestützte, Untersuchungen sind notwendig, um herauszufinden, ob eine strikte Subklassifizierung von Phrasemen möglich ist. In der Zwischenzeit müssen wir Phraseme lexikalisch behandeln, d.h. die Beschränkungen für jedes einzelne Phrasem bestimmen. Dies kann mithilfe von regulären Ausdrücken geschehen, die die lexikalische Form eines Phrasems auf seine vielen möglichen textuellen Formen abbildet. Im nächsten Abschnitt werden wir einen dafür geeigneten Formalismus vorstellen. 3.7 Erkennung von Mehrwertlexemen in Texten Einführung Wir haben im letzten Abschnitt gezeigt, dass viele Phraseme nicht vollständig fixiert sind. Viele sind offen für syntaktische Modifikationen und kontextbedingte Umstellungen ihrer Elemente. Daraus folgt: • Bei der Sprachproduktion muss man an der Grundform eines Phrasems die Veränderungen durchführen, die durch den syntaktischen Kontext erzwungen werden. Darüber hinaus kann man solche Modifikationen vornehmen, die an diesem speziellen Phrasem ohne Verlust der idiomatischen Bedeutung durchgeführt werden können. • Bei der Sprachrezeption muss ein textuelles Vorkommen eines Phrasems als solches erkannt und auf die Grundform abgebildet werden. Die Erkennung von Phrasemen bereits im Vorfeld der syntaktischen Analyse (Parsing) ist auch von daher wichtig, weil einige Phraseme in ihrer Struktur syntaktische Regeln verletzen und der Satz, in dem sie vorkommen, sonst als nicht-wohlgeformt erkannt und nicht akzeptiert würde. Es folgen hierfür einige Beispiele: In Satz (33) fehlt ein Artikel. In Beispiel (34) werden zwei 14 Eine sehr gute, detaillierte Arbeit hierzu auf der Grundlage eines manuell zusammengestellten Korpus hat Barbara Wotjak (1992) vorgelegt. Mehrgliedrige lexikalische Einheiten 305 Wörter unterschiedlicher Wortklassen in einer Koordinationsstruktur verbunden. In Beispiel (35) wird ein Pronomen an einer nicht-zulässigen Position eingefügt. Als Phraseme sind alle diese Beispiele hingegen akzeptabel. (33) von Amts wegen (34) by and large (35) Believe you me Weiterhin gibt es einige Wörter, die nur in Phrasemen auftauchen, nicht aber als autonome Elemente. Diese Wörter können nicht wie reguläre lexikalische Einheiten behandelt werden (s. Beispiele (36) und (37)): (36) gang und gäbe sein (37) by dint of Einige Phrasemstrukturen erlauben alternierende Elemente, aber nur in einem sehr beschränkten und nicht mit Regeln erfassbaren Rahmen (s. Beispiele (38) und (39)): (38) jmdm auf die Nerven / den Zeiger gehen (39) sweep sth under the carpet / the rug / the mat Wir wollen im Folgenden zwei Phraseme betrachten, die in unterschiedlich starkem Maße modifiziert werden können. Wir werden anhand dieser beiden Phraseme zeigen, wie man diese textuellen Realisierungen erkennen und im Text markieren kann. Sind die Vorkommen eines Phrasems in einem Text markiert, dann lassen sich auf dieser Grundlage Belegbeispiele für einen Wörterbucheintrag erzeugen. Wir werden für die Erkennung und Markierung der Phraseme im Text ein Werkzeug verwenden, das an der Universität Edinburgh entwickelt wurde. Der Name dieses Werkzeugs ist fsgmatch: The core program in the TTT [= Text Tokenisation Tools, d.A.] system is called fsgmatch (Fast SGml MATCH). This is a general purpose transducer which processes an input stream and rewrites it according to a set of rules provided in a grammar file. It can be used to alter the input in a variety of ways, however the grammars provided with the TTT system are all used simply to add mark-up information. fsgmatch can be thought of as having two different modes of operation according to whether the input stream is to be considered as a stream of characters (character level fsgmatch) or as a stream of SGML/ XML elements (SGML level fsgmatch). 15 15 http: / / www.ifi.unizh.ch/ cl/ broder/ tttdoc/ c385.htm . 306 Mehrgliedrige lexikalische Einheiten Fsgmatch kann also sowohl reine Texteingaben als auch Eingaben, die mit SGML oder XML annotiert sind, verarbeiten. Die Verarbeitung wird durch Grammatiken gesteuert. Der Prozessor erkennt im Text die Muster, die durch die Grammatik definiert wurden, und markiert diese Muster. Da es im Folgenden unser Ziel ist, textuelle Vorkommen von Phrasemen zu finden und zu markieren, scheint uns fsgmatch, oder sein Nachfolger lxtransduce 16 , ein geeignetes Werkzeug zu sein. Die Beispiele Betrachten wir zunächst die zwei Phrasembeispiele, die wir ausgewählt haben: • Beispiel 1: sich aufs Ohr hauen • Beispiel 2: in die Quere kommen Im ersten Beispiel wollen wir uns auf den fixen Bestandteil des Phrasems, nämlich aufs Ohr hauen, konzentrieren. Hierzu ein Korpusbeleg: (40) Während sich die Fahrer in ihren Kabinen aufs Ohr hauen, machen sich Knaack und Thran allein zur Grenze auf. Diese fixe Struktur lässt sich sehr einfach in Form einer einfachen Mustererkennungsregel beschreiben <RULE name="all" type="DISJ" targ="---IDIOM Begin ---&S-REW; --- IDIOM End ---"> <REL match="aufs(\n|[ ])+Ohr(\n|[ ])+hauen" rewrite="aufs Ohr hauen"></ REL> </ RULE> Regel 1: Regulärer Ausdruck / Muster für aufs Ohr hauen Die Regel berücksichtigt, dass zwischen den einzelnen Textwörtern Leerzeichen oder Zeilenumbrüche stehen können. Diese Extra-Leerzeichen werden durch den rewrite-Teil der Regel getilgt. Schließlich wird das erkannte Muster markiert. Dies kann, wie hier, durch einen einschließenden Text geschehen, oder auch durch XML-Tags. Im Ergebnis sieht der Beleg wie folgt aus. (41) Während sich die Fahrer in ihren Kabinen — IDIOM Begin — aufs Ohr hauen — IDIOM End — , machen sich Knaack und Thran allein zur Grenze auf. 16 S. http: / / www.ltg.ed.ac.uk/ ~richard/ ltxml2/ lxtransduce-manual. html . Mehrgliedrige lexikalische Einheiten 307 Das zweite Beispiel ist etwas komplizierter. Wir wollen für das Phrasem in die Quere kommen zwei Formen der Modifikation berücksichtigen: • durch den Satzkontext bedingte Modifikation des Verbs durch Flexion (siehe Beispiel (42)) • Satzglieder treten zwischen das Verb und den fixen Bestandteil in die Quere (siehe Beispiel (43)). Dies ist besonders dann der Fall, wenn das Verb an zweiter Position im Satz steht. (42) Die Bewohner der Ranchos schwärmten in die Stadt aus und verwüsteten alles, was ihnen in die Quere kam. (43) Aich schleppt eine Kiste „Dash“-Waschpulver, Jahrgang 1970, vor die Tür, kommt dabei den Arbeitern in die Quere. Der erste Quelle der Variation, die Modifikationen des Verbs, wird in der folgenden Regel dadurch begegnet, dass alle Vollformen dieses Verbs aufgezählt werden: <REL match="W/ # (komm | kommen | kommt | Kommt | gekommen | kam | kamen | käme | kämen)"/ >. Eine Alternative hierzu ist ein Lexikon, in dem die Vollformen einer Grundform zugeordnet werden. Dies bietet sich vor allem dann an, wenn viele Phraseme mit flexiblem Verb modelliert werden sollen. Die Lösung für die zweite Quelle der Variation besteht darin: • zunächst den Text in Wortelemente zu zerlegen und die einzelnen Wörter mit einem simplen XML-Tag zu umschließen; • die beiden Teile des Phrasems - Verb und fixen Bestandteil - als Klammern zu betrachten, in der weitere Elemente des Satzes stehen können. Eine sehr einfache Regel für die Wortzerlegung sieht wie folgt aus: <RULE name="markWords" type="DISJ" targ="&lt; W>&S-REW; &lt; / W>"> <REL type="GROUP" match="SEQ" rewrite="&A-VAL; "> <REL var="A" match="([A-Za-zäöüÄÖÜ])+"></ REL> <REL var="B" match="(\n|[ ]|.)+" m_mod="TEST"> </ REL> </ REL> <REL type="GROUP" match="DISJ" rewrite="&S-VAL; "> <REL match="\."></ REL> <REL match=": "></ REL> </ REL> </ RULE> Regel 2: Regulärer Ausdruck / Muster für die Wortzerlegung 308 Mehrgliedrige lexikalische Einheiten Hier geschieht nichts weiter, als dass eine Zeichenkette zwischen Trennzeichen in das Worttag < W > eingeschlossen wird. Natürlich ist die Wortzerlegung von Texten in der Praxis viel komplexer. Es geht uns aber an dieser Stelle nicht darum, eine gute Lösung für die Wortzerlegung zu präsentieren. Die Zerlegung ist in diesem Beispiel nur Mittel zum Zweck der Phrasemerkennung. Die Regel für die Erkennung des Phrasems inkl. der dazwischen liegenden Satzteile sieht wie folgt aus: <RULE name="all" type="DISJ" targ_sg="idiom"> <REL type="GROUP" match="SEQ"> <REL match="W/ #~(komm|komme|kommen|kommt |Kommt|gekommen|kam|kamen|käme|kämen)$"/ > <REL match="W/ #! ~^(Quere|\.|: )$" m_mod="STAR"/ > <REL match="W/ #~^(in|In)$"/ > <REL match="W/ #! ~^(in|In|Quere|\.|: )$" m_mod="STAR"/ > <REL match="W/ #=die"/ > <REL match="W/ #! ~^(in|In|Quere|\.|: )$" m_mod="STAR"/ > <REL match="W/ #=Quere"/ > </ REL> </ RULE> Regel 3: Regulärer Ausdruck / Muster für in die Quere kommen Abgebildet ist nur der Teil der Regel, der Vorkommen des Phrasems findet, bei dem das Verb vor dem fixen Teil in die Quere steht. Die Satzteile, die zwischen den beiden Phrasemteilen stehen, werden nicht weiter analysiert und tauchen in der Ausgabe als Teil des Phrasems auf. Eine genauere Analyse wird diese Teile weiter analysieren und durch weitere Regeln als Phrasemexterne Bestandteile markieren. Wir haben gesehen, dass sich mit der zeichenkettenbasierten Verarbeitung von Texten schon relativ viel erreichen lässt. Allerdings ist dieses Verfahren zu unpräzise und reicht nicht an die Qualität der linguistischen Analysen heran, die wir in den Abschnitten 3.3 - 3.5 präsentiert haben. Die linguistische Analyse geht von der Kenntnis linguistischer Wort- und Phrasenkategorien wie Adverb oder Adjektivphrase aus. Dieses Wissen lässt sich aus einem unannotierten Text leider nicht ermitteln. Es ist aber oftmals möglich, den Text so weit linguistisch zu annotieren, dass diese Kategorien aus dem annotierten Dokument selber extrahiert werden können. Die folgende Regel macht sich die Wortartenannotation zunutze, um ein Adverb im Text zu finden: Mehrgliedrige lexikalische Einheiten 309 <rule name="adv"> <query match="tok[@ctag=’ADV’]"/ > </ rule> Regel 4: Regulärer Ausdruck / Muster für Adverbien Die folgende Regel definiert eine einfache Nominalphrase als eine Folge von Determiner, Adjektiv(phrase) und Nomen. In dieser Regel wird dabei auf weitere Regeln referiert, in denen die Muster für diese Elemente genauer beschrieben werden: <rule name="NP"> <seq> <ref name="article" mult="? " / > <ref name="adj" mult="*" / > <ref name="noun" mult="+" / > </ seq> </ rule> Regel 5: Regulärer Ausdruck / Muster für eine einfache Nominalphrase Zwischen Text und Lexikon Lokale Grammatiken für die Erkennung der textuellen Vorkommen von Phrasemen können das Bindeglied zwischen Text und Lexikon bilden. Die Grammatik modelliert auf abstrakte Weise die Menge der textuellen Vorkommen jedes einzelnen Phrasems. Dabei können • fixe Bestandteile des Phrasems, • morphologisch flexible Bestandteile des Phrasems, • optionale Modifikatoren des Phrasems oder einzelner Phrasemteile, • weitere Bestandteile des Kontexts in der Grammatik definiert werden, entweder als Zeichenkettenmuster oder als Kombination von Zeicheninformation und grammatischer Information. Für jedes Phrasem kann auf diese Weise ein Mustererkenner erstellt werden, der sowohl die idiosynkratischen Aspekte des Phrasems als auch die Bestandteile, die das Phrasem mit anderen Phrasemen des gleichen Typs teilt, berücksichtigt. Dieser Ansatz wird damit dem Januscharakter von Phrasemen - teils idiosynkratisch, teils regulär - gerecht. Die durch entsprechende lexikalische Ressourcen gesteuerte Textanalyse kann auf diese Weise die Vorkommen von im Lexikon verzeichneten Phrasemen im Text markieren. Dadurch wird verhindert, dass weitere Analysemodule diese Textteile gemäß den Regeln für frei kombinierte Phrasen und Sätze behandeln. 310 Mehrgliedrige lexikalische Einheiten 3.8 Korpusbasierte Beschreibung von Phrasemen An der Berlin-Brandenburgischen Akademie der Wissenschaften ist ein von Christiane Fellbaum geleitetes Projekt zur lexikographischen Beschreibung von Kollokationen und Phrasemen des Gegenwartsdeutschen beheimatet. Die Grundlage dieses lexikographischen Prozesses ist das etwa 1 Milliarde Wörter umfassende digitale Korpus der deutschen Sprache, das ebenfalls an der Akademie der Wissenschaften aufgebaut und gepflegt wird 17 . Im Projekt werden mehrere Tausend Mehrwortlexeme beschrieben, die sich aus den häufigsten Verben und nominalen Komplementen zusammensetzen. Entsprechend groß kann die Treffermenge ausfallen, wenn man nach der Kombination dieser Stichwörter sucht. Dementsprechend wird versucht, die Korpusabfrage stärker zu formalisieren, um, eventuell in mehreren Schritten, die Abfragen zu verfeinern und damit die Treffermenge einzugrenzen 18 . Mustererkennung über linguistisch voranalysierten Texten ist auch hier eine der gewählten Strategien. Die Arbeitsergebnisse werden in das Wortinformationssystem des DWDS integriert werden. Es wird verschiedene Sichten auf die Daten für verschiedene Gruppen von Benutzern geben, z.B. Lexikographen, Linguisten oder Deutschlerner. Momentan sind die Ergebniseinträge aber noch nicht öffentlich zugänglich. Der interessierte Leser kann sich über die Homepage des Projekts auf dem Laufenden halten. 4 Weiterführende Literatur Wir haben in diesem Kapitel Kollokationen und Phraseme behandelt. Kollokationen sind in den letzten zehn Jahren zu einem der prominentesten Themen der Computerlexikographie aufgestiegen und es werden immer wieder gute Arbeiten mit neuen Ansätzen für die Klassifizierung und die Erkennung von Kollokationen in Textkorpora veröffentlicht. Für einen Überblick sind die Dissertation von Lothar Lemnitzer (1997) und die aktuellere Dissertation von Stefan Evert (2005) empfehlenswert. Eine gute Darstellung der Position des britischen Kontextualismus findet sich in der Arbeit von John Sinclair (1991) dargelegt. An neueren Arbeiten wolllen wir darüber hinaus die von Dirk Siepmann (2006) erwähnen. Die Literatur zur Phraseologie ist sehr umfangreich und heterogen. Zum Glück gibt es mittlerweile das Handbuch Phraseologie, das einen Einstieg in 17 Vgl. Fellbaum et al. (2006). Wir stützen unsere Beschreibung des Projektes auf diese Publikation sowie auf einen Projektbericht, der unter http: / / kollokationen.bbaw.de/ htm/ report_de.html verfügbar ist. 18 Die Abfragestrategie wird im Detail in Herold (2007) beschrieben. Mehrgliedrige lexikalische Einheiten 311 eine Vielzahl von Facetten dieses Forschungsgebiets auf dem aktuellen Stand der Forschung erlaubt (Burger et al. (2007)). 5 Aufgaben 1. Wir haben in Abschnitt 1 dieses Kapitels mehrgliedrige Lexeme in verschiedene Kategorien unterteilt (Phraseme, Kollokationen, mehrgliedrige Komposita, Partikelverben, mehrgliedrige Funktionswörter, Funktionsverbgefüge). Ordnen sie die folgenden Beispiele einer dieser Kategorien oder ggf. der Kategorie der freien Fügungen zu. (44) roter Teppich (45) hin und wieder (46) hin und her (47) jmdm einen Bären aufbinden (48) Nach Ihnen! (49) emsig wie ein Eichhörnchen (50) zum Abschluss bringen (51) grüner Tisch (52) es nicht übers Herz bringen (etwas zu tun) (53) eine wichtige Rolle spielen 2. In den folgenden Beispielsätzen finden sie jeweils ein Phrasem: (54) Aus seiner Drogensucht hatte er nie einen Hehl gemacht. (55) Da will ich noch mal ein Auge zudrücken. (56) Es wird Zeit, ihnen reinen Wein einzuschenken. (57) Ich lasse mir von Ihnen kein X für ein U vormachen. (58) Können Sie das nochmal wiederholen, ich habe den Faden verloren. (59) Jede Woche wird eine neue Sau durchs Dorf getrieben. • Markieren Sie in diesen Sätzen die Bestandteile, die Ihrer Meinung nach zum Phrasem gehören. • Versuchen Sie, für das Phrasem eine Ansetzungsform (= Grundform) zu finden. Unter welchem Stichwort/ welchen Stichwörtern würden Sie das Phrasem einordnen. Vergleichen Sie Ihre Ergebnisse mit einem einsprachigen Wörterbuch Ihrer Wahl. 312 Mehrgliedrige lexikalische Einheiten • Benennen Sie, welche der in Abschnitt 3.4 aufgelisteten internen Modifikationen bei diesen Phrasemen möglich sind, so dass der idiomatische Gebrauch erhalten bleibt. 3. Für Fortgeschrittene und computerlinguistisch Interessierte: Entwickeln Sie für mindestens eines der Phraseme eine Grammatik, die die möglichen textuellen Variationen des Phrasems erfasst. Sie können hierfür den in Abschnitt 3.7 vorgestellten Formalismus verwenden. 12 Glossar Ablaut Mit Ablaut wird der systematische Wechsel bestimmter Vokale in etymologisch verwandten Wörtern bezeichnet. Der Ablaut spielt im Deutschen vor allem bei der Flexion starker Verben eine Rolle, hierdurch werden morphosyntaktische Merkmale wie Tempus und Numerus markiert (z.B. laufen - lief, wachsen - wuchs). Der Ablaut spielt, wenn auch in geringerem Maße, eine Rolle bei Wortbildungsprozessen (trinken, Trank, Getränk, Umtrunk). abstrakte Mikrostruktur Die abstrakte Mikrostruktur bezieht sich auf das Inventar lexikographischer Angabeklassen, das für die Beschreibung verschiedener Lemmazeichentypen bereitgestellt wird. Sowohl die Auswahl der einzelnen Beschreibungssegmente als auch die Anordnung dieser Elemente kann für unterschiedliche Lemmazeichentypen (z.B. unterschiedliche Wortarten) und natürlich auch im individuellen Fall stark variieren. Davon zu unterscheiden ist die spezifische Mikrostruktur, die einem konkreten Lemmazeichen zugeordnet wird. Affix Affix ist eine Sammelbezeichnung für in der Regel nicht frei vorkommende Wortbildungselemente. Nach ihrer Position im Verhältnis zum Stammmorphem werden die Affixe in P RÄFIXE , I NFIXE (für das Deutsche nicht so relevant), S UFFIXE und Z IRKUMFIXE unterteilt. Annotation Unter Annotation versteht man Anreicherung der Primärdaten eines Korpus mit linguistischen Informationen. Antonymie Unter Antonymie fasst man die Sinnrelation der Gegenteiligkeit von Wörtern bzw. lexikalischen Einheiten, wie sie z.B. zwischen groß und klein, gewinnen und verlieren, Fachmann und Laie bestehen. Die Antonymie ist eine symmetrische Relation. Bedeutungspostulat Ein Bedeutungspostulat liefert eine formale Definition der Bedeutung von Wörtern relativ zueinander. So können lexikalischsemantische Relationen wie Hyperonymie formal erfasst werden. Der Begriff geht auf Carnap zurück, der ihn zur Bezeichnung genereller semantischer Regeln, die Relationen zwischen den Prädikaten einer künstlichen Sprache beschreiben, einführt. Die Generative Semantik nutzt Bedeutungspostulate zur Explikation der semantischen Relationen zwischen atomaren Prädikaten. Montague schränkt mittels Bedeutungspostulaten 314 Glossar den Interpretationsbegriff ein: Nur solche Interpretationen sind zulässig, die alle Bedeutungen in mindestens einer möglichen Welt wahr machen. Bigramm/ Trigramm Bigramme und Trigramme sind Folgen von zwei bzw. drei Elementen derselben Komplexitätsstufe, also z.B. Folgen von zwei / drei Phonemen, Graphemen, Wörtern. Binomialverteilung Die Binomialverteilung entspricht einem Experiment, bei dem genau zwei Ausgänge möglich sind. Das prototypische Zufallsexperiment mit einer Binomialverteilung ist der Münzwurf (Zahl = 0, Kopf = 1). Aber auch der Test auf Gleichheit eines zufällig gezogenen Elements auf Übereinstimmung mit einem vorgegebenen Merkmalswert lässt sich mit der Binomialverteilung modellieren (stimmt überein = 1, stimmt nicht überein = 0). χ 2 -Test, chi-Quadrat-Test Der χ 2 -Test wird insbesondere bei der Prüfung von Vierfelder- und anderen Mehrfeldertafeln angewendet. Es werden die Varianzen einer Stichprobe und einer Grundgesamtheit verglichen. Wenn die Varianz der Stichprobe ( S 2 ) des Umfangs n einer normalverteilten Grundgesamtheit mit der Varianz σ 2 entstammt, dann ist die Zufallsvariable ( n − 1) S 2 σ 2 ∼ χ 2 n − 1 (8) χ 2 verteilt mit n − 1 Freiheitsgraden. Diese Verteilung ist eine stetige unsymmetrische Verteilung, die sich bei wachsendem Stichprobenumfang langsam der Standardnormalverteilung annähert: F dχ 2 n ( x ) = P ( Z ≤ x ) Φ ( x − n √ 2 n ) (9) Der kritische Wert für den Test auf Gleichheit der Varianzen von Stichprobe und Grundgesamtheit kann über die Anzahl der Freiheitsgrade und das Signifikanzniveau, zu dem die Nullhypothese angenommen oder verworfen wird, ermittelt werden. Da die nach der Maximum-Likelihood- Methode bestimmte Prüfgröße bei einem Test auf Unabhängigkeit approximativ χ 2 -verteilt ist, wird mit diesem Test u.a. geprüft, ob zwei binomial verteilte Zufallsvariablen der gleichen Grundgesamtheit entstammen. Concept Lattice Im Rahmen der „Formal concept analysis“, welche als eine Methode der Datenanalyse auf Merkmalsmatrizen, die eine Menge von Objekten und ihre Eigenschaften spezifizieren, operiert, werden natürliche Cluster von Eigenschaften und natürliche Cluster von Objekten der Ausgangsdaten ermittelt. Als natürliches Objektcluster gilt die Menge aller Objekte, die eine gemeinsame Teilmenge von Eigenschaften haben, und als natürliches Eigenschaftscluster die Menge aller Eigenschaften, die von einem der natürlichen Objektcluster geteilt werden. Ein Konzept Glossar 315 wird in diesem Ansatz als ein Paar, das aus einem natürlichen Eigenschaftscluster und dem zugehörigen natürlichen Objektcluster besteht, aufgefasst. Diese Konzepte gehorchen den mathematischen Prinzipien eines Lattice, das zur Zerlegung eines Raumes in disjunkte Subräume dient. Ein solches Lattice wird als C ONCEPT LATTICE oder G ALOIS LATTICE bezeichnet. Derivation Die Derivation ist einer der Haupttypen der Wortbildung. Wortbildung durch Derivation geschieht entweder durch die Verbindung von Affixen oder Affixoiden mit Wortstämmen (wunder-bar, er-geben, fehlerfrei), durch Lautveränderung (trinken, Trank) oder durch Rückbildung (schauen → Schau). Gelegentlich wird auch die unmarkierte Transposition eines Wortes in eine andere Wortart unter die Derivation gefasst (nachdenken → das Nachdenken); dies wird ansonsten unter dem Begriff K ONVERSION gefasst. Diathese Unter den Diathesen eines Verbs versteht man, unter der Beibehaltung der Kernbedeutung, sein Realisierungspotenzial in verschiedenen syntaktischen Argumentrahmen, z.B. A KTIV vs. P ASSIV . Diathesen dienen oft zur Herstellung einer Perspektive auf das referierte Ereignis. Distinguisher Distinguisher stellen in der Merkmalssemantik in der Version von Katz und Fodor lesartendifferenzierende Bedeutungsmerkmale zur Verfügung. So unterscheidet in Bezug auf das englische Nomen bachelor der Distinguisher who has the first academic degree den akademischen Bachelor vom Junggesellen. Distribution Die Distribution eines sprachlichen Zeichens oder Elements ist die Gesamtheit der Umgebungen, in denen es im Verhältnis zu den Umgebungen aller anderen sprachlichen Elemente vorkommen kann. Dokumentgrammatik In einer Dokumentgrammatik werden die Elemente eines Dokumenttyps, deren Attribute sowie die Relationen (Linear Precedence, Immediate Dominance) zwischen den Elementen festgelegt. Eine Dokumentgrammatik kann z.B. in einer DTD oder einem Schema beschrieben werden. Dokumentschema Ein Dokumentschema ist eine Kennzeichnung der Struktur eines Dokumenttyps mittels einer formalen Sprache (einer Schemasprache). Im Rahmen von XML wurde eine Schemasprache eingeführt (XML Schema), mit der die Struktur von Typen von Dokumenten beschrieben werden soll (siehe auch: Dokumenttypdefinition). Dokumenttypdefinition Eine Dokumenttypdefinition (kurz: DTD) ist eine Beschreibung der Struktur von Dokumenten eines bestimmten Typs. In einer DTD werden die Elemente, die die Trägermenge der Textstruktur bilden, sowie Attribute dieser Elemente festgelegt. Man kann eine DTD deshalb auch als Dokumentgrammatik bezeichnen, durch die eine Menge wohlgeformter Dokumente definiert wird. Diese Dokumente werden 316 Glossar als KONFORM zu der entsprechenden DTD bezeichnet. Da man hinsichtlich der Ausdrucksstärke von DTDs bei der Beschreibung von Dokumenten immer wieder auf Grenzen stieß, wurde im Rahmen des Designs von XML ein mächtigerer Formalismus, die sog. Schemata, eingeführt. Diese sollen auf Dauer die DTDs ablösen. Domänen-Ontologie Eine Domänen-Ontologie modelliert einen fachsprachlichen oder in irgendeiner Form relevanten Wissensbereich (der auch interdisziplinär ausgerichtet sein kann), z.B. aus den Bereichen der Kommunikation, Finanzwelt oder Geographie. Da bei der Modellierung von Domänenwissen Fragestellungen, welche die Modellierung der Top-Konzepte betreffen, häufig keine Rolle spielen, werden diese meist vernachlässigt. Unterschiedliche Ontologietypen können miteinander korreliert sein, z.B. können Domänen-Ontologien mit Top- oder Mid-Level- Ontologien sowie mit Kontextontologien verbunden werden. Dominanz Unter Dominanz verstehen wir die vertikale strukturgebende Relation in Hierarchien, die asymmetrisch, direktional und auch kettenbildend ist. Z.B. bezeichnet ist größer als eine asymmetrische, gerichtete und kettenbildende Relation: A ist größer als B ist nicht gleich B ist größer als A, daher spricht man hier von Asymmetrie. Die Relation ist größer als geht vom Knoten A aus und führt zu dem Knoten B, ist also gerichtet. A ist größer als B und B ist größer als C, etc. weist auf das kettenbildende Potenzial der Relation. Die Relation der Dominanz kann transitiv oder instransitiv sein. ist größer als ist eine transitive Relation, denn es gilt auch: A ist größer als C. Die asymmetrische, gerichtete und kettenbildende Relation ist Mutter von ist intransitiv, da aus A ist Mutter von B und B ist Mutter von C nicht A ist Mutter von C folgt. Eckform In der lexikographischen Werkstattsprache bezeichnet Eckform die Form eines Flexionsparadigmas, aus der sich die anderen Formen eines (Teil-)Paradigmas ableiten lassen. In der deutschen sprachlexikographischen Tradition wird das Singularparadigma eines Substantivs durch die Genitivform und das Pluralparadigma durch die Nominativform repräsentiert (Mensch; (des) -en, (die) -en). Entity-Relationship-Graph Ein Entity-Relationship-Graph ist ein formales Mittel zur Visualisierung von Objekten, deren Eigenschaften sowie ihrer Beziehungen zueinander. ER-Graphen werden vor allem bei der Entwicklung von Datenbanken verwendet. Mithilfe von ER-Graphen können Wirklichkeitsausschnitte so modelliert werden, dass die diesen Ausschnitt beschreibenden Daten in einer Datenbank erfassbar sind. Frame-Semantik Die Frame-Semantik bezeichnet eine aus der Fillmoreschen Kasusgrammatik hervorgegangene Theorie, die semantisches Wissen unter explizitem Rückgriff auf konzeptuelles Wissen rekonstruiert. Konzepte werden in so genannten Frames als Objekte mit Attributen und Glossar 317 Wertzuschreibungen als S LOT -F ILLER -P AARE repräsentiert. Zunächst war die Frame-Semantik auf die Repräsentation von Nomina ausgerichtet, bevor die Darstellung von Prädikat-Argument-Strukturen für Verbkonzepte in den Mittelpunkt des Interesses rückte. Ein Verb-Frame wie APPLY _ HEAT kann durch verschiedene lexikalische Einheiten wie kochen, brutzeln, backen, dämpfen, anbraten, aufwärmen, dünsten, etc. aktiviert werden. Frequenzliste Eine Frequenzliste ist eine Liste von linguistischen Einheiten (Graphemen, Worttypes, Grundformen, Bigrammen u.Ä.), die nach der Häufigkeit des Vorkommens in der zugrunde liegenden Datenbasis sortiert ist. Grundform Die Grundform einer lexikalischen Einheit ist die Form, unter der diese lexikalische Einheit im Wörterbuch verzeichnet wird. Diese Form wird auch Z ITIERFORM genannt. Hapax legomenon Ein Hapax legomenon (griechisch, wörtlich übersetzt: einmal gelesen) ist ein Wort, das genau einmal in einem Text bzw. in Textkorpora vorkommt. Holonymie Holonymie bezeichnet bei der Teil-Ganzes-Relation die übergeordnete Entität in Bezug auf seine Gesamtheit. Ein Holonym mag hinsichtlich seiner Teile spezifiziert sein, z.B. hat ein Auto die Teile Motor, Räder, Bremse, Steuer, aber eine Klimaanlage ist z.B. kein notwendiger Teil eines Autos. Teil-Ganzes-Beziehungen sind also nicht immer umkehrbar. homonym Eine lexikalische Form, die lexikalische Einheiten realisiert, die zu verschiedenen Lexemen gehören, gilt als homonym. Darunter fällt auch die Zuordnung zu verschiedenen Kategorien (homographe Formen) wie modern als Verb (‚verfaulen‘) oder als Adjektiv (‚fortschrittlich‘). Hyperlexika Hyperlexika bezeichnen im Hypertext realisierte elektronische Wörterbücher. Die Einträge und Eintragssegmente werden als Knoten, die Verweise zwischen den Elementen als Hyperlinks realisiert. Hyperonymie Hyperonymie bezeichnet die Sinnrelation der Überordnung zwischen Wörtern bzw. Konzepten. Der übergeordnete Begriff, das so genannte Hyperonym, ist generischer und dominiert meist mehr als einen Unterbegriff (Hyponym), so wie etwa Vogel mit den Unterbegriffen Rotkehlchen, Nachtigall, Amsel, Star, Lerche, etc. Hyperonymie ist eine asymmetrische und transitive Relation (s. hierzu den Eintrag zu Dominanz). Hyponymie Hyponymie bezeichnet die Sinnrelation der Unterordnung zwischen Wörtern bzw. Konzepten und ist das konverse Gegenstück zur Hyperonymie. Ein Hyponym ist spezifischer als sein Oberbegriff (vgl. Rotkehlchen gegenüber Vogel) und ist inkompatibel zu Ko-Hyponymen auf der gleichen Spezifizitätsebene (Rotkehlchen vs. Kohlmeise). 318 Glossar Index Ein Index ist eine Liste von Wortformen, die in einem Korpus vorkommen. Die Wortformen werden zu T YPES zusammengefasst. Meist werden zusätzliche Informationen wie z.B. die absolute oder relative Häufigkeit des Vorkommens oder das Lemma angegeben. Inhaltsmodell Das Inhaltsmodell eines XML-Elements spezifiziert, welche Elemente von diesem Element dominiert werden, sowie die Reihenfolge dieser dominierten Elemente. Das Inhaltsmodell des Wurzelelements determiniert demnach die logische Struktur des Dokuments. Interlingua Unter einer Interlingua versteht man eine sprachunabhängige semantische Repräsentation, die als Mittler zwischen verschiedenen Sprachen fungieren kann, z.B. bei der maschinellen Übersetzung. Die Information aus der Quellsprache wird in die intermediäre Repräsentation der Interlingua übersetzt. Von dieser Repräsentation ausgehend wird die Übersetzung in die Zielsprache erzeugt. Die Interlingua eignet sich vor allem für Sprachpaare, in denen die grammatischen Konstruktionstypen erheblich voneinander abweichen. Es ist umstritten, ob es eine wirklich neutrale Interlingua geben kann oder ob diese Repräsentation nicht doch von einer Einzelsprache wie dem Englischen, das als Metasprachenlieferant für die Benennung semantischer Primitiva Pate stand, beeinflusst ist. Kernel Kernel bezeichnet den Hauptbestandteil einer möglicherweise komplexen Phrase und kann als semantisches Pendant zum Kopf (Head) einer Konstruktion aufgefasst werden. Kognitive Semantik Die Kognitive Semantik ist innerhalb der lexikalischen Semantik aus der Prototypentheorie Roschs und Lakoffs hervorgegangen. Dabei wird mentalen Konstrukten wie Prototypen eine konstituierende Funktion bei der Konzeptualisierung natürlicher Kategorien zugeschrieben und auf die Ebene der Wissensrepräsentation übertragen. Kollokation Kollokationen sind charakteristische, häufig auftretende Wortverbindungen (Adjektiv-Nomen, Nomen-Verb), deren Kovorkommen primär semantisch motiviert ist wie z.B. heißer Tipp oder Daten erheben. Die Abgrenzung zu Funktionsverbgefügen und anderen Mehrwortfügungen ist mitunter schwierig. Komposition Die Komposition ist einer der Haupttypen der Wortbildung. Zwei frei vorkommende Morpheme oder Morphemfolgen werden zu einem Kompositum verbunden, u.U. unter Einfügung eines Fugenelements (Feuer-werk, Arbeit-s-amt). Kompositionsprinzip Das Kompositionsprinzip geht auf die Logik Freges zurück. Danach wird die Bedeutung eines sprachlichen Ausdrucks (z.B. eines Satzes) aus den Bedeutungen seiner Bestandteile abgeleitet. Ein so analysierbarer Ausdruck ist semantisch TRANSPARENT . Phraseme gehorchen nicht dem Kompositionsprinzip. Glossar 319 Konkordanz Eine Konkordanz ist eine Sammlung von Kotexten eines bestimmten Schlüsselworts. Kotexte einer bestimmten Länge (von Buchstaben, Wörtern oder Sätzen) in der Umgebung eines Schlüsselworts werden aus einem Korpus extrahiert und meist mit dem Schlüsselwort im Zentrum angeordnet. Konkordanzen werden vor allem bei wortbezogenen Untersuchungen verwendet. Kontextualismus Als Kontextualismus wird eine Richtung der Sprachwissenschaft bezeichnet, in der linguistische Einheiten immer im Kontext eines sprachlichen Ausdrucks und dieser wiederum im Kontext seiner Produktion und Rezeption untersucht werden. Kontingenztafel Werden zwei durch Experimente ermittelte Stichproben nach einem Merkmalspaar klassifiziert, oder eine Stichprobe nach zwei Merkmalen, dann lässt sich das Ergebnis übersichtlich in einer Tafel mit vier Feldern darstellen. In den vier Feldern befinden sich die numerischen Werte der vier durch die Klassifikation gewonnenen Klassen. Die Zeilen- und Spaltensummen der Felder nennt man Randsummen. Demnach besteht eine Vierfeldertafel aus den vier Feldern mit den empirisch ermittelten Werten, vier Randsummenfeldern und einem Feld mit der Gesamtsumme, die der Summe der Zeilensummen bzw. der Summe der Spaltensummen entspricht. Die Vierfeldertafel ist ein Spezialfall einer Kontingenztafel. Der allgemeine Fall einer Kontingenztafel ist die r ⊗ s -Tafel mit r Zeilen, die z.B. r Stichproben repräsentieren, und s Spalten, die s Merkmale repräsentieren, nach der die Stichproben klassifiziert werden. Die Stichproben können daraufhin untersucht werden, ob sie als Zufallsstichproben aus einer durch die Randsummen charakterisierten Grundgesamtheit aufgefasst werden können. Eine oft verwendete testdeterminierende Verteilungshypothese ist in diesem Fall die χ 2 -Verteilung oder, bei sehr kleinen Stichproben, die hypergeometrische Verteilung. konzeptueller Graph Die Theorie der konzeptuellen Graphen vereint die logische Ausdruckskraft existenzieller Graphen mit der Expressivität semantischer Netze, die John F. Sowa zur Repräsentation konzeptueller Schemata in Datenbankensystemen entwickelt hat. Dieser Ansatz hatte einen großen Einfluss auf Arbeiten der künstliche-Intelligenz-Forschung, der Informatik und den Kognitionswissenschaften. Neben der logischen Präzision und der Maschinenhandhabbarkeit ist die graphische Repräsentation, die als Standard etabliert ist, für menschliche Nutzer sehr anschaulich. Es gibt (rechteckige) Konzeptknoten und (ovale) Relationsknoten, die beliebig verknüpfbar sind. Variablen können in diesem Ansatz typisiert werden. Kookkurrenz Als Kookkurrenz wird das gemeinsame Vorkommen zweier oder mehrerer Wörter in einem Kontext von fest definierter Größe be- 320 Glossar zeichnet. Das gemeinsame Vorkommen sollte höher sein, als bei einer Zufallsverteilung aller Wörter erwartbar wäre. Korpus Ein Korpus ist eine strukturierte Sammlung von Texten, die zu dokumentarischen oder linguistischen Zwecken zusammengefasst werden. Ein Korpus liegt heute in der Regel in maschinenlesbarer Form vor, die Texte sind meist durch Metadaten in Hinblick auf ihre Herkunft und weitere Attribute beschrieben. Für die linguistische Forschung des Deutschen werden an verschiedenen Standorten Korpora aufgebaut und zur Verfügung gestellt, u.a. am Institut für Deutsche Sprache in Mannheim und an der Universität Tübingen. künstliche Intelligenz Die künstliche-Intelligenz-Forschung bezeichnet ein Teilgebiet der Informatik, das sich mit der Modellierung und Verarbeitung intelligenter Prozesse beschäftigt. Dieser Forschungsbereich ist durchaus interdisziplinär ausgerichtet und bezieht Ansätze und Erkenntnisse der Kognitionswissenschaften (hier insbesondere die Psychologie und Neurologie), der Logik, Philosophie, Sprachwissenschaft und Kommunikationswissenschaften ein. In den meisten Forschungen geht es nicht primär darum, autarke intelligente Wesen maschinell nachzubilden, sondern eher um intelligente, d.h. wissensbasierte Unterstützung in konkreten Anwendungen und Problemstellungen. künstliche Konzepte Lexikalisch-semantische Wortnetze dienen zur Repräsentation lexikalischer Hierarchien und Muster in einem formalen Modell. Um die Hierarchien adäquater zu gestalten, bietet sich die Verwendung nicht-lexikalisierter Knoten an, die an passenden Stellen in das Netz eingefügt werden. So gibt es auf der taxonomischen Ebene unterhalb des generischen Knotens Lehrer keinen Schwesterknoten zum lexikalisierten Konzept Fachlehrer. Dieser ist aber kein geeigneter Oberbegriff für Lehrer verschiedenartiger Schultypen wie Hauptschullehrer oder Lehrer in einer hierarchischen Position wie Schuldirektor. Daher wurden mit ? Schultyplehrer und ? hierarchischer Lehrer zwei artifizielle Konzepte als Schwesterknoten zu Fachlehrer eingeführt. Puristen lehnen diesen Ansatz ab, weil künstliche Konzepte nicht exakt das Lexikalisierungsmuster einer Sprache abbilden. Allerdings können die Knoten durch ihre Auszeichnung jederzeit ausgefiltert werden. Lemma Das Lemma ist die Grundform einer bestimmten lexikalischen Einheit und steht stellvertretend für alle Wortformen dieser lexikalischen Einheit, z.B. die Grundform Haus im Nominativ singular für alle nach Numerus, Genus und Kasus flektierten Formen wie Haus, Hauses, Häuser, Häusern. Lemmatisierung Lemmatisierung bezeichnet den Prozess der Reduktion flektierter und variierter Wortformen auf ihre Grundformen, die so genannten Lemmata. Diese Lemmata stellen also Abstraktionen über Wort- Glossar 321 verwendungen in Kontexten dar und können als Basisinventar eines Lexikons fungieren. Morphologische Analyseprogramme, die so genannten Lemmatisierer, bilden grammatische Wortformen auf ihre Basis ab. Lemmazeichengestaltangabe Die Lemmazeichengestaltangabe (LZGA) ist obligatorischer Bestandteil der Mikrostruktur eines standardisierten Wörterbuchartikels. Durch dieses Element wird die Gestalt der kanonischen Form, meistens der Grundform, des sprachlichen Zeichens angegeben, dessen Eigenschaften in dem Wörterbuchartikel beschrieben werden. Lesart Unter Lesart versteht man meist eine Bedeutungsstelle eines (ambigen) Wortes, d.h. die Zuordnung der relevanten semantischen Beschreibung zu einer gegebenen Wortform. In unserem Ansatz, der sich an Cruse orientiert, reden wir von LEXIKALISCHEN E INHEITEN , die genau dieses Form-Bedeutungs-Paar rekonstruieren. Lesartendisambiguierung Unter Lesartendisambiguierung versteht man die meist kontextuell gesteuerte Auswahl der passenden Lesart für einen gegebenen, oftmals ambigen sprachlichen Ausdruck. So kann Bank in einem Kontext, in dem von überweisen die Rede ist, auf das Konzept Geldinstitut zurückgeführt werden, während ein Kontext wie sitzen die Lesart als Sitzgelegenheit nahelegt. Die Lesartendisambiguierung zu automatisieren, ist immer noch problematisch, da kontextuelles Wissen verfügbar sein muss. Lexem Lexeme oder lexikalische Einträge fassen lexikalische Einheiten zu Komplexen zusammen, welche die Hauptzugriffseinheiten im klassischen Lexikon ausmachen. Ein Lexem mit verschiedenen Lesarten oder lexikalischen Einheiten kann als POLYSEM aufgefasst werden. Eine lexikalische Form, die lexikalische Einheiten realisiert, die zu verschiedenen Lexemen gehören, gilt als HOMONYM . lexikalische Einheit Dieser Terminus geht auf Cruse zurück und bezeichnet den kleinsten unabhängigen Form-Bedeutungs-Komplex. Lexikalische Einheiten sind Wörter oder Wortzusammensetzungen, deren lexikalische Form (als Abstraktion über flektierte und derivierte Varianten dieser Formen) genau eine Bedeutung aufweist. Morpheme sind zwar semantische Konstituenten, aber sie haben nicht den Status eigenständiger lexikalischer Einheiten. lexikalische Regel Systematische vorhersagbare Information über lexikalische Zeichen bzw. vorhersehbare Zusammenhänge zwischen Klassen lexikalischer Zeichen werden durch lexikalische Regeln erfasst, etwa die Beschreibung von syntaktischen Prozessen zwischen zwei Konstruktionstypen (Aktiv-Passiv; Dativalternation). Darüber hinaus dienen lexikalische Regeln auch der Beschreibung semantischer Zusammenhänge zwischen verschiedenen Lesarten eines Lexems, etwa bei Metaphern und Metonymien. 322 Glossar lexikalische Wissensbank Eine lexikalische Wissensbank ist ein semantisch basierter Typ von elektronischem Lexikon, das auch dynamisches Lexikonwissen enthält wie die Anwendung lexikalischer Regeln und Prozesse. Lexikographie Im Gegensatz zur Lexikologie betont die Lexikographie den praktischen Aspekt der Wörterbucherstellung, was nicht ausschließt, dass nicht auch die Lexikographie einen theoretischen Ansatz verfolgen kann. Im Vordergrund steht allerdings die Nutzbarkeit der lexikalischen Information in einem Papierwörterbuch oder einem elektronischen Wörterbuch, die nach Anwendungszweck, Umfang und Adressatenkreis der jeweilig angestrebten Ressource ausgerichtet ist. Lexikologie Lexikologie umfasst die theoretische Beschäftigung mit Aspekten des Lexikons als abstraktem Konstrukt des menschlichen Sprachvermögens, z.B. die Analyse der Argumentstrukturen von Verben und Adjektiven. Dabei ist die Einbettung in ein theoretisches und explanatives Grammatikmodell wesentlich gegenüber einer deskriptiven Beschreibung oder Auflistung der Phänomene. Link Ein Link ist ein elektronischer Verweis in einem Hypertextdokument, der drei verschiedene Aspekte umfasst: die inhaltliche oder strukturelle Verbindung als solche, die Lokatoren der Knoten, die durch die Verbindung miteinander verknüpft sind, und die Etiketten zur Bezeichnung der Lokatoren. Auf Ebene der Hypertext-Implementierung wird das aus Lokator und Etikett bestehende Paar oft als A NKER bezeichnet. Ein Link ist also eine Relation, die als Anker implementiert ist. In einem Hypertext- Wörterbuch sind Verweise als Links realisiert. logische Metonymie Logische Metonymie bezeichnet eine metaphorische Transformation eines Begriffes in Hinblick auf seine charakteristischen Eigenschaften; z.B. die Reduktion einer natürlichen Art auf ihr Fleisch, wie in Ich esse gern Schwein. Makrostruktur Unter der Makrostruktur eines Lexikons ist die Gesamtheit des Systemgefüges zu verstehen, in welchem die einzelnen Lemmazeichen Systemelemente darstellen, die in einer bestimmten Ordnung vorliegen. Die Makrostruktur stellt die wesentliche Zugriffsstruktur auf die einzelnen enthaltenen Elemente dar, z.B. durch alphabetische Ordnung oder Thesaurus-Index. Das Lemmazeichen selbst ist sowohl Teil der Makroals auch der Mikrostruktur eines Lexikons und vermittelt also zwischen diesen beiden Ordnungsebenen. Marker Marker bzw. semantischer Marker bezeichnet einen Begriff aus der Merkmalssemantik von Katz und Fodor. Marker kennzeichnen denjenigen Teil der lexikalischen Bedeutung, der als universell angenommen wird, z.B. in Bezug auf den Terminus Junggeselle stellen die Merkma- Glossar 323 le HUMAN und MALE semantische Marker dar, während das Merkmal UNVERHEIRATET als D ISTINGUISHER aufgefasst wird. Markupsprache Eine Markupsprache ist eine formale Sprache, mit deren Hilfe die logische Struktur von Texten durch Auszeichnung der Textelemente explizit und unabhängig von der äußeren Textgestalt, dem Layout, gekennzeichnet wird. Die bekanntesten Beispiele für Markupsprachen sind XML und SGML. maschinenlesbares Wörterbuch Ein maschinenlesbares Wörterbuch ist ein Wörterbuch, das in digitalisierter Form z.B. auf einer CD-ROM vorliegt und nur elektronisch zugreifbar ist. Diese Spezies elektronischer Wörterbücher ist für den menschlichen Computernutzer bestimmt, ermöglicht aber noch keine Anwendbarkeit in maschinellen Verfahren der Sprachverarbeitung. maschinenverarbeitbares Wörterbuch Dies ist die nicht so geläufige Übersetzung des Terminus machine tractable dictionary und bezeichnet digitale Lexika, die vom Computer in Anwendungen zur Verarbeitung natürlicher Sprache eingesetzt werden können, indem sie z.B. den Zugriff auf spezifische Segmente der lexikographischen Information gestatten. Maximum-Likelihood Methode Ausgangspunkt sind die aus der Parametervermutung und der Hypothese sowie der Gegenhypothese resultierenden Wahrscheinlichkeitsverteilungen und Wahrscheinlichkeitsdichten. Der Quotient bzw. der Logarithmus des Quotienten dieser Dichten wird „likelihood ratio“ genannt. Die Schätzer dieser Parameter, die diesen Quotienten, als Funktion betrachtet, maximieren, werden „maximum likelihood estimator“ genannt. Die ML-Methode bestimmt also diejenigen Werte als Schätzwerte für den unbekannten Parameter der Zufallsvariablen, die einem Stichprobenresultat die größte Wahrscheinlichkeit des Auftretens geben. Meronymie Meronymie und Holonymie bilden ein konverses Paar zur Bezeichnung von Teil-Ganzes-Relationen. Ein Meronym ist ein Teil eines Körpers, Artefakts oder einer anderen komplexen Struktur, etwa Bein als Teil des Körpers, Tür als Teil eines Gebäudes und Fußgängerzone als Teil einer Stadt. Diese Relation kann auch auf Menschen (Mitgliedschaft in einer Gruppe) oder Substanzen (Element in einer Komposition) bezogen sein. Mesostruktur Die Mesostruktur umfasst alle Relationen zwischen lexikalischen Einträgen eines Lexikons, seien es nun morphologische Verweise auf abgeleitete Formen oder semantische Verweise auf bedeutungsähnliche Einträge. Metapher Eine Metapher bezeichnet eine bildhafte Verwendung eines Ausdruckes, der gegenüber seiner Basisbedeutung eine Sinnveränderung erfährt. Z.B. ist Fuchs im Satz Dieser Wissensshowkandidat ist ein (echter) 324 Glossar Fuchs nicht in seiner Kernbedeutung als Tier zu interpretieren, sondern einem Menschen werden gewisse fuchsartige Eigenschaften wie Schläue und Pfiffigkeit zugeschrieben. Trotz kreativer Beispiele sind Metaphern nicht beliebig bildbar; Gattungsbegriffe mit ihrem Potenzial an Prototypikalität sind denkbare Kandidaten für Metaphern. Mikrostruktur Unter der Mikrostruktur versteht man die Eintragsstruktur eines Wörterbuchs, genauer gesagt das abstrakte Aufbauschema, dem die enthaltenen Wörterbuchartikel folgen. Das betrifft sowohl die Auswahl der Elemente zur Beschreibung verschiedener Wortarten als auch die Reihenanordnung der lexikographischen Information in den Artikeln. Gerade für maschinell genutzte Lexika ist eine konsistent spezifizierte und realisierte Mikrostruktur essenziell. Multimedialität Multimedialität ist die Integration der bestehenden Techniken von Text, Illustration, Audio und Video. Multimedialität ist Informationsvermittlung unter Einbindung aller bestehenden Medien und unter Aufhebung der Grenzen zwischen Massen- und Individualkommunikation. Multimodalität Nach Dix sind multimodale Systeme dadurch gekennzeichnet, dass sie mehr als einen Sinnesmodus des Menschen zur Mensch- Computer-Kommunikation nutzen. Während Informationen meistens nur optisch auf einem Bildschirm dargestellt werden und damit die visuelle Modalität ansprechen, unterstützen multimodale Systeme auch eine akustische oder haptische Anzeige und beziehen damit auch die auditive, die taktile und die kinästhetische Sinnesmodalität in die Mensch-Computer- Kommunikation ein. Systeme, die beispielsweise Video und Graphik integrieren, sind multimedial, nach Dix aber nicht multimodal. Named Entity Named Entities sind Zeichenketten, die in eindeutiger Weise ein singuläres Objekt benennen, z.B. einen Ort, eine Firma, eine Institution oder eine Person, aber auch z.B. ein Buch über seine ISBN (‚International Standard Book Number‘). Das Konzept weist dadurch Überschneidungen zu den Eigennamen auf. Dadurch, dass Zeitausdrücke (Daten) und andere numerische Muster als Named Entities behandelt werden, geht man aber über das Konzept des Eigennamens hinaus. Die Bildung dieses Konzepts hat vor allem pragmatische Gründe: Man sucht nach Mechanismen, um diese für texttechnologische Aufgaben wichtigen Elemente in Texten identifizieren zu können. Norm Mit Norm wird die in einer Sprachgemeinschaft übliche oder traditionelle Realisierung des Sprachsystems bezeichnet. Damit ist die Norm konkreter als das System, nämlich eine ihrer möglichen Realisierungen in einer konkreten Sprachgemeinschaft, zugleich aber abstrakter als die Parole. Glossar 325 Normalverteilung und Standardnormalverteilung Mit der Normalverteilung kann die Häufigkeit von n Merkmalsverteilungen beschrieben werden. Die Dichtefunktion einer durch Erwartungswert und Varianz beschriebenen Normalverteilung N ( μ, σ 2 ) hat eine glockenartige Form. Erwartungswert und Varianz sind mit den beiden Parametern der Verteilung identisch. Die Normalverteilung kann man relativ leicht in eine Standardnormalverteilung mit dem Erwartungswert 0 und der Varianz 1 transformieren. Die Normalverteilung hat den Vorzug, dass sie bei Abweichungen der Daten gegenüber der Verteilungsannahme relativ robust ist. Außerdem konvergiert die Binomialverteilung bei entsprechend großer Varianz gegen die (Standard)Normalverteilung, der Test von Hypothesen gegen die Binomialverteilungsannahme kann in diesem Fall auf die Normalverteilungsannahme reduziert werden. Für die Normalverteilung liegt als erwartungstreuer Schätzer der Mittelwert von n Beobachtungen vor. Die kritischen Werte für die verschiedenen Signifikanzniveaus α , die für das Testen von Hypothesen benötigt werden, sind vertafelt (z.B. im Anhang zu Hartung (1993)). Ontologie Unter einer Ontologie verstehen wir seit Gruber (1993) eine in explizit formaler Repräsentation vorliegende Konzeptualisierung eines Wissensbereiches, über die durch eine Gruppe von Fachleuten ein gewisser Konsens erzielt wurde. Das Wissen über Objekte und Eigenschaften wird explizit formalisiert, um logische Inferenzen über den Daten zu ermöglichen. Ontologien sind in vielen Kerndisziplinen (Informatik, künstliche- Intelligenz-Forschung, Softwaretechnik) und etlichen Fachwissenschaften verbreitete Hintergrundressourcen. Parole In der strukturalistischen Sprachtheorie werden unter Parole die konkreten Sprechereignisse gefasst, die auf der Grundlage des abstrakten Zeichensystems einer Sprache, der L ANGUE , gebildet werden. Es bestehen Analogien zum Begriff der Performanz in der generativen Transformationsgrammatik. Parsen Das Parsen bezeichnet allgemein den Prozess der syntaktischen Textanalyse. In der Psycholinguistik untersucht man das menschliche Parsen, in der Computerlinguistik das maschinelle. Ein P ARSER ist ein Computerprogramm, das Texten eine syntaktische Analyse zuweist, z.B. in der Form eines Phrasenstruktur- oder Dependenzbaums. Geparst werden kann nicht nur natürliche Sprache, sondern auch stärker formalisierte Sprachen wie die von Computerprogrammen (Programmiersprachen) oder von Wörterbuchartikeln. Phrasem Ein Phrasem bezeichnet eine sprachliche Wendung, die aus mehreren Wörtern besteht wie z.B. einen Bären aufbinden. Die Bedeutung des Idioms lässt sich nicht aus den Bedeutungen der einzelnen Wörter erschließen, d.h. seine Bildung ist nicht transparent, und ein Sprecher des 326 Glossar Deutschen muss lernen, dass einen Bären aufbinden so etwas wie belügen bedeutet. Interessant ist auch die relative Starrheit der in dem Idiom enthaltenen Elemente: So wird man jemandem kaum zwei Bären aufbinden, einen Braunbären aufbinden oder Bären aufladen. Polysemie Unter Polysemie versteht man die Mehrdeutigkeit von Wörtern: So kann Birne auf eine Frucht oder eine Glühbirne referieren. Liegen die Bedeutungen eines polysemen Wortes sehr weit auseinander wie bei Schloss (‚Türschloss‘) und Schloss (‚Gebäude‘), spricht man von Homonymen. Schwierig ist die Abgrenzung polysemer Bedeutungen in Lexikologie und Lexikographie: Wann ist eine Bedeutungsnuancierung, wann eine neue Lesart anzunehmen? PP-Attachment Unter PP-Attachment versteht man die Zuordnung einer Präpositionalphrase zu einer Verbalphrase oder einer Nominalphrase. Dabei kann es zu Ambiguitäten kommen. Ein Beispiel: Er (lieh sich) (ein Buch von Ernst Bloch) oder Er (lieh sich) (ein Buch) (von Ernst Bloch). Printwörterbuch Unter einem Printwörterbuch versteht man ein Wörterbuch, das auf Papier publiziert wird. Der Terminus wurde in Abgrenzung zu lexikalischen Ressourcen eingeführt, die im elektronischen Medium bzw. auf anderen Datenträgern, z.B. Disketten oder CD-ROM, publiziert werden. Letztere nennt man auch ELEKTRONISCHE W ÖRTERBÜCHER . Qualia Der Terminus geht auf einen Begriff von Aristoteles zurück, der ihn zur Explanation eines Objektes oder einer Relation in Bezug auf vier essenzielle Bedeutungskategorien eingeführt hat: mit KONSTITUTIVER , FORMALER , TELISCHER und AGENTIVER R OLLE . Pustejovsky hat in seiner Theorie des Generativen Lexikons die Qualiastruktur als wesentliches Beschreibungsinstrumentarium für die Repräsentation der lexikalischen Semantik von Nominalen etabliert. reguläre Polysemie Reguläre Polysemie kann für Gruppen von Nomina festgestellt werden, die sich vorhersagbar polysem verhalten. Z.B. haben Bildungseinrichtungen denotierende Nomina wie Schule, Universität, Privatakademie gleichermaßen Lesarten, die auf die Institution, das Gebäude, die Gesamtheit aller dort tätigen Menschen, etc. referieren. Dieser systematische Zusammenhang kann durch eine spezifische lexikalische Regel, die auf dem Grundeintrag operiert, ausgedrückt werden. Rektion Mit Rektion wird die Eigenschaft syntaktischer Einheiten, vor allem der Verbalphrasen, den Kasus abhängiger Elemente zu bestimmen, bezeichnet. Schätzer Der Schätzer ist eine Funktion, mit der die Wahrscheinlichkeit eines Versuchsausgangs möglichst zuverlässig abgeschätzt wird. Ein wichtiger Schätzer für das Aufreten eines Versuchsausgangs ist die relative Häufigkeit, mit der dieser Ausgang beobachtet wurde. Da die theoretische Bestimmung eines Schätzers auf Grundlage von n Zufallsgrößen und den Glossar 327 ihnen zugrunde liegenden Verteilungen geschieht und eine Verarbeitung der Beobachtungsdaten, der möglichen Realisierungen der n Zufallsgrößen, in einem statistischen Experiment dargestellt wird, müssen an einen Schätzer - als Zufallsgröße betrachtet - mehrere Anforderungen gestellt werden, deren wichtigste Erwartungstreue und Konsistenz sind. Ein erwartungstreuer Schätzer liefert wenigstens im Mittel den richtigen Wert E ˆ P ( X 1 , . . . , X n ) = P (10) das heißt, dass er keinen systematischen Fehler enthält. Ein konsistenter Schätzer liefert desto bessere Ergebnisse, je größer die Zahl der Beobachtungen ist. Schwa-Laut Der Schwa-Laut ist ein mit neutraler Zungenstellung gebildeter unbetonter Vokal. Der Schwa-Laut wird in vielen flektierten Formen (regulär) ausgelassen, vgl. dunkel → dunkle; adelig → adlig. Selektionsrestriktion/ Selektionspräferenz Eine Selektionsrestriktion, oder, in abgeschwächter Form, Selektionspräferenz, die als Eigenschaft eines sprachlichen Zeichens spezifiziert wird, erlaubt die Definition von Eigenschaften der sprachlichen Zeichen, mit denen es sich verbindet. Zum Beispiel hat das Verb warten eine klare Präferenz für belebte Subjektreferenten. Unbelebte Subjekte sind nicht ausgeschlossen, bilden aber einen markierten Fall. Semantic Web Das Semantic Web bezeichnet die auf Berner-Lee (2001) zurückgehende Initiative zur Erweiterung des World Wide Web (WWW) um Metadaten, welche die Semantik der Web-Inhalte in formaler Hinsicht erfassen können ( http: / / www.w3.org/ 2001/ sw/ ). Daten sollen im WWW in einer für Maschinen verarbeitbaren semantischen Repräsentation vorliegen, so dass nicht nur Zeichenketten auffindbar sind, sondern Bedeutungsinhalte erschlossen werden können. semantische Netze Semantische Netze sind als Vorläufer der Ontologien aufzufassen, welche seit Quillian im Rahmen der künstliche-Intelligenz- Forschung und Informatik kognitiv inspirierte formale Modelle zur Repräsentation von Konzepten und Relationen bereitstellen. Semantische Netze sind daher eng mit dem Kontext der Wissensrepräsentation verbunden. Sie bestehen aus Knoten (Konzepten) und Kanten (Beziehungen zwischen Knoten), deren Zahl und Semantik in spezifischen Modellen festzulegen ist. John F. Sowa hat das Szenario semantischer Netze über einen langen Zeitraum entscheidend mitgeprägt. semantische Relation Eine semantische Relation ist eine Beziehung, die zwischen zwei oder mehr lexikalischen Einheiten aufgrund ihrer lexikalisch-semantischen Eigenschaften besteht. Beispiele für semantische Relationen sind: Synonymie, Antonymie, Hyperonymie, Hyponymie. 328 Glossar Sinn Sinn bezeichnet bei Frege die intensionale Bedeutung eines Wortes im Gegensatz zur Bedeutung, der Extension eines Ausdruckes. Wir gebrauchen S INN allerdings nicht kontrastiv, sondern als Übersetzung von SEN - SE (‚Lesart‘). Jede lexikalische Einheit weist z.B. eine spezifische Lesart auf. sinnrelational Von einem sinnrelationalen Ansatz spricht man häufig in Abgrenzung zu einem dekompositorischen bzw. komponentiellen Vorgehen in der semantischen Analyse. Im Mittelpunkt stehen die semantischen Beziehungen zwischen Wörtern, die durch Überbzw. Unterordnung, Gegenteiligkeit, Teil-Ganzes-Beziehungen etc. gekennzeichnet sind. Die Bedeutung eines Wortes ergibt sich aus der Gesamtheit der semantischen Beziehungen zu anderen Wörtern im Sprachsystem. Subkategorisierung Als Subkategorisierung bezeichnet man die Spezifizierung lexikalischer Kategorien in syntaktisch oder semantisch motivierte Subklassen, die den Verträglichkeitsbeziehungen zwischen Einheiten bestimmter syntaktischer Funktionen im Satz entsprechen. Synset Ein Synset ist eine Menge synonymer lexikalischer Zeichen. In Wortnetzen vom Typ des Princeton WordNet repräsentieren Synsets Konzepte und sind somit die Trägermenge konzeptueller Relationen. syntagmatisch Dieser Begriff ist von S YNTAGMA abgeleitet und bezieht sich auf die kombinatorischen Eigenschaften lexikalischer Einheiten im Satz, etwa das Auftreten prädikativer Adjektive mit den modifizierten Nomina. Der korrespondierende kontrastive Term ist PARADIGMATISCH . t-Test Dieser Test kann angewendet werden, wenn die Stichprobe t-verteilt ist. Die t-Verteilung ist F t n ( x ) = ∫ x −∞ f t n ( ζ ) dζ (11) Dabei bezeichnet n die Anzahl der Freiheitsgrade, die sich als Differenz von Stichprobenumfang und Anzahl der zu testenden Parameter bestimmen lässt. Ist n , also der Stichprobenumfang, groß, dann nähert sich die t- Verteilung der Standardnormalverteilung an. Mit der Standardnormalverteilung teilt die t-Verteilung die Eigenschaft, symmetrisch um den Nullpunkt verteilt zu sein, das heißt, dass der Erwartungswert der Standardnormalverteilung gerade gleich Null ist und die Varianz n n − 2 für n ≥ 3 (12) Die Einzelwerte einer t-verteilten Stichprobe müssen unabhängig voneinander und normalverteilt sein. Der t-Test wird für den Vergleich der Mittelwerte von Stichprobe und Grundgesamtheit bei unbekannter Varianz dieser Grundgesamtheit angewendet. Es kann die Nullhypothese geprüft werden, ob eine Stichprobe einer normalverteilten Grundgesamtheit mit Glossar 329 gegebenem Erwartungswert entstammt. Die Teststatistik lautet: t = X n − μ S n √ n (13) wobei X n den Mittelwert der Stichprobe bezeichnet, n die Größe der Stichprobe, μ den Erwartungswert der Grundgesamtheit und S n die Stichprobenvarianz als Schätzer der Standardabweichung. Die Nullhypothese wird dabei zum Signifikanzniveau α verworfen, wenn t einen kritischen Wert überschreitet. Der kritische Wert kann aufgrund der Freiheitsgrade der t-Verteilung und des Wertes für α ermittelt werden. Tag Ein Tag, auch Etikett oder Bezeichner genannt, benennt ein Element. In XML wird ein Element in ein Anfangstag und ein Endetag eingeschlossen. Leere Elemente werden durch ein besonders gekennzeichnetes Anfangstag markiert. Tagging/ Wortartentagging Beim Tagging wird jedem Wort in einem Text eine Wortart zugewiesen. Dies geschieht in Form einer Etikette (T AG ), die an jedes Textwort angehängt wird. Das Tagging setzt die Segmentierung eines Textes in Textwörter (Tokenisierung) voraus. Für das Tagging benötigt werden eine Menge von Wortartentags (Tagset) und für die meisten Verfahren ein Lexikon, in dem Wörtern die möglichen Wortarten zugeschrieben werden. Tagset Die Liste aller morphosyntaktischen, grammatischen oder funktionalen Label, die bei einer Annotation verwendet werden. Taxonomie Eine Taxonomie ist eine sprachliche Begriffshierarchie, basierend auf asymmetrischen Sinnrelationen wie Hyperonymie und Holonymie. Der Begriff stammt aus der Biologie zur Klassifikation der Lebewesen hinsichtlich ihrer angenommenen Verwandtschaft und ist auf andere systematisch strukturierbare Bereiche wie lexikalische Hierarchien übertragen worden. Thesaurus Ein Thesaurus ist eine nach Sachgebieten bzw. nach der Ähnlichkeit der Bedeutung der kodifizierten Wörter gegliederte lexikalische Ressource. Top-Level-Ontologie Eine Top-Level-Ontologie ist eine allgemeinsprachlich ausgerichtete Konzeptualisierung meist recht generischer Begriffe, welche die Strukturierung der Welt beschreiben. Z.B. wird die fundamentale Unterscheidung zwischen PHYSICAL vs. ABSTRACT (Dinge, die in Raum und Zeit verortet, also konkret sind, vs. Dinge, die es nicht sind) weiter differenziert durch Aufteilung von PHYSICAL in OBJECT und PRO - CESS usw. Top-Level-Ontologien sind meist mit Domänen-Ontologien verknüpfbar. Transfermodell Das Transfermodell bezeichnet eine klassische Methode der maschinellen Übersetzung, die im Gegensatz zur Interlingua-Metho- 330 Glossar de Bezug auf ein spezifisches Sprachpaar nimmt. Zuerst wird die grammatische Strukturbeschreibung des Quelltextes erzeugt, aus der (meist) eine semantische Struktur abgeleitet wird. Danach wird diese Struktur in die Zielsprache transferiert. In der Zielsprache werden aus der semantischen Struktur grammatikalische Sätze generiert. Type Shift Der Terminus bezieht sich auf einen Typen verändernden Prozess in Bezug auf ein Argument innerhalb des generativen Lexikons durch entsprechende Regeln. Ein Verb wie begin (‚anfangen‘) verlangt ein Ereignisargument als Ergänzung; im Satz John began the book ist aber mit Buch nur ein physisches Objekt gegeben. Die Ereignisinterpretation lässt sich nur über die telische Rolle von book (read, write) konstruieren. Umlaut Mit Umlaut wird der Prozess bzw. das Ergebnis der Angleichung des Vokals der Haupttonsilbe an den Vokal der folgenden, unbetonten Silbe (gut → Güt-e, güt-ig) beschrieben. Umlautung tritt auch bei Diphthongen auf (laufen → Läuf-er, läuf-ig). Umtext Umtexte bezeichnen im Wörterbuch enthaltene Informationen, die außerhalb der Makro-, Mikro- und Verweisstrukturen liegen. So können Grammatiken, Benutzerhinweise, Glossare, Projektinformationen etc. im Wörterbuch mögliche Umtexte sein. Verweis Ein Verweis ist ein typographisch markierter Zeiger eines Lexikoneintrages auf einen anderen lexikographischen Eintrag im Wörterbuch. Er kann in morphologischer Hinsicht auf das Lemmazeichen selbst bezogen sein und eine Relation zu derivierten Formen oder Basisformen angeben oder auch eine semantische Relation zwischen lexikalischen Einheiten oder Lexemen wiedergeben. Verweise konstituieren die Mesostruktur eines Wörterbuches. Wahrscheinlichkeit Der Begriff wurde aus der Stochastik übernommen. Die Wahrscheinlichkeit des Eintretens eines Ereignisses wird auf einen numerischen Wert auf einer Skala zwischen 0 und 1 abgebildet, wobei 1 die absolute Sicherheit des Eintretens des Ereignisses unter den gegebenen Bedingungen charakterisiert und 0 die absolute Sicherheit des Nichteintretens. Es liegt in der Natur der Sache, d.h. des unvollständigen Wissens des Beobachtenden, dass der exakte Wert dieser Größe unbekannt ist. Er wird im Allgemeinen aus den vorliegenden Daten beobachteter Versuchsausgänge geschätzt. Die Wahrscheinlichkeit wird als Funktion P einer Zufallsvariablen bzw. einer bestimmten Ausprägung notiert (z.B. P ( x = 3) = 0 , 005 als die Wahrscheinlichkeit, dass der Wert einer Zufallsvariablen 3 beträgt). Wahrscheinlichkeitsverteilungen Unter der Wahrscheinlichkeitsverteilung einer Zufallsvariablen versteht man die nicht bekannte Verteilung der möglichen Versuchsausgänge, d.h. den relativen Anteil einer Ausprägung oder einer Menge von Ausprägungen der Zufallsvariablen an der Ge- Glossar 331 samtanzahl der Versuchsausgänge. Über die Verteilungsfunktion F wird im Falle einer diskret verteilten Zufallsvariable jeder Ausprägung oder Gruppe von Ausprägungen ein Wahrscheinlichkeitswert zugeordnet (z.B. weist die Verteilungsfunktion bei der Verteilung, die dem Wurf mit einem „gerechten“ Würfel zugrunde liegt, jedem der sechs möglichen Ausprägungen den Wert 1 / 6 zu, und den Ausprägungen P < 3 den Wert 1 / 3 : F ( X < 3) = 0 , 333333 ). Im Fall einer stetig verteilten Zufallsvariablen kann nicht einem einzelnen Wert der Variablen eine Wahrscheinlichkeit zugeordnet werden, sondern lediglich einem bestimmten Bereich von Werten eine Wahrscheinlichkeitsdichte: F x ( t ) = ∫ t −∞ f x ( ζ ) dζ (14) In diesem Fall bezeichnet F x ( t ) die Verteilungsfunktion und f x ( ζ ) die Wahrscheinlichkeitsdichte. Zu dem statistischen Modell unter welches ein Experiment subsumiert wird, gehört auch die Wahrscheinlichkeitsverteilung der Zufallsvariablen. Wortform Eine Wortform ist ein wortwertiges sprachliches Zeichen, das in einem Text auftritt und deshalb alle im gegebenen Kontext notwendigen morphosyntaktischen Attribute trägt. Diese Attribute können in der Wortform durch Flexionsaffixe (Flexive) oder durch stammverändernde Operationen wie Umlautung und Ablautung kodiert sein. Wortnetz Ein Wortnetz ist eine lexikalische Ressource, in der die lexikalischen Zeichen nicht ausdrucksseitig, sondern inhaltsseitig, also nach ihrer Bedeutung angeordnet sind. Charakteristisch ist ein dichtes Geflecht von lexikalisch-semantischen oder konzeptuellen Beziehungen zwischen den lexikalischen Zeichen. Bekannte Wortnetze sind das englische WordNet, das in Princeton entwickelt wurde und wird, sowie das deutsche Germa- Net. Wortnetze gibt es mittlerweile für eine Vielzahl von Sprachen. Worttoken, Token Ein Worttoken bezeichnet das Vorkommen eines Wortes an einer bestimmten Stelle im Korpus. Worttype, Type In einem Worttype werden die Token eines Korpus zusammengefasst, die nach einem festgelegten Kriterium ähnlich oder gleich sind, z.B. Wörter mit gleicher orthographischer Form. Zeichenkette Eine Zeichenkette in einem Text oder Korpus ist eine Folge alphanumerischer Zeichen zwischen Begrenzerzeichen. Eine Zeichenkette kann ein Wort instantiieren (z.B. Tageszeitung) oder ein Nichtwort (z.B. c44e8qz). Zipfsches Gesetz Das Zipfsche Gesetz ist ein Modell, mit dessen Hilfe man den Wert bestimmter Größen, z.B. Worttypes, die in eine Rangfolge gebracht werden, aus ihrem Rang abschätzen kann. Rang und Häufigkeit eines Elements verhalten sich annähernd umgekehrt proportional zuein- 332 Glossar ander. Häufige Verwendung findet das Gesetz in der Korpuslinguistik und Quantitativen Linguistik, wo die Häufigkeit von Wörtern in einem Text(korpus) zur Rangfolge in Beziehung gesetzt wird. Zufallsvariable Eine Zufallsvariable oder äquivalente Zufallsgröße bezeichnet eine messbare Abbildung von einem Ereignisraum in einen Zahlenraum. Sie werden durch Großbuchstaben dargestellt (z.B. X ), auf eine bestimmte Ausprägung der Zufallsvariablen wird mit dem entsprechenden Kleinbuchstaben referiert (z.B. x ), auf Vektoren von Zufallsvariablen durch Indizierung der Variablen (z.B. X 1 , X 2 , . . . , X i ). Die Zahl der möglichen Versuchsausgänge bestimmt den Wertebereich der Zufallsvariablen. Ist die Zahl der Versuchsausgänge endlich oder abzählbar unendlich, dann spricht man von einer diskret verteilten Zufallsvariablen, ist diese Zahl überabzählbar unendlich, spricht man von einer stetig verteilten Variablen. Zusammenrückung In der Wortbildung: substantivierte syntaktische Fügungen, bei denen das Letztglied nicht die Wortart bestimmt (im Gegensatz zur Komposition); zum Beispiel: Vaterunser, Gottseibeiuns, Taugenichts. Zwei-Ebenen-Morphologie Verfahren, bei dem Wortformen durch reguläre Ableitungen aus der Repräsentation einer Grundform auf lexikalischer Ebene gebildet werden. Der Prozess ist reversibel, es können also auch Wortformen auf ihre Grundformen abgebildet werden. Die Zwei-Ebenen- Morphologie wurde von Kimmo Koskenniemi entwickelt. Zwei-Ebenen-Semantik Die Zwei-Ebenen-Semantik wurde von Bierwisch zunächst für die Beschreibung von Adjektiven und polysemen Nomina entwickelt und bezeichnet ein zweistufiges Semantikmodell mit den Ebenen der Semantischen Form (SF) und der Konzeptuellen Struktur (CS). Die Semantische Form fungiert als Schnittstelle zwischen der Grammatik und dem konzeptuellen System, das auch andere als sprachliche Informationen verarbeitet wie z.B. spatiales und enzyklopädisches Wissen. Wunderlich hat umfassende Verbanalysen im Rahmen der Zwei-Ebenen- Semantik durchgeführt. Literaturverzeichnis Abe, Naoke und Li, Hang (1996): “Learning Word Association Norms Using Tree Cut Pair Models”. In: Proceedings of the 13th International Conference on Machine Learning. Adams, Douglas (1980): The restaurant at the end of the Universe: the hitch hiker’s guide to the Galaxy 2. London: Pan. Agirre, Eneko und Edmonds, Philip (Herausgeber) (2006): Word sense disambiguation: algorithms and applications. Berlin: Springer. Agirre, Eneko und Martinez, David (2002): “Integrating selectional preferences in WordNet”. In: Proceedings of the First International WordNet Conference. Mysore, India. Agricola, Christiane und Agricola, Erhard (Herausgeber) (1992): Duden Wörter und Gegenwörter: Wörterbuch der sprachlichen Gegensätze. Mannheim: Duden Verlag. 2. Auflage. Allan, Keith (1995): “What names tell about the lexicon and the encyclopedia”. Lexicology 1: S. 280-325. Apresjan, Jurij Derenikovi (1973): “Regular Polysemy”. Linguistics 142: S. 5-32. Baayen, Harald (2001): Word Frequency Distributions. Dordrecht: Kluwer. Baker, Collin F.; Fillmore, Charles J. und Cronin, Beau (2003): “The Structure of the FrameNet Data Base”. Int. Journal of Lexicography 16 (3): S. 281-296. Bergenholtz, Henning und Mugdan, Joachim (1979): Einführung in die Morphologie. Stuttgart: Kohlhammer. Berners-Lee, Tim; Hendler, James und Lassila, Ora (2001): “The Semantic Web”. Scientific American http: / / www.sciam.com/ article.cfm? articleID= 00048144-10D2-1C70-84A9809EC588EF21 . Bertelsmann (2003): Wahrig digital: Die deutsche Rechtschreibung. Gütersloh: Bertelsmann. Bhatt, Christa (1991): Einführung in die Morphologie. Hürth-Efferen: Gabel. Bierwisch, Manfred (1983): “Semantische und konzeptuelle Repräsentationen lexikalischer Einheiten”. In: Untersuchungen zur Semantik. herausgegeben von Motsch, Wolfgang und Ruzicka, Rudolf. Berlin: Akademie- Verlag. S. 61-69. Bierwisch, Manfred und Lang, Ewald (1987): “ Etwas länger - viel tiefer - immer weiter: Epilog zum Dimensionsadjektiveprojekt”. In: Grammatische und konzeptuelle Aspekte von Dimensionsadjektiven. Vol. XXVI + XXVII of studia grammatica. herausgegeben von Bierwisch, Manfred und Lang, Ewald. Berlin: Akademie-Verlag. S. 649-699. 334 Literaturverzeichnis Boas, Hans C. (2005): “Semantic Frames as Interlingual Representations for Multilingual Lexical Databases”. Int. Journal of Lexicography 18 (4): S. 445-478. Boguraev, Branimir und Briscoe, Ted (1989): Computational lexicography for natural language processing. London: Longman. Boguraev, Branimir und Pustejovsky, James (Herausgeber) (1996a): Corpus Processing for Lexical Acquisition. Cambridge, Mass. und London: MIT Press. Boguraev, Branimir und Pustejovsky, James (1996b): “Issues in Text-based Lexicon Acquisition”. In: Corpus Processing for Lexical Acquisition. herausgegeben von Boguraev, Branimir und Pustejovsky, James. S. 3-17. Bolinger, David (1965): “The atomization of meaning”. Language 41: S. 555-573. Boos, Evelyn; Friedrich, Sandra und Feldbaum, Matthias (Herausgeber) (2000): Neues Großes Lexikon in Farbe. Trautwein Lexikon Edition, in Compton’s Interaktives Lexikon Infopedia. München: The Learning Company. 5. Auflage. Brachman, Ronald und Schmolze, James G. (1985): “An Overview of the KL-ONE Knowledge Representation system”. Cognitive Science 9 (2): S. 171-216. Brent, Michael R. (1993): “From Grammar to Lexicon: Unsupervised Learning of Lexical Syntax”. Computational Linguistics 19 (2): S. 243-262. Briscoe, Ted und Copestake, Ann (1991): “Sense Extensions as Lexical Rules”. In: Proceedings of the IJCAI Workshop on Computational Approaches to Non-Literal Language. herausgegeben von Fass, Dan; Hinkelman, Elizabeth und Martin, James. Sydney, Australia. Technical Report CU-CS- 550-91, Department of Computer Science, University of Colorado, Boulder, Colorado. S. 12-20. Brockhaus-Redaktion (Herausgeber) (1968): Der neue Brockhaus. Lexikon und Wörterbuch in fünf Bänden und einem Atlas. Wiesbaden: Brockhaus Verlag. 4. Auflage. Brockhaus-Redaktion (Herausgeber) (1996): Brockhaus - die Enzyklopädie in 30 Bänden. Leipzig und andere: Brockhaus Verlag. 20. Auflage. Brugère-Trélat, Vincent (Herausgeber) (1980): Dictionnaire Hachette. Langue, encyclopedie, noms propres. Paris: Hachette. 5. Auflage. Brundage, Jennifer; Kresse, Maren; Schwall, Ulrike und Storrer, Angelika (1992): “Multiword Lexemes: A Monolingual and Contrastive Typology for NLP and MT”. Technischer Bericht. IBM Heidelberg, IBM-TR-80.92- 029. Buitelaar, Paul (1998): CORELEX: Systematic Polysemy and Underspecification. Dissertation. Brandeis University. http: / / www.dfki.de/ ~paulb/ pub.html . Literaturverzeichnis 335 Burchardt, Aljoscha; Erk, Katrin; Frank, Anette; Kowalski, Andrea; Padó, Sebastian und Pinkal, Manfred (2006): “The SALSA corpus: a German corpus resource for lexical semantics”. In: Proceedings of LREC 2006. Genoa, Italy. Burger, Harald; Buhofer, Annelies und Sialm, Ambros (Herausgeber) (2007): Handbuch Phraseologie. Band 28 von Handbücher zur Sprach- und Kommunikationswissenschaft. Berlin und New York: de Gruyter. Bußmann, Hadumod (1990): Lexikon der Sprachwissenschaft. Stuttgart: Kröner. Calzolari, Federico; Mammini, Michele und Monachini, Monica (2004): “Unifying Lexicons in view of a Phonological and Morphological Lexical DB”. In: Proceedings of the Fourth International Conference on Language Resources and Evaluation, Lisbon, Portugal, May 2004. LREC. CED (1995): Collins Electronic English Dictionary and Thesaurus. Stuttgart: Klett. Chaffin, Roger (1992): “The Concept of a Semantic Relation”. In: Frames, Fields, and Contrasts. New Essays in Semantic and Lexical Organization. herausgegeben von Lehrer, Adrienne und Kittay, Eva Fedder. Hillsdale: Lawrence Erlbaum Paublishers. S. 253-288. Chomsky, Noam (1965): Aspects of the Theory of Syntax. MIT Press: Cambridge, Mass. Chomsky, Noam (1969): Aspekte der Syntax-Theorie. Frankfurt: Suhrkamp Verlag. Chomsky, Noam (1970): “Remarks on Nominalizations”. In: Readings in English transformational grammar. herausgegeben von Jacobs, Roderick A. und Rosenbaum, Peter S. Waltham, MA: Ginn & Company. S. 184-221. Church, Kenneth Ward; Gale, William; Hanks, Patrick und Hindle, Donald (1991): “Using statistics in lexical analysis”. In: Exploiting On-Line Resources to Build a Lexicon. herausgegeben von Zernik, Uri. New York: Lawrence Erlbaum. S. 115-164. Clark, Eve V. (1993): The Lexicon in Acquisition. Cambridge: Cambridge University Press. Copestake, Ann und Briscoe, Ted (1995): “Semi-productive polysemy and sense extensions”. Journal of Semantics 1 (12): S. 15-67. Copestake, Ann und Briscoe, Ted (1999): “Lexical Rules in Constraint-Based Grammars”. Computational Linguistics 1 (1): S. 1-42. Cruse, Donald A. (1986): Lexical Semantics. Cambridge: Cambridge University Press. Daelemans, Walter (1995): “Memory-Based Lexical Acquisition and Processing”. In: Machine Translation and the Lexicon. Third International 336 Literaturverzeichnis EAMT Workshop, Heidelberg, April 1993. herausgegeben von Steffens, Petra. Berlin und andere: Springer. S. 85-98. Daelemans, Walter (2004): “Computational Linguistics”. In: Morphologie. Morphology. Ein internationales Handbuch zur Flexion und Wortbildung. An International Handbook on Inflection and Word-Formation. 2. Teilband. herausgegeben von Booij, Geert; Lehmann, Christian; Mugdan, Joachim und Skopeteas, Stavros. Berlin und New York: de Gruyter. S. 1893-1900. Daelemans, Walter und Durieux, Gert (2000): “Inductive Lexica”. In: Lexicon Development for Speech and Language Processing. herausgegeben von van Eynde, Frank und Gibbon, Dafydd. Dordrecht und andere: Kluwer. Nummer 12 in Text, Speech and Language Technology. S. 115-139. Daelemans, Walter; Zavrel, Jakub und van den Bosch, Antal (1999): “Forgetting exceptions is harmful in language learning”. Machine Learning 34: S. 11-43. de Buenaga Rodriguez, Manuel; Gomez-Hidalgo, José-Maria und Diaz- Agudo, Belén (1997): “Using WordNet to Complement Training Information in Text Categorization”. In: Proceedings of 2nd International Conference on Recent Adavances in NLP. RANLP’97. de Saussure, Ferdinand (2001): Grundfragen der allgemeinen Sprachwissenschaft. Berlin und New York: de Gruyter. 3. Auflage. Derwojedowa, Magdalena; Piasecki, Maciej; Szpakowicz, Stanisław und Zawisławska, Magdalena (2007): “Polish Wordnet on a Shoestring”. In: Datenstrukturen für linguistische Ressourcen und ihre Anwendungen. Proc. der GLDV Frühjahrstagung. herausgegeben von Rehm, Georg; Witt, Andreas und Lemnitzer, Lothar. Tübingen: Gunter Narr. S. 169-178. Dik, Simon C. (1978): Stepwise Lexical Decomposition. Lisse: Peter de Ridder Press. Drosdowski, Günther (Herausgeber) (1988): Duden Stilwörterbuch der deutschen Sprache: die Verwendung der Wörter im Satz. Mannheim: Duden Verlag. 7. Auflage. Dudenredaktion (Herausgeber) (1990): Duden Fremdwörterbuch. Mannheim: Duden Verlag. 5. Auflage. Dudenredaktion (Herausgeber) (1996): Duden - Deutsches Universalwörterbuch. Mannheim: Duden Verlag. 3. Auflage. Edmonds, Philip und Hirst, Graeme (2002): “Near-synonymy and lexical choice”. Computational Linguistics 28 (2): S. 105-144. Engelberg, Stefan und Lemnitzer, Lothar (2001): Einführung in die Lexikographie und Wörterbuchbenutzung. Tübingen: Stauffenburg. Evens, Martha (Herausgeber) (1992): Relational models of the lexicon: representing knowledge in semantic networks. Cambridge: Cambridge University Press. Literaturverzeichnis 337 Evert, Stefan (2005): The Statistics of Word Cooccurrences: Word Pairs and Collocations. Dissertation. Universität Stuttgart. Evert, Stefan und Lüdeling, Anke (2001): “Measuring morphological productivity: Is automatic preprocessing sufficient? ” In: Proceedings of the Corpus Linguistics 2001 Conference. herausgegeben von Rayson, Paul; Wilson, Andrew; McEnery, Tony et al. S. 167-175. Eynde, Frank van und Gibbon, Dafydd (Herausgeber) (2000): Lexicon Development for Speech and Language Processing. Nummer 12 in Text, Speech and Language Technology. Dordrecht und andere: Kluwer. Feldweg, Helmut; Hinrichs, Erhard und Storrer, Angelika (1993): “Korpusunterstützte Entwicklung lexikalischer Wissensbasen”. Sprache und Datenverarbeitung 17: S. 59-72. Fellbaum, Christiane (1998): WordNet: An Electronic Lexical Database. Cambridge, Mass.: MIT Press. Fellbaum, Christiane; Geyken, Alexander; Herold, Axel; Koerner, Fabian und Neumann, Gerald (2006): “Corpus-Based Studies of German Idioms and Light Verbs”. International Journal of Lexicography 19 (4): S. 349-361. Fillmore, Charles J. (1968): “The Case for Case”. In: Universals in Linguistic Theory. herausgegeben von Bach, Emmon und Harms, Robert T. New York: Holt, Rinehart & Winston. S. 1-88. Fillmore, Charles J. (1969): “Types of lexical information”. In: Studies in syntax and semantics. herausgegeben von Kiefer, Ferenc. Dordrecht: Reidel. S. 109-137. Fillmore, Charles J. (1976): “Frame semantics and the nature of language”. In: Annals of the New York Academy of Sciences: Conference on the Origin and Development of Language and Speech. Volume 280. S. 20-32. Fillmore, Charles J. (1985): “Frames and the semantics of understanding”. Quaderni di Semantica 6 (2): S. 222-254. Fillmore, Charles J. und Atkins, Sue (1992): “The Semantics of RISK and its Neighbors.” In: Frames, Fields and Contrasts: New Essays in Semantic and Lexical Organization. herausgegeben von Adrienne Lehrer und Eva Fedder Kittay. Hillsdale: Erlbaum. S. 75-102. Fillmore, Charles J. und Baker, Collin F. und Sato, Hiroaki (2002): “Seeing Arguments through Transparent Structures”. In: Proc. LREC 2002, Gran Canaria, May/ June. S. 787-791. Firth, John Rupert (1957): “Modes of Meaning”. In: Papers in Linguistics 1934-1951. herausgegeben von Firth, John Rupert. London: Longmans. S. 190-215. Firth, John Rupert (1968a): “Descriptive Linguistics and the Study of English”. In: Selected papers of J.R. Firth 1952-1959. herausgegeben von Palmer, Frank. London: Longmans. S. 96-113. 338 Literaturverzeichnis Firth, John Rupert (1968b): “A synopsis of Linguistic Theory”. In: Selected papers of J.R. Firth 1952-1959. herausgegeben von Palmer, Frank. London: Longmans. S. 168-205. Flickinger, Dan (1987): Lexical Rules in the hierarchical lexicon. Dissertation. Stanford University. Francopoulo, Gil (2005): “Extended examples of lexicons using LMF”. http: / / lirics.loria.fr/ doc_pub/ ExtendedExamplesOfLexiconsUsingLMF29August05.pdf . Frawley, William (1981): “In defense of the dictionary”. Lingua 55: S. 53-61. Friedl, Jeffrey E.F. (2002): Mastering regular expressions. Beijing: O’Reilly. Fung, Pascale und Chen, Benfeng (2004): “BiFrameNet: Bilingual Frame Semantics Resource Construction by Cross-lingual Induction”. In: CO- LING04: S. 931-937. Geeraerts, Dirk (1988): “Cognitive Grammar and the history of lexical semantics”. In: Topics in cognitive linguistics. herausgegeben von Rudzka- Ostyn, Bryguda. Amsterdam: John Benjamins. S. 647-677. Geffroy, Annie; Lafon, Pierre; Seidel, Gill und Tournier, M. (1973): “Lexicometric Analysis of Co-occurrences”. In: The Computer and Literary Studies. herausgegeben von Aitken, A.J. et al. Edinburgh: Edinburgh University Press. S. 113-134. Geyken, Alexander (2005): “Das Wortinformationssystem des Digitalen Wörterbuchs der deutschen Sprache des 20. Jahrhunderts (DWDS)”. BBAW Circular 32: S. 40. Gibbon, Dafydd (2001): “Lexika für multimodale Systeme”. In: Computerlinguistik und Sprachtechnologie. Eine Einführung. herausgegeben von Carstensen, Kai-Uwe et al. Heidelberg und Berlin: Spektrum, Akademischer Verlag. S. 394-401. Godard, Danièle und Jayez, Jacques (1993): “Towards a proper treatment of coercion phenomena”. In: Proc. sixth Conf. of the European Chapter of the ACL. ACL. S. 168-177. Götz, Dieter (Herausgeber) (1998): Langenscheidts Großwörterbuch Deutsch als Fremdsprache. Berlin u.a.: Langenscheidt. Greenbaum, Sydney (1970): Verb-Intensifier Collocations in English. An experimental approach. Den Haag und Paris. Gruber, Thomas R. (1993): “A translation approach to portable ontology specifications”. Knowledge Acquisition 5 (2): S. 199-220. Guarino, Nicola (1998): “Formal ontology and information systems”. In: FOIS98: S. 3-15. Haapalainen, Mariikka (1995): “GERTWOL und Morphologische Disambiguierung für das Deutsche”. In: Proceedings of the 10th Nordic Conference of Computational Linguistics. NODALIDA-95. Literaturverzeichnis 339 Haapalainen, Mariikka und Majorin, Ari (1994): “GERTWOL: Ein System zur automatischen Wortformerkennung deutscher Wörter”. http: / / www.ifi.unizh.ch/ CL/ volk/ LexMorphVorl/ Lexikon04.Gertwol.html . Habel, Christopher (1985): “Das Lexikon in der Künstlichen Intelligenz”. In: Handbuch der Lexikologie. herausgegeben von Schwarze, Christoph und Wunderlich, Dieter. Königstein: Athenäum. S. 441-474. Haiman, John (1980): “Dictionaries and encyclopedia”. Lingua 50: S. 329- 357. Hamp, Birgit und Feldweg, Helmut (1997): “GermaNet - a Lexical-Semantic Net for German”. In: Proceedings of the ACL/ EACL-97 workshop on Automatic Information Extraction and Building of Lexical-Semantic Resources for NLP Applications. herausgegeben von Vossen, Piek; Calzolari, Nicoletta; Adriaens, Geert; Sanfilippo, Antonio und Wilks, Yorick. S. 9-15. Hartrumpf, Sven; Helbig, Hermann und Osswald, Rainer (2003): “The semantically based computer lexicon HaGenLex - Structure and technological environment”. Traitement automatique des langues 44 (2): S. 81-105. Hartung, Joachim (1993): Statistik. Lehr- und Handbuch der angewandten Statistik. München und Wien. 9. Auflage. Hauser, Ralf und Storrer, Angelika (1993): “Dictionary Entry Parsing Using the LexParse System”. Lexicographica 9: S. 174-219. Hausmann, Franz Josef (1985): “Kollokationen im deutschen Wörterbuch. Ein Beitrag zur Theorie des lexikographischen Beispiels”. In: Lexikographie und Grammatik. Akten des Essener Kolloquiums zur Grammatik im Wörterbuch, 28.-30.6 1984. herausgegeben von Bergenholtz, Henning und Mugdan, Joachim. Tübingen: Niemeyer. S. 118-129. Haß, Ulrike (Herausgeber) (2005): Grundfragen der elektronischen Lexikographie. eLexiko - das Online-Informationssystem zum deutschen Wortschatz. Berlin und andere: de Gruyter. Herold, Axel (2007): “Corpus Queries”. In: Idioms and Collocations: From Corpus to Electronical Lexical Resource. herausgegeben von Fellbaum, Christiane. Birmingham: Continuum. S. 123-158. Hesse, Wolfgang (2002): “Das aktuelle Schlagwort: Ontologie(n)”. Informatik Spektrum 25 (6): S. 477-480. Höhle, Tilman N. (1982a): Lexikalistische Syntax: die Aktiv-Passiv-Relation und andere Infinitkonstruktionen im Deutschen. Tübingen: Niemeyer. Höhle, Tilman N. (1982b): “Über Komposition und Derivation: zur Konstituentenstruktur von Wortbildungsprodukten im Deutschen”. ZS 1: S. 76-112. Hornby, Albert Sidney (1948): Oxford advanced learner’s dictionary of current English, 1st ed. Oxford: Oxford University Press. Hornby, Albert Sidney (1995): Oxford advanced learner’s dictionary of current English, 4th ed. Oxford: Oxford University Press. 340 Literaturverzeichnis Ide, Nancy und Véronis, Jean (1998): “Introduction to the Special Issue on Word Sense Disambiguation: The State of the Art”. Computational Linguistics 24 (1): S. 1-40. Ide, Nancy und Véronis, Jean (1993): “Extracting knowledge bases from machine-readable dictionaries: Have we wasted our time? ” In: Int. Conf. on Building and Sharing of Very Large Scale Knowledge Bases (KB & KS ’93), Tokio, Japan. S. 257-266. Ide, Nancy und Véronis, Jean (1995): “Knowledge Extraction from Machine- Readable Dictionaries: An Evaluation”. In: Machine Translation and the Lexicon. Third International EAMT Workshop. Heidelberg, Germany, April 1993. Proceedings. herausgegeben von Steffens, Petra. Berlin und andere: Springer. S. 19-34. ISO TC 37/ SC4 (2006): “Language Resource Management - Lexical Markup Framework”. http: / / www.tagmatica.fr/ doc/ ISO24613cdRev9.pdf . Jackendoff, Ray S. (1975): “Morphological and Semantic Regularities in the Lexicon”. Language 51: S. 639-671. Jackendoff, Ray S. (1990): Semantic Structures. Cambridge, Mass.: MIT Press. Juilland, Alphonse; Brodin, Dorothy und Davidovitch, Catherine (1970): Frequency dictionary of French words. den Haag: Mouton. Kaeding, Friedrich W. (1963): Häufigkeitswörterbuch der deutschen Sprache. Hamburg: Schnelle. Katz, Jerrold J. (1966): The philosophy of language. New York: Harper and Row. Katz, Jerrold J. und Fodor, Jerry A. (1963): “The Structure of a Semantic Theory”. Language 39: S. 170-210. Kecher, Christoph (2006): UML 2.0. Das umfassende Handbuch. Bonn: Galileo Computing. Kempcke, Günter (2000): Wörterbuch Deutsch als Fremdsprache. Berlin und andere: de Gruyter. Kilgarriff, Adam (1992): Polysemy. Dissertation. University of Sussex. http: / / www.kilgarriff.co.uk/ publications/ 1992-K-thesis.pdf . Kilgarriff, Adam (1997): “I don’t believe in word senses”. Computers and the Humanities 31 (2): S. 91-113. Kilgarriff, Adam und Palmer, Martha (Herausgeber) (2000): Special Issue on SENSEVAL: Evaluating Word Sense Disambiguation Programs. Nummer 34 (1-2) in Computers and the Humanities. Dordrecht: Kluwer. Klappenbach, Ruth (Herausgeber) (1965): Wörterbuch der deutschen Gegenwartssprache. Berlin: Akademie-Verlag. Klett (1996): Pons-Globalwörterbuch Spanisch-Deutsch. Stuttgart: Klett. Literaturverzeichnis 341 Klinkenberg, Jean-Marie (1983): “Problème de la synecdoque. Du sémantique à l’encyclopédique”. Le francais moderne 51: S. 289-299. Koskenniemi, Kimmo (1983): “Two-level morphology: A general computational model for word-form recognition and production”. Technischer Bericht. University of Helsinki, Department of General Linguistics. Kruse, Peter M.; Naujoks, André; Rösner, Dietmar und Kunze, Manuela (2005): “Clever Search: A WordNet Based Wrapper for Internet Search Engines”. In: Proceedings GLDV Tagung 2005. herausgegeben von Fisseni, Bernhard et al. Frankfurt: Peter Lang. S. 367-380. Kunze, Claudia (2004): “Lexikalisch-semantische Wortnetze”. In: Computerlinguistik und Sprachtechnologie: eine Einführung. herausgegeben von Carstensen, Kai-Uwe et al. Heidelberg und Berlin: Spektrum Verlag. S. 386-393. Kunze, Claudia und Naumann, Karin (1999-2007): “GermaNet”. http: / / www.sfs.uni-tuebingen.de/ lsd/ . Langacker, Ronald W. (Herausgeber) (1987): Foundations of Cognitive Grammar, vol. 1. Theoretical prequisites. Stanford: Stanford University Press. Lara, Fernando Luis (1989): “Dictionnaire de langue, encyclopédie et dictionnaire encyclopédique: le sens de leur distinction”. In: Wörterbücher. Dictionaries. Dictionnaires. Ein internationales Handbuch zur Lexikographie. An International Encyclopedia of Lexicography. Encyclopédie internationale de lexicographie. 1. Teilband. herausgegeben von Hausmann, Franz Josef; Reichmann, Oskar; Wiegand, Herbert Ernst und Zgusta, Ladislav. Berlin und New York: de Gruyter. S. 280-287. Lascarides, Alex und Copestake, Ann (1996): “Ambiguity and coherence”. Journal of Semantics 13 (1): S. 41-65. Leech, G. (1981): Semantics. Cambridge: Cambridge University Press. Lehr, Andrea (1996): Kollokationen in maschinenlesbaren Korpora. Ein operationales Analysemodell zum Aufbau lexikalischer Netze. Band 168 von RGL. Tübingen: Niemeyer. Lemnitzer, Lothar (1997): Extraktion komplexer Lexeme aus Textkorpora. Tübingen: Niemeyer. Lemnitzer, Lothar und Zinsmeister, Heike (2006): Korpuslinguistik. Tübingen: Gunter Narr. Lobin, Henning (2000): Informationsmodellierung in XML und SGML. Berlin: Springer. Lowe, John B.; Baker, Collin F. und Fillmore, Charles J. (1997): “A framesemantic approach to semantic annotation”. In: Proceedings of ACL SIGLEX Workshop on Tagging Text with Lexical Semantics. ACL. Washington, D.C. S. 18-24. 342 Literaturverzeichnis Lüdeling, Anke und Evert, Stefan (2003): “Linguistic experience and productivity: corpus evidence for fine-grained distinctions”. In: Proceedings of the Corpus Linguistics 2003 conference. herausgegeben von Archer, Dawn; Rayson, Paul; Wilson, Andrew und McEnery, Tony. UCREL technical paper, no. 16. S. 475-483. Lüdeling, Anke; Evert, Stefan und Heid, Ulrich (2000): “On Measuring Morphological Productivity”. In: KONVENS-2000 - Sprachkommunikation. herausgegeben von Schukat-Talamazzini, Ernst G. und Zühlke, Werner. Berlin: VDE-Verlag. S. 215-220. Ludewig, Petra (1993): Inkrementelle wörterbuchbasierte Wortschatzerweiterungen in sprachverarbeitenden Systemen - Entwurf einer konstruktiven Lexikonkonzeption. Sankt Augustin: infix. Lyons, John (1977): Semantics. Cambridge, Mass.: MIT Press. Manning, Christopher D. (1993): “Automatic acquisition of a large subcategorization dictionary from corpora”. In: Proceedings 31st ACL. S. 235- 242. Manning, Christopher D. und Schütze, Hinrich (1999): Foundations of Statistical Natural Language Processing. Cambridge, Mass. und London: MIT Press. Mehler, Alexander (2004): “Quantitative Methoden”. In: Texttechnologie - Perspektiven und Anwendungen. herausgegeben von Lobin, Henning und Lemnitzer, Lothar. Tübingen: Stauffenburg. S. 83-107. Mel’ ˇ cuk, Igor A. (1981): “Meaning-text Models: a Recent Trend in Soviet Linguistics”. Annunal Review of Anthropology 10: S. 27-62. Mel’ ˇ cuk, Igor A. (Herausgeber) (1984-1992): Dictionnaire explicatif et combinatoire du français contemporain. 3 Vol. Montréal: Presse de l’Université de Montréal. Mel’ ˇ cuk, Igor A. (1998): “Collocations and Lexical Functions”. In: Phraseology: Theory, Analysis, and Applications. herausgegeben von Cowie, Anthony P. Oxford: Clarendon Press. S. 23-53. Mel’ ˇ cuk, Igor A. und Zolkovskij, Aleksandr K. (Herausgeber) (1984-1992): Explanatory Combinatorial Dictionary of Modern Russian. Wien: Wiener Slawistischer Almanach. Merlo, Paola und Stevenson, Suzanne (2001): “Automatic Verb Classification Based on Statistical Distribution of Argument Structure”. Computational Linguistics 27 (3): S. 273-306. Meurers, Detmar (1999): Lexical Generalizations in the Syntax of German non-finite Constructions. Dissertation. Universität Tübingen. Miller, George A. (1990): “Special Issue: WordNet - An on-line lexical database”. International Journal of Lexicography 3 (4). Mitchell, Tom D. (1997): Machine Learning. New York und andere: McGraw-Hill. Literaturverzeichnis 343 Motsch, W. (1979): “Zum Status von Wortbildungsregularitäten”. DLRAV 20: S. 1-40. Motsch, Wolfgang (1999): Deutsche Wortbildung in Grundzügen. Berlin und New York: de Gruyter. Mugdan, Joachim (1989): “Information on Inflectional Morphology in the General Monolingual Dictionary”. In: Wörterbücher. Dictionaries. Dictionnaires. Ein internationales Handbuch zur Lexikographie. An International Encyclopedia of Lexicography. Encyclopédie internationale de lexicographie. 1. Teilband. herausgegeben von Hausmann, Franz Josef; Reichmann, Oskar; Wiegand, Herbert Ernst und Zgusta, Ladislav. Berlin und New York: de Gruyter. S. 518-525. Müller, Wolfgang (1989): “Die Beschreibung von Affixen und Affixoiden im allgemeinen einsprachigen Wörterbuch”. In: Wörterbücher. Dictionaries. Dictionnaires. Ein internationales Handbuch zur Lexikographie. An International Encyclopedia of Lexicography. Encyclopédie internationale de lexicographie. 1. Teilband. herausgegeben von Hausmann, Franz Josef; Reichmann, Oskar; Wiegand, Herbert Ernst und Zgusta, Ladislav. Berlin und New York: de Gruyter. S. 869-882. Müller, Wolfgang (1998): “Wörterbücher der Zukunft - oder: Terrae incognitae”. In: Wörterbücher in der Diskussion III. herausgegeben von Wiegand, Herbert Ernst. Tübingen: Niemeyer. S. 212-262. Müller-Spitzer, Carolin (2005): “Die Modellierung lexikografischer Daten und ihre Rolle im lexikografischen Prozess”. In: Grundfragen der elektronischen Lexikographie. eLexiko - das Online-Informationssystem zum deutschen Wortschatz. herausgegeben von Haß, Ulrike. Berlin und andere: de Gruyter. S. 36-54. Murphy, Lynne (2003): Semantic relations and the lexicon: antonymy, synonymy, and other paradigms. Cambridge: Cambridge University Press. Neff, Mary und Boguraev, Branimir (1990): “From Machine-Readable Dictionaries to Lexical Data Bases”. Technischer Bericht Research Report RC #16080 (71353) 8/ 31/ 90. IBM THOMAS J. WATSON Research Center. Yorktown Heights: New York. Nirenburg, Sergei und Raskin, Victor (2004): Ontological Semantics. Cambridge, Mass.: MIT Press. Noy, Natalya F. und McGuinness, Deborah L. (2001): “Ontology Development 101: A Guide to Creating Your First Ontology”. Technischer Bericht Technical Report KSL-01-05 and Technical Report SMI-2001-0880, March 2001. Stanford Knowledge Systems Laboratory and Stanford Medical Informatics. Stanford. Nunberg, Geoffrey (1978): The pragmatics of reference. Bloomington, Indiana: Indiana University Club. 344 Literaturverzeichnis Nunberg, Geoffrey (1995): “Transfers of Meaning”. Journal of Semantics 12 (2): S. 109-132. Nunberg, Geoffrey; Sag, Ivan A. und Wasow, Thomas (1994): “Idioms”. Language 70: S. 109-132. Nunberg, Geoffrey und Zaenen, Annie (1992): “Systematic polysemy in lexicology and lexicography”. In: Proceedings of Euralex92. Tampere, Finland. S. 387-396. Oakes, Michael P. (1998): Statistics for Corpus Linguistics. Edinburgh: Edinburgh University Press. Ogden, Charles K. und Richards, Ivor A. (1949): The Meaning of Meaning: A Study of the Influence of Language Upon Thought and of the Science of Symbolism. London: Routledge & Kegan Paul. Ostler, Nicholas und Atkins, Sue (1992): “Predictable meaning shift: some linguistic properties of lexical implication rules”. In: Lexical Semantics and Commonsense Reasoning. herausgegeben von Pustejovsky, James und Bergler, Susanne. New York: Springer-Verlag. S. 87-98. Peeters, Bert (2000): “Setting the scene. Recent milestones in the lexiconencyclopedia debate”. In: The lexicon-encyclopedia interface. herausgegeben von Peeters, Bert. Oxford: Elsevier Science. S. 1-53. Pethö, Gergely (2001): “What is Polysemy - A Survey of Current Research and Results”. In: Pragmatics and the Flexibility of Word Meaning. herausgegeben von Németh, Enikö und Bibok, Károly. Amsterdam: Elsevier Science. S. 175-224. Pinker, Steven (1984): Language learnability and language development. Cambridge, Mass.: Harvard University Press. Pinker, Steven (1989): Learnability and cognition: the acquisition of argument structure. Cambridge, Mass. und London: MIT Press. Pinker, Steven (1996): Der Sprachinstinkt. Wie der Geist die Sprache bildet. München: Kindler (übersetzt von Martina Wiese). Priss, Uta (2006): “Formal Concept Analysis in Information Science”. In: Annual Review of Information Science and Technology. herausgegeben von Cronin, Blaise. Medford, NJ: Information Today, Inc. & American Society for Information Science and Technology: Vol. 40. S. 521-543. Procter, Paul (Herausgeber) (1978): Longman dictionary of contemporary English, 3rd ed. London: Longman. Pulman, Steve G. (1983): Word Meaning and Belief. London und Canberra: Croom Helm. Pustejovsky, James (1989): “Current issues in computational lexical semantics”. In: Proceedings of the 4th European ACL. Manchester, England. S. 17-25. Pustejovsky, James (1991): “The Generative Lexicon”. Computational Linguistics 17 (4): S. 409-441. Literaturverzeichnis 345 Pustejovsky, James und Bouillon, Pierrette (1995): “Aspectual Coercion and Logical Polysemy”. Journal of Semantics 12 (4): S. 133-162. Putnam, Hilary (1973): “Explanation and Reference”. Dordrecht: Reidel. S. 196-214. Quillian, M. Ross (1966): Semantic Memory. Dissertation. Carnegie Institute of Technology. Quine, Willard van Orman (1960): Word and Object. Cambridge, Mass.: MIT Press. Quine, Willard van Orman (1981): Theories and Things. Cambridge, Mass.: Harvard University Press. Quirk, Randolph (Herausgeber) (1995): Longman dictionary of contemporary English, 3rd ed. Harlow: Longman. Raskin, Victor (1985): “Linguistic and encyclopedic knowledge in text processing”. Quaderni di semantica 6: S. 92-102. Ravin, Yael (Herausgeber) (2002): Polysemy. Theoretical and computational approaches. Oxford: Oxford University Press. Resnik, Philip Stuart (1993): Selection and Information: A Class-Based Approach to Lexical Relationships. Dissertation. University of Pennsylvania. Rettig, Wolfgang (1989): “Die Wortbildungszusammenhänge im allgemeinen einsprachigen Wörterbuch”. In: Wörterbücher. Dictionaries. Dictionnaires. Ein internationales Handbuch zur Lexikographie. An International Encyclopedia of Lexicography. Encyclopédie internationale de lexicographie. 1. Teilband. herausgegeben von Hausmann, Franz Josef; Reichmann, Oskar; Wiegand, Herbert Ernst und Zgusta, Ladislav. Berlin und New York: de Gruyter. S. 642-647. Reuland, Eric und Ankersmit, Frank (1993): Knowledge and Language. 3 vol. Dordrecht: Kluwer. Rey-Debove, Josette (1971): Étude linguistique et sémiotique des dictionnaires francais contemporains (Approaches to semiotics 13.). La Haye und Paris: Mouton de Gruyter. Ribas, Francesco (1994): “An Experiment on Learning Appropriate Selectional Restrictions from a Parsed Corpus”. In: Proceedings of COLING. Tokyo. Romary, Laurent (2003): “Implementing a data category registry within ISO TC37 - Technical note contributing to a future WD for ISO 12620-1”. http: / / www.jtc1sc36.org/ doc/ 36N0581.pdf . Romary, Laurent; Francopoulo, Gil; Salmon-Alt, Susanne und Monachini, Monica (2006): “LMF Tutorial”. http: / / hnk.ffzg.hr/ bibl/ lrec2006/ tutorials/ T02/ LMF20Tutorial.pdf . Rosch, Eleanor (1978): “Principles of Categorization”. In: Cognition and Categorization. herausgegeben von Rosch, Eleanor und Lloyd, Barbara B. Hillsdale: Lawrence Erlbaum. S. 27-48. 346 Literaturverzeichnis Ruoff, Arno (1990): Häufigkeitswörterbuch gesprochener Sprache, gesondert nach Wortarten: alphabetisch, rückläufig-alphabetisch und nach Häufigkeit geordnet. Tübingen: Niemeyer. Ruppenhofer, Josef; Ellsworth, Michael; Petruck, Miriam; Johnson, Christopher und Scheffczyk, Jan (2006): FrameNet II, Extended Theory and Practice. ICSI FrameNet Project Group. Berkeley, CA. http: / / framenet. icsi.berkeley.edu/ . Sag, I. (1981): “Formal semantics and extra-linguistic context”. In: Radical Pragmatics. herausgegeben von Cole, Peter. New York: Academic Press. S. 273-294. Schaeder, Burkhard (1982): “Häufigkeiten und Häufigkeitsangaben in neuhochdeutschen Wörterbüchern. Zur Rolle von Frequenzuntersuchungen in der Lexikographie.” Germanistische Linguistik 1-4: S. 239-274. Schaeder, Burkhard (1989): “Diafrequente Markierungen im allgemeinen einsprachigen Wörterbuch”. In: Wörterbücher. Dictionaries. Dictionnaires. Ein internationales Handbuch zur Lexikographie. An International Encyclopedia of Lexicography. Encyclopédie internationale de lexicographie. 1. Teilband. herausgegeben von Hausmann, Franz Josef; Reichmann, Oskar; Wiegand, Herbert Ernst und Zgusta, Ladislav. Berlin und New York: de Gruyter. S. 689-693. Schmid, Helmut (2004): “SMOR: A German Computational Morphology Covering Derivation, Composition, and Inflection”. In: Proceedings of the Fourth International Conference on Language Resources and Evaluation, Lisbon, Portugal, May 2004. LREC. S. 1263-1266. Schnörch, Ulrich (2005): “Die eLexiko-Stichwortliste”. In: Grundfragen der elektronischen Lexikographie. eLexiko - das Online-Informationssystem zum deutschen Wortschatz. herausgegeben von Haß, Ulrike. Berlin und New York: de Gruyter. S. 71-90. Schulte im Walde, Sabine; Schmid, Helmut; Rooth, Mats; Riezler, Stefan und Prescher, Detlef (2001): “Statistical Grammar Models and Lexicon Acquisition”. In: Linguistic Form and its Computation. herausgegeben von Rohrer, Christian; Roßdeutscher, Antje und Kamp, Hans. Stanford: CSLI Publications. S. 389-440. Schwarz, Monika und Chur, Jeannette (2007): Semantik. Ein Arbeitsbuch. Tübingen: Gunter Narr. 5. Auflage. Segond, Frédérique; Valetto, Guiseppe und Breidt, Elisabeth (1995): “IDAR- EX: Formal Description of Multi-Word Lexemes with Regular Expressions”. http: / / citeseer.ist.psu.edu/ segond95idarex. html . Siepmann, Dirk (2006): “Collocation, Colligation and Encoding Dictionaries. Part II: Lexicographical Aspects”. International Journal of Lexicography 19 (1): S. 1-39. Literaturverzeichnis 347 Sinclair, John (1991): Corpus, Concordance, Collocation. Oxford: Oxford University Press. Smadja, Frank (1992): “XTRACT: An Overview”. Computers and the Humanities 26 (5-6): S. 399-414. Sowa, John (1983): Conceptual structures: information processing in mind and machine. Reading, Mass.: Addison-Wesley. Sowa, John F. (1991): Principles of Semantic Networks. Explorations in the Representation of Knowledge. San Mateo, California: Morgan Kaufmann Publishers. Staab, Steffen (2006): “Ontologies and the Semantic Web”. http: / / www.uni-koblenz.de/ ~staab/ Teaching/ Tutorials/ SMBM-2006/ 103.htm . Staab, Steffen und Studer, Rudi (Herausgeber) (2004): Handbook on Ontologies. International Handbooks on Information Systems. Heidelberg: Springer. Stephen, Graham A. (1994): String Searching Algorithms. Singapore und andere: World Scientific. Storrer, Angelika (2006): “Funktionen von Nominalisierungsverbgefügen im Text. Eine korpusbasierte Fallstudie”. In: Von Intentionalität zur Bedeutung konventionalisierter Zeichen. Festschrift für Gisela Harras zum 65. Geburtstag. herausgegeben von Proost, Kristel und Winkler, Edeltraud. Tübingen: Gunter Narr. S. 147-178. Trost, Harald (2004): “Morphology”. In: The Oxford handbook of computational linguistics. herausgegeben von Mitkov, Ruslan. Oxford: Oxford University Press. S. 27-47. Tufi¸ s, Dan; Cristea, Dan und Stamou, Sofia (2004): “BalkaNet: Aims, Methods, Results and Perspectives”. Romanian Journal of Information Science and Technology 7 (1-2): S. 9-45. Ullmann, Stephen (1962): Semantics: An introduction to the Science of Meaning. Oxford: Blackwell. van Assem, Mark; Gangemi, Aldo und Schreiber, Guus (2006): “RDF/ OWL Representation of WordNet”. Technischer Bericht. http: / / www.w3. org/ TR/ 2006/ WD-wordnet-rdf-20060619/ . Vennebusch, Eva (Herausgeber) (1980): Pons Collins Deutsch-Englisch, Englisch-Deutsch: Handwörterbuch. Stuttgart und Dresden: Klett Verlag. 2. Auflage. Verspoor, Karin M. (1997): Contextually-Dependent Lexical Semantics. Dissertation. University of Edinburgh. ftp: / / ftp.cogsci.ed.ac.uk/ pub/ kversp/ thesis.ps.gz . Viberg, Åke (2002): “Polysemy and disambiguation cues across languages. The case of Swedish føa and English get”. In: Lexis in contrast. heraus- 348 Literaturverzeichnis gegeben von Altenberg, Bengt und Granger, Sylvaine. Amsterdam: Benjamins. S. 119-150. Vossen, Piek (1999): EuroWordNet: a mutlilingual database with lexicalsemantic networks. Dordrecht: Kluwer Academic Publishers. Vossen, Piek; Mejis, Willem und den Broeder, Marianne (1989): “Meaning and structure in dictionary definitions”. In: Computational Lexicography for Natural Language Processing. herausgegeben von Boguraev, Bran und Briscoe, Ted. New York: Longman. S. 171-192. Wagner, Andreas (2005): Learning Thematic Role Relations for Lexical Semantic Nets. Dissertation. Universität Tübingen. Wahrig, Gerhard (Herausgeber) (1997): Deutsches Wörterbuch. Gütersloh: Bertelsmann. Wahrig, Gerhard; Krämer, Hildegard und Zimmermann, Harald (1980-1984): Brockhaus-Wahrig deutsches Wörterbuch. 6 Bände. Wiesbaden und Stuttgart: Deutsche Verlags-Anstalt. Walter, Stephan (2001): Das Generative Lexikon: Pustejovskys Qualia Structures und die aitiai des Aristoteles - lexikalische Semantik im Rückgriff auf antike Gedanken? Diplomarbeit. Institut für Computerlinguistik. Universität des Saarlandes. Wanner, Leo und Mel’ ˇ cuk, Igor (1996): “Lexical Co-occurrence and Lexical Inheritance. Emotion Lexemes in German: A Lexicographic Case Study”. In: Lexical Functions in Lexicography and Natural Language Processing. herausgegeben von Wanner, Leo. Amsterdam: Benjamins. S. 209-278. Wanner, Leo und Mel’ ˇ cuk, Igor (2001): “Towards a Lexicographic Approach to Lexical Transfer in Machine Translation (Illustrated by the German- Russian Language Pair)”. Machine Translation 16 (1): S. 21-87. Wehrle, Hugo und Eggers, Hans (1989): Deutscher Wortschatz. Ein Wegweiser zum treffenden Ausdruck. Stuttgart: Ernst Klett Verlag. West, Michael (1953): A general service list of english words. London: Longman. Wiegand, Herbert Ernst (1977): “Nachdenken über Wörterbücher. Aktuelle Probleme”. In: Nachdenken über Wörterbücher. herausgegeben von Drosdowski, Günther; Henne, Helmut und Wiegand, Herbert E. Mannheim und andere: Bibliographisches Institut. S. 51-102. Wiegand, Herbert Ernst (1989): “Der Begriff der Mikrostruktur: Geschichte, Probleme, Perspektiven”. In: Wörterbücher. Ein internationales Handbuch zur Lexikographie. herausgegeben von Hausmann, Franz J.; Reichmann, Oskar und Wiegand, Herbert E. Berlin und New York: de Gruyter. S. 409- 462. Wiegand, Herbert Ernst (1998): “Altes und Neues zur Makrostruktur”. In: Wörterbücher in der Diskussion III. Vorträge aus dem Heidelberger Lexi- Literaturverzeichnis 349 kographischen Kolloquium. herausgegeben von Wiegand, Herbert E. Tübingen: Niemeyer. S. 348-372. Wierzbicka, Anna (1972): Semantic Primitives. Frankfurt: Athenäum. Wierzbicka, Anna (1985): Lexicography and conceptual analysis. Ann Arbor: Karoma. Wierzbicka, Anna (1992): “Semantic Primitives and Semantic Fields”. In: Frames, Fields, and Contrasts. New Essays in Semantic and Lexical Organization. herausgegeben von Lehrer, Adrienne und Eva Fedder Kittay. Hillsdale: Lawrence Erlbaum Publishers. S. 209-228. Wilensky, Robert (1991): “Extending the lexicon by exploiting subregularities”. Technischer Bericht. U.C. Berkeley Technical Report. University of California at Berkeley. Williams, Edward (1981): “On the Notions ‘Lexically Related’ and ‘Head of a Word’”. Linguistic Inquiry 12: S. 245-274. Wotjak, Barbara (Herausgeber) (1992): Verbale Phraseolexeme in System und Text. Tübingen: Niemeyer. Wright, Sue Ellen (oJ): “A Global Data Category Registry for Interoperable Language Resources”. http: / / www.tc37sc4.org/ new_ doc/ ISO_TC_37-4_N175_SEW-A_Global_Data_Category_ Registry.pdf . Wunderlich, Dieter (1996): “Models of lexical decomposition”. In: Lexical Structures and Language Use. herausgegeben von Weigand, Edda und Hundsnurscher, Franz. Tübingen: Niemeyer. S. 169-183. Wunderlich, Dieter (1997): “Cause and the structure of verbs”. Linguistic Inquiry 28: S. 27-78. Zernik, Uri (1991a): “Introduction”. In: Lexical Acquistion: Exploiting Online Resources to Build a Lexicon. herausgegeben von Zernik, Uri. Hillsdale: Lawrence Erlbaum. S. 1-26. Zernik, Uri (1991b): Lexical Acquistion: Exploiting On-line Resources to Build a Lexicon. Hillsdale: Lawrence Erlbaum. Zesch, Torsten; Gurevych, Iryna und Mühlhäuser, Max (2007): “Analyzing and Accessing Wikipedia as a Lexical Semantic Resource”. In: Datenstrukturen für linguistische Ressourcen und ihre Anwendungen. Proc. der GLDV Frühjahrstagung. herausgegeben von Rehm, Georg; Witt, Andreas und Lemnitzer, Lothar. Tübingen: Gunter Narr. S. 197-205.