Wortverbindungen und Verbindungen von Wörtern

Tobias Roth

eBooks

Wortverbindungen und Verbindungen von Wörtern

2014

978-3-7720-5529-4

A. Francke Verlag

Tobias Roth

Komposita und Kollokationen machen den grössten und wichtigsten Teil der konventionalisierten Wortverbindungen der deutschen Sprache aus. Die Studie leistet die theoretisch-methodische Grundlegung ihrer gemeinsamen lexikografischen Bearbeitung und beschreibt deren praktische Umsetzung bei der Erarbeitung eines für das Deutsche innovativen kollokativen Wörterbuchs. An der Schnittstelle von Syntax und Morphologie wird darüber hinaus mit korpuslinguistischen Mitteln das direkte Konkurrenzverhältnis zwischen Komposita und Kollokationen analysiert. Basler Studien zur deutschen Sprache und Literatur 94 Roth Wortverbindungen und Verbindungen von Wörtern A. Francke Verlag Tübingen Tobias Roth Wortverbindungen und Verbindungen von Wörtern Lexikografische und distributionelle Aspekte kombinatorischer Begriffsbildung zwischen Syntax und Morphologie Basler Studien zur deutschen Sprache und Literatur Herausgegeben von Heike Behrens, Nicola Gess, Annelies Häcki Buhofer, Alexander Honold, Gert Hübner und Ralf Simon Band 94 Tobias Roth Wortverbindungen und Verbindungen von Wörtern Lexikografische und distributioneile Aspekte kombinatorischer Begriffsbildung zwischen Syntax und Morphologie A. Francke Verlag Tübingen Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über h ttp: / / dnb.dnb.de abrufbar. Gedruckt mit freundlicher Unterstützung des Max-Geldner-Dissertationenfonds der Philosophisch-Historischen Fakultät der Universität Basel. © 2014 • N arr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 • D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Gedruckt auf säurefreiem und alterungsbeständigem Werkdruckpapier. Internet: http: / / www.francke.de E-Mail: info@francke.de Printed in Germany ISSN 0067-4508 ISBN 978-3-7720-8529-1 Inhalt Vorwort ......................................................................................................... 7 1 E in le itu n g ................................................................................................... 9 2 Kombinatorische B e g riffsb ild u n g ....................................................... 13 2.1 Kollokationen...................................................................................... 13 2.1.1 Entstehungsgeschichte des Kollokationsbegriffs................ 14 2.1.2 Eigenschaften von K o llo k a tio n e n ........................................ 19 2.1.3 Kollokationsdefinition in diesem P r o je k t............................ 28 2.2 Komposita............................................................................................ 29 2.2.1 Definition von Komposita....................................................... 30 2.2.2 Klassifizierung und Eigenschaften von Komposita ............ 34 2.2.3 Kompositabedeutungen........................................................... 42 2.2.4 Komposita im D e u ts c h e n ....................................................... 45 2.3 Direktvergleich Kollokationen - K om posita.................................. 46 2.3.1 Morphologie und S y n t a x ....................................................... 46 2.3.2 Benennungs- und Beschreibungsfunktion............................ 47 2.3.3 Lexikalisierung und Phraseologisierung ............................ 48 2.3.4 W ortbegriff................................................................................ 49 2.3.5 Bisherige Forschung................................................................. 50 3 D atengewinnung und-aufbereitung ................................................. 57 3.1 K o rp o ra ................................................................................................ 57 3.1.1 Schweizer Textkorpus.............................................................. 59 3.1.2 DW D S-K ernkorpus................................................................. 59 3.1.3 Korpus C 4 ................................................................................ 60 3.1.4 U senet-K orpus.......................................................................... 60 3.1.5 W eb -K orp u s............................................................................. 61 3.1.6 Annotierung und In d e xieru n g .............................................. 62 3.2 Kollokationsextraktion....................................................................... 63 3.2.1 Assoziationsm asse.................................................................... 64 3.2.2 Linguistische Vorverarbeitung.............................................. 67 3.2.3 Kollokationsextraktion für das Kollokationenwörterbuch . 69 3.3 Automatische K om posita-Analyse................................................. 82 3.3.1 Musterbasierte S u c h e .............................................................. 83 3.3.2 M orp h o lo g ie sy stem e .............................................................. 85 3.3.3 Statistische A n s ä t z e ................................................................. 89 3.3.4 Kombinierte V e rfa h re n ........................................................... 92 3.3.5 Hybride Komposita-Analyse für das Kollokationenwörterbuch....................................................... 95 6 Inhalt 3.3.6 E v a l u a t i o n .................................................................................... 104 3.3.7 A sso zia tio n sm a sse fü r K o m p o s it a .......................................... 111 4 Lexikografische U m setzu n g....................................................................... 117 4.1 K o n z e p t .................................................................................................... 117 4.1.1 B a s i s w o r t s c h a t z .......................................................................... 117 4.1.2 B asis-K ollokator-Prinzip u n d V e rw e is s y s te m ....................... 119 4.1.3 U n te rs c h e id u n g zw isch e n typisch u n d gebräuchlich............. 120 4.1.4 E m pirisch e G r u n d l a g e n ............................................................. 124 4.1.5 D a r s t e llu n g .................................................................................... 126 4.2 K o m p o sita im K ollo k a tio n e n w ö rte rb u ch ....................................... 137 4.3 L exikografischer A rb e itsp la tz u n d technisch e K o n z e p tio n . . . . 142 4.3.1 Lexikografischer A rb eitspla tz ................................................ 142 4.3.2 T echnische K o n z e p t i o n ............................................................. 147 5 Kollokationen und Komposita in K onkurrenz................................... 151 5.1 V o rb e reite n d e u n d allg em ein e A n a ly s e n ....................................... 153 5.1.1 Z u o rd n u n g fü r d e n D ir e k tv e r g le ic h ....................................... 153 5.1.2 Z ä h lu n g v o n K o n k u r r e n z b ild u n g e n ....................................... 157 5.1.3 D istrib u tio n elle S em an tik u n d L a te n t S em antic A n alysis . 161 5.1.4 K o m p o s itio n s p ro d u k tiv itä t....................................................... 167 5.2 K o m p o sitio n s p ro d u k tiv e L em m a ta ................................................ 186 5.3 L ä n g e n e ffe k te .......................................................................................... 189 5.4 K o n t e x t .................................................................................................... 191 5.4.1 K on sisten z in n e rh a lb v o n T e x te n ............................................. 192 5.4.2 W ie d e ra u fn a h m e m it K o m p o s i t u m ....................................... 196 5.4.3 L äng en effekte im S a t z k o n t e x t ................................................ 198 5.4.4 S yntaktisch e U m g e b u n g .......................................................... 199 5.5 K o n s titu e n te n b e d e u tu n g e n ................................................................ 205 6 S c h lu s s ......................................................................................................... 213 6.1 Z u s a m m e n f a s s u n g ................................................................................ 213 6.2 F a z i t .......................................................................................................... 215 6.3 A u s b lic k .................................................................................................... 216 Literatur 219 Vorwort Diese Dissertation ist im Rahmen des von Annelies Häcki Buhofer geleiteten und vom Schweizerischen Nationalfonds (SNF) unterstützten Projekts „Wörterbuch der festen Wendungen und Wortverbindungen der deutschen Sprache", das 2009 bis 2013 an der Universität Basel lief, entstanden. Herzlich danken möchte ich Annelies Häcki Buhofer und Hans Bickel, die Referat und Korreferat übernommen haben, für die gute und kompetente Betreuung der Arbeit. Ein besonderes Dankeschön geht an Steffen Siebenhüner und Luzia Roth für ihren kritischen Blick auf das Manuskript. Schliesslich danke ich allen in meinem Umfeld, die mich in dieser Zeit auf vielfältigste Weise unterstützt und so einen nicht geringen Anteil am Gelingen der Arbeit haben. Dank gebührt auch dem Max-Geldner-Fonds, der die Drucklegung dieser Monografie mitfinanziert. Bern, Januar 2014 Tobias Roth 1 Einleitung Versucht man Interessierten zu erklären, was Kollokationen sind, so sagt man vielleicht etwas w ie „feste Wortverbindungen", „Kombinationen von Wörtern, die sich so eingebürgert haben" oder „Wörter, die man gewöhnlich zusammen verwendet, obwohl es theoretisch noch andere Möglichkeiten gäbe, dasselbe auszudrücken". Eine laienverständliche Erklärung ist nicht ganz einfach, und meist tragen wohl die mitgelieferten Beispiele mehr zum Verständnis bei. Die Reaktionen auf solche Erklärungen sind unterschiedlich eine der häufigeren ist aber der Typus der Rückfrage in der Art „ach, dann sind Kollokationen so etwas wie ,Küchentisch'? ". Ein wichtiger Ausgangspunkt der vorliegenden Arbeit ist die Beobachtung, dass Komposita und Kollokationen vieles gemeinsam haben und ähnliche Funktionen in der Sprache übernehmen. Der hauptsächliche Ausgangs- und Bezugspunkt der Arbeit ist aber das lexikografische Projekt Feste Wortverbindungen des Deutschen - Kollokationenwörterbuch fü r den Alltag, kurz Kollokationenwörterbuch, einem Forschungsprojekt der Universität Basel unter der Leitung von Annelies Häcki Buhofer. Zusammen führen diese zwei Ausgangspunkte zur Frage nach dem Verhältnis von Komposita zu Kollokationen in einem lexikografischen Kontext. Das zweite Hauptthema, mit nur indirekter lexikografischer Relevanz, ist allgemeiner das Verhältnis zwischen Komposita und Kollokationen - mit spezifischem Fokus auf Bildungen, bei denen Kollokation und Kompositum mit lexikalisch identischen Konstituenten Vorkommen. Das Kollokationenwörterbuch ist als produktionsorientiertes Wörterbuch konzipiert. Es soll ein Hilfsmittel sein, um in Produktionssituationen passende Wortkombinationen zu finden, die von der Sprachgemeinschaft sanktioniert („typisch und gebräuchlich") sind. Das Wörterbuch stellt zu einem Suchwort Kombinationen mit diesem Wort bereit. Die Benutzerinnen und Benutzer gehen dabei inhaltlich vor, möchten z. B. etwas ausdrücken, was mit einem Tisch zusammenhängt, und finden im Wörterbuch Kombinationen w ie den Tisch abräumen, freier Tisch oder Holztisch. Es kann von ihnen nicht erwartet werden, dass sie die genaue Form einer gesuchten Kombination bereits kennen. Diese Information zu liefern ist eine der Aufgaben des Wörterbuchs. Zur genaueren Information über eine Wortkombination gehört, ob es sich um eine Kollokation oder ein Kompositum handelt (also z. B. freier Tisch oder Freitisch, Tisch aus Holz, hölzerner Tisch oder Holztisch? ). Trotz unterschiedlichen Hauptverteilungsmustern von Kollokationen und Komposita ist dies nicht von vornherein klar. Lässt man Komposita in einem solchen Wörterbuch weg, zielt das an den Nutzerbedürfnissen vorbei, da bestimmte in einer Sprache gängige Wortkombinationen nicht gefunden werden können, nur weil sie als Kompositum realisiert werden. Gerade für 10 Einleitung das Deutsche mit seinen sehr vielen Komposita liesse sich eine solche Lücke nur schwer rechtfertigen. Hinzu kommt, dass das Fehlen von Komposita für Deutsch-als-Fremdsprache-Lernende aus Sprachen mit geringerer Komposiüonsaktivität als besonders fatal anzusehen wäre. Sie könnten nicht nur nicht wissen, dass eine bestimmte Kombinaüon im Deutschen als Kompositum erscheint, sie wären wohl auch weniger darauf sensibilisiert, dass Komposition überhaupt als Bildungsmöglichkeit zur Verfügung steht. Weitgehend unklar ist das Verteilungsverhältnis zwischen Komposita und Kollokationen aber auch ganz allgemein, nicht nur für Wörterbuchbenutzerinnen und -benutzer. Für einzelne Wortkombinationen ist grundsätzlich schwer vorauszusagen, ob sie als Kompositum oder als Kollokation realisiert werden. Besonders interessant ist hier der Überschneidungsbereich der Konkurrenzbildungen - jene Kombinationen also, die beide Bildungen kennen, sowohl morphologisch als Kompositum als auch syntaktisch als Kollokation. Bei der Untersuchung solcher Konkurrenzbildungen können potenzielle Einflussfaktoren herausgearbeitet werden, welche die Verwendung der einen oder der anderen Bildungsvariante steuern und die nicht von den beteiligten Lexemen abhängen (da diese identisch sind). Es sind demnach zw ei Hauptziele, die diese Arbeit verfolgt, je mit demselben Problem dahinter, nämlich der Unklarheit, ob Kollokation oder Kompositum. Das eine Ziel ist lexikografisch-praktischer Natur: Komposita sollen mit ins Kollokationenwörterbuch integriert werden. Diese Forderung soll noch besser fundiert und ihre konkrete Umsetzung aufgezeigt werden, von der Datenerhebung bis hin zur Darstellung im Wörterbuch. Das zweite Ziel ist analytisch: Die Verteilung von Konkurrenzbildungen, die aus den gleichen Konstituenten sowohl ein Kompositum als auch eine Kollokation bilden, soll untersucht werden. Empirisch, auf korpuslinguistischer Basis, sollen mögliche Faktoren bestimmt werden, welche die Wahl der einen oder der anderen Konstruktion fördern oder hemmen. Die beiden Ziele haben einige Gemeinsamkeiten, aber auch klare Unterschiede. So nimmt die Arbeit - ausser in den entsprechenden Kapiteln, die sich spezifisch mit den beiden Hauptzielen befassen immer beide Blickwinkel ein. Sie kann wahlweise als zwei Arbeiten in einer, als lexikografische Arbeit mit empirisch-analytischem Zusatz oder umgekehrt als empirischanalytische Arbeit mit lexikografischer Anwendung gelesen werden. Legt man zuerst sein Augenmerk auf die Unterschiede in den Perspektiven, fällt auf der einen Seite die für den analytischen Teil notwendige Fokussierung auf Fragen der Morphologie und der Syntax ins Gewicht. Auf der anderen Seite sind es Fragen und Themen der Lexikografie, die für den analytischen Teil nicht weiter von Belang sind. Hier spielt das umrahmende Projekt des Kollokationenwörterbuchs mit hinein, das hier nun, noch vor den Gemeinsamkeiten, steckbriefartig ganz kurz vorgestellt werden soll. Es handelt sich beim Kollokationenwörterbuch, w ie angetönt, um ein produktionsorientiertes Wörterbuch, das Kollokationen und Komposita der Einleitung 11 deutschen Sprache zu einem Basiswortschatz von insgesamt 2000 Lemmata verzeichnen soll. Finanziert vom Schweizerischen Nationalfonds (SNF) wird es an der Universität Basel von einem Team unter der Leitung von Annelies Häcki Buhofer erarbeitet. Mit der Beschränkung auf einen Basiswortschatz von 2000 Lemmata richtet sich das Wörterbuch vornehmlich an Sprachlernende (von Sprachlernenden oftmals benutzte Lernwortschätze haben häufig auch etwa diesen Umfang). Die gelisteten Wortverbindungen sollen allgemeinsprachlich sein. Fachsprachliches und allzu Spezielles, das bei grösserem Umfang vielleicht berücksichtigt würde, wird ausgelassen. Die Auswahl der Kollokationen und Komposita zu einem Lemma erfolgt korpusbasiert. Es wird jedoch grosser Wert auf die lexikografisch motivierte Auswahl und die lexikografische Bearbeitung gelegt. Explizite Nennformen und eine grosse Zahl Beispielsätze sollen die Anwendung des Wörterbuchs erleichtern. Eine ausführlichere Beschreibung ist auch zu finden unter http: / / w w w .kollokation enw oerterbuch.ch (oder im weiteren Verlauf dieser Arbeit). Zurück zu den Gemeinsamkeiten der beiden Hauptteile oder -ziele. Gemeinsam ist beiden Zugängen die theoretische Grundlegung im Bereich der kombinatorischen Begriffsbildung (cf. Kapitel 2), wobei die Forschung rund um Kollokationen stärker aus einer lexikografisch geprägten Richtung stammt. Bei der Forschung über Komposita ist der lexikografische Einfluss weniger zu spüren, hier sind neben der genuin morphologischen Forschung typologische Ansätze und solche aus der Universalienforschung präsent. Gemeinsam ist beiden Zugängen auch der korpuslinguistische Ansatz. Als Datengrundlage werden verschiedene Textkorpora benutzt, sowohl ausgewogen zusammengestellte wie auch eher opportunistische. Diese Wahl ist keineswegs ein Zufall. Sie liegt auch nicht in der Bequemlichkeit begründet, nur eine einzige Methode anwenden zu wollen. Vielmehr geht es in beiden Teilen der Arbeit vor allem um Sprachgebrauch. Im Kollokationenwörterbuch sollen typische und gebräuchliche Wortverbindungen abgebildet werden. Diese lassen sich am einfachsten über ein Textkorpus ermitteln. Bei der Analyse der Konkurrenzbildungen geht es ebenfalls um Gebrauchsphänomene, die am besten in einem Korpus nachgewiesen werden können. Eine weitere Gemeinsamkeit sind die Daten an sich, sowie deren Erhebungsmethoden. Die Kollokationskandidaten bzw. Kookkurrenzen und die Komposita, die aus den Korpora extrahiert werden, sind für die lexikografische Weiterverarbeitung und für die linguistische Analyse dieselben. Zumindest grundsätzlich verhält sich das so - gewisse Schritte in der weiteren Verarbeitung unterscheiden sich und sind anwendungsspezifisch. Eine Zuordnung von Komposita zu Kollokationen nach Konstituenten ist z. B. nur für die Analyse der Konkurrenzbildungen nötig, für den lexikografischen Teil nicht. Verwandte Operationen allerdings, w ie etwa die Zuordnung eines Kompositums zu einem Lemma, sind ebenso notwendig. Die methodische Gemeinsamkeit (einmal abgesehen vom korpuslinguistischen Zugang und den gemeinsam und deshalb auch nach denselben Me- 12 Einleitung thoden erhobenen Daten) besteht in der Anwendung verschiedener computerlinguistischer Methoden. Die Menge der Daten, die auf korpuslinguistischem Weg gewonnen werden kann, verlangt in vielen Fällen nach möglichst automatisierter Weiterverarbeitung. Da es sich um Sprachdaten handelt, bieten sich computerlinguistische Werkzeuge an. Für die vorliegende Arbeit und allgemein für das Kollokationenwörterbuch kommt eine beträchtliche Zahl solcher computerlinguistischen Werkzeuge zur Anwendung. Wirkliche Eigenentwicklungen sind darunter jedoch keine, es ist lediglich die Anw endung und Kombination der möglichst passenden Werkzeuge, die in diesem Rahmen vorgenommen wurde. Die Arbeit ist so strukturiert, dass sie mit den gemeinsamen Teilen beginnt, um mit den zw ei spezifischeren Kapiteln zu den zwei erläuterten Hauptzielen zu schliessen. Etwas detaillierter sieht der Aufbau folgendermassen aus: Kapitel 2 (Kombinatorische Begriffsbildung) bereitet die relevanten theoretischen Grundlagen zur kombinatorischen Begriffsbildung auf. Auf der einen Seite werden der Forschungsstand, Definitionskriterien und Eigenschaften von Kollokationen, auf der anderen Seite dieselben Punkte zu den Komposita präsentiert. Ebenso enthalten ist die Arbeitsdefinition bzw. die Projektdefinition für Kollokationen im Kollokationenwörterbuch. Das Kapitel schliesst mit einigen Betrachtungen zur direkten Gegenüberstellung von Komposita und Kollokationen. Kapitel 3 (Datengewinnung und -aufbereitung) befasst sich mit der Extraktion der Daten aus den Korpora sowie ihrer Weiterverarbeitung. Es werden die verwendeten Textkorpora und die Methoden zur Extraktion von Kollokationen bzw. Kollokationskandidaten oder Kookkurrenzen beschrieben. Zur Extraktion von Komposita sind andere Mittel nötig, die im Anschluss dargestellt werden. Für beide Bildungsarten werden nachträglich durchgeführte Assoziationsmass-Evaluationen präsentiert. Kapitel 4 (Lexikografische Umsetzung) ist derjenige Teil, der sich ausschliesslich dem Lexikografischen widmet. Es werden einige allgemeine konzeptuelle Charakteristika und konkrete Eigenschaften des Kollokationenwörterbuchs vorgestellt - von der Auswahl des Basiswortschatzes bis hin zur Online-Darstellung. Weiter geht es um die Integration der Komposita ins Wörterbuch. Schliesslich werden der verwendete lexikografische Arbeitsplatz und Aspekte der technischen Konzeption des Wörterbuchs besprochen. Kapitel 5 (Kollokationen und Komposita in Konkurrenz) ist der Analyse der Konkurrenzbildungen gewidmet. Einerseits werden zusätzliche methodische Aspekte eingeführt, die zur Durchführung der entsprechenden Analysen nötig sind. Andererseits wird in allgemeineren Analysen versucht, einen Rahmen zu setzen, indem aufgezeigt wird, w ie besonders Komposita nach bestimmten Eigenschaften (Wortarten etc.) verteilt sind. Schliesslich werden mögliche Einflüsse spezifisch hinsichtlich ihrer Wirkung auf die Verteilung von Komposita und Kollokationen bei Konkurrenzbildungen überprüft. 2 Kombinatorische Begriffsbildung Sowohl bei Kollokationen als auch bei Komposita werden neue Begriffe durch die Kombination bestehender Begriffe gebildet. Dies kann unter der Bezeichnung kombinatorische Begriffsbildung (cf. Donalies 2004b) subsumiert werden. In der vorbegenden Arbeit soll kombinatorische Begriffsbildung nur für Kollokationen und Komposita verwendet werden. Indem sie Lexeme miteinander kombinieren, machen sie den Kernbereich der kombinatorischen Begriffsbildung aus. Andere Bereiche, die ebenfalls dazugerechnet werden könnten, aber eher in einem Randbereich, wie etwa Derivation (cf. Donalies 2004a) und stärker idiomatische Phraseologismen, gehören hier vernachlässigt. Da diese Arbeit auf dem Hintergrund eines Projekts entsteht, das ein Kollokationenwörterbuch erarbeitet, in dem sowohl Kollokationen als auch Komposita Vorkommen sollen, werden im Folgenden sowohl Kollokationen (Abschnitt 2.1) als auch Komposita (Abschnitt 2.2) aus theoretischer Perspektive näher beleuchtet. Es folgt anschliessend ein Direktvergleich der beiden Bildungsweisen (Abschnitt 2.3). 2.1 Kollokationen Kollokationen sind konventionalisierte Mehrwortverbindungen vom Typ Tisch decken, fruchtlose Diskussion oder Aussicht auf Erfolg. Nicht ganz zufällig beginnt der Teil zu theoretischen und definitorischen Aspekten von Kollokationen mit diesem Satz: Einerseits einer abstrakten und leicht unterspezifizierten, andererseits einer konkreten, exemplarischen Definition. Denn was genau Kollokationen sind, ist nicht immer einfach zu bestimmen. Dies hat zw ei Hauptgründe: Zum einen ist der Begriff Kollokation seit seiner Prägung durch den britischen Kontextualismus für unterschiedliche Phänomene im Bereich von Wortkombinationen aufgetaucht (cf. Abschnitt 2.1.1). Zum anderen gibt es für den heute vorherrschenden Kollokationsbegriff nach beispielsweise Hausmann (1985, 2004) oder Burger (2010) zwar gute und unkontroverse Beispiele (wie die oben genannten), doch handelt es sich bei Kollokationen um eine auf mehreren Ebenen graduelle Erscheinung, deren Abgrenzung zu benachbarten Phänomenen oft schwierig ist und die so Anlass zu mannigfaltigen Definitionsversuchen gegeben hat. Verschiedene Eigenschaften von Kollokationen, die eine prominente Rolle in den meisten Definitionen spielen, werden unter Abschnitt 2.1.2 näher angeschaut. Welche Definition für die vorliegende Arbeit und das Kollokationenwörterbuch massgebend war, wird schliesslich in Abschnitt 2.1.3 präzisiert. 14 Kombinatorische Begriffsbildung 2.1.1 Entstehungsgeschichte des Kollokationsbegriffs Für den Begriff Kollokation kursierten und kursieren unterschiedliche Definitionen. Für die moderne Sprachwissenschaft als erstes besetzt wurde der Begriff im britischen Kontextualismus, w o er namentlich bei Firth (1957a,b) prominent auftaucht.1 Firth prägte den eingängigen und viel zitierten Slogan: „You shall know a word by the company it keeps! " (Firth 1957a: 11). Kollokationen sind bei Firth syntagmatische Beziehungen, die Lexeme gewohnheitsmässig miteinander eingehen und die einen Teil der Bedeutung eines Wortes ausmachen. Eines der Beispiele, die er dafür bringt, ist folgendes: „One of the meanings of night is its collocability with dark, and of dark, of course, collocation with night" (Firth 1957b: 196). Kollokationen zu einem Wort sind für ihn „statements of the habitual or customary places of that word", und weiter ist eine Kollokation „not to be regarded as mere juxtaposition, it is an order of mutual expectancy" (Firth 1957a: 12). Firth unterscheidet jedoch Kollokation (collocation) von Kolligation (colligation). Danach sollen grammatische Relationen nicht als Beziehungen zwischen den konkreten Wortformen betrachtet werden (also zwischen watched und him in ,1 watched him'), sondern als Beziehung zwischen den abstrakteren Kategorien dahinter, d. h. einer bestimmten Verbform mit einem Pronomen (Firth 1957a: 13). Solch grammatische Relationen werden unter dem Begriff Kolligation gefasst. Firth gibt eher beispielhafte Definitionen. Es wird zwar sehr wohl klar, dass es ihm um gebräuchliche und häufige Wortverbindungen geht, er gibt aber keine Methoden an, wie Kollokationen zu bestimmen seien. Halliday (1961: 276), einer seiner Schüler, leistet dazu einen Beitrag mit der technischeren Definition: „Collocation is the syntagmatic association of lexical items, quantifiable, textually, as the probability that there will occur, at n removes (a distance of n lexical items) from an item x, the items a, b, c ... ." Quantifizierbarkeit und Wahrscheinlichkeit sind dabei die wichtigen beiden Stichworte. Kollokationen sollen gezählt werden („large scale frequency counts", Halliday 1961: 277), und sie sollen nach ihrer Auftretenswahrscheinlichkeit rangiert werden („Any given item thus enters into a range of collocation, the items with which it is collocated being ranged from more to less probable; " Halliday 1961: 276). Damit wurde die heute nach wie vor gängige statistische Vorgehensweise zur Kollokationsextraktion begründet, bei der Kombinationen, die überzufällig häufig miteinander Vorkommen, näher betrachtet werden (cf. auch 3.2.1). Sieht man sich die Aussagen von Halliday (1961) an, ist nicht verwunderlich, dass w enig später schon die ersten Entlehnungen aus Mathematik und Statistik erfolgten, um die Assoziationsstärke zwischen Wörtern zu messen. 1 Darauf, dass weder der Begriff Kollokation noch die Beachtung des Phänomens ursprünglich auf Firth zurückgeht, weist u. a. Bartsch (2004: 28ff.) hin. Sie findet im Oxford English Dictionary (1989) entsprechende Zitate, die bis zurück ins 18. Jahrhundert datieren. Kollokationen 15 Nach Evert (2005: 21) sind bei Stevens, Giuliano & Heilprin (1965) die ersten solchen Übernahmen statistischer Tests als Assoziationsmasse beschrieben. Zu den datenseitigen Grundlagen für die Kollokationsbestimmung in Textkorpora ist zu sagen, dass diese fortlaufend grösser wurden und werden - dazu Sinclair (1991), dessen Aussage auch zwanzig Jahre später mit entsprechend nach oben angepassten Zahlen nichts an Gültigkeit verloren hat: Thirty years ago when this research started it was considered impossible to process texts of several million words in length. Twenty years ago it was considered marginally possible but lunatic. Ten years ago it was considered quite possible but still lunatic. Today it is very popular. (Sinclair 1991: 1) Sinclair (1991) operierte zu der Zeit immer noch hauptsächlich mit absoluten und relativen Auftretenshäufigkeiten. Mit den immer grösser werdenden Korpora scheint aber auch der Bedarf an ausgefeilteren statistischen Techniken zur Ermittlung von Kollokationen zuzunehmen. Viele der heute sehr populären Assoziationsmasse wurden in den frühen 90er-Jahren etabliert, so etwa T-Score von Church et al. (1991), Mutual Information von Church & Hanks (1990) und Log-Likelihood von Dunning (1993) (cf. auch 3.2.1). Insgesamt wurde in der britischen Tradition das Augenmerk bei Kollokationen sehr stark auf statistische Aspekte und die rohen Textdaten gelegt. Dies zeigt sich exemplarisch am Dictionary of English Collocations von Kjellmer (1994), der in dieser Tradition entstanden ist: Das Buch listet alle Wortpaare des Brown Corpus (Francis & Kucera 1979) samt ihren Frequenzen auf. Dies würde heutzutage kaum mehr als fertiges Wörterbuch, sondern als Zwischenstufe zu einem Wörterbuch betrachtet (und demzufolge so auch nicht gedruckt). Kritisiert wurde der Kollokationsbegriff des britischen Kontextualismus namentlich von Franz Josef Hausmann; „Der britische Kollokationsbegriff entspricht in etwa dem Terminus Kookkurrenz; er meint jegliches Miteinanderauftreten von Wörtern." (Hausmann 1985: 124). Hausmann gilt als erster grosser Verfechter eines stärker linguistisch motivierten, phraseologisch geprägten Kollokationsbegriffs.2 Eine Kollokation ist nach Hausmann (1985: 118) eine „typische, spezifische und charakteristische Zweierkombination von Wörtern". Er bezeichnet Kollokationen auch als „wenn nicht Fertigprodukte, so doch Halbfertigprodukte der Sprache" (Hausmann 1985: 118) und bringt Beispiele w ie eingefleischter Junggeselle, schütteres Haar, heikles Thema, Geld abheben, Hass schüren, Rechnung begleichen. Hausmann (1985) wendet sich gegen die Verwendung der Auftretensfrequenz als hauptsächliches Kriterium für Kollokabilität, wie es der britischen Tradition zu der Zeit entspricht. Für ihn ist die „Verfügbarkeit oder Disponibilität des Wortschatzes" (Hausmann 1985: 124) entscheidender als die Fre- 2 Auf andere mit dem Kollokationsbegriff verwandte Konzepte mit einer stärker semantischen Ausrichtung wie den „wesenhaften Bedeutungsbeziehungen" von Porzig (1934) und den „lexikalischen Solidaritäten" von Coseriu (1967) sei hier nur am Rand verwiesen, da in diesem Rahmen nicht näher darauf eingegangen werden kann. 16 Kombinatorische Begriffsbildung quenz. Er merkt an, dass auch bei grösseren Korpora die Frequenz zu wenig darüber aussagt, ob eine Wortverbindung als Kollokation gesehen werden kann. Die Erfahrungen mit dem Tresor de la languefrangaise und einem Corpus von 90 Millionen tokens zeigen, daß auch dann immer noch die Analyse und nicht die Frequenz den Unterschied zwischen spezifischen und unspezifischen Kollokationen ergibt. (Hausmann 1985: 126) Seine Ablehnung des Frequenzkriteriums scheint jedoch auch nicht absolut, er beschreibt es vielmehr als „unzulänglich" und „unbrauchbar", wobei nicht ganz klar wird, ob er Frequenz an sich meint, oder eher die jeweilige konkrete Ausgestaltung und Gewichtung des Frequenzkriteriums. Ein weiterer sehr wichtiger Beitrag von Hausmann (1985) ist die Einführung einer kollokationsinternen hierarchischen Ordnung zwischen den Komponenten, dem Basis-Kollokator-Prinzip (cf. auch Abschnitt 4.1.2). Demnach stehen die beiden Wörter, die eine Kollokation bilden, nicht gleichberechtigt nebeneinander. Vielmehr ist immer ein Wort die Basis, welcher der Kollokator zugeordnet ist. Bei der Produktion von Text und der Suche in Wörterbüchern geht man nach diesem Verständnis immer von der Basis zum Kollokator. Was die Wortarten angeht, die Basis sein können, heisst es im Originalwortlaut: Die wichtigste Basiswortart ist das Substantiv, weil es die Substantive sind, welche die Dinge und Phänomene dieser Welt ausdrücken, über die es etwas zu sagen gibt. Adjektive und Verben kommen als Basiswörter nur insoweit in Frage, als sie durch Adverbien weiter determiniert werden können. (Hausmann 1985: 119) Die von Hausmann (1985: 119) angeführten Beispiele sind schütteres Haar (Basis: Haar), Geld abheben (Basis: Geld), verbissen kämpfen (Basis: kämpfen) und Schwall von Worten (Basis: Wort). Zwar macht auch Sinclair (1966) eine Unterscheidung zwischen node und collocate. Dabei geht es aber nur um die Perspektive. Je nach Untersuchungsrichtung ist ein Wort entweder node (wenn nämlich alle collocates zu diesem Wort gesucht werden) oder collocate (wenn es als ein Wort erscheint, das mit dem untersuchten Wort oder node eine Kollokation bildet). Hausmanns Basis- Kollokator-Prinzip ist demgegenüber absolut zu sehen, da es eine unabhängig von der Perspektive vorhandene Hierarchie innerhalb der Kollokation annimmt. Als Ordnungs- und Darstellungsprinzip für Kollokationen in Wörterbüchern hat sich das Basis-Kollokator-Prinzip unterdessen recht gut durchgesetzt. Da es aber vor allem für das Nachschlagen bei der Textproduktion geeignet ist und es immer wieder auch Zweifelsfälle gibt, wird es in Wörterbüchern selten völlig konsequent umgesetzt (cf. Abschnitt 4.1.2). Bereits das Beispiel Schwall von Worten mit Basis PVorf von Hausmann (1985: 119) zeigt einen Teil der Problematik. Während die Definition nach Wortarten, die in bestimmten Bedingungen Basis sein können (cf. Zitat oben), die Möglichkeit einer klaren Zuordnung der Basis-Kollokator-Hierarchie zu syntaktischen Strukturen Kollokationen 17 und morphosyntaktischen Eigenschaften suggeriert, scheint Wort als Basis in Schwall von Worten primär semantisch motiviert zu sein. Eine weitere Eigenschaft, die Hausmann (1985: 118f.) Kollokationen zuschreibt, ist Binarität: Demnach sind Kollokationen immer „Zweierkombinationen" er sagt dabei nicht ausdrücklich, dass die Kombinationspartner nur Einzelwörter sein können, seine Beispiele suggerieren dies allerdings sehr stark, da keine darunter sind, w o ein Kombinationspartner seinerseits wieder eine Kollokation wäre. Dieses Bestehen auf der Zweiwertigkeit erstaunt insofern etwas, als Hausmann sich ja explizit gegen den rein frequenzorientierten, statistischen Zugang zu Kollokationen wendet, w o einfache Binarität vor allem auch ein Mittel ist, die notwendigen Berechnungen zu erleichtern.3 Die meisten theoretischen Ansätze gehen wie bereits Cowie (1978) oder Sinclair (1991) nicht von einer Einschränkung auf Zweierkombinationen aus, oder wenn, dann mehr aus praktischen Gründen. Eine weitere Möglichkeit, etwa von Heid (1994) oder Seretan (2011) unterstützt, ist es, Kollokationen zwar als Zweierkombinationen anzuschauen, als Kombinationspartner aber Kollokationen selbst zuzulassen und so mittels Rekursion komplexe Kollokationen zu ermöglichen. Andere Ansätze gehen durchaus von komplexeren als nur zweiwertigen Kollokationen aus. Zu nennen sind hier Ansätze, die Kollokationen mittels n-Grammen suchen, also mittels Folgen von Wortformen der beliebigen Länge n (cf. z. B. Smadja 1991; Manning & Schütze 1999: 191ff.). Der Ansatz erfreut sich besonderer neuer Beliebtheit, seit der Suchmaschinenbetreiber Google umfangreiche n-Gramm-Sammlungen in verschiedenen Sprachen aus seinen Retro-Digitalisaten veröffentlicht hat (cf. Michel et al. 2010). Ab den späten 90er-Jahren geht der Trend eher dahin, den statistischen und den linguistischen Standpunkt zu versöhnen. Rein statistisch gewonnene Verbindungen werden als Kookkurrenzen bezeichnet. Erst wenn mehr linguistische Zusatzbedingungen greifen, wird von Kollokationen gesprochen - oder mit Manning & Schütze (1999): It is probably best to restrict collocations to the narrower sense of grammatically bound elements that occur in a particular order and use the term association and co-occurrence for the more general phenomenon of words that are likely to be used in the same context. (Manning & Schütze 1999: 185) Damit werden die statistische Auswertung der Korpora bzw. ihre Resultate, die Kookkurrenzen, zum Hilfsmittel, um Kollokationen zu finden. Kookkurrenzen stehen so nicht mehr in direkter Konkurrenz zu den Kollokationen w ie noch bei Hausmann (1985). Auf diese Weise müssen auch jene Kollokationsdefinitionen nicht in Widerspruch zu statistischer Korpusanalyse geraten, die keinerlei oder keinen expliziten Bezug zu empirisch feststellbaren Frequenzverhältnissen machen, w ie etwa Burger (2010): 3 Zu einem späteren Zeitpunkt nimmt Hausmann ebenfalls explizit Verbindungen mit mehr als zwei Wörtern als Kollokationen an (cf. Hausmann 2004: 316). 18 Kombinatorische Begriffsbildung Ich schlage vor, den Terminus Kollokation für den ganzen Bereich der festen Wortverbindungen, die nicht oder nur schwach idiomatisch sind, zu verwenden. (Burger 2010: 52) Auch solche Definitionen gehen von Festigkeits- und Gebräuchlichkeitsbedingungen aus, die sich in Auftretensfrequenzen (in Korpora) niederschlagen. Die mittlerweile grössere Vereinbarkeit der ursprünglich konkurrierenden Ansätze zeigt sich u. a. auch darin, dass Hausmann mit Quasthoff (2011) ein Kollokationenwörterbuchprojekt wissenschaftlich begleitet hat, das stark frequenzorientiert ist und viele Wortverbindungen aufführt, die Hausmann (1985) wohl noch als „banal" bezeichnet hätte. Ebenfalls einen integrierenden Ansatz verfolgt Steyer (2000) mit dem Konzept der usuellen Wortverbindungen, das sämtliche festen Wortverbindungen umfasst: Usuelle Wortverbindungen [...] sind über das Einzelwort hinausgehende sprachliche Erscheinungen, die als komplexere Einheiten reproduziert werden können und deren Elemente einen höheren Wahrscheinlichkeitsgrad des Miteinandervorkommens besitzen, als das bei okkasionellen Wortverbindungen der Fall ist. Diese Charakterisierung sagt zunächst weder etwas über die sprachebenenabhängige Determiniertheit (also primär syntaktischer, semantischer oder pragmatischer Natur) noch über eine möglicherweise vorhandene idiomatische Komponente aus. (Steyer 2000: 108) Die usuellen Wortverbindungen werden erst in einem zweiten Schritt weiter in Kategorien wie Kollokationen, phrasale Muster, idiomatische Mehrwortverbindungen etc. unterteilt. Parallel setzten sich auf Seiten der statistischen Methoden zur Kookkurrenzberechnung gewisse Trends fort: Die verwendeten Korpora wurden weiter immer grösser - natürlich aufgrund der Fortschritte in der Informationstechnologie. Weitere und neue Assoziationsmasse wurden eingeführt (cf. auch 3.2.1), etwa das Salience-Mass (Kilgarriff & Tugwell 2002) oder das logDice-Mass (Rychly 2008). Assoziationsmasse sind aber auch ausgiebig gegeneinander evaluiert worden (cf. Evert 2005, 2008; Pecina 2005), und Quantensprünge scheinen hier kaum mehr in Sicht. Hinzugekommen ist die stärkere linguistische VorVerarbeitung, bevor Assoziationsmasse berechnet werden. Kilgarriff & Tugwell (2002) setzen hierfür auf bestimmte Muster (z. B. von Wortkategorien), die sie mit regulären Ausdrücken suchen und damit anschliessend ihre Wortprofile („Word-Sketches") berechnen. Andere setzen Chunking4 ein (z. B. Kermes & Heid 2003) oder wenden Assoziationsmasse auf komplett syntaktisch analysierte Daten an (z. B. Seretan 2011). Kollokationen wurden rasch auch als lexikografisch zu behandelndes Phänomen betrachtet. So erstaunt es wenig, dass bald auch die ersten Kollokationenwörterbücher erschienen - zuerst im englischsprachigen Raum. Als Vorläufer zu nennen ist hier der Oxford Dictionary of Current Idiomatic English4 4 Cf. auch Abschnitt 3.2.3.1 ab Seite 69. Kollokationen 19 von Cowie, Mackin & McCaig (1975-1983), der im Jahr 1964 begonnen worden war (Cowie 2002: 66). Grossen Einfluss hatte auch der BBI Combinatory Dictionary of English (Benson, Benson & Ilson 1986). Neuere englischsprachige Kollokationenwörterbücher sind der Oxford Collocations Dictionary for Students of English (OCDSE 2009) und der Macmillan Collocations Dictionary (Rundell 2010). Vor allem in neuster Zeit sind auch Wörterbücher zu Kollokationen für andere Sprachen als Englisch erschienen: Für das Französische z. B. der Dictionnaire des combinaisons de mots (Le Für 2007), für das Spanische der REDES - Diccionario combinatorio del espanol contemporäneo (Bosque 2004), für das Portugiesische der Dicionärio contextual bäsico da lingua portuguesa (Pöll 2000), für das Italienische der Dizionario combinatorio compatto Itäliano (Lo Cascio 2012) und für das Deutsche das Wörterbuch der Kollokationen im Deutschen (Quasthoff 2011)5. Im Rahmen solch lexikografischer Projekte erfreut sich das Forschungsfeld rund um Kollokationen in letzter Zeit grosser Beliebtheit. Doch wird auch Forschung mit nichtlexikografischen Absichten betrieben, etwa im Bereich der maschinellen Übersetzung, w o Mehrworteinheiten eine Herausforderung darstellen (cf. z. B. Seretan 2011), oder in der Fremdsprachendidaktik, w o Kollokationen auch im Deutschen zu einem Thema geworden sind (cf. z. B. Handwerker & Madlener 2009; Reder 2006, 2011). 2.1.2 Eigenschaften von Kollokationen Nachdem es im vorhergehenden Abschnitt eher um forschungsgeschichtliche Aspekte und die Situierung des Kollokationsbegriffs ging und dabei viele Eigenschaften von Kollokationen bereits angesprochen wurden, sollen diese Eigenschaften nun systematischer und näher beleuchtet werden, sodass eine Grundlage für eine für das vorliegende Projekt gültige Definition von Kollokationen (cf. 2.1.3) geschaffen werden kann. Eigenschaften und Begriffe, die immer wieder im Zusammenhang mit Kollokationen genannt werden, sind Festigkeit, Gebräuchlichkeit, Häufigkeit, Rekurrenz, Idiomatizität und Kompositionalität, Polylexikalität, Arbitrarität. Die nun folgenden Seiten versuchen, Struktur und Klarheit in diese Begriffsvielfalt zu bringen. Zur Vergegenwärtigung des Problemkreises und als Einstieg sei wieder die Kollokationsdefinition nach Hausmann angeführt - nach Hausmann (1985: 118) definieren sich Kollokationen als „typische, spezifische und charakteristische Zweierkombinationjen] von Wörtern" und „wenn nicht Fertigprodukte, so doch Halbfertigprodukte der Sprache". Die nun folgenden Aspekte (Häufigkeit, Festigkeit, Kompositionalität, Idiomatizität, Arbitrarität und Gradualität) spielen dabei eine wichtige Rolle (wie sie es auch für andere Kollokationsdefinitionen tun, je mit höherer oder tieferer Priorität). 5 Wörterbücher mit ebenfalls vielen Kollokationen und damit Vorläufer fürs Deutsche sind Agricola (1992) und Duden 2 (2010) (beide Werke waren mit Vorgängerauflagen schon bedeutend früher präsent). 20 Kombinatorische Begriffsbildung 2.1.2.1 Häufigkeit Vom Begriff der Häufigkeit bei Kollokationen lassen sich gewisse andere Begriffe wie Gebräuchlichkeit, Rekurrenz und Festigkeit nur schwer trennen. Häufigkeit, verstanden als hohe Frequenz, wird in vielen Fällen als Symptom für Gebräuchlichkeit und Festigkeit einer Wortverbindung genommen. Die Argumentation dabei: Wenn etwas gebräuchlich ist, wird es gebraucht, d. h. es kommt auch in Äusserungen und damit in Textkorpora vor. Gegenüber ungebräuchlichen Kombinationen (die eben nicht gebraucht werden) weisen gebräuchliche eine höhere Frequenz auf. Als imaginäre Schwelle (und mögliche Operationalisierung) wird dann oft die Frequenz genommen, die durch zufällige Verteilung aller Wörter (nach ihren Einzel-Auftretensfrequenzen) entstünde. Kombinationen, die überzufällig häufig auftreten, werden als besonders gebräuchlich angeschaut. Ähnlich sieht das Verhältnis zwischen Häufigkeit und Festigkeit von Wortverbindungen aus. Ist eine Wortverbindung fest, müssen die beiden Komponenten zusammen auftreten, was sich wiederum in einer überzufälligen Häufung des gemeinsamen Auftretens niederschlägt. Wenn sich Vertreter eines stärker linguistisch motivierten Kollokationsbegriffs w ie Hausmann auch stark von der quantitativen Ausrichtung des Kontextualismus abgrenzen, so laufen ihre Definitionen mit Begriffen wie Halbfertigprodukte, charakteristische Kombination etc. doch ebenfalls auf ein gehäuftes Auftreten gegenüber freien Wortverbindungen hinaus - trotz Fehlen einer expliziten Erwähnung des Häufigkeitskriteriums. Relativ oft erscheint das Häufigkeitskriterium aber auch explizit in Kollokationsdefinitionen. Einerseits natürlich in solchen, die stärker von der britischen Tradition mit einer sehr quantitativen Auffassung von Kollokationen beeinflusst sind, aber durchaus nicht nur in diesen. So definieren Lemnitzer & Zinsmeister (2010: 143f.) Kollokationen so, dass es sich bei ihnen immer auch um Kookkurrenzen handelt, die ihrerseits wieder gehäuft oder signifikant häufiger als zufällig auftreten. Bei Bartsch (2004) wiederum sind Kollokationen folgendermassen definiert: [C]ollocation is defined as a type of constrained lexical selection. The study employs quantitative, i. e. frequency and positional, criteria as the basis for the empirical corpus study. (Bartsch 2004: 59) Und weiter: The frequency of occurrence of particular word combinations within the same immediate context is an empirically verifiable feature of collocations and should, consequently, be harnessed as a prime feature in definitions of collocations. (Bartsch 2004: 59) Als empirisch feststellbare Grösse soll also Häufigkeit dementsprechend wichtig in der Definition sein. Im Normalfall ist jeweils nicht die absolute, sondern eine relative Häufigkeit gemeint. Häufige Wörter haben bedingt durch ihre Häufigkeit schon an sich eine grössere Chance gemeinsam vorzukommen. Damit nicht nur Verbindungen häufiger Wörter betrachtet werden. Kollokationen 21 geht man von relativen Häufigkeiten aus. Dies können einfachere Konzeptionen relativer Häufigkeiten sein, wie etwa „Wort Y tritt in soundso viel Prozent seiner Vorkommen zusammen mit Wort X auf" oder auch „Wort Y ist das Wort, das am meisten mit Wort X vorkommt". Beliebter sind komplexere Varianten, die mit aus der Statistik abgeleiteten Assoziationsmassen versuchen, die Stärke einer Wortverbindung zu beschreiben (cf. 3.2.1). Was man sich aber genau unter häufig vorzustellen hat, bleibt in den meisten Definitionen unklar. Bei den Assoziationsmassen handelt es sich lediglich um Heuristiken und nicht um Signifikanztests im statistischen Sinne, da dafür die Vorbedingungen (wie z. B. eine bestimmte Zufallsverteilung) nicht gegeben sind. Aus diesem Grund sind auch kaum fixe Assoziationsmass- Schwellenwerte, d. h. ab welchem Wert denn eine besondere Verbindung besteht, in der Literatur zu finden (cf. ebenfalls Abschnitt 3.2.1). 2.1.2.2 Festigkeit Festigkeit ist ebenfalls eine wichtige Eigenschaft, die im Zusammenhang mit Kollokationen immer wieder genannt wird (cf. z. B. Burger 2010; Häcki Buhofer 2011b; Hollös 2010; Steyer 2000, 2004). Vor allem zw ei Typen von Festigkeit sind dabei meist angesprochen. Einerseits ist dies die Festigkeit der Verbindung zwischen zwei Wörtern. Besonders stark ist diese bei Kollokationen mit unikalen Bestandteilen w ie z. B. bei Amok laufen, w o Amok quasi immer mit laufen auftritt und deshalb eine besonders feste Verbindung mit laufen bildet. Dieses Verständnis von Festigkeit hängt stark mit den oben besprochenen Eigenschaften Häufigkeit und Gebräuchlichkeit zusammen. Andererseits wird unter Festigkeit auch die feste Form einer Kollokation verstanden. Für bestimmte Kollokationen gelten besondere syntaktische Restriktionen, sie haben etwas Phrasenhaftes und kommen nur in bestimmten festgefügten Formen vor. Das Adjektiv empfindlich z. B. kommt mit Kälte in heutiger Zeit nur attributiv als empfindliche Kälte vor. Die prädikative Verwendung die Kälte ist empfindlich dürfte als veraltet gelten.6 Ein weiteres Beispiel sind Kollokationen mit obligatorischer Negation, w ie bei sich nicht von der Stelle rühren, welches positiv nicht vorkommt. Ein Spezialfall davon sind Kollokationen, die doppelte Negationen enthalten, w ie z. B. eine nicht unbeträchtliche Menge oder nicht ohne Kritik bleiben. Oft sind hierfür synonyme Formulierungen ohne doppelte Negation gebräuchlich, etwa eine beträchtliche Menge. Die einfach negierten Formen werden dann oft ganz anders gebildet als durch einfaches Weglassen der zweiten Negation, z. B. eine geringfügige Menge. Weitere Beispiele für eine feste Form sind viele mit koordinierenden Konjunktionen w ie und/ oder verbundene Substantive, die oft nur in einer bestimmten Reihenfolge gebräuchlich sind (Zwillingsformeln) - dazu gehören etwa Leben und Tod, Ruhe und Ordnung, Erfolg oder Misserfolg und Kaffee und Die spärlichen Korpusbelege aus DWDS und Schweizer Textkorpus mit prädikativer Verwendung stammen jedenfalls alle aus der ersten Hälfte des 20. Jahrhunderts. 22 Kombinatorische Begriffsbildung Tee (nicht ungrammatisch, aber ungebräuchlich sind sie in umgekehrter Reihenfolge - also Tod und Leben, Ordnung und Ruhe, Misserfolg oder Erfolg, Tee und Kaffee). Nicht zu vergessen sind hier natürlich auch diejenigen Fälle, wo grössere Teile bis zu ganzen Sätzen nur in genau einer Form gebraucht werden. Ein Beispiel dafür ist etwa etw. ändert nichts an der Tatsache, dass ... oder etw. bleibt nicht ohne Folgen. Hier gehören auch satzwertige Phraseologismen dazu wie Porto zahlt Empfänger, Unwissenheit schützt vor Strafe nicht oder Gewalt erzeugt Gegengewalt, die trotz ihrer teils sprichwortartigen Erscheinung im Grenzbereich doch auch mit zu den Kollokationen gezählt werden können, da sie in ihrer Bedeutung unmittelbar verständlich sind. 2.1.2.3 Kompositionalität und Idiomatizität Kollokationen sind in ihrer Bedeutung kompositionell, d. h. ihre Gesamtbedeutung setzt sich aus den Bedeutungen ihrer Bestandteile zusammen. Sie sind damit unmittelbar verständlich und stellen auch für Fremdsprachige in der Rezeption kein grösseres Problem dar: Sind die Einzelwörter einer Kollokation bekannt, wird sie auch als Ganzes verstanden. Das Problem stellt sich nur in der Produktion. Hier ist bei Kollokationen eben nicht klar, mit welchem Kollokationspartner ein Wort sich verbindet. In den meisten Fällen sind für eine bestimmte Äusserung verschiedene Formulierungsalternativen denkbar. Existiert im Bereich einer Äusserung eine Kollokation, ist damit eine Norm gesetzt, welche die theoretisch möglichen Formulierungsalternaüven einschränkt. Die Kollokation für die alltägliche Zahnreinigung ist im Deutschen Zähne putzen und nicht waschen, bürsten oder schrubben, obwohl diese Verben von ihrer Bedeutung her ebensogut geeignet wären, den Sachverhalt zu beschreiben. Natürlich sind diese Verben keine totalen Synonyme, w ie totale Synonymie ja allgemein selten ist (cf. z. B. Bussmann 1990: 763). Ihre Bedeutungsnuancen würden aber trotzdem sehr gut auf den Vorgang des Zähneputzens passen: Waschen fokussiert auf das Wasser, Bürsten auf das Instrument Bürste und Schrubben auf die kräftige Reibung. Im Fall von Zähne putzen ist es nun so, dass die Alternativen gänzlich ungebräuchlich sind. Sie würden zwar verstanden, jedoch exotisch oder falsch anmuten.7 Für Sprachbenutzerinnen und -benutzer hat dies zur Folge, dass sie mit Kollokationen einerseits vorfabrizierte Einheiten zur Verfügung haben, diese andererseits aber in vielen Fällen auch nutzen müssen, w enn sie nicht auffallen wollen. Die Schwierigkeit Hegt nun genau darin, dass nicht von vornherein klar ist, welche Wörter sich in einer KoHokation verbinden. Kollokationen sind einfach zu verstehen, aber schwierig vorherzusagen. Forkl (2008: 117) spricht von „unidirektionaler Kompositionalität", da die Kompositionalität nur für die Rezeption gegeben ist, in der Gegenrichtung für die Produktion jedoch nicht. So werden KoHokationen auch als „idioms of enco- 7 Dies ist bei vielen Kollokationen so, aber längst nicht bei aUen. Oftmals sind auch nichtkoUokative Formen der Äusserung durchaus unmarkiert. Kollokationen 23 ding" bezeichnet (cf. Fillmore, Kay & O'Connor 1988; Makkai 1972; Seretan 2011 ) . Allerdings wird Unidirektionalität nicht von allen gleich stark betont. Evert (2005) etwa spricht in seiner Kollokationsdefinition nur ganz allgemein von Unvorhersehbarkeit der semantischen und syntaktischen Eigenschaften: A collocation is a word combination whose semantic a n d / o r syntactic properties cannot be fully predicted from those of its components, and which therefore has to be listed in a lexicon. (Evert 2005: 17) Diese Definition schliesst die Unvorhersehbarkeit oder Arbitrarität mit ein, bleibt aber vage in Bezug auf die Richtung (Produktion und/ oder Rezeption), sodass die Rezeptionsrichtung durchaus auch mitgemeint sein kann. Tatsächlich ist es auch so, dass viele Kollokationen nicht völlig kompositionell in ihrer Bedeutung sind. Nehmen wir als Beispiel Kollokationen, an denen Farbadjektive beteiligt sind, so bezeichnen diese Adjektive oft nicht die Farbe, die ihnen eine Farbtabelle zuschreiben würde. Weisser Pfeffer ist nicht wirklich weiss, sondern einfach eine hellere („weissere") Variante von Pfeffer als schwarzer Pfeffer, der seinerseits die wohl dunkelste Pfefferform darstellt. Ähnlich verhält es sich mit weissem Wein, weissem Brot etc. Man kann hier entweder von einer übertragenen Bedeutung von weiss ausgehen, oder aber die Bedeutung von weiss hin zu ,sehr hell' erweitern bzw. zu ,die hellste Variante'. Bei schwarzem Kaffee kommt eine weitere Bedeutung hinzu, hier heisst schwarz zwar auch »dunkel', zusätzlich aber noch ,nicht aufgehellt' bzw. ,ohne Milch' (die sonst zum Aufhellen dazugegeben würde). Kollokationen können also durchaus auch in der Verstehensrichtung leicht idiomatisch sein. Häufig werden leicht idiomatische und teilidiomatische Wortverbindungen, also solche, in der nur einer der Verbindungspartner idiomatisch verwendet wird, noch zu den Kollokationen gerechnet (cf. auch Burger 2010: 52). 2.1.2.4 Arbitrarität Im vorhergehenden Abschnitt wurde Arbitrarität als Eigenschaft von Kollokationen bereits angesprochen. Arbitrarität der Zuordnung liegt bei Kollokationen, wie wir gesehen haben, in Produktionsrichtung vor. Diese Arbitrarität ist ein Hauptrechtfertigungsgrund für das Aufführen von Kollokationen in Wörterbüchern. Arbitrarität bzw. ihr Fehlen kann aber auch als Abgrenzungskriterium gegenüber häufigen Wortverbindungen genommen werden, die man nicht zum Kernbereich der Kollokationen zählen würde. Hausmann (1985: 118) z. B. nennt diese „unspezifische, banale Zweierkombinationen, die der parole und nicht der langue angehören". Als konkretes Beispiel stellt er der Kollokation ein Buch aufschlagen die „banale Kombination" ein Buch kaufen gegenüber (Hausmann 1985: 119). Die Verbindung ein Buch kaufen ist aber in den Korpora ebenfalls häufig belegt bzw. häufiger als ein Buch aufschlagen. Als „banal" bezeichnet wird ein Buch kaufen deshalb, weil kaufen nichts 24 Kombinatorische Begriffsbildung Buchspezifisches ist, sondern mit sehr vielen Gegenständen passiert. Die Verbindung ist häufig und gebräuchlich, weil Bücher oft gekauft werden. Da der entsprechende Vorgang des Besitzerwechsels im Tausch gegen Geld allgemein mit dem Verb kaufen bezeichnet wird, erstaunt nicht, dass dies bei Büchern ebenso der Fall ist. Was die semantische Verbindung zwischen Buch und kaufen angeht, so ist diese eher vorhersagbar als arbiträr. Wenn man eine Unterscheidung nach Arbitraritätsgrad treffen möchte, sind Auftretenshäufigkeiten in Korpora also kein gutes Entscheidungskriterium. Auf den ersten Blick besteht für solche aus anderen als aus rein sprachlichen Gründen häufige Verbindungen kein Anlass, in einem Wörterbuch verzeichnet zu werden. Sieht man ein Kollokationenwörterbuch primär als Hilfe im Produktionsprozess, kann das Aufführen von solch lediglich oft gebrauchten, aber nicht spezifischen Verbindungen trotzdem sinnvoll sein. Da sie oft gebraucht werden, ist die Chance auch gross, dass sie in konkreten Produktionsprozessen oft gebraucht werden. Dass es sich dabei um eher reguläre Bedeutungsbeziehungen handelt, bedeutet nicht automatisch, dass man die Verbindung nicht nachschauen möchte. Natürlich könnte in diesem Fall z. B. jemand, der Deutsch als Fremdsprache lernt, einfach das Wort kaufen in einem zweisprachigen Wörterbuch nachschlagen - und wird das in vielen Fällen auch tun. Allerdings ist auf diese Weise noch nicht sicher, dass kaufen auch wirklich im Zusammenhang mit Büchern verwendet wird. Enthält der entsprechende Eintrag in einem Kollokationenwörterbuch nur die wirklich spezifischen Kollokationen zu Buch, muss er oder sie trotzdem noch dort nachschlagen um zu sehen, ob dort eine spezifische Kollokation mit ähnlicher Bedeutung wie ein Buch kaufen steht, vielleicht ein Buch erstehen. Falls ja, ist aber immer noch unsicher, w as daraus in Bezug auf ein Buch kaufen geschlossen werden soll: Kann ich es trotzdem verwenden wie mit so vielen anderen Objekten auch? Oder bedeutet das Vorhandensein einer spezifischen Kollokation, dass die unspezifische Kombination nicht verwendet wird? Wenn häufige und damit gebräuchliche, aber nicht zum Kernbereich der Kollokationen gehörige Verbindungen w ie eben ein Buch kaufen mit in ein Kollokationenwörterbuch aufgenommen werden, kann ein solches Interpretationsvakuum vermieden oder zumindest abgemildert werden. Neben dieser praktisch-lexikografischen Argumentationslinie gibt es weitere Gründe, die gegen einen kompletten Ausschluss von häufigen, aber eher unspezifischen Wortverbindungen aus dem Bereich der Kollokationen sprechen. Viele Eigenschaften teilen sie nämlich miteinander, insbesondere Festigkeit und Gebräuchlichkeit. Ausserdem ist die Abgrenzung zwischen beiden Kategorien schwierig, und die Grenzen sind fliessend (wobei dies eher wieder zu den praktischen Argumenten gehört). 2.1.2.5 Gradualität Kollokationen sind nicht einfach zu bestimmen, da sie zu den graduellen Phänomenen gehören. Bereits Hausmann (1985) merkt an: Kollokationen 25 Des weiteren muß eingeräumt werden, daß, wie immer bei sprachlichen Phänomenen, die Übergänge fließend sind. [...] Aber die Tatsache fließender Übergänge entbindet die Linguistik nicht von der Verpflichtung, dennoch nach Kräften die Zweierkombinationen in spezifische und unspezifische zu teilen. (Hausmann 1985: 118f.) Schon frühere Kollokationsdefimtionen aus dem Kontextualismus, wie etw a bei Firth (1957a), steckten keine klaren Grenzen ab. Ein Versuch, diesen unscharfen Grenzen beizukommen, ist das Ansetzen mehrerer Kollokationskategorien, namentlich solchen in einem Kernbereich (die „besten" oder prototypischsten Beispiele) und solchen eher gegen einen Randbereich des Phänomens hin. Herbst (1996: 385ff.) betont den Zusammenhang zwischen dem Feststellen des graduellen Charakters von Kollokationen und dem Ansetzen unterschiedlicher Typen von Kollokationen. Er nennt u. a. Sinclair (1966), der zwischen „significant" und „casual collocation" unterscheidet. Cowie (1978) setzt die Kategorien „open" und „restricted" an, und bei Carter (1987) findet sich sogar eine Vierfachunterteilung in „unrestricted", „semi-restricted", „familiar" und „restricted". Auch in neueren Arbeiten wird die Gradualität betont, so etwa bei Burger (2004: 21) mit „Festigkeit ist offensichtlich ein graduelles Konzept" oder bei Reder (2006): Ein weiteres linguistisches Problem stellt sich häufig, wenn man die einzelnen Kategorien, nämlich freie Wortverbindungen und Kollokationen sowie Idiome, von einander trennen will. Die Grenzen sind eher fließend, auch wenn natürlich neben Grenzfällen gegebenenfalls prototy pische Kategorienvertreter angegeben werden können [...]. (Reder 2006: 71) In der linguistischen Praxis zeigt sich der graduelle Charakter, wenn man konkret versucht, Kollokationen zu bestimmen bzw. in unterschiedliche Typen einzuteilen. Seretan (2011: 75ff.) beispielsweise beschreibt recht detailliert das von ihr gewählte Vorgehen zur Herstellung eines Gold-Standards für ihre nachfolgenden Extraktionsexperimente (fürs Französische). Dazu wurde ein Liste von Kollokationskandidaten von drei Personen mit Expertenwissen annotiert, und die Resultate wurden anschliessend untereinander abgeglichen. Annotiert wurde nach einem relativ groben Raster in „erroneous pair" (fehlerhafte Kombination, kein syntaktischer Bezug und dergleichen), „regular pair" (grammatisch wohlgeformt, aber lexikografisch uninteressant, da völlig regulär und in Paradigma einsetzbar) und „interesting pair" (grammatisch wohlgeformt, lexikografisch interessant, da Mehrworteinheit, sei es Kompositum, Kollokation, idiomatischer Ausdruck, Eigenname). Kollokationen kommen also mit allen anderen Arten von Mehrworteinheiten zusammen in eine Kategorie, was Seretan (2011) mit der schwierigen Abgrenzbarkeit begründet: As collocations are notoriously difficult to distinguish from other subtypes of multi-word expressions (McKeown and Radev, 2000) and there are no objective criteria that can be applied for this task [...], we first used this coarse-grained clas- 26 Kombinatorische Begriffsbildung sificaüon, which does not separate collocations from other multi-word expression (MWE) pairs. (Seretan 2011: 77) Doch selbst so, ohne Unterscheidung der Kollokationen von z. B. idiomatischen Ausdrücken, geschweige denn einer Unterteilung in mehrere Kollokationstypen, war die Übereinstimmung unter den annotierenden Personen nicht besonders hoch, nämlich zwischen „ moderate“ und „fair" nach Fleiss' k (Fleiss 1981)8; andererseits entspricht dies durchaus den Werten, die andere (etwa Pecina 2010) für ähnliche Aufgaben erreicht haben (Seretan 2011: 78). Die Uneinigkeit der Annotierenden über den Status als Mehrworteinheit ist deshalb eher als deutlicher Hinweis auf den graduellen Charakter von Mehrworteinheiten zu werten denn als Hinweis auf Schwachstellen im Aufgabendesign. Man kann sich leicht vorstellen, dass die Kategorisierung nicht einfacher wird, w enn zusätzlich Kollokationen von anderen Mehrworteinheiten abgegrenzt werden müssen, oder w enn sogar mehrere Typen von Kollokationen unterschieden werden sollen (cf. auch Abschnitt 4.1.3). 2.1.2.6 Weitere Eigenschaften Es kommen einige weitere Eigenschaften hinzu, die Kollokationen oft zugesprochen werden oder die im Zusammenhang mit ihnen öfter diskutiert werden. Die meisten sind in den obigen Passagen bereits vorgekommen, sollen hier aber nochmals explizit genannt werden. Wie bereits in Abschnitt 2.1.1 erwähnt ist Polylexikalität eine der wichtigen definierenden Eigenschaften von Kollokationen: Kollokationen bestehen aus mehreren separaten Wörtern. Weiter unten in Abschnitt 2.2.4 wird dargestellt, wie sie sich im Deutschen auf diese Weise von Komposita abgrenzen lassen bzw. welche Gemeinsamkeiten trotzdem bestehen. Einige sehen die Kollokation wie Hausmann (1985: 118) als reine „Zweierkombination von Wörtern". Viele gehen explizit von zwei oder mehr Wörtern aus, die für eine Kollokation vorhanden sein müssen - so etwa Sinclair (1991: 170) oder Manning & Schütze (1999: 151), die „two or more words" verlangen. Hollös (2010) spricht von „Mehr-Als-Zwei-Wort-Verbindungen" und gibt ihnen die eigene Kategorie der „Kombinationen", die sie von den binären Kollokationen abgrenzt. Andere wie Heid (1994), Reder (2006) oder Seretan (2011) gehen zwar ebenfalls grundsätzlich von binären Relationen aus, beschränken die Bestandteile aber nicht auf Einzelwörter, sondern lassen Rekursion zu. Reder (2006) formuliert dies in ihrer Kollokationsdefinition so: Zweigliedrigkeit wird auf der obersten Analyseebene angenommen. Die Bestandteile können zwei lexikalische Einheiten sein, autosemantische Wörter wie im Beispiel Urlaub machen. Diese Einheiten müssen aber nicht unbedingt Einwortlexeme sein, sondern sie können auch Mehrwortlexeme sein. So besteht z. B. die Kolloka- Zu einer kritischen Diskussion und Weiterentwicklung dieses Übereinstimmungsmasses bei Kollokationen cf. Krenn, Evert & Zinsmeister (2004). Kollokationen 27 tion für Ruhe und Ordnung sorgen auch aus zwei Einheiten, nämlich aus Ruhe und Ordnung sowie aus dem Verb sorgen. (Reder 2006: 78) Der spätere Hausmann lässt ebenfalls Verbindungen mit mehr als zwei Wörtern als Kollokationen zu, aber nach w ie vor binär als Kollokation von Kollokationen, obwohl er diese dann leicht missverständlich mit „Tripel" (Hausmann 2004: 316) benennt. Grammatizität ist eine der weiteren Eigenschaften, die Kollokationen nach den meisten neueren Definitionen zu erfüllen haben (cf. z. B. Bartsch 2004; Manning & Schütze 1999). Damit ist gemeint, dass Wortverbindungen nur dann als Kollokationen gelten können, wenn sie auch innerhalb einer syntaktisch zusammengehörigen Einheit stehen, also syntaktisch aufeinander bezogen sind. Es reicht also nicht, dass die Bestandteile einer Kollokation in unmittelbarer Nähe zueinander stehen oder geäussert werden, sie müssen auch syntaktisch direkt verbunden sein. Konkret bedeutet das, dass im Normalfall keine Verbindungen über Satz- oder Teilsatzgrenzen hinweg angeschaut werden. Typischerweise sind Kollokationen dann Verben und zugehörige Objekte oder Subjekte oder attributive Adjektive zu einem Substantiv etc. Insbesondere für Definitionen aus dem Kontextualismus galten oft keine syntaktischen Beschränkungen. So definiert Sinclair (1991: 170): „Collocation is the occurrence of two or more words within a short space of each other in a text." In der neueren Forschung wird solch nicht syntaktisch beschränktes Miteinandervorkommen gewöhnlich mit dem Terminus Kookkurrenz bezeichnet (cf. z. B. Evert 2005; Manning & Schütze 1999). Eine Eigenschaft, die nicht unbedingt selbständig auftritt, sondern eher als abgeleitet aus anderen Kerneigenschaften zu sehen ist, ist die Kontrastivität. Damit ist gemeint, dass Kollokationen sprachübergreifend betrachtet sehr unterschiedlich sein können. Dies folgt natürlich primär aus der Arbitrarität, daraus, dass Kollokationen zwar einfach verständlich, aber nicht einfach bildbar sind, und deshalb in einem Wörterbuch verzeichnet bzw. gelernt werden müssen. Deshalb sind Kollokationen für den Fremdspracherwerb ein grosses Thema, was u. a. die zahlreichen Arbeiten in diesem Bereich belegen (z. B. Bahns 1996; Cowie 1978; Lehr 1998; Moehring 2011; Reder 2011; Storjohann 2011; Tarp 2008). Schliesslich ist noch eine Charakteristik von Kollokationen zu nennen, die als Direktionalität oder Evozierbarkeit bezeichnet werden kann. Viele Kollokationen sind in dem, was man ihre „inneren Verbindungen" nennen könnte, nicht symmetrisch, sondern gerichtet. Wenn man von einer zweigliedrigen Kollokation ausgeht, zieht der eine Bestandteil den andern stärker an sich als umgekehrt. Ein Paradebeispiel dafür ist wieder Amok laufen: Amok kommt fast ausschliesslich zusammen mit laufen vor, evoziert es also, während umgekehrt laufen noch mit vielen anderen Wörtern vorkommt und Amok keinesw egs evoziert. Sinclair (1991: 115ff.) nimmt nach diesem Kriterium eine Einteilung in „upward", „downward" und „neutral collocates" vor, wobei upward und downward diejenigen mit einem frequenzmässigen Ungleichgewicht zwi- 28 Kombinatorische Begriffsbildung sehen node und collocate9 sind. Bei einem neutral collocate sind beide Kollokationspartner ungefähr gleich häufig (symmetrische Verbindung). Diese Art der Gerichtetheit stellt w ie das Basis-Kollokator-Prinzip ebenfalls eine kollokationsinterne Hierarchie her. Diese hat aber keinen direkten Zusammenhang mit dem Basis-Kollokator-Prinzip, d. h. sowohl Basen als auch Kollokatoren können evozieren oder evoziert werden. 2.1.3 Kollokationsdefinition in diesem Projekt Angesichts der Breite an verfügbaren Definitionen und Definitionsaspekten soll hier definiert werden, was im vorliegenden Projekt unter Kollokationen verstanden wird (cf. auch Häcki Buhofer 2010,2011a,b). Die Definition stützt sich wesentlich auf Hausmann (1985,2004), Burger (2010), Manning & Schütze (1999) und Evert (2005). Grundsätzlich zu verorten sind die Kollokationen mit Burger (2010: 52) bei den „festen Wortverbindungen, die nicht oder nur schwach idiomatisch sind". Nicht mit dazu gehören idiomatische und freie Wortverbindungen. Teilidiomatische Verbindungen, d. h. solche, bei denen nur ein Teil der Kollokation eine idiomatische Bedeutung aufweist, können in den meisten Fällen als schwach idiomatisch betrachtet werden. Kollokationen werden von Kookkurrenzen abgegrenzt. Vorsichtig, ohne detailliertere Aussagen über das Unterscheidende zu machen, formuliert dies Evert (2005): In contrast to the distributional character of cooccurrences and statistical association, collocations represent intrinsic properties of word combinations. (Evert 2005: 24) Für Kollokationen gelten dazu im vorliegenden Projekt syntaktische Beschränkungen, d. h. Kollokationen bilden syntaktische Einheiten; syntaktisch disjunkte Wortpaare können keine Kollokation bilden. Weiter sind Kollokationen, wie schon bei Hausmann (1985: 118) „typische, spezifische und charakteristische" Wortverbindungen. Kollokationen bilden also auch semantisch Einheiten bzw. die vielzitierten „Halbfertigprodukte der Sprache" (Hausmann 1985: 118). Der Kollokationsbegriff wird jedoch im Randbereich zu den freien Wortverbindungen hin erweitert, indem häufige und gebräuchliche Verbindungen, die dies aber auch aus aussersprachlichen Gründen sein können, ebenfalls dazugerechnet werden. Insbesondere Steyer (2000) vereint in ihrem Konzept der usuellen Wortverbindungen (cf. Steyer 2000: 108ff.) verschiedene Arten fester Wortverbindungen - Kollokationen müssen bei ihr „strukturelle Kom- 9 Die Begriffe node und collocate sind nicht zu verwechseln mit Basis und Kollokator. Es geht dabei lediglich um die Betrachtungsrichtung. Der node ist das Wort, das gerade untersucht wird, collocates seine Kollokationspartner (cf. Sinclair 1991: 115, sowie Abschnitt 2.1.1). Komposita 29 binationen" sein und das Kriterium der „statistischen Signifikanz"10 erfüllen (Steyer 2000: 110). Im vorliegenden Projekt werden diejenigen Verbindungen, die zum Kernbereich der Kollokationen gehören, als typisch bezeichnet, jene mehr im Randbereich anzusiedelnden als gebräuchlich. Dies schliesst an weiter oben besprochene Definitionen an, die verschiedene Kategorien von Kollokationen ansetzen. Auf die lexikografische Umsetzung der Unterscheidung zwischen typischen und gebräuchlichen Wortverbindungen wird in Abschnitt 4.1.3 näher eingegangen (cf. auch Häcki Buhofer 2011a). Die oben genannte Abgrenzung zu den Kookkurrenzen ist keine ausschliessende. Kollokationen basieren auf Kookkurrenzen bzw. auf häufigen Kookkurrenzen. Einerseits handelt es sich hierbei um eine methodische Feststellung: Kollokationen werden via häufige Kookkurrenzen in Korpora aufgespürt. Andererseits ist Häufigkeit selbst - sei sie relativ oder absolut eine sehr wesentliche Eigenschaft von Kollokationen, da sie der wichtigste Indikator für Gebräuchlichkeit ist. Exakte Zahlen, ab wievielen Belegen eine Wortverbindung eine Kollokation ist, können aber nicht gegeben werden. Auch die statistischen Assoziationsmasse eignen sich nicht als Schwellenwert, jedenfalls nicht von einer theoretisch-defimtorischen Warte aus (cf. 3.2.1). Kollokationen, wie sie in diesem Projekt verstanden werden, bestehen aus zwei oder mehr Wörtern. Im Allgemeinen kann wohl davon ausgegangen werden, dass Kollokationen binäre Strukturen darstellen. Die zwei Bestandteile einer Kollokation können ihrerseits wieder Kollokationen sein. Allerdings sind auch Kollokationen denkbar und möglich, die drei- oder mehrwertig sind, z. B. Reihungen w ie Sonne, Mond und Sterne oder stark phrasenhafte Prägungen, wobei sich bei satzartigen Kollokationen je nach zugrundegelegter Syntaxtheorie natürlich wieder eine binäre Struktur zeigen kann. Die grosse Mehrheit der Kollokationen besteht aber ganz einfach aus zwei autosemantischen Lexemen. Zu ihnen kommen je nach syntaktischer Struktur noch Ergänzungen und Funktionswörter hinzu. Funktionswörter sind aber nur in Ausnahmefällen selbst Basis oder Kollokator - etwa in von Hand. 2.2 Komposita Die zweiten Hauptvertreter kombinatorischer Begriffsbildung sind neben den Kollokationen die Komposita. Komposition hat verglichen mit den Kollokationen sehr viel mehr Aufmerksamkeit seitens der Linguistik und der Grammatikschreibung erfahren, und dies seit sehr viel längerer Zeit. Schon in der wohl ältesten überlieferten Grammatik, der Sanskrit-Grammatik von Pänini aus dem 4. oder 5. Jahrhundert v. Chr. werden Komposita umfassend beschrieben (cf. Böhtlingk 1887). Begriffe für unterschiedliche Typen 10 „Statistische Signifikanz" mag in diesem Zusammenhang ein etwas unglücklicher Terminus sein, cf. Abschnitt 3.2.1 zu den Assoziationsmassen und ihrer heuristischen Natur. 30 Kombinatorische Begriffsbildung von Komposita w ie Tatpurusa (Determinativkompositum), Bahuvnhi (exozentrisches Kompositum) oder Dvandva (Koordinativkompositum) wurden aus der altindischen Tradition in die Terminologie der modernen Linguistik übernommen und konnten sich dort recht lange halten, bzw. werden in der indogermanistischen Tradition auch heute noch verwendet. Synchron gesehen ist Komposition einer der wichtigsten Wortbildungsprozesse überhaupt. Greenberg (1963) verweist auf die allgemeine Bedeutung der Komposition für die Sprachen der Welt: There are probably no languages without either compounding, affixing or both. In other words, there are probably no purely isolating languages. There are a considerable number of languages without inflection, perhaps none without compounding and derivation. (Greenberg 1963: 73) Der Universalitätsanspruch (cf. auch Libben 2006: 2, der Komposition als „the universally fundamental word formation process" bezeichnet) bleibt w ie bei wohl allen postulierten Universalien nicht unwidersprochen. Bauer (2009: 344f.) bezeichnet Komposition zwar ebenfalls als weitverbreitetes Phänomen, gibt aber zu bedenken, dass sie in vielen Sprachen selten sei, oder dass es zum Teil unbekannt sei, ob eine Sprache Komposition kenne oder nicht. In vielen Fällen hängt es denn auch stark an grundlegenden Definitionsfragen, ob Komposition angenommen wird oder nicht. Unbestritten scheint aber, dass es sich um „a fundamental process of word formation" (Scalise & Vogel 2010b: 1) handelt. Dressier (2006: 23) spricht ebenfalls von der am weitesten verbreiteten morphologischen Technik und unterstützt dazu die von Greenberg (1963) postulierte implikationeile Universalie: Wenn eine Sprache Flexion hat, hat sie auch Derivation, und wenn sie Derivation hat, hat sie auch Komposition. Die deutsche Sprache nutzt die Komposition besonders ausgiebig. Der Titel eines kürzlich erschienenen Sammelbandes - „Das Deutsche als kompositionsfreudige Sprache" (Gaeta & Schiücker 2012) - steht symptomatisch dafür. Im Folgenden soll es zuerst um die allgemeine Bestimmung von Komposita und ihren Eigenschaften gehen (cf. 2.2.1, 2.2.2 und 2.2.3), danach spezifischer um Komposita im Deutschen (2.2.4). 2.2.1 D efinition von Komposita Aus dem deutschen Sprachraum kommend und in grammatischen Angelegenheiten schriftsprachlich geprägt, könnte man die Aufgabe, Komposita zu definieren, leicht unterschätzen: Komposita sind einfach aus anderen Wörtern zusammengesetzte Wörter, die selbst wieder Wörter sind - gut sichtbar daran, dass sie zusammengeschrieben werden. Zumindest der Nachsatz bezüglich der einfachen Erkennung w egen Zusammenschreibung ist natürlich problematisch, da er die Mündlichkeit ausser Acht lässt. Aber auch aus Sicht der Schriftlichkeit ist die orthografische Norm und Praxis hinsichtlich der Getrennt- oder Zusammenschreibung von Komposita 31 Komposita lediglich eine Wahl aus zw ei Möglichkeiten; die Zusammengehörigkeit oder aber die Mehrteiligkeit stärker zu betonen (cf. Fuhrhop 2008; Jacobs 2005). Sieht man Zusammen- und Getrenntschreibung zudem vorwiegend als Mittel, Wörter als Wörter zu kennzeichnen, besteht die Gefahr eines Zirkelschlusses (Wort = Zusammenschreibung = Wort; cf. Dürscheid 2006: 148). Der erste Teil der eben genannten Ad-hoc-Definition findet sich aber bei vielen Fachleuten, die sich mit Komposita beschäftigen, sehr ähnlich wieder. Bauer (2003: 40) bezeichnet die Komposition als „formation of a new lexeme by adjoining two or more lexemes." Sehr ähnlich die Kompositumsdefinition von Haspelmath (2002: 85): „A compound is a complex lexeme that can be thought of as consisting of two or more base lexemes", oder bei Katamba (1993: 54): „a compound word contains at least two bases which are both words, or at any rate, root morphemes." Donalies (2011: 37) ihrerseits formuliert es so: „Bei der Komposition werden Komposita überwiegend aus Wörtern und Konfixen zusammengesetzt." Die Hauptprobleme all dieser Definitionen liegen einerseits in der Bestimmung der in die Komposition eingehenden Bestandteile, andererseits darin, w ie die neue, zusammengesetzte Einheit als solche erkannt werden soll. Das Problem der Bestandteile wird in den obigen Definitionen dadurch angedeutet, dass sie oft unterschiedlich benannt werden („lexeme", „word", „root morpheme", „Wörter", „Konfixe"). Dies verwundert insofern nicht als das Wort eine notorisch schwer fassbare Einheit ist (mehr dazu in Abschnitt 2.3.4), weshalb komplexe Wörter kaum einfacher definierbar sind. Zur Frage, w ie sich Komposita definieren lassen und welche Eigenschaften sie aufweisen, bieten z. B. Lieber & Stekauer (2009a: 4ff.) eine ausführliche Diskussion, die sehr ähnlich auch von anderen geführt wird (cf. z. B. Bauer 1978; Dressier 2006; Scalise & Vogel 2010b). Bei der Kompositumsdefinition bedarf es einerseits der Abgrenzung gegenüber syntaktischen Phrasen und andererseits der Unterscheidung von der Derivation. 2.2.1.1 Phonologische Kriterien Eine Möglichkeit, Komposita von syntaktischen Verbindungen abzugrenzen, sind phonologische Kriterien (cf. Lieber & Stekauer 2009a: 8ff.). Vereinfacht gesagt sollten sich Komposita phonologisch wie andere Wörter auch verhalten (cf. Bauer 2009: 345). Was das bedeuten kann, ist je nach Sprache verschieden. Fürs Englische beispielsweise wird oft die Betonung ins Feld geführt. In einem Kompositum wäre demnach die erste Komponente betont, bei syntaktischen Phrasen der zweite Teil bzw. der Kopf der Phrase. Dies würde zeigen, dass das Kompositum als eine Einheit, ein Wort zu verstehen ist. Problematisch ist nun, dass die Betonung von Strukturen, die Komposita sein könnten, sehr uneinheitlich ist - teils wird die erste Komponente betont, teils die zweite. Die Betonung in Isolation muss nicht in jedem Fall mit derjenigen im Satz übereinstimmen (cf. Bauer 1983: 103). Auch Betonungsangaben in Wörterbüchern sind nach Bauer (1998: 70ff.) bei Komposita oder vermuteten 32 Kombinatorische Begriffsbildung Komposita uneinheitlich. Fürs Englische scheinen die Betonungsverhältnisse in einigen Fällen zwar Hinweise auf Komposition zu liefern, doch als alleiniges Kriterium reichen sie bei weitem nicht aus. Das Deutsche kennt ebenfalls besondere Betonungsverhältnisse bei Komposita (cf. Abschnitt 2.2.4), Sprachen wie das Dänische, Griechische, Polnische oder Hebräische ebenso; in anderen Sprachen zeigt sich Komposition phonologisch nicht in der Betonung, sondern etwa in besonderen Tonmustern (z. B. Bambara11), Vokalharmonie (z. B. Chukchi12), Verstimmhaftung (voicing, z. B. Japanisch), etc. (cf. Lieber & Stekauer 2009a: 11; Bauer 2009: 345f.). 2.2.1.2 Morphologische Kriterien Morphologische Kriterien zur Erkennung von Komposita sind vorwiegend Fugenelemente, interne Flexion und Flexion allgemein. Als morphologischer Prozess unterliegt Komposition morphologischen Regeln. Generell, d. h. übereinzelsprachlich, werden beim Kompositionsprozess die Komponenten direkt hintereinander geäussert, also einfach zusammengesetzt. Ob Kompositabestandteile dabei speziell morphologisch gekennzeichnet werden, ist einzelsprachlich verschieden. Dies hängt massgeblich davon ab, wie stark die Morphologie einer Sprache ausgebaut ist, w ie stark flektierend sie ist. Schliesslich können die verwendeten Mittel zur morphologischen Markierung von Komposita auch bei ähnlich stark flektierenden Sprachen unterschiedlich sein. Gewisse Muster lassen sich jedoch feststellen (cf. z. B. Lieber & Stekauer 2009a: 13f.). So trägt im Allgemeinen der Kopf des Kompositums die Flexionsmarkierung für das ganze Kompositum, während dem Bestimmungsglied (bzw. den Bestimmungsgliedern) diese Markierung fehlt (cf. gleich nachfolgend zur internen Flexion). Dies gilt z. B. für das Englische und das Deutsche: Setzt man town house oder Stadthaus in den Plural, erhält man town houses und Stadthäuser, und nicht *towns houses und *Städtehäuser. Daneben, dass der Kopf die Flexion für das ganze Kompositum trägt, ist oft auch das Bestimmungsglied besonders markiert bzw. eben gerade nicht markiert. In vielen Sprachen wird das Bestimmungsglied unflektiert mit dem Kopf zusammengesetzt. Teilweise tritt aber auch sogenannt interne Flexion auf, eine besondere morphologische Markierung des Bestimmungsgliedes in einem Kompositum. Diese kann mit einem normalen Flexionsmarker übereinstimmen, tendiert aber dazu, in Komposita nicht die Bedeutung zu haben, die sie an anderen Positionen hätte. Im Englischen ist etwa Pluralmarkierung im Inneren von Komposita relativ häufig: z. B. parks commissioner, programs coordinator (Lieber & Stekauer 2009a: 13). Dies heisst nun aber nicht, dass in jedem Fall Plural gemeint ist. Vor allem heisst es umgekehrt nicht, dass beim Fehlen der Pluralmarkierung Singular gemeint wäre (cf. dazu das Beispiel town houses oben zur Flexion). Die Aufgabe solch interner Flexionen scheint 11 Cf. http: / / wals.info/ languoid/ lect/ wals_code_bam (29.11.2013). 12 Cf. http: / / wals.info/ languoid/ lect/ wals_code_chk (29.11.2013). Komposita 33 nicht dieselbe zu sein wie an anderen Positionen, auch wenn sie in Teilen die ursprüngliche Bedeutung noch mittragen. Zu den kompositumsinternen Pluralmarkierungen meinen Lieber & Stekauer (2009a: 14) vorsichtig: „[...] occasionally they may plausibly be interpreted as adding a plural flavour to the first element of the compound." In vielen Sprachen geht diese Entwicklung weiter, und die morphologischen Markierungen an den Bestimmungsgliedern der Komposita tragen keine Bedeutung und entsprechen auch nicht anderen Flexionsmarkierungen. In diesen Fällen spricht man von Fugenelementen13. Sind Fugenelemente formal verschieden von Flexionsmarkierungen (wie im Neugriechischen mit -o-, das synchron keine weitere Bedeutung hat, cf. Ralli 2009: 454ff.), fällt ihre Bestimmung leicht. Oft sind Fugenelemente aber ambig und entsprechen in ihrer Form Flexionsmarkierungen. Da Fugenelemente diachron in vielen Fällen Flexionsmarkierungen entstammen - etwa Pluralmarkierungen oder Possessivaffixen - und die entsprechende Flexion an dieser Stelle des Bestimmungsgliedes deshalb vielfach nicht unplausibel ist, fällt die Abgrenzung nicht leicht. Mit der Pluralmarkierung von Bestimmungsgliedern in Komposita wurde diese Problematik oben bereits kurz angeschnitten. 2.2.1.3 Syntaktische Kriterien Wie bei den phonologischen und teils auch den morphologischen Kriterien liegt bei syntaktischen Kriterien zur Erkennung von Komposita der Fokus darauf, das Kompositum als eine Einheit zu betrachten. Lieber & Stekauer (2009a: llf.) führen als häufig genannte Kriterien Untrennbarkeit an, die Unmöglichkeit, das Bestimmungsglied zu modifizieren, sowie die Unmöglichkeit, den Kopf durch eine Pronominalform zu ersetzen. Nach dem Untrennbarkeitskriterium können bei Komposita keine Elemente zwischen die Konstituenten treten. Das lässt sich am Beispiel blackbird ,Amsel'14 (cf. Lieber & Stekauer 2009a: 11) illustrieren: Ein ugly blackbird ist eine hässliche Amsel, während mit black ugly bird keine Amsel mehr, sondern irgendein schwarzer, hässlicher Vogel gemeint ist. Der Einschub blockiert hier also die Möglichkeit der Interpretation als Kompositum und zwingt die Interpretation als Phrase auf. Das Kriterium eignet sich wohl gut als Negativkriterium zum Ausschliessen von Nichtkomposita, allerdings können auch Kollokationen und idiomatische Ausdrücke, die nicht Komposita sind, formal so feste Einheiten bilden, dass keine Einschübe erlaubt sind. Spricht man von französischen schnellen Brütern, dürften Kernkraftwerke des entsprechenden Typs gemeint sein, bei schnellen, französischen Brütern ginge es wohl eher um Vögel oder dergleichen. 13 Langer (1998) nennt sie für das Deutsche Kompositionssuffixe, da sie nicht eigentlich Elemente zwischen den Kompositakonstituenten sind, sondern an die vordere Konstituente angehängte. 14 Auf dem amerikanischen Kontinent handelt es sich um eine ähnlich aussehende Gattung schwarzer mittelgrosser Singvögel (agelaius). 34 Kombinatorische Begriffsbildung Das zweite Kriterium besagt, dass das Bestimmungsglied eines Kompositums nicht modifiziert werden kann. Um beim englischen Amselbeispiel zu bleiben (cf. Lieber & Stekauer 2009a: 11), bezeichnet a very black bird w ieder einen schwarzen Vogel, hier einfach einen sehr schwarzen, während *a very blackbird mit einer Intensivierung des black innerhalb des Kompositums nicht möglich bzw. nicht grammatisch sei. Insofern als Komposita auch komplex - also aus mehr als zw ei Lexemen - aufgebaut sein können (wobei hier einzelsprachliche Unterschiede feststellbar sind), ist auch eine Modifikation des Bestimmungsgheds möglich, wenn dieses selbst Teil eines Kompositums ist. Beispiele dafür sind instant noodle salad oder Serious Fraud Office (Bauer 1998: 73). Das dritte bei Lieber &Stekauer (2009a) angeführte Kriterium besagt, dass auf Bestimmungsgheder von Komposita nicht anaphorisch verwiesen werden kann. Komposita bilden, w ie andere Wörter auch, anaphorische Inseln (cf. Postal 1969; Sproat 1988). Sproat (1988: 291) bringt folgendes Beispiel: Eine anaphorische Wiederaufnahme ist bei einem Nichtkompositum möglich, etw a bei drivers oftrucksjfill themj up with diesel, w o die Lastwagen anstandslos betankt werden. Demgegenüber geht die Wiederaufnahme von truck nicht, w enn es sich um ein Kompositum handelt w ie bei *trucki drivers fill themj up with diesel. Auch hier gibt es aber Ausnahmen. So sind nach Lieber & Stekauer (2009a: 12) Sätze w ie He wanted a riding horse, as neither o f the carriage ones would suffice belegt, obwohl riding horse und carriage horse sonst klar zu den Komposita zählen würden. Ebenfalls ein Beispiel dafür ist das bei Ortner & Ortner (1984: 38) zitierte „Die Kinder sind auf Eiersuche. Wenn sie welche gefunden haben, kommen sie zurück". Weiter gibt es wie bei den phonologischen und morphologischen auch bei den syntaktischen Kriterien für Komposita zusätzlich viele einzelsprachlich unterschiedliche Regeln und Beschränkungen. 2.2.2 Klassifizierung und Eigenschaften von Komposita Komposita können in verschiedene Klassen eingeteilt werden bzw. sie besitzen bestimmte charakteristische Eigenschaften. Am bekanntesten ist sicher die allgemeine, vornehmlich semantische Klassifizierung der Komposita in Typen verschiedener Verbindungen der Lexeme (cf. Abschnitt 2.2.2.2). Weiter sind strukturelle Eigenschaften von Belang für Kategorisierungen: Welche Wortarten verbinden sich, und welchen Wortarten gehören die dabei entstehenden Komposita an? Steht der Kopf links oder rechts? Wie sieht die interne Struktur aus? 2.2.2.1 Strukturelle Eigenschaften Komposition ist nicht über alle Wortarten hinweg gleich häufig. Komposita gehören mehrheitlich den offenen Wortklassen Substantiv, Verb, Adjektiv und Adverb an und bestehen auch mehrheitlich aus Elementen der offenen Komposita 35 Wortklassen. Weitaus am häufigsten das Resultat von Komposition sind Substantive mit über 50% der Vorkommen, vor den Adjektiven mit 27%, Verben mit 11%, Adverbien mit 5% und Präpositionen mit weniger als 0.5% (Scalise & Vogel 2010b: 12). Die Wortarten der Kompositakonstituenten sind nach Scalise &Vogel (2010b: 12) sehr ähnlich verteilt: Substantive (42%) und Adjektive (22%) sind etwas seltener denn als Resultate von Komposition, Adverbien etwa gleich selten, Verben (14%) und Präpositionen (2.5%) aber bedeutend häufiger. Für das Deutsche besteht eine noch stärkere Betonung der Nominalkomposita. Nach der Untersuchung von Ortner et al. (1991: 3) sind gut 83% der Komposita Substantive, die Adjektive liegen bei knapp 9% und die Verben (bzw. Partizipialbildungen) bei rund 8%. Ortner et al. (1991) gehen bei der Zählung der Wortarten der Kompositakonstituenten anders vor als Scalise & Vogel (2010b), weshalb die Ergebnisse nicht direkt vergleichbar sind. Sie zählen nur die Wortarten der Bestimmungsglieder und kommen dabei auf ca. 80% Substantive, 7-12% Verben und etwa 5% Adjektive (Ortner et al. 1991: 6). Geht man eine Ebene tiefer und betrachtet die kombinatorischen Muster der Wortarten in Komposita, stellt man fest, dass sehr viele Kombinationsmöglichkeiten bestehen und genutzt werden - Scalise & Vogel (2010b: 11) geben nach Wortartenmustern 110 verschiedene Kompositastrukturen an - sie stellen aber auch fest, dass der überwiegende Teil der Komposita nach einigen wenigen Hauptstrukturen gebildet wird. Die zehn häufigsten Wortartenkombinationen machen dabei etwa zwei Drittel aller Komposita aus, wobei 20% alleine auf Substantiv-Substantiv-Komposita entfallen (Scalise & Vogel 2010b: 12). Scalise & Vogel (2010b: 10) bemängeln, dass traditionell vor allem zw ei Strukturen im Vordergrund gestanden hätten, nämlich Substantiv-Substantiv-Komposita und abgeleitete Substantiv-Verb- Komposita (Rektionskomposita), sodass bisher rund drei Viertel der Komposita verhältnismässig wenig untersucht geblieben seien. Da die Zahlen von Scalise & Vogel (2010b) und Ortner et al. (1991) recht unterschiedlich sind, soll ein Quervergleich mit eigenen Daten aus dem Schweizer Textkorpus (cf. 3.1.1) etwas Klarheit für den hiesigen Kontext schaffen oder zumindest dazu beitragen, die Interpretation der genannten Zahlen zu erleichtern. Die Komposita wurden dazu alle automatisiert nach der in Abschnitt 3.3 beschriebenen Methode erhoben. Scalise &Vogel (2010b) haben gegenüber Ortner et al. (1991) bei den Anteilen der Wortarten an allen Komposita deutlich andere Werte (50% vs. 80% Substantive). Der Unterschied könnte daher rühren, dass in der von Guevara & Scalise (2009) und Scalise & Vogel 2010b aufgebauten Datenbank mit sprachübergreifenden Daten nur lexikalisierte Komposita enthalten sind, während die deutschsprachigen Daten von Ortner et al. (1991) auch Ad-hoc-Bildungen enthalten können (cf. Ortner et al. 1991: 829ff.). Die Zählung aus dem Schweizer Textkorpus in Tabelle 1 auf der nächsten Seite bestätigt das Bild von Ortner et al. (1991). Die Substantive sind sogar noch etwas stärker vertreten, Verben etwas schwächer. Die Werte wurden einmal für alle Komposita mit mehr als 36 Kombinatorische Begriffsbildung Wortart f>10 f> l alle Substantiv 87.8% 89.9% 88.2% A djektiv/ Adverb 9.6% 8.7% 10.4% Verb 2.6% 1.4% 1.2% Rest 0.0% 0.1% 0.2% Tab. 1: WortartenVerteilung der Komposita im Schweizer Textkorpus (Types) alle Konstituenten ohne Kopfkonst. Wortart f>10 f>l alle f>10 f>l alle Substantiv 78.4% 79.9% 79.1% 74.9% 76.5% 74.9% A djektiv/ Adverb 9.0% 8.1% 8.7% 10.3% 9.2% 9.3% Verb 9.4% 9.2% 9.6% 8.5% 8.9% 9.2% Rest 3.3% 2.8% 3.7% 6.3% 5.4% 6.7% Tab. 2: WortartenVerteilung der Kompositakonstituenten im Schweizer Textkorpus (mit und ohne Köpfe) zehn Vorkommen berechnet, dann einmal für alle Wörter ohne Hapaxlegomena (Einzelbelege) und einmal für alle Wörter, inklusive Hapaxlegomena. Ausser bei den Verben ist kein grosser Unterschied zwischen den drei Messreihen festzustellen. Die Unterschiede in der Strukturierung der Daten bei Scalise & Vogel (2010b) und Ortner et al. (1991) scheinen also an einem anderen Ort zu liegen als bei der Berücksichtigung oder Vernachlässigung von Ad-hoc-Komposita.15 Für die Wortarten der Kompositakonstituenten weichen die Anteile im Schweizer Textkorpus (cf. Tabelle 2) wieder ähnlich stark von denjenigen von Scalise & Vogel (2010b) bzw. Guevara & Scalise (2009) w ie bei den Gesamtkomposita oben. Wieder ist der Anteil Substantive mit knapp 80% sehr viel höher (linker Teil der Tabelle). Hingegen entsprechen die Werte wieder recht gut den Vergleichsangaben aus Ortner et al. (1991) (rechter Teil der Tabelle, w o für das Schweizer Textkorpus wie bei Ortner et al. 1991 nur die Bestimmungsglieder berücksichtigt wurden). Wiederum sind die Unterschiede, ob mit oder ohne niederfrequente Komposita gezählt wurde, grösstenteils vernachlässigbar. Das Schweizer Textkorpus liefert zu den häufigsten Kombinationsmustern von Wortarten wieder ein leicht anderes Bild als Scalise & Vogel (2010b) bzw. Guevara & Scalise (2009), wie Tabelle 3 auf der nächsten Seite zu entnehmen ist. Die Verteilung der Muster ist allerdings nicht komplett anders: Den grössten Teil machen auch im Schweizer Textkorpus die Substantiv- Substantiv-Komposita aus, jedoch mit einem sehr viel grösseren Anteil. Weitere Kombinationen folgen mit viel kleineren Anteilen und relativ ge- 15 Zumal Guevara &Scalise (2009: 117) für dieselbe Datenbasis für die germanischen Sprachen sogar einen unterdurchschnittlichen Substantivanteil ausweisen dass für das Deutsche alleine dort die Anteile bei rund 80% wären, ist deshalb sehr unwahrscheinlich. Komposita 37 Wortartenkombination f>10 f> l alle [N + N] 62.2% 59.7% 54.0% [N + N + N] 2.2% 4.9% 6.9% [V + N] 6.8% 6.8% 6.4% [N + V] 4.6% 5.2% 5.4% [N + Adj] 5.0% 4.5% 4.8% [Adj + N] 6.4% 5.4% 4.6% [unbestim mt + N] 0.5% 1.5% 2.3% [Adj + Adj] 1.5% 1.2% 1.6% [Adj + N + N] 0.5% 1.0% 1.3% [Adj + V] 1.0% 1.0% 1.3% Tab. 3: Häufige Muster von Wortartenkombinationen der Komposita im Schweizer Textkorpus ringen Unterschieden untereinander. Tabelle 3 ist nach der letzten Spalte, in der das komplette Vokabular des Schweizer Textkorpus (also Wörter beliebiger Häufigkeit) berücksichtigt wurde, sortiert. Auffallend ist dabei, dass dreigliedrige Komposita einen grossen Anteil ausmachen, wenn man mit den Anteilen in den Kompositalisten ohne Hapaxlegomena oder seltene Wörter vergleicht (cf. dazu auch Tabelle 4 auf der nächsten Seite). Bei der Reihenfolge der Konstituenten geht es darum, ob der Kopf vor oder nach dem Bestimmungsglied steht. Man spricht auch von Linksbzw. Rechtsköpfigkeit.16 Allgemein scheint Rechtsköpfigkeit stärker verbreitet zu sein (cf. Bauer 2009: 349, Scalise & Fäbregas 2010: 117), wobei im Sample von Scalise & Fäbregas (2010) die europäischen Sprachen einen klaren Überhang haben. Naheliegend als Begründung wäre ein Zusammenhang mit der dominanten Verzweigungsrichtung bzw. der Stellung des Kopfes in syntaktischen Phrasen (cf. Dryer 1992). Ein solch direkter Zusammenhang kann jedoch nicht festgestellt werden (cf. Bauer 2009: 349, Scalise & Fäbregas 2010). Auch unabhängig von ihrer Syntax sind Sprachen bei der Komposition vielfach nicht durchgehend links- oder rechtsköpfig. Einige Sprachen sind hier einheitlicher, so das Deutsche, das ziemlich durchgehend rechtsköpfige Komposita aufweist, allgemeiner gehen aber Scalise & Fäbregas (2010: 118) eher von einer „canonical position for the head in each compound type in a given language" aus. Dies und die allgemeine Tendenz zur Rechtsköpfigkeit führen dazu, dass sich die Sprachen in solche aufteilen, die konsequent eine bestimmte Reihenfolge einhalten (meistens Kopf rechts) und jene, die gemischte Reihenfolgen haben. Rekursion: Komposita können selbst wieder aus Komposita bestehen und so sehr lange lexikalische Einheiten bilden, w ie die oft zu Demonstrationszwecken dieses Sachverhalts benutzte Donaudampfschiffahrtskapitänsgesellschaft (und Erweiterungen davon), das echt belegte Rindfleischetikettierungs- 16 Dies in Anlehnung an das Schriftbild bei Schriften, die von links nach rechts gelesen werden. 38 Kombinatorische Begriffsbildung f>10 f> l alle Gesamtanteil Komposita 34.8% 55.4% 64.2% davon mit: 2 Konstituenten 95.3% 89.7% 84.4% 3 Konstituenten 4.6% 9.8% 14.3% 4 Konstituenten 0.10% 0.48% 1.19% 5 Konstituenten - 0.012% 0.047% 6+ Konstituenten - 0.008% 0.038% Tab. 4: Komposita im Schweizer Textkorpus nach Anzahl Konstituenten (Types) Überwachungsaufgabenübertragungsgesetz des Bundeslandes Mecklenburg-Vorpommern oder das fürs Englische offenbar ebenfalls belegte Auckland Architecture School library notice board (Bauer 2009: 350) zeigen. Potenziell sind solche Wörter unbegrenzt lang, die Rekursionstiefe bei Komposita nicht beschränkt. In der Praxis sind Komposita aber in der überwiegenden Zahl der Fälle zweigliedrig. Nach Ortner et al. (1991) stehen zweigliedrige Komposita gegen 88.2% der Komposita. Von den 11.8% komplexeren Bildungen sind die meisten dreigliedrig. Viergliedrige sind fast nur noch Substantivkomposita und machen 1.5% der Komposita aus. Fünfgliedrig sind wenige Promille, sechsgliedrig schliesslich noch l % o und nur noch textgebundene Ad-hoc-Komposita. Mehr als sechsgliedrige Komposita sind im Deutschen die grosse Ausnahme. Diese Werte zu Länge und Komplexität von Komposita können wieder mit dem Schweizer Textkorpus verglichen werden. Betrachtet man in Tabelle 4 die letzte Spalte, in der das gesamte Vokabular des Schweizer Textkorpus ausgezählt wurde, stimmen die Ergebnisse gut überein. Ortner et al. (1991: 3) gehen für das Deutsche von einem Anteil von zwei Dritteln der Komposita am gesamten Wortschatz aus. Die Einzelwerte nach Konstituentenzahl sind sehr ähnlich. Nur die Werte mit reduziertem Vokabular, also ohne Hapaxlegomena (zweitletzte Spalte) bzw. ohne seltene Wörter (drittletzte Spalte) unterscheiden sich deutlich: Ein Hinweis darauf, dass Komposition sehr produktiv ist und dass sehr komplexe Bildungen kaum lexikalisiert werden. Einige Sprachen w ie das Slowakische erlauben gar keine Rekursion, andere wie Fon1718und Ngitils nur sehr eingeschränkt (Bauer 2009: 350). Es existiert schliesslich auch noch eine Klasse von Komposita mit mehr als zwei Konstituenten ohne Rekursion. Hier sind einerseits Komposita mit ganzen Phrasen als Bestimmungsglied zu nennen. Beispiele sind Augen-zu-und-durch-Politik oder Zehn-Ukr-Nachrichten (Donalies 2011: 56). Solche Phrasen haben in der Komposition keine interne Hierarchie, auch wenn sie natürlich als syntaktische Phrasen sehr wohl hierarchisch strukturiert sind. Andererseits existieren Koordinativkomposita (cf. Abschnitt 2.2.2.1) mit Verbindungen von mehr als zwei Lexemen ohne eine Hierarchie. Beispiele dafür sind die Adjektiv- 17 Cf. http: / / wals.info/ languoid/ lect/ wals_code_fon (29.11.2013). 18 Cf. http: / / wals.inf o/ languoid/ lect/ wals_code_nti (29.11.2013). Komposita 39 Verbindungen schwarz-rot-gold, russisch-deutsch-französisch oder mathematischnaturwissenschaftlich-technisch. 2.22.2 Kompositatypen Wie bereits auf Seite 29 erwähnt ist die Unterteilung von Komposita in unterschiedliche Typen sehr alt und lässt sich bis zurück zu den altindischen Grammatikern verfolgen. Traditionell stützen sich die Kompositatypen, wie sie heute unterschieden werden, noch stark auf ebendiese altindische Einteilung, wobei zum Teil auch die Termini übernommen wurden. Abbildung 1 zeigt diese Einteilung mit englischen Bezeichnungen (übernommen aus Guevara & Scalise 2009: 109). Bisetto & Scalise (2005) bemängeln zwar, dass bei diesen traditionellen Kompositatypen Untersuchungsebenen gemischt würden. Da sie aber vielfach in der entsprechenden Fachliteratur so Vorkommen (neuer z. B. in Donalies 2011), werden sie hier kurz vorgestellt. Compounds Subordinate Coordinate Appositive Exocentric Synthetic housewife poet painter woman doctor redskin truck driver Abb. 1: Traditionelle Kompositatypen aus Guevara & Scalise (2009: 109) Determinativkomposita (subordinate compounds): Auch die Begriffe Tatpurusa (Sanskrit ,dessen Diener'19) und endozentrisches Kompositum sind im Gebrauch. Bei Determinativkomposita ist das Bestimmungsglied syntaktisch und semantisch vom Kopf abhängig. Es bestimmt diesen als Attribut näher. Das ganze Kompositum ist ein Hyponym des Kopfs (Endozentrizität). Im Deutschen und in den germanischen Sprachen machen Determinativkomposita den Hauptteil der Komposita aus, während sie in anderen Sprachen etwa in vielen romanischen - kaum Vorkommen. Beispiele sind Königssohn ,Sohn eines Königs', Daunenjacke Jacke au s/ m it Daunen', Kommandobrücke ,Brücke für das Kommando' und Blumenkohl ,Kohl, der aussieht wie eine Blume / der an Blumen erinnert'. Possessivkomposita (exocentric compounds): Daneben ist exozentrisches Kompositum oder Bahuvrihi (Sanskrit ,viel Reis habend') gebräuchlich. Bei Possessivkomposita ist wie bei Determinativkomposita das Bestimmungsglied syntaktisch und semantisch vom Kompositumskopf abhängig. Der Unterschied besteht darin, dass sich der semantische Kopf ausserhalb des Kompositums befindet (Exozentrizität). Das ganze Kompositum ist deshalb nicht Hyponym des Kompositumskopfes, sondern steht in metonymischer 19 Die Sanskritbegriffe sind selbst immer gleich ein Beispiel für den entsprechenden Kompositumstyp (geht in der deutschen Übersetzung verloren). 40 Kombinatorische Begriffsbildung Relation zu ihm: Ein Rotkehlchen ist nicht ein ,rotes Kehlchen', sondern ein , Vogel mit rotem Kehlchen'. Ein weiteres Beispiel ist Trotzkopf ,Person mit trotzigem Kopf' oder ,Person, die trotzt', wobei Kopf als Teil fürs Ganze steht. Überhaupt sind solche Pars-pro-Toto-Bildungen, in denen ein Körperteil für eine ganze Person steht, die häufigsten Possessivkomposita (cf. auch Grossmaul, Dickwanst, Schlitzohr etc.). SUB endo windmill mushroom soup sans papiers sottoscala lavapiatti ATAP endo exo I I bookseller pickpocket endo I high school redskin blue-eyed COORD snailmail swordfish mushroom cloud endo I poeta-pintor mother-child Bosnia-Herzegovina Abb. 2: Kompositatypen aus Scalise & Bisetto (2009: 50) Kopulativkomposita (coordinate and appositive compounds): Sie werden auch Koordinativkomposita oder Dvandva (Sanskrit ,Paar') genannt20. Ihr Hauptmerkmal und der Hauptunterschied zu Derminativ- und Possessivkomposita ist, dass hier die Kompositakonstituenten syntaktisch gleichrangig sind. In der Paraphrase kann die syntaktische Relation oft mit ,und' wie- 20 Für weitere Termini cf. z. B. Donalies (2011: 67). Komposita 41 dergegeben werden. Beispiele im Deutschen sind adjektivische Komposita w ie schzvarz-weiss ,schwarz und weiss' oder nasskalt ,nass und kalt'. Kopulativkomposita müssen im Gegensatz zu den subordinierenden Komposita nicht zwingend binär strukturiert sein z. B. schwarz-weiss-blau,schwarz und w eiss und blau'. Die zwei Typen coordinate und appositive aus Abbildung 1 auf Seite 39 erscheinen hier beide unter der Rubrik Kopulativkomposita. Tatsächlich werden diese beiden Typen nicht immer unter den Kopulativkomposita eingereiht, sondern die appositiven Komposita teils auch unter den Determinativkomposita.21 Beispiele für appositive Komposita im Deutschen sind Dichterkomponist, Radiowecker oder Strumpfliose. Eine Strumpfliose ist zwar weder Strumpf noch Hose, sondern irgendwie dazwischen, doch hat das Kompositum einen syntaktischen Kopf, nämlich Hose, der z. B. das Genus bestimmt. Die koordinative Lesart (,Strumpf und Hose') wird denn auch nicht unbedingt der subordinierenden (z. B. ,Hose, die auch Strumpf ist') vorgezogen (cf. Donalies 2011: 67f.). Der zweite Typ von Kopulativkomposita22 sind solche, deren Gesamtbedeutung allgemeiner ist als die Bedeutung ihrer Teile (Wälchli 2005: 1). Im Deutschen sind solche Zusammensetzungen sehr selten und eigentlich nur als Ländernamen w ie Österreich-Ungarn oder Elsass-Lothringen belegt. Die in vielen Sprachen gebräuchlichen Komposita dieses Typs, z. B. georgisch dadzm a,Schwester-Bruder' oder dye-yame ,Tag-Nacht' (Wälchli 2005: llf.) , sind im Deutschen Zwillingsformeln der Art Bruder und Schwester und Tag und Nacht. Rektionskomposita und Zusammenbildungen (synthetic compounds): Bezeichnung und Abgrenzung sind nicht überall dieselben (cf. Donalies 2011; Gaeta 2010; Marchand 1960; Römer 2006). Für die einen handelt es sich bei dieser Klasse um subordinierende Komposita mit deverbalem Kopf und einem Bestimmungsglied aus dem vom Verb geerbten Argument. Beispiele sind Kindererziehung, Italienischlehrer und Konfliktbewältigung. Ähnlich steht es um Zusammenbildungen (auch Phrasenkomposita genannt): Sie sind im Grenzbereich zwischen Komposition und Derivation angesiedelt, da sie als Derivationen von Phrasen interpretiert werden können. Gesetzgebung wird weniger als Gesetz + Gebung interpretiert, denn als -ung- Ableitung von ein Gesetz geben; desgleichen Appetithemmer als -er-Ableitung von den Appetit hemmen (statt Appetit + Hemmer). Allerdings haben Zusammenbildungen nicht immer einen Kopf mit verbalem Ursprung. Beispiele dafür sind Dickhäuter als Ableitung zu dicke Haut oder schwarzhaarig als Ableitung zu schwarze Haare. 21 Nach Donalies (2011: 67f.) ist dies „der erste Typ Kopulativkomposita" mit dem Versuch, sich durch Enthaltung der „verwirrenden Vielzahl der Termini" (Donalies 2011: 67) zu entziehen. 22 Bzw. der „zweite" und der „dritte Typ" bei Donalies (2011: 68f.). 42 Kombinatorische Begriffsbildung Diese Ausführungen haben gezeigt, dass die Abgrenzung der Kompositatypen untereinander nicht immer leicht ist. Bisetto & Scalise (2005) führen das u. a. darauf zurück, dass bei der etablierten Klassifizierung unterschiedliche Analyse-Ebenen vermischt werden. Sie schlagen darum eine Reklassifizierung nach zwei Dimensionen vor: Die eine Dimension ist die Art der grammatischen Beziehung zwischen den Konstituenten: subordinierend (Kopf-Komplement-Beziehung), attributiv (attributive Beziehung des Bestimmungsglieds zum Kopf) oder koordinativ (zwei semantische Köpfe, wnd-Relation). Die zweite Dimension ist die Unterscheidung endozentrisch exozentrisch, die nicht nur zwischen Determinativ- und Possessivkomposita unterscheidet. Eine Weiterentwicklung dieser Klassifizierung von Scalise & Bisetto (2009) mit einer zusätzlichen Ebene zeigt Abbildung 2 auf Seite 40. Die Lage wirklich eindeutiger macht dieser Ansatz jedoch nicht, Zweifels- und Grenzfälle bleiben trotzdem bestehen. 2.2.3 Kompositabedeutungen Ein wichtiger Punkt bei der Betrachtung von Komposita ist die Bedeutungserschliessung, die mit obigen Kompositaklassifizierungen natürlich bereits gestreift wurde. In einem Kompositum werden Lexeme miteinander verbunden, ohne - wie in der Syntax - die Art der Verbindung explizit zu kennzeichnen.23 Komposita können aber paraphrasiert und damit die Art der Verbindung, auch Relationsbedeutung genannt (Ortner et al. 1991: 119), sichtbar gemacht werden. Wie wir diese impliziten grammatischen Verbindungen zwischen Kompositakonstituenten erschliessen, ist umstritten. Die einfacheren Fälle sind schnell abgehakt Einerseits sind hier stark lexikalisierte und idiomatisierte Komposita zu nennen, deren Gesamtbedeutung stark von der Bedeutung der Einzelteile abweicht und die deshalb einzeln im Lexikon gespeichert werden müssen. Auf der anderen Seite stehen die Rektionskomposita, bei denen der Kopf die Argumentstelle vom Verb erbt, wodurch die grammatische und damit auch die semantische Beziehung zwischen Kopf und Bestimmungsglied bestimmt ist. Oft sind aber Relationsbedeutungen von Komposita nicht ganz einfach und klar zu erschliessen, wie Heringer (1984) und Donalies (2011: 116f.) am Beispiel Fischfrau erläutern. Fischfrau kann je nachdem bedeuten: ,Frau, die Fisch verkauft', ,Frau mit Sternzeichen Fisch', ,Frau eines Fisches', ,Frau, die Fisch produziert', ,Frau, die Fisch isst', ,Frau, die kühl w ie ein Fisch ist', ,Frau, die den Fisch gebracht hat' oder ,Frau, die beim Fisch steht'. Bei lexikalisierten Komposita verfestigt sich natürlich auch die Bedeutung bzw. die Interpretation der Beziehung zwischen den Konstituenten mit. Dies schliesst jedoch andere Bedeutungen keineswegs aus, w ie das in Duden online verzeichnete Lemma Fischfrau mit dort zwei Bedeutungen - ,Frau, die Fische verkauft' und 23 Ganz stimmt das natürlich nicht für das Deutsche etwa wissen wir, dass zuhinterst immer der Kopf folgt. Komposita 43 ,im Tierkreiszeichen der Fische geborene Frau' zeigt24. Freiere Interpretationen werden also von lexikalisierten Bedeutungen nicht unbedingt komplett verdrängt. Die Frage, wie Ad-hoc-Komposita interpretiert werden, ist ebenfalls wichtig, da jede Entstehung einer lexikalisierten Bedeutung von mindestens einer solchen Spontaninterpretation ausgehen bzw. ausgegangen sein muss. Ortner et al. (1991: 119) geben für die Substantivkomposition im Deutschen als die fünf häufigsten Typen von Relationsbedeutungen, die für sich je mehr als 5% und zusammen rund die Hälfte der Substantivkomposita ausmachen, folgende an: - „ aktion al/ fin al" (17.1%): ,[B] tut [A]'25 o d e r,in [B] w ird [A] g e ta n / p ro d u z ie r t/ ...' (Bohrmaschine, Brotfabrik) - „referenziell" (12.7%): ,[B] betrifft [A]' (Tierbuch, Friedenssehnsucht, Familienangelegenheit) - „ p artitiv/ so ziativ" (10.9%): ,[B] gehört zu [A]' (Haarfarbe, Kinderhand, Vereinsmitglied - „lokal" (5.8%): ,[B] ist/ geschieht in [A]' (Bergdorf Strassenschlacht, Westseite) - „äquativ" (5.1%): ,[B] ist [A]' oder ,[A] ist [B]' (Amateurbiologe, Unsicherheitsfaktor, Eukalyptusbaum) Die Relationsbedeutungen werden nicht durchwegs gleich klassifiziert, aber doch oft ähnlich bezeichnet. So heissen die Relationen bei Gagne & Spalding (2010) etwa „LOCATION", „ABOUT" oder „MADE OF", Haspelmath (2002: 87) unterscheidet u. a. „purpose" (writing desk), „appearance" (sword fish), „location" (sea bird) und „event participant" (flower-seller). Haspelmath (2002: 87) merkt dazu aber weiter an: „English morphology does not seem to say more than that the dependent must be in some kind of pragmatically sensible relation to the head." Ebenso betont Donalies (2011: 118ff.) für die Bedeutungsbestimmung die Vagheit der Bedeutung sow ie die Wichtigkeit von Kontext, episodischem Wissen und Weltwissen. Sie stellt dem Abschnitt ein Zitat von Eisenberg (2004: 229) voran, dass bewiesen sei, „dass die Bedeutung eines Kompositums sich rein sprachlich weder ermitteln noch auf wenige Typen beschränken lässt". Das heisst aber auch, dass bei der Bedeutungserschliessung sehr wohl ein sprachlicher Anteil beteiligt ist. Wie gross dieser ist und wie er genau aussieht, ist Gegenstand zahlreicher Arbeiten, die vor allem aus dem Bereich der psycholinguistischen Forschung zur Verarbeitung von Komposita kommen. Grundsätzlich sind verschiedene Modelle vorgeschlagen worden, wie Komposita rezeptiv verarbeitet werden, ob eher als ganze Wörter oder als Zusammensetzung ihrer Teile. Verschiedene Experimente zu Reaktionsgeschwindigkeiten in der Erkennung von Komposita haben gezeigt, dass kei- 24 http: / / www.duden.de/ zitieren/ 10131199/ 1.8 (29.11.2013). 25 [B] ist der Kopf, [A] das Bestimmungsglied des Kompositums. 44 Kombinatorische Begriffsbildung nes dieser Modelle alleine widerspruchslos funktioniert (cf. Olsen 2012: 140). Dies hat zu gemischten Modellen geführt, die beides gleichzeitig propagieren: die Erkennung eines Kompositums als ganzes Wort und die Erkennung der einzelnen Konstituenten. Libben (2006, 2010) z. B. spricht in seinem Modell von der Maximization o f Opportunity. Was immer an Information zu einem Wort verfügbar ist, wird herangezogen, um daraus seine Bedeutung zu erschliessen. Zu dieser Information gehört bei einem Kompositum sowohl das ganze Wort als gleichzeitig auch seine Konstituenten. Bei transparenteren Komposita werden die Bedeutungen der Konstituenten stärker berücksichtigt, bei opakeren Bildungen mehr die Gesamtbedeutungen, wobei die Konstituentenbedeutungen stark in den Hintergrund gedrängt werden. In einer Erweiterung dieses Konzepts führt Libben (2010) den Begriff der morphologischen Transzendenz ein. Damit ist gemeint, dass sich die Bedeutung eines Wortes als Kompositumskonstituente von seiner Bedeutung als freier Form wegbewegen kann. Libben (2010: 325ff.) nimmt als Beispiel key als Bestimmungsglied, das zu einer Reihe von Komposita w ie keystone, keyboard, keynote führt, die zusammen eine Art Familie bilden: „All of these compounds seem to be more involved with the compound constituent keythan with the free morpheme key“ (Libben 2010: 326). Zusätzlich zu den Fragen nach Teil- und Gesamtbedeutungen stellt sich w ie erwähnt die Frage danach, w ie die Relation zu interpretieren ist. Gagne & Spalding (2006, 2010) gehen in ihrem Modell davon aus, dass ganz ähnlich wie bei den Konstituenten und der Gesamtbedeutung, die gleichzeitig aktiviert werden (und zusätzlich zu ihnen), auch verschiedene Verbindungsinterpretationen zwischen den Konstituenten gleichzeitig aktiviert werden. Die plausibelsten oder die plausibelste daraus wird dann aufgrund von Zusatzbedingungen w ie Weltwissen, Häufigkeiten (von Konstituenten und deren Verbindungen z. B.), Kontext etc. ausgewählt. In eine ähnliche Richtung argumentiert Booij (2010), wenn er sich fragt, ob bei der Komposita-Interpretation eher Schemata oder Analogie zum Zug kommen. Er kommt zum Schluss, dass die Grenze zwischen beiden nicht einfach zu ziehen is t Es kann sich dabei um Schemata auf unterschiedlichen Abstraktionsstufen handeln oder eben auch um Analogie auf verschiedenen Ebenen. Dabei kann oft ein- und dasselbe Phänomen gleichzeitig als Analogie oder als Regelbildung angeschaut werden. Booij (2010: 94) bringt dazu das Beispiel aus dem Englischen von Wörtern auf -gate, die analog zu Watergate gebildet werden und immer für irgendeinen politischen Skandal stehen. Zu Beginn werde dies zu Recht nur als einfache Analogie gesehen, dann aber, mit grösserer Verbreitung lasse es sich auch als Regel formulieren, nämlich dass -gate in Komposition die Bedeutung »politischer Skandal' trägt. Zusammenfassende Beiträge zum Thema der Komposita-Verarbeitung und -Interpretation bieten z. B. Jarema (2006), Stekauer (2009) oder Olsen ( 2012 ). Komposita 45 2.2.4 Komposita im Deutschen Komposition ist im Deutschen besonders produktiv und Komposita, vor allem Nominalkomposita, sind besonders häufig. Sie sind, verglichen mit anderen Sprachen, leichter und klarer bestimmbar (cf. z. B. Donalies 2011; Gaeta & Schiücker 2012; N eef 2009; Ortner & Ortner 1984; Ortner et al. 1991; Pümpel- Mader et al. 1992). Eine Abgrenzung gegenüber syntaktischen Phrasen ist durch die morphologische und phonologische Form relativ einfach: Normalerweise (bei zweigliedrigen Komposita) trägt das Erstglied den Hauptakzent (Donalies 2005: 56). Morphologisch zeigt die Komposition im Deutschen unverwechselbare Charakteristika: die Zusammensetzung von Kompositionsstämmen, allenfalls durch Fugenelemente erweitert, mit der Flexionsmarkierung am Kopf des Kompositums ganz rechts. Syntaktisch und morphosyntaktisch gesehen sind vor allem Nominalkomposita eindeutig bestimmbar. Dadurch, dass der nachgestellte Kopf eines Kompositums das Genus bestimmt, im Allgemeinen ein Artikel o. Ä. voransteht, attributive Adjektive eine Flexionsendung tragen und vorangestellte Genitive selten sind, beschränken sich die ambigen Fälle auf konstruierte Beispiele w ie der Häuser Kampf vs. der Häuserkampf oder der Geschichten Erzähler vs. der Geschichtenerzähler26 oder einige wenige Komposita, die zuweilen interne Flexion aufweisen wie der Hohepriester oder der Hohe Priester. Eine Abgrenzung zur Derivation ist weniger klar möglich. An Grenzfällen beteiligt sind hier vor allem Konfixe (cf. z. B. Donalies 2011: 12ff.): Elemente, die zwar meist nicht frei Vorkommen, in ihrer Bedeutung aber nicht so abstrakt sind w ie Derivationsaffixe in der Art von -schuft, -lieh oder -heit. Beispiele sind bio- (Biogemüse), -phil (bibliophil), -mafia (Medienmafia) etc. Möglich und gebräuchlich sind hier auch Bildungen, die nur aus Konfixen bestehen, w ie das eben genannte bibliophil. Donalies (2011: 55) nennt als weitere Beispiele Anthroposoph, Astronaut, Biograf, Chronometer und Genozid. Ebenfalls nicht mehr eindeutig zur Komposition gehörig, aber w egen der Kombination freier Lexeme oft noch dazugezählt, sind Derivationen von Phrasen oder Z u sammenrückungen. Der einfachste Fall sind die bereits besprochenen synthetischen Komposita des Typs Fiebermesser (-er-Ableitung zu Fieber messen). Komplexere Bildungen sind oft Konversionen von Phrasen, also die Umwandlung einer Phrase in z. B. ein Substantiv, w ie etwa Vergissmeinnicht, Tischleindeckdich oder Dreikäsehoch (Beispiele aus Donalies 2011: 97, cf. auch Fleischer & Barz 1995: 48ff.). 26 Bezieht man jedoch wahlweise Phonologie oder Orthografie mit ein, sind die Beispiele nicht mehr ambig: Für das Schriftliche zeigt die Zusammen- oder Getrenntschreibung den Komposita-Status an, für das Mündliche sind es die Betonungsverhältnisse, die angeben, ob es sich um ein Kompositum oder um ein vorangestelltes Genitivattribut handelt. Zu diesem Einwand gleich ein Zusatzeinwand: Wegen der Seltenheit vorangestellter Genitivattribute würde wohl in jedem Fall, ungeachtet der Rechtschreib- und Akzentverhältnisse, die Deutung als Kompositum bevorzugt. 46 Kombinatorische Begriffsbildung Ein weiteres wichtiges Merkmal deutscher Komposita ist im Bereich der Schriftlichkeit die orthografische Norm der Kompositazusammenschreibung.27 Besonders wichtig ist dieses Merkmal im Rahmen des vorliegenden Projekts, da die Korpora ausschliesslich schriftliche Quellen enthalten. Die Zusammenschreibung hat dabei entscheidende Konsequenzen für die Verarbeitung der Daten (cf. Abschnitt 3.3) w ie auch für die lexikografische Behandlung der Komposita (cf. Abschnitt 4.2). 2.3 Direktvergleich Kollokationen - Komposita Wie schon hervorgehoben wurde, haben sowohl Kollokationen als auch Komposita sehr ähnliche Funktionen in der Begriffsbildung. Teilweise sind sie austauschbar, Kollokationen können an Stelle von einzelnen Wörtern, seien es nun Komposita oder Simplizia, stehen, wie etwa Burger (2010) anmerkt: Die Kollokationen haben funktionell den gleichen Status wie bestimmte Einzellexeme. So steigert sich bei der Beaufort-Skala der stürmische Wind zum Sturm. (Burger 2010: 55) Mit Windstille ist in der Beaufortskala auch ein Kompositum vertreten. Die funktionale Überschneidung der Wirkungsbereiche von Kollokationen und Komposita in der kombinatorischen Begriffsbildung rechtfertigt ihre Integration in ein und demselben Wörterbuch. Mehr dazu findet sich in Abschnitt 4.2 ab Seite 137. In den vorangehenden Abschnitten 2.1 und 2.2 sind Charakteristika von Kollokationen und Komposita je aus ihrer Perspektive und der jeweiligen Forschungstradition heraus vorgestellt worden. Abschliessend zu diesem Kapitel sollen nun in einem Direktvergleich einige wichtige Unterschiede herausgearbeitet werden - vor allem auch jene, die für die weiteren lexikografischen und analytischen Arbeiten des vorliegenden Projekts relevant sind. Zum Schluss dieses Kapitels (Abschnitt 2.3.5) folgt schliesslich eine Zusammenfassung der bisherigen Forschung zu Direktvergleichen zwischen Komposita und Kollokationen. 2.3.1 Morphologie und Syntax Es handelt sich hier um den offensichtlichsten Unterschied: Kollokationen werden nach syntaktischen Regeln gebildet, Komposita nach morphologischen. Kollokationen bestehen aus mehreren separaten Wörtern, Komposita bilden ein einziges Wort. Dies alles führt zu sehr unterschiedlicher Behandlung der beiden Phänomene, zu sehr unterschiedlichen Beschreibungen, wie auch in den Abschnitten 2.1 und 2.2 unschwer zu erkennen ist. 27 Eine Norm, die trotz einiger Konkurrenz in gewissen Bereichen wie Marketing etc., weitestgehendbefolgt wird, und sich entgegen Befürchtungen sprachpflegerischer Kreise nicht auf dem Rückzug befindet (cf. Roth 2005). Direktvergleich Kollokationen - Komposita 47 Die Zugehörigkeit zu Syntax und Morphologie und vor allem die im Deutschen damit assoziierten orthografischen Konvenüonen (Getrenntvs. Zusammenschreibung) wirken sich lexikografisch-praktisch sehr direkt aus. Kollokationen und Komposita müssen im Bereich der maschinellen Erkennung und Zuordnung ganz unterschiedlich behandelt werden (cf. Kapitel 3, insbesondere 3.2 und 3.3). Kognitiv sind beide Phänomene trotz funktionalen Gemeinsamkeiten und Überschneidungen und trotz Abgrenzungsproblemen zu anderen Begriffsbildungsmöglichkeiten (cf. Abschnitt 2.2.1) unterschiedlich zu werten. Böer, Kotowski & Härtl (2012) zeigen in einer Untersuchung mit Memorisierungsaufgaben Unterschiede in der Verarbeitung von Komposita und Kollokationen. Aphasiestudien weisen ebenfalls in Richtung mindestens teilweise getrennter kognitiver Verarbeitung (cf. Mondini et al. 2002; Semenza & Mondini 2006). Schliesslich hat die unterschiedliche Bildungsweise Konsequenzen für die Einbettung in einen Text. Prominent ist etwa das Prinzip der lexikalischen Integrität, das besagt, dass die Syntax keinen Zugriff auf die interne Struktur von Wörtern und damit von Komposita hat (cf. Anderson 1992: 84 mit seiner „Lexicalist Hypothesis").28 Ein Adjektivattribut zu einem Bestimmungsglied eines Kompositums z. B. ist nicht möglich, das hohe Turmfenster etwa ist immer ein hohes Fenster und nie das Fenster eines hohen Turms (cf. auch 2.2.1.3). 2.3.2 Benennungs- und Beschreibungsfunktion Komposita haben eher Benennungs-, syntaktische Phrasen eher Beschreibungsfunktion (cf. Böer, Kotowski & Härtl 2012; Bücking 2009; Eichinger 2000; Olsen 2000; Schiücker & Hüning 2009b). Beispiele dazu gibt es viele. Blattgrün etwa bezeichnet einen bestimmten Stoff, Chlorophyll, während das Grün des Blattes die Farbe des Blattes meint. Auf der anderen Seite ist gerade bei den konventionalisierten Bildungen die Benennungsfunktion auch bei syntaktischen Phrasen vorhanden, etwa bei Grüntee und grüner Tee, die beide für die entsprechend verarbeitete Teesorte stehen. Bei Komposita ist es allerdings so, dass die Benennungsfunktion viel deutlicher schon bei Ad-hoc- Bildungen zum Zug kommt. Ihnen wird somit oft schneller eine Benennungsbzw. eine klassifizierende Lesart zugeordnet als syntaktischen Phrasen. Hiermit hängt es w ohl zusammen, dass Komposita oft sehr spezifische Bedeutungen haben, bei denen der Gebrauch ihrer Konstituenten zwar transparent, die Gesamtbedeutung aber trotzdem spezifisch ist - ein Gewächshaus ist zwar ein Haus für Gewächse, es handelt sich aber um die Bezeichnung für eine spezielle Kategorie von Gebäuden mit etlichen Zusatzeigenschaften wie etwa Glaswänden und -dach, einem besonderen Aussehen etc. 28 Booij (2009) tritt auf der Grundlage von Erkenntnissen aus der Typologie für eine schwächere, weniger absolute Formulierung des lexikalischen Prinzips ein. 48 Kombinatorische Begriffsbildung Für die Analyse von Konkurrenzbildungen (gleiche Konstituenten, unterschiedliche Bildungsweisen, einmal Kompositum, einmal Kollokation) in Kapitel 5 ist diese Tendenz der Komposita in Richtung Benennung und der Kollokationen in Richtung Beschreibung ein potenziell wichtiger Aspekt. 2.3.3 Lexikalisierung und Phraseologisierung Lexikalisierung (und in Analogie dazu Phraseologisierung) wird in der vorliegenden Arbeit grundsätzlich als Aufnahme in den Wortschatz verstanden (cf. Blank 2008; Brinton & Traugott 2005: 18ff.). Ausgeschlossen werden in diesem Zusammenhang Lesarten wie die synchrone Interpretation von Lexikalisierung als „Kodierung konzeptueller Kategorien" („coding of conceptual categories", cf. Brinton & Traugott 2005: 18). Es geht ebenfalls nicht um diejenige Lesart, die Lexikalisierung nur als Idiomatisierung sieht, w o es also um Demotivation und Änderung der Bedeutung hin zu weniger Transparenz und grösserer formaler Gebundenheit geht (cf. Blank 2008: 1603). Ebenfalls nicht gemeint ist Lexikalisierung als Gegenbewegung zur Grammatikalisierung (als Degrammatikalisierung) und damit als Prozess, der die Unidirektionalitätshypothese der Grammatikalisierung in Frage stellt (cf. Blank 2008: 1597f.; Brinton & Traugott 2005: 22ff.). Blank (2008: 1599) spricht sich dafür aus, die Unterscheidung zwischen Lexikalisierung und Institutionalisierung (also dem Konventionalisierungsteil der Lexikalisierung, ohne besondere Bedeutungsveränderung oder Gebrauchseinschränkung etc.) aufzugeben. Er stellt folgende Definition der Lexikalisierung komplexer Wörter auf: DEFi: Lexicalizationi is a process by which word-formations and other syntagmatic constructions become syntactically and semantically fixed entries of the mental lexicon. These entries are called ,complex words' [...]. (Blank 2008: 1599) Dieses Verständnis von Lexikalisierung schliesst Phraseologisierung bereits weitgehend ein. Viel hängt natürlich davon ab, w ie streng man die Kriterien der syntaktischen Fixiertheit handhabt, da Kollokationen oft Variation zulassen. Immerhin sind neben den Wortbildungsprodukten andere syntagmatische Bildungen explizit genannt. Es kann also angenommen werden, dass der Einbezug der Phraseologisierung durchaus gewollt ist. Die Integration von Lexikalisierung und Phraseologisierung entspricht dem in dieser Arbeit verfolgten Ansatz. Ebenfalls vereinbar mit der Untersuchung von Kollokationen bzw. Komposita im Rahmen der kombinatorischen Begriffsbildung ist die Haltung, bereits die Institutionalisierung, den ersten Eingang ins Lexikon mit zur Lexikalisierung zu zählen (und nicht erst die meist nachgelagerten Prozesse mit stärkeren semantischen Verschiebungen und Verlusten von phonologischem Material). Von einer praktisch-lexikografischen Seite her gesehen, kann die Lexikalisierung von Komposita jedoch nicht komplett mit der Phraseologisierung von Kollokationen gleichgesetzt werden. Ein Grund dafür mag einerseits in der bevorzugten Benennungsfunktion von Komposita liegen: Komposita be- Direktvergleich Kollokationen - Komposita 49 nennen einen Begriff und sind ein Wort, weshalb sie viel schneller als fest wahrgenommen werden als syntaktische Bildungen. Ansonsten sind die Gemeinsamkeiten schon erwähnt worden, ebenso der graduelle Charakter, der beiden Prozessen gemeinsam ist. Eine genauere Spezifizierung der Eigenschaften von Kollokationen bzw. des Grads an Kollokabilität für lexikografische Zwecke ist in Abschnitt 4.1.3 beschrieben. Die Frage nach typischeren und weniger typischen Kollokationen ist sehr eng mit derjenigen nach der Lexikalisierung bzw. Phraseologisierung verbunden. Die Unterscheidung in typische und gebräuchliche Kollokationen, die in Abschnitt 4.1.3 gemacht wird (cf. auch 2.1.2.5), konnte allerdings nicht auf dieselbe Weise für Komposita nachvollzogen werden. Selbstverständlich hat auch die Lexikalisierung bei Komposita graduellen Charakter, und eine Unterscheidung in stärker und weniger stark lexikalisierte Bildungen wäre deshalb auch lexikografisch möglich. Eine etwa ähnlich gelagerte Grenze w ie bei den Kollokationen drängte sich jedoch nicht auf, sodass auf eine weitere interne Klassifizierung bei den Komposita verzichtet wurde. Eine gewissermassen natürliche Kategoriengrenze bei den Komposita wäre eher diejenige hin zu idiomatisierten Bildungen. Je nach Lexikalisierungsdefinition werden ja auch überhaupt erst diese als lexikalisiert bezeichnet. Im Kollokationenwörterbuch sind stark idiomatische Bildungen aber vom verwendeten Kollokationsbegriff her, der Idiomaüsmen ausschliesst, ausgenommen oder stehen zumindest am Rande. 2.3.4 Wortbegriff Bei den erwähnten Unterschieden, die unter Morphologie und Syntax (cf. 2.3.1) sowie unter Lexikalisierung und Phraseologisierung subsumiert wurden, geht es insbesondere darum, dass es sich bei einer Kollokation um mehrere Wörter handelt, bei einem Kompositum nur um ein einziges. Was man aber unter einem Wort genau zu verstehen hat, ist nicht einfach zu sagen. Schlägt man in einem linguistischen Fachlexikon nach, so findet man z. B. bei Glück (2010: 768) zu Wort als Anfang der Erklärung: „Intuitiv gut erfassbare, doch theoretisch] schwer zu definierende Grundeinheit des Wortschatzes." Um es vorwegzunehmen: Einen grösseren Beitrag zur Klärung dieser Frage wird der vorliegende Abschnitt nicht leisten können. Symptomatisch kann die Problematik auch an Titeln von Werken, die sich mit dem Wortbegriff befassen, abgelesen werden: Sie oszillieren zwischen sehr vorsichtigen, relativierenden Formulierungen - z. B. Fuhrhop (2008) mit Das graphematische Wort (im Deutschen): Eine erste Annäherung - und eher lapidaren - wie Bauer (2000) mit Word. Dies widerspiegelt obiges Zitat bezüglich der einfachen intuiüven Erfassbarkeit und der Schwierigkeit einer präzisen Definition sehr gut. Einige Werke, die eingehend verschiedene Aspekte des Wortbegriffs behandeln und auf die hier verwiesen sei, sind Bauer 2000; Eisenberg 2004; Fuhrhop 1998, 2008; Knobloch & Schaeder 2007; Schreuder & Baayen 1997; Wurzel 2000. Zusammenfassend zeigt Fuhrhop (2008: 220ff.), nach welchen 50 Kombinatorische Begriffsbildung Kriterien Wörter bestimmt bzw. nach welchen Dimensionen sie vornehmlich definiert werden - nach phonologischen, morphologischen, syntaktischen und graphematischen Kriterien sowie Kriterien der grammatischen Wohlgeformtheit. Im Rahmen dieser Arbeit sind zw ei Perspektiven besonders wichtig. Praktisch-technisch ist es das Wort als graphemaüsches Wort, und zwar in der sehr einfachen und einfach automatisiert verarbeitbaren Form von durch Leer- und Satzzeichen getrennten Zeichenketten. Auf dieser einfachen Wortdefinition basiert letztlich der ganze korpuslinguistische Teil und damit die gesamte Datenerhebung (cf. Kapitel 3). Die zweite wichtige Perspektive ist diejenige des Wortes als Einheit des Wortschatzes, des mentalen Lexikons (cf. z. B. Eisenberg 2004: 216), im Gegensatz zu Regeln der Grammatik. Diese Art von Wortverständnis wurde im vorhergehenden Abschnitt angesprochen, mit Lexikalisierung und Phraseologisierung als denjenigen Prozessen, die dazu führen, dass eine Einheit Teil des Lexikons wird, sei sie nun phonologisch, morphologisch, syntaktisch oder graphematisch ein Wort (oder nicht). Ein weiterer wichtiger u n d oft g e n a n n te r Begriff in der vorliegenden Arbeit ist derjenige des Lexems, v e rs ta n d e n als freies Morphem, d. h. als Morphem, das als selbständiges W o rt V orkom m en kann (cf. z. B. Glück 2010: 442). 2.3.5 Bisherige Forschung Phraseologie und Wortbildung als Grenzbereiche zwischen Syntax und Morphologie haben schon viel wissenschaftliche Aufmerksamkeit erhalten (cf. z. B. Barz 2007; Fleischer 1992; Spencer 2005; Wimmer & Berens 1997). Zusätzlich hat der Umstand, dass in vielen Sprachen Definition und Abgrenzung von Komposita gegenüber Phraseologismen schwierig ist, zu diversen Arbeiten in diesem Bereich geführt (cf. z. B. Bauer 1998; Giegerich 2004; Schiücker & Hüning 2009b). Um diese beiden Themenbereiche soll es hier weniger gehen. Angeführt werden sollen im Folgenden Arbeiten, die sich mit dem direkten Vergleich von Kollokationen und Komposita mit denselben Bestandteilen befassen, da in Kapitel 5 der vorliegenden Arbeit ebenfalls eine derartige Analyse vorgenommen wird. 2.3.5.1 Barz (1996) Barz (19%) untersucht „das Verhältnis zwischen lexisch identischen, aber unterschiedlich strukturierten komplexen Benennungen" (Barz 1996: 127) anhand von Adjektiv-Substantiv-Verbindungen (als Kollokationen bzw. Komposita). Neben generellen Verteilungsmustern, dass etwa Substantive mehr Komposita bilden als andere Wortarten und dass in Fachsprachen der Wechsel zwischen Adjektiv-Substantiv-Komposita und -Syntagmen verbreiteter ist als in anderen Bereichen oder dass gewisse morphologische Restriktionen zur Komposition bestehen, geht sie vor allem auf semantische Aspekte ein. Demnach ist echte Konkurrenz, also beide Bildungsmöglichkeiten mit Direktvergleich Kollokationen - Komposita 51 gleicher oder annähernd gleicher Bedeutung (wie etwa bei schwarzer Markt - Schwarzmarkt, schwacher Punkt - Schwachpunkt, frecher Dachs - Frechdachs, cf. Barz 1996: 131) extrem selten. Zum grundsätzlichen Unterschied zwischen Kollokationen und Komposita bei Lexikalisierung und Benennungsfunktion, bemerkt sie: Während Komposita ihrem Wesen nach kategorisieren, und zwar unabhängig vom Grad der Lexikalisierung, tun Syntagmen das erst, wenn sie stabil(er) geworden sind. (Barz 1996: 143) Was schliesslich die Verteilung der verschiedenen Adjektive als Konstituenten von Komposita und Kollokationen angeht, sind nach ihren Untersuchungen Adjektive, die in wenigen Kollokationen Vorkommen, auch kaum in Komposita zu finden. Umgekehrt gelte dies jedoch nicht (Barz 19%: 136f.). Z3.5.2 Bücking (2009, 2010) Bücking (2009, 2010) sieht sich ebenfalls Adjektiv-Substantiv-Verbindungen an, die sich von ihrem lexikalischen Material her entsprechen. Er untersucht nichtlexikalisierte Entsprechungen und führt verschiedene Phänomene am Beispiel blauer Tee - Blautee vor. Seine Hauptbeobachtung ist die auch von Barz (1996) bemerkte stärkere Benennungsfunktion von Komposita gegenüber Konstruktionen mit attributivem Adjektiv. Bücking (2009) kommt zum Schluss, dass gegenüber der (syntaktischen) Attribuierung durch ein Adjektiv bei Kompositionsmodifikation zusätzlich eine Leerstelle eingeführt wird, die semantisch auf konzeptueller Ebene zu besetzen ist: [...] whereas phrasal APs directly modify the referent introduced by the head noun, the semantic form of lexical A+N constructions includes a mediating free variable to be instantiated at the conceptual level. Evidence for the proposed split has been drawn from interpretational differences in case of incompatible attribution and negative contexts. That is, the integration of an intermediate variable in the case of A+Ns allows As to target a different variable than the one taken by the incompatible attribute or negation. (Bücking 2009: 198) Gemeint ist damit, dass blau in Blautee nicht einfach dem Tee blaue Farbe zuordnet, sondern dass zusätzlich eine Leerstelle zwecks Verbindung mit einem Konzept eingeführt wird. Paraphrasieren Hesse sich das in etwa als Tee der blauen Kategorie. Aus diesem Grund ist denn auch roter Blautee gut möglich, während roter blauer Tee meist als widersprüchlich angesehen werden muss (cf. Bücking 2009: 185). 2.3.5.3 Schiücker & Hüning (2009a) Schiücker & Hüning (2009a) betrachten ebenfalls einander entsprechende Adjektiv-Substanüv-Verbindungen. Sie verwenden teilweise Belege und Belegzahlen aus Textkorpora, jedoch ohne systematische Auswertungen. Schiücker & Hüning (2009a: 210) betonen wie andere die Benennungsfunktion der 52 Kombinatorische Begriffsbildung Komposita gegenüber der Beschreibungsfunktion syntaktischer Phrasen. Sie nennen dann aber auch Fälle, w o dieser semantische Unterschied nicht durchgehend auftritt (z. B. Jungvogel vs. junger Vogel, w o Jungvogel nur selten ausschliesslich in der Bedeutung ,Vogelnachkomme' verwendet wird, oft aber austauschbar mit junger Vogel auch als ,Vogel, der jung ist', cf. Schiücker & Hüning 2009a: 215f.). Eine weitere Kategorie von Entsprechungen sind jene, bei denen nach Schiücker & Hüning (2009a) kein semantischer Unterschied festgestellt werden kann (z. B. Optimallösung vs. optimale Lösung, cf. Schiücker & Hüning 2009a: 217). Methodisch gesehen verwenden Schiücker & Hüning (2009a) vor allem Austauschtests in Korpusbelegen, bei denen sie überprüfen, ob eine Verbindung durch die zugehörige Entsprechung ersetzt werden kann, ohne dass sich die Bedeutung des Satzes grundlegend verändert. Sie nehmen zum Teil Belegzahlen aus Korpora zu Hilfe und kommen bei der letzten Kategorie der semantisch äquivalenten Entsprechungen zu folgendem Schluss: All in all, neither compound nor phrase seems to be generally more frequent, and both forms are used regularly. (Schiücker & Hüning 2009a: 218) Die folgende Endnote zu dieser Aussage zeigt allerdings, dass ihr Hauptansatz nicht durchgehend korpusbasiert, sondern stärker noch kompetenzorientiert ist: Although the frequency counts for Optimallösung/ optimale Lösung at hand do not support this statement, we are convinced that, generally speaking, there is no preference for one form or the other in these constructions. (Schiücker & Hüning 2009a: 230) Neben einigen morphologischen und semantischen Restriktionen, denen der Gebrauch von Komposita unterliegt (etwa, dass Adjektive w ie optimal, sozial, extrem, etc. keine Komposita mit Konkreta bilden, cf. Schiücker & Hüning 2009a: 218f.), geben Schiücker & Hüning (2009a: 222ff.) vier Hauptmotive zur Benutzung von Komposita anstelle von äquivalenten Phrasen an; Zur Benennung (erstens), um zweitens eine komplexe syntaktische Struktur zu ersetzen, um drittens besser in den syntaktischen Kontext zu passen und schliesslich als Grundlage für weitere Wortbildung. 2.3.5.4 Schiücker & Plag (2011) Auch Schiücker & Plag (2011) untersuchen Adjektiv-Substantiv-Verbindungen. Versuchspersonen wurden dabei zur Bildung neuer bzw. zur Einschätzung mutmasslich lexikalisierter Adjektiv-Substantiv-Verbindungen angehalten.29 Ob eine solche neue Verbindung als Kompositum oder als Phrase realisiert wird, ist nach Schiücker & Plag (2011) stark durch Analogien zu anderen Verbindungen mit denselben Konstituenten bestimmt („Familiengrösse"). Das Bestimmungsglied (hier jeweils das Adjektiv) hat einen 29 In den Versuchsaufgaben werden Begriffe aus einem imaginären Paralleluniversum abgefragt (cf. Schiücker & Plag 2011: 1544). Direktvergleich Kollokationen - Komposita 53 grösseren Einfluss auf die Realisationsform als der Kopf. Die Typefrequenz der Konstituenten in entsprechenden Bildungen ist dabei entscheidend, die Tokenfrequenz hat keinen nachweisbaren Einfluss. Schiücker & Plag (2011) haben hierbei nicht nur „Komposita-Familien" gefunden, sondern auch „Phrasen-Familien": The study also provides evidence for the existence of phrasal families. Extending the notion of family across the traditional morphology-syntax boundary allows us to p ut morphological and phrasal families on a par and it supports the view that there is no sharp boundary between syntax and the lexicon. Rather, these morphological and phrasal entities are to be analysed as constructions, i. e. as form-meaning-pairings of different morphosyntactic complexity. (Schiücker & Plag 2011: 1550) Stärker als bei Bücking (2009, 2010) werden bei Schiücker & Plag (2011) die Gemeinsamkeiten und funktionalen Überschneidungen der beiden Bildungsarten betont. 2.3.5.5 Gaeta & Zeldes (2012) Gaeta & Zeldes (2012) arbeiten auf Basis von Korpusdaten, nämlich einem I70-Mio.-Token-Ausschnitt des cfeLVhC-Korpus (cf. Baroni et al. 2009). Ihr Ziel bei der Analyse von Komposita und deren syntaktischen Entsprechungen ist es, mehr über die Bedeutungserschliessung bei Komposita herauszufinden cf. Holztisch vs. Billardtisch und die Paraphrasen Tisch aus Holz und Tisch fü r Billard (cf. Gaeta & Zeldes 2012: 197). Sie gehen dabei davon aus, dass solche Paraphrasen auch konkret Vorkommen und damit in Korpora nachweisbar und für die Komposita-Interpretation relevant sind: Als Arbeitshypothese würde man annehmen, dass die Interpretation des Kompositums Holztisch indirekt über die wiederkehrende Verwendung des syntaktischen Musters Tisch aus Holz gewonnen werden kann. (Gaeta & Zeldes 2012: 200) Gaeta & Zeldes (2012) kommen nach Auswertung von Komposita und dazugehörigen syntaktischen Mustern zu einem Schluss, der zwar einen Zusammenhang erkennen lässt, über die Richtung der Beeinflussung aber letztlich keine Aussage machen kann: Wiederkehrende syntaktische Muster, die aufgrund ihrer Frequenz eine Spur im mentalen Lexikon hinterlassen, können die korrekte Interpretation der Wortbildungsbedeutung in der Komposition Vorhersagen. Dieser Befund widerspricht jedoch nicht der von vielen Forschern vertretenen Idee, dass kontextuell un(ter)spezifizierte semantische Informationen die Interpretation der Komposita lenken [...]. Wiederkehrende Ausdrücke spiegeln unsere pragmatische Erfahrung wider und bieten ein sprachliches Modell für die vorbestimmten Deutungen vieler Kompositareihen. (Gaeta & Zeldes 2012: 214f.) Der zweite, nun ebenfalls als Zitat folgende Teil ihres Fazits könnte als diesem ersten Teil widersprechend angesehen werden: 54 Kombinatorische Begriffsbildung Das Verhältnis zwischen Syntax und Komposition wird durch unsere empirische Analyse nur teilweise bestätigt: Häufige syntaktische Muster können neue Komposita motivieren, es gibt aber auch häufige Komposita, die scheinbar kein syntaktisches Vorbild haben und in der Lage sind, neue Komposita zu motivieren oder ggf. auch einer sekundären syntaktischen Realisierung zugrunde liegen. (Gaeta & Zeldes 2012: 215) Wieder ist es die Richtung der Beeinflussung, die keineswegs klar zu sein scheint weder a priori gegeben, noch scheint sie im Laufe der empirischen Untersuchung klarer geworden zu sein. 2.5.5.6 Böer, Kotowski & Härtl (2012) Böer, Kotowski & Härtl (2012) nehmen sich in ihrer psycholinguistischen Studie ebenfalls der Adjektiv-Substantiv-Verbindungen an. In ihrem Lernexperiment werden Versuchspersonen Memorisierungsaufgaben gestellt. Es werden Bildern Begriffe zugeordnet, entweder ein Adjektiv-Substantiv- Kompositum (z. B. ein Tiefbesen) oder ein Substantiv mit attributivem Adjektiv (z. B. ein breiter Kamm, cf. Böer, Kotowski & Härtl 2012: 68). Diese Bilder und Begriffe wurden nach der Lernphase wieder abgefragt, und die Korrektheit der Antworten sowie die Reaktionszeiten gemessen. Ungelernte Komposita waren öfter falsch als ungelernte Phrasen, die Reaktionszeiten waren dabei ebenfalls länger. Für gelernte Komposita und Phrasen verschwanden diese Unterschiede aber (cf. Böer, Kotowski & Härtl 2012: 70). In einem zweiten Experiment ging es um die höhere Salienz von Komposita im Diskurs (cf. Böer, Kotowski & Härtl 2012: 71f.). In einem Teilsatz- Matching-Experiment wurden Komposita deutlich häufiger wiederaufgenommen als entsprechende Phrasen. Im dritten, nur angedachten Experiment schliesslich wird dieser Ansatz noch verfeinert und untersucht, ob es die Struktur oder die semantische Intransparenz ist, die für die Salienz verantwortlich ist (cf. Böer, Kotowski & Härtl 2012: 72ff.). Der daraus gezogene Schluss ist folgender: This paper aims at contributing to the discussion on the modularization of language. [...] We found empirical evidence which is in large parts compatible with the assumption that we are dealing with two different modules of grammar as is stated in lexicalist approaches towards modelling the language system. (Böer, Kotowski & Härtl 2012: 73) Die Experimente zeigen sicher, dass es Unterschiede zwischen den Bildungsw eisen gibt der suggerierte Schluss eines separaten Syntax- und Morphologiemoduls ist auf Basis dieser Daten allenfalls etwas voreilig. Direktvergleich Kollokationen - Komposita 55 Zusammenfassung In diesem Kapitel sind die beiden Mittel der kombinatorischen Begriffsbildung, Kollokationen und Komposita, je aus der Perspektive ihrer eigenen Forschungstradition heraus eingehend vorgestellt worden. Neben Forschungsgeschichtlichem sind bei beiden vor allem charakteristische Eigenschaften erläutert und Möglichkeiten einer Abgrenzung gegenüber benachbarten Phänomenen aufgezeigt worden. Ebenfalls enthalten ist eine projektspezifische Kollokationsdefinition. Der Schlussabschnitt hat schliesslich Aspekte zum Direktvergleich von Kollokationen und Komposita thematisiert, die besonders für das Analysekapitel (Kapitel 5), für die Analyse der Konkurrenzbildungen wichtig werden. Besonders hervorzuheben sind die Unterschiede zwischen Komposita und Kollokationen, wie Tendenz zu Benennung vs. Tendenz zu Beschreibung oder unterschiedliche Wortartenverteilungen. Zu betonen sind aber auch die Gemeinsamkeiten: die funktionale Überschneidung im Bereich der kombinatorischen Wortbildung, der Eingang ins Lexikon mittels Lexikalisierung bzw. Phraseologisierung und bei beiden Bildungsarten graduelle Abstufungen von Arbitrarität und semantischer Transparenz bzw. Kompositionalität. 3 Datengewinnung und -aufbereitung Das folgende Kapitel befasst sich mit den Vorbereitungsarbeiten für den eigentlichen lexikografischen Prozess (cf. Kapitel 4), ebenso w ie für den analytischen Teil (cf. Kapitel 5). Aus Sicht des lexikografischen Prozesses behandelt das Kapitel die beiden Phasen Materialbeschaffung und Materialaufbereitung (cf. Wiegand 1998b bzw. auch Svensen 2009). Zuerst geht es um die verwendeten Textkorpora (Abschnitt 3.1), daraufhin um die automatische Extraktion von Kollokationen (Abschnitt 3.2) und von Komposita (Abschnitt 3.3). 3.1 Korpora Das Kollokationenwörterbuch und die vorliegende Untersuchung beziehen ihre Sprachdaten aus verschiedenen deutschsprachigen Korpora. Deren Auswahl erfolgte anhand mehrerer, einander teils widersprechender Hauptkriterien, weshalb die Wahl schliesslich auch nicht auf ein einziges Korpus fiel. Wichtige Kriterien waren Ausgewogenheit, Grösse, Aktualität, Vergleichbarkeit mit anderen Korpora, Integrierbarkeit in ein Gesamtsystem (lexikografisches Redaktionssystem) und das Vorliegen von Kollokationsdaten bzw. automatisch voranalysierten Textes. Ausgewogenheit ist ein prominentes Thema in der Korpuslinguistik. Man möchte mit einem Korpus ein möglichst repräsentatives Sample einer Sprachwirklichkeit herstellen. Die Grundgesamtheit ist jedoch wenig klar (sind es alle Äusserungen in einer Sprache? alle unterschiedlichen Äusserungen? etc.) und schlecht fassbar (die Vielzahl an sprachlichen Äusserungen ist zu unüberschaubar, vieles auch schlecht zugänglich). Etwas bescheidener spricht man deshalb heute bei Korpora meist von Ausgewogenheit und meint damit, dass in einem entsprechenden Korpus eine möglichst grosse Vielfalt an Äusserungen, möglichst gleichmässig gewichtet nach definierten Kriterien, vertreten sein soll (cf. z. B. Lemnitzer & Zinsmeister 2010: 50ff.; Hunston 2008; Sinclair 1998; Biber 1993; Atkins, Clear & Ostler 1992). Korpora sollen ausserdem gross sein, je grösser desto besser, wie man oft annimmt (cf. Geyken et al. 2004; Kilgarriff 2003). Gerade für die Berechnung von Assoziationsmassen zum Auffinden von Kollokationen hat dies unbedingt seine Berechtigung. Grösse schafft aber auch Probleme: Sollen Zwischenresultate aus Korpora manuell weiterverarbeitet werden, w ie etwa Kookkurrenzlisten zur Auswahl von Kollokationen, müssen diese bei sehr grossen Korpora zuerst auf eine handhabbare Grösse reduziert werden. Ausserdem sind Grosskorpora meist weniger ausgewogen zusammengesetzt, da ohne einschränkende Kriterien sehr viel einfacher grosse Mengen an Text 58 Datengewinnung und -aufbereitung gesammelt werden können. Solche Grosskorpora weisen denn auch oft einen Überhang an journalistischen Texten auf oder sind, wenn aus dem Internet heruntergeladen, was ihren Inhalt betrifft, nur schwer kontrollierbar. Da aktueller Sprachgebrauch abgebildet und untersucht werden soll, ist bei der Korpuswahl der zeitliche Aspekt ebenfalls zu berücksichtigen. Ausgewogene Referenzkorpora w ie das DWDS-Kernkorpus (cf. 3.1.2) und das Schweizer Textkorpus (cf. 3.1.1) sind auch zeitlich ausgewogen zusammengestellt und enthalten Texte über das ganze 20. Jahrhundert verteilt. Für ein aktuelles Wörterbuch bilden die älteren Texte dieser Korpora teils bereits einen zu alten Sprachstand ab. Zudem sind ganz aktuelle Entwicklungen, z. B. die neusten Unterhaltungs- und Kommunikationstechnologien, in diesen Korpora unterrepräsentiert oder gar nicht vertreten. Die Vergleichbarkeit von Korpora geht eng einher mit der Integrierbarkeit in ein Gesamtsystem für die lexikografische Arbeit (Redaktionssystem) und dem Vorliegen von Kollokationsdaten. Korpusvergleichbarkeit hängt einerseits von inhaltlichen Faktoren ab: Sind Korpora nach ähnlichen Kriterien aufgebaut, ist eher von vergleichbaren Resultaten auszugehen. Diese Situation liegt z. B. bei DWDS und Schweizer Textkorpus vor, die beide fast identische Ausgewogenheitskriterien angewendet haben. Vergleichbarkeit ist aber auch eine Frage der Grösse. Korpora zeigen Grösseneffekte. So sind einige der gängigen Assoziationsmasse sensibel auf Grösse: Verteilungen seltener Wörter sind in unterschiedlich grossen Korpora sehr verschieden (cf. auch die Diskussion um Hapaxlegomena und Produktivitätsmasse in Abschnitt 5.1.4). Und schliesslich ist Vergleichbarkeit auch eine Frage der verfügbaren Daten zu den einzelnen Korpora: Zur Berechnung von Assoziationsmassen müssen zumindest Frequenzdaten vorhanden sein. Braucht es weitere Vorverarbeitungsschritte wie Noun-Chunking (cf. 3.2.3.1), ist eine gewisse Vergleichbarkeit oft nur zu realisieren, wenn die Korpora im Volltext verfügbar sind. Zwischen der Vergleichbarkeit und der Integrierbarkeit in ein lexikografisches Gesamtsystem besteht ein Zusammenhang insofern, als dass nur Vergleichbares sinnvoll integriert werden kann. Wobei Integrierbarkeit mit bescheidenerem Anspruch bedeuten kann, dass die entsprechenden Korpusdaten in ein und derselben Ansicht dargestellt oder auf einfache Weise („per Mausklick") aufgerufen werden können. Im Folgenden werden die in diesem Projekt verwendeten Korpora mit ihren Kenndaten und ihren wichtigsten Merkmalen kurz vorgestellt. Korpora 59 3.1.1 Schweizer Textkorpus Das Schweizer Textkorpus30 (cf. Bickel et al. 2009) ist ein ausgewogenes Korpus zur deutschen Standardsprache in der Schweiz im 20. Jahrhundert mit einem Umfang von 20 Millionen Textwörtern31. Das Korpus erfüllt Ausgewogenheitskriterien hinsichtlich Zeit, Textkategorien und Sachgebieten: So verteilen sich die Texte gleichmässig auf die vier Jahrhundertviertel des 20. Jahrhunderts, auf die vier Textkategorien Sachtexte, Gebrauchstexte, Belletristik und journalistische Texte sowie thematisch auf 34 Hauptsachgruppen der Schlagwortnormdatei (SWD)32. Es versteht sich als Referenzkorpus für das Standarddeutsch in der Schweiz. Da das Korpus im Haus entwickelt wurde, steht es im Volltext zur Verfügung. Trotz des vergleichsweise bescheidenen Umfangs liefern die Kookkurrenzdaten des Schweizer Textkorpus gerade für häufige Wörter durchaus ansprechende Resultate. Für das vorliegende Projekt bzw. für die Untersuchung aktueller Sprachverhältnisse stellt die Verteilung der Texte über das ganze 20. Jahrhundert allerdings auch ein gewisses Handicap dar. Daten seit dem Jahr 2000 sind gar nicht enthalten, Texte aus dem letzten Jahrhundertviertel, also von 1975-2000, machen nur ein Viertel der Datenmenge aus. Insbesondere neuere technische Entwicklungen (Internet etc.) sind deshalb kaum oder gar nicht abgebildet. Aktuellere Themen sind weniger prominent vertreten, als sie das in einem rein synchronen Korpus wären. Dasselbe lässt sich von sprachlichen Gebilden vermuten, in unserem Fall von Kollokationen und Komposita, sofern sie sich im Verlauf des 20. Jahrhunderts markant verändert haben (z. B. neu aufgetreten oder verschwunden sind). 3.1.2 DWDS-Kemkorpus Das Kernkorpus des DWDS33 (Digitales Wörterbuch der deutschen Standardsprache, cf. Klein 2004) leistet als Referenzkorpus für das Standarddeutsch in Deutschland das, was das Schweizer Textkorpus für das Standarddeutsch in der Schweiz tut. Allerdings ist es mit 100 Millionen Textwörtern rund 5-mal so umfangreich. Es handelt sich ebenfalls um ein ausgewogenes Korpus. Die Ausgewogenheitskriterien Zeit und Textkategorie entsprechen denjenigen des Schweizer Textkorpus. Dies ist nicht weiter überraschend, da beides Partnerprojekte sind, und das DWDS als das früher umgesetzte Projekt dem Schweizer Textkorpus in vielem als Vorbild diente. Das DWDS liegt dem Kollokationenwörterbuch nicht komplett und im Volltext vor. Freundlicherweise wurden jedoch die relevanten und bereits be- 30 http: / / www. schweizer-textkorpus.ch (29.11.2013). 31 Unter Textwörtern w erd e n mit Leerzeichen abgetrennte Tokens exklusive Satzzeichen verstanden. 32 cf.Traiser (2000) bzw. https: / / w e b.archive.org/ web/ 20121204211342/ http: / / w w w. d n b.de/ DE/ Standardisierung/ Normdaten/ SWD/ swd_node.html (29.11.2013). 33 http: / / www.dwds.de (29.11.2013). 60 Datengewinnung und -aufbereitung rechneten Kookkurrenzdaten zur Verfügung gestellt, d. h. Kookkurrenzen im Wortabstand 5 zum verwendeten Basiswortschatz samt Frequenzen und Assoziationsmassen. So konnte das DWDS nicht nur als Korpus für Belege genutzt werden, sondern in sehr relevanten Teilen direkt ins Redaktionssystem integriert werden. 3.1.3 Korpus C4 Das Schweizer Textkorpus und das DWDS bilden zusammen mit dem österreichischen A A C (Austrian Academy Corpus, cf. Biber, Breiteneder & Moerth 2002)3435 und dem Korpus Südtirol35 (cf. Abel, Anstein & Petrakis 2009) gemeinsam das Korpus C436 (cf. Dittmann et al. 2012). Die vier Teilkorpora sind dabei als virtuelles Korpus konzipiert, das verteilt abfragbar ist (cf. auch Lemnitzer 2010; Roth 2009). Die Zielgrösse eines jeden Teilkorpus liegt bei 20 Millionen Textwörtern. Erreicht haben dies bereits das Schweizer und das deutsche Partnerprojekt, während das österreichische Teilkorpus momentan erst rund 4 Millionen Textwörter, das Südtiroler knapp 2 Millionen Textwörter37 umfasst. Durch die verteilte Architektur des Korpus C4 besteht kein Zugriff auf den ganzen Volltext. Deshalb können daraus keine Kookkurrenzdaten berechnet und das Korpus lediglich für Belege genutzt werden. Eine Erweiterung, sowohl inhaltlich als auch technisch, ist im Rahmen von WebLicht/ CLARIN angedacht (cf. Hinrichs, Hinrichs & Zastrow 2010; Lemnitzer 2010). 3.1.4 Usenet-Korpus In die Reihe der eher opportunistischen Korpora, die verwendet wurden, gehört ein Usenet-Korpus aus dem Jahr 2004 im Umfang von rund 61 Millionen Textwörtern. Es handelt sich um das von Roth (2005) erstellte bzw. verwendete und dem Tübinger Newskorpus aus dem TLIATS’-Projekt (cf. Feldweg & Hinrichs 1996; Feldweg, Kibiger & Thielen 1995; Hinrichs et al. 1995) nachempfundene Korpus mit Beiträgen aus deutschsprachigen Newsgruppen im Usenet. Das Usenet-Korpus ist als synchrones Korpus aus dem Jahr 2004 eine Quelle für aktuelle Sprachdaten aus verschiedenen Themenbereichen. N ew sgruppenbeiträge weisen stärker als die Texte der anderen Korpora Charakteristika mündlichen Sprachgebrauchs auf, sind zu grossen Teilen konzeptuell mündlich (cf. Feldweg, Kibiger & Thielen 1995; Koch & Oesterreicher 1994; Rehm 2002; Schütte 2000). Eine typische Newsgruppendiskussion ist ein Dialog, beginnend mit einer Frage, auf die Antworten und Gegenfragen folgen. Man richtet sich an die Gruppe, d. h. an eine Gruppe Gleichgesinnter, nicht 34 Informationen unter http: / / w w.aac.ac.at (29.11.2013), das Korpus selbst ist jedoch nicht öffentlich zugänglich. 35 http: / / ww.korpus-suedtirol.it (29.11.2013). 36 http: / / w w.korpus-c4.org (29.11.2013). 37 Eine Erweiterung auf 8 bis 10 Millionen Tokens ist in Arbeit. Korpora 61 an die Öffentlichkeit. Die Situation erinnert stark an einen kollegialen oder freundschaftlichen E-Mail-Wechsel mit mehreren Beteiligten. Gerade wenn, w ie für die Kollokationsextraktion, grössere Korpora gebraucht werden, sind solche konzeptionell mündlichen Textsorten gute Kompromisskandidaten, da für grössere Korpora gesprochener Sprache oft die nötigen Ressourcen fehlen. 3.1.5 Web-Korpus Ebenfalls zu den opportunistischen Korpora gehört ein im Rahmen des Kollokationenwörterbuchs zusammengestelltes Web-Korpus mit insgesamt 650 Milhonen Textwörtern, das ganz aus frei im Internet zugänglichen Texten besteht (cf. Roth 2012). Es ist das grösste verwendete Korpus und liefert einen grossen Teil an Kookkurrenzdaten, die von den anderen Korpora noch nicht abgedeckt sind. Es bildet grossmehrheitlich aktuellen Sprachgebrauch ab. Genau kontrollierbar ist dies jedoch kaum, da auch ältere Texte ins Internet gestellt werden. Das Korpus versucht zudem, für das vorliegende Projekt eine Lücke im Bereich österreichischer Texte zu schliessen. Leider fehlt noch immer ein grösseres auf Österreich ausgerichtetes Korpus. Das Web-Korpus besteht zu annähernd gleichen Teilen aus Texten aus den drei Länder-Top- Level-Domains .at, .ch und .de. Damit stellt es eine wichtige Datengrundlage zur Verfügung, um nationale Varianten (cf. Ammon 1995; Ammon et al. 2004; Bickel & Schmidlin 2004; Schmidlin 2011) bei KollokaHonen zu besHmmen (cf. Häcki Buhofer 2007, 2010; Heid 2011; Roth 2012; Schmidlin 2007 bzw. bereits Bickel 2000 zur internetbasierten Bestimmung arealer Varianten). Die Frage der nationalen Varianten ist denn auch ein Hauptgrund dafür, dass nicht das bereits bestehende deutsche FVhCky-Korpus38 deWaC verwendet wurde (cf. Baroni et al. 2009), das praktisch nur aus Webseiten der Top-Level-Domain .de besteht. Aufgebaut wurde das Korpus analog zu den FVhOcy-Korpora mithilfe des BoofCaT-Toolkits39 (cf. Baroni & Bernardini 2004). Das Vorgehen ist dabei so, dass man mit zufällig kombinierten Suchwörtern (Seeds) der gewünschten Sprache, in unserem Fall Deutsch, über kommerzielle Suchmaschinen nach URLs sucht, die diese Suchwörter enthalten. Man erhält damit mit grosser Wahrscheinlichkeit deutschsprachige Seiten und kann die Rankingalgorithmen der Suchmaschinen mitbenutzen, die versuchen, für Menschen relevante Seiten zuoberst zu positionieren und automatisch generierte oder aus anderen Gründen unerwünschte Seiten auszusorüeren. Anschliessend wird diese Liste von URLs automatisiert mittels Webcrawler heruntergeladen. Die so gesammelten Daten werden nachbearbeitet (Entfernung von Duplikaten und Fast-Duplikaten, Umformatierung etc.) und ergeben ein Web-Korpus, das je nach Verwendungszweck noch weiterbearbeitet wird (z. B. linguistische Annotierung, Indexierung). 38 WaCky steht für Web as Corpus kool ynitiative. 39 Das Akronym aufgelöst: Simple Utilities to Bootstrap Corpora and Termsfrom the Web. 62 Datengewinnung und -aufbereitung Im konkreten Fall wurde für die Seed-Generierung eine Liste in der Grössenordnung von gegen 2000 Wörtern zusammengestellt, bestehend aus etw as über 1000 mittelfrequenten Wörtern aus der DeRePVb-Grundformenliste des IDS Mannheim40 und einer Liste von gut 800 Formen aus geschlossenen Wortklassen. Baroni et al. (2009: 213) gehen mit Ueyama (2006) davon aus, dass mittelhäufige Wörter aus journalistischen Texten in den Seeds vermehrt zu Texten führen, die eher einem öffentlichen Bereich zugeordnet werden können (vornehmlich akademische und journalistische Texte zu politischen und gesellschaftlichen Themen). Wörter aus dem Grundwortschatz in den Suchanfragen führen mehr zu Dokumenten mit persönlicherem Inhalt bzw. zu persönlichen Interessen hin. Grundwortschatzwörter offener Wortklassen wurden hier nicht verwendet, w eil genau für sie Kollokationen gesucht werden sollen. Mit einer direkten Suche nach diesen Zielwörtern wäre eine Verzerrung der Resultate sehr wahrscheinlich. Deshalb wurden stattdessen Wörter der geschlossenen Wortklassen miteinbezogen. Diese sind sehr häufig, sollten ebenfalls in sehr unterschiedlichen Texten Vorkommen und so eine möglichst grosse Breite an Themen und Textsorten sicherstellen. Sind solche Wortlisten hergestellt, werden nach dem WaCky-Vorgehen daraus Wörter zufällig zu Bibzw. Trigrammen kombiniert und diese dann für die Suche verwendet. Einzel-Suchwörter würden zu einseitige Resultate liefern, bei denen es fast ausschliesslich um den entsprechenden Begriff geht - darunter auch Wörterbuch- und Lexikoneinträge. Im konkreten Fall wurde eine Liste von 15 000 zufälligen Trigrammen gebildet. Mit dieser Liste wurde dann für jedes Teilkorpus (at, ch und de) gesucht4142 und für jeden Suchterm im Maximum die ersten zehn gefundenen URLs gespeichert. All diese Seiten wurden daraufhin per Webcrawler heruntergeladen, automatisch nachbearbeitet (Boilerplate-Stripping'12, Entfernen von Nicht-Text-Passagen etc.), von Duplikaten und Fast-Duplikaten befreit,43 satzsegmentiert44 und in ein rudimentäres TEI-Format (cf. Bernard & Bauman 2011) überführt. 3.1.6 Annotierung und Indexierung Alle eigenen bzw. im Volltext vorliegenden Korpora - also das Schweizer Textkorpus, das Usenet-Korpus und das Web-Korpus - wurden einheitlich linguistisch annotiert und indexiert. Die Satzsegmentierung wurde wie- 40 Wörter der Häufigkeitsklasse 11 aus DeReWo 2007. 41 Zum Downloadzeitpunkt (Dezember 2010) war der Zugriff auf die Yahoo-API, die bald darauf geschlossen wurde, noch möglich. 42 Das Entfernen immer wiederkehrender Teile von Webseiten: Kopf- und Fusszeilen, Menüs etc. 43 Dazu wurde ein Script von Serge Sharoff benutzt: h ttp : / / c o rp u s .le e d s .a c .u k / tools/ dedupes.pl (29.11.2013), das nach Ideen von Ziai & Ott 2005 realisiert worden war. 44 Zur Satzsegmentierung wurde tokenizer von Sebastian Nagel verwendet, zu finden unter http s: / / web.archive.org/ web/ 20111019120458/ http: / / w w w.cis. uni-m uenchen.de/ ~wastl/ misc/ tokenizer.tgz (29.11.2013). Kollokationsextraktion 63 der mit tokenizer von Sebastian Nagel vorgenommen. Die anschliessende Lemmatisierung und das Part-of-Speech-Tagging wurden mit TreeTagger durchgeführt (cf. Schmid 1994,1999). Für die Kollokations- und Komposita- Extraktion wurden die Korpora zusätzlich mit LoPar gechunkt (cf. Schmid 2000; Schmid & Schulte im Walde 2000) und mit Morphisto morphologisch analysiert (cf. Schmid, Fitschen & Heid 2004; Zielinski, Simon & Wittl 2009). Diese Bearbeitungsschritte werden in Abschnitt 3.3 detaillierter beschrieben. Die Resultate sind nur für die Daten-Extraktion und nicht für die Online- Korpus-Suche weiterverwendet worden. Zusätzlich wurden alle Texte in ein TEI-konformes Format gebracht (cf. Bernard &Bauman 2011) und mit einem rudimentären TEI-Header versehen. Dies geschah vorwiegend aus Kompatibilitätsgründen mit der verwendeten Suchmaschine, hilft aber natürlich auch, wenn die entsprechenden Korpora später archiviert werden sollen. Zur Indexierung für die Suche wurde DDC (DWDS/ Dialing Concordance) verwendet (cf. Sokirko 2005). Als Suchschnittstelle kam die für das Schweizer Textkorpus und das Korpus C4 entwickelte Benutzeroberfläche zum Einsatz, wobei das Usenet- und das Web-Korpus nur intern aufgeschaltet wurden. 3.2 Kollokationsextraktion Im Bereich der Kollokationen werden linguistische Textkorpora zur Extraktion von Kollokationen bzw. Kollokationskandidaten oder Kookkurrenzen verwendet. Man stützt sich dabei vorwiegend auf eines der Definitionskriterien für Kollokationen, nämlich das der Gebräuchlichkeit. Wenn eine Wortverbindung gebräuchlich45 ist, bedeutet das, dass sie gebraucht wird, also vorkommt und häufiger vorkommt als nichtkonventionalisierte Verbindungen. Es geht dabei nicht nur um absolute Häufigkeit, sondern auch und vor allem um relative Häufigkeiten: Ein zwar seltenes Wort w ie Amok kommt in der Mehrzahl der Fälle mit laufen vor. Dies deutet auf eine starke Gebrauchsrestriktion für Amok hin bzw. auf eine feste Verbindung zu laufen. Von der anderen Seite her, aus der Perspektive von laufen, ist Amok jedoch kein besonders häufiger Partner, andere Wörter wie schnell oder Strasse sind hier viel zahlreicher. Um auch weniger eindeutige Fälle als Amok laufen erfassen zu können, wurde nach Massen für die Gebräuchlichkeit oder die Festigkeit von Wortverbindungen gesucht. Am verbreitetsten wird dabei mit aus der Statistik entlehnten Mitteln - sogenannten Assoziationsmassen - nach Wortpaaren gesucht, die überzufällig häufig miteinander Vorkommen (cf. 3.2.1). Anfänglich operierte man bei der Kollokationsextraktion mit Assoziationsmassen auf Wortkombinationen, die im gleichen Satz oder in einem bestimmten Wortabstand (z. B. innerhalb einer Spanne von fünf Wörtern) vorkamen. Der grosse Nachteil ist, dass dabei jegliche linguistische Struktur 45 Mit landläufiger Verwendung von gebräuchlich, nicht als definierter Term nach 4.1.3 ab Seite 120. 64 Datengewinnung und -aufbereitung übergangen wird. Neuere Ansätze versuchen, möglichst viel linguistische Information (z. B. die syntaktische Struktur) beizubehalten bzw. sichtbar zu machen, bevor darauf Assoziationsmasse berechnet werden (cf. Abschnitt 3.2.2). Methoden, über binäre Relationen hinauszukommen und Verbindungsstärken zwischen drei und mehr Wörtern zu berechnen, stecken entweder noch in ihren Anfängen (cf. Seretan 2011) oder sind, w ie die Berechnung von n-Grammen (cf. Manning & Schütze 1999: 191ff.), für unsere Zwecke wenig geeignet, da damit nur direkte Wortfolgen berücksichtigt werden können. 3.2.1 Assoziationsmasse Zum Auffinden von besonders häufigen und besonders fest miteinander verbundenen Wortverbindungen durchsucht man Korpora mit statistischen Mitteln nach Wörtern, die signifikant häufiger miteinander Vorkommen, als der Zufall erwarten Hesse. Ganz allgemein wird mit solchen Assoziationsmassen versucht, eine Aussage über die Festigkeit von Wortverbindungen zu machen, eine feste Verbindung nachzuweisen und einzuordnen (cf. Barnbrook 1996; Evert 2005; Manning & Schütze 1999; McEnery, Xiao & Tono 2006; Oakes 1998). Verschiedene Assoziationsmasse haben dabei verschiedene Eigenschaften, sowohl theoretisch als auch in ihrer praktischen Auswirkung. Einige zeigen nur an, dass eine Verbindung besteht oder w ie stark die Evidenz für eine Verbindung ist. Andere geben an, wie stark eine Verbindung ist. Manche eignen sich besonders für seltene Kollokationen, gewisse reagieren sensibel auf die Grösse des Korpus. Pecina (2005) erwähnt und vergleicht über 80 verschiedene Assoziationsmasse, von denen allerdings längst nicht alle gleich oft verwendet werden (cf. auch 3.2.3.5). Gemeinsam ist allen Assoziationsmassen, dass sie nicht direkt über ein statistisches Signifikanzniveau zwischen signifikanten und nicht-signifikanten Verbindungen unterscheiden können. Eines der Hauptprobleme liegt in der Beschaffenheit der Daten, also der Textkorpora. Manning & Schütze (1999) bemerken dazu: [... M]ost bigrams attested in a corpus occur significantly more often than chance. [...] The reason for this [...] is that language if compared with a random word generator - is very regular so that few completely unpredictable events happen. (Manning & Schütze 1999: 166) Textkorpora können also die Zufallsverteilungen (z. B. die Normalverteilung), auf denen statistische Tests aufbauen, nur schlecht bieten (cf. auch Kilgarriff 2005). Die Resultate der eingesetzten Tests und Masse werden deshalb als heuristische Masse eingesetzt, um die einzelnen Wortverbindungen untereinander zu vergleichen und Rangfolgen von Wortverbindungen zu bestimmen. Absolute Grenzen, d. h. Werte eines Assoziationsmasses, ab denen eine Verbindung nicht mehr als fest oder signifikant bezeichnet werden kann, kann man deswegen eigentlich nicht angeben. Hie und da findet man in der Kollokationsextraktion 65 Literatur dennoch vorsichtige Angaben dazu, was in etwa Schwellenwerte sein könnten. Barnbrook (1996: 98) äussert sich in dieser Art z. B. zum T-Score folgendermassen: „Absolute statistical significance is harder to assess with the t-score, but the words with a score of 2 or over are likely to be the most interesting." Einen anderen Weg gehen Pecina & Schlesinger (2006) bzw. Pecina (2010), indem sie eine manuell vorklassifizierte Trainingsmenge an Kollokationen und Nicht-Kollokationen verwenden, um wiederum staüstisch bzw. über ein neuronales Netz eine sinnvolle Grenze zu finden. Da dabei zusätzlich mehrere Assoziationsmasse kombiniert werden, führt dies im konkreten Fall nicht zu einem einzigen Schwellenwert für ein bestimmtes Assoziationsmass. Würde man das Verfahren für einzelne Assoziationsmasse durchspielen, wäre allerdings keineswegs sicher, dass die Resultate sprach- und korpusübergreifend gültig wären - es wäre wohl für jeden Anwendungsfall eine eigene Trainingsmenge nötig. Für die automatische Kollokationsextraktion am häufigsten verwendet wurden bisher die Masse T-Score, Log-Likelihood und Mutual Information. 3.2.1.1 T-Score Der T-Score (cf. Church et al. 1991) ist abgeleitet von Student’s t-test, einem Standardtest in der Statistik zur Ablehnung der Nullhypothese der Unabhängigkeit zweier Variablen unter Normalverteilung. Nach Evert (2005: 82f.) ist der T-Score aus theoreüscher Sicht nicht auf Kookkurrenzfrequenzen anwendbar, zeitige aber erstaunlich gute Ergebnisse. Neben der bereits zitierten Aussage von Barnbrook (1996) zu einem Schwellenwert für den T-Score bei ca. 2 geben auch Manning & Schütze (1999: 164) eine Angabe: Sie nennen den Wert 2.576 für ein Signifikanzniveau von 99.5%, relativieren aber dessen Anwendbarkeit ebenfalls (cf. auch Zitat von Manning & Schütze 1999 im vorherigen Abschnitt). 3.2.1.2 Log-Likelihood Das Log-Likelihood-Mass bzw. der Log-Likelihood-Quotient wurde von Dunning (1993) vorgeschlagen und gehört mittlerweile zu den populärsten und meistverwendeten Assoziationsmassen für die Kollokationsextraktion. Likelihood-Quotienten, zu denen auch der Log-Likelihood-Quotient gehört, geben an, um wie viel wahrscheinlicher eine Hypothese gegenüber einer anderen Hypothese ist. Für die Kollokationsextraktion stellt man die Hypothese, dass zwischen beiden betrachteten Wörtern eine besondere Verbindung existiert, der Hypothese gegenüber, dass eben gerade keine solche Verbindung besteht. Log-Likelihood ist ein Mass, das anzeigt, w ie viel Evidenz dafür vorliegt, dass zw ei Wörter nicht nur zufällig beieinander stehen. Damit ist es auch sensibel auf die Korpusgrösse: Je grösser das zugrundeliegende Korpus, desto sicherer kann über die Zufälligkeit einer Wortverbindung geurteilt wer- 66 Datengewinnung und -aufbereitung den. Solche Grössensensibilität erschwert aber natürlich korpusübergreifende Vergleiche. Manning & Schütze (1999: 174) geben für Log-Likelihood einen Schwellenwert von 7.88 an (für ein Konfidenzniveau von 0.005 bei Freiheitsgrad 1), während Blumenthal, Diwersy & Mielebacher (2005: 56) 10.83 ansetzen (gleiche Argumentation: Konfidenzniveau 0.001, Freiheitsgrad 1). Doch auch hier gilt, dass in der praktischen Anwendung die Rangfolge zählt, die man mit den Log-Likelihood-Weiten herstellt, kaum je ein Schwellenwert. 3.2.1.3 Mutual Information (MI) Mutual Information (MI oder auch pointwise mutual information) wurde als Assoziationsmass von Church & Hanks (1990) eingeführt. Es handelt sich um ein informationstheoretisches Konzept, basierend auf der mathematischen Informationstheorie, die von Shannon (1948) begründet wurde. Der Informationsgehalt eines Ereignisses ist dabei umso höher je seltener und überraschender es ist, umso niedriger, je häufiger es auftritt. Dies entspricht durchaus unserer Alltagserfahrung mit Sprache: Ein häufiges Wort w ie machen gibt uns weniger Information als ein selteneres Wort w ie backen.*6 Höre ich backen, vermute ich schon, dass es um einen Kuchen, Brot oder Ähnliches gehen wird. Wenn ich hingegen machen höre, kann danach von Aufgaben, Ferien, Verträgen oder eben auch von Kuchen die Rede sein. Bei Mutual Information wird nun gemessen, wie viel Information von Kuchen bereits in backen steckt (und umgekehrt) bzw. wie abhängig zwei Variablen voneinander sind oder w ie stark sie sich von einer Zufallsverteilung unterscheiden und w ie überraschend es ist, dass diese beiden Wörter zusammen Vorkommen. Mutual Information ist ein Mass, das angibt, w ie stark die gegenseitige Anziehung zweier Wörter ist. Ein Wert von 1.58 - von Barnbrook (1996: 99) als möglicher sinnvoller Grenzwert angeführt - bedeutet dabei, dass ein Wortpaar dreimal so oft vorkommt w ie unter Zufallsannahme erwartet. Allerdings ist Mutual Information für häufige Wortpaare schlechter geeignet. Seltene Verbindungen werden systematisch bevorzugt, so dass man leichter exotischere Kollokationen findet, sehr häufige oft aber erst auf hinteren Rängen. 3.2.1.4 Salience Die systematische Bevorzugung seltener Kookkurrenzen durch das Mutual- Information-Mass führte zu Abwandlungen, die diesen Umstand wieder zu korrigieren suchten (cf. Evert 2005: 89f£). Eine dieser Varianten von Mutual Information ist das Salience-Mass, vorgeschlagen von Kilgarriff & Tugwell (2002: 130) und in ersten Versionen von Sketch-Engine (cf. Kilgarriff et al. 2004; Kilgarriff & Tugwell 2002) eingesetzt. Bei Salience wird der Mutual- Information-Wert mit dem Logarithmus der Wortpaarfrequenz multipliziert.46 46 Im Schweizer Textkorpus z. B. findet man für machen rund 26600 Treffer, gegenüber rund 360 Treffern für hacken. Kollokationsextraktion 67 So kommen häufige Kookkurrenzen auf einen leicht höheren Wert und rücken in der Rangliste etwas vor - die Werte der zuvor bevorzugten seltenen Wortpaare werden weniger stark erhöht und rutschen so in der Rangfolge etwas nach hinten. 3.2.1.5 Dice und logDice Nachfolger von Salience als dem bei Sketch-Engine eingesetzten Assoziationsmass ist das von Rychly (2008) vorgeschlagene logDice-Mass. Dieses geht zurück auf den schon lange bekannten und aus der Biologie stammenden Dice-Koeffizienten (Dice 1945). Die Variante logDice ist eine Umwandlung davon, mit dem Ziel, für Menschen leicht interpretierbare Werte zu liefern. Die Werte des Dice-Koeffizienten sind typischerweise sehr klein. Mit der Umrechnung werden die meisten Werte in einen Wertebereich zwischen 0 und 10 gebracht, und die Werte werden in Teilen direkt interpretierbar: Comparing two scores, plus 1 point means twice as often collocation, plus 7 points means roughly 100 times frequent collocation. (Rychly 2008: 9) Die Umrechnung ändert aber nichts an der Rangfolge, die der Dicc-Koeffizient herstellt. In der Evaluation von Evert (2008) schneidet Dice zudem sehr gut ab, mit einem gewissen Potenzial, die Vormachtstellung des Log- Likelihood-Masses zu gefährden. 3.2.2 Linguistische Vorverarbeitung Wie erwähnt war anfänglich das Kriterium zur Anwendung obiger Assoziationsmasse meist einfaches Nebeneinandervorkommen von Wortformen in einem bestimmten Abstand oder im selben Satz. Bestenfalls wurden die Korpora noch lemmatisiert - viel mehr linguistische Vorverarbeitung fand nicht statt. Um die Kollokationsextraktionsverfahren zu verbessern, wurde unterdessen nicht nur versucht, die mathematisch-statistischen Mittel zu optimieren (cf. besonders Evert 2005; Pecina 2010), es wird neuerdings auch versucht, mehr linguistische Information in die Extraktionsverfahren einfliessen zu lassen. Heid (2011) bezeichnet dies als den Miteinbezug „symbolischer Ansätze". Da es sich bei Kollokationen nicht einfach um ein NebeneinanderVorkommen von Wörtern, sondern um syntaktische Konstruktionen handelt (cf. 2.1.3), wäre es wünschenswert, sich bei der Kollokationsextraktion auf ebendiese syntaktischen Konstruktionen zu beschränken. Falsche Treffer w ie z. B. Kuchen - trinken mit Belegen wie tja, wir können Kaffee trinken und Kuchen essen könnten damit vermieden werden. Zusätzlich würde man gern semantische Information miteinbeziehen. Solange Homonymie und Polysemie nicht berücksichtigt werden, sind Kollokationen zur Wortform Bank z. B. bunt durcheinandergemischt: Ob es sich um eine Sitzgelegenheit oder um ein Geldinstitut handelt, wird nicht unterschieden. Aber die Vorkommen von Bank - sitzen beeinflussen die Assoziationswerte von Bank - übernehmen, 68 Datengewinnung und -aufbereitung und bei Bank - streichen sind unter Umständen sowohl Malerarbeiten als auch die Streichung von Arbeitsplätzen in ein und derselben Kookkurrenz vereint. Ob in der Kollokationsextraktion mehr linguistische Information berücksichtigt werden kann, hängt entscheidend davon ab, wie gut und leicht diese linguistische Information automatisch erhoben werden kann. Angesichts dessen, dass für die Kollokationsextraktion möglichst grosse Korpora benutzt werden, ist eine manuelle linguistische VorVerarbeitung nicht praktikabel, dieser Schritt muss automatisch vollzogen werden können. Fortschritte bei computerlinguistischen Werkzeugen wie Part-of-Speech-Taggern47 und syntaktischen Parsern haben dazu geführt, dass diese auch in der Kollokationsextraktion vermehrt eingesetzt werden können. Eines der ersten Verfahren, das syntaktische Beziehungen bei der Kollokationsextraktion miteinbezieht, ist der Word-Sketch-Ansatz der Sketch-Engine (cf. Kilgarriff et al. 2004; Kilgarriff & Tugwell 2002). Die Vorverarbeitung der Ausgangskorpora beschränkt sich auf Lemmatisierung und Part-of-Speech- Tagging, beides Schritte, die sehr zuverlässig automatisch erledigt werden können. Mit regulären Ausdrücken (cf. z. B. Jurafsky & Martin 2009: 51ff.) werden anschliessend syntaktische Beziehungen bestimmt. Diese syntaktischen Beziehungen werden als Suchmuster von Wortarten und Lemmata modelliert. Das Muster für Verb + Objekt für das Englische könnte vereinfacht und in Paraphrase z. B. so aussehen: Ein Verb, gefolgt von einem Substantiv, optional mit einem Artikel und/ oder einem Adjektiv zwischen Verb und Substantiv. Solche Regeln sind zwangsläufig immer wortstellungsbezogen, da im Satz keine hierarchischen Beziehungen annotiert wurden. Für Sprachen mit eher fester Wortstellung, wie das Englische, funktioniert dieser Ansatz sehr gut und erfreut sich auch entsprechender Beliebtheit. Bei Sprachen mit freierer Wortstellung macht sich das Nichtannotieren der syntaktischen Struktur schnell bemerkbar - jedenfalls in all den Fällen, w o eine Sprache die Möglichkeit der freien Wortstellung auch ausnutzt. Im Deutschen finden wir z. B. für das Lemmapaar Hund - geben Sätze wie ,Sie g ib t dem Hund Futter' neben ,Dem H und g ib t sie am Abend kein Futter mehr' oder,... nachdem er dem Hund das Futter gegeben hat' und ,Der Hund gib t Laut'. Musterermittlung, die nur auf Wortstellung basiert, greift hier offensichtlich zu kurz (cf. Durco 2010; Ivanova et al. 2008). Besonders der systematische Unterschied in der Wortstellung zwischen Haupt- und Nebensatz bereitet Probleme. Für eine adäquate Bestimmung der grammatischen Beziehungen ist eine differenziertere syntaktische Analyse notwendig. Es gibt dabei die Möglichkeit einer kompletten syntaktischen Analyse (Deep Parsing, cf. z. B. Jurafsky & Martin 2009: 461ff.), oder es können nur die Konstituenten bestimmt werden (Shallow Parsing bzw. Chunking, cf. Abney 1991). Chunking-Versuche bei der Kollokationsextraktion wurden für das Deutsche z. B. von Kermes & Heid (2003) oder Wermter & Hahn (2006) durchgeführt, andere haben mit komplett syntaktisch geparsten Daten operiert. In einer grösseren Untersu- 47 Werkzeuge zum automatischen Zuweisen von Wortarten. Kollokationsextraktion 69 chung kommt so Seretan (2011) zu sehr ermutigenden Ergebnissen. Sie hat ihre Experimente zur syntaxbasierten Kollokationsextraktion für die Sprachen Englisch, Französisch, Spanisch und Italienisch durchgeführt. Für das Deutsche sind ebenfalls schon entsprechende Versuche unternommen und evaluiert worden (cf. Geyken, Didakowski & Siebert 2009; Heid et al. 2008). Sehr viel hängt hier von Qualität und Verfügbarkeit syntaktischer Parser ab. Beides ist für das Deutsche noch nicht zufriedenstellend gegeben. Allgemein muss abgewägt werden, welcher Umfang und welche Komplexität linguistischer VorVerarbeitung sinnvoll ist. Einerseits gewinnt man Information (beispielsweise über die syntaktische Struktur), andererseits sind die eingesetzten Werkzeuge immer auch fehlerbehaftet und liefern so auch Falschinformation. Bei zu viel fehlerhafter Information leidet die Qualität der daraus berechneten Kookkurrenzen unter Umständen so stark, dass eine Berechnung ohne linguistische VorVerarbeitung oder mit einfacherer Vorverarbeitung zu besseren Resultaten führt. 3.2.3 Kollokationsextraktion für das Kollokationenwörterbuch Konkret wurden im vorliegenden Projekt Kookkurrenzen oder Kollokationskandidaten auf zw ei unterschiedliche Arten ermittelt. Für den Bereich der Substantiv-Verb-Kollokationen wurden wortabstandbasierte Kookkurrenzdaten verwendet, für die meisten anderen Kollokationsstrukturmuster wurden in den Korpora mittels Chunking die Satzkonstituenten bestimmt, bevor Assoziationsmasse und Rangfolgen berechnet wurden. 3.2.3.1 Noun-Chunking Für Kollokationsstrukturmuster, die punkto Stellung keine grosse Variation aufweisen, wurden in den Korpustexten mit einem Chunker automatisch nominale Satzkonstituenten bzw. Noun-Chunks (für die genaue Definition cf. Abney 1996) bestimmt. Es handelt sich bei diesen Mustern vor allem um Substantiv-Substantivsowie um Adjektiv-Substantiv-Kollokationen. Substantiv-Substantiv-Verbindungen beinhalten Muster w ie Nominalphrasen mit abhängiger Präpositionalphrase (z. B. ein Brand mit starker Rauchentwicklung), Nominalphrasen mit abhängiger Nominalphrase im Genitiv (z. B. eine Ausbreitung des Brandes) oder Nominalphrasen, verbunden durch eine Konjunktion (z. B. Brände und Explosionen). Diese Muster zeigen in der Wortstellung kaum Variation, die Konstituenten stehen im Normalfall unmittelbar nebeneinander - im Unterschied z. B. zu Verb-Objekt-Verbindungen, in denen das Objekt bezogen auf das Verb unterschiedliche Stellungen einnehmen kann und dies in Haupt- und Nebensatz auch regelmässig tut (cf. Abschnitt 3.2.3.4 zur Behandlung der Verb-Objekt-Verbindungen im Kollokationenwörterbuch). Der Vorteil zu einem rein wortabstandbasierten Verfahren besteht darin, dass die Konstituentengrenzen entscheidend sind, die nicht direkt mit Wortabständen korrelieren müssen. So kommt z. B. für Streit - um - Wort der Beleg 70 Datengewinnung und -aufbereitung Im langen S treit um ein klärendes W o rt zur polnischen Westgrenze [...] korrekterweise mit in die Zählung, während Wer will, kann darin den S treit um die Realität von W orten wiedererkennen nicht mitgezählt wird. Im zweiten Fall ist an der entsprechenden Stelle Streit - um - Realität zu zählen, Wort kommt erst als Attribut zu Realität vor. Wortabstandbasiert würde bei Wortabstand 5 Streit - um - Wort fälschlicherweise mitgezählt. Bei allen im Volltext vorliegenden Korpora, also allen ausser DWDS und Korpus C4 (cf. Abschnitt 3.1), wurde mit dem Parser LoPar48 ein Noun- Chunking zur automatischen Bestimmung nominaler Chunks vorgenommen (cf. Abney 1991; Schmid 2000; Schmid & Schulte im Walde 2000). Die dabei verwendete Grammatik ist in Schulte im Walde (2000) näher beschrieben: Sie wurde auf der Textbasis des Huge German Corpus (HGC) des IMS Stuttgart erstellt, einem rund 200 Millionen Textwörter umfassenden Zeitungskorpus, und folgt für das Chunking den Definitionen und Richtlinien aus Abney (1996). Das Satzfragment ein Streit um die korrekte Schreibweise eines Wortes zeigt sich nach dem Noun-Chunking folgendermassen: <chunk pos="NC.Nom">ein Streit</ chunk> um <chunk pos="NC.Dir">die korrekte Schreibweise</ chunk> <chunk pos="NC.Gen">eines Wortes</ chunk> Nominalphrasen auf der untersten syntaktischen Hierarchieebene werden jeweils markiert und, soweit eruierbar, mit Kasusangaben angereichert (z. B. NC.Nom für Noun Chunk - Nominativ). Nach dem Chunking werden die Korpora wieder mit den Lemmatisierungs- und Part-of-Speech-Informationen des TreeTaggers versehen (cf. 3.1.6), um die Kompatibilität mit den anderen Korpusdaten oder aus Korpora hervorgegangenen Daten zu gewährleisten. Unser Beispiel-Satzfragment wird nach diesem Schritt etwa so zur Kookkurrenzberechnung weitergereicht: Cchunk pos="NC.Nom"> ein ART ein Streit N Streit </ chunk> um APPR um <chunk pos="NC.Dir"> die ART d korrekte ADJ korrekt Schreibweise N Schreibweise </ chunk> <chunk pos="NC.Gen"> eines ART ein48 48 Ein Akronym für Left-comerParserfor (head-lexicalized) probabilisticcontext-free grammars (H)PCFGs. Es handelt sich bei diesem Parser um eine Implementierung von Carroll & Rooth 1998. Kollokationsextraktion 71 Wortes N Wort </ chunk> Hinter den einzelnen Wortformen stehenjetzt zusätzlich das zugehörige Partof-Speech-Tag und Lemma oder Grundform. 3.2.3.2 Kookkurrenzberechnung Aus den Rohdaten werden daraufhin zu zählende Wortverbindungen entnommen, gezählt und für jede Wortverbindung ein Set von Assoziationsmassen berechnet. Im Falle der wortabstandbasierten Kookkurrenzen wurden alle Wortpaare49 innerhalb eines Satzes in einem Fenster von jeweils 5 Wörtern gebildet und gezählt. Für die Daten mit zusätzlichen Chunking-Informationen wurde mit regulären Ausdrücken nach bestimmten Mustern von Chunk- und Wortartenfolgen gesucht: Für das Muster Nominalphrase + Präpositionalphrase z. B. nach einem Substantiv innerhalb eines Noun-Chunks, gefolgt von einer Präposition, gefolgt von einem weiteren Noun-Chunk, und daraus wiederum das Substantiv. Am konkreten Beispiel ein Streit um die korrekte Schreibweise eines Wortes kommt so das Wortpaar Streit - Schreibweise für die Struktur Nominalphrase + Präpositionalphrase mit um zustande (Suchtreffer fett): Cchunk pos="NC.Nom"> ein ART ein Streit N Streit </ chunk> um APPR um Cchunk pos="NC.Dir"> die ART d korrekte ADJ korrekt Schreibweise N Schreibweise </ chunk> Cchunk pos="NC.Gen"> eines ART ein Wortes N Wort < / chunk> Es wurden für alle Wortpaare und alle Strukturmuster die in Abschnitt 3.2.1 aufgeführten Assoziationsmasse T-Score, Log-Likelihood, Mutual Information und Salience berechnet. Die Wahl fiel auf diese Masse, da sie andernorts in vergleichbarem Kontext häufig und mit Erfolg verwendet werden. Zudem sprachen auch praktische Gründe dafür: Die nicht selbst erhobenen (bzw. nicht selbst erhebbaren) Kookkurrenzdaten vom DWDS (cf. 3.1.2) enthielten bereits T-Score, Log-Likelihood und Mutual Information, so dass diese aus einem anderen Kanal stammenden Daten nicht separat für eine Neuberechnung aufbereitet werden mussten. 49 D. h. Paare lemmatisierter Formen. 72 Datengewinnung und -aufbereitung Die Assoziationsmassberechnungen erfolgten mit dem von Stefan Evert entwickelten UCS-Toolkit50. Das UCS-Toolkit verwendet für die statistischen Berechnungen die Programmiersprache R (cf. auch Adler 2010; Gries 2009), die restlichen Teile der Software sind weitgehend in Perl (cf. Wall, Christiansen & Orwant 2000) implementiert (cf. Evert 2005: 94). Vorteile des UCS- Toolkits sind die fixfertigen Funktionen zur Berechnung der Assoziationsmasse, Mittel für das Handling grosser Datenmengen sowie die einfache Integrierbarkeit in vor- und nachgelagerte Prozesse über die Perl-Schnittstelle. Eine Erweiterbarkeit um neue Masse ist ebenfalls gegeben und wurde für das in der Originalversion nicht enthaltene Assoziationsmass Salience (cf. 3.2.1) erfolgreich genutzt. Weitere wichtige Kennzahlen für die Bestimmung lexikografisch relevanter Kollokationen, wenn auch keine Assoziationsmasse im engeren Sinne, sind die absoluten und relativen Häufigkeiten. Die absoluten Häufigkeiten von Kookkurrenzen und Einzellexemen müssen für die Berechnung der Assoziationsmasse sowieso erhoben werden. Sie sind in der Praxis trotz den statistischen Verfahren immer noch wichtige Indikatoren der Gebräuchlichkeit und wurden darum in die Datenbank (cf. auch Abschnitt 4.3) aufgenommen. Die relativen Häufigkeiten werden nicht gespeichert, sondern jeweils direkt bei der Anzeige berechnet. Relative Häufigkeiten geben an, w ie gross der prozentuale Anteil einer Kookkurrenz A -B an allen Vorkommen von Lemma A ist (bzw. Lemma B). Für die wortabstandbasierte Beispielkookkurrenz Ski -fahren sieht es in unserem Web-Korpus so aus, dass, w enn Ski vorkommt, in 15.7% aller Fälle auch fahren vorkommt; umgekehrt, w ennfahren steht, ist nur in 0.3% der Fälle auch das Wort Ski in der Nähe zu finden. Mehl, Langer & Volk (1998) sprechen hier auch von Bindungsstärke. Es handelt sich um ein gutes Mittel, um die Richtung von Bindungen sichtbar zu machen: Ski impliziert oder evoziert fahren, fahren impliziert aber nicht Ski. Symmetrischere Verhältnisse, also keine eindeutige Richtung, bestehen z. B. bei Stadt fahren: Stadt steht in 0.9% der Fälle in der Nähe vonfahren, u n d fahren ebenso in 0.9% der Fälle nahe bei Stadt.51 3.2.3.3 Kookkurrenzrangierung Wie schon in Abschnitt 3.2.1 dargelegt, eignen sich Assoziationsmasse kaum als absolute Klassifikatoren. Man kann also schlecht absolute Grenzwerte festlegen, die zwischen Kollokationen und Nicht-Kollokationen trennen. Stattdessen werden Assoziationsmasse dazu benutzt, eine Rangfolge zu erstellen - von fest zu weniger fest bzw. von hohen Assoziationswerten zu niedrigen. 50 http: / / www.collocations.de/ software.html (29.11.2013). 51 Solche Zahlen sind sehr oft auch stark korpusabhängig: So zeigt das Usenet-Korpus für S t a d t fahren 2.8% und 0.6%, die Bindung ist nach diesen Zahlen also nicht mehr so symmetrisch. Kollokationsextraktion 73 Für das Kollokationenwörterbuch wurden die wortabstandbasierten Kookkurrenzen standardmässig nach Log-Likelihood rangiert. Die chunkbasierten Kookkurrenzen erhalten ihre Standardreihenfolge in Anlehnung an Kilgarriff & Tugwell (2002) nach dem Salience-Mass.52 Jede Kookkurrenz erhält je beteiligtes Lemma und je Korpus eine Rangzahl zwischen 0 (hinterster Rang) und 1 (vorderster Rang). Für die Standardsortierung wird aus den Rangzahlen aller Korpora pro Kookkurrenz das arithmetische Mittel gebildet und als Sortierwert verwendet. Dadurch sind die verschiedenen und auch verschieden grossen Korpora in einer einzigen Zahl berücksichtigt. Natürlich lässt sich darüber streiten, ob dafür das arithmetische Mittel die optimale Möglichkeit ist. Andere Arten der Zusammenführung würden andere Akzente setzen. Für eine effiziente lexikografische Arbeit ist aber wichtig, dass eine zusammenfassende Darstellung der Kookkurrenzen angeboten wird. Das Redaktionssystem (cf. Abschnitt 4.3) erlaubt auch ein direktes Umsortieren nach einzelnen anderen Werten und Korpora, so dass bei Bedarf der Fokus gezielt anders gelegt werden kann. Nehmen wir als Beispiel das Lemma Erfahrung: Die ersten paar Kookkurrenzen des Musters Substantiv mit attributivem Adjektiv53 sind in der Standardsortierung (Durchschnitt der Salience-Ränge aller Korpora) folgende: Erfahrung Erfahrung Erfahrung Erfahrung Erfahrung Erfahrung Erfahrung praktisch langjährig gemacht eigen schlecht bisherig jahrelang Sortieren wir nun nach den Salience-Werten des Schweizer Textkorpus, erhalten wir diese Reihenfolge (in der dritten Spalte jeweils die Salience-Werte): 52 Die Wahl eines je unterschiedlichen Masses mag erstaunen, hatte aber vor allem praktische Gründe. Da bei den wortabstandbasierten Kookkurrenzen direkt Kookkurrenzdaten vom DWDS übernommen werden konnten, wurden die Assoziationsmasse von dort auch direkt übernommen deshalb die Entscheidung für Log-Likelihood. Die chunkbasierten Kookkurrenzen kamen im weiteren Verlauf des Projekts hinzu, und da sowohl das DWDS als auch Sketch-Engine für ihre syntaktisch voranalysierten Kookkurrenzdaten Salience verwendeten, wurde dieses Mass auch im Kollokationenwörterbuch in diesem Bereich zum Standardmass. Die nachträgliche Evaluation in Abschnitt 3.2.3.5 zeigt Genaueres über die Auswirkungen dieser Entscheidungen. 53 Partizipien wie gemacht oder gesammelt sind oft unter den Adjektiven eingeordnet worden. 74 Datengewinnung und -aufbereitung Erfahrung gemacht 9.6 Erfahrung langjährig 7.6 Erfahrung bisherig 5.6 Erfahrung praktisch 5.3 Erfahrung jahrzehntelang 5.2 Erfahrung reich 5.2 Erfahrung gesammelt 5.1 Mit Sortierung nach Salience-Werten des Web-Korpus sieht der oberste Teil der Liste so aus: Erfahrung langjährig 13.3 Erfahrung leidvoll 12.3 Erfahrung gemacht 12.0 Erfahrung traum atisch 11.1 Erfahrung jahrelang 10.4 Erfahrung praktisch 9.8 Erfahrung jahrzehntelang 9.3 Vergleicht man die Einzelsortierungen der einzelnen Korpora mit der Mittelwertsliste, sieht man einige Unterschiede, aber vor allem Gemeinsamkeiten. Bei Sortierung nach Schweizer Textkorpus ist auf den ersten sieben Positionen nicht mehr dabei: eigen (8. Rang), schlecht (9. Rang) und jahrelang (11. Rang). Neu dabei sind jahrzehntelang (11. Rang zusammengefasste Liste), reich (36. Rang) und gesammelt (12. Rang). Bei Sortierung nach Web-Korpus sind in den ersten sieben Rängen nicht mehr vertreten: eigen (11. Rang), schlecht (8. Rang) und bisherig (19. Rang). Neu dabei sind leidvoll (28. Rang zusammengefasste Liste), traumatisch (32. Rang) und jahrzentelang (11. Rang). Die Kookkurrenzen sind selten auf den exakt gleichen Rängen, aber doch sehr oft in den gleichen Regionen der Rangliste. Nur konsultativ noch zw ei weitere Rangfolgen des Web-Korpus nach anderen Werten sortiert - zunächst die ersten Kookkurrenzen nach Log- Likelihood: Erfahrung eigen 16285 Erfahrung langjährig 9888 Erfahrung persönlich 6744 Erfahrung schlecht 6541 Erfahrung praktisch 4962 Erfahrung gemacht 3647 Erfahrung positiv 3305 Und schliesslich die vordersten Kookkurrenzen in einer Rangliste nach der absoluten Häufigkeit im Web-Korpus: Kollokationsextraktion 75 Erfahrung eigen 5595 Erfahrung gut 2298 Erfahrung persönlich 1932 Erfahrung schlecht 1720 Erfahrung langjährig 1503 Erfahrung neu 1239 Erfahrung erst 1086 Auffallend ist bei dieser letzten Liste natürlich, dass fast nur Wörter aufgeführt sind, die auch sonst häufig Vorkommen wie gut, schlecht oder neu. 3.2.3.4 Manuelle Vorauswahl Wie erwähnt wurden für einige Kollokationsstrukturmuster nur wortabstandbasierte Kookkurrenzen verwendet, keine auf linguistisch stärker vorverarbeiteten Daten basierende. Dies betrifft vor allem Substantiv-Verb- und Adverb-Verb-Kollokationen. Substantiv-Verb-Kollokationen etwa teilen sich auf in die Strukturmuster Subjekt + Prädikat, Prädikat + Objekt und Prädikat + Adverbiale. Diese Konstrukhonen zeigen untereinander schon in unmarkierter Position im Hauptsatz grosse Unterschiede in Wortstellung und Abstand (z. B. , Seine Zähne klappern' vs. ,Sie klappert mit den Zähnen'). Komplizierend hinzu kommt die unterschiedliche Wortstellung in Haupt- und Nebensatz (Verbzweitstellung vs. Verbendstellung: ,Sie klappert mit den Zähnen' vs. " dass sie mit den Zähnen klappert') sowie allgemein die Verbzweitstellung im Hauptsatz (, Vor Kälte klapperten seine Zähne"). Mit auf Part-of-Speech-Tags oder Chunks basierenden Mustern kommt man hier schlecht weiter. Eine komplette syntaktische Analyse wäre notwendig. Dafür wurden die Erkennungsraten der heutigen Systeme für das Deutsche jedoch als noch zu niedrig eingestuft. Wehrli (2007: 127) gibt in der Evaluation seines Parsers Fips für das Deutsche einen Anteil von 48% kompletter Analysen an, während für das Englische und das Französische etwa 70% der Sätze vollständig analysiert werden. Deshalb wurde für das Kollokationenwörterbuch bei Substantiv-Verb- und Adverb-Verb-Kollokationen auf wortabstandbasierte Kookkurrenzen zurückgegriffen, mit Lemmatisierung und Part-of-Speech-Tagging als einziger automatischer linguistischer Vorverarbeitung. Aus diesen Kookkurrenzen wurden dann für den Basiswortschatz des Kollokationenwörterbuchs (cf. 4.1.1) manuell jene ausgewählt, die in einer direkten syntaktischen Beziehung zueinander stehen, eine syntaktische Konstruktion bilden. Möglichst zeiteffizient sollte dabei über Konstruktion oder Nicht-Konstruktion entschieden und zudem für den nächsten Arbeitsschritt die Art der syntaktischen Konstruktion weitergegeben werden. Die Umsetzung erfolgte über ein beispielbasiertes System: Der Bearbeiterin oder dem Bearbeiter werden zu einer Kookkurrenz drei Belegsätze aus den Korpora präsentiert. Repräsentiert einer (oder mehrere) dieser Sätze be- 76 Datengewinnung und -aufbereitung reits eine syntaktische Konstruktion, wird er ausgewählt. Damit wird mit einem Klick angezeigt, dass die beiden beteiligten Wörter eine syntaktische Konstruktion bilden und - via Weitergabe des Belegsatzes - um welche es sich handelt. Bestehen Zweifel, können direkt bis zu zehn weitere Belegsätze angezeigt und gegebenenfalls ausgewählt werden. Im Bedarfsfall stehen auch Direktlinks zu den Korpusseiten mit allen Korpusbelegen zur Verfügung. Dieses System erlaubt eine zügige Bearbeitung, da direkt Beispiele ausgewählt werden, und nicht auf eine abstraktere Ebene gewechselt werden muss, um Metainformationen anzugeben. Bei den Beispielsätzen für die manuelle Vorauswahl stellt sich die Frage, w ie diese am sinnvollsten ausgewählt werden. Die drei (bzw. zehn) ausgewählten Beispiele sollten ein möglichst breites Spektrum aller vorhandenen Belege repräsentieren. Es muss z. B. verhindert werden, dass alle ausgewählten Belege Wiederholungen aus einem einzigen Dokument sind. Weiter sollten die Belege nicht zu lang und nicht zu kurz sein: Ganz kurze Belege sind oft nur Satzfragmente, keine ganzen Sätze. Sehr lange Belege sind oft komplexe Satzgefüge oder nicht korrekt segmentierte Textteile und so als einfache Beispiele für eine Kookkurrenz ebenfalls schlecht geeignet Das ideale Beispiel wäre ein kurzer, nicht aber ein minimaler Hauptsatz oder ein einfaches Satzgefüge, w o die Kookkurrenz im Zentrum steht, aber w o dennoch ein wenig Kontext gegeben wird. Mit der automatischen Beispielauswahl aus Korpora haben sich Rychly et al. (2008) unter dem Label GDEX beschäftigt. Sie definieren Eigenschaften, die einen guten Beispielsatz ausmachen, w ie Satzlänge, Komplexität, der Gebrauch geläufiger Wörter etc. Sie übersetzen diese dann in automatisch gut handhabbare Eigenschaften und gewichten diese mithilfe einer manuell klassifizierten Trainingsmenge und einem Maschinenlernverfahren.54 Für die manuelle Vorauswahl der wortabstandbasierten Kookkurrenzen des Kollokationenwörterbuchs wurde eine vereinfachte und leicht abgewandelte Version des GDEX-Verfahrens verwendet, um Beispielsätze zu gewinnen. Maluspunkte wurden vergeben für Treffer mit weniger als 10 oder mehr als 20 Wörtern, für solche, die nicht mit Punkt abschliessen und für solche aus denselben Teilkorpora, demselben Dokument oder derselben Werkkategorie55wie ein anderer, bereits ausgewählter Treffer. Gewisse Vereinfachungen des Verfahrens rühren daher, dass die Aufgabe nicht identisch ist mit derjenigen bei Rychly et al. (2008). Es sollten nicht primär Wörterbuchbeispiele gefunden werden, sondern Beispiele, die den bearbeitenden Personen möglichst gut und effizient erlauben, einen Eindruck vom Anwendungsspektrum einer Kookkurrenz zu erhalten und diesen Eindruck an die nächste bearbeitende Person weiterzugeben. Deshalb ist z. B. die Beschränkung auf häufige Wörter bzw. das Verteilen von Maluspunkten für seltene Wörter, das mit einem relativ grossen Aufwand verbunden wäre, hier nicht nötig. Hingegen 54 Unter http: / / forbetterenglish.com (29.11.2013) gibt es für das Englische eine GDEX-Demo-Seite. 55 Cf. Bickel et al. (2009: 12ff.). Kollokationsextraktion 77 möchte man möglichst rasch sehen, ob eine Kookkurrenz in verschiedenen Teilkorpora oder in verschiedenen Textsorten vorkommt, weshalb diese Kriterien in die Gewichtung miteingeschlossen wurden. Die Gewichtung der Kriterien wurde manuell auf der Grundlage einiger weniger Versuche vorgenommen. Die Beispieldaten entstammen hauptsächlich dem Korpus C4, gewisse auch dem Usenet-Korpus (cf. Abschnitt 3.1). Hauptgrund dafür ist einerseits, dass der Arbeitsschritt der manuellen Vorauswahl in einer sehr frühen Phase des Projekts stattfand, in der das Web-Korpus noch nicht existierte. Andererseits ist für eine Gewichtung von Belegen der Zugriff auf alle Treffer zu einer Kookkurrenz notwendig - entweder über den Volltext oder eine entsprechend angepasste Schnittstelle in der Korpusbenutzeroberfläche. Es wurde letzteres Vorgehen gewählt, da die hauseigenen Korpora56 und das Korpus C4 alle dieselbe Benutzerschnittstelle verwenden, die für das Schweizer Textkorpus entwickelt wurde. So konnte der oben beschriebene Gewichtungsalgorithmus sehr einfach in diese Benutzerschnittstelle integriert werden. 3.2.3.5 Assoziationsmass-Evaluation mit Daten des Kollokationenwörterbuchs Die Auswahl der Assoziationsmasse, die für die Rangierung der Kookkurrenzen zur Erarbeitung des Kollokationenwörterbuchs verwendet wurden, ist in Abschnitt 3.2.3.3 schon näher erläutert worden. Nach der lexikografischen Auswahl der Kollokationen (cf. auch Kapitel 4 zur lexikografischen Umsetzung), können diese nachträglich als Daten für eine Assoziationsmass- Evaluation verwendet werden. Es handelt sich um diejenigen Wortverbindungen, die als lexikografisch relevant taxiert wurden, mithin eine ideale Testmenge für die Evaluation. Der Nachteil besteht natürlich darin, dass eine solche Evaluation erst nachträglich möglich wird und damit kein Einfluss mehr auf die Assoziationsmass-Auswahl genommen werden kann. Ganz allgemein wird als Assoziationsmass Log-Likelihood stark favorisiert (cf. z. B. Evert 2008) - beim Kollokationenwörterbuch wurde es für die Rangierung der wortabstandbasierten Kookkurrenzen genutzt - während andere die aus der Informationstheorie, genauer von Mutual Information abgeleiteten Masse als führend ansehen (cf. Kilgarriff & Tugwell 2002; Pecina 2005) auch dies ist im Kollokationenwörterbuch mit dem Salience-Mass für chunkbasierte Kookkurrenzen berücksichtigt. Weitere sehen den Dice-Koeffizienten als diesen beiden leicht überlegen (cf. Evert 2008; Rychly 2008 im Kollokationenwörterbuch nicht genutzt). Die gesammelten Daten des Kollokationenwörterbuchs haben für eine Assoziationsmass-Evaluation den Vorteil, dass es sich einerseits um praxisrelevante, „echte" Daten handelt und dass sie andererseits zusammen eine grosse 56 Damit sind die dem Projekt im Volltext vorliegenden Korpora (Schweizer Textkorpus, Usenet-Korpus und Web-Korpus) gemeint. 78 Datengewinnung und -aufbereitung Testmenge ergeben, nämlich mehr oder weniger das gesamte Wörterbuch. Nachteilig ist, dass die Daten natürlich nicht unabhängig von den zu evaluierenden Assoziationsmassen entstanden sind. Die Testmenge für die Evaluation besteht aus den rund 50 000 Kollokationen, die zum Zeitpunkt der Evaluation bereits erfasst waren und leicht ihren zugehörigen Kookkurrenzmustern zugeordnet werden konnten. Es sind dies alle Substantiv-Verb-Kollokahonen, alle Adjektiv-Substantiv-Kollokationen, die Adverb-Verb-Verbindungen und von den Substantiv-Substantiv-Verbindungen jene mit dem global häufigsten Muster in diesem Bereich, nämlich Substantive mit abhängigem Genitiv. Als Assoziationsmasse untersucht wurden die absolute Frequenz, M utu al Information, Log-Likelihood, Salience und Dice. An Korpora wurden in diesem Fall exemplarisch zwei berücksichtigt, nämlich das Web-Korpus als das grösste und opportunistischste und das Schweizer Textkorpus als das kleinste und ausgewogenste. Neben einer globalen Evaluation der Masse wurden die Dimensionen typisch und gebräuchlich (cf. Abschnitte 2.1.3 und 4.1.3) separat angeschaut. Als Evaluationsmass verwendet etwa Evert (2008) Precision-Kurven, Pecina (2005) ganz ähnlich Precision-Recall-Kurven. Es handelt sich bei beiden um Masse, welche die Precision (den Anteil Treffer an einer bestimmten Menge; cf. z. B. Jurafsky & Martin 2009: 489) mit dem Recall57 (der Ausbeute oder dem Anteil Treffer an der Gesamtzahl möglicher Treffer) in Beziehung setzen und bevorzugt im Bereich des Information Retrieval verwendet werden. Sowohl Evert als auch Pecina schauen jeweils eine einzige Testmenge und ein ganzes Korpus an. Für das Kollokationenwörterbuch sind die Kookkurrenzlisten jedoch pro Basislemma und Strukturmuster bearbeitet worden, sodass es sich eher anbietet, ein Mass zur Evaluahon vieler solcher Listen gleichzeitig zu verwenden. Eine Möglichkeit sind gemittelte Precision-Recall-Kurven (etwa die 11-point interpolated average precision bei Manning, Raghavan & Schütze 2008: 159). Eine weitere Möglichkeit und die hier verwendete Variante, die den Vorteil hat, dass sich eine einzelne Masszahl ergibt, ist die Average Precision (AP) bzw. die Mean Average Precision (MAP) (cf. Manning, Raghavan & Schütze 2008: 159ff.). Dabei wird die Precision an verschiedenen Punkten gemessen und anschliessend gemittelt. Die Kookkurrenzlisten und die daraus ausgewählten Kollokationen verhalten sich ähnlich w ie eine Suchrangliste mit relevanten und irrelevanten Treffern z. B. einer Websuche. Idealerweise wären alle Kollokationen ganz oben in der Kookkurrenzenliste angesiedelt. Je stärker verteilt die Kollokationen über die Liste sind, desto schlechter ist das entsprechende Assoziationsmass zur Sortierung der Liste geeignet. Zur Ermittlung der Average Precision wird nun bei jedem Treffer (d. h. jeder Kollokation) die jeweilige Pre- 57 Auf eine Übersetzung der Begriffe Precision und Recall wurde bewusst verzichtet nicht zuletzt wegen ebenfalls vorkommender davon abgeleiteter Masse wie Average Precision und Mean Average Precision, für die eine gute und unmissverständliche Übersetzung sehr schwierig würde. Kollokationsextraktion 79 1 . [Kaffee +] trinken 1/ 1 2. kochen 2 / 2 3. sein 4. bringen 3 / 4 5. haben 6. bestellen 4 / 6 Average Precision 0.86 Tab. 5: Beispiel zur Berechnung der Average Precision cision an diesem Punkt berechnet. Tabelle 5 führt die Berechnung an einem konstruierten Musterbeispiel vor: In Zeile 1 erhält man mit genau einer gefundenen Kollokation (jeweils fett gedruckt) auf genau eine Kookkurrenz eine Precision von 1. In Zeile 2, beim nächsten Treffer, ergibt sich wieder eine Precision von 1, da 2 Treffer (Kollokationen) auf 2 Kookkurrenzen kommen. Beim folgenden Treffer in Zeile 4 allerdings kommen drei gefundene Kollokationen auf vier Kookkurrenzen. Es ergibt sich an diesem Punkt eine leicht niedrigere Precision von 0.75. Beim vierten Treffer sind es vier Treffer auf sechs Kookkurrenzen und damit eine Precision von 0.67. Die Average Precision ist nun das arithmetische Mittel aus all diesen Zwischenresultaten. Die Mean Average Precision schliesslich ist das arithmetische Mittel mehrerer Average-Precision-Werte. M A P eignet sich im Information Retrieval zum Vergleich unterschiedlicher Systeme für mehrere Abfragen (cf. Manning, Raghavan & Schütze 2008: 161) oder im vorliegenden Fall für den Vergleich unterschiedlicher Assoziationsmasse für mehrere Kookkurrenzlisten (d. h. Kookkurrenzlisten zu mehreren Lemmata) gleichzeitig. Resultate für das Kollokationenwörterbuch und die oben genannten Assoziationsmasse sind in den Diagrammen58 in Abbildung 3 auf der nächsten Seite zu sehen. Es handelt sich um die M AP-W erte unter verschiedenen Assoziationsmassen für die Substantiv-Verb-Kollokationen und die Adjektiv- Substantiv-Kollokationen des Web-Korpus und des Schweizer Textkorpus. Die MAP-Skala beginnt jeweils bei der Baseline, hier beim Wert, der mit einer Zufallsauswahl erreicht würde (hängt von der Anzahl Kookkurrenzen und der Anzahl ausgewählter Kollokationen ab). Die waagrechte gestrichelte Linie zeigt den M A P-W ert des einfachsten Assoziationsmasses, der absoluten Frequenz, an (übereinstimmend mit dem erstem Balken). Es zeigen sich gewisse Unterschiede zwischen den Substantiv-Verb- und den Adjektiv- Substantiv-Kollokationen. Die Kookkurrenzen für erstere sind wortabstand- 58 In der vorliegenden Arbeit wurden sämtliche statistischen Auswertungen und die zugehörigen Diagramme mit der Statistiksoftware R (cf. R Development Core Team 2011) und diversen Zusatzpaketen dazu (cf. Auguie 2011; Dowie, Short & Lianoglou 2012; Evert & Baroni 2007; Wickham 2007,2009,2011) erstellt. 80 Datengewinnung und -aufbereitung N-V: W eb-Korpus 0 8 0 - N-V: Schweizer Textkorpus A D J-N : Wfeb-Korpus A D J-N : Schweizer Textkorpus Abb. 3: MAP verschiedener Assoziationsmasse für Substantiv-Verbsowie Adjektiv- Subslanliv-Kollokalionen (Web-Korpus und Schweizer Textkorpus) basiert und vorausgewählt (cf. 3.2.3.4), letztere sind chunkbasierte Kookkurrenzen (cf. 3.2.3.1). Durchwegs bestätigt sich die Aussage von Evert (2008), dass die absolute Frequenz erstaunlich gut abschneidet. Bei den wortabstandbasierten Substantiv-Verb-Kollokationen sind jedoch ausser Mutual Information (MI) für das Web-Korpus alle statistischen Assoziationsmasse deutlich leistungsfähiger als die Frequenz allein. Knapp am besten ist hier aber das von M I abgeleitete Salience. Bei den chunkbasierten Adjektiv-Substantiv-Kollokationen ist die Überlegenheit der komplexeren statistischen Assoziationsmasse gegenüber der einfachen Frequenz weniger deutlich: MI fällt klar ab. Salience isl etwa auf gleicher Höhe wie die Frequenz, der Dice- Koeffizient ist leichl besser und deutlich am besten schneidet hier Log-Likelihood ab. Muss man sich für Kollokationsextraktion 81 ein gemeinsames Mass für beide Fälle entscheiden, wird man Log-Likelihood verwenden, wie das die meisten, die Kollokationen extrahieren, tun.59 Unterschiede zwischen den Korpora bestehen ebenfalls. So isl beim Schweizer Tex tkorpus die Frequenz als Rangieru ngskriterium leicht weniger gut geeignet, sodass besonders M I im Vergleich deutlich weiter vorne liegt - bei den Substantiv-Verb-Kollokationen sogar vor der absoluten Frequenz selbst. Abb. 4: MAP verschiedener Assoziationsmasse für typische und gebräuchliche Substantiv-Verbsowie Adjektiv-Substantiv-Kollokationen (Web-Korpus) d9 Nur als Randbemerkung zu der auf Seite 78 angemerkten Nichtunabhängigkeit der Daten: Die wortabstandbasierten Kookkurrenzen wurden nach Log-Likelihood rangiert, die chunkbasierten nach Salience die höchsten A! A/ ’-Worte bringen in der nachträglichen Evaluation nun aber genau die entgegengesetzten Assoziationsmasse. Es wäre also unter Umständen sogar denkbar, dass in der lexikografischen Bearbeitung eine gewisse Scheu bestand, alle obersten Kookkurrenzen als Kollokationen auszuwählen. 82 Datengewinnung und -aufbereitung Zusätzlich stellt sich die Frage, ob die Differenzierung in typische und gebräuchliche Kollokahonen (cf. Abschnitte 2.1.3 und 4.1.3) auch auf Ebene der Zahlen bzw. der Assoziationsmasse sichtbar wird. Abbildung 4 auf der vorherigen Seite zeigt die entsprechenden MAP-Diagramme für die Substantiv- Verb- und die Adjektiv-Substantiv-Kollokationen des Web-Korpus. Der Unterschied zwischen typischen und gebräuchlichen Verbindungen liegt im Wesentlichen darin, dass bei den gebräuchlichen Verbindungen die absolute Frequenz vergleichsweise bessere Ergebnisse liefert. Bei den chunkbasierten Adjektiv-Substantiv-Kollokaüonen liefert die absolute Frequenz derart hohe Werte, dass sie alle anderen Masse ausser Log-Likelihood übertrifft. Ganz überraschend ist dies nicht, da die gebräuchlichen Verbindungen ja genau stärker über die Häufigkeit und weniger über eine spezifische Festigkeit definiert sind als die typischen Verbindungen (cf. 4.1.3). Zusammenfassend bestätigt unsere nachträglich durchgeführte eigene Evaluation weitgehend die Ergebnisse von Evert (2008): Frequenz allein ist erstaunlich gut, Log-Likelihood ist schwer zu schlagen und die Resultate hängen insgesamt stark von der zugrundeliegenden Kollokationsdefinition ab (siehe Diskussion zu typisch vs. gebräuchlich oben). Hinzuzufügen wäre noch, dass in der vorliegenden Evaluation kein Hinweis dafür gefunden werden konnte, dass sich der Dice-Koeffizient (wie von Evert 2008 vermutet) oder ein anderes Mass generell besser eignen würde. Ausserdem scheint wie so oft die Korpusgrösse und -Zusammensetzung eine entscheidende Rolle zu spielen. 3.3 Automatische Komposita-Analyse Damit aus den Korpora heraus eine weitere Verarbeitung der Komposita möglich ist, müssen diese zuerst als Komposita erkannt und analysiert werden. Dies gilt sowohl für die Verwendung im Kollokationenwörterbuch als auch für weiterführende Untersuchungen zum Kompositionsverhalten. Mit Komposita-Analyse ist die Aufteilung eines Kompositums in seine Konstituenten gemeint. Mit diesem Schritt einher, aber logisch voraus, geht die Komposita-Erkennung, die Frage also, ob es sich bei einem bestimmten Wort um ein Kompositum handelt oder nicht.60 Komposita-Analyse ist in computerlinguistischen Kreisen - jenseits allgemeiner morphologischer Analyse - vor allem für die maschinelle Übersetzung ein wichtiges Thema (cf. z. B. Fritzinger & Fraser 2010; Koehn & Knight 2003; Nießen & Ney 2000; Stymne 2008). Gerade für das Deutsche mit seinen zusammengeschriebenen Komposita kann man sich die Bedeutung leicht vergegenwärtigen: Ein dem Übersetzungsprogramm vielleicht unbekanntes und damit unübersetzbares Wort w ie z. B. Herbstfeuer wird in seine Bestandteile Herbst und Feuer zerlegt, die bestenfalls im Lexikon des Programms 60 Da die Komposita-Analyse eine Komposita-Erkennung impliziert, wird letztere im Folgenden nicht mehr explizit angeführt. Automatische Komposita-Analyse 83 enthalten sind, sodass eine Übersetzung versucht werden kann, die im Idealfall ganz korrekt, bestimmt aber besser als gar keine Übersetzung ist.61 Vorangetrieben wurde darüber hinaus die automatische Komposita-Analyse für die Spracherkennung (cf. z. B. Larson et al. 2000), für Information Retrieval (cf. z. B. Hedlund et al. 2001; Monz & de Rijke 2001), für die sogenannte Unterstützte Kommunikation62 (cf. Baroni, Matiasek & Trost 2002) und für die Terminologiextraktion (cf. z. B. Weller et al. 2011). Über die reine Erkennung hinauszugehen und in der Komposita-Analyse zu bestimmen, aus welchen Kompositakonstituenten sich ein Kompositum genau zusammensetzt, ist im vorliegenden Projekt nötig, um Komposita im Wörterbuch analog zu Kollokationen behandeln zu können: Nur so kann ein Kompositum dem richtigen Lemma zugeordnet werden. Ebenso wichtig sind die Analysen in Kompositakonstituenten, um Häufigkeiten und Assoziationsmasse berechnen zu könnnen, sowie um weiterführende Untersuchungen zum Kompositions- und Kollokationsverhalten durchführen zu können. Eine weitere Frage ist die gewünschte Analysetiefe bzw. die Frage, ob in der Analyse auch Derivation berücksichtigt werden soll. Im Wörterbuch aussert sich das darin, ob auch Komposita mit abgeleiteten Formen angegeben werden oder nicht (ob also z. B. unter ansehen auch die Ansichtskarte steht). Würden Komposita mit abgeleiteten Formen angeführt, müssten - eine gute Begründung für Ausnahmen Vorbehalten - auch Kollokationen mit abgeleiteten Formen angeführt werden. Der verwendete Basiswortschatz (cf. 4.1.1) ist, was Derivation angeht, durchmischt, d. h. es wurden keine Ableitungen rückgängig gemacht. So finden sich denn sowohl ansehen als auch Ansicht im Basiswortschatz. Komposita und Kollokationen mit Ansicht sollen deshalb unter Ansicht zu finden sein, und nicht unter ansehen. Angesichts der Datenmengen, welche die verwendeten Korpora mit sich bringen, muss die Komposita-Analyse weitgehend automatisiert erfolgen. Im Folgenden werden einige Möglichkeiten der automatischen Komposita- Analyse vorgestellt (Abschnitte 3.3.1, 3.3.2 und 3.3.3), die für das Projekt gewählte Variante (Abschnitt 3.3.5) und eine kurze Evaluation dieser Methode (Abschnitt 3.3.6). Schliesslich werden auch für Komposita Assoziationsmasse etabliert und evaluiert (Abschnitt 3.3.7). 3.3.1 Musterbasierte Suche Ein sehr einfacher Ansatz, Komposita in ihre Konstituenten zu segmentieren, geht vom reinen Kompositionsgedanken aus und zieht kaum zusätzliches linguistisches Wissen hinzu. Ein Wort w ie Streitfall lässt sich zerlegen in Streit 61 Sprachpaare und -richtungen mit vielen Entlehnungen, wie etwa Englisch - Deutsch, wären hier wohl gesondert zu betrachten, da bei Lehnwörtern eine Nicht-Übersetzung bei Lehnwörtern durchaus besser sein kann. 62 Eine Übersetzung des englischen Alternative and Augmentative Communication (AAC) meist geht es um Kommunikationshilfen für Menschen, die sich nicht der Lautsprache bedienen können. 84 Datengewinnung und -aufbereitung und Fall bzw. fall. Geht man davon aus, dass die überwiegende Mehrzahl der Komposita aus anderen freien Lexemen zusammengesetzt ist, kann man für Bestimmung und Analyse eine einfache Suche nach Wörtern in Wörtern vornehmen. Eine solche Suche kann wiederum sehr unterschiedlich ausgestaltet werden. Für die Verwendung im Kollokationenwörterbuch mit seinem bekannten Ausgangswortschatz wäre es naheliegend, von diesen vorgegebenen Wörtern auszugehen und in anderen Wörtern nach ihnen zu suchen. Für das Lemma Streit würde man also in den Korpuswortlisten nach denjenigen Wörtern suchen, die mit Streit/ streit beginnen oder mit Streit/ streit enden, allenfalls auch nach solchen, bei denen es in der Wortmitte vorkommt. Es könnten nun unter den häufigsten Kandidaten die gewünschten für das Wörterbuch ausgewählt und manuell der richtigen Zweitkonstituente zugeordnet werden. Verlieren bzw. nicht erhalten würde man bei diesem Verfahren Angaben zu Assoziationsstärken sowie Daten zum allgemeinen Kompositionsverhalten eines Lemmas, da die nicht wörterbuchrelevanten Kandidaten nicht weiter analysiert würden. Allerdings stellen einen Flexionsendungen vor Probleme (Rechtsstreites), ebenso andere morphologische Modifikationen wie Fugenelemente (Meinungsstreit■), Elisionen (Grenzstreit), Umlaute (Streitfälle) etc. Ist man weniger streng bezüglich Suchwort am Anfang oder am Ende und erlaubt z. B. Endungen, erhält man für unser Beispiel Streit auch die unerwünschten, da auf Derivationen6364 zurückgehenden Ergebnisse M itstreiter und Gottesstreiter als Treffer - oder sogar Kunstreiter. Um diesen letzten Fall - den Kunstreiter als Sfraf-Kompositum - zu verhindern, bietet sich eine Variante der musterbasierten Suche an, bei der die zu analysierenden Wörter immer vollständig zerlegbar sein müssen. D. h. es wird nicht im zu analysierenden Wort nach einem Suchwort gesucht, sondern es wird versucht, den Kompositumskandidaten komplett aus anderen Wörtern zusammenzusetzen: Kunstreiter kann so aus Kunst und Reiter6i zusammengesetzt werden. Analysen mit Streit oder Streiter entfallen, da nur Kun und kein ganzes Wort mehr übrig bleibt.65 Komposita mit Bestandteilen, die frei nicht Vorkommen (also unikale Morpheme w ie Brom in Brombeere), können auf diese Weise nicht erkannt werden. Eine solche komplette Analyse verhindert zwar einige falsche Treffer, ist aber vom Rechenaufwand her viel komplexer als die einfache Suche nach einem einzigen Suchwort. Es muss potenziell immer nach allen Wörtern des verwendeten Wortschatzes gesucht werden, bzw. sobald ein erster Suchtref- 63 Hier keine direkten Derivationen zu Streit, sondern zum zugehörigen Verb streiten. 64 Gross-/ Kleinschreibung darf nicht unterschieden werden, jedenfalls nicht im Wortinneren. 65 Abhängig davon, woher die Wörter für diese Suche genommen werden, käme kun je nachdem trotzdem vor. Entnimmt man die Wortliste einem Korpus, kann Kun z. B. als Personenname Vorkommen, aus fremdsprachigen Einsprengseln stammen (firm, kun ,wenn' oder dän. kun ,nur‘), oder auch aus einer nicht wieder zusammengesetzten Worttrennung kombiniert mit einer nicht erkannten Ligatur (z. B. von Auskunft als ,Auskun f , mit einem nicht-alphabetisch interpretierten Ligaturzeichenft). Automatische Komposita-Analyse 85 fer da ist, muss mit allen anderen Wörtern nach Möglichkeiten gesucht werden, die Analyse zu vervollständigen. Zudem werden die oben skizzierten Probleme mit morphologischen Modifikationen (Flexionsendungen, Fugenelemente etc.) mit diesem Ansatz nicht gelöst. Dafür sind zusätzliche Regeln notwendig - z. B. welche Zeichenfolgen als Fugenelemente auftauchen dürfen, wie die Flexionsendungen aussehen können und welche Elisionen möglich sind. Um derartige Regeln anwenden zu können, muss das Funktionsspektrum der Analysesoftware erweitert werden: Einfaches Zusammensetzen von Lexemen reicht dazu nicht mehr. Damit wird das Prinzip der einfachen Suchstrategie verlassen und bereits ansatzweise begonnen, den problemrelevanten Teil der deutschen Morphologie zu beschreiben. Es handelt sich auch um eine Annäherung an die im folgenden Abschnitt beschriebenen Morphologiesysteme, die Wörter komplett morphologisch analysieren. 3.3.2 Morphologiesysteme Da es sich bei der Komposition um einen morphologischen Prozess mit entsprechenden morphologischen Modifikationen handelt, könnten für die automatische Analyse auch Systeme eingesetzt werden, die komplette morphologische Analysen durchführen. Dies umso mehr, als andere morphologische Prozesse w ie Flexion und Derivation - w ie oben gesehen - hier auch mit hineinspielen und Probleme bereiten können. Mit einer adäquaten und kompletten morphologischen Analyse wären diese Probleme gelöst. Es sind eine Reihe von Morpologiesystemen für das Deutsche bekannt, die in der Folge kurz vorgestellt werden sollen. Mahlow & Piotrowski (2009a: 87) erachten gestützt auf die Ergebnisse von Morpho Challenge 2008 (cf. Kurimo & Varjokallio 2008) statistisch basierte Systeme für das Deutsche noch nicht als ausgereift genug und berücksichtigen bei ihrer Evaluation von Morphologiesystemen nur regelbasierte Ansätze. Solche Systeme enthalten normalerweise eine Regelmenge und ein Lexikon, sowie eine Komponente zur Auswertung der Regeln. Ein Thema ist, wie so oft, wenn grössere Mengen manuell bearbeiteter Daten im Spiel sind, die allgemeine Verfügbarkeit solcher Systeme. Die folgenden Systeme wurden im vorliegenden Projekt für eine Analyse der Komposita in Betracht gezogen. 3.3.2.1 GERTWOL GERTWOL (cf. Haapalainen & Majorin 1994) ist eines der bekanntesten Morphologiesysteme für das Deutsche. Es verfolgt den Two-Level-Ansatz (cf. Koskenniemi 1983) und verwendet endliche Automaten - Mahlow & Piotrowski (2009a: 89) vermuten im Hintergrund die XFST-Bibliothek (cf. Karttunen, Gaal & Kempe 1998). Das Lexikon soll sehr gross sein, Mahlow & Piotrowski (2009a: 89) zitieren einen Bestand von ca. 150 000 Einträgen. Schmid, Fitschen & Heid (2004: 1263) reihen GERTWOL in die Systeme ein, die sich hauptsächlich auf ein grosses Lexikon stützen. 86 Datengewinnung und -aufbereitung GERTWOL ist ein kommerzielles Produkt der Firma Lingsoft und somit nicht frei verfügbar - es existiert allerdings eine Online-Demoversion66, die den Funktionsumfang demonstriert. 3.3.2.2 Word Manager Word Manager (cf. Domenig & ten Hacken 1992; ten Hacken 2009) ist ebenfalls ein regelbasiertes Morphologiesystem. Es wird von der Firma Canoo67 kommerziell vertrieben. Word Manager verfügt über ein deutsches Lexikon mit ca. 230 000 Einträgen (ten Hacken 2009: 106) und gehört nach Schmid, Fitschen & Heid (2004: 1263) w ie GERTWOL zu den Systemen, die vorwiegend auf grossen Lexika basieren. Zu Word Manager gesellen sich bei Canoo weitere Analysewerkzeuge wie z. B. eine Komponente zur Analyse unbekannter Komposita (cf. Bopp & Pedrazzini 2009). Resultate dieser Analysen können exemplarisch und in laienverständlicher Form unter http: / / w w w .canoo.n et (29.11.2013) angeschaut werden. 3.3.2.3 Deutsche Malaga-Morphologie (DMM/ Stripey Zebra) Die deutsche Malaga-Morphologie DMM (cf. Lorenz 1996) bzw. Stripei/ Zebra68 wurde an der Universität Erlangen entwickelt. Das Morphologiesystem setzt auf dem M A L A GA-Framework auf,69 das den Lefl-Associative-Grammar- Ansatz aus Hausser (2001) umsetzt. In der Evaluation von Mahlow & Piotrowski (2009a) schneidet DMM/ Stripey Zebra sehr gut ab. Das M ALA GA-Framework selbst steht unter einer Open-Source-Lizenz, DMM/ Stripey Zebra, also Lexikon und Grammatik müssen von den Entwicklern separat lizenziert werden. 3.3.2.4 TAGH TAGH (cf. Geyken & Hanneforth 2006) ist ein Morphologiesystem, das für die DWDS- und ZEIT-Korpora entwickelt und vorwiegend dort eingesetzt wurde. TAGH verfügt über ein Wortstammlexikon mit rund 80000 Einträgen und über mehr als 1000 Wortbildungsregeln. Die Erkennungsrate liegt gemäss Geyken & Hanneforth (2006) bei neueren Zeitungstexten bei 99%, bei literarischen Texten bei 98.5%. Realisiert wurde TAGH mit gewichteten endlichen Transduktoren, konkret mit der Potsdamer FST-Bibliothek (Geyken & Hanneforth 2006: 64). Die Auswahl der besten Analyse wird mittels einer Kostenfunktion nach Volk 66 http: / / www2.lingsoft.fi/ cgi-bin/ gertwol (29.11.2013). 67 http: / / www.canoo.com (29.11.2013). 68 N a c h M a h l o w & Piotrowski (2009a) handelt es sich dabei u m den N a m e n der neusten Version. 69 M A L A G A w u r d e entwickelt von Björn Beutel, cf. auch http: / / home.arcor.de/ bjoera-beutel/ malaga/ (29.11.2013). Automatische Komposita-Anälyse 87 (1999) vorgenommen, bei der Anzahl und Art der eingefügten morphologischen Grenzen gewichtet werden. TAGH ist kein frei verfügbares Morphologiesystem, es existiert aber eine Online-Demoversion unter http: / / www . tagh .d e (29.11.2013). 3.3.2.5 Morphisto und SMOR Morphisto wurde im Rahmen des Te.rfGWd-Projektes70 (cf. z. B. Kerzel, Mittelbach & Vitt 2009; Neuroth, Lohmeier & Smith 2011) vom IDS Mannheim entwickelt (cf. Zielinski & Simon 2008; Zielinski, Simon & Wittl 2009). Morphisto verwendet das Morphologiesystem SMOR (cf. Schmid, Fitschen & Heid 2004), das seinerseits auf den SFST-Tools (Stuttgart-Finite-State-Transducer- Tools, cf. Schmid 2006) aufbaut. SMOR wird, abgesehen vom Lexikon, unter einer Open-Source-Lizenz vertrieben. Morphisto liefert denn auch, neben kleineren Regelanpassungen und Patches, vor allem ein vollwertiges Lexikon zu SMOR. Das Morphisto-Lexikon enthält rund 30 000 Formen und steht unter einer Creative-Commons-Lizenz, die es für den nichtkommerziellen Gebrauch freigibt. Morphisto wird weiterhin aktiv gewartet unter h tt p : / / cod e. g o o g le . com/ p/ morphisto/ (29.11.2013). In der Evaluation von Mahlow & Piotrowski (2009a) schneidet Morphisto zwar weniger gut ab als ähnliche Systeme, dies hängt aber sehr stark damit zusammen, dass dort für eine vollständig korrekte Analyse die korrekte Lemmatisierung des Wortes nötig war. Dies leisten SMOR und Morphisto nicht. Es wird lediglich angegeben, aus welchen Bestandteilen ein Wort besteht. Für eine Wortform w ie Mischbatterie findet Morphisto die Analyse mischen<V>Batterie<+NN>71, zeigt also korrekt, dass es sich um ein Kompositum aus dem Verb mischen und dem Substantiv Batterie handelt, gibt aber nicht an, dass die Grundform ebenfalls Mischbatterie wäre. Morphisto und SMOR enthalten keine oder nur eine ganz rudimentäre Möglichkeit, aus mehreren Analysen eines Wortes die beste bzw. die wahrscheinlichste auszuwählen. Standardmässig gibt denn Morphisto alle nach seinem Regelwerk möglichen Analysen aus. Für Seilschaft z. B. wären das folgende Analysen: 72 Seil<NN>Schaft<+NN> Seil<NN>schaft<SUFFX+NN> seilen<V>Schaft<+NN> Seilschaft<+NN> Man sieht hier schön, dass keine Priorisierung stattfindet. Alle Analyse- Ebenen (Seil<NN>schaft<SUFFx+NN> vs. Seilschaft<+NN>) werden gleichbehandelt. Das System neigt zudem zur Übergenerierung, also dem Generieren von zu vielen, nur theoretisch möglichen, aber in der Praxis nicht 70 http: / / www.textgrid.de (29.11.2013). 71 Flexionsendungen sind hier weggelassen. 72 Alle Analysen wieder ohne Flexionsendungen. 88 Datengewinnung und -aufbereitung korrekten oder äusserst unwahrscheinlichen Formen w ie hier mit den beiden Schaft-Komposita Seil<NN>Schaft<+NN> und seilen<V>Schaft<+NN>. Für die meisten Anwendungen, so auch im vorliegenden Projekt, ist eine Priorisierung der Analysen bzw. eine Auswahl der wahrscheinlichsten Analyse aber unabdingbar. Der von verschiedenen Seiten angeprangerte hohe Ressourcenverbrauch zur Kompilierung des endlichen Automaten (cf. Mahlow & Piotrowski 2009a: 91 sowie Morp/ n'sfo-Projekt-Website73) kann hier nicht bestätigt werden: Die Kompilierzeit bewegte sich für das mitgelieferte Lexikon und Regelset im einstelligen Minutenbereich, der Hauptspeicherverbrauch lag immer deutlich unter 1.5 GB. Es ist anzunehmen, dass dies mit Verbesserungen bei SFST74 zusammenhängt. 3.3.2.Ö mOLIFde Bei mOLIFde (cf. Clematide 2008) handelt es sich um ein Morphologiesystem, das sich vor allem dadurch auszeichnet, dass es durchgehend auf offene Standards und Systeme setzt und darauf abzielt, eine offene und frei verfügbare linguistische Ressource anzubieten. Zur Kennzeichnung der Flexionsklassen verwendet mOLIFde das Open Lexicon Interchange Format (OLIF)75, das dem einfacheren Austausch lexikografischer und terminologischer Daten dienen soll. Für einige Sprachen, unter ihnen auch Deutsch, sind bereits Flexionsklassen vorgeschlagen worden (cf. Clematide 2008: 186ff. bzw. McCormick, Lieske & Culum 2004). Fürs Deutsche sind dies gut 700 unterschiedliche Flexionsklassen. Weitere Standards, die befolgt werden, sind die EAGLES-Empfehlungen für deutsche Morphosyntax (EAGLES 1996), die auch Kompatibilität mit dem Stuttgart-Tübingen- TagSet STTS (cf. Schiller, Teufel & Thielen 1999) garantieren (cf. Clematide 2008: 186). Ein Lexikoneintrag besteht lediglich aus Stamm und OLIF-Flexionscode. Dadurch kann das Lexikon auf einfache Weise erweitert werden und Lexika bestehender Systeme, die ebenfalls OLIF unterstützen, können potenziell sehr einfach integriert werden. Für mOLIFde wird xfst76 verwendet. Zwar steht xfst momentan noch nicht unter einer Open-Source-Lizenz dies soll sich aber nach Karttunen (2011: 10) in näherer Zukunft ändern. Das Gesamtsystem mOLIFde selbst war 2011 zum Zeitpunkt der Datenaufbereitung in diesem Projekt ebenfalls noch nicht verfügbar. 73 http: / / code.google.eom/ p/ morphisto (29.11.2013). 74 Eingesetzt w urd e S F S T Version 1.4.3. 75 Cf. http: / / www.olif .net (29.11.2013). 76 X e r o x f i n i t e s t a t e to o l, cf. Beesley & Karttunen (2003) u n d Karttunen, Gaal & K e m p e (1998). A utom atisch e Kom posita-Analyse 89 3.3.3 Statistische Ansätze Statistische Ansätze der Komposita-Analyse ähneln den einfachen musterbasierten Verfahren (cf. 3.3.1) insofern, als sie Komposita auf vergleichsweise einfache Weise, ohne viel linguistisches Wissen, in ihre Bestandteile zu segmentieren versuchen. Diese fehlende Integration linguistischen Wissens ist ein Hauptunterschied zu den regelbasierten Morphologiesystemen (cf. Abschnitt 3.3.2). Ein weiterer Unterschied besteht darin, dass es bei diesen Ansätzen meist nur um die Komposita-Analyse geht und keine komplette morphologische Analyse mit Berücksichtigung von Derivation und Flexion angestrebt wird. Die Hauptcharakteristik solcher Ansätze ist aber, dass die für die Analyse verwendete Information statistisch aus Korpora abgeleitet wird. Generell wird dabei so vorgegangen, dass mögliche Zerlegungen eines Wortes in andere Wörter des Korpus nach Korpushäufigkeiten bewertet werden. Man nimmt an, dass eine Zerlegung in häufigere Bestandteile plausibler ist, als w enn die beteiligten Wörter selten Vorkommen. Zur Komposita-Analyse für den Einsatz in einem Spracherkennungssystem verwenden Larson et al. (2000) aus einem Korpus extrahierte n-Gramme auf Zeichenbasis, um wahrscheinliche Trennstellen zu finden. Gesucht werden dabei n-Gramme, die häufig am Ende von Wörtern stehen, gefolgt von n-Grammen, die oft am Wortanfang Vorkommen. Am Beispiel Friedenspolitik (cf. Larson et al. 2000: 946) wird dies illustriert: An der Trennstelle, zwischen friedens77 und politik, finden wir die Trigramme ens - häufig an Wortenden - und pol - häufig am Wortanfang. Zusätzlich sind einige Regeln zu Wortanfang und -ende des ganzen Wortes und zur minimalen Länge von Kompositakonstituenten notwendig. Monz & de Rijke (2001) streben mittels Komposita-Analyse im Bereich Information Retrieval Verbesserungen bei Sprachen mit produktiver Komposition an. Dabei wird versucht, ein mutmassliches Kompositum durch das Zusammensetzen anderer Wörter des Korpus auszudrücken. Ausser wenigen berücksichtigten Fugenelementen sind keine Modifikationen vorgesehen. Die Analyse geht dabei möglichst tief - aus Autobahnraststätte wird Auto+bahn+rast+stätte (cf. Monz & de Rijke 2001: 266). Diese Zerlegung in die kleinstmöglichen Bestandteile geschieht vor allem im Hinblick auf die angepeilte Anwendung im Information Retrieval. Koehn & Knight (2003) beschäftigen sich mit Komposita-Analyse für die maschinelle Übersetzung. Eine funktionierende Komposita-Analyse erlaubt es, das Lexikon kleiner zu halten, da nicht alle Komposita aufgenommen werden müssen. Zusätzlich können damit neu gebildete Komposita, die in keinem Lexikon verzeichnet sein können, übersetzt werden. Der Ansatz von Koehn & Knight (2003) beginnt ebenfalls mit einer Zerlegung in bekannte Wörter aus dem Korpus, in diesem Fall dem deutsch- 77 Die Unterscheidung in Klein- und Grossschreibung wird für diese Methode aufgehoben. 90 Datengewinnung und -aufbereitung sprachigen Teil des Europarl-Korpus, bestehend aus Protokollen des europäischen Parlaments (cf. Koehn 2002, 2005). Es werden einige Beschränkungen angewendet (cf. Koehn & Knight 2003: 188), d. h. bestimmte Zerlegungen von vornherein unterbunden. Wörter aus weniger als drei Zeichen werden ausgeschlossen, da sonst die Kombinationsmöglichkeiten zu zahlreich werden. Es werden nur Wörter offener Wortklassen, also Substantive, Verben, Adjektive und Adverbien verwendet. Die Wörter geschlossener Wortklassen erscheinen kaum je in produktiver Komposition. Fugenelemente werden alle ohne Einschränkung erlaubt, da es keine einfachen Regeln dafür gibt, wann welches Fugenelement erlaubt ist und wann nicht. Ebenso sind n- und en- Elisionen uneingeschränkt möglich. In den allermeisten Fällen ergibt eine solche Zerlegung, jedenfalls bei längeren Wörtern, mehrere Möglichkeiten. Für das Beispiel Aktionsplan kommen Koehn & Knight (2003: 188) mit ihren Daten auf vier Analysemöglichkeiten: aktionsplan7S, aktion+plan, aktions+plan und akt+ion+plan. Daraus soll nun die beste Analyse ausgewählt werden. Koehn & Knight (2003: 189) schlagen vor, dazu die Worthäufigkeiten zu benutzen: Präferiert werden soll die Analyse mit dem höchsten geometrischen Mittel der Frequenzen ihrer Teilwörter. Für den Aktionsplan ergibt das bei ihnen folgende Werte: aktionsplan (852) —> 852 aktion (960) - plan (710) —> 825.6 aktions (5) - plan (710) —> 59.6 akt (224) - ion (1) - plan (710) -> 54.2 Klar die höchsten Werte erhalten die ungeteilte Form aktionsplan und die Analyse aktion+plan. Ist ein Kompositum häufiger vertreten als seine Bestandteile sonst, schwingt mit dieser Methode die ungeteilte Form obenaus - ein vernünftiger Mechanismus, da man in diesen Fällen oft von einem höheren Lexikalisierungsgrad ausgehen kann.7879 Umgekehrt werden seltenere, aber allenfalls theoretisch mögliche Analysen ausgeschieden,80 desgleichen solche, die auf Fehler in der Korpusvorverarbeitung zurückgehen - w ie das falsch lemmatisierte aktions. Nicht immer führt die Methode zum gewünschten Resultat. Ein Wort wie Freitag etwa, stark lexikalisiert in seiner Bedeutung als Wochentag, besteht aus den zw ei sehr häufigen Lexemen/ rei und tag, sodass die Analysefrei+tag den höchsten Wert erreicht, nicht freitag ohne Segmentierung (cf. Koehn & Knight 2003: 189). Hier zeigt sich, dass je nach Anwendung eine andere Analyse die sinnvollste sein kann. Für die maschinelle Übersetzung ist das unsegmentierte freitag vorzuziehen, da es sich um eine Wochentagsbezeichnung handelt, der in vielen Sprachen ebenfalls ein einzelnes Wort bzw. ein stark 78 Gross- und Kleinschreibung werden wiederum nicht unterschieden. 79 Mit einem höheren Lexikalisierungsgrad steigt auch die Wahrscheinlichkeit, dass die adäquateste Übersetzung keine Eins-zu-eins-Übersetzung der Kompositakonstituenten mehr ist. 80 Die Analyse akt+ion+plan ist dafür kein gutes Beispiel, da ion eigentlich mit einem anderen Fugenelement als s kombiniert würde. Automatische Komposita-Analyse 91 lexikalisiertes Kompositum entspricht (z. B. frz. vendredi, engl. Friday, port, sexta-feird). Für unser Wörterbuch könnte aber durchaus erwünscht sein, dass Freitag bei den Wortverbindungen zu Tag erscheint, da es sich semantisch wie morphologisch unzweifelhaft um einen Tag handelt.81 Popovic, Stein & N ey (2006) vergleichen die Methode von Koehn & Knight (2003) mit einer regelbasierten Komposita-Analyse wie bei Nießen & N ey (2000) und kommen zum Schluss, dass beide Ansätze ähnlich gute Verbesserungen in der Übersetzungsqualität bewirken. Stymne (2008) ergänzt und variiert die Rahmenbedingungen des Ansatzes von Koehn & Knight (2003). Ihre variierten Parameter sind die minimale Wortlänge des zu analysierenden Wortes, die minimale Länge der Kompositakonstituenten, die Bewertungsfunktion (neben dem geometrischen auch das arithmetische Mittel oder möglichst viele Segmentierungen), die maximale Anzahl an Kompositakonstituenten, die verwendeten Fugenelemente und das Übereinstimmen der Wortklasse der letzten Kompositakonstituente mit derjenigen des ganzen Wortes (cf. Stymne 2008: 467). Sie kommt in ihrer Evaluation (cf. Stymne 2008: 470) zum Schluss, dass sich das geometrische Mittel als Bewertungsfunktion, grössere Wort- und Kompositakonstituentenlängen sowie eine Beschränkung der Anzahl Segmentierungen positiv auf die Fehlerrate auswirken. Holz & Biemann (2008) gehen ebenfalls vom Ansatz von Koehn & Knight (2003) aus und variieren diesen in verschiedener Hinsicht. Sie experimentieren mit unterschiedlichen Schwellenwerten für Länge und Häufigkeiten von Bestandteilen. Neu erlauben sie nicht nur andere Wörter aus dem Korpus oder aus einem Lexikon als Kompositakonstituenten, sondern suchen aktiv nach häufigen unanalysierten Komponenten (Suffixe oder Präfixe), um diese dann als mögliche Kompositumsbestandteile einsetzen zu können. Zusätzlich stellen Holz & Biemann (2008) eine Methode vor, mit der automatisch in Korpora Paraphrasen von Komposita gefunden werden können - also z. B. dass ein Schweinsschnitzel ein Schnitzel vom Schwein, ein Kinderschnitzel aber ein Schnitzel fü r Kinder ist (cf. Holz & Biemann 2008: 119). Dabei ist eine Paraphrase ein Ausdruck, in dem die Kompositakonstituenten autonom Vorkommen, und zwar nur mit Funktionswörtern dazwischen, deren Anzahl ein definiertes Maximum nicht überschreiten darf. Kann für eine Komposita- Analyse eine derartige Paraphrase gefunden werden, ist das ein starker Hinw eis darauf, dass sie korrekt ist. Dyer (2009) benötigt die automatische Komposita-Analyse wie viele andere für die maschinelle Übersetzung. Er sucht dabei nicht eine einzige korrekte Lösung, sondern alle linguistisch motivierten Segmentierungen, die zu einer plausiblen Eins-zu-eins-Übersetzung ins Englische führen und führt diese 81 Unter frei würde man den Freitag natürlich nicht wollen, da er etymologisch gesehen der Tag der Freya ist und nichts mit dem Adjektivfrei zu tun hat. Anders verhält es sich bei Freitag als Bezeichnung für einen arbeitsfreien Tag. 92 Datengewinnung und -aufbereitung für die weitere Verarbeitung in einem Wortgraphen82 zusammen (cf. Dyer 2009: 408). Segmentierungsmöglichkeiten erhält Dyer (2009) analog zu Koehn & Knight (2003) mittels Aufteilung der Wörter in andere Wörter im Korpus mit einer minimalen Länge von drei Zeichen. Weiter ist allerdings mit der heuristischen Bewertungsfunktion bei Koehn & Knight (2003) zu wenig klar, welche Analysen in den Wortgraphen eingehen sollen und welche nicht. Dyer (2009) schlägt ein Maschinenlernverfahren vor, mit dessen Hilfe diese Klassifizierung vorgenommen werden soll. Mit Texten aus einigen zufällig ausgewählten deutschsprachigen Zeitungsartikeln fertigt er dazu eine manuell annotierte Traings- und eine Testmenge an. Diese enthalten je den gewünschten Wortgraphen für jedes Wort mit mehr als sechs Zeichen. Als Lernmethode bzw. für die Zuweisung von Wahrscheinlichkeiten zu den einzelnen Analysen - oder genauer zu den Merkmalsvektoren der einzelnen Analysen - bedient er sich der Maximum-Entropie-Methode (cf. z. B. Berger, Deila Pietra & Deila Pietra 1996; Jaynes 1957; Ratnaparkhi 1998, bzw. auch Abschnitt 3.3.5.3). Diese erlaubt ein effizientes Training und das Verwenden vieler verschiedener Merkmale, die sich auch überlappen dürfen (Dyer 2009: 408). Die verwendeten Merkmale sind Messwerte von Eigenschaften der einzelnen Analysen, der Versuch also, eine Segmentierungsmöglichkeit eines Wortes in Zahlen zu fassen. Aus praktischen Gründen, damit die ganze Klassifizierung automatisch vorgenommen werden kann, können nur automatisch erhebbare Merkmale berücksichtigt werden. Als Merkmale wählt Dyer (2009) viele der Kennzahlen aus, die auch Koehn & Knight (2003), Larson et al. (2000) und Stymne (2008) als Parameter oder zur Bewertung benutzt haben. Merkmale, für die Dyer (2009: 410) eine besondere Relevanz festgestellt hat, sind: Vorkommen von Bestandteilen in einer Stoppwortliste, Häufigkeit von Bestandteilen in einem Korpus, Zeichenlänge von Bestandteilen, zeichenbasierte n-Gramm-Wahrscheinlichkeiten von Bestandteilen (cf. Larson et al. 2000) und Anzahl Fugenelemente. Einige der Merkmale sind sprachspezifisch (Fugenelemente und Stoppwortliste), andere können sprachübergreifend angewendet werden.83 Eine separate Evaluation der Komposita-Analyse gibt Dyer (2009) nicht, er evaluiert lediglich das Gesamtsystem anhand der Übersetzungsqualität. 3.3.4 Kombinierte Verfahren Kombinierte oder hybride Verfahren der automatischen Komposita-Analyse versuchen, regelbasierte morphologische Ansätze (cf. 3.3.2) mit statistischen (cf. 3.3.3) zu verbinden. Die Grenzen sind allerdings fliessend. Wie wir gesehen haben, nutzen auch die statistischen Ansätze linguistisches Wissen über 82 Engl. word lattice. 83 Das gelernte Modell soll sogar ohne eigenes Training erstaunlich gut von einer Sprache in die andere übertragbar sein (cf. Dyer 2009: 413). A utom atisch e Kom posita-Analyse 93 die Wortbildung, wenngleich in geringerem Masse. Morphologiesysteme beinhalten ihrerseits ebenfalls implizit Informationen über Gebräuchlichkeit, insofern als häufigere Phänomene und Lexeme besser behandelt sind als seltene - Morphisto z. B. bezieht sein Lexikon explizit aus Korpusfrequenzlisten des DeReKo (cf. Kupietz et al. 2010). Es geht also mehr um einen erhöhten Grad des Einbezugs der unterschiedlichen Ansätze oder um Ergänzungen der regelbasierten morphologischen Ansätze durch statistische (bzw. umgekehrt). Ein häufiges Problem bei regelbasierten Morphologiesystemen ist, dass bei mehreren möglichen Analysen keine Gewichtung vorgenommen wird, welche Analyse die wahrscheinlichste ist, obwohl dies für viele Anwendungen sehr erwünscht oder gar unabdingbar ist. Nicht direkt eine statistische Lösung, sondern eine Bewertungsfunktion, die sich auf Anzahl und Art der morphologischen Grenzen stützt, schlägt Volk (1999) vor. Das von ihm verwendete Morphologiesystem GERTWOL gewichtet seine Analysen ebenfalls nicht. Eine GER TWO L-Analyse der Form Ministern ergibt die zwei Möglichkeiten Mini Iste rn 84 und M inister (Volk 1999: 305). Die Bewertungsfunktion geht von der Beobachtung aus, dass die Form mit der kleinsten internen Komplexität meist die präferierte ist (Volk 1999: 306). Die Bewertung funktioniert folgendermassen: Unabgeleitete Formen werden bevorzugt; danach werden für morphologische Grenzen Maluspunkte vergeben: 4 Punkte für starke, 2 Punkte für schwache Kompositionsgrenzen, 1 Punkt für Derivationsgrenzen. An den Beispielen Hoffnungsträger und Geldwäschereibestimmung soll das Verfahren illustriert werden (cf. Volk 1999: 305ff.). GERTWOL gibt für Hoffnungsträger die zwei AnalysenHoff nung\s#träge undH offnung\s#träg~er. Da bei der ersten Analyse noch von Adjektiv zu Substantiv abgeleitet werden muss, wird die zweite bevorzugt. Bei Geldwäschereibestimmung kommen die Maluspunkte zum Zug. GERTWOL liefert drei Analysen - eine korrekte, eine, bei der in der Wortmitte eine Wäscher-Eibe gesehen wird, und eine letzte mit einer Wäsche-Reibe an der neuralgischen Stelle. Die Analysen inklusive Bewertungen präsentieren sich folgendermassen (Maluspunkte jeweils tiefgestellt neben der morphologischen Grenze, das Punktetotal dann rechts): Geld#4wäsch-ier-iei# 4 be 12stimm-iung -> 13 Punkte Geld# 4 Wäsch-ier# 4 eib~ie# 4 Stimm~iung -> 15 Punkte Geld# 4 Wäsch-ie#4reib~ie# 4 Stimm~iung -> 15 Punkte Die korrekte Analyse erhält mit 13 die wenigsten Maluspunkte und wird als präferiert ausgewählt. Schliesslich behandelt Volk (1999: 307f.) noch das Problem, dass bestimmte sehr seltene Morpheme öfter in den Analysen Vorkommen. Ein Arbeitsamt ist ein Am t, keine Art Samt - ein Arbeitstag ein Tag, 84 GERTWOL unterscheidet starke Kompositionsgrenzen (strong boundaries: #) von schwachen (weak boundaries: I), trennt Fugenelemente mit Backslash ab und markiert Derivationsgrenzen mit Tilde. Zudem werden abgeleitete Formen von unabgeleiteten unterschieden (cf. Volk 1999: 305f. bzw. Flaapalainen & Majorin 1994). 94 Datengewinnung und -aufbereitung kein Stag85. Solche systematischen Fehler werden über eine eigens angelegte Präferenzenliste abgehandelt. Wie erwähnt wird das Verfahren von Volk (1999) zur Bewertung der morphologischen Komplexität auch im Morphologiesystem TAGH (cf. 3.3.2.4) verwendet. Schiller (2005) verwendet ebenfalls ein auf Finite-State-Transduktoren aufbauendes Morphologiesystem. Zur Priorisierung konkurrierender Analysen führt sie Gewichtungen ein. Bevorzugt werden einerseits morphologisch einfachere Analysen, w ie wir das von Volk (1999) oben schon kennen. Andererseits erhalten aber auch Segmente, die in einem Korpus häufiger Vorkommen, ein höheres Gewicht, was nun eine Variante des statistischen Ansatzes von Koehn & Knight (2003) in ein regelbasiertes Morphologiesystem integriert, sodass in beschränktem Masse von einem hybriden oder zumindest von einem mit Korpusdaten angereicherten System gesprochen werden kann. Fritzinger & Fraser (2010) stellen ihren Ansatz einer automatischen Komposita-Analyse explizit als hybrides System vor. Sie analysieren ihre Kompositakandidaten mit SMOR (cf. 3.3.2.5). Die so erhaltenen Analysen priorisieren sie nun in Anwendung des Verfahrens von Koehn & Knight (2003) nach Häufigkeit der Segmente in einem Korpus. Als Häufigkeitsmass übernehmen sie von Koehn & Knight (2003) das geometrische Mittel und logarithmieren es. Analyse log. geom. Mittel Minister | Präsident | W ahl | Kampf 10.42 Minister | Präsident | W ahlkam pf 10.38 M inisterpräsident | Wahl | Kampf 10.21 Minister | Präsident | w ählen | Kampf 10.15 M inisterpräsident | W ahlkam pf 10.04 M inisterpräsident | w ählen | Kampf 9.85 Minister | Präsidentenw ahl | Kampf 9.19 M inisterpräsidentenw ahl | Kampf 7.52 Minister | Präsidentenw ahlkam pf 6.34 M inisterpräsidentenw ahlkam pf 0 Tab. 6: Komposita-Segmentierung nach geometrischem Mittel der Konstituentenhäufigkeiten Für das Beispiel Ministerpräsidentenwahlkampf ergibt sich bei Fritzinger & Fraser (2010: 227) die Analyse M inister IPräsid ent IWahl IKampf als präferierte (cf. Resultate in Tabelle 6). In ihrer Evaluation schneidet der hybride Ansatz besser ab als der rein korpusgestützte von Koehn & Knight (2003) (cf. Fritzinger & Fraser 2010: 229). 85 Nach Wahrig (2000): „Hanf- oder Drahtseil zum Stützen von Masten". Automatische Komposita-Anälyse 95 3.3.5 Hybride Komposita-Analyse für das Kollokationenwörterbuch Für die automatische Komposita-Analyse des Kollokationenwörterbuchs wurde ein von Fritzinger & Fraser (2010) und Dyer (2009) inspiriertes hybrides Verfahren verwendet. Die morphologische Analyse wurde mit Morphisto durchgeführt. Zur Disambiguierung der morphologischen Analysen wurden verschiedene Merkmale erhoben und mittels Maximum-Entropie-Methode gewichtet. Dem Morphologiesystem unbekannte Wörter wurden nach Möglichkeit in andere Wörter aus den Korpora zerlegt und wenn nötig wieder mittels Maximum-Entropie-Methode priorisiert. Im Folgenden wird das Verfahren detaillierter vorgestellt. 3.3.5.1 Morphologiesystem Die wichtigsten Kriterien bei der Wahl eines Morphologiesystems waren Qualität, gute Verfügbarkeit und die Möglichkeit, allenfalls notwendige Anpassungen vornehmen zu können. Die Wahl fiel relativ schnell auf Morphisto (cf. 3.3.2.5), da es sich um ein aktuelles System handelt, das komplett unter Open-Source-Lizenzen steht. Da bei uns Lemmatisierung nicht unbedingt notwendig ist, sondern vor allem die Zuordnung zu Kompositakonstituenten, verfallen die Kritikpunkte, die bei Mahlow & Piotrowski (2009a) zu einer schlechteren Gesamtbewertung geführt hatten, weitgehend. An Morphisto direkt sind nur kleinere eigene Anpassungen vorgenommen worden. Da in unseren Korpora auch Texte aus der Schweiz enthalten sind, sollte für ß unterschiedslos ss erkannt werden. Dies entspricht der schweizerischen Orthografie, ist in Morphisto aber noch nicht umgesetzt. Die Änderung wurde deshalb mit einer zusätzlichen Regel im Finite-State- Transduktor vorgenommen, die ß mit ss ersetzt (und umgekehrt). Damit werden zwar zusätzlich auch Formen, die fälschlicherweise mit ß geschrieben werden, erkannt, was aber ebenfalls ein Vorteil sein kann, da so vermehrt Wörter in alter Rechtschreibung nicht als unbekannt verworfen werden86 und das System robuster gegenüber Orthografiefehlern wird. Eine weitere Anpassung war für Bindestrichkomposita notwendig. Morphisto behandelt diese standardmässig anders als Wörter ohne Bindestrich. Das Bestimmungsglied bzw. alle Teile links vom Bindestrich werden mit geschweiften Klammern markiert, aber ansonsten nicht weiter analysiert oder mit einer Wortartenklasse versehen. Dafür müssen die Teile links vom Bindestrich nicht im Lexikon vorhanden sein, damit das ganze Wort analysiert werden kann. Dies ist insofern sinnvoll, als es sich an dieser Position immer um Bestimmungsglieder handelt und diese häufig aus selteneren Wörtern oder Abkürzungen bestehen. So kann ein WWBZ-Kurs als {WWBZ}-Kurs<+NN> identifiziert werden, obwohl W W BZ nicht im Lexikon ist. Störend ist dabei, dass je nachdem, ob ein Kompositum mit oder ohne Bindestrich geschrieben wird, andere Analysen herauskommen. Das Wort Seeelefant z. B. wird als See<NN>Elefant<+NN> bestimmt und kann so für unseren Fall beiden Diese sind teilweise noch im Lexikon enthalten. 96 Datengewinnung und -aufbereitung Substantiven See und Elefant zugeordnet werden. Mit Bindestrich, also für See-Elefant, erhalten wir { S e e }-E le f ant<+NN> - das Kompositum kann nur noch eindeutig dem Substantiv Elefant zugeordnet werden. Für ein weiteres Beispiel Kavallerie-Pferd ergibt sich {Kavallerie}-Pferd<+NN> als Analyse - ohne Bindestrich, also für Kavalleriepferd, findet Morphisto kein Ergebnis, da Kavallerie nicht im Lexikon ist. Ebenfalls nicht erkannt werden normfremde Schreibungen w ie die Binnengrossschreibung (also SeeElefant oder KavalleriePferd). Für die Zwecke des vorliegenden Projekts wäre eine Gleichbehandlung der unterschiedlichen Kompositaschreibungen wünschenswert. Wichtig ist jedoch zumindest die Gleichbehandlung der Bindestrichschreibung. Andere Schreibungen w ie Binnengrossschreibung oder auch Getrenntschreibung nehmen quantitativ eher eine marginale Rolle ein.87 Die genannten Änderungen wurden jedoch nicht w ie bei derj? / ss-Schreibung direkt an den Regeln von Morphisto vorgenommen. Da ohnehin eine übergeordnete Kontrollapplikation als Schnittstelle zwischen Morphisto und anderen Modulen (wie etwa der Maximum-Entropie-Bibliothek) nötig war, wurde das Abhandeln der unterschiedlichen Varianten rund um die Bindestrich- und Binnengrossschreibung dorthin verlagert. Einerseits sollten allzu starke Eingriffe in das Regelwerk von Morphisto vermieden werden, um mit allfälligen Updates kompatibel bleiben zu können,88 andererseits werden in diesem Teil der Schnittstelle sowieso Morphisto-Analysen in Auftrag gegeben, entgegengenommen und entweder weitergegeben oder nochmals neue Analysevarianten geordert. 3.3.5.2 Konkatenation von Wörtern Für all die Fälle, für die Morphisto keine Analyse fand, wurde als Rückfalllösung die einfache Konkatenation von Wörtern, die in den Korpora Vorkommen, versucht, w ie dies z. B. Koehn & Knight (2003) generell tun. Als mögliche Konstituenten wurden Wörter aus den offenen Wortklassen (Substantive, Verben, Adjektive, Adverbien) mit einer Länge von mindestens vier Zeichen bei Substantiven, Adjektiven und Adverbien bzw. von mindestens fünf Zeichen bei Verben zugelassen. Die Wörter wurden den Kookkurrenzlisten für die Kollokationsextraktion entnommen, weshalb für das Usenet- und das Web-Korpus Wörter mit einer Frequenz unter 3 systematisch fehlen. Erlaubt wurden ausserdem einige Fugenelemente und gewisse Elisionen. Die Regeln dazu wurden für die verschiedenen Wortklassen leicht unterschiedlich ausgestaltet. Für Substantive wurden die Fugenele- 87 In den Usenetkorpora bei Roth (2005: 81) sind Anteile von rund 3% für Binnengrossschreibung und rund 5% für Getrenntschreibung von Komposita zu verzeichnen, während die Bindestrichschreibungen bei gegen 30% liegen. 88 Es wäre ja nicht eine einfache Zusatzregel wie beiß ss, denn Bindestrichschreibungen werden in Morphistobereits gesondert behandelt, sodass diese Sonderbehandlung hätte geändert werden müssen. Automatische Komposita-Anälyse 97 mente e, n, s, en, er und es erlaubt.89 Für Verben wurde nur das Fugenelement e nach den stimmhaften Plosiven h, d und g zugelassen (cf. z. B. Eisenberg 2004: 238), sowie die Elision von en bzw. n in -ern oder -ein, um vom Infinitiv zum Verbstamm zu kommen. Für Adjektive und Adverbien wurden keine Fugenelemente erlaubt. Umgesetzt wurde diese Wortkonkatenation wie bei den meisten Morphologiesystemen auch mittels Finite-State-Transduktor. Die verwendete FST-Bibliothek ist - kompatibel zu Morphisto - diejenige der Stuttgart-Finite- State-Transducer-Tools (SFST) (cf. Schmid 2006). Dies hat den Vorteil, dass der Konkatenations-Transduktor gleich wie Morphisto angesprochen werden kann und keine zweite Schnittstelle benötigt. Prinzipiell wäre auch eine direkte Integration in Morphisto vorstellbar gewesen. Diese Möglichkeit wurde allerdings verworfen. Auf der einen Seite sollten Morplnsfo-Analysen da linguistisch plausibilisiert - Priorität haben, auf der anderen Seite ist die weitere Klassifizierung mittels Maximum-Entropie-Methode nicht für beide Analysevarianten identisch. 3.3.5.3 Maximum-Entropie-Methode zur Disambiguierung Beide obigen Systeme, sowohl das Morphologiesystem Morphisto als auch der einfache Konkatenationstransduktor, generieren potenziell mehrere Analysen pro Wort (und auch konkret tritt dieser Fall häufig ein). Bei mehreren Analysen muss deshalb auf automatischem Weg die beste ausgewählt oder zumindest gänzlich unplausible ausgeschlossen werden können. Für das Kollokationenwörterbuch wurde jeweils eine einzige Analyse pro Wort ausgewählt. Dies vor allem aus Gründen der Übersichtlichkeit. Oft sind zwar mehrere Analysen korrekt (z. B. je nach gewünschter Analysetiefe), aber die Bestimmung der richtigen Anzahl zu berücksichtigender Analysen wäre alles andere als trivial. Die Wahl einer falschen Analyse ist bei nur einer ausgewählten zwar wahrscheinlicher, dafür wird das Problem von Dopplungen im Wörterbuch minimiert, die verstärkt auftreten können, wenn mehrere Analysen pro Wort möglich sind. Da das Kollokationenwörterbuch von einem festgelegten Basiswortschatz ausgeht (cf. 4.1.1), dessen Wörter häufig sind, ist die Gefahr eher klein, dass ein Fehler in einer morphologischen Analyse gerade das häufige Basiswort betrifft. Liegt der Fehler jedoch beim Kollokator, kann dieser in der lexikografischen Bearbeitung relativ einfach korrigiert werden. Dass morphologische Analysen disambiguiert oder priorisiert werden müssen, ist bereits angesprochen und mit verschiedenen Lösungsmöglichkeiten vorgestellt worden. Angelehnt an Dyer (2009) wird die Disambiguierung im vorliegenden Projekt mittels Maximum-Entropie-Methode vorgenom- 89 Nach Langer (1998: 87f.) werden über 95% der Nominatkomposita des Deutschen mit den fünf häufigsten Fugenelementen gebildet, weshalb die hier verwendeten Elemente eine gute Abdeckung erlauben sollten. Bei Einbezug von weiteren Fugenelementen riskiert man entweder beträchtliche Übergenerierung oder muss aufwendig ein komplexes Regelsystem einbauen. 98 Datengewinnung und -aufbereitung men (cf. auch Berger, Deila Pietra & Deila Pietra 1996; Ratnaparkhi 1998). Es handelt sich dabei um ein Maschinenlernverfahren, bei dem auf effiziente Weise viele verschiedene Merkmale genutzt werden können, deren Wirkungsbereiche sich auch überschneiden dürfen (cf. Dyer 2009: 408). Die Trainings- und Testmengen, die für ein Maschinenlernverfahren nötig sind, wurden manuell vorklassifiziert. Dazu wurden aus dem Web- Korpus (cf. Abschnitt 3.1) zufällig rund 10000 Lemmata der offenen Wortklassen ausgewählt. Diese wurden zuerst mit Morphisto analysiert. Gut 50% der Wörter (Types) konnten analysiert werden. Diese Analysen wurden daraufhin manuell auf Korrektheit geprüft und entsprechend annotiert; d. h. entgegen der späteren Verwendung können in diesem Stadium auch mehrere Analysen pro Wort korrekt sein. Dies hängt damit zusammen, dass die beste Analyse je nach Wort sehr unterschiedlich sein kann: Während bei Wandgestaltung nur die auf das Verb zurückgeführte Analyse gefunden wird (Wand<NN>gestalten<V>ung<SUFFX+NN>), erscheinen bei Forschungsmagazin sowohl die Analyse mit Verb (f orschen<V>ung<NNxSUFF>Magazin<+NN>) als auch jene mit abgeleitetem Substantiv (Forschung<NN>Magazin<+NN>). Nähmen wir hier nur jeweils die für unseren Anwendungsfall beste der korrekten Analysen, würde einmal die Variante mit Verb ausgewählt und einmal nicht, was im Training zu sehr uneinheitlichen und unvorhersehbaren Resultaten führen würde. Die von Morphisto nicht erkannten Formen aus der Liste der zufällig ausgewählten Lemmata wurden mit dem Wortkonkatenations-Transduktor (cf. 3.3.5.2) analysiert, um damit wiederum nach manueller Annotierung nach demselben Muster w ie oben die Test- und Trainingsmengen für die Disambiguierung der Wortkonkatenationsanalysen herzustellen. Die Erkennungsrate des Wortkonkatenations-Transduktors liegt technisch bei 100%, da eine Aufteilung in sich selbst, also eine einfache Wiederholung der Wortform, ebenfalls als Analyse zählt. Dabei handelt es sich nicht um einen Fehler, sondern durchaus um ein beabsichtigtes Verhalten, denn es ist nicht von vornherein klar, ob ein zu analysierendes Wort ein Kompositum is t Wenn nicht, ist die einfache Wiederholung der Form oft die richtige Lösung. Bei der manuellen Annotierung wurden allerdings viele Formen entfernt, und zwar solche, die nicht als Wort erkennbar waren (z. B. angesch, krungt - darunter oft auch Eigennamen), offensichtlich fremdsprachige Formen, die nicht als Lehnwörter auftreten (z. B. voisins, refer) und Wörter mit Tipp- und Orthografiefehlern oder absichtlichen Verfremdungen (da diese mit den eingesetzten Mitteln sowieso nicht auf eine entsprechende korrekte Grundform hätten zurückgeführt werden können und es sich nicht wie bei der ß-ss-Alternation um systematische Abweichungen handelt). Die Trainings- und Testmenge umfasste am Ende gut 5000 manuell klassifizierte Formen (2900 Formen mit Morphisto- und 2400 Formen mit Konkatenationsanalysen). Daraus wurden bei beiden je 400 Formen ausgeschieden, die am Schluss als ungesehene Testmenge dienten. Die übrigen 2500 bzw. A utom atisch e Kom posita-Analyse 99 2000 Formen wurden in der Entwicklung des Maximum-Entropie-Klassifizierers wechselweise als Trainings- und Testmenge verwendet Für beide Fälle (Morphisto- oder Wortkonkatenationsanalysen) wurden prinzipiell dieselben Merkmale erhoben. Training und Auswertung erfolgten aber w ie angetönt separat. Im Folgenden werden die verwendeten Merkmale aufgezählt und kurz beschrieben. Morphologische Grenzen; Eine Gruppe von Merkmalen betrifft morphologische Grenzen. Diese Keimzahlen versuchen die in Volk (1999) genannten Faktoren zu berücksichtigen. Erhoben wurden die Anzahl der Morpheme, die Anzahl der Kompositionsgrenzen sowie die Anzahl der Derivationsgrenzen. Aufgrund der Unterschiede zwischen den Morphologiesystemen Morphisto und dem von Volk (1999) genutzten GERTWOL ist nicht dieselbe Unterscheidung in starke und schwache Kompositionsgrenzen möglich (cf. 3.3.4). Stattdessen werden alle Kompositionsgrenzen gleich behandelt. Wird ein Wort als Kompositum analysiert, wird ausserdem versucht, das Fugenelement zu bestimmen. Konkret werden die Analysen mit der Ausgangsform verglichen und die Unterschiede an den Übergängen der entsprechenden Stellen registriert. An dieser Stelle wird auch der Bindestrich als eine Art grafisches Fugenelement berücksichtigt. Wortkategorie: Ebenfalls von Volk (1999) inspiriert ist das Merkmal, das festhält, ob eine Kompositumsform derselben Wortklasse angehört wie ihre letzte Kompositakonstituente. Die Wortklasse für die komplette Form wird dabei von TreeTagger beigesteuert, während diejenigen der Kompositakonstituenten der Morphisto-Analyse entstammen (bzw. im Fall der Wortkonkatenation letztendlich ebenfalls von TreeTagger). Das Merkmal wird in zwei Varianten geführt. Einmal wird die Wortklasse der kompletten Form mit der Wortklasse des letzten Lexems in der Analyse verglichen. In der zweiten Variante werden vor dem Vergleich allfällige Ableitungen des letzten Lexems rückgängig gemacht. Für das Wort Toursieger (Substantiv) und dessen Analyse Tour<NN>siegen<V>er<SUFFX+NN> erhielten wir also im ersten Fall keine Übereinstimmung, da das letzte Lexem ein Verb ist. Im zweiten Fall mit der rückgängig gemachten Ableitung von siegen zu Sieger käme hingegen eine Übereinstimmung zustande. Noch umfassender werden auf dieser Ebene ganze Wortkategorie-Signaturen in ein Merkmal zusammengefasst. Die eben erwähnte Analyse der Form Tour<NN>siegen<V>er<SUFFx+NN> hat die Wortkategorie-Signatur N_V, die Analyse Tour<NN>Sieger<+NN> dementsprechend die Signatur N_N. Diese Signaturen sind den vor allem in der Eigennamenerkennung verwendeten „word shapes" nachempfunden (cf. z. B. Finkei et al. 2004: 88). Morpheme: Der Kompositumskopf sowie die Bestimmungsglieder werden als Ganzes als Merkmale verwendet. Daneben kommen auch Morphem- Anfang und -Ende, d. h. die ersten und letzten maximal drei Zeichen eines beteiligten Morphems zum Einsatz. Letztere werden vor allem in Kombina- 100 Datengewinnung und -aufbereitung tion mit anderen Merkmalen eingesetzt (s. unten bei den Merkmalkombinationen). Korpusfrequenzen: Ein weiteres erhobenes Merkmal ist das logarithmierte geometrische Mittel der Korpusfrequenzen der einzelnen Kompositakonstituenten, wenn sie als freie Formen in den Korpora Vorkommen (mithin das Mass, das Koehn & Knight 2003 benutzen). Es wurden die Häufigkeiten aus den unterschiedlichen Korpora berücksichtigt. Dazu wurden für jede Kompositakonstituente die Häufigkeiten für alle Korpora auf die gleiche Grösse normiert (100 Mio. Wörter) und daraus das arithmetische Mittel berechnet. Diese normierten durchschnittlichen Worthäufigkeiten wurden zur Ermittlung des geometrischen Mittels verwendet, das anschliessend noch logarithmiert wurde. Zeichendistanz: Zusätzliche Merkmale betreffen die Transformationen, die notwendig sind, um von den Kompositakonstituenten zur kompletten Form zu gelangen. Dahinter steckt die Vermutung, dass eine Analyse desto unwahrscheinlicher wird, je komplexer sie ist bzw. je mehr Transformationen sie nötig macht, um aus ihr die zusammengesetzte Form herzustellen. Gemessen wird einerseits der Längenunterschied in Zeichen zwischen der kompletten Form und allen konkatenierten Teilen zusammen. Für Toursieger (10 Zeichen) mit der Analyse Tour<NN>siegen<V>er<SUFFx+NN> (12 Zeichen) ergäbe das einen Unterschied von 2 Zeichen. Als zweites Merkmal dieser Kategorie wird die Levenshtein-Distanz9091 zwischen der kompletten Form und einer aus allen Teilen der Analyse konkatenierten Form bestimmt. Für unser Beispiel Toursieger wäre toursiegener91 die einfach konkatenierte Form der Analyse Tour<NN>siegen<V>er<SUFFx+NN>. Die Levenshtein-Distanz zwischen toursiegener und toursieger beträgt ebenfalls 2, da zw ei Operationen, nämlich die Löschung von e und von n, nötig sind, um von der einen zur anderen Form zu gelangen. Strukturmerkmale: Einige Merkmale beziehen sich darauf, w ie sich eine Wortform bzw. ihre Analysebestandteile an der Oberfläche zeigen. Es sind dies Merkmale w ie die Länge in Anzahl Silben (angenähert über die Zählung aufeinanderfolgender Vokale) oder Konsonantenhäufungen, die öfter eine Kompositionsgrenze anzeigen (cf. Roth 2005: 31). Bei steigender Wortlänge steigt zudem die Wahrscheinlichkeit, dass es sich um ein Kompositum handelt. Relative Merkmale: Schliesslich kommen noch Merkmale hinzu, die sich nicht auf eine einzelne morphologische Analyse beziehen, sondern ein Verhältnis zu anderen Analysen derselben Form angeben. Eines davon, das mit 90 Die Levenshtein-Distanz (nach Levenshtein 1966) gibt an, wieviele Einfügungen, Löschungen und Ersetzungen mindestens notwendig sind, um von einer bestimmten Zeichenkette zu einer bestimmten anderen zu gelangen. 91 Gross-/ Kleinschreibung wird nicht unterschieden. Automatische Komposita-Analyse 101 hoher Wahrscheinlichkeit relevant ist, ist das Merkmal, das angibt, ob es sich bei einer Analyse um die einzige Analyse einer Form handelt oder nicht. Die oben beschriebenen Häufigkeitszahlen sind, auch wenn normiert und geometrisch gemittelt, als absolute Zahlen wenig aussagekräftig. Es interessieren ja weniger die Häufigkeiten als das Verhältnis der Häufigkeiten zu anderen Analysen, damit diese in eine Rangfolge gebracht werden können. Aus diesem Grund wird ein weiteres Merkmal erhoben, das die Differenz zum maximalen geometrischen Mittelwert92 enthält. Wort Analyse geom. Mittel &max Galgenvogel Galgen<NN>Vogel<+NN> 6.90 0 Gal<NN>Gen<NN>Voge1<+NN> 6.24 0.66 Deckhaar decken<V>Haar<+NN> 8.52 0 Deck<NN>Haar<+NN> 7.48 1.04 Tab. 7: Geometrisches Mittel der Häufigkeit und Differenz zum Maximum bei Morphisto-Analysen Als Beispiel seien die zw ei Komposita Galgenvogel und Deckhaar mit je zwei Morpfa'sfo-Analysen in Tabelle 7 angeführt. Die unplausiblere Analyse zu Deckhaar (also Deck<NN>Haar<+NN>) hat ein höheres geometrisches Mittel (7.48) als die plausible Analyse zu Galgenvogel93 (Galgen<NN>Vogel<+NN>; 6.90). Sieht man sich jedoch die relativen Werte an, also die jeweiligen Maxima und die Differenzen dazu, dann erhält in beiden Fällen die plausiblere Analyse den Wert 0. Schwarze Liste: Für Bestandteile, die immer wieder in den Analysen Vorkommen, bei denen es sich jedoch nur um theoretische oder zumindest sehr unwahrscheinliche Analysemöglichkeiten handelt, wird eine Art schwarze Liste geführt. Es geht dabei um Elemente wie Ismus/ <NN>, Erich/ <NN> und Lein/ <NN>, die als Suffixe häufiger Vorkommen als frei (bzw. als Kompositakonstituente), oder um Elemente mit falschen Wortkategorien-Labels wie chen/ <ADJ>, iert/ <ADJ> oder Lung/ <NN>. Sobald in einer Analyse ein solcher Bestandteil erscheint, erhält die Analyse das Merkmal, dass ein Eintrag in der schwarzen Liste besteht. Dieses Merkmal wird ganz normal mit allen anderen Merkmalen mittrainiert und schliesst demnach eine Analyse nicht kategorisch aus, sondern ebenfalls entsprechend den Trainingsdaten. Merkmalkombinationen: Viele der Merkmale ergeben erst in Kombination mit anderen Merkmalen einen Sinn bzw. weisen auf eine korrekte oder eine falsche Analyse hin. Solche Merkmalkombinationen müssen bei der Maximum-Entropie-Methode manuell bestimmt werden. Für das vorliegende Problem der Disambiguierung morphologischer Analysen wurden verschiedene Merkmalkombinationen verwendet: Etwa die Morphemendung, 92 Wie beschrieben ist dieser jeweils normiert und logarithmiert. 93 Gal in der zweiten Analyse ist eine physikalische Einheit der Beschleunigung. 102 Datengewinnung und -aufbereitung kombiniert mit Fugenelement, kombiniert mit dem Anfang des nächsten Morphems, oder z. B. die Wortkategorie der Gesamtform, kombiniert mit der Wortkategorie des Kopfs der Form, oder die Anzahl Kompositionsgrenzen, kombiniert mit der Längendifferenz zwischen Form und Analyse etc. (eine komplette Aufzählung der Kombinationen würde hier zu w eit führen). Umgesetzt wurde die Maximum-Entropie-Klassifizierung in der Programmiersprache Python mithilfe der Maximum-Entropie-Funktionen des NLXK94. Einige der erhobenen Merkmale, wie etwa das geometrische Mittel der Korpushäufigkeiten, nehmen numerische Werte an. Für die Maximum-Entropie- Klassifizierung ist aber nur eine Zuordnung von Labels oder Kategorien zu Klassen möglich, nicht von beliebigen numerischen Werten. Numerische Werte mit einem grösseren Spektrum (reelle Zahlen oder grössere ganzzahlige Werte) müssen deshalb umgewandelt werden. Eine etablierte Technik dafür, die auch im vorliegenden Projekt angewendet wurde, nennt sich Binning oder Bucketing95 (cf. Macskassy et al. 2003). Dabei werden aus Wertebereichen Gruppen gebildet, bildlich gesprochen Behälter, in welche die einzelnen Werte abgefüllt werden. Für das Merkmal der Differenz zum maximalen geometrischen Mittel z. B. wurden sieben solche Wertebereiche festgelegt - einer für Werte zwischen 0.0 und 0.1, einer für Werte zwischen 0.1 und 0.3 usw. mit Schwellenwerten bei 0.5, 1.0, 2.0 und 3.0. Weitere Details zu Training und Evaluation des Maximum-Entropie-Modells folgen in Abschnitt 3.3.6. Wie oben bereits beschrieben, wurden einerseits nicht alle Transformationen über Morphisto bzw. den SFST-Transduktor durchgeführt, und andererseits mussten für die morphologischen Analysen Merkmale erhoben werden, die dann zur Weiterverarbeitung an den Maximum-Entropie-Klassifizierer weiter gereicht wurden. Da die verwendete Maximum-Entropie-Bibliothek in Python geschrieben ist, wurde auch der gesamte eigene Code für die Erhebung der Merkmale und für weitere Transformationen (mit Ausnahme einiger bereits genannter Transformationen, die direkt in SFST eingefügt wurden) ebenfalls in Python geschrieben. In diesen Programmteilen wurde dafür gesorgt, dass alle Formen mit Bindestrichschreibung und Binnengrossschreibung gleich wie zusammengeschriebene Formen behandelt werden. Schliesslich war auch eine Integration von SFST nötig. Da eine existierende Python-Schnittstelle zu SFST, pysfst von Arnold (2006), SFST nur bis Version 1.1 unterstützt, wir aber Version 1.4.3 einsetzten, wurde eine eigene minimale Schnittstelle zum in C++ gehaltenen SFST geschrieben, um Morphisto bzw. SFST direkt aus dem eigenen Python-Code heraus ansprechen zu können. Dafür wurde die Boost- 94 Das Natural Language Toolkit es handelt sich dabei um eine Python-Bibliothek für verschiedenste Aufgaben der Verarbeitung natürlicher Sprache (cf. Bird, Klein & Loper 2009; Bird & Loper 2004). 95 Abgeleitet von den englischen Behälterbezeichnungen bin und bucket. A utom atisch e Kom posita-Analyse 103 Python-Bibliothek eingesetzt (cf. h tt p : / / www.b o o s t. org96 oder Abrahams & Grosse-Kunstleve 2003). Eine wichtige Aufgabe, die ebenfalls in diesen Programmteilen erledigt wird, ist die Rückableitung aufgelöster Derivationen. Wie erwähnt werden Derivationen nicht aufgelöst. Genauer werden sie zwar aufgelöst, am Ende aber wieder rückgängig gemacht. Dieses Vorgehen hat zw ei Hauptgründe: Einerseits analysiert Morphisto Derivationen teilweise und teilweise nicht, ist also hier nicht durchgehend konsistent bzw. gibt in den meisten Fällen beide Analysen. Andererseits ist der verwendete Basiswortschatz des Kollokationenwörterbuchs (cf. 4.1.1) nicht nach morphologischen Kriterien strukturiert: Es kommen darin unterschiedslos morphologisch einfache Lexeme neben Derivationen und Komposita vor. Den Grossteil machen zwar morphologisch einfache Lexeme aus, jedoch mehr aus dem praktischen Grund, dass diese oft auch grundlegend für den Gebrauch einer Sprache sind. Es finden sich aber einige Beispiele, bei denen Derivation und Grundwort im Basiswortschatz vorhanden sind (z. B. behaupten und Behauptung), oder auch nur die Derivation (z. B. Ahnung, nicht aber ahnen). Auf diese Weise können die Komposita demselben Ordnungsprinzip untergeordnet werden, dem die Kollokationen folgen, dass nämlich nur Wortverbindungen zum entsprechenden Basislemma aufgeführt sind, nicht aber Derivationen davon. Technisch gesehen wird dazu der Finite-State-Transduktor von Morphisto umgekehrt, damit er als generierende Komponente fungieren kann. Aufgelöste Derivationen in Analysen werden damit wieder rückgängig gemacht. Der Analyse Schutz<NN>behaupten<V>ung<SUFFx+NN> wird so z. B. der Kopf mit Suffigierung, also behaupten<V>ung<SUFFx+NN>, entnommen und an die generierende Komponente übergeben, die daraus wieder Behauptung<+NN> macht.97 Die beiden Klassifizierer, die am Ende produktiv für die automatische Komposita-Extraktion im Kollokationenwörterbuch genutzt wurden, durchliefen dasselbe Training w ie für die Evaluation (cf. 3.3.6), ausser dass sämtliche manuell annotierten Daten verwendet wurden also auch die vorgehaltenen Testmengen von je 400 Formen, sodass Trainingsmengen im Umfang von 2900 Formen zur Klassifizierung der Morphisto-Analysen und von 2400 Formen zur Klassifizierung der Konkatenationsanalysen zur Verfügung standen. 96 Zuletzt besucht am 29.11.2013. 97 Genau genommen muss der generierenden Komponente die Form inklusive Flexionsendung übergeben werden, d. h. behaupten<V>ung<SUFF><+NNXFem><Nom><Sg>. Zurück kommt eine Form, beziehungsweise im Beispiel auch zwei, nämlich Behauptung und Behauptung, ohne Wortklassenangabe. Daraus wird via Korpushäufigkeit die plausiblere ausgewählt und wieder mit der Wortklassenangabe von vorhin zu Behauptung<+NN> ergänzt. 104 Datengewinnung und -aufbereitung 3.3.6 Evaluation Zur Evaluation des oben beschriebenen Verfahrens wurden die schon vorgestellten manuell annotierten Test- und Trainingsmengen benutzt. Zum Vergleich wurden neben dem Maximum-Entropie-Modell auch die einfachste Analyse, w ie sie SMOR vorschlägt (cf. 3.3.2.5), die einfachste Analyse nach Volk (1999) (cf. Seite 93) sowie die Analyse mit dem maximalen geometrischen Mittel w ie bei Koehn & Knight (2003) (cf. Seite 89) berechnet. Das Maximum-Entropie-Modell wurde mit dem M EGAM-Algorithmus (cf. Daume III2004) trainiert, inkl. Glättung mit Gaußschen A-priori-Wahrscheinlichkeiten (Gaussian prior smoothing, cf. Bender 2002; Chen & Rosenfeld 1999). Die Resultate wurden je mehrfach kreuzvalidiert (Resultate aus dieser Reihe stehen in den Tabellen und Abbildungen unten jeweils unter dem Label dev-test, da diese Test- und Trainingsmengen genau in dieser Form für die Entwicklung des Modells verwendet wurden). Zusätzlich wurde je eine ungesehene Testmenge von 400 Formen (Label test) ausgewertet. Für die anderen Ansätze als die Maximum-Entropie-Methode, die ohne Trainingsmenge auskommen, wurden trotzdem je dieselben Testmengen verwendet. Disambiguierungsmethode korrekt,; ".,. korrekttest Maximum-Entropie-Modell 96.7% ±0.9 95.8% Kostenfunktion nach Volk (1999) 89.8% ±1.6 89.6% SMOR 88.1% ±1.4 88.6% Max. geom. Mittel 77.4% ±0.9 76.4% Baseline (Zufallsauswahl) 73.6% ±1.6 69.0% Tab. 8: Disambiguierung von Morphisto-Analysen In einem ersten Schritt wurden die von Morphisto analysierbaren Formen in einem möglichst anwendungsnahen Szenario getestet: Es sollte die beste Form zurückgegeben und geprüft werden, ob diese unter den korrekten Formen ist oder nicht. Für das Maximum-Entropie-Modell, das eigentlich zwischen korrekt und nicht korrekt zu unterscheiden versucht, wurde bei mehreren als korrekt klassifizierten Formen diejenige genommen, die den höchsten Wahrscheinlichkeitswert für Korrektheit aufwies. Das Maximum-Entropie- Modell wurde für die folgende Auswertung (Teil dev-test) mit rund 2200 der manuell annotierten Formen trainiert, eine Tranche von 250 Formen wurde vom Training ausgenommen und als Testmenge verwendet. Das Ganze wurde zur Kreuzvalidierung zehnfach wiederholt, mit jeweils anderen Teilen als Test- und Trainingsmenge. Für die ungesehene Testmenge von 400 Formen (Label test) wurde das Maximum-Entropie-Modell mit allen 2500 Formen der Entwicklungs-Trainings-Test-Menge trainiert. Als Baseline - um die untere Grenze dessen zu markieren, w as eine Disambiguierungsmethode leisten sollte - wurde pro Form einfach zufällig eine Analyse als die beste ausgewählt. A utom atisch e Kom posita-Analyse 105 Die Resultate der Tests sind Tabelle 8 auf der vorherigen Seite zu entnehmen. Deutlich am besten schneidet das Maximum-Entropie-Modell ab, gefolgt von den beiden Verfahren, welche die morphologisch einfachste Form auswählen. Etwas überraschend liegt die Variante mit dem maximalen geometrischen Mittel der Korpusfrequenzen nur leicht über der Baseline. Häufigkeitsinformationen scheinen beim Ausschluss wenig plausibler Analysen im Falle von Morphisto keinen grossen Beitrag leisten zu können. Die Methode, die zur Disambiguierung von einfach konkatenierten Analysen, vorgestellt wurde (cf. Seite 89), lässt sich offenbar nicht einfach unverändert übernehmen. Bei den anderen Verfahren zeigt sich, dass das komplexere Maximum- Entropie-Modell deutlich besser disambiguiert als die einfacheren Modelle. Weiter interessiert hier natürlich, w ie gut die Verfahren ganz spezifisch Komposita erkennen und analysieren. Die Resultate dazu sind in Tabelle 9 zusammengefasst. Als Masse werden Precision und Recall verwendet (cf. z. B. Jurafsky & Martin 2009: 489). Die Precision gibt an, welcher Anteil der gefundenen Komposita korrekt analysierte sind. Der Recall oder die Abdeckung gibt an, welcher Anteil der in der Testmenge vorhandenen Komposita korrekt analysiert wurde. Disambiguierungsmethode Precision (dev-test) Recall (dev-test) Precision (test) Recall (test) Maximum-Entropie-Modell 96.4%±0.9 96.0% ±1.0 95.2% 95.2% Kostenfunktion (Volk 1999) 88.3%±1.6 87.8% ±1.7 88.5% 88.2% SMOR 86.5%±1.5 88.2% ±1.1 87.2% 88.2% Max. geom. Mittel 74.6%±1.2 75.9% ±1.2 74.9% 75.6% Baseline (Zufallsauswahl) 70.3%±1.9 71.7% ±2.2 66.6% 67.1% Tab. 9: Komposita-Erkennung und -Segmentierung bei Morphisto-Analysen Die Resultate für die Komposita weichen nur unwesentlich von den allgemeinen Ergebnissen (cf. Tabelle 8 auf der vorherigen Seite) ab. Ganz vorn mit über 95% sowohl bei Precision als auch bei Recall liegt das Maximum- Entropie-Modell, gefolgt von den beiden Verfahren, welche die einfachsten Analysen favorisieren, die beide bei Precision und Recall zwischen 85 und 90% aufweisen. Deutlich schlechter und nur wenig besser als die Zufallsauswahl ist auch bei der Komposita-Analyse die Disambiguierung mit dem maximalen geometrischen Mittel. Die zweite Evaluationsreihe wurde unter ähnlichen Voraussetzungen durchgeführt, ausser dass hier die von Morphisto nicht erkannten Formen getestet werden sollten. Es handelt sich also um diejenigen Formen, bei denen versucht wurde, mit einfacher Wortkonkatenation eine Analyse zu erhalten (cf. 3.3.5.2). Für diese wurde mit denselben Merkmalen w ie für die Morphisto-Analysen ein separates Maximum-Entropie-Modell trainiert. Für die Wortkonkatenationsanalysen nicht mehr durchgeführt wurden die beiden Verfahren, die nach der morphologisch einfachsten Form suchen. Da bei 106 Datengewinnung und -aufbereitung den Wortkonkatenationsanalysen immer auch die ganze Form aufgeführt ist, ist diese gleichzeitig auch die morphologisch einfachste Form und würde von den beiden Verfahren immer ausgewählt. Komposita könnten so keine erkannt werden, sodass man die beiden Verfahren hier a priori als ungeeignet ausschliessen muss. Die Trainingsmenge bestand aus 1800 Formen, die Testmenge aus 200 Formen. Die Trainings und Tests wurden wieder mit zehnfacher Kreuzvalidierung durchgeführt (Satz dev-test). Eine ungesehene Testmenge im Umfang von 400 Formen wurde hier ebenfalls am Schluss ausgewertet (Label test). Die Resultate für die Gesamterkennungsraten stehen in Tabelle 10. Disambiguierungsmethode korrektde„-iesi korrekttest Maximum-Entropie-Modell 88.7% ±3.0 88.0% Max. geom. Mittel 75.4% ±3.7 74.3% Baseline (Zufallsauswahl) 54.0% ±2.5 52.8% Tab. 10: Disambiguierung von Konkatenationsanalysen Gut sichtbar ist, dass beide verbleibenden Verfahren markant besser als die Baseline disambiguieren, das Maximum-Entropie-Modell deutlich besser als das maximale geometrische Mittel. Vergleicht man mit den Morphisto- Analysen (Tabelle 9 auf der vorherigen Seite), Hegt die Erkennungsrate beim Maximum-Entropie-Modell rund sieben Prozentpunkte tiefer, während sie beim maximalen geometrischen Mittel in etwa konstant bleibt. Das maximale geometrische Mittel scheint also eher ein Mittel zu sein, um freie Konkatenationsanalysen zu disambiguieren. Die Baseline ist hier deutlich tiefer, was darauf hindeutet, dass beim freien Konkatenieren viel stärker übergeneriert wird, d. h. insgesamt mehr Formen pro Lemma generiert werden. Dies macht automatisch den Disambiguierungsprozess schwieriger, da mehr Auswahlmöglichkeiten vorliegen. Die Ergebnisse spezifisch zu Komposita, d. h. Precision und Recall der Komposita-Analysen, sind in Tabelle 11 zusammengefasst Disambiguierungsmethode Precision (dev-test) Recall (dev-test) Precision (test) Recall (test) Maximum-Entropie-Modell 82.7%±6.2 83.5% ±7.1 79.7% 81.5% Max. geom. Mittel 55.4%±5.6 79.3% ±5.7 54.4% 77.8% Baseline (Zufallsauswahl) 20.7%±4.3 25.0% ±6.0 19.0% 24.4% Tab. 11: Komposita-Erkennung und -Segmentierung bei Konkatenationsanalysen Der Recall liegt beim Maximum-Entropie-Modell und beim maximalen geometrischen Mittel bei rund 80%, d. h. rund 80% der Komposita in der Testmenge werden korrekt aufgefunden. Die Precision ist beim Maximum-Entropie-Modell jedoch deutlich höher als beim maximalen geometrischen Mittel Automatische Komposita-Analyse 107 (mit ca. 80% gegenüber ca. 55%) - die gefundenen Komposita sind bei ersterem also viel häufiger auch korrekt analysierte Komposita. Nachdem sich gezeigt hat, dass sich das vorgestellte Maximum-Entropie- Modell zur Disambiguierung sowohl der Morphistoals auch der einfachen Konkatenationsanalysen am besten eignet, ist ein nächster Schritt, die Grösse der Trainingsmenge zu evaluieren und sicherzustellen, dass das Modell nicht übertrainiert wird (Übertraining oder Overfitting, cf. z. B. Johnson 2008). Da die Trainingsmengen manuell annotiert werden, muss man bei einer gewünschten Vergrösserung immer zwischen erwartetem Zusatzertrag und nötigem Zusatzaufwand abwägen. Deshalb soll für die beiden obigen Evaluationsreihen untersucht werden, w ie sich unterschiedlich grosse Trainingsmengen auf die Diskriminierungsleistung des Modells auswirken und ob sich allenfalls eine Vergrösserung der Trainingsmenge aufdrängt. Zuerst zeigt Abbildung 5 auf der nächsten Seite für die Disambiguierung der Morphisto-Analysen die allgemeine Erkennungsrate - also die angepassten Masse aus Tabelle 8 auf Seite 104 - mit zunehmender Grösse der Trainingsmenge (ab 100 in lOOer-Schritten zunehmend, davor in kleineren Schritten). Die Rahmenbedingungen sind ansonsten identisch mit denjenigen für das Training des Maximum-Entropie-Modells in Tabelle 8, also zehnfache Kreuzvalidierung und jeweils eine Testmenge von 250 Lemmata (dev-test: gestrichelte Linie mit Standardabweichung), bzw. die ungesehene Testmenge von 400 Lemmata (test schwarze Punkte). Aus dem Diagramm ist abzulesen, dass die Erkennungsrate ab einer Traingsmenge von rund 800 Formen nur noch sehr langsam weiter ansteigt. Für die allgemeine Erkennungsrate bei Morphisto-Analysen ist die Trainingsmenge von rund 2500 Formen98 in dieser Konfiguration also gross genug, bzw. merkliche Verbesserungen können kaum durch eine vergrösserte Trainingsmenge erreicht werden. Ausserdem kann ein leichtes Übertraining, also eine Überanpassung des Modells an die Trainingsdaten vermutet werden. Das lassen die durchgehend leicht niedrigeren Erkennungsraten für die ungesehene Testmenge vermuten. Allerdings sind die Werte mit meist etwa 1-2% unterhalb des Durchschnitts der Erkennungsrate für die Entwicklungstestmengen nicht alarmierend niedrig. Die entsprechende Testmenge umfasst 400 Formen, sodass eine Abweichung von 1% bedeutet, dass vier Formen anders klassifiziert wurden: Eine zufällige Abweichung in den Daten kann so nicht ganz ausgeschlossen werden. Da die Erkennungsrate mit der gesamten Trainingsmenge von 2500 Formen bei 95.8% (cf. Tabelle 8) und damit weit über den anderen Verfahren liegt, wurde die erwähnte Abweichung, die auf ein leichtes Übertraining hinweist, nicht weiter untersucht. 98 Bzw. knapp 3000 Formen, wenn für den Produktivklassifizierer auch die 400-Formen- Testmenge mit als Trainingsmenge benutzt wird. 108 Datengewinnung und -aufbereitung LU 90% - 88 % - 20 300 500 1000 1500 2000 Grösse Trainingsmenge Abb. 5: Erkennungsrate Maximum-Entropie-Modell für Morphisto-Analysen nach Grösse der Trainingsmenge 98 % - “ ■ 90 % - ; 88 %. - 8 6 % - . 2 0 ' 30 0 50 0 1000 1500 2000 Grösse Trainingsmenge 98 % - 90 % - | 88 % - 86 % - * 2 0 ' 300 500 1000 1500 2000 Grösse Trainingsmenge Abb. 6: Precision und Recall für Morphisto-Analysen von Komposita nach Grösse der Trainingsmenge Erkennungsrate Automatische Komposita-Analyse 109 90 % - 85 % - ■ • • * • • 80% - 75 % i > i i 70% i i i i i 20100 500 1000 1500 Grösse Trainingsmenge Abb. 7: E rk e n n u n g sra te M aximum-Entropie-Modell für Konkatenationsanalysen n a c h Grösse der Trainingsm enge 90% - 80% - : 70% - 60% - • ♦ - - - • / i i i r V • • i ii i i i i 1 2 0 300 5 0 0 1000 1500 G rösse Trainingsm enge 90% - 80%- ^ 70% - 60% - > 20' 300 500 1000 1500 Grösse Trainingsmenge Abb. 8: Precision u n d Recall für Konkatenationsanalysen von Komposita nach Grösse d e r Trainingsm enge 110 Datengewinnung und -aufbereitung Bei Precision und Recall für die Komposita alleine (cf. auch Tabelle 9 auf Seite 105) zeigt sich in Abbildung 6 auf Seite 108 ein ganz ähnliches Bild: Ab einer Trainingsmenge von gegen 1000 Formen steigt die Disambiguierungsleistung nur noch sehr langsam weiter an. Bis dahin zeigen jedoch beide Werte einen etwa parallelen Trainingsverlauf. Auch diese Werte weisen nicht daraufhin, dass deutliche Verbesserungen via moderat vergrösserte Trainingsmengen zu erwarten wären. Dieselben Zahlen wurden als nächstes für das Maximum-Entropie-Modell zur Disambiguierung der Konkatenationsanalysen erhoben (entsprechend den Zahlen aus Tabelle 9). Die Trainingsreihen wurden wiederum mit zehnfacher Kreuzvalidierung durchgeführt. Die Testmenge war hier nur 200 Lemmata gross, da auch die gesamte Trainings- und Testmenge mit 2000 annotierten Formen etwas kleiner war als diejenige für die Morphisfo-Analysen (dev-test: gestrichelte Linie mit Band für Standardabweichung). Mit 400 Formen gleich gross war die ungesehene Testmenge (test: schwarze Punkte). Abbildung 7 auf der vorherigen Seite zeigt die Entwicklung der Gesamterkennungsrate mit zunehmender Grösse der Trainingsmenge. Die Trainingsmenge scheint auch hier ausreichend gross gewählt. Die Erkennungsrate nimmt je nach Interpretation ab ca. 300 Formen oder dann ab 1000 Formen nur noch sehr wenig zu. Bei Precision und Recall der Komposita-Analysen in Abbildung 8 auf der vorherigen Seite (cf. auch Tabelle 11 auf Seite 106) präsentiert sich die Situation leicht anders. Die Precision nimmt bereits ab etwa 200 Formen nur noch marginal zu. Der Recall hingegen steigt ab etwa 300 Formen bis zum evaluierten Maximum von 1800 Formen kontinuierlich an - ein Hinweis darauf, dass hier wortbasierte Features von besonderem Nutzen sind. Zusammenfassend lässt sich sagen, dass für die vorliegende Anwendung die bereitgestellten Trainingsmengen von 2000-3000 Formen ausreichen, um ein Maximum-Entropie-Modell mit den verwendeten Parametern zu trainieren, das eine ansprechende Disambiguierungsleistung liefern kann - dies sowohl für die Konkatenationsals auch für die Morphisto-A nalysen. In der ganzen Evaluation hat sich zudem gezeigt, dass das gewählte Verfahren für die vorliegende Anwendung anderen Ansätzen überlegen ist. Das mehrstufige hybride Verfahren erlaubt den Einsatz von Morphologiesystemen und einfachen Konkatenationsanalysen, w enn keine morphologische Analyse gefunden wird. Mit den zw ei nachgeschalteten Maximum-Entropie- Modellen zur Auswahl der besten Analyse kann zudem für beide Analysewege eine einheitliche Methode angewendet werden. Dadurch, dass je ein separates Maximum-Entropie-Modell trainiert wird, kann aber den spezifischen Gegebenheiten der beiden Verarbeitungsverfahren Rechnung getragen werden. Automatische Komposita-A nah/ se 111 3.3.7 Assoziationsmasse für Komposita Ob ein Wort im Deutschen ein Kompositum ist oder nicht, lässt sich relativ gut bestimmen (z. B. im Schriftlichen über die Zusammenschreibung). Zu entscheiden, welche Komposita lexikografisch relevant sind (allgemein und im Speziellen hier für unser Wörterbuch), ist ungleich schwieriger. Da Okkasionalismen nicht lexikografisch erfasst werden sollen, geht es darum, lexikalisierte Bildungen von Ad-hoc-Komposita zu trennen. Anders ist die Lage in Sprachen ohne Zusammenschreibung von Komposita. Die Identifikation ist schwieriger, dafür werden Komposita zusammen mit Kollokationen als Wortpaare oder Mehrworteinheiten bestimmt und mit denselben statistischen Assoziationsmassen identifiziert bzw. in eine Rangfolge nach Assoziationsstärke gebracht (cf. Evert 2005; Pirrelli, Guevara & Baroni 2010 oder z. B. Saif & A z iz 2011 fürs Arabische). Eine Rangfolge nach Assoziationsstärke wäre auch für die zusammengeschriebenen deutschen Komposita wünschenswert, um stärker lexikalisierte von weniger stark lexikalisierten Bildungen zu unterscheiden. Das Modell der Assoziationsmasse für Kookkurrenzen muss nur leicht angepasst werden, damit es auch auf zusammengeschriebene Komposita angewendet werden kann. Die Grundeinheit, auf die Kookkurrenzberechnungen für Kollokationen (cf. 3.2.3) aufbauen, ist das graphematische Wort, eine durch Leerund/ oder Satzzeichen begrenzte Zeichenkette. Die Wahl dieses Kriteriums ist bis zu einem gewissen Grad willkürlich. Sie ist jedoch ziemlich praktisch und entspricht im Allgemeinen auch recht gut einem intuitiven Verständnis des Wortbegriffs. Man kann als Grundeinheit aber auch das Morphem wählen, das ganze Korpus in seine Morpheme aufteilen und Kookkurrenzen von Morphemen berechnen (cf. Evert 2005: 18). Da hier lexikalische Assoziationen interessieren, weniger grammatikalische, ist es sinnvoll, das Korpus in Lexeme aufzuteilen und grammatikalische Morpheme (wie Derivationsaffixe etc.) nicht gesondert zu berücksichtigen. Die automatische Komposita- Analyse unter Abschnitt 3.3 tut nichts anderes, als das gesamte Korpus in Lexeme zu zerlegen." Die Zusatzbedingung, dass nur Komposita betrachtet werden, kann als linguistisch motivierte Beschränkung (cf. 3.2.2) mit eingeführt werden. Es können aber auch einfache positioneile Kookkurrenzen berechnet werden, wobei nur diejenigen Kookkurrenzen weiter berücksichtigt werden, die auch im ursprünglichen Korpus als Komposita Vorkommen. Ein ähnliches Verfahren nutzen Zinsmeister & Heid (2004), ebenso auch Matiasek, Baroni & Trost (2002) bzw. Baroni, Matiasek & Trost (2002) mit einer Anwendung zur Textvervollständigung in der Unterstützten Kommunikation. Die Verwendung Alternativ kann man sich auch eine hypothetische Orthografiereform vorstellen, mit der die Auseinanderschreibung von Komposita eingeführt würde (keine unvorstellbare Möglichkeit, wie viele real vorkommende Auseinanderschreibungen von Komposita im Deutschen zeigen, cf. Roth 2005). Würden wir Wort Paar statt Wortpaar schreiben, wäre eine Anpassung des Modells hinfällig unsere Modellanpassung macht genau diesen Schritt. 112 Datengewinnung und -aufbereitung statistischer Assoziationsmasse anstelle absoluter Frequenzen stellt den Charakter der sprachlichen Einheit, die ein lexikalisiertes Kompositum darstellt, in den Vordergrund, bzw. w ie wichtig es gegenüber seinen Konstituenten ist (eine ähnliche Argumentation wie für die Verwendung von Assoziationsmassen bei Kollokationen). Für die Extraktion beziehungsweise Rangierung der Komposita im Kollokationenwörterbuch wurden neben der einfachen Zählung der Komposita dieselben Assoziationsmasse erhoben w ie für die Kollokationen, nämlich T- Score (cf. 3.2.1.1), Log-Likelihood (cf. 3.2.1.2), Mutual Information (cf. 3.2.1.3) und Salience (cf. 3.2.1.4). Grundeinheit für die Berechnungen sind nicht mehr freie bzw. konstruktionsgebundene Wortformen oder Lemmata, sondern alle Lexeme, egal ob frei oder gebunden für das Lexemfisch wird also sowohl Fisch als freie Wortform als auch in Aquarienfisch als Kompositumskopf für die Assoziationsmassberechnung berücksichtigt. Diese Wahl kann auch paraphrasiert werden als ,Lexeme in der Konstruktion freie Wortform'100 im Gegensatz zu ,Lexeme in der Konstruktion Kompositum'. Letzteres wäre ebenfalls eine Möglichkeit gewesen. Allerdings wäre so ausschliesslich auf die Komposition fokussiert worden, wobei fraglich ist, ob Kompositum und Simplex auf dieser Ebene als unterschiedliche Konstruktionen wahrgenommen werden. Nehmen wir wieder als Beispiel das Lexem fisch, so ist gut vertretbar, dass z. B. Aquarienfisch sowohl mit allen anderen Fisch-Komposita in Beziehung steht als auch mit dem Simplex Fisch selbst. Implizit geht man damit davon aus, dass jedes Wort potenziell ein Kompositum sein könnte, dass also strukturell dort, w o Fisch erscheint, ebenso gut Aquarienfisch stehen könnte. Die Assoziationsmasse sind auch hier wie bei den Kollokationen als heuristische Masse zu verstehen. Die Komposita sollen mit ihrer Hilfe in eine Rangfolge nach Assoziationsstärke gebracht werden, die möglichst die lexikografisch relevantesten Komposita zuerst aufführt. Eine empirische Überprüfung dieses Desiderats, w ie etwa bei Evert (2008) oder Pecina (2005) für die Kollokationen, würde sich hier auch für die Komposita anbieten. Wörterbücher, die Komposita am ehesten systematisch bei den zugehörigen Grundwörtern aufführen, sind Wörterbücher für Deutsch als Fremdsprache wie etwa Langenscheidts Großwörterbuch Deutsch als Fremdsprache (Götz, Haensch & Wellmann 1993, cf. auch van der Colff 1998) oder das Wörterbuch Deutsch als Fremdsprache (Kempcke 2000). Ebenfalls beim Grundwort verzeichnet sind die Komposita im Digitalen Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS)101. In den beiden Wörterbüchern für Deutsch als Fremdsprache sind allerdings je nur sehr wenige Komposita verzeichnet, sehr oft auch nicht deckungsgleich. Im DWDS hingegen, das auf das Wörterbuch der deutschen Gegenwartssprache (WDG) zurückgeht, scheinen viele Komposita bereits veraltet, jedenfalls kommt ein beträchtlicher Anteil von ihnen in unserem aktuellen Web-Korpus (cf. 3.1.5) überhaupt nicht vor. Da eine lexikografi- 100 Analog z. B. zu ,Adjektiv als Attribut in einer Nominalphrase' oder ,Verb im Wortabstand 5 zu einem Substantiv'. 101 http: / / www.dwds.de (29.11.2013). Automatische Komposita-Analyse 113 sehe Auswahl von Komposita aus der Perspektive des vorliegenden Projekts anders als bei diesen drei Werken vorgenommen werden müsste, scheint eine Überprüfung der aktuell verwendeten Korpusdaten an diesem Material w enig sinnvoll. Analog zu Evert (2008) und Pecina (2005) und der eigenen Assoziationsmass-Evaluation für die Kollokationen (cf. 3.2.3.5) wird deshalb erst eine nachträgliche Evaluation mit eigenen Daten (den für das Kollokationenwörterbuch ausgewählten Komposita) durchgeführt (cf. 3.3.7.1). Gebildet bzw. berechnet wurden erneut nur Zweierverbindungen von Lexemen, analog zu den Kollokationen. Zwar wäre es auch für Komposita wünschenswert, mehrgliedrige Beziehungen erfassen zu können, vorzugsw eise durch hierarchisch gegliederte Zweierverbindungen, w ie sie Seretan (2011) für Kollokationen vorschlägt. Aber da alles gut verfügbare und auch für das Kollokationenwörterbuch eingesetzte Instrumentarium zur Bestimmung von Kollokationen auf Zweierverbindungen ausgerichtet ist, wäre die Hierarchisierung der Konstituenten nicht immer einfach - angemerkt seien etwa das Problem der links- und rechtsverzweigende Komposita (cf. Abbildung 9) und dasjenige von mehrdeutigen Hierarchien. Süsswasserfisch Riesentintenfisch sussw asser suss wasser fisch riese tintenfisch tinte fisch Abb. 9: Links- und rechtsverzweigende Komposita Mit drei- und mehrgliedrigen Komposita wurde deshalb so verfahren, dass sie mehrfach, d. h. unter allen Zweierkombinationen eingetragen wurden: Riesentintenfisch also unter Riese - Tinte, Riese - Fisch und Tinte - Fisch. Damit wurde die Auswahl der beiden relevantesten Kompositakonstituenten zur lexikografischen Bearbeitung hin verschoben. Diese Art, mit mehrgliedrigen Komposita umzugehen, machte es notwendig, Formen zusammenfassen zu können. Riesentintenfisch und Tintenfisch sollten beide gleichzeitig unter Tinte - Fisch erscheinen und auch entsprechend gezählt werden. Weitere Fälle, die solche Zusammenfassungen nötig machten, sind Varianten desselben Kompositums, also z. B. Aquariumfisch neben Aquarienfisch, die beide zu Aquarium - Fisch kommen sollten. Ebenfalls hier anzusiedeln sind Bindestrichschreibungen gegenüber Zusammenschreibungen oder die Verwendung unterschiedlicher Fugenelemente. Der Unterschied in der Handhabung im Vergleich zu den Kollokationen rührt daher, dass bei den Komposita immer auch die exakte Form mit aufgeführt wird, während die Bestimmung der exakten Erscheinungsform bei Kollokationen sowieso nicht so leicht automatisch möglich ist (und deshalb gar nicht versucht wurde). 114 Datengewinnung und -aufbereitung Lexem/ Form f T-Score Log-L. MI Salience Aquarienfisch 86 Aquariumfisch 12 aquarium +fisch 98 9.9 953 2.5 11.6 aquarium 4501 fisch 50588 Tab. 12: Assoziationsmass-Berechnung für das Kompositum Aquarienfisch im Web- Korpus Exemplarisch ist eine Assoziationsmass-Berechnung am Beispiel Aquarienfisch bzw. aquarium+fisch in Tabelle 12 für das Web-Korpus (cf. 3.1.5) durchgeführt. Eine einzelne Berechnung sagt jedoch wenig aus. Relevant ist die Rangfolge, die über die Assoziationsmasse hergestellt werden kann. Tabelle 13 zeigt eine solche Rangfolge für Komposita mit Fisch als Kompositumskopf. Die Prozentzahlen zeigen jeweils, in welchem Bereich der Rangliste (nach dem Salience-Mass) des jeweiligen Korpus sich eine Verbindung befindet. Tintenfisch z. B. ist beim Usenet- und beim Web-Korpus in den obersten 5%, beim Schweizer Textkorpus in den obersten 15% vertreten. Lemmata Hauptform CHTK Usenet-K. Web-K. tinte +fisch Tintenfisch 15% 5% 5% gold +fisch Goldfisch 10% 10% 5% thun +fisch Thunfisch 30% 5% 5% hai +fisch Haifisch 10% 20% 5% wal +fisch Walfisch 5% 40% 5% zieren +fisch Zierfisch 40% 15% 10% rauh +fisch Raubfisch 15% 80% 10% aquarium +fisch Aquarienfisch 30% 70% 10% jung +fisch Jungfisch 70% 30% 20% Tab. 13: Gemittelte Rangfolge nach Salience mit Angabe des Rangbereichs 3.3.7.1 Assoziationsmass-Evaluation für Komposita Dieselbe nachträgliche Assoziationsmass-Evaluation, die bereits für die Kollokationen durchgeführt wurde (cf. 3.23.5), soll hier auch für die Komposita vorgenommen werden. Die Vorgaben und Bedingungen sind dieselben, w obei zum Zeitpunkt dieser Auswertung noch nicht alle Komposita für das Wörterbuch ausgewählt waren. Die Auswertung stützt sich deshalb auf knapp 5000 Komposita, die sich auf rund 250 Substantivlemmata verteilen. Automatische Komposita-Analyse 115 Abb. 10: MAP verschiedener Assoziationsmasse für Substantiv-Komposita mit Lemma als Kopf bzw. als Bestimmungsglied (Web-Korpus und Schweizer Textkorpus) Abbildung 10 zeigt die Resultate der Evaluation, nämlich die Mean Average Precision (MAP), für die beiden Korpora (links Web-Korpus, rechts Schweizer Textkorpus) und für Kookkurrenzlisten mit dem Lemma in Kopfposition (oben) bzw. als Bestimmungsglied (unten). Durchwegs am besten schneidet die absolute Frequenz ab. Alle komplexeren Assoziationsmasse leisten weniger oder sind in wenigen Fällen gleichauf mit der Frequenz, so am ehesten Log-Likelihood. Weitaus die meisten Substantivkomposita sind Substantiv-Substantiv- Komposita, sodass Parallelen zu den Substanhv-Substantiv-Kollokationen, bei denen in der Evaluation nur die Genitivkonstruktionen berücksichtigt wurden, unmittelbar auffallen: Die hier nicht als Diagramme abgebildeten Evaluationen der Substantiv-Substantiv-Kollokationen zeigen jedenfalls ein 116 Datengewinnung und -aufbereitung sehr ähnliches Bild. Auch bei ihnen übertrifft die absolute Frequenz alle komplexeren Assoziationsmasse (mit wenigen Ausnahmen, w o Log-Likelihood höhere Werte zeigt). Trotz den eigentlich klaren Evaluationsergebnissen ist die absolute Frequenz nicht unbedingt erste Wahl als Sortierkriterium, wenn noch eine manuelle lexikografische Auswahl und Bearbeitung erfolgt. Es kämen durch sie einzig die häufigst belegten Komposita in den oberen Teil der Liste und hätten damit überhaupt eine Chance ausgewählt zu werden. Weniger häufig belegte würden gar nicht berücksichtigt. Eine Sortierung nach einem statistischen Assoziationsmass hingegen bringt auch einige der selteneren Verbindungen nach oben. Mit einer Anzeige der absoluten Frequenz können dann häufige Zusammensetzungen aus unteren Rängen der Liste ergänzt werden. Die absolute Frequenz ist ein unmittelbar eingängiges und intuitiv für Menschen verständliches Mass abweichend hohe Häufigkeitswerte auf unteren Rängen der Liste fallen der redigierenden Person eher und stärker auf. Bei einer vollständig automatischen Auswahl hingegen müsste klar das Frequenzkriterium alleine verwendet werden. Hier nicht evaluiert sind die anderen Typen von Komposita, also Nicht- Substantiv-Komposita. Nicht untersucht, aber durchaus möglich ist, dass sich die Assoziationsmasse bei solchen weiteren Strukturmustern wieder anders verhalten. Zusammenfassung Dieses Kapitel zur Datengewinnung und -aufbereitung stellt die im Projekt verwendeten Methoden zur Extraktion von Kollokationen und Komposita aus Textkorpora vor. Es wurden zuerst alle verwendeten Korpora und deren Charakteristika beschrieben. Die Korpora reichen von kleineren mit ausgewogener Textauswahl (z. B. das Schweizer Textkorpus), bis hin zu sehr grossen, weitgehend opportunistisch zusammengestellten Korpora (z. B. das Web-Korpus). Im zweiten Schritt wurden die verschiedenen eingesetzten Verfahren zur Ermittlung von potenziellen Kollokationen (Kookkurrenzen) und von Komposita beschrieben. Ein besonderer Fokus lag auf den Assoziationsmassen und ihrem evaluativen Vergleich sowie auf der linguistischen Vorverarbeitung der Korpusdaten. Zur Extraktion und Segmentierung der Komposita aus den Korpusdaten wurde Morphisto, ein frei verfügbares Morphologiesystem erweitert und mit zusätzlichen Komponenten kombiniert, um eine Disambiguierung der vorgeschlagenen Segmentierungen und eine höhere Wortschatzabdeckung zu ermöglichen. Die Disambiguierungskomponente verfolgt einen Maximum- Entropie-Ansatz. Für die Fälle, in denen das Morphologiesystem keine Lösung liefert, kann durch den Einbezug eines einfachen Konkatenationsverfahrens eine höhere Abdeckung erreicht werden. 4 Lexikografische Umsetzung Nach theoretischen Überlegungen zur kombinatorischen Begriffsbildung, zu Kollokationen und Komposita (Kapitel 2) und nach einem methodischen Kapitel dazu, wie linguistische Korpora aufbereitet werden können, um Kollokationen und Komposita zu finden (Kapitel 3), geht es in diesem Kapitel um die lexikografische Umsetzung. Aus Theorie und Daten soll ein Produkt, nämlich das Kollokationenwörterbuch102 entstehen. Zuerst soll das Grobkonzept des Wörterbuchs kurz vorgestellt werden (4.1). Es wird nicht das gesamte lexikografische Konzept in allen Einzelheiten ausgeführt. Lediglich auf einige Punkte wird detailliert eingegangen. Es sind dies vor allem Aspekte, die im Hinblick auf die Integration der Komposita ins Wörterbuch relevant sind. Hervorstechende Punkte zu Konzeptuellem, zu Mikro- und Makrostruktur, ohne deren Kenntnis es schwierig wird, sich ein angemessenes Gesamtbild zu verschaffen, erscheinen ebenso. In Abschnitt 4.2 geht es um einen der Hauptpunkte der vorliegenden Arbeit, nämlich darum, wie Komposita ins Kollokationenwörterbuch integriert werden sollen. Angelehnt an Abschnitt 4.1 wird erörtert, w ie sich Komposita konzeptuell sowie mikro- und makrostrukturell einfügen lassen und wo Änderungen oder auf Komposita zugeschnittene Lösungen nötig sind. Zum Abschluss des Kapitels wende ich mich in Abschnitt 4.3 wieder methodischen Fragen zu. Es geht dabei um die konkrete Umsetzung des lexikografischen Prozesses, d. h. um die technische Modellierung, um lexikografische Werkzeuge und Arbeitsprozesse. 4.1 Konzept 4.1.1 Basiswortschatz Im Kollokationenwörterbuch sollen die Kollokationen zu einem festgelegten Basiswortschatz von rund 2000 Wörtern verzeichnet werden. Die Idee dahinter ist, dass der prototypische Nutzer oder die prototypische Nutzerin selbst einen deutschen Wortschatz von etwa dieser Grösse erworben hat102103 und im Kollokationenwörterbuch nachschauen kann, wie diese Wörter gebraucht werden. Die Beschränkung auf den Basiswortschatz gilt dabei nur für die Wörterbuchlemmata, nicht für die Kollokationen bzw. nur für die Basen, nicht für die Kollokatoren. Das Wörterbuch soll Lernende auch weiterführen und trotz seiner Begrenzung ein vollwertiges Nachschlagewerk und nicht in erster Linie ein Lehrmittel sein. Nicht zuletzt dient der Basiswortschatz auch 102 Als vollständiger Titel ist Feste Wortverbindungen des Deutschen - Kollokationenwörterbuch für den Alltag vorgesehen. 103 Im Visier sind damit vor allem Personen, die Deutsch als Fremdsprache lernen. 118 Lexikografische Umsetzung als quantitatives Begrenzungskriterium bei der Erarbeitung des Kollokationenwörterbuchs. Mit etwas Vorsicht wird hier von Basiswortschatz gesprochen, obwohl natürlich eigentlich ein Grundwortschatz von 2000 Wörtern angepeilt wird. Die vorsichtigere Formulierung kommt daher, dass die Bestimmung eines Grundwortschatzes keine triviale Aufgabe ist (cf. Schnörch 2002). Sie stand in diesem Projekt nicht im Hauptfokus, und doch musste ein Weg gefunden werden, einen Basiswortschatz als Grundlage für das Wörterbuch zu erhalten. Wie in Häcki Buhofer (2011b: 523f.) beschrieben, wurden für die Auswahl des Basiswortschatzes Lern- oder Grundwortschätze (Bock 2007 [1991]; Lübke 2002; Remanofsky 2000 sowie eine Grundwortschatzliste aus dem Wiktionary-Projekt104) und Korpusfrequenzlisten (aus dem Schweizer Textkorpus, cf. Bickel et al. 2009; DeReWo 2007; Wortlisten Wortschatz Leipzig105) als Quellen benutzt. Die Grundwortschätze enthalten je zwischen 1400 und 4000 Wörtern, von den Korpusfrequenzlisten wurden jeweils etwa die häufigsten 5000 Wörter genommen. Ziel war dann ein ausgeglichenes Vorkommen sowohl in den Grundwortschätzen als auch in den Korpora. Es wurde dafür eine Schnittmenge gebildet, bei der ein Wort in mehr als einem der Lern- oder Grundwortschätze Vorkommen musste und gleichzeitig auch in einer der Korpusfrequenzlisten, um sicherzustellen, dass es sich um ein relevantes Wort auch im Sinne eines häufig gebrauchten Wortes handelt. Weiter wurden in der Lemmaliste nur Wörter der offenen Wortklassen (Substantive, Verben, Adjektive/ Adverbien) belassen. Es wurden bewusst bestehende Lernwortschätze als Hauptquellen benutzt, da davon ausgegangen werden kann, dass diese Deutschlernenden bekannt sein könnten und so eine möglichst grosse Kompatibilität hergestellt werden kann. Zu dieser ersten Liste wurden dann im Variantenwörterbuch (Ammon et al. 2004) nationale und regionale Varianten herausgesucht, um den Aspekt der nationalen und regionalen Varietäten auch auf Ebene der Basislemmata berücksichtigen zu können. Ein eigener Akzent wurde durch die korpusbasierte Gegenkontrolle der Listen und die Ergänzung um Varianten gesetzt, um aktuell gebräuchliche Wörter aus allen Teilen des deutschen Sprachgebiets vertreten zu haben. Dem Redaktionsteam wurde jedoch ausdrücklich die Freiheit eingeräumt, Basislemmata, die es für nicht relevant hielt, auszuschliessen - etwa wenn nur wenige Kookkurrenzen in den Korpora gefunden werden konnten oder bei allzu speziellen nationalen und regionalen Varianten - oder solche, die es für besonders relevant hielt, zusätzlich aufzunehmen. 104 http: / / d e.wikt ionary.org/ wiki/ Wikt ionary: Proj ekt: Grundwortschatz.plus. Wiktionary.minimum (29.11.2013). 105 http: / / wortschatz.uni-leipzig.de/ html/ wliste.html (29.11.2013). K onzept 119 4.1.2 Basis-Kollokator-Prinzip und Verweissystem Jedes Wort im festgelegten Basiswortschatz (cf. 4.1.1) dient als Basis nach dem Basis-Kollokator-Prinzip (cf. z. B. Hausmann 1985, 2004 bzw. Abschnitt 2.1.1). Zu jeder Basis werden Kollokationen bzw. Kollokatoren gesucht. Die Basis dient auch als Artikelkopf oder Stichwort, unter dem die zugehörigen Kollokationen im Wörterbuchartikel vereint werden. Dies jedenfalls in der Druckversion - elektronisch sind auch dynamische Formen der Artikelzusammenstellung möglich. Das Basis-Kollokator-Prinzip ist unbestritten eine gute Grundlage für die Makrostruktur des Wörterbuchs. Es erlaubt, die Kollokationen in sinnvollen Zusammenhängen zu präsentieren, und vermeidet - gerade für die Druckversion wichtig - Dopplungen derselben Kollokation unter mehreren Stichwörtern. Andere Kollokationenwörterbücher (Le Für 2007; Lo Cascio 2012; OCDSE 2009; Quasthoff 2011; Rundell 2010) gehen deshalb häufig makrostrukturell ebenfalls mehr oder weniger strikt nach dem Basis-Kollokator- Prinzip vor. Neben vielen unproblematischen Fällen, in denen Basis und Kollokator einfach bestimmt werden können, sind im Verlauf der Bearbeitung auch etliche Grenzfälle und schlecht bestimmbare Kollokationen aufgetaucht. Vor allem bei Substantiv-Verb-Kollokationen mit dem Substantiv in einer Präpositionalphrase ist die Zuordnung oft schwierig. Die klareren Fälle sind Verben, die ein Präpositionalobjekt verlangen: Sie werden nicht anders behandelt als Verben, die z. B. ein Akkusativobjekt fordern, d. h. die Basis ist hier das Substantiv. Auf der anderen Seite stehen Präpositionalphrasen, die als adverbiale Ergänzungen stehen und als Attribut zum Verb zu behandeln sind (z. B. in Strömen regnen), wodurch das Verb zur Basis wird. Dazwischen liegt aber ein ganzes Spektrum von Fällen, bei denen oft wenig klar ist, ob nun besser das Verb oder das Substantiv als Basis genommen wird. Zudem ist nicht unbestritten, ob im Textproduktionsprozess bzw. beim Nachschlagen tatsächlich immer von der Basis ausgegangen wird, wie Hausmann (1985) schreibt: Jemand schreibt über Haar und setzt das passende Adjektiv schütter hinzu. Es kann auch Vorkommen, daß er dieses passende Adjektiv schütter sucht, weil es ihm im Augenblick nicht einfällt. Es ist aber unvorstellbar, daß er das Adjektiv schütter vor Augen hat, zu dem ihm etwa die Basis Haar nicht einfiele. (Hausmann 1985: 119) Vielleicht hat man aber auch das Wort schütter vor Augen und fragt sich, ob man es auch mit Bart oder Fell verwenden soll, und schon ist nicht mehr so unvorstellbar, dass unser Modelltextproduzent unter schütter nachschlagen würde.106 Gerade bei stark gerichteten Kollokationen (z. B. hanebüchener Unsinn), bei denen die Richtung der Bindung von Kollokator zu Basis läuft, kann man 106 Mit ähnlicher Argumentation antwortet Steyer (2000: 107) auf dasselbe Beispiel von Hausmann (1985: 119). 120 Lexikografische Umsetzung sich Interferenzen zum Basis-Kollokator-Prinzip vorstellen. Handl (2009) kann in einer Pilotstudie zum Nachschlageverhalten von deutschmuttersprachigen Englischlernenden bei Lückentext- und Übersetzungsaufgaben zwar nicht bestätigen, dass ihre Versuchspersonen Kollokationen eher in Evozierbarkeitsrichtung nachschlagen. Sie stellt bei den Übersetzungsaufgaben ins Englische fest, dass die Lernenden allgemein Substantive zum Nachschlagen vorziehen (Handl 2009: 82) - dies ganz im Einklang mit dem Basis-Kollokator-Prinzip. Relativiert wird dies allerdings dadurch, dass ihre Versuchspersonen auch mehrfach nicht zuerst unter dem Substantiv nachschlagen oder versuchen, über ein Synonym zur Zielkollokation zu gelangen (Handl 2009: 82L). Bei Fremdsprachlernenden muss ausserdem der potenziell begrenzte verfügbare Wortschatz berücksichtigt werden: Wenn möglich sollten weitere Wege offen stehen, zu einer Kollokation zu gelangen, w enn der Weg über die Basis aus irgendwelchen Gründen blockiert ist. Weitere plausible Gründe, eine Kollokation nicht über die Basis nachzuschlagen, wären etwa die Überprüfung einzelner Kollokationen ob z. B. hohe Geschwindigkeit im Englischen mit high gebildet wird, lässt sich sehr natürlich unter high nachschlagen (cf. Herbst 2009: 296). Tarp (2008: 253) nennt zudem noch das Beispiel, dass Sprachlernende das Kollokationsverhalten eines Wortes nachschlagen und dabei z. B. bei Verben auch häufige Objekte angegeben haben möchten. Um Kollokationen sowohl unter der Basis als auch unter dem Kollokator zugänglich zu machen und in der Papierversion Dopplungen möglichst zu vermeiden, drängt sich ein Stichwortindex auf. Eine andere Möglichkeit ist ein Verweissystem unter den Artikeln. Ein platzsparender Index ist schwer zu verwirklichen, da zum Kollokator immer auch die Kollokation oder mindestens die Basis genannt werden müsste - der Index würde dem eigentlichen Wörterbuchteil zu ähnlich und fast unweigerlich als eine Art Dopplung wahrgenommen. Ein Verweissystem, wo im Artikel selbst auf alle Artikel verwiesen wird, in denen die aktuelle Basis als Kollokator vorkommt, ist platzsparender realisierbar und deshalb in dieser Anwendung sinnvoller. Die elektronische Version des OCDSE (2009) bietet solche Verweise. Form und Umfang lassen sie jedoch für eine Druckversion mindestens ebenso geeignet erscheinen (cf. den Beispielartikel mit Verweisen in Abbildung 15 auf Seite 132). 4.1.3 Unterscheidung zwischen t y p i s c h und g e b r ä u c h li c h Kollokationen sind ein graduelles Phänomen (cf. 2.1.2.5). Für ein lexikografisches Produkt, das Kollokationen sammelt, ist aber eine Abgrenzung von Kollokationen zu Nicht-Kollokationen unbedingt nötig. Kollokationen müssen gegenüber freien Wortverbindungen auf der einen und gegenüber idiomatischen Ausdrücken auf der anderen Seite abgegrenzt werden. Für das Kollokationenwörterbuch wurde zudem innerhalb der Kollokationen beschlossen, eine zusätzliche Unterscheidung zwischen Kollokationen in einem engeren K onzept 121 Sinn (typische Wortverbindungen) und Kollokationen in einem weiteren Sinn (gebräuchliche Wortverbindungen) zu machen (cf. Häcki Buhofer 2011a). Verschiedene Typen von Kollokationen mit unterschiedlichen Definitionen und Abgrenzungen, auf die an dieser Stelle aber nicht näher eingegangen werden soll, setzen z. B. Sinclair (1966) mit casual vs. significant und Cowie (1978) mit open vs. restricted an (weitere Unterscheidungsbeispiele bringt Herbst 19%: 385; cf. auch Abschnitt 2.1.2.5). Die Unterscheidung des Kollokationenwörterbuchs zwischen typisch und gebräuchlich läuft ebenfalls nach diesem Schema. Typisch sind Kollokationen, deren Bindung stärker ist, aber auch stärker arbiträr und so rein sprachlich motiviert. Oft ist für eine Aussage nur diese eine Kombination korrekt oder unmarkiert, auch w enn andere Kombinationen semantisch möglich wären. In typischen Wortverbindungen evoziert häufig ein Wort seinen Kollokationspartner. In gewissen Fällen ist die Form besonders stark fixiert, mithin formelhaft, in anderen ist die Ausdrucksweise bereits bildhaft, leicht idiomatisch oder teilidiomatisch (d. h. ein Kollokationsbestandteil wird idiomatisch, der andere oder die anderen in der wörtlichen Bedeutung verwendet). Gebräuchlich hingegen werden Kollokationen genannt, die eher im Randbereich zu freien Wortverbindungen angesiedelt sind. Sie sind häufig, gebräuchlich (im landläufigen Sinn) und bilden ebenfalls feste Kombinationen. Der Grund für gehäuftes Auftreten kann aber auch in der Bedeutung eines Wortes liegen, die besonders häufig mit bestimmten anderen Bedeutungen vorkommt. Gebräuchliche Wortverbindungen sind so nicht nur rezeptiv, sondern im Unterschied zu den typischen Wortverbindungen auch produktiv kompositioneil. Ihre Aufnahme ins Wörterbuch hat eher exemplarischen Charakter. Sie geben ein vollständigeres Bild über die Verwendungsweise eines Wortes (bzw. einer Basis). Mit ihrem Einbezug werden den Benutzerinnen und Benutzern nicht nur die „schwierigen" Verbindungen präsentiert, sondern auch die häufigen, auf die sie vielleicht auch selbst spontan gekommen wären. Doch gerade für Leute, die Deutsch als Fremdsprache lernen, sollte ein Nachschlagewerk dies nicht voraussetzen, sondern einen möglichst grossen Gebrauchsradius eines Wortes abzudecken versuchen. Für die konkrete Umsetzung dieser Unterscheidung ist innerhalb des Projekts ein Kriterienkatalog als Entscheidungshilfe für die manuelle Kategorisierung ausgearbeitet worden. Dieser dient als Mittel, den Entscheidprozess für jede Kollokation minimal zu dokumentieren und damit eine möglichst hohe intersubjektive Nachvollziehbarkeit der Entscheidungen zu gewährleisten. Der Kriterienkatalog ist dabei nicht als abzuarbeitende Checkliste anzusehen, da das systematische Durchgehen aller Kriterien für jede einzelne Kollokation zu viel Zeit in Anspruch nähme. Vielmehr soll pro Kollokation mindestens ein besonders schlagendes Kriterium ausgewählt werden, anhand 122 Lexikografische Umsetzung dessen man die Unterscheidung typisch gebräuchlich107 festmachen oder gegenüber anderen für sie argumentieren würde. Im Folgenden werden die verwendeten Kriterien kurz vorgestellt. Sie sind so definiert, dass sie in den meisten Fällen auf typische Wortverbindungen hindeuten. Gebräuchlich sind demnach Wortverbindungen bei denen die entsprechenden Kriterien nicht zutreffen. Die Definitionen sind der Projektdokumentation entnommen, teils leicht umformuliert (cf. auch Häcki Buhofer 2011a). Häufigkeit/ Festigkeit: Eine Wortverbindung ist häufig im Korpus belegt, woraus eine gewisse Festigkeit und Gebräuchlichkeit ableitbar ist. Dabei kann der Grund für die Häufigkeit auch aussersprachlich sein. Es handelt sich um ein Kriterium für gebräuchlich bzw. um eines, das für alle Kollokationen gilt. Äquivalenz: Für eine Wortverbindung sind gleichwertige Alternativen verfügbar. Semantische Nuancen sind möglich, aber für die Mehrheit der Fälle sind die Äquivalenzen austauschbar. Es handelt sich um ein Kriterium für die Kategorie gebräuchlich. Beispiele sind korrekte/ richtige Antwort oder verschneite/ schneebedeckte Berge. Präferenz: Eine präferierte Wortverbindung ist der treffendste, geläufigste Ausdruck für etwas, das andernfalls nur mit einer grösseren Zahl von Wörtern umschrieben werden könnte. Es kann mit den gleichen syntaktischen Mitteln kein semantisches Äquivalent gebildet werden und die Kollokation ist nur durch eine Paraphrase substituierbar, die selbst keine Festigkeit aufweist. Manchmal handelt es sich um sehr allgemeine, semantisch unspezifische Kollokatoren, die jedoch in diesem lexikalischen Umfeld nicht erwartbar sind. Oft hilft in diesem Fall auch ein kontrastiver Vergleich mit einer anderen Sprache. Es handelt sich um ein Kriterium für typisch. Beispiele sind etwa Ferien machen, den Tisch decken oder Zähne putzen. Kontrastivität: Eine feste Wortverbindung wird in einer Fremdsprache anders ausgedrückt als mit den erwartbarsten Übersetzungen aller Komponenten. Sie kann zu den sogona nnhm falschen Freunden (cf. z. B. Glück 2010: 195f.) beim Übersetzen aus einer Fremdsprache gehören. Kollokationskandidaten werden allerdings aus naheliegenden Gründen nicht systematisch auf kontrastive Kompatibilität hin überprüft. Problematisch für eine systematische Bearbeitung wären etwa die Auswahl der Sprachen, die Sprachkenntnisse im Redaktionsteam, der enorme Zeitaufwand. Das Kriterium kommt deshalb nur dann zum Tragen, w enn der bearbeitenden Person ein entsprechender kontrastiver Unterschied spontan auffällt. Es handelt sich um ein Kriterium107 107 Hier hinein gehört vorgelagert die Entscheidung, ob eine Wortverbindung überhaupt als Kollokation gewertet werden kann oder ob es sich um eine freie oder eine idiomatische Wortverbindung handelt. Wird eine Kollokation festgestellt, muss weiter entschieden werden, ob sie für das Wörterbuch relevant ist oder nicht (veraltete oder fachsprachliche Kollokationen etwa werden nicht aufgenommen). K onzept 123 für typisch. Beispiele sind Zähne putzen (frz. se laver les dents) oder den Zug verpassen (engl, to miss the train). Evozierbarkeit: Eine Wortverbindung, bei der einer der Bestandteile den anderen evoziert. Bei Nennung eines Bestandteils wird der andere sozusagen automatisch mitgedacht. Im Idealfall würde eine Versuchsperson bei Nennung des einen Wortes, das andere als eines der ersten der dazu passenden Wörter angeben. Evozierbarkeit sollte sich auch in den statistischen Angaben zu einer Wortverbindung niederschlagen. Es handelt sich um ein Kriterium für typisch. Beispiele sind etwa Amok laufen, klipp und klar, fiebersenkendes M ittel, Unkraut jäten. Fachsprachlichkeit: Fachsprachliche Wortverbindungen werden ins Wörterbuch aufgenommen, wenn sie sich so weit über ihr Fachgebiet ausgedehnt haben, dass sie in die Alltagssprache eingegangen sind. Es handelt sich um ein Kriterium für typisch, da es sich oft um terminologische Prägungen mit zumindest ursprünglich klaren Definitionen handelt. Beispiele sind polizeiliche Anmeldung, eine Seite verlinken, nonverbale Kommunikation. Bildhaftigkeit/ Teilidiomatizität: Eine Wortverbindung ist bildhaft oder teilidiomatisch, wenn ein Bestandteil metaphorisch, metonymisch oder auf eine andere Art übertragen gebraucht wird. In einigen Fällen ist mit der Wortverbindung eine ganze Situation mitgemeint (z. B. vor dem Fernseher sitzen). Kinegramme werden nur aufgenommen, wenn sie neben der symbolischen Bedeutung auch das sprachlich abgebildete Körperverhalten enthalten (mit den Zähnen knirschen, die Stirn runzeln, mit den Armen rudern). Es handelt sich um ein Kriterium für typisch, allerdings an der Grenze zu den ausgeschlossenen idiomatischen Wortverbindungen. Weitere Beispiele sind flammende Worte, bissige Antwort, ein Berg von Problemen oder jemandem das heben rauben. Phrasenhaftigkeit: Phrasenhaft sind Wortverbindungen, die in einer fixen syntaktischen Form auftreten. Diese Festigkeit besteht oft in grammatikalischen und syntagmatischen Restriktionen im Gebrauch. Nicht selten ist die Kollokation an bestimmte pragmatische Kontexte gebunden. Formeln gehören hier ebenfalls dazu (z. B. Guten Tag! ). Es handelt sich um ein Kriterium für typisch. Beispiele sind etwa Sehr geehrte Damen und Herren, seit Jahr und Tag, Meter über Meer. Nach der Präsentation des Kriterienkatalogs gilt es noch festzuhalten, dass in anderen Kollokationenwörterbüchern die Unterscheidung in typisch und gebräuchlich (oder ähnliche Unterscheidungen nach Festigkeit oder Prototypizität) bisher meist nicht gemacht wird einzig der Dictionnaire des combinaisons de mots (Le Für 2007) markiert Kollokationen mit besonders starker Festigkeit speziell. Nähere Angaben, was unter starker Festigkeit verstanden wird. 124 Lexikografische Umsetzung werden jedoch keine gemacht.108 Tutin (2010: 1085) merkt dazu ebenfalls an, dass der verwendete Begriff der Festigkeit (bzw. „figement" oder „cohesion") nicht ganz klar werde. Sicher ist, dass die Festigkeitsmarkierung bei Le Für (2007) bedeutend seltener verwendet wird als in unserem Kollokationenwörterbuch die Kategorie typisch. Sie wird dort, so jedenfalls ein erster Eindruck, vor allem für teilidiomatische und idiomatische Wortverbindungen gesetzt, sowie für Ausdrücke, die eine sehr feste Form haben, stark phrasenhaft sind. Das Wörterbuch des DWDS macht gemäss Geyken (2011) ebenfalls eine ähnliche Binnenunterscheidung der Kollokationen und nennt diese „Kollokationen vom Typl" und „Kollokationen vom Typ2" (Geyken 2011: 10f.; Leerzeichensetzung nach Original). In den öffentlichen Versionen des Wörterbuchs sind diese Typenunterscheidungen jedoch bisher noch nicht sichtbar gemacht worden. 4.1.4 Empirische Grundlagen Das Kollokationenwörterbuch versteht sich als stark empirisch abgestütztes lexikografisches Projekt. Die hauptsächlichen empirischen Grundlagen sind dabei die verwendeten Textkorpora, deren Aufbereitung bereits in Abschnitt 3.1 ausführlich beschrieben worden ist. Korpora, aus denen Kookkurrenzdaten zur lexikografischen Weiterverarbeitung entnommen wurden sind das Schweizer Textkorpus (cf. 3.1.1), das DWDS-Kernkorpus (cf. 3.1.2), das Usenet-Korpus (cf. 3.1.4) sowie das eigene Web-Korpus (cf. 3.1.5). Als weiterführende Quellen, für zusätzliche Belege und Beispiele sowie für Quervergleiche und Plausibilisierung wurden weitere Korpora hinzugezogen - es sind dies primär das Korpus C4 (cf. 3.1.3) und das ZEIT-Korpus des DWDS, ein Zeitungskorpus mit Ausgaben der ZEIT von 1946 bis 2009 im Umfang von 460 Millionen Textwörtern109. Für Fragen der regionalen Variation von Kollokationen wurde vor allem das Web-Korpus verwendet (cf. Roth 2012), in zweiter Instanz auch das Korpus C4 und das Schweizer Textkorpus. Wie bereits in Abschnitt 4.1.1 erwähnt sind auch zur Bestimmung des Basiswortschatzes Korpusdaten herangezogen worden. Das erklärte Ziel dabei ist es, den Benutzerinnen und Benutzern Stichwörter anzubieten, die tatsächlich häufig verwendet werden. Auf der praktischen Seite heisst das auch, dass so mit grosser Sicherheit genügend Kookkurrenzdaten aus den Korpora extrahierbar sind, um überhaupt einen sinnvollen Wörterbuchartikel zum entsprechenden Stichwort verfassen zu können. Wichtig für das Anwenden und das Verstehen der einzelnen Kollokationen sind die zahlreichen Beispielsätze im Wörterbuch. Ein Grossteil von ihnen basiert auf Korpusbelegen. Zwar können Korpusbelege selten unverändert als Beispiele übernommen werden, doch sind sie oft wichtige Vorlage 108 Die Angabe dazu im Vorwort (Le Für 2007: VII) lautet: „Indice de figement: Une petite lune attire l'attention du lecteur sur la forte cohesion de certaines combinaisons lexicales." Es folgen zwei Beispieleinträge. 109 Cf. h tt p : / / www.dwds.de/ ressourcen/ korpora (29.11.2013). K onzept 125 und Inspirationsquelle bei der Konstruktion von Beispielen. Die Korpusbelege selbst sind in vielen Fällen entweder zu lang oder ohne Kontext schlecht verständlich. Sie müssen deshalb gekürzt oder dahingehend verändert werden, dass sie in einem Satz die zu exemplifizierende Situation genügend klar darstellen. Dabei haben Beispiele mehrere Aufgaben. Sie sollen zum einen ganz einfach die Kollokation in Aktion zeigen. Sie sollen aber auch eine mögliche Variation der Nennform vorführen. In gewissen Fällen stehen sie an Stelle einer Bedeutungsangabe. Die Wahrscheinlichkeit, dass auf die Schnelle ein direkt übernehmbarer Korpusbeleg gefunden wird, der diese Bedingungen erfüllt, ist eher klein. Der leichte Zugang zu den Korpora stellt jedoch sicher, dass die Belege zumindest im Hintergrund bei der Beispielauswahl genutzt werden, sodass die Beispiele insgesamt authentischer werden, als wenn sie nur konstruiert wären. Eine weitere empirische Grundlage, diesmal ohne Korpusbezug, ist eine Pilotstudie zum Gebrauch eines Kollokationenwörterbuchs, die in der ersten Phase des Projekts an verschiedenen Schulen durchgeführt wurde (zur Benutzerforschung bei Wörterbüchern cf. auch Svensen 2009: 452ff.). Dazu wurden zwei Probelektionen entwickelt, mit denen möglichst viel über die Anforderungen an ein Kollokationenwörterbuch im schulischen Erst- und Zweitspracherwerb ermittelt werden sollte. Die Studie wurde in Zusammenarbeit mit der Pädagogischen Hochschule Zentralschweiz Zug durchgeführt. Die PHZ-Mitarbeitenden hielten die Probelektionen in je einer Klasse an einer Sekundarschule, an einem Gymnasium und an einer internationalen Schule. Damit konnten unterschiedliche Altersgruppen sowie Schülerinnen und Schüler mit Deutsch als Erst- oder als Zweitsprache berücksichtigt werden. Die Ergebnisse zeigten sich nicht ganz einheitlich (cf. Siebenhüner 2010) - so war das Vermögen, den vorgeschlagenen Beispielartikeln die aufgabenrelevanten Informationen zu entnehmen, je nach Sprach- und Altersniveau recht unterschiedlich. Während die Artikel mit ausführlichen Nennformen und vielen Beispielen für die einen eher zu explizit waren, hatten andere Mühe, daraus die Kollokationen korrekt in eigene Formulierungen zu transferieren. Kritisiert wurde in mehreren Fällen, dass der ganze Artikel durchgelesen werden müsse, um etwas zu finden, und dass die Ordnung nach grammatikalischen Gruppen dabei nicht weiterhelfe. Die zu jenem Zeitpunkt vorgesehene Zugriffsstruktur war eine Gruppierung der Kollokationen nach syntaktischer Struktur - z. B. Verb + Akkusativobjekt oder attributives Adjektiv + Substantiv. Diese Art der Gruppierung wurde unterdessen durch eine stärker semantisch motivierte Gruppierung ersetzt, da die syntaktische Struktur beim Auffinden einer Kollokation nicht wirklich hilft. Zudem bekundeten viele Schülerinnen und Schüler Mühe mit der Bedeutung von Platzhaltern (jm d., etw. etc.) in den Nennformen. Beispiele schienen nach ihren Aussagen besser geeignet, den richtigen Gebrauch nachvollziehen zu können. Dem wurde dadurch entsprochen, dass die Nennformen so konkret w ie möglich gehalten werden. Platzhalter sind zwar nach wie vor vorhanden, sie sind 126 Lexikografische Umsetzung aber selbst möglichst exemplarisch ausgestaltet - entweder durch Aufzählung konkreter Beispielwörter (z. B. „aus gutbürgerlichem/ ärmlichem/ ... Hause stammen") oder bei abstrakteren Platzhaltern wie etwa demjenigen für eine sehr allgemeine Ortsangabe durch Darstellung mittels dem konkreten Wort irgendwo. Die Platzhalter sind jedoch als Platzhalter ausgezeichnet, sodass für denjenigen Teil des Publikums, der mit abstrakteren Nennformen umzugehen weiss, trotzdem keine Missverständnisse entstehen. Allgemein sehr geschätzt wurden die vielen Beispiele - einige fanden sogar, es dürften noch mehr sein - sowie Bedeutungsangaben und pragmatische Markierungen. Eine Fortsetzungsstudie zu diesem ersten Pilotversuch hat sich aus Ressourcengründen nicht mehr ergeben. Wünschenswert wäre sie sicher gewesen, um bis dato noch weniger beachtete Aspekte zu untersuchen und nicht zuletzt, um die getroffenen Verbesserungsmassnahmen auf ihre Wirksamkeit hin zu überprüfen. 4.1.5 Darstellung Die genaue Darstellung der Artikel versucht, die in den vorangegangenen Abschnitten erwähnten Punkte angemessen zu gewichten. Wie eine konkrete Darstellung ausfällt, hängt neben vielen anderen Faktoren auch sehr vom Medium ab. In der Folge werden Druck- und Onlineversion angesprochen w obei dies nicht notwendigerweise die einzigen Publikationsmedien sein müssen, aber momentan doch die naheliegendsten sind (cf. auch Abschnitt 4.3). 4.1.5.1 Druckversion Das Kollokationenwörterbuch soll ganz klassisch als gedrucktes Wörterbuch auf Papier erscheinen. Abbildung 11 auf der nächsten Seite zeigt für einen Beispielartikel eine mögliche Darstellungsform.110 An diesem Beispielartikel und Abwandlungen davon sollen die Umsetzungsbzw. Darstellungsversuche der konzeptuellen Überlegungen aus den Abschnitten davor illustriert werden. Die Lemmatisierung erfolgt nach dem Basis-Kollokator-Prinzip, d. h. Stichwort ist immer die Basis. Wie oben beschrieben sind die Kollokationen zuerst nach Wortart des Kollokators (Abschnitte mit Titel) und in zweiter Ordnung nach semantischer Zusammengehörigkeit gruppiert (gefärbte Quadrate, z. T. mit erläuterndem Label). Von den typografischen Auszeichnungen der Nennform fällt am stärksten der Fettdruck des Kollokators auf. Der Rest der Nennform ist nicht fett. So kann der Kollokator als Navigationshilfe genutzt werden. Das Auge springt mithin von Kollokator zu Kollokator, bis die gewünschte Kollokation oder der gewünschte Themenbereich gefunden ist. Denn erst, w enn die richtige Kollokation gefunden worden ist, wird die genaue Nennform wichtig. Wäre 110 Es handelt sich um das Mitte 2012 aktuelle Arbeitslayout. Die Entwürfe dazu sind von Patrick Baumann grafisch gestaltet worden. K onzept 127 z. B. die gesamte Nennform fett, würden auch die darin enthaltenen Platzhalter, Artikel etc. in gleichem Masse hervorgehoben, obwohl diese im Navigationsprozess noch zweitrangig sind. Eine Hierarchisierung der dargebotenen Information ist gerade bei Kollokationen, wo Auffindbarkeit nicht als gegeben, sondern eher als Problem gesehen werden muss, äusserst wichtig. Benzin n Adjektive ■ bleifreies B° Der neue Wagen braucht bleifreies Benzin. jverbleites B° Verben ■tanken mit B. fahren Das Auto fährt sowohl mit Benzin als auch mit Erdgas. [ B. tanken0 Wer noch verbleites Benzin tankt, sollte sick schämen. ■sparen etw. verbraucht viel/ wemig/ ... B. Das Auto ist sehr leicht und verbraucht wenig Benzin. | B. sparen0 Mit einer anderen Fahrweise könnten Sie 25% Benzin sparen. J B. kostet etw. Vor zwanzig Jahren kostete ein Liter Benzin umgerechnet etwa 50 Cent ■anzünden etw. mit B. übergießen Die Soldaten libergossen das Auto mit Benzin und zündeten es an. j B. anzünden ■ etw. mit B. reinigen0 Das Gewinde mit der Zahnbürste und etwas Benzin reinigen. | nach B. riechen Nomen ■ B. und Diesel Zusammensetzungen ■ Normalbenzin | Superbenzin Seit 1099 wird kein verbleites Superbenzin mehr angeboten. ( Flugbenzin | Reinigungsbenzin | Waschbenzin J Wundbenzin ■ Benzinmotor | Benzintank | Benzinhahn Bevor der Motor gezündet wird, unbedingt den Benzinhahn öffnenl | Benzinpumpe | Benzinkanister ■ Benzinverbrauch) Benzinpreis | Benzinsteuer Abb. 11: Beispielartikel des Kollokationenwörterbuchs (Druckversion) Ein sehr ähnliches Motiv liegt hinter der Entscheidung, wie typisch und gebräuchlich markiert werden. Die Markierung ist eher dezent und an das „indice de figement" bei Le Für (2007) angelehnt: Typische Kollokationen erhalten nach der Nennform hochgestellt ein kleines, auf der Spitze stehendes Quadrat. Versuche zuvor hatten die entsprechenden Kollokationen in unterschiedlichen Farbschattierungen (z. B. hell- und dunkelblau) dar gestellt. Dies gibt der Unterscheidung typisch gebräuchlich jedoch ein Gewicht, die 128 Lexikografische Umsetzung sie so für die Nutzerinnen und Nutzer nicht hat. Die zwei Farbtöne springen einem sofort ins Auge - für den ersten Suchprozess wird es aber kaum je wichtig sein, ob es sich um eine typische oder eine gebräuchliche Verbindung handelt. Erst nachgelagert, wenn eine Kollokation (oder mehrere) gefunden ist, wird diese Information interessant; genau wie die exakte Nennform, Bedeutungsangaben, Beispiele etc. Die gewählte Markierung kann zudem, da nicht konventionalisiert, problemlos überlesen werden und irritiert so nicht, ist aber doch so präsent, dass sie bei Interesse an der Thematik klar sichtbar wird. Benzin n A d j e k t iv e ■ bleifreies B.° | verbleites B.° V e r b e n ■tanken mit B. fahren | B. tanken "sparen etw. verbraucht viel/ wenig/ ... B. | B. sparen0 | B. kostet etw. "anzünden etw. mit B. übergießen | B. anzünden ■ etw. mit B. reinigen0 | nach B. riechen N o m e n ■ B. und Diesel Z u s a m m e n s e t z u n g e n ■ Normalbenzin | Superbenzin | Flugbenzin | Reinigungsbenzin | Waschbenzin | Wundbenzin ■ Benzinmotor | Benzintank | Benzinhahn | Benzinpumpe | Benzinkanister ■ Benzinverbrauch | Benzinpreis | Benzinsteuer Abb. 12: Beispielartikel ohne Beispielsätze (Druckversion) Weitere Themen auf mikrostruktureller Ebene betreffen vor allem die Ausführlichkeit der Einträge. Verglichen mit anderen Kollokationenwörterbüchern fällt bei unserem Wörterbuch die Darstellung sehr ausführlich aus. Besonders auffällig ist die grosse Zahl an Beispielsätzen. Quasthoff (2011) etwa verzichtet ganz auf sie. Beim OCDSE (2009) machen Beispielsätze einen relativ grossen Textanteil aus, gemäss Eigendeklaration beträgt der Beispielanteil rund 30%. Lo Cascio (2012) bringt weniger Beispielsätze, dafür sehr viel mehr Bedeutungsangaben. Bei Le Für (2007) liegt der Beispielanteil ebenfalls tiefer, nämlich nach eigenen Angaben bei rund 16%. In unserem Kollokationenwörterbuch haben knapp 30% aller Kollokationen einen Beispielsatz, was in etwa dem Anteil beim OCDSE (2009) entspricht. In einem Layout wie in Abbildung 11 machen sie rund 40% der Textmenge111 aus. Zum Vergleich zeigt in Gemessen wurde dies an einem Probedruck mit schätzungsweise einem Drittel des gesamten Wörterbuchumfangs, wobei vorwiegend Substantiv- und einige Verbartikel enthalten waren. K onzept 129 Abbildung 12 denselben Beispielartikel wie oben, aber ohne die Beispielsätze. Der Vorteil von Beispielsätzen ist u. a., dass Kollokationen in natürlicher Umgebung, in Verwendung gezeigt werden können. Da es sich bei Kollokationen um ein Gebrauchsphänomen handelt, ist dies besonders sinnvoll. Beispielsätze geben an, wie eine mehr oder weniger abstrakte Nennform in reelle Sprache überführt werden kann. Die Sätze können so den Nutzerinnen und Nutzern auch helfen, andere Nennformen ohne Beispielsatz besser aufzulösen. Der grösste Nachteil von Beispielsätzen ist ihr Platzbedarf. Wie Abbildung 12 illustriert, wird die Darstellung ohne Beispielsätze kompakter und unter Umständen auch übersichtlicher. Solange aber eine klare Navigationsstruktur besteht etwa mit dem Fettdruck der Kollokatoren und der optischen Absetzung semantischer Gruppen - und die Artikel mehrheitlich nicht grösser als eine Seite sind, sollten Beispielsätze eher hilfreich als hinderlich sein. Benzin n Adjektive ■ bleifreies D er m m Wagen braucht bleifreies 1verbleites Verben ■tanken mit - fahren Das Auto fährt sowohl m it als auch m it Erdgas. | tanken0 Wer noch v erb leite s tan kt, s o llte sich schäm en, ■sparen etw. verbraucht viel7wenig/ "»- D as A u to is t sehr leicht und verbrau cht w e n i g (sparen0 M it einer anderen Wahrweise kön n ten Eie 25% sparen, j* kostet etw. Vor zwanzig' Jahren k o ste te ein Löst « um gerechnet e tw a 50 C e n t ■ anzünden etw. mit übergießen D ie S oldaten übergossen das A uto m it - und zü n d e te n m an. | anzünden ■ etw, mit ~ reinigen0 Das G ew ind e mit d er Zahnbürste und. etw a s reinigen. \ nach - riechen Nom en ■ - und Diesel Zusamm ensetzungen ■ Normal"» | Super- S e it 1999 wird kein verbleites Super** m ehr ungebeten., j Plug- | Reinigungsj Wasch- | Wund- ■ -m otor | -tan k | -bahn B e vo r d e r M otor g e zü n d et w ird , un b e din gt den. ~hahn öffnen! | -pumpe | -kanister ■ -verbrauch | -preis | -Steuer Abb. 13: Beispielartikel m it Tilde als Ersetzungszeichen (Druckversion) 130 Lexikografische Umsetzung Ebenfalls mit Ausführlichkeit der Darstellung hat der genaue Bau der Nennform zu tun. Wie Abbildung 13 auf der vorherigen Seite verglichen mit Abbildung 11 auf Seite 127 zeigt, gibt es verschiedene Möglichkeiten, das Lemma im Artikel zu wiederholen. Lexikografisch gut etabliert und platzsparend ist die Tilde als Ersetzungszeichen (Abbildung 13; cf. z. B. Svensen 2009: 83f.). Eine andere Möglichkeit ist das Abkürzen mit Punkt bei identischer Form wie im Artikelkopf, und Ausschreibung sonst (Abbildung 11). Die Variante mit Tilde spart etwa 5% Platz beim vorliegenden Layout. Tilden können das Lemma auch in den Beispielsätzen ersetzen, was weitere Platzersparnis bringt und zudem die Position des Lemmas im Satz grafisch hervorhebt. Die AbkürzungsVariante hat demgegenüber den Vorteil, dass kein zusätzliches Sonderzeichen eingeführt wird, welches das Schriftbild unruhiger macht. Zudem kann der Abkürzung eine intuitiv bessere Zugänglichkeit und leichtere Verständlichkeit unterstellt werden. Benzin n Adjektive ■ bleifrei0 Der neue Wagen braucht bleifreies Benzin. | verbleit0 Verben ■tanken fahren Das Auto fährt sowohl m it Benzin als mich mit Erdgas. J tanken0 Wer noch verbleites Benzin tan kt, sollte sieh schämen, "sparen verbrauchen Das Auto ist sehr leicht und verbraucht wenig Benzin. | sparen0 Mit einer anderen Fahrweise könnten Sie 25% Benzin sparen. | kosten Vor zwanzig Jahren kostete ein Liter Benzin umgerechnet etwa 50 Cent, ■anzünden übergießen Die Soldaten übergossen das Auto m it Benzin und zündeten es an. | ainzünden ■ reinigen0 Das Gewinde m it der Zahnbürste und etwas Benzin reinigen. | riechen N o m e n ■ Diesel Z u s a m m e n s e t z u n g e n ■ Normalbenzin | Superbenzin Seit 1999 wird kein verbleites Superbemin mehr ungebeten . | Flugbenzin | Reinigungsbenzin | Waschbenzin I Wundbenzin ■ Benzinmotor | Benzintank | Benzinhahn Bevor der Motor gezündet wird , unbedingt den Benzinhahn öffnen! | Benzinpumpe | Benzinkanister ■ Benzinverbrauch | Benzinpreis | Benzinsteuer Abb. 14: Beispielartikel m it Kollokator allein als N ennform (Druckversion) Konzept 131 Eine weitere Möglichkeit, die Darstellung zu komprimieren, bestünde in der Reduktion der Nennform auf die Kollokator-Grundform. Abbildung 14 auf der vorherigen Seite gibt einen Eindruck dieser Variante. Dies ist eine häufig genutzte Möglichkeit, Nennformen in Kollokationenwörterbüchern darzustellen: Sowohl der OCDSE (2009), Quasthoff (2011), als auch (in beschränktem Masse) Le Für (2007) nutzen sie. Vorteile sind die Platzersparnis und der Minderaufwand in der redaktionellen Bearbeitung, da nicht manuell eine Nennform festgelegt werden muss. Weiter kann die Unbestimmtheit der Grundform ein Vorteil sein, gerade in Fällen, w o es schwierig ist, sich für genau eine Nennform zu entscheiden (zur Komplexität der Nennformbestimmung cf. Steyer & Brunner 2009). Ein Beispielsatz kann zwar eine mögliche Verwendung anzeigen, erhebt aber nie denselben normativen Anspruch wie eine ausführliche Nennform. Mit der Kollokator-Grundform als Nennform wird impliziert, dass andere Varianten (Flexionsformen etc.) zulässig sind. Sehr unklar istjedoch, welche das sind. Damit sind wir gleich bei den Nachteilen. Oft ist es gerade bei w enig Geübtheit im Umgang mit einem Wörterbuch und wenig Erfahrung in einer Sprache schwierig, von dieser Grundform zur eigentlichen Kollokation zu gelangen. Ausserdem ist eine Gruppierung nach semantischen Kriterien, w ie sie für das Kollokationenwörterbuch beschlossen wurde, damit schlecht möglich. Steht nur der Kollokator, ist nicht klar, nach welchem syntaktischen Muster sich eine Kollokation bildet. Besser wäre in diesem Fall eine Einteilung nach Valenz oder Wortstellung (wie es auch die erwähnten Wörterbücher machen). Im Beispielartikel in Abbildung 14 wurde die semantische Gruppierung nicht zu einer solch syntaktisch motivierten Gruppierung geändert. In einigen Fällen ist es in dieser Darstellung deshalb nicht oder schlecht möglich, von der Kollokator-Grundform zur Kollokation zu gelangen (etwa bei Diesel für Benzin und Diesel). Schliesslich reicht die Nennung des Kollokators bei den Komposita ebenfalls nicht, hier muss aus Gründen der Klarheit auf jeden Fall das gesamte zusammengesetzte Wort genannt werden. Ausführliche Nennformen in Kombination mit einem fett gesetzten Kollokator erlauben ein ähnlich einfaches Navigieren wie Kollokatoren alleine, erleichtern aber den Transfer hin zur konkreten Verwendung beträchtlich, weshalb das Kollokationenwörterbuch ausführliche Nennformen verwendet. Ein vorläufig letztes Artikelbeispiel illustriert in Abbildung 15 die in Abschnitt 4.1.3 angesprochenen Verweise auf andere Artikel, in denen ein Lemma als Kollokator vorkommt (ganz unten bei weitere Artikel m it...). Der Platzverbrauch liegt im ebenfalls schon erwähnten Probedruck bei rund 3%. Dieser Anteil dürfte jedoch bis zum Projektende noch leicht ansteigen, da noch viele Verben und Adjektive, die je einen grossen Anteil an Verweisen haben, hinzukommen. 132 Lexikografische Umsetzung analysieren A d j e k t i v e / A d v e r b i e n ■ gründlich a . ° Die Ergebnisse des vergangenen Quartals müssen gründlich analysiert werden. | genau | eingehend | ausführlich | sorgfältig a. ■ kritisch0 | wissenschaftlich a. Wissenschaftlich analysiert sind die Zahlen lange nicht so dramatisch, wie es die Presse darstellt. | systematisch a .° -*■ weitere Artikel mit analysieren: Aussage | Ereignis | Gegenstand | Inhalt | Lage | Prozess | Satz | Situation | Text Abb. 15: Beispielartikel m it Verweisen (Druckversion) 4.1.5.2 Online-Version Neben der klassischen Druckversion auf Papier bieten sich auch elektronische Publikationsformen an heutzutage steht sicher ein via Web-Browser (oder Mobile-App) abfragbares Online-Wörterbuch als Form im Vordergrund. Für das Kollokationenwörterbuch ist im Rahmen dieser Arbeit ein Prototyp einer Online-Version entstanden.112 Ein wichtiger Unterschied einer Online-Version gegenüber einer Druckversion auf Papier ist, dass die Inhalte dynamischer und interaktiver abgefragt und präsentiert werden können (cf. auch Forkl 2008). Die Platz- und Navigationsprobleme der Druckversion stellen sich auf eine ganz andere Art. Elektronisch wird nicht wie auf Papier das ganze Wörterbuch auf einmal dargestellt (eine zu grosse Anzahl Seiten oder Bände ist also kein Problem). Auch die einzelnen Seiten sind in ihrer Darstellung nicht fest, sodass eine hohe Zahl Beispiele oder Erläuterungen nicht automatisch negative Auswirkungen auf die Übersichtlichkeit hat. Grundsätzlich sind sehr unterschiedliche Ansichten der Wörterbuchdaten möglich. Bei der Navigation ist es ebenfalls nicht nötig, sich z. B. auf das Basis-Kollokator-Prinzip oder ein anderes Ordnungsprinzip zu beschränken, das nicht zuletzt dazu dient, Dopplungen in der Druckversion zu vermeiden. In der elektronischen Version sind Dopplungen kein Problem, sondern stellen einfach eine andere Ansicht auf die Daten dar bzw. dieselbe Ansicht, über einen anderen Zugangsweg erreicht. Schliesslich bietet eine Online-Version die Möglichkeit der Verlinkung, also der Vernetzung mit anderen Ressourcen. Damit diese Unterschiede als Vorteile genutzt werden können, ist aber ebenso wie bei der Druckversion entscheidend, dass eine sinnvolle Auswahl aus potenziell sehr vielen Darstellungsmöglichkeiten getroffen wird. Einer- 112 Zugänglich ist die Wörterbuchapplikation auf der Projektseite unter http: / / w w w . k o llo k a t ionenw oerterbuch. ch. Abbildung 16 auf Seite 134 und Abbildung 17 auf Seite 135 zeigen aber ebenfalls Screenshots für einen ersten Eindruck. K onzept 133 seits ist es nicht möglich, den Benutzerinnen und Benutzern alle Möglichkeiten zu bieten, andererseits ist dies auch nicht wünschenswert. Zu Informationsangeboten, von denen natürlich auch ein Online-Wörterbuch eines ist, gehört eine Strukturierung der präsentierten Information selbstverständlich dazu. Nach anfänglich zögerlichem Online-Auftreten von Wörterbüchern sind in den letzten Jahren einige der etablierten unter ihnen in der einen oder anderen Form ins Internet gegangen (wenn sie diesbezüglich auch selten als Vorreiter gesehen werden können). Die Beziehung zum Internet ist unterdessen aber ein sehr aktuelles Thema in der Lexikografie. Initiativen wie das Netzwerk Internetlexikografie113, mit dem auch das vorliegende Projekt assoziiert ist, oder Konferenzen wie eLex (cf. Granger & Paquot 2010; Kosem & Kosem 2011) zeugen davon. Grundlagen für den Online-Prototyp des Kollokationenwörterbuchs waren einerseits die Datenbank, wie sie zur Erarbeitung des Wörterbuchs erstellt worden war (cf. Abschnitt 4.3), andererseits die Ideen und Konzepte, die für die Druckversion (auch auf Darstellungsebene) Vorlagen. Die Darstellung von Online- und Druckversion muss keineswegs identisch sein, da die Basiseinheit auf Datenbankebene nicht ein ganzer Wörterbuchartikel, sondern mit der Kollokation eine kleinere und linguistisch motivierte Einheit ist (cf. Schmidt & Müller 2001: 37). Eine allzu grosse Abweichung der Darstellung in Druck- und Onlineversion ist allerdings ebenfalls nicht sinnvoll, da die ganze redaktionelle Arbeit sonst im einen oder anderen Medium zu w enig genutzt würde. Potenzielle Probleme der Druckversion w ie die Navigation und die Übersichtlichkeit bei grösseren Artikeln sollten aber bei der Online-Version unbedingt angegangen werden. Allgemein ist nicht so klar, was denn ein gutes Online-Wörterbuch ausmacht. Müller-Spitzer, Koplenig & Töpel (2011) führen in ihrer Untersuchung dazu die Unerfahrenheit des Publikums mit Online-Wörterbüchern an: Nevertheless, this does not mean that the development of innovative features of online dictionaries is pointless. As we show elsewhere in detail [...], users tend to appreciate good ideas, such as a user-adaptive interface, but they are just not used to online dictionaries incorporating those features. As a result, they have no basis on which to judge the usefulness of those features. (Müller-Spitzer, Koplenig & Töpel 2011: 207) Es liegt also einerseits mit an den Wörterbüchern, neue Ideen zu bringen und die Benutzerinnen und Benutzer von diesen zu überzeugen. Müller-Spitzer, Koplenig &Töpel (2011) zeigen andererseits jedoch auch, dass Benutzerinnen und Benutzern von Online-Wörterbüchern traditionelle Werte der Wörterbuchqualität besonders wichtig sind. Am höchsten rangieren dabei Verlässlichkeit des Inhalts, Klarheit, Aktualität des Inhalts, Geschwindigkeit und Beständigkeit des Zugriffs. Weniger wichüg sind offenbar Verlinkung zu 113 http: / / www.internetlexikografie.de (29.11.2013). 134 Lexikografisclie Umsetzung Korpora und anderen Wörterbüchern, individuelle Anpassbarkeit und Multimedia (die oben genannten „innovative features"). Auch sonst gehen die Meinungen auseinander, ob ein Online-Wörterbuch eher ein „monofunctionnl tool " (aus dem Titel von Bergenholtz & Bergenholtz 2011) sein oder ob es eher in Richtung „individualization of needs satisfaction" (aus dem Titel von Tarp 2011) gehen soll. Der Online-Prototyp des Kollokationenwörterbuchs geht einen eher zurückhaltenden Weg und bleibt recht nahe an der Druckversion (wobei Aussehen und Anordnung der Kollokationen durchaus ans Medium angepasst w urden cf. Screenshot in Abbildung 17 auf der nächsten Seite). Es gibt gewisse Möglichkeiten, die Benutzerschnittstelle an individuelle Vorlieben anzupassen so können etwa Beispielsätze standardmässig ein- oder ausgeblendet werden. Eine grosse Zahl solcher Optionen scheint aber wenig sinnvoll und für das Publikum eher verwirrend, ohne grosse Vorteile zu bieten. B B s p ./ In fo s B g a n z e F orm Fisch fischen fischreich autobiografisch fachspezifisch fotografisch geografisch geschlechtsspezifisch grafisch höfisch konfiszieren fische N omen Finger • I Abb. 16: Screenshot Suche und Navigation (Online-Version) Hauptsächliches Mittel zur Benutzerinteraktion ist ein einfaches Textsuchfeld. In der Art einer Vorschau wird während des Eintippens eines Suchbegriffs eine Liste der Lemmata angezeigt, die mit dem Suchbegriff beginnen, ihn enthalten oder nach ihm im Alphabet kommen (cf. Screenshot in Abbildung 16). Auf diese Weise kann sehr einfach gleichzeitig auf die Basen des Basiswortschatzes und ihre Kollokatoren zugegriffen werden. Eingabetaste, Leertaste, Klick auf den Suchbutton oder Klick auf das entsprechende Wort zeigen den ganzen Artikel an. Wird ein zweiter Suchbegriff angehängt, so wird dieser im angezeigten Artikel farblich hervorgehoben. Konzept 135 Im Artikel selbst (cf. Abbildung 17) werden standardmässig nur die Grundformen der Kollokatoren, nicht die ausführlichen Nennformen angezeigt, um für mehr Übersichtlichkeit zu sorgen. Die ausführliche Nennform sowie Zusatzinformationen zur Kollokation werden beim Darüberfahren mit der Maus bzw. per Klick angezeigt. Damit kann dem Umstand Rechnung getragen werden, dass zuerst inhaltlich die richtige Kollokation gefunden werden muss (wofür die Grundform des Kollokators meist ausreichen dürfte), bevor zusätzliche Informationen zur genaueren Bildungs- und Verwendungsweise benötigt werden. KDLLDKRTIDNENUJ DERTERBUCH Typische und gebräuchliche Wortverbindungen des Deutschen |benzin verbr| I Bsp./ Infos B ganze Form P rojekt A ktivitäten Grundlagen Ergebnisse T e am Kontakt Benzin Benzinmotor Benzinverbrauch Benzin n verbleit| fahren • tanken etw. verbraucht viel/ wenig/ . Benzin D a s A u t o i s t s e h r l e i c h t u n d \ v e r b r a u c h t w e n i g B e n z i n . I anzünden ü b e übergießen • anzünden Normalbenzin • Superbenzin • Flugbenzin • Reinigungsbenzin • Waschbenzin • Wundbenzin Benzinmotor • Benzintank • Benzinhahn • Benzinpumpe • Benzinkanister Benzinverbrauch • Benzinpreis • Benzinsteuer Abb. 17: Screenshot Artikelansicht (Online-Version) Die semantisch motivierte Gruppierung der Kollokationen wird auch online beibehalten. Das Basis-Kollokator-Prinzip muss jedoch nicht so streng eingehalten werden und auch ein Verweissystem wie für die Druckversion ist nicht nötig (cf. 4.1.2), da Dopplungen hier kein Problem sind. Die Kollokationen werden nach wie vor grundsätzlich unter der Basis verzeichnet, anstelle der Verweise werden aber dort, wo ein Lemma Kollokator in einem anderen Artikel ist (aus Sicht der Druckversion gesprochen), direkt die entsprechenden Kollokationen angezeigt. Diese erscheinen wie die Verweise in Abbildung 15 auf Seite 132 am Ende des Artikels in alphabetischer Reihenfolge (nach Wortarten aufgeteilt). Da in der Liste der Lemmata bei der Suche nicht nur der Basiswortschatz angegeben wird, können auch Artikel aufgerufen werden, in denen das entsprechende Wort immer nur als Kollokator in Artikeln des Basiswortschatzes erscheint, selbst aber nicht bearbeitet worden 114 Diese Nichtbearbeitung müsste allenfalls entsprechend gekennzeichnet werden. 136 Lexikografische Umsetzung Hinsichtlich Verlinkungen sind bisher nur Links zum Schweizer Textkorpus enthalten. Weitere zu anderen Korpora oder, angesichts des Zielpublikums, zu Übersetzungswörterbüchern wären gut vorstellbar. Der hier beschriebene Prototyp stellt einen ersten Vorschlag für eine allfällige Online-Publikation des Kollokationenwörterbuchs dar. Im Gebrauch und mit Benutzerfeedback kämen sicher noch wesentliche Erweiterungs- und Änderungswünsche zum Vorschein. 4.1.5.3 Weitere Darstellungs- und Nutzungsmöglichkeiten Mit weiteren Darstellungs- und Nutzungsmöglichkeiten sind vorwiegend solche elektronischer Art angesprochen. Diese können direkt auf menschliche Nutzerinnen und Nutzer ausgerichtet sein, oder indirekt via Integration in ein anderes Werkzeug (cf. auch Spohr 2012). Eine weitere Möglichkeit ist die Nutzung als Ressource für die Forschung. Mit der besprochenen Online-Version mitgemeint, aber vielleicht noch separat erwähnenswert, wäre eine spezifisch auf mobile Endgeräte ausgerichtete Online-Version, sowohl im Layout als allenfalls auch in der Darbietungsform als eigene Applikation („App"). In Europa wenig verbreitet, in Asien hingegen sehr, sind elektronische Taschenwörterbücher („pocket dictionaries", cf. Tono 2009) eine Version in einem solchen Format wäre ebenfalls denkbar. Da ein sehr wahrscheinliches Anwendungsszenario des Wörterbuchs gerade in der schriftlichen Textproduktion liegt, wäre eine direkte Integration in Textverarbeitungssoftware oder E-Mail-Programme (in Form eines Plugins, Add-ons, etc.) sicher sehr sinnvoll: Man könnte sich nicht nur w ie bisher - Rechtschreib- und Synonymvorschläge, sondern eben auch Vorschläge für Kollokationen angeben lassen. Um die weitere Integration in andere Wörterbücher oder sonstige Systeme zu erleichtern, könnte man sich auch überlegen, das Wörterbuch per Webservice anzubieten, sodass andere elektronische Anwendungen auf die Wörterbuchdaten zugreifen könnten, diese aber selbst weiterverarbeiten und in ihrem Kontext präsentieren würden. Schliesslich kann das Wörterbuch auch als Ressource für die linguistische Forschung genutzt werden. Die vorliegende Arbeit ist ein Beispiel dafür. Stärker fokussiert auf die redaktionell bearbeiteten Daten betrifft das hier vor allem die Evaluation der Kollokations- und Kompositumsauswahl in Abschnitt 3.2.3.5 bzw. 3.3.7.I. Möglich wären beispielsweise auch Untersuchungen im Bereich der Valenzforschung oder die Nutzung von nebenbei erhobenen Daten, wie etwa den Flexions- und Kasusinformationen aus der Nennformbestimmung. Die Aufzählung hier ist keineswegs abschliessend gemeint, sondern zeigt einige mögliche Weiterentwicklungen auf. Nicht direkt zu diesem Bereich gehörig, aber nahe mit Darstellungs- und Nutzungsmöglichkeiten verwandt, kommt die Sicherung des Wörterbuchs in einem archivfähigen Format, etwa in XML nach TEI (cf. Bernard & Bauman 2011), als wichtiges Erfordernis im Bereich der Weiterverarbeitung hinzu. Komposita im Kollokationenwörterbuch 137 Ebenfalls keine direkte Nutzungsmöglichkeit, aber zur Benutzung hinführend, sind Überlegungen zu einem didaktischen Begleitheft, das zum Kollokationenwörterbuch erscheinen soll. Darin sollen fortgeschrittene Hinweise zur Benutzung sowie Übungsvorschläge für den Unterricht Platz finden (cf. Runte 2011). 4.2 Komposita im Kollokationenwörterbuch Ebenfalls zur lexikografischen Konzeption und damit eigentlich in den vorhergehenden Abschnitt 4.1 gehört die Frage nach der Integration von Komposita ins Kollokationenwörterbuch. Aufgrund der Wichtigkeit für die vorliegende Arbeit erhält dieser Punkt aber hier einen etwas prominenteren Platz. Bereits eingeführt wurde in Kapitel 2 das funktionale Verständnis der kombinatorischen Begriffsbildung nach Donalies (2004b). Wortbildung (im Speziellen Komposition) und Phrasembildung (also auch Kollokationen) finden funktional unter demselben Dach Platz (cf. Kapitel 2). Hier wird nun stärker lexikografisch argumentiert, weshalb Kollokationen und Komposita im selben Wörterbuch vereint werden sollten bzw. für unser Kollokationenwörterbuch auch tatsächlich werden. Die Hauptargumentation folgt dem funktionalen Fokus, in dem die kombinatorische Begriffsbildung nach Donalies (2004b) liegt: Neue Begriffe werden dabei durch die Kombination bestehender Begriffe gebildet, egal ob dies via Wortbildung (also z. B. Komposition) oder syntaktisch (also z. B. als Kollokation) geschieht. Die meisten Kollokationenwörterbücher, so auch unseres, sind produktionsorientiert. Kollokationen sind im Normalfall semantisch transparent und deshalb rezeptiv für Sprachlernende vergleichsweise unproblematisch. Die Schwierigkeit liegt in der Produktion; mit Makkai (1972) kann von idioms of encoding gesprochen werden: Den richtigen115 Kombinationspartner für ein Wort (aus einer Reihe von Möglichkeiten) zu treffen - darin Hegt die Herausforderung für Sprachlernende (und nicht nur für sie). Produktionsorientierte KoHokationenwörterbücher mit besonderer Ausrichtung auf Sprachlernende sollten deshalb nicht einfach nur Kollokationen enthalten, sondern möglichst gut den ganzen Bereich der kombinatorischen Begriffsbildung, der sich grösserer Regelhaftigkeit entzieht, abdecken. Konkret bedeutet dies, dass Komposita ebenfalls verzeichnet werden sollten.116 Diese Forderung ist keinesfalls neu, weshalb es umso erstaunlicher ist, dass sie in neueren lexikografischen Werken fürs Deutsche, die produk- 115 Richtig im Sinne einer Gebrauchsnorm, d. h. es handelt sich um den geläufigsten Kombinationspartner, oder vielleicht denjenigen, den eine Mehrheit der Muttersprachlerinnen und Muttersprachler auch wählen würde. 116 Donalies (2004b) nennt als dritten grossen Bereich der kombinatorischen Begriffsbildung die explizite Substantivderivation. Da es sich dabei um Prozesse und Morpheme handelt, die stärker regelhaft sind bzw. auf mehr Elemente angewendet werden können, ist ihr Platz näher an der Grammatik und weniger bei der Lexik. 138 Lexikografische Umsetzung tionsorientiert auf Kollokationen ausgerichtet sind, w ie etwa in Quasthoff (2011) oder Duden 2 (2010), nicht umgesetzt worden ist. Selbst bei Hausmann (2004: 318) ist zu finden: „Auch eine Teilmenge der zusammengesetzten Wörter ist als Kollokation interpretierbar". Die enge Verwandschaft zwischen Komposita und syntaktischen Wortverbindungen auf unterschiedlichen Ebenen wird vielerorts erwähnt. Beispielhaft und gewissermassen als Gegenstück zum eben genannten Zitat von Hausmann sei hier Römer (2006) erwähnt, die von der Warte der Wortbildung aus in ihrer Morphologie der deutschen Sprache zu Phraseologisierungen w ie folgt Stellung bezieht: Dabei ist die Phraseologisierung als ein Spezialfall der Lexikalisierung anzusehen. Bei der Phraseologisierung wird aus einer freien Diskursstruktur ein festes Syntagma, das eventuell Eingang ins mentale Lexikon findet. (Römer 2006: 201) In eine ähnliche Richtung geht Duhme (1995) mit seinem Begriff des Einwortphraseologismus, der die Ebenen von Phraseologie und Wortbildung mischt. Sieht man sich zudem nicht-deutschsprachige Kollokationenwörterbücher sowie die erklärten Ziele der erwähnten deutschsprachigen Werke an, kommt man klar zum Schluss, dass Komposita nicht einfach weggelassen werden können. Die erklärten Ziele all dieser Wörterbücher - egal welcher Sprache - gehen in die Richtung, dass Wörter so kombiniert werden sollen, dass es möglichst „natürlich" oder unmarkiert wirkt. Bei Quasthoff (2011) ist dies folgendermassen formuliert: Das Wörterbuch der Kollokationen im Deutschen will helfen, bekannte Wörter optimal zu kombinieren. Es hilft bei der Formulierung von Texten, bei der Übersetzung ins Deutsche und fördert das Schreiben in natürlichem Deutsch. (Quasthoff 2011: v) Etwas weniger explizit auf optimale Kombination und natürliches Deutsch geht Duden 2 (2010) ein. Die Stossrichtung ist jedoch dieselbe: Das Stilwörterbuch stellt also die Verwendung der Wörter im Satz dar und ist sozusagen das Bindeglied zwischen Grammatik und Wörterbuch. Es zeigt, welche Verbindungen die Wörter des allgemeinen Wortschatzes eingehen können, verzeichnet auch formelhafte Wendungen, Redensarten und Sprichwörter und führt den ganzen Reichtum der Ausdrucksmöglichkeiten der deutschen Sprache vor. (Duden 2 2010: 5) Bei beiden geht es um optimale Kombinationen, Verbindungen jener Wörter, die zu „natürlichem Deutsch" bzw. zum „ganzen Reichtum der Ausdrucksmöglichkeiten" führen. Weshalb Komposita davon ausgeschlossen sein sollen, wird nicht klar: Sie entstehen ebenfalls durch Kombination und machen einen grossen Anteil an den Ausdrucksmöglichkeiten der deutschen Sprache aus. Im Vergleich hierzu ist das Beharren auf Kollokationen, die rein syntaktisch gebildet werden, in den betrachteten nicht-deutschsprachigen Kollokationenwörterbüchern weniger stark ausgeprägt. Ein erstes Indiz dafür sind bereits die Titel der Wörterbücher, die in vielen Fällen den Aspekt des Kombinatorischen betonen so etwa Ilson & Benson (2010): The BBI Combinatory Dictionary of English. Your guide to collocations and grammar („combinatory"), Le Komposita im Kollokationenwörterbuch 139 Für (2007): Dictionnaire des combinaisons de mots („combinaisons"), Lo Cascio (2012): Dizionario combinatorio compatto Italiano („combinatorio") oder Bosque (2004): REDES. Diccionario combinatorio del espahol contemporäneo. Las palabras en su contexto („combinatorio")117 Nach dieser Feststellung wäre nun nachzuschauen, ob in diesen nichtdeutschsprachigen Kollokationenwörterbüchern denn Komposita Vorkommen. Ein direkter Vergleich mit dem Deutschen ist jedoch problematisch, denn Komposition ist in verschiedenen Sprachen sehr unterschiedlich produktiv, die Kompositumsdefinitionen sind teilweise sprachspezifisch und innerhalb einer Sprache oft nicht unumstritten (cf. Abschnitt 2.2). In den Umtexten dieser Wörterbücher sind Komposita nie explizit als solche erwähnt. Als Methode für einen ungefähren Vergleich, d. h. um ungefähr abschätzen zu können, w ie gross das Ausmass des Phänomens ist, bietet es sich deshalb an, die Komposita bei Übersetzungsentsprechungen zu zählen. Dazu werden die Wortverbindungen ins Deutsche übersetzt. Ein Kompositum wird dann gezählt, w enn bei dieser Übersetzung die gebräuchlichste Form eben ein Kompositum ist. Natürlich ist diese Methode nicht ganz trennscharf, da nicht unbedingt klar ist, was denn die beste Übersetzung für eine bestimmte Kollokation ist. Im Gegenzug ist fürs Deutsche die Kompositumsdefinition verhältnismässig klar und unumstritten.118 Eine solche Auszählung der Übersetzungsäquivalente wurde exploratorisch für einige wenige Substantive durchgeführt. Es hat sich dabei gezeigt, dass nur schon die Auswahl von Lemmata und Kollokationen in den unterschiedlichen Wörterbüchern sehr divergent ist. Dementsprechend fallen auch die Anteile der Komposita an den Übersetzungsäquivalenten je nach Wörterbuch, Sprache und Lemma sehr unterschiedlich aus. Da eine grössere Anzahl verglichener Artikel nicht unbedingt ein kohärenteres Bild versprach, wurde der Vergleich bei einem halben Dutzend verglichener Substantivartikel belassen. Trotz dem wenig kohärenten Bild wird andeutungsweise klar, w ie wichtig Komposita in der kombinatorischen Begriffsbildung des Deutschen sind. Die Anteile der als Komposita realisierten Übersetzungen liegen bei den untersuchten Artikeln zwischen 2 und 56%; oder im Detail: A ngst mit 2-16%, Apfel mit 22-44%, Bett mit 33-52%, Blume mit 28-52%, Inhalt mit 20-56% und Wetter mit 6-15% ,119 Trotz ihrer Inkohärenz zeigen diese Zahlen doch, dass den Komposita quantitativ eine bedeutende Rolle zukommt. Welche Konsequenzen das Fehlen von Komposita in deutschsprachigen Kollokationenwörterbüchern für die Benutzerinnen und Benutzer hat, soll 117 Der Begriff Kollokation wird in den Titeln tendenziell gemieden, wohl vor allem deshalb, weil er ausserhalb des englischen Sprachraums kaum bekannt ist. Zwei sehr bekannte englischsprachige Kollokationenwörterbücher enthalten ihn denn auch nämlich der Oxford Collocations Dictionaryfor Students ofEnglish sowie Rundeil (2010): Macmillan Collocations Dictionary. 118 Dies gilt zumindest für den die Komposition dominierenden Nominalbereich. 119 In den Vergleich mit einbezogen wurden folgende Wörterbücher: Ilson &Benson (2010), Le Für (2007), Lo Cascio (2012) und OCDSE (2009). 140 Lexikografische Umsetzung anhand eines Fallbeispiels aufgezeigt werden, nämlich dem Lemma Schnee (bzw. engl, snow, frz. neige, it. neve). Die offensichtlichste und direkt aus der obigen explorativen Untersuchung folgende Konsequenz bei Nichtverzeichnung von Komposita sind Lücken. Wird eine bestimmte Kombination im Deutschen als Kompositum realisiert, fehlt diese Kombination im Wörterbuch. Im OCDSE (2009) etwa ist snow storm vermerkt (sogar zusätzlich in der Zusammenschreibung snowstorm), ebenso tempesta di neve bei Lo Cascio (2012). Schneesturm hingegen kann als Kompositum bei Quasthoff (2011) und Duden 2 (2010) nicht Vorkommen. Dasselbe gilt für drifting snow im OCDSE (2009) - Triebschnee kann in den deutschsprachigen Wörterbüchern als Kompositum nicht Vorkommen. Solche Lücken sind zwar ärgerlich und bei gewissen Lemmata auch durchaus substanziell, wenn man die obigen Zahlen von teils über 50% Komposita-Anteil als Massstab nimmt. Der Vergleich der unterschiedlichen Wörterbücher zeigt allerdings auch, dass die Auswahl sowohl der Lemmata als auch der Kollokationen pro Wörterbuch sehr unterschiedlich ist.120 Dies relativiert den Schaden, den die fehlenden Komposita anrichten, etwas, da ohnehin je nach Perspektive und Wörterbuch viele Kollokationen fehlen. Eine zweite Art, w ie sich die fehlenden Komposita bemerkbar machen, ist ungleich störender. So können durch fehlende Komposita so etwas w iefalsche Freunde im Wörterbuch entstehen. Beispiele in den Schnee-Artikeln können dies illustrieren. So bringt OCDSE (2009) die Kollokationen powder/ powdery snow, new snow, newly fallen snow, artificial snow - fürs Italienische bringt Lo Cascio (2012) die ungefähren Entsprechungen neve farinosa, neve fresca, neve recente und neve artificiale. Quasthoff (2011) gibt ebenfalls die entsprechenden Adjektive pulvrig,frisch, neu und künstlich - Duden 2 (2010) hingegen nur pulvriger Schnee und frisch gefallener Schnee. Es fehlen die viel häufigeren und gebräuchlicheren Komposita Pulverschnee, Neuschnee und Kunstschnee. Wer diese Komposita nicht kennt, muss bei Ansicht der entsprechenden Artikel annehmen, es heisse im Deutschen vorzugsweise pulvriger Schnee, neuer Schnee und künstlicher Schnee. Nun mögen diese Adjektiv-Substantiv-Kollokationen möglicherweise sogar ihre Berechtigung haben. Doch z. B. pulvriger Schnee ohne das viel geläufigere Pendant Pulverschnee zu verzeichnen grenzt an Irreführung. Ein weiterer Fall, der auftritt, wenn Komposita ausgeschlossen werden, kommt irgendwo zwischen den Lücken und den falschen Freunden zu liegen. Es geht dabei um Gruppen semantisch zusammengehöriger Wortverbindungen, von denen die einen als Kollokationen, die anderen als Komposita erscheinen. Im Schnee-Beispiel hätten wir diesen Fall etwa für die Reihe frischer oder frisch gefallener Schnee - Neuschnee - Altschnee. In Duden 2 (2010) kommt von diesen nurfrisch gefallener Schnee vor. Der ebenfalls frisch gefallene Neuschnee erscheint nicht, betagterer Schnee ebenfalls nicht. Bei Quasthoff 120 Französische Beispiele stehen hier keine, weil Le Für (2007) das Lemma neige erstaunlicherweise nicht enthält. Komposita im Kollokationenwörterbuch 141 (2011) sind die Adjektive frisch, neu und alt eingetragen. Es handelt sich also in Bezug auf Neuschnee und Altschnee wieder eher um den Typus „falsche Freunde". Schaut man sich die Kookkurrenzen neu - Schnee und alt - Schnee in unserem Web-Korpus an, sieht man bei beiden negative Mutual-Information- Werte, was gar nicht auf eine auffällige Verbindung hindeutet. Ihr Erscheinen bei Quasthoff (2011) ist also eher überraschend, umso mehr als dieses Wörterbuch vorwiegend auf Basis von Web-Korpora erarbeitet wurde.121 Wären also neu und alt nicht drin - da zweifelhaft belegt - hätten wir einzig frisch, und auf Neu- und Altschnee wieder keinen Hinweis. Weshalb Komposita in diesen Werken nicht mitberücksichtigt werden, hängt wohl vorwiegend mit der deutschen Orthografie zusammen, genauer mit der Zusammenschreibung der Komposita. Natürlich kann man argumentieren, dass Komposita zur Wortbildung gehören und deshalb in einem Kollokationenwörterbuch nichts verloren haben. Oder es Hesse sich auch anführen, dass Komposita bereits in allgemeinen Wörterbüchern behandelt werden, und deshalb in Kollokationenwörterbüchern nicht zusätzlich aufgeführt werden müssen. Das Hauptargument ist aber wohl die Zusammenschreibung. Sie bewirkt, dass Komposita nicht auf dieselbe Weise w ie Kollokationen extrahiert werden können: Es sind dafür zusätzliche Analyseschritte nötig (u. a. eine vorgeschaltete morphologische Analyse, cf. Abschnitt 3.3). Im Englischen122 hingegen, w o Komposita-Zusammenschreibung sehr viel weniger verbreitet ist, kommen die auseinandergeschriebenen Komposita sozusagen automatisch mit und müssten bei Nichteinbezug extra aussortiert werden.123 Was Auswahl und Darstellung der Komposita im Kollokationenwörterbuch betrifft, sind im Vergleich zu den Kollokationen nur geringfügige Abweichungen nötig. Massgeblich miterarbeitet und getestet wurden die Richtlinien zur lexikografischen Umsetzung von Rösch (2012) im Rahmen eines Forschungspraktikums. Ein wichtiger Unterschied ist, dass bei Komposita nicht nach den gleichen Kriterien w ie bei Kollokationen zwischen typischen und gebräuchlichen Verbindungen unterschieden werden kann (cf. 4.1.3). Die Festigkeit der Form ist bei Komposita auch in Ad-hoc-Bildungen normalerweise gegeben. Ihre prototypische Benennungsfunktion lässt sie zudem schneller nach Wortschatzeinheiten aussehen, als dies bei Kollokationen der Fall ist. Wenn man eine Kategorisierung der Komposita nach Lexikalisierungsgrad vornehmen wollte, könnte diese kaum der Unterscheidung typisch vs. gebräuchlich bei den Kollokationen gleichgesetzt werden. Deshalb wird im Kollokationenwörterbuch ganz auf eine entsprechende Markierung der Komposita verzichtet. 121 Die negativen Ali-Werte sind jene der bei uns berechneten Verbindungen Substantiv mit attributivem Adjektiv. Sieht man sich dieselben Verbindungen im Wortabstand 5 und als Korpusbelege an, wird jedoch schnell klar, dass die prädikative Verwendung kaum häufiger ist. 122 Und in anderen Sprachen mit Komposita-Getrenntschreibung. 123 Ein Nichtaussortieren kann natürlich auch Folge davon sein, dass für das Englische die Kompositumsdefinition viel weniger klar ist als für das Deutsche (cf. Bauer 1998; Giegerich 2004). 142 Lexikografische Umsetzung Besonderheiten der Darstellung der Komposita sind bereits in den Beispielartikeln in Abschnitt 4.1.5 ersichtHch. Der wichtigste Unterschied zu Kollokationen ist der, dass bei Komposita die ganze Nennform angegeben werden muss, ausser in der Variante mit Ersetzung durch Tilde (cf. Abbildung 13).124 Im Artikel angeordnet werden die Komposita w ie die Kollokationen nach semantischen Kriterien, soweit sinnvoll. Gerade mit der Basis als Bestimmungsglied ist das Bedeutungsspektium der ausgewählten Komposita jedoch oft so gross, dass keine sinnvolle Gruppierung möglich ist und alle in einer einzigen Gruppe zusammengefasst werden. Zusammenfassend kann gesagt werden, dass ein deutschsprachiges Kollokationenwörterbuch, das sich als Textproduktionshilfe versteht - aus all den oben genannten Gründen und trotz den genannten Hindernissen - Komposita unbedingt einschliessen sollte, da sie gerade im Deutschen quantitativ w ie qualitativ einen wichtigen Teil der kombinatorischen Begriffsbildung ausmachen. 4.3 Lexikografischer Arbeitsplatz und technische Konzeption In den nun folgenden Abschnitten geht es um die praktische technische Umsetzung dieser Konzepte und damit um die Einrichtung des lexikografischen Arbeitsplatzes für das Kollokationenwörterbuch. Zwei wichtige Punkte stehen dabei im Vordergrund. Das Redaktionssystem wird auf eine medienunabhängige Ausgabe ausgerichtet, d. h. das Wörterbuch kann sowohl elektronisch als auch auf Papier dargestellt werden. Ausserdem soll der lexikografische Arbeitsplatz bzw. das Redaktionssystem so ausgestaltet sein, dass alle relevanten Informationen möglichst an einem einzigen Ort einfach zugänglich sind, damit eine effiziente Verarbeitung und der systematische Einbezug unterschiedlicher Werkzeuge garantiert werden kann. 4.3.1 Lexikografischer Arbeitsplatz Noch bevor das technische Konzept im Detail zur Sprache kommt, soll der lexikografische Arbeitsplatz für das Kollokationenwörterbuch aus Redaktorenperspektive vorgestellt werden. Mit lexikografischem Arbeitsplatz ist dabei heutzutage ein computergestützter lexikografischer Arbeitsplatz gemeint und damit vor allem die Gesamtheit der verwendeten Software und Daten. Anforderungen an einen solchen lexikografischen Arbeitsplatz gibt es viele, einige gelten sehr allgemein für jede Art von gemeinsamer Bearbeitung von Textdaten, andere sind sehr projektspezifisch. 124 Abkürzung der Basis mit Punkt geht nur theoretisch, führt aber in der Praxis zu schwer auflösbaren Formen (für Benzin z. B. Superb, oder Normalb.). Die Konstituentengrenze ist kaum mehr erkennbar. Bei Substantiven unterscheidet sich die abgekürzte Basis zusätzlich durch Kleinschreibung vom grossgeschriebenen Lemmakopf. UK] Benzin verbrauchen b s p : Die a b surdesten A rg u m e n te gab es zu hören: etw a daß A b b le n d lic h t den Augen schade o der daß d a m it 60 000 Tonnen B en zin im Jahr m e h r v e rb ra u c h t w ü rde n . [d is t-5 ] rank prop rprop f f/ 100M logll mi-score t-score salience chtk dwds l 8 .9 5 .6 8 8 87 2 .8 2 .8 use4 3 5 .9 16.2 25 34 323 3.2 5 .0 waed 18 .3 1 1 .0 105 13 1000 2 .5 10.2 1 1 .6 w_at 11.2 6 .1 20 7 170 2 .3 4 .4 6 .8 w_ch 2 5 .7 2 0 .4 51 25 539 2 .7 7 .1 10 .7 w de 17 .1 9 .2 34 11 315 2 .4 5 .8 8 .6 korpora |N .A k k + V : e tw . v e rb ra u c h t v i e l/ w e nig / . .. B enzin | f t Z u o r d n u n g : B e n z i n / B e n z i n v e r b r a u c h e n / v e r b r a u c h e n u [cm b/ lh / sm / 20 .02 .12 11: 16] 9 h a e u fig / fe s t | a e q u iv . p r a e f . f k o n tra stiv e v o z ie rb a r fa c h sp r. b ild h ./ te ilid io m . p h ra s e n h a ft I R e g io n ( e n ) : i r CH P M [ H s T ir S t r u k tu r m u s te r : v e r b r a u c h e n B e n z in B e is p ie l N .Akk + V ▼] V .ln d .P rs .A .3 S g ▼] N . A k k . S g ^ v e r b r a u c h t B e n z in > B e d e u tu n g P r a g m a tis c h e A n g a b e K o m m e n ta r N e n n fo r m : |I1 ./ .I2 | 1-4) P ® ^ o © W s <> etw. verbraucht viel/ wenig/ ... Benzin Das Auto ist s e h r le ic h t und v e rb ra u c h t w enig Benzin. 4^ O J Abb. 18: Screenshot Redaktionssystem: Kollokationenauswahl und -erfassung mit Angabe der Assoziationsmasse und Direktlinks zu Korpora Lexikografischcr Arbeitsplatz und technische Konzeption Adj. + N verbleit® s N.Akk + V sparen s anzündens PP + V riechens A V / 9 Adjektive/ Adverbien [+s] A V S bleifrei" Verben |+s| [tAnve / fahren* tankenJ bl B enzin n m © *> © A djektive / A dverbien ■ bleifreies B.° Der neue Wagen braucht bleifreies Benzin. [spa re n ] v e r b ra u c h en S k o s te n d A V \0 [a“ J übergießen^ A v " Nomen [+s] A V S * D ie S el^ Phrasen [+s| Zusammensetzungen [+s] ^ v y Normalbenzine Superbenzin ® s Flugbenzins Reinigungsbenzin ® s Waschbenzin®^ Wundbenzins a v H Benzinmotors Benzintanks Benzinhahns Benzinpumpes Benzinkanisters V erben ■tanken mit B. fahren Das Auto fährt sowohl mit Benzin als auch mit Erdgas. • B. tanken Wer noch verbleites Benzin tankt, sollte sich schämen. ■sparen etw. verbraucht viel/ wenig/ ... B. Das Auto ist sehr leicht und verbraucht wenig Benzin. • B. kostet etw. Vor zwanzig Jahren kostete ein Liter Benzin umgerechnet etwa 50 Cent. ■anzünden etw. mit B. übergießen Die Soldaten übergossen das Auto mit Benzin und zündeten es an. ■ etw. mit B. reinigen Das Gewinde mit der Zahnbürste und etwas Benzin reinigen. N omen ■ B. und Diesel ^ v H Benzinverbrauchs Benzinpreiss Benzinsteuer® s VERBORGEN [+s] El u Z usammensetzungen ■ Normalbenzin • Superbenzin Seit 1999 wird kein verbleites Superbenzin mehr angeboten. • Flugbenzin • R einigungsbenzin • W aschbenzin * Wundbenzin ■ Benzinmotor • Benzintank • Benzinhahn Bevor der Motor gezündet wird, unbedingt den Benzinhahn öffnen! • Benzinpumpe • Benzinkanister ■ Benzinverbrauch • Benzinpreis * Benzinsteuer Abb. 19: Screenshot Redaktionssystem: Artikelgruppierung mit Drag-and-drop und Live-Vorschau 144 Lexikografische Umsetzung Lexikografischer A rb eitsplatz u n d technische K onzeption 145 Da mehrere Personen gleichzeitig am Wörterbuch arbeiten, sollten die Daten möglichst für alle auf dem gleichen Stand und gut austauschbar sein, um eine möglichst reibungsarme Zusammenarbeit zu gewährleisten. Alle arbeitsrelevanten Informationen, also vor allem berechnete Korpusdaten (Assoziationsmasse und dergleichen) und Korpusbelege, sollten möglichst einfach zugänglich sein. Die Wörterbuchdaten sollen strukturiert erfasst werden können, ohne dass Flexibilität und das Gefühl für den grösseren Zusammenhang (also z. B. den ganzen Wörterbuchartikel bei der Erfassung einzelner Kollokationen) verloren gehen. Die gewählte Software soll zudem die Unterteilung in sinnvolle Arbeitsschritte unterstützen. Bei der Analyse der Anforderungen stellt sich rasch die Frage, inwiefern bestehende Software genutzt werden kann, und w ie stark auf Eigenentwicklungen gesetzt werden soll. Software, die genau auf unseren Anwendungsfall zugeschnitten wäre, war keine auszumachen. Nach ersten Versuchen mit einer FileMaker-Datenbank125 - FileMaker stellt ein relativ grosses Arsenal an Bearbeitungs-, Such- und Analysefunktionen, die leicht in grafische Benutzeroberflächen integriert werden können, zur Verfügung - wechselte das Projekt relativ schnell auf ein stärker eigenentwickeltes System. Das FileMaker-System zeigte mit den umfangreichen Kookkurrenzdaten aus den Korpora zu grosse Performance-Probleme (selbst wenn an ein anderes relationales Datenbankmanagementsystem gekoppelt). Im aus diesem Anlass neu entwickelten System wurden sowohl Korpuskookkurrenzdaten als auch manuell hinzugefügte lexikografische Daten in derselben Datenbank gespeichert und direkt über eine eigenentwickelte grafische Benutzeroberfläche angesprochen. Das Redaktionssystem wurde als serverbasierte Webanwendung entwickelt (cf. auch Screenshots in Abbildung 18 auf Seite 143 sowie Abbildung 19 auf der vorherigen Seite für einen ersten Eindruck von der Benutzeroberfläche). Dies hat den Vorteil, dass die grossen Datenmengen zentralisiert auf einem Server bearbeitet und administriert werden können.126 Ein nicht zu unterschätzender weiterer Vorteil ist ausserdem, dass auch die Software zentral administriert wird. Damit ist auf Benutzerseite keine Installation notwendig, ein gewöhnlicher Web-Browser127reicht. Da lexikografische Bearbeitung der Daten und Weiterentwicklung des Redaktionssystems parallel liefen, stellte diese zentrale Softwareadministiation sicher, dass immer alle mit derselben Version arbeiteten. Als Webanwendung kann die Applikation auch ortsunabhängig genutzt werden. In das Redaktionssystem mit Datenbank wurden möglichst alle relevanten Daten integriert. Für weniger einfach integrierbare Daten wurden mög- 125 Cf. http: / / w w .filemaker.de (29.11.2013). 126 Der mit heutiger Infrastruktur nur noch geringfügige Hauptnachteil besteht darin, dass eine permanente Netzwerkverbindung zum Server nötig ist. 127 Da es sich um eine begrenzte Anzahl Beteiligter handelt, können unterstützte Browser und Versionen vorgeschrieben bzw. eng begrenzt werden. Dass nicht auf Browserkompatibilitäten Rücksicht genommen werden muss, vereinfacht den Entwicklungsprozess ungemein. 146 Lexikografische Umsetzung liehst direkte Zugänge und Verlinkungen geschaffen. Beim Aufruf eines Lemmas wird als erstes der Bearbeitungsstatus sichtbar. Von da können unterschiedliche Listen von zugehörigen Kookkurrenzen und Kollokationen abgerufen werden. An die einzelnen Kookkurrenzen oder Kollokationen sind direkt Frequenzdaten, Assoziationsmasse und manuell gesammelte Daten angelagert, die direkt angezeigt werden. Relevante Daten, die nicht direkt integrierbar sind, sind vor allem Korpusbelege. Für sie werden Links mit automatischer Suchabfrage zur Verfügung gestellt, sodass gezielt auf die entsprechenden Belegstellen in den Korpora gesprungen werden kann.128 Die lexikografischen Daten, die am Ende das Wörterbuch bilden, also Nennformen, Beispiele, Bedeutungsangaben etc. wurden ebenfalls in dasselbe System eingespiesen. Dies hat wiederum den Vorteil, dass sämtliche Daten für alle auf dem gleichen Stand und immer den entsprechenden Lemmata und Kookkurrenzen zugeordnet sind. Auf diese Weise kann eine doppelte Erfassung gleicher Kollokationen weitgehend vermieden werden: Wennz. B. in Strömen regnen bereits bei der Bearbeitung von Strom als Kollokation angelegt wurde, erscheint es bei der Bearbeitung von regnen automatisch und muss dort nicht erneut angelegt werden, bzw. man läuft nicht Gefahr, die Kollokation ein zweites Mal anzulegen. Die gesamte Erarbeitung eines Wörterbuchartikels bzw. der Daten, die zu einem Wörterbuchartikel führen, ist in mehrere Arbeitsschritte aufgeteilt. Dadurch wird die Erarbeitung strukturierter. Die einzelnen Arbeitsschritte sollten nicht überladen sein, jedoch auch nicht zu monoton, damit möglichst ein Effizienzgewinn spürbar wird, ohne dass Langeweile aufkommt. Beispiele für einzelne Arbeitsschritte sind die Vorsortierung distanzbasierter Kookkurrenzen nach syntaktischem Status (cf. 3.2.3.4), die Auswahl der Kollokationen samt Bestimmung von Nennform, Beispielen und Bedeutungsangaben (cf. Abbildung 18 auf Seite 143) oder die Artikelgruppierung mittels Drag-anddrop und Live-Artikelvorschau (cf. Abbildung 19 auf Seite 144). Bei der allgemeinen Handhabung des Redaktionssystems wurde darauf geachtet, dass die Daten sehr strukturiert erfasst wurden. So wurden für die meisten Angaben wie Nennform, Beispiele etc. separate Datenfelder verwendet. Verschiedene formale Regeln wurden als Validierungsregeln auf Systemebene eingefügt, sodass etwa Beispielsätze nicht ohne Satzzeichen am Ende abgespeichert werden können. Andererseits sollte inhaltlich ein gewisser Spielraum zur Integration von Unvorhergesehenem bestehen bleiben. Da unvorhergesehene Fälle immer auftreten, ist es gut, auf sie in einem gewissen Mass reagieren zu können. Auf Ebene der Nennformen z. B. wurden in einem ersten Schritt kaum technisch-formale Vorgaben gemacht. Die Nennform wird in einem Freitextfeld erfasst, in dem aber einzelne Wörter mit XML-Elementen ausgezeichnet werden können. Dadurch bleiben unter- 128 Dies hat allerdings dazu geführt, dass das Korpus DeReKo (cf. Kupietz et al. 2010) nicht als Quelle benutzt wurde, da keine Möglichkeit der direkten Einbindung bestand (wie etwa ein Webservice oder transparente Direktlinks auf Korpusbelege). Eine manuelle Eingabe von Suchabfragen erschien uns für den Standardprozess als zu zeitaufwendig. Lexikografischer Arb eitsplatz u n d technische Konzeption 147 schiedliche Formulierungen von Nennformen möglich, die Verbindung zum Rest der Datenbank kann aber über die Annotierungen trotzdem gewahrt bleiben. Nach und nach festigte sich die Detaildefinition der Nennform und es konnten auch hier zusätzlich direkte Validierungsregeln eingebaut werden (z. B. die konsistente Reihenfolge der Platzhalter jmd. und etw. bei gleichzeitiger Verwendung). Grössere konzeptuelle Veränderungen führen aber auch bei einem relativ flexiblen Ansatz zu entsprechenden Gewichtsverschiebungen. Ursprünglich war z. B. vorgesehen, die Kollokationen nach syntaktischer Struktur ihrer Nennform zu gruppieren (grob nach Vorbild des OCDSE 2009). Aus diesem Grund wurde ebendiese syntaktische Struktur der Nennform zusammen mit den Flexionsformen genau festgehalten. Später wurde diese syntaktische Gruppierung zugunsten einer stärker semantisch motivierten ersetzt. Unter diesen Bedingungen ist die syntaktische Struktur eher zweitrangig. Sie ist jedoch nach wie vor nützlich, z. B. zur Differenzierung von Basis und Kollokator, zur besseren Übersicht beim Artikelgruppierungsvorgang sowie um bestimmen zu können, ob zw ei Formen gekürzt und in eine Reihung gebracht werden können.129 Bei einer Reihung werden bei mehreren Kollokationen die identischen Teile nur einmal genannt. Die Kollokationen Muskeln aufbauen und Muskeln abbauen werden so in einer Reihung zu Muskeln aufbauen,130131abbauen gekürzt. Bei unterschiedlichen Konstruktionen geht dies aber trotz gleichen Oberflächenformen nicht. Gesellt man den genannten Kollokationen mit Muskeln im Akkusativ eine mit Muskeln im Nominativ wie Muskeln erschlaffen hinzu, darf diese nicht gekürzt werden: *Muskeln aufbauen, abbauen, erschlaffen suggeriert auch für erschlaffen eine Konstruktion mit Akkusativobjekt, besser gibt man hier an: Muskeln aufbauen, abbauen, Muskeln erschlaffen} 1 4.3.2 Technische Konzeption Die Ausführungen zum lexikografischen Arbeitsplatz sind natürlich bereits Teil der technischen lexikografischen Konzeption. Im nun folgenden Abschnitt sollen zusätzliche wichtige Punkte angesprochen werden, die für die Bearbeitung aus Lexikografenperspektive weniger relevant und deshalb noch nicht genannt worden sind. Im Vordergrund steht dabei die Datenmodellierung. Bereits erwähnt wurde die Tatsache, dass die Kookkurrenzen, auf denen die Kollokationseinträge basieren, nur einfach binär sind, d. h. ohne Hier- 129 Nicht zuletzt lassen sich solche manuell annotierten Daten natürlich auch für die weitere Forschung, etwa im Bereich Valenz, nutzen. 130 Als Trennzeichen würde im Wörterbuch kein Komma, sondern das allgemeine Kollokationen-Trennzeichen, z. B. ein Hochpunkt oder eine Pipe, verwendet (cf. Beispielartikel unter 4.1.5). 131 Dass es sich im ersten Fall um einen Akkusativ, im zweiten um einen Nominativ handelt, wird im Minimalbeispiel hier nicht klar, sondern müsste mittels Beispielsatz expliziert werden. Online könnten die Kasusangaben auch direkt angezeigt werden. 148 Lexikografische Umsetzung archisierung oder Einbezug von mehr als zwei Komponenten. Es sind also alles Zweiwortkookkurrenzen. Dies wurde weniger aus theoretischen denn aus praktischen Überlegungen so gehandhabt. Einfach binäre Kookkurrenzen vereinfachen die Berechnung von Assoziationsmassen und ermöglichen Vergleiche zu bestehenden Kookkurrenzdaten (konkret zu jenen des DWDS, cf. 3.1.2). Wortverbindungen aus mehr als zw ei Wörtern lassen sich im Allgemeinen auch über nur zwei ihrer Komponenten finden. Aus den Korpusbelegen ist dann zu ersehen, dass noch weitere Wörter zu der Verbindung gehören bzw. dass es sich um eine hierarchisch gegliederte Mehrwortverbindung handelt (cf. Seretan 2011). Die Möglichkeit der relativ offenen Formulierung von Nennformen erlaubt es, auch Kollokationen aus mehr als zwei Wörtern adäquat darzustellen. Einzig die Einordnung solcher Kollokationen in die Wörterbuchartikel konnte nicht vollumfänglich zufriedenstellend gelöst werden. Da die Kollokationen prinzipiell genau einem Basislemma zugeordnet werden, das aus genau einem Wort besteht,132 kann es zu Dopplungen kommen, w ie z. B. unter dem Lemma Wasser, w o sowohl die einfache Kollokation fliessendes Wasser als auch die komplexe etw. unterfliessendem Wasser abspülen stehen. Diese Fälle sind jedoch nach den bisherigen Erfahrungen nicht so häufig, dass sie störend wirken würden. Ein zentraler Punkt, auf den das technische Konzept ausgerichtet wurde, ist der Wunsch, medienunabhängig publizieren zu können. Das Wörterbuch soll sowohl auf Papier als auch elektronisch genutzt werden können. Wer in der heutigen Zeit ein Wörterbuchprojekt startet, hat gegenüber älteren Projekten das Privileg, das Prinzip der Medienunabhängigkeit schon von Anfang an einbeziehen zu können. Für die Sammlung und Speicherung der lexikografischen Daten geht es dabei im Wesentlichen darum, Inhalt und Darstellung voneinander zu trennen bzw. den Inhalt auf eine Weise strukturiert festzuhalten, die möglichst keine Darstellungsmittel w ie Typografie oder Reihenfolge der Elemente zur Strukturierung verwendet. Dies ist nicht immer möglich oder sinnvoll. Auf jeden Fall sollen aber immer die beiden wahrscheinlichen Hauptpublikationsarten - ein gedrucktes Wörterbuch und eine Online-Publikation mit dynamischeren Such- und Darstellungsmöglichkeiten - im Auge behalten werden. Deshalb wurde als Grundeinheit in der Datenbank nicht ein ganzer Wörterbuchartikel gewählt. Die Grundeinheit ist vielmehr die einzelne Kollokation. Eine solche stärker linguistisch motivierte Modellierung bietet den Vorteil grösserer Flexibilität (cf. z. B. Schmidt & Müller 2001: 37). Reihenfolgen und Zusammenstellungen von Kollokationen sind somit nicht fix, sondern können beliebig verändert werden. Ein Szenario ist z. B., dass in einer elektronischen Version auch Kollokationen angezeigt werden sollen, in denen das Suchwort nur als Kollokator vorkommt. Denkbar ist auch, dass man zwecks besserer Übersicht nur die Kollokatoren, also Einzelwörter und nicht ganze Nennformen, angezeigt haben möchte. Bei einer Modellierung mit einer lin- 132 Natürlich werden die Kollokationen nachgelagert auch dem oder den Kollokatoren zugeordnet, die aber ebenfalls aus je einem Wort bestehen. Lexikagrafischer Arb eitsplatz u n d technische K onzeption 149 guistisch motivierten Grundeinheit sind solche und ähnliche Szenarien viel einfacher umzusetzen als wenn die lexikografischen Daten als ganze Artikel abgespeichert würden (cf. auch Abschnitt 4.1.5.2). Natürlich wäre es auch bei einer Speicherung ganzer Artikel möglich, die Daten darin so zu annotieren, dass sie bis zu einem gewissen Grad dynamisch weiterverwendbar wären, so wie eben skizziert Für viele Fälle würde diese Annotierung aber allzu komplex, wenn dasselbe Ergebnis erreicht werden soll. Nehmen wir als Beispiel den Artikelausschnitt oben, der Nennformenkürzung durch Reihung zeigt: Muskeln aufbauen, abbauen. In unserer Modellierung handelt es sich um zw ei Kollokationen (Muskeln aufbauen und Muskeln abbauen), die dynamisch gekürzt und in eine Reihung gebracht werden, da Muskeln jeweils an derselben Stelle steht und je dieselbe Flexions- und Oberflächenform aufweist. Die beiden Kollokationen sind in der Datenbank mit den zugehörigen Kookkurrenzen verbunden, Basis und Kollokator sind jeweils speziell annotiert und zu den entsprechenden Lemmata verlinkt. Speichert man Muskeln aufbauen, abbauen als einfachen oder formatierten Text im Artikel zu Muskel ohne weitere Annotierung, w ie das in vielen lexikografischen Projekten Usus ist, hat man einzig noch die automatische Verbindung zum Lemma Mwsfce/ . Direkte Verbindungen zu aufbauen und abbauen bestehen nur noch implizit, da die entsprechenden Wortformen im Text stehen. Eine Rekonstruktion dieser Verbindungen müsste dann über den Umweg computerlinguistischer Methoden (Lemmatisierung, Morphologie-Analyse) vorgenommen werden und wäre nie fehlerlos. Im vorliegenden Fall wäre es natürlich einfach, von aufbauen und abbauen zu aufbauen und abbauen zu kommen - ändert man die Nennform jedoch nur marginal zu jmd. baut M uskeln auf, ab, wird die Lemmatisierung mit den getrennten trennbaren Verben gleich viel schwieriger. Wenn man statt Formatierung eine inhaltliche Annotierung anbringt, etw a in der Form von Annotierungen nach TEI (cf. Bernard & Bauman 2011), könnte die Passage mit annotierten Kollokatoren ungefähr folgendermassen aussehen: Muskeln <colloc norm="aufbauen">aufbauen</ colloc>, <colloc norm="abbauen”>abbauen</ colloc>133 Die Verbindung der Nennformen zu den Lemmata ihrer Kollokatoren ist auf diese Weise gewährleistet. Die komplette Nennform ist so aber bei Reihungen nach w ie vor nicht rekonstruierbar, da wir für Muskeln abbauen nur den Text abbauen mit Annotierung des Kollokatorlemmas vorliegen haben. Die unmittelbare Lösung für das Problem wäre ein Mitannotieren der kompletten Nennform. Dadurch würde die Annotierung langsam so komplex, dass sie sehr viele nicht im Artikel angezeigte Parallelinformation enthielte, statt nur einige Zusatzinformation zum Artikeltext. Bei sehr viel mitannotierter Information würde der annotierte Artikel einfach eine Darstellungsvariante 133 Es handelt sich nur um eine exemplarische Annotierung mit Hervorhebung einzelner Elemente, nicht um eine vollständige Annotierung nach TEI. 150 Lexikografische Umsetzung der von uns gewählten Modellierung, in der die einzelne Kollokation Grundeinheit ist. Der Grund dafür, dass für das Kollokationenwörterbuch nicht eine Annotierungsvariante mit sehr reicher Annotierung oder mit verschiedenen Ebenen von Stand-off-Annotierung gewählt wurde, ist vorwiegend praküscher Art. Mit einzelnen Kollokationen als Basiseinheit können dynamische Artikel recht flexibel und natürlich modelliert werden. Zu jeder Kollokation gibt es Zusatzinformationen w ie Nennform, Beispiele, Bedeutungsangaben etc., Kollokationen werden sortiert und nach verschiedenen Kriterien gruppiert (manuell oder automatisch) zu ganzen Artikeln gemacht. Dabei kann eine Kollokation unter einem oder mehreren Stichwörtern erscheinen, oder auch nur als Verweis auf einen anderen Arükel. In einer elektronischen Version ist diese dynamische Gruppierung ausserdem nicht von vornherein festgelegt, sondern kann je nach Benutzerwunsch direkt angepasst werden. Bei einem reich annotierten Artikel müsste für eine dynamische Umgruppierung die Informationsstruktur zuerst eingelesen und dann ebenfalls auf einzelne Kollokaüonen zurückgeführt werden, um eine neue Reihenfolge und Sortierung zu ermöglichen. Wichtig für die technische Konzeption des Wörterbuchs und den dazugehörigen lexikografischen Arbeitsplatz ist die effiziente, möglichst umfassende Integration der relevanten Daten, eine strukturierte und doch flexible Arbeitsumgebung und eine Modellierung der Daten, die eine flexible weitere Nutzung erlaubt. Zusammenfassung Thema dieses Kapitels zur lexikografischen Umsetzung sind verschiedene lexikografische Aspekte zum Kollokationenwörterbuch allgemein, sowie spezifischer zur Rolle der Komposita darin. Den Anfang machen allgemeine, für das lexikografische Konzept des Kollokationenwörterbuchs sehr wichtige Aspekte, etwa zu Makro- und Mikrostruktur des Wörterbuchs. Es wird aber auch auf theoretisch-empirische Grundlagen und auf unterschiedliche Nutzungsmöglichkeiten eingegangen. Im Anschluss folgt eine detaillierte Argumentation für die Notwendigkeit der Integration von Komposita in produktionsorientierte Kollokationenwörterbücher. Zum Schluss werden Überlegungen zum lexikografischen Arbeitsplatz und zur technischen Konzeption präsentiert. Gefordert wird dabei eine möglichst strukturierte Erhebung der Wörterbuchdaten sowie ein möglichst kurzer Weg zu bzw. eine möglichst weitgehende Integration von benötigten Ressourcen im lexikografischen Arbeitsplatz. Zentral ist auch die Modellierung der Daten nach linguistischen Eigenschaften und weniger nach dem Rahmen des Wörterbuchartikels, um eine grössere Flexibilität in der weiteren Nutzung zu erhalten. 5 Kollokationen und Komposita in Konkurrenz Nach theoretischen Überlegungen zur kombinatorischen Begriffsbildung (Kapitel 2), Erläuterungen zur Datengewinnung und -aufbereitung (Kapitel 3) sowie der Diskussion einiger Aspekte des lexikografischen Konzepts des Kollokationenwörterbuchs, insbesondere zur Integration von Komposita (Kapitel 4), geht es im folgenden Kapitel um eine analytische Betrachtung des Konkurrenverhältnisses zwischen Kollokationen und Komposita. Wie bereits dargestellt, decken Kollokationen und Komposita als Mittel zur kombinatorischen Begriffsbildung funktional ähnliche Bereiche ab. Eine Frage, die sich dabei stellt, ist diejenige nach der Verteilung, also ob und wie die beiden Bildungsarten den Funktionsbereich unter sich aufteilen. Allgemeine Präferenzen sind bekannt: Komposition etwa ist im Deutschen vorwiegend im Nominalbereich angesiedelt, während bei Kollokationen insbesondere syntaktische Substantiv-Verb-Gefüge beobachtet werden können. Trotzdem gibt es Überschneidungsbereiche. Besonders interessant sind solche Überschneidungen, wenn sie bis auf die Ebene der einzelnen zu kombinierenden Lexeme gehen, wenn also Kollokationen und Komposita in direkte Konkurrenz treten. Beispiele dafür sind grüner Tee vs. Grüntee, digitales Fernsehen vs. Digitalfernsehen, magere Wiese vs. Magerwiese, Phase der Ausbildung vs. Ausbildungsphase, Risiko eines Konflikts vs. Konfliktrisiko, Teilnahme an einer Diskussion vs. Diskussionsteilnahme, sicher am Berg vs. bergsicher, etc. Einige dieser direkten Konkurrenzbildungen sind synonym oder nahezu synonym zueinander verwendbar, andere zeigen klarere Bedeutungsunterschiede. Diese haben ihren Ursprung oft darin, dass Komposition generell stärker mit Benennungsfunktionen assoziiert ist (cf. 2.3.2). Gerade dort aber, w o die Bedeutungsunterschiede zwischen Kompositum und entsprechender Kollokation klein sind, soll genauer untersucht werden, ob es andere Faktoren gibt, die den Gebrauch des einen oder der anderen begünstigen. Hier ist in einem ersten Schritt der Blick von aussen auf das Phänomen wichtig: Welches sind Bedingungen, die solche Konkurrenzbildungen fördern? Die zweite Perspektive, die Innenperspektive, geht von einzelnen Konkurrenzbildungen aus und fragt, wann eher die Kollokation, wann eher das Kompositum verwendet wird. Diese zwei Perspektiven lassen sich nicht immer klar trennen. Sie sollen aber beide in den folgenden Analysen gebührend berücksichtigt werden. Generelle Eigenschaften, Unterschiede und auch Gemeinsamkeiten von Komposita und Kollokationen sind bereits in den vorhergehenden Kapiteln besprochen worden (cf. vor allem Kapitel 2). Ein wichtiger Unterschied der beiden Mittel zur kombinatorischen Begriffsbildung soll hier aber nochmals 152 Kollokationen und Komposita in Konkurrenz herausgegriffen werden, nämlich der sprachökonomische Aspekt: Komposita sind kürzer, Kollokationen sind expliziter. Komposita machen die Verbindungen, die zwischen den zusammengesetzten Lexemen hergestellt werden, nicht explizit (cf. 2.2.3). Kollokationen hingegen stellen ihre Verbindungen mit syntaktischen Mitteln her und machen so genauere Angaben dazu, in welcher syntaktischen und semantischen Relation die Komponenten zueinander stehen. Kollokationen sind damit aus Sicht der Produktion etwas länger und aufwendiger als Komposita. Letztere sind dafür in der Rezeption aufwendiger, da die Art des Bezugs zuerst rekonstruiert werden muss. Damit Hegen die beiden Bildungsarten auf dem Kontinuum zwischen Aufwand in der Produktion und Aufwand in der Rezeption, das auch im Sprachwandel eine wichtige Rolle spielt (cf. z. B. Keller 1994). Die betrachteten Konstruktionen sind als verfestigte oder lexikalisierte Bildungen ebenfalls Produkte von Sprachwandel. Dagegen einzuwenden und deshalb näher anzuschauen wäre andererseits, dass gerade durch die Konventionalisierung wieder unklarer wird, w ie genau die Verhältnisse bezüglich Aufwand in Produktion und Rezeption einzuschätzen sind. Als „Halbfertigprodukte der Sprache" (Hausmann 1985: 118) sind Kollokationen kognitiv potenziell weniger aufwendig zu produzieren, da bereits halbfertig. Dasselbe lässt sich auf der Gegenseite auch für lexikalisierte Komposita postulieren: Da sie lexikalisiert sind, ist die Art der Verbindung in der Bedeutung enthalten und muss möglicherweise nicht aufwendig rekonstruiert werden, wie das bei Ad-hoc-Komposita der Fall wäre. Da also bei beiden, Kollokationen und Komposita, Konventionalisierung vorliegt, Hesse sich trotzdem wieder mit Sprachökonomie w ie oben argumenüeren. Nach dieser Argumentation müssten allerdings Komposita im Vorteil sein, da bei ihnen der Spareffekt beim phonologischen Material liegt und durch Lexikalisierung nicht wegfällt und die Art der syntaktischen Verbindung bei Komposita ebenfalls durch Lexikalisierung hinreichend bestimmt ist. Andererseits entstehen durch Komposition potenziell grosse Einheiten, die in der Verwendung sperrig oder zu sperrig werden können, sodass sie, obwohl kürzer, doch zugunsten längerer syntaktischer Verbindungen mit kürzeren Einzelelementen gemieden werden. Die Ausgangslage ist also, nur schon bezogen auf den Aspekt des Aufwands in Produktion und Rezepüon, durchaus komplex. Weitere Thesen und Aussagen zum Thema der Konkurrenzbildungen sind bereits bestehenden Arbeiten zu entnehmen (cf. 2.3.5) und sollen in der vorliegenden Arbeit ebenfalls betrachtet werden. Genannte Faktoren, welche die Wahl der Realisationsform von Konkurrenzbildungen beeinflussen, sind der Kontext, besonders die unmittelbare syntaktische Umgebung, und die Möglichkeit zur Komprimierung komplexer syntaktischer Strukturen mittels Kompositum (cf. Schiücker & Hüning 2009a). Ein anderer Erklärungsversuch sieht Analogie auf Lexemebene als treibende Kraft (cf. Schiücker & Plag 2011) - die Lexeme würden sich demnach aufteilen in solche, die eher zu Kompo- 153 Vorbereitende u n d allgem eine A n aly sen sita und solche, die eher zu Kollokationen neigen (mit Wechselwirkungen, da immer mindestens zw ei Lexeme beteiligt sind). In den nun folgenden Abschnitten wird unter Einbezug empirischer Daten das Konkurrenzverhältnis von Kollokationen und Komposita näher untersucht. Dabei wird dem Aspekt der Sprachökonomie sowie den Aussagen und Thesen aus Vorgängerarbeiten besondere Beachtung geschenkt. Nach vorbereitenden und allgemeineren Analysen (Abschnitt 5.1) zur Zuordnung einander entsprechender Konstruktionen (5.1.1), distributioneller Semantik (5.1.3) und Kompositionsproduktivität (5.1.4) geht es in Abschnitt 5.2 weiter mit kompositionsproduktiven Lemmata, darauf folgen eine Untersuchung von Längeneffekten (Abschnitt 5.3) und schliesslich Untersuchungen zum Einfluss von Kontext (Abschnitt 5.4) und Semantik (Abschnitt 5.5). 5.1 Vorbereitende und allgemeine Analysen Bevor das Konkurrenzverhältnis zwischen Kollokationen und Komposita untersucht werden kann, sind vorbereitende Analyseschritte notwendig, die relativ aufwendig oder zumindest rechenintensiv sind. Es sind dies Schritte zwischen Datenaufbereitung und Analyse: Sie führen die allgemeinere Datenaufbereitung, wie sie in Kapitel 3 beschrieben ist, weiter, aber stärker noch mit Fokus auf die weitere Analyse und ohne den Aspekt der direkten Verw endung im Wörterbuchteil des Projekts. Zugleich handelt es sich bei diesen Vorbereitungen aber auch schon um erste Analysen, die gewisse Grundverhältnisse empirisch etablieren (z. B. die Produktivität der Komposition). Bei den hier durchgeführten vorbereitenden Analyseschritten geht es zuerst um die Zuordnung von Komposita zu Kollokationen nach enthaltenen Lexemen, um einen Direktvergleich zu ermöglichen (Abschnitt 5.1.1). Dann wird versucht, auf semantischer Ebene ähnliche und unterschiedliche Bedeutungen oder Verwendungsweisen messbar zu machen (Abschnitt 5.1.3). Schliesslich widmet sich Abschnitt 5.1.4 der Frage der Kompositionsproduktivität im Deutschen. 5.1.1 Zuordnung für den Direktvergleich Für jene Fälle, w o Komposita und syntaktische Konstruktionen, bzw. Kollokationen134, in einem direkten Konkurrenzverhältnis stehen, müssen die Kor- 134 In der nun folgenden Analyse wird von der in Abschnitt 2.1.3 für das Projekt etablierten Kollokationsdefinition abgewichen: Mit Kollokationen sind hier alle den untersuchten Komposita entsprechenden syntaktischen Konstruktionen gemeint, die in bestimmter Frequenz Vorkommen. Damit ähnelt diese Definition stärker der quantitativen Definition von Steyer (2000: 109ff.) im Rahmen ihres Konzepts der usuellen Wortverbindungen. Aufgrund des Umfangs war eine manuelle Klassifikation aller Konkurrenzbildungen nicht möglich. Die manuell ausgewählten Kollokationen des Kollokationenwörterbuchs standen zum Untersuchungszeitpunkt noch nicht alle zur Verfügung. Ausserdem haben diese zusätzlich zur genannten Kollokationsdefinition (cf. 2.1.3) eine spezifische Ausrichtung auf das Zielpublikum des Wörterbuchs, die im Analyseteil wenig relevant 154 Kollokationen und Komposita in Konkurrenz pusdaten entsprechend miteinander abgeglichen werden, um Vergleichsanalysen zu ermöglichen. Prinzipiell ist für jedes Kompositum eine Paraphrase möglich, in den meisten Fällen auch mit denselben Lexemen (oder zumindest Ableitungen davon). Für einen Direktvergleich praktikabel nutzbar sind davon aber nicht alle Instanzen. Einige Konstruktionen, die eine Paraphrase mit denselben Lexemen wie im Kompositum ermöglichen, sind zu lang oder zu komplex, als dass sie mit nennenswerter Wahrscheinlichkeit als eigene Kollokationen auftreten würden. Zu nennen sind hier etwa Relativsatzkonstruktionen oder Komposita, die einen Sachverhalt so stark verkürzen, dass die Paraphrase dementsprechend lang ausfällt, ausserdem exozentrische Komposita. Beispiele sind Hosenbluse, die Ortner et al. (1991: 126f.) mit „Bluse, die zu einer Hose passt" paraphrasieren, oder Akutbett (cf. Donalies 2011: 50f.) als „(Spital-)Bett für akute Fälle", und für exozentrische Komposita Rotkehlchen als „Vogel mit roter Kehle"135; weiterhin Trinkgeld für ein Kompositum mit idiomatisierter Bedeutung, das von Duden in der Bedeutungsangabe als „[kleinere] Geldsumme, die jemandem für einen erwiesenen Dienst [über einen zu entrichtenden Preis hinaus] gegeben wird"136 paraphrasiert wird und nur in der Herkunftsangabe einen Hinweis auf trinken hat: „das Geld war ursprünglich zum Vertrinken bestimmt". Ebenfalls schlecht für den Vergleich heranziehbar sind Fälle, bei denen der syntaktische Kontext stark verändert wird. Ein Beispiel dafür ist ein Wechsel von nominaler zu verbaler Realisierung wie b ei,... direkte und indirekte U nterstützungsm assnahm en . ..' v s . ,... unterstützen ... mit direkten und indirekten M assnahm en ...'. Die Konstruktionsmuster sind in solchen Fällen zu w enig schematisch, und ein Zuordnen wäre deshalb automatisch zu fehlerbehaftet und könnte nur manuell und nur für Einzelfälle durchgeführt werden. Ausserdem wird mit zunehmender Abweichung auf unterschiedlichen Ebenen die Vergleichbarkeit fraglich. Obwohl es sich bei Kollokationen um syntaktische Konstruktionen und bei Komposita um Wortbildungsprodukte handelt, sollen im hier vorgenommenen Vergleich doch beide als ähnliche Einheiten mit ähnlichen Funktionen wahrgenommen werden. Inhaltlich sinnvoll, dazu mit vertretbarem Aufwand und annehmbarer Fehlerquote zu vergleichen sind deshalb nur Fälle, bei denen die Kollokationen möglichst einfach und schematisch aufgebaut sind. Tabelle 14 auf der nächsten Seite zeigt, welche Entsprechungen für zweiwertige Komposita, bestehend aus Lexemen der offenen Wortklassen Substantiv, Verb und Adist. Zudem sind gerade syntaktische Konstruktionen, die mit lexikalisch identischen Komposita interagieren, bezüglich Festigkeit der Verbindung schwer einzuordnen im lexikografischen Auswahlprozess stellt sich die Frage, ob eine Kollokation trotz oder gerade wegen lexikalisch identischem Kompositum ins Wörterbuch aufgenommen werden soll oder nicht. 135 Wobei fraglich ist, wo die Diminuierung anzuschliessen wäre: „Vogel mit rotem Kehlchen" oder „Vögelchen mit roter Kehle". 136 h t t p : / / www. duden. d e / z it ie r e n / 10067725/ 1.8 (29.11.2013; eckige Klammem im Original). Vorbereitende u n d allgemeine A n aly sen 155 jektiv, angenommen werden können (cf. dazu auch Lauterbach 1993: 226 und Hölzner 2007: 40ff.). Die Beschränkung auf offene Wortklassen rechtfertigt sich durch die Frequenzverhältnisse (cf. Abschnitt 2.2.2 bzw. Pümpel-Mader et al. 1992: 16ff.). Der Fokus auf zweiwertige Komposita ist einerseits ebenfalls frequenzmässig begründbar, andererseits sind auch die allermeisten mehrwertigen Komposita auf binäre Strukturen zurückführbar. Schliesslich erleichtert er auch die Vergleichbarkeit mit den als Paaren erhobenen Kollokationen bzw. Kookkurrenzen. Wortart Kopf N V ADJ N 55 N + NP [Gen.] (Hausdach - Dach des Hauses) N + PP (Holzschuh - Schuh aus Holz) N—>Adj + N (Sumpfwiese sumpfige Wiese) [radfahren Radfahren] Adj + PP (kinderreich rach an Kindern) Adj + PP[als/ wie] (grasgrün grün wie Gras) V N + PP[V—>N] (Schwimmbahn - Bahn zum Schwimmen) V[Partizip] + N (Heilkraft heilende Kraft) [gefriertrocknen kennenlemen] Adj + PP[V—>N] (fahrsicher sicher im Fahren) ADJ Adj + N (Grüntee grüner Tee) [leertrinken leer trinken] Adj Konj Adj (blauwäss blau und weiss) Tab. 14: Zuordnung syntaktischer Konstruktionen zu Komposita nach Wortart Tabelle 14 gibt zw ei Arten syntaktischer Muster an: Solche, bei denen die beteiligten Lexeme in der ursprünglichen Wortart im Muster Vorkommen, und solche, bei denen eines der Lexeme seine Wortart wechselt. Schaut man sich die erste Spalte für Substantive in Kopfposition an, sieht man beide Typen vertreten. Ohne Ableitung erscheinen Substantive mit zugehöriger Nominalbzw. Präpositionalphrase oder Adjektivattribut. Mit Ableitung gibt es die Substantive mit desubstantivischen Adjektiven w ie bei Sumpfwiese vs. sumpfige Wiese; ebenso, wenn wohl auch seltener als wirklich gebräuchliche Verbindungen, erscheinen Verben in Konversion in einer Präpositionalphrase (Schwimmbahn vs. Bahn zum Schwimmen) und Partizipien als adjektivische Attribute (Heilkraft vs. heilende Kraft oder mit zu + Partizip in Bildungen w ie Förderschüler vs. zu fördernder Schüler). In vielen Belangen ähnlich ist die Situation bei Komposita mit Adjektiven als Kopf (dritte Spalte in Tabelle 14). Muster ohne Ableitungen sind Adjektive mit abhängiger Präpositionalphrase bzw. als/ wie-Phretse (cf. Eggs 2006) und Adjektive in Koordination. Als Muster mit Ableitung tritt nur die Konstruktion mit Adjektiv und abhängiger Präpositionalphrase mit Konversion des Verbs zu einem Substanüv auf (z. B. fahrsicher - sicher im Fahren). 156 Kollokationen und Komposita in Konkurrenz Für Komposita mit Verben als Kopf (mittlere Spalte in Tabelle 14) sind keine systematischen Entsprechungsmuster angegeben. Für Zusammensetzungen mit Substantiven als Bestimmungsglied (z. B. radfahren137), auch Inkorporationen genannt138, ergeben sich zw ei Hauptprobleme: Die Orthografie schwankt hier zwischen Getrennt- und Zusammenschreibung (cf. z. B. Heine 2010; Morcinek 2012). Abgesehen davon handelt es sich oft um trennbare Verben (cf. Lüdeling 2001), was die Lemmatisierung und korrekte Bestimmung dieser Zusammensetzungen erschwert. Zudem kann bei der Inkorporation sehr unterschiedliches, kaum systematisch fassbares morphologisches Material verloren gegangen sein, im Allgemeinen Kasusendungen, allenfalls Präpositionen. Das würde bedeuten, dass das Verb für eine syntaktische Entsprechung einer Nominal- oder Präpositionalphrase zugeordnet werden müsste, von denen es typischerweise mehrere pro Satz gibt. Zusammen mit den orthografischen Unsicherheiten ergäbe dies eine zu ungenaue Zuordnung (bei radfahren/ Rad fahren etwa findet man Belege wie sie fährt Rad / sie fahren mit dem Rad / das Rad fährt [...] / ich fahre auf dem Rad). Ein weiterer häufiger Fall bei der Kombination Substantiv + Verb sind Partizipialbildungen von Substantiv-Verb-Kollokationen wie milchtrinkend, materialproduzierend, steuerzahlend, staatsgefährdend etc. Es handelt sich bei diesen meist um regelhafte Bildungen und nicht (wie etwa bei staatsgefährdend) um eigenständig lexikalisierte Formen. Da die syntaktische Konfiguration bei beiden Realisierungen systematisch eine andere ist (frei bei Substantiv-Verb-Kollokationen allgemein, vorwiegend attributiv bei den Partizipialbildungen), wäre die Vergleichbarkeit nicht gegeben. Verb-Verb-Komposita w ie gefriertrocknen, spritzgiessen oder kennenlernen haben keine formal einfachen Paraphrasen. Sie sind zudem wenig produktiv und werden deshalb nicht näher berücksichtigt. Für Verb-Komposita mit Adjektiv als Bestimmungsglied w ie leertrinken oder scharfstellen gelten ähnliche Bedingungen w ie für die Substantiv-Inkorporationen. Problematisch ist wieder die Getrennt- und Zusammenschreibung: Oft ist beides möglich bzw. wird beides praktiziert (cf. auch Rat für deutsche Rechtschreibung 2006).139 Die Unterschiede zwischen syntaktischer Konstruktion und Zusammensetzung sind also fliessend, und die Betonungsverhältnisse, die allenfalls zusätzliche Hinweise auf Univerbierung geben könnten, sind schriftlich nicht ersichtlich. Zu den häufigen Zusammensetzungen ohne systematische Entsprechung in Tabelle 14 sind ausserdem ganz allgemein Zusammenbildungen zu zählen, also Ableitungen ganzer Syntagmen (wie etwa blauäugig von blaue A u gen oder Bergsteiger von auf einen Berg steigen). Hier ändert sich durch die 137 Nach aktueller Orthografie Getrenntschreibung: Radfahren. 138 Obwohl man nicht von einem direkten Inkorporationsprozess ausgeht, cf. z. B. Mithun ( 2000 ) . 139 Für leertrinken/ leer trinken und scharfstellen/ scharfstellen ist beides möglich, wobei Duden hier Getrenntschreibung empfiehlt (cf. h ttp : / / www.duden.de/ zitieren/ 10177169/ 1. 7 und http: / / w w w .duden.de/ zitieren/ 10188152/ ! .6 (29.11.2013). Vorbereitende u n d allgemeine A n aly sen 157 Ableitung wieder das syntaktische Potenzial, und die Entsprechungen sind zu wenig systematisch fassbar, da zusätzlich zur Zuordnung der beteiligten Lexeme auch eine syntaktische Entsprechung für das Derivationsmorphem gefunden werden müsste (bei blauäugig z. B. m it blauen Augen oder blaue A u gen haben). Ebenfalls nicht erfasst werden syntaktische Entsprechungen für Adjektivkomposita aus zwei Adjektiven mit determinativer Struktur, bei denen also das Bestimmungsglied den Kopf näher bestimmt (z. B. hellblau, zartgelb, direktdemokratisch etc). Paraphrasen davon sind entweder nur intonatorisch markiert („hell bläu" bei Pümpel-Mader et al. 1992: 66) und damit schriftlich nicht verwertbar, oder sie sind zu explizit und aufwendig konstruiert, als dass sie als Kollokationskandidaten in Frage kämen (in etwa ,auf X Art und Weise Y' bzw. ,auf helle Art und Weise blau' für hellblau, cf. Pümpel-Mader et al. 1992: 66). Erfasst und in die weiteren Untersuchungen eingeschlossen werden Komposita mit systematischer kollokativer Entsprechung. Es sind dies die in Tabelle 14 in der ersten und der letzten Spalte aufgeführten Muster, die alle entweder Adjektive oder Substantive als Kopf haben. 5.1.2 Zählung von Konkurrenzbildungen Der erste grobe Analyseschritt nach der Zuordnung einander nach Bestandteilen entsprechender Kollokationen und Komposita ist die einfache Zählung dieser Konkurrenzbildungen, besonders natürlich derer, die ähnlich viele Kollokationen w ie Komposita aufweisen. Abbildung 20 setzt Konkurrenzbildungen mit einem ähnlich hohen Anteil an Kollokationen wie Komposita - Kandidaten für besonders starke Konkurrenz - in Bezug zu denjenigen, wo viele Komposita auf der einen Seite nur wenigen Kollokationen auf der anderen Seite gegenüberstehen14® (und umgekehrt). Die y-Achse zeigt dabei den Anteil der Entsprechungen mit ausgeglichenem Konkurrenzverhältnis gemessen an der Gesamtzahl aller Entsprechungen. Alle Angaben (und Datenpunkte) gelten jeweils pro Lemma. Die x-Achse bildet die Verhältnisse bei den einseitigen Entsprechungen ab: Das Verhältnis dort gibt den Anteil einseitiger Entsprechungen an, bei denen das Kompositum überwiegt, gemessen an der Gesamtzahl der einseitigen Entsprechungen. Ein Datenpunkt rechts bedeutet also vor allem, dass einseitige Entsprechungen vorwiegend mit Kompositaüberhang zu beobachten sind, ein Datenpunkt links, dass die einseitigen Entsprechungen eines Lemmas vor allem Kollokationen bevorzugen; ein Datenpunkt in der Mitte bedeutet, dass ähnlich viele einseitige Entsprechungen je mit Kompositums- und mit Kollokationenmehrheit gefunden wurden. Die Untergrenze für ein ausgeglichenes Konkurrenzverhältnis wurde mehr oder weniger willkürlich auf 30% festgelegt (Beispiele für einzelne Datenpunkte folgen weiter unten). Für Werte darüber kann rein zahlenmässig mit Sicherheit von starker140 140 Bei den Daten handelt es sich um diejenigen des Web-Korpus. 158 Kollokationen und Komposita in Konkurrenz Lemma als Kopf 100 % E 80% M 50% £ 20 % 0 % « < t • * m • i •i • : : 1 • " •• 1 • • * •»( V ' 7 \ • • • *. • * -• i • • • . ■ •#! • . 1 1 ** V . I .• »" '. > V i > ( • r j ? - • • . - < • • «I ! • • * • • « e # l .1 •• • k « t ft (* 1 1 .• •• * • • . ■ - • • s • . « • • • • • • o.. ■ IB • <R « • • • ■ P | w i 0% 20% 50% 80% 100% E xtrem bildungen K ollokationen vs. Komposita Lemma als Bestimmungsglied ioo%ro '</ ) oQ. • • « E 80% - S i c<1> Co TO — 50% - SP * # •# • . •« _ • * • • ' • • Ä f i < * \ • r . • . • • • • * « % ► ** %• # • # % * • . • \ 1 7« ft • p« • i s c<D ö) C3 TJ ! 5 N r *# * • ; ; •• ‘ *. . ■ * •• * • / * § 20% - 3 c s n oz, ft . . ’ * + y i 1 ■ • • f m ‘ * • . * . • « • ■ U/ o 0% 20 % 50’% 80 ■ % 100% E xtrem bildungen K ollokationen vs. Komposita Abb. 20: Anteil Konkurrenzbildungen Komposita - Kollokationen mit ausgeglichenem Verhältnis bezogen auf den Anteil einseitiger Konkurrenzbildungen (Web-Korpus; pro Lemma) Vorbereitende u n d allgemeine A n aly sen 159 Konkurrenz gesprochen werden, schliesslich handelt es sich um ein maximales Verhältnis von 2: 1. Ob darunter bereits in jedem Fall von Einseitigkeit (und damit schwächerer Konkurrenz) gesprochen werden sollte, ist hingegen fraglicher. Allerdings zeigt die x-Achse auch mehr an, ob ein Lemma stärker zu Kollokationen oder zu Komposita neigt Durch die allenfalls etwas hohe Untergrenze wird damit höchstens in y-Richtung dem Anteil der ausgeglichenen Entsprechungen ein wenig Material genommen. Um keine systematischen Verzerrungen zu verursachen, wurden nur Entsprechungen berücksichtigt, bei denen die Belegzahl sowohl für die Komposita als auch die Kollokationen bei mindestens drei lag. Dies deshalb, weil Kollokationen bzw. Kookkurrenzen mit geringerer Auftretenshäufigkeit gar nicht erhoben worden waren. Die beiden Einzelgrafiken in Abbildung 20 zeigen schliesslich die Verwendung des Lemmas als Kopf im Kompositum (oben), sowie als Bestimmungsglied im Kompositum (unten).141 Das Hauptanliegen der Diagramme in Abbildung 20 ist es, einen ersten Eindruck über die Verteilung von Kompositum-Kollokationen-Entsprechungen zu vermitteln. Bilden einzelne Lexeme immer hauptsächlich Kollokationen, oder hauptsächlich Komposita, oder beides? Ist der Fall der ausgeglichenen Entsprechung häufig? Die Diagramme in Abbildung 20 suggerieren eine sehr vielfältige Landschaft solcher Entsprechungen. Als erstes ist festzustellen, dass Entsprechungen mit ausgeglichenem Konkurrenzverhältnis relativ häufig sind: Der Hauptteil der Datenpunkte liegt hier zwischen 20% und 60%. Darüber hinaus sind sämtliche Muster vertreten. Die generellen Anteile liegen insgesamt bei den einseitigen Verteilungen bei rund 30% (29.1% für Kollokationen- und 29.7% für Kompositumsmehrheit), bei den ausgewogeneren Verteilungen bei 41.0%. Beispiele für Lemmata, bei denen alle betrachteten Typen ziemlich gleichmässig verteilt sind, die also ähnlich viele ausgeglichene wie einseitige Entsprechungen haben, und bei den einseitigen ähnlich viele mit Kompositumsw ie mit Kollokationenüberzahl, sind etwa Qualität, Schatten und politisch,142 Deren Datenpunkte sind in der Mitte des Diagramms zu finden. Realisierungen der einzelnen Typen für diese drei Lemmata wären für die ausgewogenen Konkurrenzbildungen z. B. Waldschatten vs. Schatten des Waldes, Geschmacksqualität vs. geschmackliche Qualität, publizistisch-politisch vs. publizistisch und politisch. Entsprechungen mit viel höherem Kompositumsanteil für dieselben Lemmata sind z. B. Windschatten vs. Schatten des Windes, Führungsqualität vs. Qualität der Führung, kommunalpolitisch vs. kommunal und politisch143. Einseitige Entsprechungen mit viel niedrigerem Kompositums- 141 Ausserdem wurde in den Grafiken sogenanntes Jittering angewendet, das heisst, die Punkte wurden leicht ungenau aufgetragen, sodass eigentlich übereinander liegende Punkte als Punktwolke abgebildet werden (etwa an einigen Stellen auf den Achsen). 142 Alle in der Verwendung als Kompositumsbzw. Phrasenkopf. 143 Bei kommunalpolitisch wird allerdings wohl meist stärker determinativ als koordinativ gelesen. 160 Kollokationen und Komposita in Konkurrenz anteil zu diesen Lemmata wären schliesslich eigener Schatten vs. Eigenschatten, Qualität eines Projekts vs. Projektqualität sowie gesellschaftlich und politisch vs. gesellschaftlich-politisch. Beispiele für Lemmata, die in ihren Kompositum-Kollokationen-Entsprechungen einseitigere Verteilungen zeigen, gibt es ebenfalls. So etwa diejenigen, welche ihre Datenpunkte in Abbildung 20 rechts unten haben, die also vor allem Komposita bilden, mit nur ganz wenigen kollokativen Entsprechungen. Beispiele dafür sind die Lemmata Kugel, Uniform und braun. Zugehörige Instanzen des Bildungstyps mit Kompositumsüberhang sind etwa Hohlkugel vs. hohle Kugel, Polizeiuniform vs. Uniform der Polizei oder rotbraun vs. rot und/ oder/ bis braun. Auf der anderen Seite in Abbildung 20, also unten links findet man diejenigen Lemmata, die zu Kollokationen mit nur wenigen Kompositumsentsprechungen tendieren. Beispiele dafür sind Schulter, Samstag und klassisch. Realisierungen des Musters dazu sind z. B. Schultern einer Frau vs. Frauenschultern, Samstag im Oktober vs. Oktobersamstag, modern und/ oder/ bis klassisch vs. modern-klassisch. Weitere Bereiche in Abbildung 20, für die Beispiele interessant sein könnten, sind diejenigen links und rechts oben, also jene, die zwar ausgewogene Konkurrenzbildungen kennen, aber dann doch in Richtung Kollokationen oder in Richtung Komposita tendieren. Beispiele für Lemmata mit vielen ausgewogenen Konkurrenzbildungen, aber Tendenz zu Komposita sonst, sind Zeichnung, Tasche und kritisch. Für Zeichnung ist eine ausgewogene Konkurrenzbildung Tierzeichnung vs. Zeichnung eines Tiers/ von Tieren, eine Bildung mit vorherrschendem Kompositum hingegen ist etwa Kinderzeichnung vs. Zeichnung von Kindern/ eines Kindes. Für Tasche sind dies entsprechend z. B. Büchertasche vs. Tasche mit Büchern (ausgewogenes Konkurrenzverhältnis) und Federtasche vs. Tasche aus Leder (vorherrschendes Kompositum). Beim Adjektiv kritisch findet man etwa analytisch-kritisch vs. analytisch und kritisch (ausgewogenes Konkurrenzverhältnis) sowie historisch-kritisch vs. historisch und kritisch (vorherrschendes Kompositum). Beispiele für Bildungen mit ausgewogenem Konkurrenzverhältnis, aber sonst Übergewicht bei den Kollokationen sind Lemmata wie Einladung, M itte und gross. Bei Einladung sind das etwa Party-Einladung vs. Einladung zu einer Party (ausgewogenes Konkurrenzverhältnis) und private Einladung vs. Privateinladung (Kollokation vorherrschend). Für Mitte gibt es Tischmitte vs. Mitte des Tisches (ausgewogenes Konkurrenzverhältnis) und Mitte des Films vs. Filmmitte (Kollokation vorherrschend), für gross findet m&nfingergross vs. so gross wie ein Fingeru i (ausgewogenes Konkurrenzverhältnis) sowie so gross wie die Erde vs. erdgross (Kollokation vorherrschend). All diese Beispiele vermögen wohl mehr einen ersten Einblick in das Problemfeld zu geben als bereits eine erste Richtung für eine Systematisierung zu festzulegen. Was noch nicht angesprochen wurde, was aber in diesem Zusammenhang ebenfalls wichtig ist, ist die Frage, wie hoch der Anteil der144 144 Diese Art Muster beinhaltet ja nach Vorhandensein auch Bildungen wie gross wie ein Finger und grösser als ein Finger. Vorbereitende u n d allgemeine A n aly sen 161 Komposita oder Kollokationen ist, die überhaupt eine Entsprechung zum jeweiligen Gegenstück haben. Leider ist die Gesamtanzahl Kollokationen nicht so leicht festzustellen - aus der automatischen Extraktion bekommt man ja lediglich Kookkurrenzen, aus denen man manuell auswählen oder bei einem zugehörigen Assoziationsmass arbiträr eine Grenze ziehen muss. Die Gesamtzahl der Komposita ist da leichter bestimmbar. Deshalb ist es hier auch nur möglich, Zahlen für den Anteil der Komposita zu geben, die eine syntagmatische Entsprechung aufweisen. Für das Web-Korpus, wenn man nur Komposita ab Häufigkeit 3 zählt, sind das immerhin 20.8%.145 Es handelt sich also keineswegs nur um ein Randphänomen. Um zu Abbildung 20 zurückzukommen: Hier zeigt sich neben der schon erwähnten Diversität eine sehr ausgeglichene Verteilung der Lemmata, die zu mehr Komposita neigen, oder eben zu mehr Kollokationen. Dies sowohl für die Bildungen mit dem Lemma als Kopf des Kompositums oder der Phrase, als auch für Bildungen mit dem Lemma als Bestimmungsglied oder Attribut in der Phrase. Einzig für das Schweizer Textkorpus und das Usenet- Korpus (hier ohne Abbildung) lässt sich eine gewisse Häufung von Lemmata feststellen, die zu mehr Komposita neigen. Da diese Korpora wesentlich kleiner sind, beruht aber die Auswertung auch auf einer sehr viel dünneren Datengrundlage. 5.1.3 Distributionelle Semantik und Latent Semantic Analysis Das Konkurrenzverhältnis zwischen Kollokationen und Komposita mit gleichen Lexemen (cf. 5.1.1 oben) kann nicht untersucht werden, ohne die semantische Dimension zu beachten. Oft sind konkurrierende Bildungen nicht synonym. Eine Feuchtwiese etwa ist eine bestimmte Art Wiese in einem Moorgebiet, während es sich bei einerfeuchten Wiese wohl meist um irgendeine Wiese mit Nässe handelt. Demgegenüber existieren Fälle w ie Grüntee und grüner Tee, die meist als Synonyme anzusehen sind. Ein systematischer Hauptunterschied zwischen Komposita und ihren syntaktisch gebildeten Gegenstücken ist der mit Feuchtwiese und feuchte Wiese bereits angesprochene: Komposita haben oft Benennungsfunktion, syntaktische Entsprechungen eher eigenschaftszuordnende Funktionen (cf. 2.3.2). Neben diesem wohl häufigsten Fall sind aber verschiedene weitere semantische Unterschiede denkbar. Für einen Vergleich ist es wichtig, solche semantischen Unterschiede und Gemeinsamkeiten feststellen zu können. Oft zeigen schon einzelne Korpusbelege in eine bestimmte Richtung, beim Feuchtwiesenbeispiel etwa mit,Die Artenvielfalt in den letzten Feuchtwiesen der Schweiz nimmt laufend ab' v s ., Kühle Nachtluft durchströmt die Nasenflügel, diefeuchten Wiesen duften'. In genau diese Richtung gehen quantitative Verfahren der distributionellen Semantik wie etwa die Latent Semantic Analysis oder andere vektorraumbasierte Methoden 145 Dieser Quotient zeigt sich sensibel u. a. auf Korpusgrösse für das Schweizer Textkorpus und das Usenet-Korpus liegt der entsprechende Anteil bei 10.5% bzw. 9.1%. 162 Kollokationen und Komposita in Konkurrenz (cf. z. B. Baroni & Lenci 2010; Curran 2004; Turney & Pantel 2010; Weeds & Weir 2005). Die Bedeutung eines Wortes oder einer Phrase wird dabei beschrieben durch die Kontexte, in denen der Begriff vorkommt. Die Anlehnung an Firth (1957a: 11) mit „You shall know a word by the company it keeps! " bzw. an Wittgenstein (1953: §43) mit „Die Bedeutung eines Wortes ist sein Gebrauch in der Sprache." ist offensichtlich. Vektorraumbasierte Methoden sind vor allem im Bereich Information Retrieval eingesetzt worden, z. B. für Suchmaschinen. Die Grundidee dabei ist, dass jedem Dokument (wobei Suchanfragen selbst als Dokumente angesehen werden, gleich wie auch Kontexte von Begriffen) ein mehrdimensionaler Vektor zugeordnet wird. Als Dimensionen werden dabei die Wörter (Types) der Dokumente verwendet, mit je nach Tokenzahl grösserer oder kleinerer Ausdehnung. Je ähnlicher die Wörter zweier Dokumente und auch deren Häufigkeit ist, desto ähnlicher werden ihre zugehörigen Vektoren. Bei solchen Berechnungen werden dokumentintern häufige Wörter höher gewichtet als seltene, andererseits werden allgemein häufige Wörter, die also in vielen Dokumenten Vorkommen, tiefer gewichtet als allgemein seltene. Das dazugehörige Mass ist tf-idf (term frequency - inverse document frequency, cf. z. B. Jurafsky & Martin 2009; Turney & Pantel 2010). Beim Vergleich der Vektoren hinsichtlich Ähnlichkeit werden ihre Winkel angeschaut, um die unterschiedlichen Vektorlängen auszugleichen (die ihren Ursprung in unterschiedlichen Dokumentlängen haben). Dies wird mittels Cosinus bewerkstelligt. Die Cosinus-Ähnlichkeit bei Textvektor-Vergleichen liegt zwischen 0 (unabhängige Richtung) und 1 (genau gleiche Richtung), da die Werte als ursprüngliche Worthäufigkeitswerte immer positiv sind (cf. z. B. Turney & Pantel 2010). Latent Semantic Analysis (cf. z. B. Curran 2004; Deerwester et al. 1990; Landauer, Foltz & Laham 1998; Turney & Pantel 2010) schliesslich ist eine Methode, mit statistischen Mitteln die Anzahl der Dimensionen der sogenannten Term-Dokument-Matrizen zu verkleinern. Die genannten Vektoren entstehen so, dass eine zweidimensionale Matrix ausgefüllt wird, bei der die eine Dimension aus den vorhandenen Termen (Types) besteht, die andere aus den Dokumenten, in denen die Terme Vorkommen. Die in die Matrix eingesetzten Werte sind Tokenzahlen eines bestimmten Terms pro Dokument. Da die Anzahl Terme (und damit die ganze Matrix) sehr gross werden kann, wird versucht, ähnliche Terme mittels statistischer Singulärwertzerlegung bzw. Hauptkomponentenanalyse zu generelleren Konzepten zusammenzufassen bzw. die Hauptkomponenten der Dokumente zu finden. Es zirkulieren verschiedene Softwarepakete, die sich des Problems annehmen und die Berechnung der erwähnten Matrizen, Vektoren und Vektorähnlichkeiten erleichtern. Für die vorliegende Arbeit wurde dazu das pythonbasierte Framework Gensim (cf. Rehürek & Sojka 2010) verwendet. Als Quasi- Dokument wurde die Gesamtheit der Sätze im Korpus genommen, in denen eine bestimmte Kollokation oder ein bestimmtes Kompositum vorkommt, je- Vorbereitende u n d allgem eine A n aly sen 163 doch ohne den entsprechenden Begriff selbst, also lediglich der Satzkontext. Detailliertere Angaben sind bei den entsprechenden Berechnungen der distributioneilen semantischen Ähnlichkeiten in Abschnitt 5.1.3.1 zu finden. Wichtig ist allerdings auch, die Grenzen eines solchen Verfahrens zur Quantifizierung semantischer Ähnlichkeiten zu sehen. Wird Ähnlichkeit zwischen zwei Begriffen festgestellt, kann deswegen nicht unbedingt etwas über die Art der Ähnlichkeit ausgesagt werden. Es kann sich dabei um Synonymie, Antonymie, Hyponymie, Auftreten im Kontext oder ähnlichen Kontexten etc. handeln. Im vorliegenden Projekt ist Synonymie bei hoher Ähnlichkeit eine sehr wahrscheinliche Relation, da nur Komposita und Kollokationen mit gemeinsamen Lexemen verglichen werden (cf. dazu auch Gaeta & Zeldes 2012; Holz & Biemann 2008). Bei sehr hoher Ähnlichkeit kann hier also von synonymer Verwendung ausgegangen werden. Die Problematik lässt sich z. B. an der Korrespondenz Börsenkurs - Kurs an der Börse illustrieren, deren Ähnlichkeitswert im Web-Korpus bei eher hohen 0.77 liegt. Tabelle 15 zeigt für beide die Verbindungen mit den höchsten Ähnlichkeitswerten. Unter den ersten zehn sind dabei unterschiedliche Relationen zu beobachten. Die Entsprechungen mit gleichen Lexemen aber unterschiedlicher Bildungsweise - eben Börsenkurs und Kurs an der Börse - sind nicht auf den vordersten Rängen zu finden, sondern erst auf Rang 30 bzw. 47. Die Auflistung in Tabelle 15 zeigt, wie wichtig hier Zusatzbedingungen sind, wie im vorliegenden Fall die lexikalische Übereinstimmung der Bestandteile. Börsenkurs Kurs an der Börse 1 . Aktienkurs 0.88 1 . Börsenzeit 0.88 2. Kurs einer Aktie 0.87 2. Handelsbeginn 0.87 3. Kauf von Aktien 0.85 3. Unternehmenszahl(en) 0.87 4. H andels tag 0.84 4. Handelswoche 0.87 5. Kursentwicklung 0.84 5. Aktienpreis 0.86 6. A ktienb e sitzer/ in 0.82 6. Mexiko-Stadt 0.86 7. Wert einer Aktie 0.82 7. Handelstag 0.86 8. Aktienpreis 0.82 8. Gewinn des Handels 0.85 9. Kursverlauf 0.81 9. Preis einer Aktie 0.84 10. Kurs von Euro 0.81 10. Direktinvestment 0.84 30. Kurs an der Börse 0.77 47. Börsenkurs 0.77 Tab. 15: Höchste Ähnlichkeitswerte nach LSA für ,Börsenkurs' und ,Kurs an der Börse' Noch schwieriger und weniger klar ist die Interpretation von niedrigeren oder sehr niedrigen Ähnlichkeitswerten. Wie angedeutet ist eine feine Differenzierung nach Art der Ähnlichkeit bzw. Unähnlichkeit schlecht möglich. Da sich die Berechnung um Gebrauch und Kontext dreht, reagiert sie entsprechend sensibel auf Störungen in diesem Bereich. Zu nennen sind hier etwa Unausgewogenheiten und Zufälligkeiten in der Korpuszusammenstellung, aber auch Verwendungen in syntaktisch unterschiedlichen Kontexten (wo 164 Kollokationen und Komposita in Konkurrenz bei manueller Beurteilung kein grosser semantischer Unterschied festgestellt würde). Ein direkter Vergleich ist deshalb nur für Fälle mit hohen Ähnlichkeitswerten möglich, bei allen anderen ist gegebenenfalls eine differenzierte Beurteilung notwendig,. 5.1.3.1 Ähnlichkeitswerte Kompositum-Kollokationen-Paare Für sämtliche Paarungen von Komposita und Kollokationen nach der Zuordnung gemäss Abschnitt 5.1.1 sind LSA-Ähnlichkeitswerte für das Web- Korpus berechnet worden.14,1 Abbildung 21 versucht, einen Eindruck der Verteilung dieser Ähnlichkeitswerte zu geben. Im Balkendiagramm links sieht man die Anzahl Entsprechungen (y-Achse) mit unterschiedlichen Ähnlichkeitswerten, für die der gesamte Wertebereich (zwischen 0 und 1) in zehn Segmente aufgeteilt wurde (x-Achse). Deutlich sieht man, dass niedrige Ähnlichkeitswerte vorherrschen (der Median liegt bei 0.23, das erste Quartil bei 0.11, das dritte Quartil bei 0.40, das oberste Dezil bei 0.58 und das oberste Perzentil bei 0.85). Das Diagramm rechts in Abbildung 21 zeigt die LSA-Ähnlichkeitswerte (y-Achse) gegenüber dem Rang in der Kompositumsähnlichkeitsliste (x- Achse; entspricht der Rangzahl links in Tabelle 15 auf der vorherigen Seite). Niedrigere Ränge (weiter links) gehen einher mit höheren LSA-Ähnlichkeitswerten (weiter oben).146147 A n z a h l E ntsprechungen nach L S A -Ä h n lic h k eits w erte n 0 - .1 . 1 - 2 .2 - 3 .3 - . 4 .4 - 5 .5 - 6 .6 - 7 .7 - 8 .8 - 9 .9 - 1 Ähnlichkeitswerte LSA L S A -Ä h n lic h k e its w e rt vs. R ang i . o . o - 1000 2000 3000 4000 5000 Ähnlichkeitsrang Kompositum vs. Kollokation Abb. 21: Verteilung von LSA-Ähnlichkeitswerten und Rangierungen im Web- Korpus 146 Für die kleineren Korpora, das Usenet-Korpus und das Schweizer Textkorpus, wurden diese Berechnungen wie auch davon abhängige nicht durchgeführt, da ihre Datenbasis zu schmal ist, um aussagekräftige Ergebnisse zu liefern. 147 Ränge über Rang 5000 sind ganz rechts bei Rang 5000 zusammengefasst deshalb die Punkthäufung dort. Vorbereitende u n d allgemeine A n aly sen 165 Beide Befunde sind so nicht überraschend. Die allgemeine Verteilung ist allenfalls ein Hinweis darauf, dass Synonymie auch in Konkurrenzsituationen nicht der Normalfall ist. Der Vorteil solch distributioneller Ähnlichkeitswerte ist der, dass der graduelle Charakter der Synonymie bereits im Modell angelegt ist. Leider ist dies gleichzeitig ein grosser Nachteil. Eine Kategorisierung in synonyme und nicht-synonyme Verwendungen ist auf dieser Basis schwierig. Es müsste ein Schwellenwert festgelegt werden, dessen Bestimmung wiederum alles andere als trivial ist. Zur Bestimmung von Synonymie mit LSA gibt es eine Reihe von Untersuchungen, die als Testmenge sowie Testmethode die Multiple-Choice-Tests des Zertifikats Test of English as a Foreign Language (TOEFL)1*8 verwendet haben. Sowohl für menschliche Probanden als auch für die LSA-basierten Algorithmen besteht die Aufgabe darin, zu einem bestimmten Wort aus einer Auswahl das Synonym zu finden. LSA schneidet dabei ebenso gut (Landauer & Dumais 1997) bzw. sogar deutlich besser (Rapp 2003) ab als der Durchschnitt der menschlichen Testabsolventinnen und -absolventen. Ein Schwellenwert muss hier aber nicht bestimmt werden, da jeweils einfach das Wort mit dem höchsten Ähnlichkeitswert aus den vorgeschlagenen Lösungsmöglichkeiten ausgewählt wird (gar keine Lösung oder Mehrfachlösungen sind bei diesem Aufgabentyp nicht vorgesehen). In anderen Arbeiten zur Synonymie (etwa van der Pias &Tiedemann 2006 oder Ekstein & Krcmär 2012) liegt der Fokus mehr auf der Disambiguierung der Bedeutungsbeziehung: Von den Begriffen mit hohen Ähnlichkeitswerten sollen jene ausgewählt werden, deren Bedeutungsähnlichkeit darin besteht, dass sie synonym verwendet werden können (cf. auch Tabelle 15 auf Seite 163 für konkrete Beispiele anderer Bedeutungsähnlichkeiten). Ziel dabei ist es, zu einem bestimmten Begriff Synonyme zu finden etwa für Anwendungen im Information Retrieval oder in der maschinellen Übersetzung. Doch auch hier geht es nicht um die Bestimmung eines exakten Schwellenwertes. Nun ist es aber auch theoretisch nicht so klar, w o ein Schwellenwert anzusetzen wäre. Geht man davon aus, so w ie man das in der Linguistik gemeinhin tut, dass totale Synonymie sehr selten ist (cf. z. B. Bussmann 1990: 763), muss man sich fragen, ab welchem Grad der Übereinstimmung denn von Synonymie gesprochen werden soll. Eine der Möglichkeiten für unseren Anwendungsfall in der kombinatorischen Begriffsbildung mit gleichen Konstituenten, aber unterschiedlichen Konstruktionen, könnte sein, sich zu fragen, ob beide Konstituenten je in der gleichen Bedeutung verwendet werden. Hölzner (2007: 28f.) bringt in einem ähnlichen Zusammenhang das Beispiel der beiden Konstruktionen Ermittlungen der Polizei und polizeiliche Ermittlungen.1*9 Er merkt an, diese seien seines Erachtens synonym. Er schaut sich daraufhin die Verwendungsweisen in den Korpora an und stellt fest, dass das Genitivattribut (der Polizei) eine leicht andere Verteilung148149 148 http: / / www.ets.org/ toefl (29.11.2013). 149 Es sind hier zwei verschiedene syntaktische Konstruktionen, kein Kompositum, doch die Argumentationslinie ist dieselbe. 166 Kollokationen und Komposita in Konkurrenz hat als das Adjektivattribut polizeilich. Hier stellt er neben den Gemeinsamkeiten, dass es in beiden Fällen um Ermittlungen geht, die von der Polizei durchgeführt werden, Unterschiede fest, und zwar: Bei der adjektivischen Verwendungsweise ist es eher die Institution Polizei, die ermittelt, weniger bspw. die Polizeibehörde Bochum-West. Das agentivisch gebrauchte Adjektiv besitzt also eine Verwendungsweise, die es ermöglicht, die Institutionen als Instanzen darzustellen, die unabhängig von den sie konstituierenden Einzelpersonen oder Untergruppen sind, die vielmehr „unhinterffagbare" Entitäten darstellen. (Hölzner 2007: 29) Das Beispiel zeigt, dass ein auf sprachlicher Introspektion beruhendes Urteil über die Synonymie zweier Begriffe nie sämtliche Dimensionen der Bedeutungsähnlichkeit erfassen wird. Ein Mass w ie der LSA-Ähnlichkeitswert stellt stärker auf die eigentliche Verwendung der Begriffe im Kontext ab, betont also diesen Aspekt (der wiederum den introspektiv zugänglichen Synonymiebegriff stärker vernachlässigt). Je nach Fall sind diese Perspektiven auch überlappend, oder sie werden noch komplexer, w enn etwa verschiedene Bedeutungsaspekte berücksichtigt werden. Wie ist z. B. das Verhältnis zwischen Trockenwiese und trockener Wiese zu bewerten? Sind sie nicht synonym, weil erstere eine bestimmte Art Wiese als Lebensraum bezeichnet und letztere allgemein eine Wiese, die nicht nass ist? Oder sind sie doch synonym, w eil beide unstrittig zugleich trocken und Wiese sind? Ist demgegenüber die Feuchtwiese der Trockenwiese als Wiesenlebensraum für bestimmte Pflanzen und Tiere bedeutungsähnlicher als der feuchten Wiesel Oder ist aus demselben Grund diefeuchte Wiese der trockenen Wiese in der Bedeutung ähnlicher als der Feuchtwiesel150 Mit LSA werden all diese Dimensionen via die im Kontext erscheinenden Wörter auf eine einzige Zahl reduziert. Sie gehen damit nicht verloren, können aber auf diese Weise auch nicht so differenziert dargestellt werden, w ie eine ausführliche Beleganalyse in Korpora dies leisten kann. Die genaue Einordnung eines solchen Ähnlichkeitsmasses für ein graduelles und mehrdimensionales Phänomen ist absolut, im Sinne eines Schwellenwertes nicht so einfach möglich. Dennoch sind gerade hohe Ähnlichkeitswerte wie etwa bei Aktienkurs und Kurs einer Aktie (Ähnlichkeitswert 0.84) durchaus interessant und aussagekräftig. Für die weiteren Untersuchungen, die sich in der vorliegenden Arbeit auf die semantische Ähnlichkeit innerhalb von Konkurrenzbildungen beziehen, wird mit einer gewissen Willkür ein Schwellenwert von 0.40 gesetzt. Bildungen über diesem Ähnlichkeitswert entsprechen dem obersten Quartil aller Konkurrenzbildungen. Die Bezeichnung Schwellenwert ist allerdings zu relativieren, da die entsprechenden Konkurrenzbildungen jeweils nur als Gruppe 150 Obwohl es hier nicht in erster Linie um die Beantwortung dieser Fragen geht, hier doch kurz die entsprechenden LSA-Ähnlichkeitswerte: Feuchtwiese-feuchte Wiese: 0.38; Trockenwiese-trockene Wiese: 0.16; Feuchtwiese-Trockenwiese: 0.18; feuchte Wiese trockene Wiese: 0.65; die beiden Wiesen als Lebensräume haben also einen eher niedrigeren Ähnlichkeitswert, währenddem die beiden unterschiedlich mit Adjektiv attribuierten Wiesen einen recht hohen Ähnlichkeitswert aufweisen. Vorbereitende u n d allgemeine A n aly sen 167 bedeutungsähnlicher Bildungen für Untersuchungen verwendet werden. Es wird in den folgenden Untersuchungen nicht bei einzelnen Konkurrenzbildungen aufgrund dieses Schwellenwertes zwischen ähnlich und unähnlich unterschieden. 5.1.4 Kompositionsproduktivität Grundlegend für den angestrebten Vergleich zwischen Kollokationen und Komposita ist der Umstand, dass es sich im Deutschen bei der Komposition um einen produktiven Prozess handelt, dass also stets neue Komposita gebildet und teilweise nachfolgend auch lexikalisiert werden können (cf. z. B. Ortner & Ortner 1984: 166ff., Donalies 2011 bzw. Abschnitt 2.2.4). Analog dazu stammen Kollokationen aus dem wiederkehrenden Gebrauch syntaktischer Einheiten, von denen ebenfalls stets neue gebildet werden können und werden. Für die vergleichende Analyse ist eine wichtige Bezugsgrösse, w ie hoch die Produktivität des morphologischen Prozesses der Komposition ist - und zwar sowohl allgemein als auch bezogen auf Wortarten und Einzellexeme. Dies erfordert die Messbarkeit von Produktivität. Dabei wird die Produktivität eines Prozesses verstanden als seine Fähigkeit, neue Formen zu bilden, bzw. als Wahrscheinlichkeit, mit der dieser Prozess bei der Neubildung von Formen auftritt. Produktivität ist in der Morphologie vor allem im Zusammenhang mit Derivaüon ein wichtiges Forschungsthema (cf. z. B. Aronoff 1976; Baayen 1992, 2003; Bauer 2001, 2005; Dressier & Ladänyi 2000; Hay & Baayen 2002; Koefoed & Marie 2000; Scherer 2005). Da sich die Neubildungen produktiver Prozesse auf die Frequenzverhältnisse der Wörter auswirken (ein produktives Suffix w ie etwa deutsch -heit führt u. a. auch dazu, dass mehr unterschiedliche Wörter (Types) auf -heit auftreten), wurde schon früh versucht, Produktivität über Frequenzen messbar zu machen. Je produktiver ein Element151, desto mehr unterschiedliche Types produziert es. Die Type-Frequenz direkt als Produktivitätsmass zu verwenden ist allerdings wenig sinnvoll, da sie auch für Ergebnisse aktuell nicht mehr produktiver Prozesse hoch sein kann und da viele andere, auch aussersprachliche Faktoren sie beeinflussen.152 Aronoff (1976: 36) schlägt einen Produktivitätsindex vor, bei dem die Anzahl möglicher Formen eines morphologischen Prozesses berücksichtigt werden soll. Der Produktivitätsindex ist bei dann Aronoff (1976: 36) die „ratio of possible to actually listed words", also das Verhältnis von Type-Frequenz 151 Also ein Affix, aber auch ein bestimmter Prozess bzw. ein Lexem oder eine Kategorie in Verbindung mit einem Prozess. Es muss nicht unbedingt ein morphologischer Prozess sein - Dömges et al. (2007) etwa untersuchen die Produktivität artikelloser Präpositionalphrasen des Typs,unter Vorbehalt' und Roch, Keßelmeier & Müller (2010) die Produktivität von Substantiv-Präposition-Substantiv-Sequenzen des Typs Jahrfür Jahr'. 152 Laut Bauer (2001: 20f.) soll die reine Type-Frequenz trotz gegenteiligen Behauptungen in der Literatur allerdings auch nie als Produktivitätsmass postuliert worden sein. 168 Kollokationen und Komposita in Konkurrenz und Anzahl potenziell möglicher Bildungen. Nachteilig daran ist, dass die Anzahl potenziell möglicher, aber nicht realisierter Bildungen nur schwer zu bestimmen ist (vor allem mit korpuslinguistischen Methoden). Ein anderes Produktivitätsmass führt Baayen (1989, 1992) ein. Er stützt sich auf Textkorpora, da ihm Wörterbücher als Quellen für die Produktivitätsmessung zu unsicher sind: Wörterbücher bieten einerseits nur Type- Häufigkeiten und verzeichnen andererseits die Ergebnisse der produktivsten Prozesse kaum, da diese oft semantisch transparent und morphologisch vorhersehbar erscheinen. Sein Mass für Produktivität oder vielmehr seine Masse gehen davon aus, dass produktive Prozesse an Neubildungen gemessen werden sollen, und dass Neubildungen zuerst ein einziges Mal und vielleicht überhaupt nicht häufiger als ein einziges Mal auftreten. Neu- und Adhoc-Bildungen in Korpora aufzuspüren ist allerdings ebenfalls nicht trivial. Einfach gemessen werden können aber die in einem Korpus oder einem bestimmten Sample genau einmal auftretenden Instanzen eines Phänomens. Je mehr Ad-hoc-Bildungen insgesamt existieren, desto zahlreicher sind auch die gemessenen Einfachvorkommen oder Hapaxlegomena. Abb. 22: Typische Vokabularw achstum skurven für produktive (links) und unproduktive Prozesse (rechts) Der Umkehrschluss gilt so einfach aber nicht. Wortschätze oder Teilwortschätze (z.B. alle Wörter mit einem bestimmten Derivationssuffix) folgen typischerweise einer Zipfsehen Verteilung (cf. Zipf 1949,1965), d. h. es gibt sehr wenige Wörter mit sehr grossen Häufigkeiten und sehr viele Wörter mit sehr kleinen Häufigkeiten: Die Häufigkeit eines Wortes verhält sich umgekehrt proportional zu seinem Rang in einer absteigend nach Häufigkeit geordneten Wortliste. Dies bedeutet für einen typischen Wortschatz eine sehr grosse Anzahl an Hapaxlegomena. Schwierig wird damit die Berechnung von Auftretenswahrscheinlichkeiten einzelner Wörter: Wird ein Wort in einem Vorbereitende u n d allgemeine A n aly sen 169 Korpus oder Sample genau einmal gezählt und berechnet man seine Auftretenswahrscheinlichkeit nach dieser Zählung erhält es in vielen Fällen eine unangemessen hohe Wahrscheinlichkeit - dafür wird für viele Wörter mit eigentlich gleicher Auftretenswahrscheinlichkeit, die aber im Sample nicht Vorkommen, eine zu tiefe Wahrscheinlichkeit (nämlich 0) angesetzt. Baayen (2001: 51ff.) bezeichnet solche Verteilungen als LMRE-Verteilungen (LNRE für large number of rare events) und schlägt Modelle zu deren Schätzung vor. Für die Produktivitätsmessung nach Baayen sind diese Verteilungen insofern relevant, als die Produktivität indirekt aus dem Frequenzprofil eines Phänomens oder morphologischen Prozesses abgelesen werden kann. Ist ein Prozess produktiv, kommen immer neue Wörter als Resultate dieses Prozesses hinzu, der entsprechende Teilwortschatz wächst mit wachsender Korpusgrösse. Bei einem unproduktiven Prozess kommen ab einer bestimmten Korpusgrösse keine neuen Wörter mehr hinzu, da schon alle vorgekommen sind - der entsprechende Teilwortschatz wächst dann nicht mehr. Je nach Steigung einer solchen Vokabularwachstumskurve153 kann auf die Produktivität eines Prozesses rückgeschlossen werden: Steigt eine Vokabularwachstumskurve immer weiter an, kommen also immer neue Wörter hinzu, handelt es sich um einen produktiven Prozess. Steigt sie nur zu Beginn und danach kaum mehr, ist es ein unproduktiver Prozess (siehe dazu auch Abbildung 22 auf der vorherigen Seite nach Lüdeling, Evert & Heid 2000: 58, mit typischen Kurven für produktive und unproduktive Prozesse). Baayens Produktivitätsmass ist nun genau die Steigung dieser Vokabularwachstumskurve an einem bestimmten Punkt und berechnet sich aus der Anzahl Hapaxlegomena Vjv(l) verteilt auf die Anzahl Tokens N . Er gibt verschiedene Varianten dieses Masses an; für den Grad der Produktivität einer bestimmten Kategorie berechnet es sich wie folgt (Baayen & Renouf 1996: 74): &N0 = V n (1, c ) N c Dabei ist c die untersuchte Kategorie, also z. B. Wörter mit Suffix -heit oder Komposita mit Brand als Kopf. Vjy(l, c) ist dann die Anzahl Hapaxlegomena dieser Kategorie bei Sample-Grösse N und N c ist die Anzahl Tokens der entsprechenden Kategorie. 2Pivc gibt schliesslich an, mit welcher Wahrscheinlichkeit das nächste Element der Kategorie c ein neuer, bisher im Sample noch nicht vertretener Type ist. Erschwerend für die Vergleichbarkeit ist hierbei, dass Baayens Produktivitätsindex 2P von der Anzahl betrachteter Tokens abhängt, also auch von der Stichproben- und der Korpusgrösse. Die Kurven aus Abbildung 22 auf der vorherigen Seite verdeutlichen dies: Unabhängig davon, ob ein Prozess produktiver oder weniger produktiv ist, nimmt die Type-Zahl bei kleinerer Tokenzahl N auf jeden Fall stärker zu als bei grösserer Tokenzahl. Für einen Vergleich müsste also 2? immer für dieselbe Tokenzahl N berechnet werden. Dies kann dadurch sichergestellt werden, dass tatsächlich immer dieselbe 153 Eigene Übersetzung von vocabulary growth curve (Evert & Lüdeling 2001: 168). 170 Kollokationen und Komposita in Konkurrenz Tokenzahl bzw. dieselbe Stichprobengrösse verwendet wird allerdings wäre das notgedrungen immer das Minimum der zu vergleichenden Profile. Etwas flexibler ist dasjenige Vorgehen, bei dem jedem Type-Token-Profile eine auf der Zipfschen Verteilung beruhende Vokabularwachstumskurve zugeordnet wird, mit der die Type-Zahlen für grössere als die beobachteten Tokenzahlen extrapoliert werden können. Mit zipfR15i existiert auch ein Softwarepaket, mit dem ganz spezifisch solche Zipfschen Modelle berechnet werden können (cf. Evert & Baroni 2007). Kompositum Frequenz Zugvogel 837 W asservogel 652 Greifvögel 483 Singvogel 444 Eisvogel 418 Regenvogel 10 Nutzvogel 10 Elternvogel 10 Fischvogel 2 Bundesvogel 2 Sperrvogel 1 Brandvogel 1 W ahnsinnsvogel 1 Shakespeare-Vogel 1 Tab. 16: Frequenzliste der Komposita mit Vogel als Kopf (Web-Korpus) Hauptdatengrundlage für Modellberechnungen in zipfR sind sogenannte Frequenzspektren. Ein solches Frequenzspektrum fasst die unterschiedlichen Types in Frequenzklassen zusammen. Alle Types mit Häufigkeit 1 werden in der Frequenzklasse 1 zusammengezählt, diejenigen mit Häufigkeit 2 in der Frequenzklasse 2, etc. Für das Frequenzspektrum aller Komposita mit Vogel als Kopf z. B. geht man von einer Frequenzliste aus, w ie sie gekürzt in Tabelle 16 gezeigt ist. In Frequenzklassen zu einem Frequenzspektrum zusammengefasst ergibt das (wieder gekürzt) das Bild in Tabelle 17 auf der nächsten Seite. Dabei ist m die Frequenzklasse und Vm die Anzahl Types dieser Frequenzklasse. Die ersten beiden Zeilen in Tabelle 17 sind dabei so zu lesen, dass im Web-Korpus 241 Komposita mit Vogel als Kopf genau einmal Vorkommen und 75 der Vogel-Komposita genau zweimal. Abbildung 23 auf Seite 172 zeigt dasselbe Frequenzspektrum in einer grafischen Darstellung,* 154 h tt p : / / z ip f r .r f o r g 9 .r p r o j e c t.o r g / (29.11.2013). 171 Vorbereitende u n d allgem eine A n aly sen w o gut die charakteristische Zipf-Verteilung sichtbar wird, mit sehr vielen w enig belegten und wenigen stark belegten Wörtern.155 m Vm i 241 2 75 3 38 4 21 5 14 6 11 7 15 8 8 9 8 10 11 Tab. 17: Frequenzspektrum der Komposita mit Vogel als Kopf (Web-Korpus) Wie oben angetönt kann zu einem solchen Frequenzspektrum nun ein Modell berechnet werden, das es erlaubt, eine Vokabularwachstumskurve auch für grössere Tokenzahlen N zu extrapolieren. Abbildung 24 auf Seite 173 zeigt zwei solcher Kurven im Vergleich, nämlich diejenigen für Komposita mit Vogel und mit Tier als Kopf. Als Modell für die Extrapolation wurde ein finites Zipf-Mandelbrot-Modell (fZM, cf. Evert 2004) berechnet. Die oberen beiden Kurven zeigen das Vokabularwachstum der beiden Kompositatypen, die unteren beiden, dünn ausgezogenen Kurven geben die jeweiHge Anzahl Hapaxlegomena an. Nicht direkt aus der Grafik ersichtlich sind die effektiven bzw. beobachteten Tokenzahlen. Für die Tier-Komposita liegt diese bei rund 38 000 (Ende der Skala, das heisst für die Tier-Komposita wurde nicht extrapoliert), für die VogeZ-Komposita bei rund 9000 und damit bei der senkrechten Linie in der Grafik. Die Vokabularwachstumskurve der Vogel-Kom posita wird in der Abbildung also etwa um den Faktor 4 hochgerechnet Die Evaluationen von Evert & Baroni (2005) haben ergeben, dass höhere Faktoren als 4 kaum mehr verlässliche Voraussagen zulassen. Für den vorliegenden Beispielfall reicht dieser Extrapolationsfaktor jedoch aus und es zeigt sich, dass beide, sowohl Vogel als auch Tier, als Kompositumsköpfe produktiv verwendet werden, Tier dabei noch um einiges produktiver. Baayens Produktivitätsmass SZ1 schliesslich erhält folgende Werte, zuerst ohne Korrektur von N mit dem Zipf-Mandelbrot-Modell: 9 vogei = 0.0272 bei N = 8873, sowie tytier = 0.0175 bei N = 38118. Es zeigt sich deutlich 155 Abbildung 23 beschränkt sich nach einer Standardeinstellung in zipfR auf die ersten 50 Frequenzklassen, die auf einer logarithmischen Skala dargestellt werden. Die Frequenzklassen darüber enthalten in den meisten Fällen nur sehr wenige Elemente - im konkreten Fall enthalten diese oberen Klassen alle nur noch 1 oder 2 Wörter, in einem einzigen Fall 3. 172 Kollokationen und Komposita in Konkurrenz die Abhängigkeit der 2P-Werte von der Tokenzahl ATje kleiner diese, desto höher die Werte von 2P. Übernähme man diese Werte ohne Korrektur, würde man fälschlicherweise auf eine höhere Produktivität von Vogel (verglichen mit Tier) als Kompositumskopf schliessen. m Abb. 23: Frequenzspektrum der Komposita mit Vogel als Kopf (Web-Korpus) Bezieht man die Korrektur mit Zipf-Mandelbrot-Modell mit ein, zeigt sich das Produktivitätsmass wie nach Abbildung 24 erwartet: Bei N = 8873 (Tokenzahl der Vogel-Komposita) erhalten wir = 0.0272 und = 0.0400. Nehmen wir N = 38118 und damit für die Tier-Komposita das beobachtete und für die VogeZ-Komposita das extrapolierte Frequenzspektrum, bekommen wir 2Z\,ose« = 0.0083 und = 0.0175. In beiden Fällen stehen die Werte in einem ähnlichen Verhältnis zueinander und weisen auf die höhere Produktivität von Tier als Kompositumskopf hin. In den nun folgenden Abschnitten soll die Produktivität der Komposition im Deutschen mit den gezeigten Methoden unter Berücksichtigung verschiedener Aspekte näher beleuchtet werden. 173 Vorbereitende un d allgemeine A nalysen N Abb. 24: Vokabularwachstu mskurve der Komposita mit Vogel und Tier als Kopf (Web-Korpus) 5.1.4.1 Allgemeine Kompositionsproduktivität Wie schon mehrfach erwähnt wurde, zählt das Deutsche zu den Sprachen mit sehr produktiver Komposition. Sie ist ein wichtiges Mittel der kombinatorischen Begriffsbildung (cf. 2.2.2). Ebenfalls bekannt und bereits erwähnt worden isl die Tatsache, dass unterschiedliche Wortarten in der Komposition unterschiedlich produktiv sind. Substantive gehören zu den häufigsten Bildungen, während Verben als Komposita sehr viel seltener sind, was bei beiden auch für Neubildungen gilt. Zum Muster mit der grössten Verbreitung gehört etwa das Substantivkompositum aus zw ei Substantiven (cf. Tabelle 3 auf Seite 37). Grosse Verbreitung bzw. grosse Häufigkeit ist natürlich ebenfalls ein erster Hinweis auf grössere Produktivität. Misst man die Produktivität der Komposition mit der eben vorgestellten Methode, erhält man für das Weh-Korpus (cf. 3.1.5) eine Vokabularwachstumskurve wie in Abbildung 25 auf der nächsten Seite, welche die hohe Produktivität der Komposition im Deutschen bestätigt. Die Grafik ist gleich aufgebaut w ie diejenige in Abbildung, 24: Verglichen werden zw ei Kurven (jeweils die dicken Linien), zusätzlich isl mit dünner Linie je noch die Anzahl Hapaxlegomena angegeben. NO isl nicht angegeben, da nicht extrapoliert. 174 Kollokationen und Komposita in Konkurrenz sondern die Kurve mit der grösseren Tokenzahl N an diejenige mit kleinerem N angepasst (intrapoliert) wurde. Die beiden Vokabularwachstumskurven sind einerseits diejenige aller Komposita und andererseits diejenige aller Simplizia des Web-Korpus. Der Unterschied ist sehr deutlich: Die Kompositakurve steigt stark an, ebenso die Kurve der Hapaxlegomena bei den Komposita, was den sicherlich nicht überraschenden Befund der grossen Produktivität der Komposition im Deutschen unterstreicht. Demgegenüber erreicht die Kurve der Simplizia schnell ein Niveau, von dem sie kaum mehr ansteigt, und auch die Anzahl der Hapaxlegomena stagniert relativ rasch. N Abb. 25: Vokabularwachstumskurve aller Komposita und Simplizia im Weh-Korpus Kurz untersucht wurde schliesslich der Einwand aus Evert & Lüdeling (2001), wonach eine automatische VorVerarbeitung von Korpora für eine derartige Produktivitätsmessung nicht genüge, da bei grösseren Korpora durch abweichende Schreibungen (Orthografiefehler etc.) automatisch immer neue Formen dazukämen, die eine höhere Produktivität als die tatsächlich vorhandene suggerierten. Da das Web-Korpus weitgehend vollautomatisch und opportunistisch erstellt wurde, scheint eine Prüfung dieses Arguments besonders angezeigt. Vorbereitende u n d allgemeine A n aly sen 175 Die automatische Vorverarbeitung beinhaltet im Bereich der Komposita ein Herausfiltern von Wörtern mit zu vielen nicht-alphanumerischen Zeichen und vor allem die morphologische Analyse w ie beschrieben in Abschnitt 3.3 (mit Morphisto- und Konkatenationsanalysen). Der Anteil nichtanalysierbarer Formen (Types) liegt beim Web-Korpus bei rund 19%, beim Usenet-Korpus bei 16% und beim Schweizer Textkorpus bei etwa 4%,156 Zur Überprüfung des VorVerarbeitungsproblems nach Evert & Lüdeling (2001) wurden vier zufällige Stichproben ä 200 Komposita gezogen157: Je eine Stichprobe von Komposita mit den Häufigkeiten 1, 2 und 3, sowie eine Stichprobe von Komposita mit Häufigkeiten ab 4. Diese Stichproben wurden dann auf Schreibungsprobleme hin durchsucht: Rechtschreibfehler und Schreibvarianten, die in der morphologischen Analyse nicht korrekt zugeordnet werden konnten, wurden markiert.158 Nicht berücksichtigt wurden morphologische Fehlanalysen (siehe dazu 3.3.6). Häufigkeit Anzahl Fehler 1 17 2 23 3 21 >3 8 Tab. 18: Schreibungsprobleme von Komposita nach Häufigkeitsklassen Tabelle 18 zeigt die Auswertung der Stichproben. Bei den niedrigen Häufigkeiten liegen die Fehlerquoten bei ungefähr 10%, und zwar ohne grosse Unterschiede zwischen den Häufigkeiten 1, 2 und 3. Für grössere Häufigkeiten liegt die Fehlerquote um gut die Hälfte niedriger, nämlich bei 4%. Wie erwartet (oder befürchtet) sind die Fehlerquoten bei den niedrigen Häufigkeiten höher. Allerdings sind sie weder dramatisch hoch noch dramatisch höher als die Fehlerquote bei den häufigeren Komposita. Zudem zeigt sich kein Wachstum von der Häufigkeitsklasse 3 zu den Hapaxlegomena hin, was ein Anzeichen dafür ist, dass mit wachsendem Korpus nicht unkontrolliert immer mehr neue Formen hinzukommen viele der zweifach belegten Komposita wären in einem halb so grossen Korpus ja nur einmal belegt Zieht man im Frequenzspektrum je 10% bei den ersten drei Häufigkeitsklassen ab, ist die dazu berechnete Vokabularwachstumskurve zwar ganz leicht flacher, eine wirklich grundlegende Korrektur erfährt sie aber nicht. Zusammenfassend lässt sich sagen, dass die hier gewählte automatische Vorverarbeitung der Komposita kein Hindernis für die Berechnung von Produktivitätszahlen 156 Die grosse Abweichung des Schweizer Textkorpus hegt wohl im manuellen Korrekturlesen und in der grösseren Vokabularabdeckung (cf. 3.3.5.2) begründet. 157 Es wäre auch eine Ziehung über das ganze Vokabular möglich gewesen, da aber bei den Komposita grosse Produktivität festgestellt worden war, schien eine Ziehung aus den Komposita zielgerichteter. 158 Gross-/ Kleinschreibung etwa stellte aus dieser Perspektive kaum je ein Problem dar. 176 Kollokationen m ul Komposita in Konkurrenz ist. Abbildung 25 beruht auf Daten des ganzen Web-Korpus. Interessant ist natürlich auch der Vergleich mit den anderen eingesetzten Korpora, w o die Verhältnisse sich jedoch sehr ähnlich präsentieren. N Abb. 26: Vokabularwachstumskurve der Komposita mit Konstituenten aus dem Basiswortschatz (Web-Korpus) Auf der anderen Seite ist im Hinblick auf weitere Analysen ein Vergleich der Gesamtdaten zur Untermenge der Komposita, die ein Element des Basiswortschatzes (cf. 4.1.1) enthalten, besonders relevant, da sich auch die Kollokationenvergleiche auf ebendiesen Basiswortschatz beziehen. Da es sich bei dieser Untermenge aber ausschliesslich um geläufige und häufige Wörter handelt, ist nicht von vornherein klar, ob ihre Kompositionsproduktivität mit jener des Gesamtwortschatzes übereinstimmt. Auf Abbildung 26 isl sichtbar, dass die Vokabularwachstumskurve für Komposita mit Konstituenten aus dem Basiswortschatz deutlich von derjenigen für alle Komposita abweicht (die dünneren Linien sind wieder die Kurven der Hapaxlegomena). Mehrere Gründe lassen sich anführen. Beim Basiswortschatz handelt es sich durchwegs um häufige Wörter. Wenn sie Komposita bilden, isl die Chance wegen ihrer Häufigkeit kleiner, dass sie nur einmal belegte Komposita hervorbringen. Bei niederfrequenten Kompositakonstituenten isle s hingegen durchaus wahrscheinlich, dass alle ihre Komposita (je nur ein paar wenige) nur ein- Vorbereitende und allgemeine Analysen 177 mal belegt sind. Dies führt dann zu allgemein geringeren Hapaxlegomena- Zahlen, wie man in Abbildung 26 beobachten kann. Ein weiterer Grund ist die kleinere Rate an Orthografiefehlern b/ w. Schreibvarianten: Da bei diesen Komposita das Basiswort schon einmal erkannt ist, kann darin kein Orthografiefehler sein. Ist nun ein Teil des Kompositums bereits korrekt geschrieben, erhöht sich die Wahrscheinlichkeit, dass der Rest des Wortes derselben Orthografie folgt. Da Rechtschreibfehler und Schreibvarianten (s. oben) die Anzahl Hapaxlegomena erhöhen, drückt dieser Umstand zusätzlich auf die Vokabularwachstumskurve. 5.1.4.2 Kompositionsproduktivitä l nach Wortarten In Abschnitt 2.2.2 ab Seite 34 sind unter anderem strukturelle Eigenschaften und Mengenverhältnisse der Komposita des Deutschen dargestellt. Die grosse Mehrheit aller Komposita im Den Isehen sind Substantive (cf. Tabelle 1 au f Seile 36) und/ oder bestehen aus Substantiven (cf. Tabellen 2 und 3). Was die Produktivität angeht, wird ebenfalls davon ausgegangen, dass Substantive weitaus am produktivsten als Komposita gebildet werden, gefolgt von den Adjektiven. Die Verbkomposition wird allgemein als wenig produktiv beschrieben (cf. / ,. B. Gaeta & Schiücker 2012). N Abb. 27: Vokabularwachstumskurven der Komposita nach Wortart (Web-Korpus) 178 Kollokationen lind Komposita in Konkurrenz Die im vorliegenden Projekt untersuchten Korpora bestätigen diesen Befund. Abbildung 27 auf der vorherigen Seite zeigt Vokabularwachstumskurven der Komposita, aufgeschlüsselt nach Wortart des resultierenden Kompositums. Weitaus am produktivsten ist die Bildung von Substantiven. Sehr viel weniger produktiv gebildet werden Adjektivkomposita, Verbkomposita schliesslich sind deutlich am wenigsten produktiv (flachste Kurve). Zum Vergleich isl ebenfalls die Kurve aller Komposita eingezeichnet (entspricht der Kurve in Abbildung 26 auf Seite 176). Die sehr geringe Abweichung von der Kurve der Substantivkom posita hängt damit zusammen, dass Substantivkomposita mengenmässig so stark dominieren.159 Da jeweils der Kopf eines Kompositums die Wortart für das ganze Kompositum bestimmt, zeigt Abbildung 27 gleichzeitig, wie produktiv die einzelnen Wortarten als Köpfe sind. N Abb. 28: Vokabularwachstumskurven verschiedener Wortartenmuster für Substantivkomposita (Web-Korpus) 159 Die Vokabularwachstumskurven in Abbildung 27 wurden nur mit Komposita aus Konstituenten des Basiswortschatz berechnet. Die senkrechte Linie im Diagramm markiert die Tokenzahl N , bis zu welcher für alle Kategorien beobachtete Daten vorliegen: Bei den Verben liegt die Tokenzahl bei ebendiesen knapp 600 000, der Rest der Kurve wurde extrapoliert, für Adjektive und Substantive ist die Tokenzahl höher als der Diagrammbereich (ca. 5bzw. 25 Mio.). Vorbereitende lind allgemeine Analysen 179 Ein weiterer Schritt ist die Bestimmung der Produktivität nach Wortarten der beteiligten Konstituenten bzw. nach Wortartenmuster analog / u Tabelle 3 auf Seite 37. Die entsprechenden Vokabularwachstumskurven sind in den Abbildungen 28, 29 und 30 zu sehen.160 Vertreten sind die Wortartenkombinationen aus Tabelle 3 sowie (wo nötig zusätzlich) alle binären Kombinationen von Substantiv, Adjektiv und Verb wie in Tabelle 14 auf Seite 155 (Zuordnung Kollokationen - Komposita). Abbildung 28 auf der vorherigen Seite zeigt die Vokabularwachstumskurven verschiedener Muster von Substantivkomposita. Es handelt sich dabei um die Kombination eines Substantivs als Kopf zusammen mit einem weiteren Substantiv, einem Adjektiv oder einem Verb. Zusätzlich sind Dreierkombinationen aus drei Substantiven oder Adjektiv mit zwei Substantiven vertreten, da diese Muster ebenfalls zu den häufigeren zählen (cf. Tabelle 3 auf Seite 37). N Abb. 29: Vokabularwachstumskurven verschiedener Wortartenmuster für Adjektivkomposita (Web-Korpus) ln0 Die Tokenzahl N ist dabei jeweils so gewählt, dass sie etwa das Vierfache der kleinsten Tokenzahl der Kategorien im Diagramm beträgt, sodass nicht über den Faktor 4 hinaus extrapoliert werden muss. Die senkrechte I.inio, die dies wie in Abbildung 27 auf Seite 177 anzeigt, wurde liier weggelassen, da die Verhältnisse bei allen drei Diagrammen gleidi sind. 180 Kollokationen und Komposita in Konkurrenz Betrachtet man zuerst die binären Muster, ist Substantiv mit Substantiv deutlich produktiver als Verb mit Substantiv und Adjektiv mit Substantiv, die beide sehr ähnliche Kurven beschreiben. Die steilste Vokabularwachstumskurve gehört der Dreierkombination aus lauter Substantiven. Dies passt zur Aussage, dass Komposita aus mehr als zwei Konstituenten oft Ad-hoc-Bildungen sind und seltener lexikalisiert werden (cf. Ortner et al. 1991). Das Muster ist sehr produktiv, d. h. Neubildungen kommen oft vor, doch eine Konventionalisierung oder Lexikalisierung findet kaum je statt. Ebenfalls gut in dieses Schema passt die Dreierkombination Adjektiv + Substantiv + Substantiv. Ihre Vokabularwachstumskurve ist zwar flacher, und auch flacher als jene der binären Substantiv-Substantiv-Komposita, doch ist sie ebenfalls deutlich steiler als jene der verwandten binären Adjektiv- Substantiv-Komposita; verwandt in dem Sinne, dass aufgrund der inneren Hierarchie ein Adjektiv-Substantiv-Substantiv-Kompositum letztiich ebenfalls aus einem einfachen Adjekt-Substantiv-Kompositum besteht entweder in der Klammerung [Adj]+[N+N] rechtsverzweigend oder als [Adj+N]+[N] linksverzweigend (cf. auch Abbildung 9 auf Seite 113). Das Bild für Adjektivkomposita ist sehr ähnlich, w ie Abbildung 29 auf der vorherigen Seite zeigt. Hier sind nur die drei binären Kompositionsmöglichkeiten Substantiv, Adjektiv oder Verb je mit Adjektiv vertreten. Wieder klar am produktivsten ist die Bildung mit Substantiv. Adjektiv-Adjektiv- Bildungen sind weniger produktiv, aber noch deutiich produktiver als Verb-Adjektiv-Komposita. Abbildung 30 auf der nächsten Seite schliesslich behandelt die Verbkomposita. Auch hier ist die Kombination mit Substantiv am produktivsten, gefolgt von Adjektiv-Verb- und Verb-Verb-Zusammensetzungen, die beide fast exakt die gleiche Kurve aufweisen. Bei den Verbkomposita ist allerdings an die Einwände aus Abschnitt 5.1.1 bezüglich Schreibung zu erinnern: Da in diesem Bereich die Getrennt- und Zusammenschreibung sowohl in der Norm als noch viel mehr im Gebrauch sehr variabel ist, können Komposita oft nur schwierig bestimmt werden. Zudem sind bei diesem Muster oft Bildungen mit Partizipien dabei, die unter Umständen zu den adjektivischen Komposita gerechnet würden. Fragt man sich nun zusätzlich, ob die am häufigsten als Komposita vertretenen Wortartenkombinationen (Tabelle 3 auf Seite 37) auch die produktivsten sind, erhält man ein gemischtes Bild. Tabelle 19 auf der nächsten Seite zeigt die entsprechenden Produktivitätsindizes 2P für eine Tokenzahl N = 400 000161. Die Wortartenkombinationen sind (analog zu Tabelle 3) absteigend nach ihrer Type-Häufigkeit sortiert. Die zugehörigen Werte für 2? sind in der Tendenz ebenfalls absteigend, jedoch mit einigen Ausnahmen. Wie bereits angesprochen, neigen Dreierkombinationen stärker zu Neubildungen, sind also produktiver, ohne dass diese Bildungen aber lexikalisiert würden. 161 Es handelt sich wieder um das etwa vierfache N der kleinsten Kategorie, um bei der Extrapolation den Faktor 4 nicht zu überschreiten. Vorbereitende und allgemeine Analysen 181 Deshalb geht hier eine nicht sehr hohe Type-Zahl mit einer sehr hohen Anzahl Hapaxlegomena einher. N Abb. 30: Vokabularwachstumskurven verschiedener Wortartenmuster für Verbkomposita (Web-Korpus) Wortartenkombination SP [N + N] 0.183 [N + N + N] 0.275 [V + N] 0.055 [N + V] 0.057 [N + Adj] 0.048 [Adj + N] 0.043 [unbestim m t + N] 0.228 [Adj + Adj] 0.034 [Adj + N + N] 0.126 [Adj + V] 0.030 Tab. 19: Produktivitätsindex Pi* häufiger Muster von Wortartenkombinationen bei Tokenzahl N v o n 400000 (Web-Korpus) 182 Kollokationen und Komposita in Konkurrenz Ebenfalls verhältnismässig hoch ist der Produktivitätsindex für Substantivkomposita mit unbestimmtem Bestimmungsglied. Zwei Gründe können hier angeführt werden. Unbestimmte oder unbekannte Lexeme sind typischerw eise selten, sonst wären sie im Lexikon für die morphologische Analyse enthalten.162 Und seltene Lexeme haben naturgemäss eine höhere Wahrscheinlichkeit bei Auftreten in Komposition ebenfalls selten vorzukommen. Zusammenfassend lässt sich sagen, dass Substantive und Komposita mit Substantiven die höchste Produktivität zeigen, und dass oft, wenn auch nicht immer, die Produktivität mit der Type-Frequenz korreliert. Die Kompositions-Produktivität wirkt sich potenziell auch darauf aus, ob in Konkurrenzbildungen die Realisierung als Kompositum oder als Kollokation bevorzugt wird. 5.1.4.3 Kompositionsproduktivität auf Lemmaebene In einem nächsten Schritt soll die Kompositionsproduktivität der einzelnen Lemmata betrachtet werden. Für die Substantivlemmata des Basiswortschatzes (cf. 4.1.1) im Web-Korpus zeigt Abbildung 31 auf Seite 184 eine Reihe von Diagrammen, welche ihre Produktivität darstellen, sowie ihre Produktivität bezogen auf Type- und Tokenhäufigkeiten. Es geht dabeijeweils um die Beteiligung eines Substantivs als Konstituente an einem Kompositum (z. B. Fisch als Kopf w ie in Aquarienfisch oder als Bestimmungsglied w ie in Fischmehl). Ausgehend von rein binären Komposita wurden drei Kennzahlen berechnet, jeweils für die Kopf- und die Bestimmungskonstituente. Die ersten zwei Zahlen sind einfache Häufigkeiten: Einmal die Typehäufigkeit, also die Anzahl unterschiedlicher Komposita, die mit einem bestimmten Substantiv als Kopf bzw. Bestimmungsglied im Korpus Vorkommen. Zum zweiten die Tokenhäufigkeit, d. h. die gesamte Anzahl Komposita mit einem bestimmten Substantiv als Kopf oder Bestimmungsglied (mehrfach vorkommende auch mehrfach gezählt). Die dritte Kennzahl ist schliesslich für jedes Lemma der Produktivitätsindex FFnach Baayen, w ie er in den vorhergehenden Abschnitten eingeführt wurde. Die Tatsache, dass der Produktivitätsindex FF von der Tokenzahl abhängt, kompliziert die Ermittlung. Denn die Tokenzahlen fallen je nach Lemma sehr unterschiedlich aus. Der gewählte Weg ähnelt dem Vorgehen zur Berechnung des Produktivitätsindexes FF für die verschiedenen Wortartenkombinationen in Tabelle 19 auf der vorherigen Seite. Es wird für alle Lemmata dieselbe Tokenzahl N zur Berechnung verwendet. Um eine Extrapolation mit einem Faktor über 4 zu vermeiden und doch eine gewisse Aussagekraft zu bewahren, werden diejenigen Lemmata mit den kleinsten Tokenzahlen weggelassen. Für die Substantive des Web-Korpus bedeutet das konkret, dass nur jene mit Tokenzahlen über 2000 in Abbildung 31 eingegangen sind. FF wird dabei mit einer Tokenzahl N = 8000 berechnet, was 162 Diese unbestimmten oder unbekannten Lexeme sind sehr oft Abkürzungen von Substantiven oder z. B. aus dem Englischen entlehnte Substantive. Vorbereitende u n d allgem eine A n aly sen 183 eine Extrapolation bis maximal Faktor 4 bedeutet bzw. eine entsprechende Interpolation für Lemmata mit höheren Tokenzahlen. Die so weggelassenen Lemmata machen bei den Substantiven des Web-Korpus rund 25% aus. Die einzelnen Diagramme in Abbildung 31 stellen nun verschiedene Beziehungen zwischen diesen Kennzahlen dar. Diagramm 31a zeigt die Typehäufigkeiten der Komposita, für die ein bestimmtes Substantiv Kopf oder Bestimmungsglied ist. Winter etwa ist im Web-Korpus Kopf von 188 und Bestimmungsglied von 1632 unterschiedlichen binären Komposita. Damit ist in Diagramm 31a der Punkt für Winter links, oberhalb der dichten Punktwolke angesiedelt. Die Diagramme 31b und c zeigen dieselben Typehäufigkeiten (x-Achse), aber diesmal in Beziehung gesetzt zum entsprechenden Produktivitätsindex fy des Lemmas. Ein Substantiv mit grosser Produktivität als Kompositumskopf und hoher zugehöriger Typezahl wird in Diagramm 31c rechts oben eingezeichnet. Diagramme 31e und f gleich darunter setzen ganz ähnlich den Produktivitätsindex in Beziehung zur Anzahl der Tokens, statt der Types.163 Diagramm 31d schliesslich stellt die Produktivität eines Lemmas als Kompositumskopf derjenigen als Bestimmungsglied gegenüber, wieder in Form des Produktivitätsindexes 9* bei Tokenzahl N = 8000. Die Punkte auf den Achsen mit dem Wert 0 sind nicht eigentlich Lemmata mit entsprechendem Produktivitätsindex 0. Es handelt sich dabei um Lemmata, welche nur im einen Fall, z. B. als Kopf, die Minimaltokenzahl von 2000 überschritten haben, im anderen Fall aber nicht, weshalb dafür kein vernünftiger Produktivitätsindex 2P für die Tokenzahl N = 8000 berechnet werden konnte.164 Verschiedene Punkte zur Deutung der Daten in Abbildung 31 lassen sich hervorheben. Bei Diagramm 31a zu den Typehäufigkeiten ist anzumerken, dass das ganze Spektrum vertreten ist: Von Substantiven, die sowohl in vielen Komposita als Bestimmungsglied als auch in Kopfposition vertreten sind, bis zu solchen, die sehr einseitig fast nur als Kopf oder fast nur als Bestimmungsglied Vorkommen, oder auch solche, die keine oder kaum Komposita bilden. Allgemein ist ein leichtes Übergewicht bei der Kopfkonstituente zu beobachten: Die hier vertretenen Lemmata sind öfter Kopf in einem Kompositum als Bestimmungsglied. Wenn man weitergeht zur Gegenüberstellung von Typehäufigkeit und Produktivität (Diagramme b und c), so zeigt sich ein gewisser Trend, dass die beiden Phänomene Zusammenhängen. Grössere Typehäufigkeit geht mit höherer Produktivität einher. Dies leuchtet einerseits unmittelbar ein, da hohe Produktivität zu mehr unterschiedlichen Komposita führt. Andererseits gibt es auch da noch ein relativ grosses Spektrum, sodass der Produktivitätsindex 2? als eigenes Mass seine Berechtigung hat und nicht einfach durch die Typehäufigkeit ersetzt werden sollte. Weiter sind Substantivlemmata nicht nur häufiger Kopfkonstituenten, sondern sind dabei auch produktiver. 163 Die Skala für die Anzahl Tokens (x-Achse) ist logarithmisch und beginnt nicht bei 0. 164 In den Diagrammen 31b, c, e und f erscheinen diese Werte nicht. Produktivität Bestimmungsglied Types Bestimmungsglied a) Typehäufigkeiten Konstituenten 6 0 0 0 - 6 1 0 0 0 2 0 0 0 3 0 0 0 4 0 0 0 5 0 0 0 6 0 0 0 Types Kopf d) Produktivität Konstituenten Produktivität Kopf b) Bestimmungsglied: Produktivität vs. Types -0 0 .1 5 - <D (/ > ö) C lo.io- E 6 1 0 0 0 2 0 0 0 3 0 0 0 4 0 0 0 5 0 0 0 6 0 0 0 Types Bestimmungsglied e) Bestimmungsglied: Produktivität vs. Tokens l 0-15ö) C l o . i o - £ 2000 5 k 10k 2 0 k 5 0 k ld o k 2 0 0 k Tokens Bestimmungsglied 0 .1 5 Q_ £ 0.10 jra > is -o 0 .0 5 2 D. 0.00 c) Kopf: Produktivität vs. Types • . • • • * • • • • • • • • • • • • . • # f • • • • • • • • P» r • • • 6 1 0 0 0 2 0 0 0 3 0 0 0 4 0 0 0 5 0 0 0 6 0 0 0 Types Kopf f) Kopf: Produktivität vs. Tokens 2000 5k 10k 2 0k 50k 1o'ok2obk Tokens Kopf Abb. 31: Kompositionsproduktivität und Häufigkeiten einzelner Substantivlemmata (Web-Korpus) 184 Kollokationen und Komposita in Konkurrenz a) Typehäufigkeiten Konstituenten Types Kopf d) Produktivität Konstituenten 0 .2 5 - TO ■M 5 ? 0 .2 0 - . CS) • | E n i^ _ • • • c u - 10 • s • • ■= n t * W 8 $ n i n - 8 • • 1• * • • • LLJ U. 1U " • \ M ■s • * jp » V £ • • • • s 0.05 s „ r f . 3 o 1 * . • > £ 0 . 0 0 - ■ • • 0 .0 0 0 .0 5 0 .1 0 0 .1 5 0 .2 0 0 .2 5 Produktivität Kopf b) Bestimmungsglied: Produktivität vs. Types 0 .2 5 - -o .0 " S ? 0 .2 0 ö) C3 E o.l 5- # • • • • to 0 co 0.10- | t o * •• • • • 1 • • • • • • • • • • • • • ■ • X ; • • g 0 05- 3 "ö £ o , 0 0 - ¥ m' 6 500 1000 1500 2000 2500 Types Bestimmungsglied e) Bestimmungsglied: Produktivität vs. Tokens 0 .2 5 - -O .0 5P 0.20cn cCi • • • 1 < • • • | 0 .1 5 to 0 f l 0 .1 0 i ! 0 .0 5 - 3 ■o | o . o o - « • 1 4L * • • • « • i • • • i #• L • • •« •• • • • i•• • • • • * • • • • », • • • 1 . . • * n► ( r * . t •< • * • . • • • ••• 250 l'k 2k 5 k l6 k 2 0 k 50W o'aROOk Tokens Bestimmungsglied c) Kopf: Produktivität vs. Types 0.25n on - • u.zu | o . 1 5 jra > • • . • • • ! • • #* Mi j * • • .2 u. iu 3 "ö O n n n1^- .MM TO • ^ • LJ-U.UO 0.00 j f % ■ r • i 6 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 Types Kopf 0.25 0.20 'S. ^ 0 . 1 5 I 2 0 .1 0 3 TS O ü- 0 .0 5 0.00 f) Kopf: Produktivität vs. Tokens • % • • . • • • • • • : • \ • 8 # . ' » • • ; : v m • • • \ > V i . y 8 1 • • • * * • * * ■ M f e i « 1 * . . * » • • • • • « • • i 2 5 0 l'k 2k 5 k 10k2 0k 50W OOEOOk Tokens Kopf Abb. 32: Kompositionsproduktivität und Häufigkeiten einzelner Adjektivlemmata (Web-Korpus) agu RSKu sa ST oc Ul 186 Kollokationen und Komposita in Konkurrenz Senkrecht darunter in den Diagrammen 31e und f erzeugt der Vergleich Produktivität - Tokenzahl ein anderes Bild. Es lassen sich keine klaren Bezüge herstellen. Die Datenpunkte sind ziemlich gleichmässig verteilt. Diagramm 31d mit der gleichzeitigen Produktivität eines Lemmas als Kopf und als Bestimmungsglied lässt ebenfalls keine klaren Schlüsse zu. Die Produktivität Kopfposition ist grösser als in Bestimmungsgliedposition, doch ansonsten sind Lemmata mit geringer und hoher Produktivität in verschiedenen Kombinationen gleichberechtigt vertreten. Beispiele für Substantive mit geringer Produktivität sowohl als Kopf als auch als Bestimmungsglied (unten links) sind etwa Rat, Zeuge, Semester; konträr dazu hohe Produktivität als Kopf und als Bestimmungsglied (oben rechts) weisen Wörter wie Papier, Theater und Insel auf; hohe Kopfproduktivität zusammen mit geringer Produktivität als Bestimmungsglied (links oben) dagegen zeigen z. B. Tätigkeit, Zone, Vertreter, Datei; geringe Kopfproduktivität mit gleichzeitig hoher Produktivität als Bestimmungsglied schliesslich (unten rechts) haben etwa Zucker, Mond, Durchschnitt und Wissenschaft. Dieselbe Diagrammserie, aber für die Adjektivlemmata aus dem Basiswortschatz, enthält Abbildung 32 auf der vorherigen Seite. Die für die Substantive gemachten Anmerkungen zum Aufbau der Diagramme und zur Berechnung der Daten gelten ebenso für Abbildung 32.165 Die Situation bei Adjektiven als Kompositakonstituenten zeigt sich nicht fundamental anders. Es besteht eine Tendenz zu grösserer Typehäufigkeit und grösserer Produktivität auf Bestimmungsglied-Seite. Dies hat wohl damit zu tun, dass Komposita mit Adjektiven als Bestimmungsglieder oft Substantive sind, Substantivkomposita aber allgemein häufiger und produktiver sind (cf. auch 5.1.4.2). Die Verben sowie das Usenet- und das Schweizer Textkorpus, für die auf eine Darstellung im Diagramm verzichtet wurden, zeigen ebenfalls kein w esentlich anderes Bild. Zusammenfassend lässt sich sagen, dass fast das ganze Spektrum der möglichen Kombinationen von Produktivität und Frequenzen in den Korpora belegt ist. Es zeigen sich nur wenige, meist schwache Trends auf dieser sehr generellen Ebene. 5.2 Kompositionsproduktive Lemmata Wir haben gesehen, dass verschiedene Lemmata ganz unterschiedlich produktiv in der Komposition sind (cf. vor allem Abbildung 31 auf Seite 184). Steht Kompositionsproduktivität in einem Zusammenhang mit der Häufigkeit von Konkurrenzbildungen? Zwei mögliche Hypothesen stehen dabei im Vordergrund: Einerseits kann vermutet werden, dass kompositionspro- 165 Einzelne Werte sind natürlich anders (die Tokenzahl N zur Berechnung von 9 etwa liegt bei 1000 bei einer minimalen Tokenzahl von 250, unterhalb derer Lemmata nicht berücksichtigt wurden). Kompositiomproduktive Lemmata 187 duktive Lexeme generell für bestimmte Bereiche die Bildung von Komposita bevorzugen und dort wenige bis gar keine Kollokationen aufkommen lassen. Andererseits ist auch der umgekehrte Fall möglich, dass nämlich erhöhte Kompositionsproduktivität in einen grösseren Rahmen einzubetten ist und Teil einer erhöhten kombinatorischen Produktivität ist. Grössere Kompositionsproduktivität würde dann einhergehen mit mehr Konkurrenzbildungen. Bei der ersten Hypothese geht man eher von der Vorstellung aus, dass bei der kombinatorischen Begriffsbildung zwischen Alternativen auszuwählen ist. Bei der zweiten geht man von Ungleichgewichten zwischen Lexemen aus, was ihre Neigung zu kombinatorischer Begriffsbildung angeht. Die konkrete Realisierung auf syntaktischer und auf Wortbildungsebene wäre in diesem Fall aber gleichmässiger verteilt. S u b stantiv a ls Kopf 0.05 o .io Kompositionsproduktivität S u b stantiv a ls B estim m un gsglied y r >.ü .'.'s' •»- • •' ’V 'h y ,-: si'v » '* >•. • 0.00 0.01 0.02 0.03 0.0 4 0.05 0.06 0.07 Kompositionsproduktiv ität A djektiv als Kopf . . •* • ! ' : v ^ v » : •• / • S C ! o o! 1 0.2 0.: Kompositionsproduktivität A djektiv als Bestim m ungsglied 50% - * o ,c 4 0 % - <0 v> CD C o n o / _ Qi OU / o ■D Sc<b ^ 2 0 ° / . 2 5 cdi 1 1 0 % - • - • ; 3 c £ D% - • ■ • 1‘ • v ii'i : < • . . i - ' • o.oo o.i35 0.10 0 .! 15 0.20 Kompositionsproduktiv ität Abb. 33: Anteil ähnlicher Konkurrenzbildungen vs. Kompositionsproduktivität (Web-Korpus; pro Lemma) 188 Kollokationen und Komposita in Konkurrenz Abbildung 33 auf der vorherigen Seite soll einen Eindruck über die Beziehung zwischen Konkurrenzbildungen und Kompositionsproduktivität vermitteln. Die Diagramme sind aufgeteilt nach Wortarten (Substantive oben, Adjektive unten) und nach Konstituentenstatus (Lemma als Kopf links, als Bestimmungsglied rechts). Die Kompositionsproduktivität ist mit Baayens Produktivitätsindex 2? auf dieselbe Art bestimmt worden wie für Abbildung 31 auf Seite 184 und Abbildung 32 auf Seite 185. Der Anteil bedeutungsähnlicher Konkurrenzbildungen berechnet sich aus dem obersten Quartil der ähnlichsten Konkurrenzbildungen nach LSA-Wert166 gemessen an der Gesamtzahl der Konkurrenzbildungen167. Die Werte verstehen sich pro Lemma, und die Daten entstammen alle dem Web-Korpus. Das Bild, das die vier Diagramme in Abbildung 33 zeichnen, ist bezüglich obiger Hypothesen wenig klar. Auf den ersten Blick sind keine klaren Bezüge sichtbar. Einzig ein sehr hoher Anteil bedeutungsähnlicher Konkurrenzbildungen bei gleichzeitig hoher Kompositionsproduktivität scheint ausgeschlossen zu sein. Ansonsten sind alle Muster vertreten. Berechnet man statistische Korrelationskoeffizienten (z. B. Spearmans p, cf. Baayen 2008: 91), um dem Umstand nachzugehen, dass keine Lemmata mit hohen Werten für beide Variablen vorliegen, erhält man nur sehr tiefe Werte (Spearmans p < 0.2), die nicht für eine Korrelation sprechen. Einzig bei den Adjektiven als Kompositumskopf ist eine eher schwache Korrelation zwischen bedeutungsähnlichen Konkurrenzbildungen und Kompositionsproduktivität festzustellen (Spearmans p = -0.43; p < .001). Hohe Kompositionsproduktivität geht bei Komposita mit Adjektiven als Kopf also mit einem tendenziell niedrigeren Anteil bedeutungsähnlicher Konkurrenzbildungen einher. Insgesamt können aber beide oben formulierten Hypothesen nicht bestätigt werden. Zwischen Kompositionsproduktivität und dem Auftreten von Konkurrenzbildungen scheint abgesehen von der eben erwähnten schwach negativen Korrelation bei den Adjektivköpfen - kaum eine systematische Beziehung zu herrschen. Die Verteilung zeigt, dass fast alle Ausprägungen der beiden Eigenschaften Vorkommen - bei den Substantiven als Kopf z. B. niedrige Produktivität zusammen mit vielen bedeutungsähnlichen Konkurrenzbildungen wie bei Schmerz (Halsschmerzen, Muskelschmerzen, Akutschmerz und Entsprechungen; 39.0% Entsprechungen, 24.8% mit LSA-Wert > 0.4), Beginn (Behandlungsbeginn, Studienbeginn, Erntebeginn; 62.8% / 22.4%) sowie Voraussetzung (Anmeldungsvoraussetzungen, Förderungsvoraussetzungen, Einbürgerungsvoraussetzungen; 65.5% / 30.3%) w ie auch hohe Produktivität zusammen mit wenigen bedeutungsähnlichen Konkurrenzbildungen wie bei Strasse (4.3% Entsprechungen, 0.7% mit LSA-Wert > 0.4), Serie (8.6% / 2.1%) oder Technik (4.9% / 0.7%). 166 Faktisch bedeutet das mit den vorliegenden Daten des Web-Korpus einen LSA-Wert über 0.40. 167 Wiederum nur Paare mit einer Tokenfrequenz ab 3 für beide Bildungsarten. Längeneffekte 189 5.3 Längeneffekte Eine naheliegende Hypothese über die Verteilung von Komposita und Kollokationen ist diejenige, dass mit zunehmender Länge der Komposita (oder der hypothetischen Komposita) immer weniger von ihnen verwendet werden und immer häufiger auf syntaktische Konstruktionen ausgewichen wird. Die Anteile der Komposita aus mehr als zwei Lexemen sind niedrig, ab vier oder fünf Lexemen werden sie praktisch nicht mehr oder gar nicht mehr lexikalisiert, sondern tauchen nur noch als Ad-hoc-Bildungen auf (cf. Tabelle 4 auf Seite 38). Doch auch diese vielteiligen Ad-hoc-Bildungen sind selten, sodass man eher davon ausgehen muss, dass Sprachbenutzerinnen und -benutzer für diese Fälle auf die Syntax ausweichen. Wie hoch in diesem Bereich allerdings der Anteil Kollokationen, also konventionalisierter Bildungen, liegt, ist bisher kaum untersucht worden. Die im Rahmen unseres Wörterbuchprojekts erhobenen Daten dazu (d. h. Kollokationen) eignen sich für solche Untersuchungen leider wenig, da sie ebenfalls auf dem Hintergrund eines binären Modells gesammelt wurden (cf. Abschnitt 3.2). Hinsichtlich der Länge ist jedoch nicht nur die Anzahl Konstituenten relevant, sondern auch die absolute Länge des entstehenden Kompositums, z. B. in Anzahl Silben gemessen. Die Frage hier ist nun, ob sich bei der grossen Mehrheit der Komposita, nämlich den zweiwertigen, Längeneffekte feststellen lassen. Sind Komposita mit konkurrierenden Kollokationen länger als solche ohne Entsprechung? Wenn ja, dann könnte das daraufhinweisen, dass man bei zunehmender Kompositumslänge dazu tendiert, syntaktische Konstruktionen zu verwenden, gewissermassen zur Syntax überzuwechseln. Untersucht wurde dieser Sachverhalt an den zweiwertigen Komposita des Web-Korpus. Gemessen wurde die Anzahl Silben der Konstituenten, indem Vokalhäufungen gezählt wurden. Leichte Ungenauigkeiten entstehen mit diesem Verfahren, da der Einfluss von Fugenelementen und Elisionen in der Fuge nicht berücksichtigt wird. Dennoch wurde diesem Verfahren der Vorzug gegenüber einer Zählung in den Kompositumsformen gegeben: Sobald dort nämlich ein Kompositum nicht richtig lemmatisiert wird, verfälscht die Flexionsendung das Resultat.168 Auch Silbengrenzen zwischen zw ei Vokalen169 werden nicht eigens berücksichtigt, da ihr Ausmass insgesamt sehr klein ist. Verglichen wurden Komposita ohne Entsprechungen und Komposita mit kollokativer Entsprechung. Unter letzteren wurde zusätzlich unterteilt nach ausgeglichenem Konkurrenzverhältnis, Komposita- oder Kollokationenüberhang, wieder mit denselben Verhältnissen w ie unter 5.1.2 ab Seite 157 beschrieben.170 Abbildung 34 auf der nächsten Seite zeigt die Anteile der Kom- 168 Spätestens an diesem Punkt wäre nun doch eine Lemmatisierung des morphologischen Analysierers nützlich gewesen, die aber der eingesetzte Morphisto nicht bietet (cf. 33.2.5). 169 Bzw. bei einem nicht ausgeschriebenen Glottalverschluss. 170 Bei allen wurden deshalb nur Konkurrenzbildungen mit einer Mindesttokenzahl von je 3 berücksichtigt. 190 Kollokationen lind Komposita in Konkurrenz posita nach Wortlänge. Das linke Diagramm vergleicht sämtliche Komposita1'1 mit denjenigen, die eine kollokative Entsprechung besitzen. Im Diagramm rechts schliesslich sind die Komposita mit Entsprechung aufgeteilt nach Kompositabzw. Kollokationenüberhang (+Komp. bzw. +Koll.) und ausgeglichenem Konkurrenzverhältnis (K-K). Zusätzlich sind hier noch die Entsprechungen mit den höchsten LSA-Ähnlichkeitswerten*172 (Syn.) vertreten. Abb. 34: Wortlängen von Komposita mit und ohne kollokative Entsprechung (Web- Korpus) Wie Abbildung 34 entnommen werden kann, lässt sich die Hypothese nicht bestätigen, dass die Kompositumslänge einen Einfluss darauf hat, dass auf eine syntaktische Entsprechung ausgewichen würde. Die Verteilungen sind insgesamt sehr ähnlich. Kleine Unterschiede sind vorhanden,173 sie zeigen aber weder in Richtung der formulierten Hypothese, noch sind sie in sich konsistent. Bei den Komposita mit Entsprechungen sind sich die beiden Gruppen mit Kollokationen- und Kompositaüberhang (+K 0 IL und +Komp. im Diagramm) am ähnlichsten, während die Gruppe dazwischen mit dem ausgeglichenen Konkurrenzverhältnis (K-K im Diagramm) ausschert und eine leicht grössere Zahl längerer Komposita bildet. Die Synonym- Gruppe (Syn. im Diagramm bzw. die Gruppe der Komposita mit hohen LSA-Ähnlichkeitswerten) wiederum folgt in der Verteilung der Gruppe mit ausgeglichenem Konkurrenzverhältnis, ausser dass sie leicht zu einer grösseren Zahl längerer Komposita neigt. Insgesamt sind die Unterschiede [' 1 I)amit sind sämtliche zweiwertigen Komposita gemeint, die ein Lexem des Basiswortschatzes als Kopf enthalten. 172 Es handelt sich um das oberste Quartil bzw. diejenigen Entsprechungen mit einem L S A - Ähnlichkeitswert über 0.40 (cf. 5.1.3). 173 Ilurch die grosse Anzahl berücksichtigter Komposita sind diese Unterschiede zwar in den meisten Fällen statistisch signifikant, linguistisch allerdings kaum relevant. K ontext 191 aber sehr klein und zu inkonsistent, als dass daraus ein genereller Einfluss der Wortlänge auf die Kompositum-Kollokationen-Konkurrenz geschlossen werden könnte. Erst bei grösseren oder klareren Unterschieden würden sich weiterführende statistische Analysen wie etwa bei Best (2006) anbieten. 5.4 Kontext Einige Anzeichen deuten daraufhin, dass die Verwendung von Kollokation oder Kompositum bei einander entsprechenden Bildungen auch kontextabhängig ist. Bei mehreren zur Verfügung stehenden Varianten ist der sprachliche oder aussersprachliche Kontext ein möglicher Faktor, der die Wahl der einen oder der anderen Form beeinflussen kann. Eine Hypothese dazu bezieht sich wieder auf Sprachökonomie, also darauf, so explizit w ie nötig, aber auch nicht expliziter als nötig zu sein (cf. auch Grice 1975; Keller 1994). Aus dem Bereich der Ad-hoc-Komposita ist bekannt, dass Komposition oft dazu genutzt wird, zuvor eingeführte Sachverhalte elliptisch wiederaufzunehmen. Ortner & Ortner (1984: 186) geben dazu das Beispiel Pfefferminzmädchen als Wiederaufnahme von „...ein kleines Mädchen, dessen Pfefferminzatem ihm gefiel ..." aus Wohmann (1982: 92, 94). Ist im Beispiel die Verbindung zwischen Mädchen und Pfefferminze für den aktuellen Text etabliert, reicht die blosse Nennung der beiden Lexeme in Komposition. Ohne Kontext hätten wir hingegen eher Mühe, dem Begriff Pfefferminzmädchen sicher eine Bedeutung zuzuordnen. Die hier verwendete Hypothese erweitert nun diese Funktion von kontextbezogenen Ad-hoc-Komposita auf lexikalisierte Komposita mit kollokativer Entsprechung, die demnach ebenfalls dazu genutzt würden, genügend spezifizierte Sachverhalte gekürzt in Kompositaform wiederaufzunehmen. Die empirischen Untersuchungen dazu liefert Abschnitt 5.4.2 ab Seite 196. Man könnte allerdings auch erwarten, dass die Benutzung der einen oder der anderen Form innerhalb eines Textes oder sogar bei einem Individuum nicht variiert, dass man also entweder grüner Tee oder Grüntee sagt oder schreibt, und dies zumindest einen Text lang beibehält.174 Eine andere Möglichkeit ist auch, dass der Gebrauch oder Nichtgebrauch von Komposita eine generelle Eigenschaft von Texten (oder evtl, auch von Individuen) ist. Ein höherer oder tieferer Anteil Komposita ginge dann also einher mit der Präferenz oder Nichtpräferenz von Komposita bei konkurrierenden Bildungen. Abschnitt 5.4.1 untersucht, w ie konsistent oder inkonsistent die eine oder die andere Form in Texten verwendet wird. In gewisser Weise verwandt mit der Betrachtung in Abschnitt 5.3, w o es um die Länge der beteiligten Wörter ging, ist Abschnitt 5.4.3 ab Seite 198, w o es um ähnliche Fragen im Zusammenhang mit dem Kontext geht: Ha- 174 Allgemein zur Textlinguistik cf. z. B. Brinker (2010). Diesbezügliche Aussagen über den mündlichen Sprachgebrauch zu machen ist mit den uns verfügbaren Korpusdaten leider nicht möglich. 192 Kollokationen und Komposita in Konkurrenz ben die Längenverhältnisse im unmittelbaren Umfeld einen Einfluss darauf, ob man ein Kompositum oder eine entsprechende Kollokation wählt? Neigt man dazu, sich in längeren Sätzen anders zu verhalten als in kurzen? In Abschnitt 5.4.3 soll auch untersucht werden, ob die Länge der anderen Wörter im Satz einen Einfluss auf diese Wahl hat (da Länge auch ein Hinweis auf Komposition oder andere morphologisch komplexere Bildungen ist). Schliesslich ist die unmittelbare syntaktische Umgebung möglicherweise ein Faktor, der die Verwendung eines Kompositums oder seiner syntaktischen Entsprechung auslöst. Komposita verhalten sich syntaktisch als Einzelwörter leicht anders als Kollokationen. Es sei an das Prinzip der lexikalischen Integrität erinnert (cf. Anderson 1992 bzw. Abschnitt 2.2.1.3). Will man z. B. zu einem Bestimmungsglied in einem Kompositum ein Attribut setzen, ist das nicht ohne Weiteres möglich - eine Strategie dabei ist, eine Paraphrase des Kompositums zu nehmen, um das Lexem für syntaktische Modifikation zugänglich zu machen. Abschnitt 5.4.4 untersucht, w as bei Konkurrenzbildungen geschieht, die in ganz bestimmten syntaktischen Umgebungen stehen (v. a. Attribuierungen). 5.4.1 Konsistenz innerhalb von Texten Zur Frage der konsistenten Verwendung der Konkurrenzbildungen verfügen wir, wie angetönt, nur über relativ begrenzte Daten. Mit den vorliegenden Korpora ist es nur möglich, die Verwendung innerhalb eines Textes nachzuzeichnen. Untersuchungen nach Autorinnen und Autoren sind schlecht möglich, da diese im Falle z. B. des Web-Korpus nicht durchgängig ermittelbar sind. Das Schweizer Textkorpus auf der anderen Seite des Spektrums verzeichnet zwar Autorinnen und Autoren, doch sind diese relativ selten mit mehr als einem Text vertreten, und wenn, dann eher nicht zum selben Thema, sodass kaum dieselben Kollokationen und Komposita verwendet würden. Es bleibt also als Option bloss die Untersuchung der Verwendungskonsistenz in einzelnen Texten. Untersucht wurden wieder die im Web-Korpus Vorgefundenen Konkurrenzbildungen mit einer Minimalfrequenz von insgesamt drei pro Konstruktion (cf. auch Abschnitt 5.1.1). Diese Bildungen decken praktisch alle Texte des Web-Korpus ab, nämlich gut 250 000, d. h. etwas mehr als 98% der insgesamt 255000 Dokumente des Korpus. Nur in wenigen Texten kommen also gar keine dieser Konstruktionen vor. Dies zeigt, dass Konkurrenzbildungen, wenn auch zahlenmässig gegenüber unkonkurrenzierten Bildungen in der Minderheit (cf. Seite 161), eine sehr präsente und alltägliche Erscheinung sind. In die Untersuchung eingeschlossen wurden lediglich Texte, in denen eine Konkurrenzbildung mindestens zweimal vorkommt.175 Hier wurde ge- 175 Die Mindestzahl 2 kommt daher, dass bei nur einem Beleg gewissermassen gar nicht die Möglichkeit für Inkonsistenz besteht, wobei dies zugegebenermassen eine sehr vereinfachende Sichtweise des Sachverhalts ist. K ontext 193 schaut, ob die Bildung jeweils immer als Kompositum oder immer als syntaktische Konstruktion oder wechselnd realisiert wurde. Texte mit mindestens zwei Belegen einer Konkurrenzbildung sind immer noch recht häufig: Im Web-Korpus machen sie gut 77% aller Texte aus. Eine erste Auszählung zeigt, dass in der grossen Mehrzahl der Fälle Konkurrenzbildungen innerhalb eines Textes konsistent entweder als Kompositum oder als Kollokation verwendet werden. Nur 4.4% der Konkurrenzbildungen, die im Web-Korpus in Texten je mehr als einmal Vorkommen, zeigen wechselnde Verwendung innerhalb ein und desselben Textes. Aber die Chance, umgekehrt, in einem Text solch eine wechselnde Verwendung einer Konkurrenzbildung anzutreffen, ist um einiges höher: Im Web-Korpus kommen Wechselverwendungen in etwa jedem sechsten Text vor (16% aller Texte). Nicht ganz klar ist jedoch, ob man daraus schon schliessen kann, dass es sich um eine Erscheinung handelt, die nicht primär an die Autorin oder den Autor gebunden ist. Dass sie sich breiter verteilt, d. h. nicht alle Wechselverwendungen in denselben Texten Vorkommen, ist aber ein Hinweis darauf. Die Tendenz müsste jedoch an geeigneteren Daten genauer überprüft werden. Zusätzlich wäre es wünschenswert, ein Bild über die genauere Verteilung der wechselnden Verwendungen innerhalb der Texte zu bekommen (abgesehen von der Wiederaufnahmefunktion, die unter 5.4.2 besprochen wird). Sind etwa die Verteilungen zwischen ausgewogenen und einseitigen Konkurrenzbildungen, die in Abschnitt 5.1.2 festgestellt wurden, auch in den wechselnden Verwendungen innerhalb einzelner Texte zu finden? Zur Beantwortung dieser Fragen wurde auf eine Teilmenge der obigen Entsprechungen zurückgegriffen, nämlich auf diejenigen Texte, w o eine einzelne Konkurrenzbildung mindesten fünfmal vorkommt, sei es als Kompositum oder als Kollokation. Solche Konkurrenzbildungen machen im Web- Korpus noch 13.5% aus, gemessen an den Bildungen mit mindestens Zweifachnennung. Sie decken knapp 30% aller Texte ab. Daraus liegt der Anteil wechselnder Verwendungen bei 6.6% (mit einer Gesamttextabdeckung von noch 4.1%). Erhoben werden dazu die einseitigen Fälle, wo jeweils nur ein Einfachbeleg eines Kompositums bzw. einer Kollokation einer Mehrheit von mindestens vier Kollokationen bzw. Komposita gegenübersteht. Die ausgewogeneren Fälle mit mehreren Instanzen beider Konstruktionsarten werden ebenfalls gezählt. Als ausgewogen wird w ie in Abschnitt 5.1.2 wieder der Bereich zwischen 30% und 70% am Anteil einer Konstruktion betrachtet. Bei den Fällen, w o eine einzige Instanz einer Konstruktion einer Mehrzahl der entsprechenden anderen Konstruktion gegenübersteht, zeichnet sich für Kollokationen und Komposita je ein sehr unterschiedliches Bild. Dass nur ein Beleg einer Kollokation mit mindestens vier Exemplaren des entsprechenden Kompositums in einem Text steht, kommt sehr häufig vor, nämlich in rund der Hälfte der Fälle (49.7%). Der umgekehrte Fall hingegen, ein einzelnes Kompositum gegenüber mehrfachem Auftreten der Entsprechung als Kollokation, ist mit 9.6% sehr viel seltener. Die ausgewogenen Verteilungen in den 194 Kollokationen und Komposita in Konkurrenz Texten (zwischen 30% und 70%) schliesslich machen 25.5% aus. Die Anteile hier unterscheiden sich doch deutlich von denjenigen in Abschnitt 5.1.2 mit je ca. 30% bei Kollokationen- oder Kompositumsüberhang und ca. 40% bei ausgewogeneren Verhältnissen. Insbesondere der sehr hohe Anteil von Texten mit einer Kollokation und mehrereren entsprechenden Komposita (auch der umgekehrte Fall) ist so im generellen Muster nicht vorherzusehen. Die Muster innerhalb einzelner Texte scheinen sich also vom allgemeinen Verteilungsmuster abzuheben. Weiter können die Konkurrenzbildungen nach semantischer Ähnlichkeit (nach LSA) eingeschränkt werden, indem nur diejenigen Bildungen betrachtetwerden, die einen LSA-Ähnlichkeitswertüber 0.40 haben (cf. 5.1.3) und damit zu demjenigen Viertel der Konkurrenzbildungen mit der grössten Ähnlichkeit gehören (3. Quartil). Die gleichzeitige Verwendung eines Kompositums und einer Kollokation mit denselben Bestandteilen im selben Text kann eigentlich nur bei Synonymie oder synonymieartiger semantischer Ähnlichkeit als wechselnde Verwendung bezeichnet werden. Andere Fälle wären eher als homonymie- oder polysemieartig anzusehen, sodass sich ein direkter Bezug weniger aufdrängt. Die Resultate dazu, entsprechend den obigen Erhebungen, nur mit der zusätzlichen Beschränkung, überraschen denn auch nicht. Der allgemeine Anteil an Wechselverwendungen liegt deutlich höher (6.6% gegenüber 4.4% bei Texten mit mindestens Zweifachbelegen; 10.4% gegenüber 6.6% bei Texten mit mindesten Fünffachbelegen). Bei der Verteilung der wechselnden Verwendungen nach Ausgewogenheit in den Texten mit mindestens Fünffachbelegen sieht die Situation praktisch identisch zu oben aus: Einzelkomposita kommen auf 9.9% (9.6% oben), Einzelkollokationen auf 48.5% (49.7%), die ausgewogenen Fälle auf 25.4% (25.5%). Der höhere Anteil an Wechselverwendungen zusammen mit fast identischen Verteilungen innerhalb dieser Menge suggeriert, dass allgemein vorwiegend Konkurrenzverbindungen mit semantisch grosser Ähnlichkeit wechselnd in ein und demselben Text Vorkommen. Das gemeinsame Auftreten von nur in den Bestandteilen gleichen Kollokationen und Komposita, die aber eine unterschiedliche Bedeutung haben, scheint eher selten zu sein. Kommen wir zurück zur ungleichen Verteilung derjenigen Texte, bei denen ein Kompositum bzw. eine Kollokation mehreren Kollokationen bzw. Komposita mit denselben Konstituenten gegenübersteht (ca. 10% vs. ca. 50%). Sieht man sich Beispiele in den Texten an, zeigen sich zwar im Einzelnen sehr unterschiedliche mögliche Motivationen für die eine oder andere Formwahl, doch merkliche Unterschiede zwischen den möglichen Motiven in den beiden (oder drei) Gruppen von Texten zeigen sich nicht. Die erwähnten grossen Unterschiede in den Anteilen sind wohl vorwiegend der allgemeinen Verteilung der Komposita und der Kollokationen in der entsprechenden Menge der Konkurrenzbildungen geschuldet. Gemeint sind die Tokenhäufigkeiten, die Typehäufigkeiten entsprechen sich definitionsgemäss ja, da immer ein Kompositum einer Kollokation zugeordnet wird. Bei der Anzahl Tokens überwie- K ontext 195 gen bei den Konkurrenzbildungen aber die Komposita mit 8.9 Mio. Tokens gegenüber den Kollokationen mit 2.8 Mio. Tokens. Die in den Texten Vorgefundenen Muster sind durchaus aufschlussreich. Die verkürzte Wiederaufnahme per Kompositum konnte in diesen Texten kaum beobachtet werden. Der Grund dafür ist wohl, dass sich bei fünfmaliger oder häufigerer Nennung eines Begriffs ein Text so klar und stark um ein bestimmtes Thema dreht, dass sich eine Erstmalnennung und Verankerung erübrigt bzw. schon ohne den entsprechenden Begriff geschehen ist. Dieser Frage wird unter Einbezug aller Daten in Abschnitt 5.4.2 noch genauer nachgegangen. Öfter festgestellt werden konnte hingegen die Verwendung der einen oder anderen Bildungsart aus syntaktischen Gründen - z. B. zur Attribuierung eines Bestimmungsglieds bei Stellenabbau, wenn die Anzahl der Stellen genannt wird (Abbau von 500 Stellen), oder bei soziale Kompetenz/ Sozialkompetenz in Koordination als Fach-, Methoden- und Sozialkompetenz (gegenüber dem auch möglichen aber schwerfälligeren fachliche, methodische und soziale Kompetenz). In vielen Fällen fallen die wechselnden Verwendungsweisen auch mit wechselnden Autorinnen und Autoren innerhalb desselben Dokuments zusammen. Dies können zum einen Zitate sein, etwa zitierte Passagen in einem Zeitungsartikel, dann auch Leserkommentare zu Online-Zeitungen, blogartige Formate mit mehreren Kurzbeiträgen unterschiedlicher Autorschaft auf derselben Seite oder Diskussionsforen mit Dialogen ebenfalls auf einer Seite. Da man solche Texte je nach Perspektive auch als verschiedene Texte anschauen kann, verstossen sie nicht unbedingt gegen ein Konsistenzgebot. Ebenfalls ein häufiger Fall ist der Einsatz wechselnder Verwendungen als Stilmittel für mehr Variation im Text. In einer Reihe von Spielberichten eines Fussballklubs tritt für Torchance sehr oft die einfache Chance auf oder auch Chance fü r ein Tor oder die Chance zum Torerfolg. Desgleichen wird in einer Abhandlung über die Sicherheit von Atomanlagen ohne erkennbare Systematik zwischen Nuklearanlage und nuklearer Anlage gewechselt, wie auch sonst nuklear öfter wechselnd als einfaches attributives Adjektiv oder als Kompositumsbestimmungsglied verwendet wird. Bei sehr monothematischen Texten ist dies eine Möglichkeit, trotzdem etwas Variation zu erhalten.176 Zusammenfassend für diesen Abschnitt lässt sich sagen, dass der Wille zur konsistenten Verwendung von Konkurrenzbildungen entweder als Kompositum oder als Kollokation innerhalb eines Textes gross ist. Bestimmte syntaktische Umgebungen, Fremdtext oder der mögliche Wunsch nach stilistischer Variation gehören zu den Auslösern, die manchmal doch zu gemischter Verwendung führen. 176 Dies setzt die allerdings verbreitete stilistische Normvorstellung voraus, dass Variation besser sei als Wiederholung. 196 Kollokationen und Komposita in Konkurrenz 5.4.2 Wiederaufnahme mit Kompositum Ein Grund für eine wechselnde Verwendung von Konkurrenzbildungen im selben Text könnte auch sein, dass Sachverhalte und Begrifflichkeiten, sobald sie einmal eingeführt sind, kürzer mit einem Kompositum wiederaufgenommen werden können. Hier soll untersucht werden, ob dieses vor allem für Adhoc-Komposita bekannte Vorgehen (sogenannt deiktische Komposita, cf. z. B. Hohenhaus 1996: 257ff. bzw. auch das Pfefferminzmädchenbeispiel auf Seite 191) auch bei lexikalisierten Komposita mit kollokativen Entsprechungen angewendet wird (cf. auch Schiücker & Hüning 2009a: 224). Dazu wurden für das Web-Korpus wieder mit derselben Menge an Konkurrenzbildungen mit Minimalfrequenz 3 je Konstruktionstyp für jede Konstruktion nach der im Folgenden beschriebenen Methode diejenigen Texte gezählt, in denen die Wiederaufnahme eines Elementes wahrscheinlich ist. Es wurden dabei nur einfache Wortentsprechungen gezählt, Koreferenz etc. wurde nicht überprüft. Die Elemente, die als Vorgänger berücksichtigt wurden, sind die zugehörige Konkurrenzbildung (ist z. B. für das Kompositum Problemlösung die Entsprechung Lösung eines/ des Problems davor im Text belegt? ), das Kopflexem (steht Lösung davor im Text? ), das Lexem des Bestimmungsglieds bzw. Kollokators (ist Problem schon vorgekommen? ) und beide zugleich, aber nicht in der Konkurrenzbildung (sind sowohl Lösung als auch Problem im Text schon vorgekommen? ). Die Zählung geht nach Types pro Text. Wiederaufnahme Komposita Kollokationen Konkurrenzbildung 1.0% 1.6% Lexem Kopf 32.0% 47.4% Lexem Bestimmungsglied/ Kollokator 39.9% 56.9% Lexem Kopf & Bestimmungsgl./ Kollokator 22.1% 32.4% Tab. 20: Wiederaufnahme im Text von schon genannten Konstituenten oder Konkurrenzbildungen (Web-Korpus) Die Ergebnisse dazu auf einer allgemeinen Ebene sind in Tabelle 20 festgehalten. Die Anteile zeigen klar, dass obige Hypothese so nicht haltbar ist: Es sind nicht die Komposita, die einen hohen Anteil an Wiederaufnahmen in den Texten zeigen, sondern die Kollokationen. Ihr Anteil an Wiederaufnahmen ist durchwegs deutlich höher. Konkurrenzbildungen werden nur selten im Text wiederaufgenommen (1.0% bzw. 1.6%, cf. auch Abschnitt 5.4.1 zur Verwendungskonsistenz). Ansonsten ist der Fall aber sehr häufig, dass entweder Kopf oder Bestimmungsglied/ Kollokator oder beides im Text schon vorgekommen ist. Das heisst zwar angesichts der hier verwendeten Methode nicht, dass es sich in jedem Fall um Wiederaufnahmen handelt. Man kann jedoch davon ausgehen, dass damit mindestens ein Thema des Textes grundsätzlich eingeführt ist. Die Kollokationen oder Komposita erscheinen dann vor diesem Hintergrund. Umgekehrt lässt sich mutmassen, dass Komposita Kontext 197 kleinere Wiederaufnahme-Anteile haben, da ihre Benennungsfunktion überwiegt (cf. 2.3.2). Sie können so ohne Kontext erscheinen und selbst viel stärker ein Thema eines Textes mitetablieren. Nach einer ersten globalen Einschätzung bietet es sich an, eine Ebene tiefer zu gehen und die einzelnen Komposita b/ w. Kollokationen zu betrachten, um zu sehen, ob sich gewisse Gruppen ausmachen lassen, die stark in der Gesamttendenz abweichen und eben z. B. Wiederaufnahmen mittels Komposita favorisieren. Für die Wiederaufnahme einer Konkurrenzbildung - gewissermassen die stärkste Form der Wiederaufnahme - zeigt sich die Situation bei Gruppierung nach Types w ie in Abbildung 35. Prozentsatz Wiederaufnahmen von Konkurrenzbildungen (pro Type: in 5%-Schritten) Abb. 3 d : Wiederaufnahme von Konkurrenzbildungen je Type (Kompositum / Kollokation; Web-Korpus) Die Balkendiagramme in Abbildung 35 sind so zu lesen, dass jeder Balken in vertikaler Richtung die Anzahl an Kollokationen (links) bzw. Komposita (rechts) widerspiegelt, die den entsprechenden Anteil an Wiederaufnahmen zeigen (von links nach rechts stehen die Balken für 5%-Intervalle von 0-100 °o). Wenn also z. B. das Kompositum Arbeitskräfteallgebot in 2 von 70 Texten, in denen es vorkommt, im Syntagma Angebot an Arbeitskräften wiederaufgenommen wird, ergibt das einen Anteil von 2.9% - es erhöht damit den ersten Balken im Diagramm, der für das Intervall 0-5% steht, um 1. Dii' Verteilungen entsprechen weitgehend den Erwartungen aus den allgemeinen Ergebnissen oben. Sie verlaufen für Kollokationen und Komposita etwa parallel. Bei den Komposita ist der unterste Bereich mit den kleinsten Wiederaufnahmeanteilen (0-5%) stärker vertreten, dafür nehmen dann die Zahlen sehr schnell ab, während bei den Kollokationen der unterste Bereich schwächer vertreten ist, dafür die folgenden, höheren etwas stärker als bei den Komposita. Eine besondere Gruppe von Komposita, welche die obige Wiederaufnahmehypothese stützen könnte, ist nicht auszumachen. Die 198 Kollokationen und Komposita in Konkurrenz Hypothese muss für lexikalisierte Komposita als quantitativ bedeutsame Erscheinung klar verworfen werden. Deiktische Komposita scheinen eine Domäne der Ad-hoc-Bildungen zu sein. 5.4.3 Längeneffekte im Satzkontext Sieht man sich die Längenverhältnisse im Satzkontext an, stehen zwei Grössen im Vordergrund: Die Satzlänge und die Wortlängen der anderen Wörter im Satz. Die Fragen, die man sich dazu stellen kann, sind etwa, ob sich hier bei Konkurrenzbildungen Unterschiede zeigen. Kommen etwa Komposita bevorzugt in längeren oder in kürzeren Sätzen vor als ihre kollokativen Entsprechungen, oder gibt es hier keine Unterschiede? Kommen Komposita bevorzugt mit anderen Komposita oder mit anderen längeren Wörtern vor (und bilden so Cluster) oder im Gegenteil lieber mit kürzeren Wörtern (gewissermassen in Kompensation)? Allgemein bekannt und durch die neuere quantitative Linguistik bestätigt ist, dass komplexere Texte längere Sätze enthalten. Ausserdem existiert ein genereller Zusammenhang zwischen Satz- und Wortlänge, je länger nämlich die Sätze, desto länger tendenziell auch die Wörter darin (cf. z. B. Best 2002). Von diesem Gesichtspunkt aus müsste eine Hypothese zur Verteilung der Komposita und Kollokationen in Konkurrenzbildungen dahingehend lauten, dass Komposita zusammen mit längeren Wörtern in längeren Sätzen Vorkommen. Dies lässt sich auch anders formulieren: Komposita kommen häufiger mit anderen Komposita zusammen vor, und dies häufiger in komplexen Texten, da so mehr Information auf engerem Raum untergebracht werden kann. Komposita sind auch ein Mittel des sogenannten Nominalstils, der selbst wiederum ein Anzeichen für grössere Textkomplexität ist (cf. z. B. Glück 2010: 463). Untersucht wurden die Satz- und Wortlängen der Konkurrenzbildungen des Web-Korpus.177 Für jedes der rund 14 Mio. Vorkommen dieser Konkurrenzbildungen wurde einerseits die Satzlänge in Wörtern (ohne das jeweilige Zielitem) bestimmt, sowie andererseits die Wortlängen der im selben Satz vorkommenden Wörter in Silben.178 Für jede Konkurrenzbildung wurde daraufhin für das Kompositum wie für die Kollokation der Median der zugehörigen Satzlängen berechnet. Analog dazu wurden auch die Mediane, dritten Quartile und Maxima der Partnerwörter im Satz bestimmt. Tabelle 21 auf der nächsten Seite zeigt dazu die gemittelten Werte179 für Komposita (links) und für Kollokationen (rechts). 177 Alle Komposita mit kollokativer Entsprechung und Mindesttokenzahl von je 3. 178 Ausgeschlossen wurden dabei Exemplare mit Satzlänge über 150 Wörtern oder Wortlängen über 20 Silben, da man dabei fast sicher von Fehlern in der Satzsegmentierung oder nicht-natürlicher Sprache ausgehen kann. 179 Arithmetisches Mittel. K ontext 199 Komp. Kolk Durchschnittliche mittlere Satzlänge (in Wörtern) 24.6 22.9 Wortlänge in Silben - Median (gemittelt) 2.00 1.93 Wortlänge in Silben - 3. Quartil (gemittelt) 2.59 2.49 Wortlänge in Silben - Maximum (gemittelt) 5.05 4.80 Tab. 21: Satz- und Wortlängen im Kontext (Umgebung von Komposita vs. Kollokationen; Web-Korpus) Diese Zahlen bestätigen obige Hypothese: Bei längeren Sätzen wird eher das Kompositum verwendet, ebenso steht eher das Kompositum, wenn ohnehin längere Wörter im Satz Vorkommen. Dieser Kontexteffekt der Längen ist nachweisbar180, jedoch nicht besonders stark. Die Vermutung liegt dabei nahe, dass diese Effekte stark mit stilistischen Gepflogenheiten unterschiedlicher Textsorten Zusammenhängen. 5.4.4 Syntaktische Umgebung Komposita als einzelne Wörter verhalten sich syntaktisch potenziell anders als Kollokationen, die aus mehreren Wörtern bestehen. Besonders die unmittelbare syntaktische Umgebung hat Einfluss auf die entsprechenden Bildungen (oder umgekehrt). Wie mehrfach erwähnt, spielt hier das lexikalische Prinzip (Anderson 1992) eine Rolle. Da von aussen kein direkter Zugriff auf die Konstituenten eines Kompositums besteht, kann zum Bestimmungsglied eines Kompositums z. B. kein Attribut gesetzt werden. Das Kompositum muss hierzu entweder aufgelöst bzw. paraphrasiert werden, um die Konstituente für das Attribut erreichbar zu machen, oder es müssen andere Strategien zur Lösung des Problems gewählt werden (cf. auch 2.2.1.3). Andererseits ist es möglich, durch den Einsatz eines Kompositums syntaktische Komplexität auszulagern: Statt z. B. Genitivattribute aneinanderzureihen, kann zwischen Attribuierung und Komposition variiert werden, wodurch ein Ausdruck komprimierter wird. Für Bildungen, bei denen Kompositum und Kollokation gebräuchlich sind, kann man als Hypothese annehmen, dass sich die Verwendung der einen oder anderen Konstruktion auch nach solchen unmittelbaren syntaktischen Kontexten richtet. Dies soll in den nun folgenden Abschnitten anhand einiger Beispielkonstruktionen untersucht werden. 5.4.4.1 Vorangestellte Adjektivattribute Die erste der untersuchten Konstruktionen ist das einfache vorangestellte Adjektivattribut, also z. B. zur Konkurrenzbildung Grüntee / grüner Tee die um ein attributives Adjektiv erweiterten Bildungen ä la heisser Grüntee bzw. heisser grüner Tee. Die Hypothesen zur Verteilung würden hier Vorhersagen, dass 180 Alle Unterschiede sind signifikant im Wilcoxon-Vorzeichen-Rang-Test mit p < 0.001. 200 Kollokationen und Komposita in Konkurrenz Komposita bevorzugt werden: Sie ermöglichen kürzere Konstruktionen, und im Fall von Kollokationen vom Muster Substantiv mit attributivem Adjektiv werden so Adjektivreihungen vermieden (cf. auch Schiücker & Hüning 2009a: 2261.). Die Untersuchungsvoraussetzungen sind weitgehend dieselben wie in den vorangegangenen Analysen. Die Daten entstammen dem Web-Korpus. Daraus sind die Konkurrenzbildungen, die für Kompositum und Kollokation je mindestens eine Tokenanzahl von 3 vorweisen können, weiterverwendet worden, in diesem Fall w egen der Beschränkung auf Adjektivattribute nur jene mit einem Substantiv in Kopfposition. Die Verteilungen der Adjektivattribute dazu sehen folgendermassen aus: Die Komposita weisen in 22.9% der Fälle ein vorangestelltes Adjektiv auf, die Kollokationen in 14.8% der Fälle (Tokenzahlen). Teilt man die Bildungen nach beteiligten Wortarten auf, so erhält man bei den Adjektiv-Substantiv- Verbindungen für die Komposita einen Anteil von 18.5% mit vorangestelltem Adjektiv, für die Kollokationen lediglich 4.9%. Ausgeglichener präsentiert sic h die Situation bei den Substantiv-Substantiv-Verbindungen. 23.7% der Komposita haben liier ein vorangestelltes Adjektivattribut Leicht niedriger, aber doch in ähnlicher Höhe, liegt der Anteil bei den Kollokationen mit 21 . 0 % . Adiektiv-Substantiv-Verbindungen Substantiv-Substantiv-Verbindunqen Abb. 36: Anteil der Kollokationen bei Konkurrenzbildungen mit vorangestellten Ad jektivattributen (Web-Korpus) Die Situation bei den Adjektiv-Substantiv-Verbindungen deutet darauf hin, dass Reihungen von Adjektiven tatsächlich eher gemieden werden. Bei Substanhv-Substantiv-Verbindungen scheint hingegen keine starke Präferenz für die kürzere Variante mit Kompositum und Adjektivattribut vorhanden zu sein. K ontext 201 Eine detailliertere Sicht ist diejenige auf die einzelnen Konkurrenzbildungen. Verhält es sich auch in der konkreten Konkurrenzsituation so, dass bei Adjektiv-Substantiv-Verbindungen das Kompositum gewählt wird, sobald ein Adjektivattribut hinzukommt? 181 Abbildung 36 auf der vorherigen Seite stellt die Verteilung der entsprechenden Anteile für Adjektiv-Substantiv- und Substantiv-Substantiv-Verbindungen mit vorangestelltem Adjektivattribut dar. Gezählt wurden dabei für jede einzelne Konkurrenzbildung die Exemplare mit vorangestelltem Adjektivattribut. Daraus182 wurde berechnet, wie hoch der Anteil Kollokationen ist. So hat z. B. Privatarchiv in 10 Fällen ein Adjektivattribut bei sich, privates Archiv nur in deren 2, was hier einen entsprechenden Quotienten oder Prozentsatz von 16.7% ergibt. Die beiden Histogramme in Abbildung 36 zeigen nun die Anzahlen der entsprechenden Quotienten pro 5%-Intervall. Der erste hohe Balken im Diagramm links etwa bedeutet, dass über 2000 Konkurrenzbildungen mit Adjektivattribut einen Kollokationenanteil von 0-5% aufweisen (bzw. einen Komposita-Anteil von 95-100%). Das Beispiel Privatarchiv/ privates Archiv erhöht mit seinem Kollokationenanteil von 16.7% das vierte Intervall (15-20%) um einen Zähler. Die gestrichelte Linie zeigt den Median der Anteile an, die gepunktete Linie das arithmetische Mittel. Die Hypothese, dass bei Adjektiv-Substantiv-Verbindungen bei einem zusätzlichen vorangestellten Adjektivattribut jeweils das Kompositum zum Zug kommt, bestätigt sich auch aus dieser Perspektive. Median und Mittel sind klar unter 50%, was den Überhang der Komposita in diesem Fall anzeigt. Für Substantiv-Substantiv-Verbindungen hingegen scheint dies nicht zu gelten. Bei ihnen wird mit einem zusätzlichen Adjektivattribut etwa gleich häufig das Kompositum wie die Kollokation verwendet (Median und Mittel bei 50%). Auffallend sind die bimodalen, also zweigipfligen Verteilungen, die in beiden Diagrammen sichtbar werden. Es gibt folglich viele Konkurrenzbildungen, die auch bei vorangestelltem Adjektivattribut deutlich nur die Kollokation bzw. das Kompositum bevorzugen. Vorangestellte Adjektivattribute haben also einen Einfluss auf die Auswahl von Kompositum oder Kollokation bei Konkurrenzbildungen: Bei Adjektiv-Substantiv-Verbindungen wird das Kompositum bevorzugt. So entstehen keine oder weniger Reihungen mehrerer Adjektive. 181 Die hier suggerierte Richtung von Ursache und Wirkung ist natürlich so nicht gesichert. Es handelt sich wenn überhaupt natürlich um eine einfache Korrelation. Die Richtung kann also auch die umgekehrte sein, dass nämlich bei Verwendung einer Adjektiv-Substantiv-Kollokation zu einem anderen Mittel als zu einem Adjektivattribut gegriffen wird. Oder es werden komplett andere Strategien verwendet. 182 Es wurden solche verwendet, bei denen die gesamte Zahl an Bildungen mit Adjektivattribut mindestens 3 betrug. 202 Kollokationen und Komposita in Konkurrenz 5.4.4.2 Nachgestellte Genitivattribute Die nächste Konstruktion, die daraufhin untersucht wird, ob sie einen Einfluss auf die Auswahl von Kollokation oder Kompositum bei Konkurrenzbildungen hat, ist das nachgestellte Genitivattribut. In gewisser Weise ist es ein Gegenstück zum vorangestellten Adjektivattribut aus dem vorhergehenden Abschnitt: Es ist nachgestellt, und es kommt nicht aus dem adjektivischen, sondern aus dem nominalen Bereich. Die Hypothesen, die sich bezüglich der Auswahl formulieren lassen, sind wieder ähnlich gelagert. Man kann erwarten, dass längere Konstruktionen vermieden werden und deshalb Komposita bevorzugt ausgewählt werden (wobei diese Erwartung intuitiv etwas weniger stark ist, nachdem sie bei den Adjektivattributen nicht erfüllt wurde). Weiter kann man erwarten, dass Reihungen gleichartiger Elemente eher gemieden werden. Kommt zu einer Substantiv-Substantiv-Kollokation noch ein Genitivattribut hinzu, stehen gleich drei Substantive in enger Folge. Durch Verwendung eines Kompositums könnten diese zu Zweierfolgen reduziert werden. Zudem kann man annehmen, dass Genitivattribute zu Genitivattributen selten sein sollten in Analogie auch zu den seltenen Doppelfolgen von Adjektivattributen im vorherigen Abschnitt. Es sind dieselben Daten unter denselben Voraussetzungen verwendet worden wie für die vorangestellten Adjektivattribute in Abschnitt 5.4.4.I. Die untersuchten Komposita haben im Web-Korpus in 6.3% der Fälle ein nachgestelltes Genitivattribut, die Kollokationen in 7.0% der Fälle (Tokenzahlen). Bei den Adjektiv-Substantiv-Verbindungen liegen die entsprechenden Anteile sehr ähnlich bei 6.5% für die Komposita und 7.5% für die Kollokationen. Die Substantiv-Substantiv-Verbindungen weisen Genitivattribut- Anteile von 6.3% bei den Komposita und 6.8% bei den Kollokationen auf. Die Anteile sind also ingesamt deutlich kleiner als bei den Adjektivattributen. Die Gesamtverteilungen bei Kollokationen und Komposita ähneln einander recht stark, mit durchwegs leicht höheren Anteilen bei den Kollokationen. Interessant sind in diesem Zusammenhang vielleicht noch die Anteile bei den Substantiv-Substantiv-Kollokationen, w o Kollokationen mit Substantiv und Präpositionalphrase einen höheren Anteil an Genitivattributen aufweisen, nämlich 9.2%. Kollokationen mit Genitivattribut haben dahingegen deutlich seltener ein zusätzliches Genitivattribut bei sich, nämlich in lediglich 4.5% der Fälle.183 Dies spricht wieder für obige Hypothese: Reihungen von Genitivattributen werden tendenziell gemieden, wenn auch nicht extrem: Es handelt sich um eine einfache Halbierung des Anteils gegenüber den Präpositionalphrasenkollokationen. Abbildung 37 auf der nächsten Seite zeigt wieder die Type-Perspektive der Konkurrenzbildungen mit dem jeweiligen Kollokationenanteil an allen Bildungen mit Genitivattribut der entsprechenden Konkurrenzbildung 183 Für die Komposita gibt es hierzu keine Zahlen, da die Art der angenommenen syntaktischen oder semantischen Verbindung nicht so einfach zu bestimmen ist (cf. auch Abschnitt 2.2). K ontext 203 (analog zu Abbildung 36 auf Seite 200 für die Adjektivattribute, wieder unter denselben Bedingungen). Hier zeigt sich, dass für Adjektiv-Substantiv- Bildungen (Diagramm links) mit Genitivattribut klar Kollokationen vorgezogen werden: In der Hälfte der Verbindungen mit zusätzlichem Genitivattribut (Median) liegt der Kollokationenanteil bei 80% und höher. Bei den Substantiv-Substantiv-Bildungen halten sich hingegen die Präferenzen für Kompositum oder Kollokation die Waage. A d je k tiv -S u b s ta ntiv-V e rbindung e n 0 % 10% 2 0 % 3 0 % 4 0 % 5 0 % 6 0 % 7 0 % 8 0 % 9 0 % 1 0 0% G enitivattribute: A nteil Kollokationen S u b sta n tiv -S u b s ta n tiv -V e rb in dun gen 6000- (/ ) cd Q. 1 ^ 4 0 0 0 - ! E: (0 N C < 2 0 0 0 - 0 i 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Genitivattribute. Anteil Kollokationen Abb. 37: Anleil der Kollokationen bei Konkurrenzbildungen mit nachgestellten Genitivattributen (Web-Korpus) Damil bestätigen sich bei den nachgestellten Genitivattributen die Resultate für die vorangestellten Adjektivattribute (cf. 5.4.4.1). Die Wiederholung gleichartiger Elemente wird tendenziell gemieden (hier zwei aufeinanderfolgende Genitivattribute). Eine allgemeine Tendenz, ein Kompositum statt einer Kollokation zu verwenden, um weniger komplexe syntaktische Strukturen zu erhalten, lässt sich aber auch hier nicht feststellen. Natürlich ist in diesem Zusammenhang fraglich, ob ein Kompositum gegenüber der entsprechenden Kollokation überhaupt als weniger komplex wahrgenommen wird. 5.4.4.3 Adjektivattribute zu Nicht-Köpfen Von den Genitivattributen wieder zurück zu Adjektivattributen. Während vorangestellte Adjektivattribute (cf. 5.4.4.1) das ganze Kompositum modifizieren, und bei Kollokationen im Normalfall den Kopf der Nominalphrase, geht es hier um Adjektivattribute zu Nicht-Köpfen. Da Bestimmungsglieder in Komposita nach dem lexikalischen Prinzip syntaktisch nicht von aussen zugänglich sind und sie damit keine Attribute ausserhalb des Kompositums erhalten können, gibt es die Möglichkeit, das Kompositum in seine Paraphrase umzuwandeln, um so das Bestimmungsglied für syntaktische Modifika- 204 Kollokationen lind Komposita in Konkurrenz tion zugänglich zu machen (cf. auch Schiücker & Hüning 2009a: 227). Bei Konkurrenzbildungen, wo Kollokation und Kompositum geläufig sind, ist zu erwarten, dass diese Strategie besonders häufig benutzt wird. Da Adjektivattribute im Deutschen prinzipiell vorangestellt, Genitiv- und Präposihonalattribute zu Substantiven aber mehrheitlich nachgestellt werden, bildet die Kombination von Substanhv-Substantiv-Kollokahonen mit einem Adjektivattribut zum Nicht-Kopf184 ein charakteristisches Muster, das gut erhebbar ist. Falls obige Erwartung zutrifft, müssten bei Konkurrenzbildungen, wo bei den Kollokationen solche Attribuierungen von Nicht-Köpfen Vorkommen, die Kollokationen gegenüber den Komposita häufiger sein als in der Vergleichsgruppe derjenigen ohne Attribuierung der Nicht-Köpfe. Ganz allgemein bewegt sich die Häufigkeit solch adjektivischer Attribute in einem ähnlichen Rahmen wie bei den vorangestellten Adjektivattributen in Abschnitt 5.4.4.1 (die syntaktische Umgebung ist auch nicht grundlegend anders). Ihr Anteil beträgt im Web-Korpus, gemessen an den Tokenzahlen, 20 . 1 % . 1 00 % c 90% a> cn § 80% n 70% CD 60% C * 50% C 03 5 40% c0 |j 30% 1 20 % <ü c 10% < 0% mit Adjektivattribut ohne Adjektivattribut Abb. 38: Kollokationenanteil mit und ohne Adjektivattribut beim Nicht-Kopf (Web- K or p u s) 184 Mil Kopf einer Kollokation ist jeweils der Kopf der zugehörigen syntaktischen Phrase gemeint. Bei einer Substantiv-Substantiv-Verbindung wie Design von Software ist Design der Kopf der Nominalphrase und Software dementsprechend der Nicht-Kopf. K on stituentenbedeutungen 205 Abbildung 38 auf der vorherigen Seite stellt die entsprechenden Verteilungen grafisch dar. Die Daten sind grundsätzlich dieselben w ie bei den vorhergehenden Analysen zum syntaktischen Kontext. Nur sind sie diesmal auf die Substantiv-Substantiv-Verbindungen beschränkt. Für jede Konkurrenzbildung wird dabei der Anteil Kollokationen berechnet. Softwaredesign etwa hat 36 Tokens im Web-Korpus, Design der/ von Software deren 10, was einen Kollokationenanteil von 21.7% macht. Sobald in einer Konkurrenzbildung auch Kollokationen mit Adjektivattributen zu Nicht-Köpfen enthalten sind (z. B. Design vorhandener Software), kommt die Konkurrenzbildung in die Gruppe, die im Diagramm links dargestellt ist. Kommen keine solchen vor, geht sie in die Gruppe im Diagramm rechts ein. Dargestellt sind dort für die beiden Gruppen Median und unteres bzw. oberes Quartil der Kollokationenanteile. Die Linie bei rund 59% im Diagramm links bedeutet also, dass die Hälfte der Konkurrenzbildungen über 59% Kollokationenanteil haben, die andere Hälfte weniger. Zu lesen ist Abbildung 38 so, dass die Konkurrenzbildungen mit entsprechendem Adjektivattribut tatsächlich einen deutlich höheren Kollokationenanteil haben. Die Attribuierung von Nicht-Köpfen hat also einen Einfluss darauf, dass in einer Konkurrenzbildung öfter die Kollokation als das Kompositum verwendet wird. Bei allen drei untersuchten Attributskonstruktionen (Adjektivattribute zu Nicht-Köpfen oben, vorangestellte Adjektivattribute unter 5.4.4.1 und nachgestellte Genitivattribute unter 5.4.4.2) hat sich gezeigt, dass sie einen Einfluss auf die Wahl von Kollokationen oder Komposita in Konkurrenzbildungen haben. Für künftige Untersuchungen in diesem Gebiet scheinen deshalb weitere syntaktische Konstruktionen vielversprechend. 5.5 Konstituentenbedeutungen Man kann annehmen, dass die Wahl von Kompositum vs. Kollokation auch semantischen Beschränkungen unterliegt. Gemeint sind damit nicht bevorzugte unterschiedliche Gesamtbedeutungen der jeweiligen Konstruktion, w ie sie unter anderem in Abschnitt 5.1.3 thematisiert werden. Gemeint sind vielmehr Beschränkungen der Konstituentenbedeutungen. Schiücker & Hüning (2009a: 218f.) beobachten, dass Adjektive w ie sozial, extrem, optimal nur zusammen mit Abstrakta Substantivkomposita bilden, nicht aber mit Konkreta. Demnach sei zwar Optimallösung belegt, nicht aber Optimalauto (wohl aber optimales Auto). Weiter kann man sich vorstellen, dass etwa Materialien besonders häufig eine Subklassifizierung erhalten oder selbst subklassifizieren und deshalb besonders häufig Bestandteil von Komposita sind. Auf der anderen Seite werden vielleicht Gefühle oft näher beschrieben und seltener klassifiziert, was weniger Komposita zur Folge hätte. Solche Unterschiede hätten, wenn sie in den letzten zwei Fällen auch als nachgelagert angesehen werden können, nicht nur Einfluss auf die Kompositionstätigkeit im 206 Kollokationen und Komposita in Konkurrenz Allgemeinen, sondern ebenso auf das Auftreten und die Verteilung bei Konkurrenzbildungen. Eine vorsichtige Hypothese wäre nun, dass sich verschiedene semantische Klassen von Lexemen unterschiedlich verhalten, was die Bildung von Komposita und Kollokationen sowie die Bildung von Konkurrenzbildungen angeht. Dass einzelne Lexeme sich hier sehr unterschiedlich verhalten, hat Abschnitt 5.1.1 gezeigt. Die Unterschiede können u. a. auch semantische Ursachen haben. In diesem Fall müssten nach semantischen Kriterien zusammengefasste Gruppen von Lexemen ähnliche Profile aufweisen. Die Wahl geeigneter semantischer Kriterien ist dabei ein schwieriges Problem. In der vorliegenden Arbeit werden die Lexeme für einen ersten Zugang relativ groben semantischen Klassen zugeordnet. Es handelt sich dabei um die obersten semantischen Kategorien von GermaNet (cf. Henrich & Hinrichs 2010; Kunze & Lemnitzer 2002), einem Wortnetz fürs Deutsche, das dem englischen WordNet (cf. Fellbaum 1998) nachempfunden ist. Dabei werden Wörter mit ähnlichen Bedeutungen in sogenannten Synsets zusammengefasst und diese untereinander über semantische Beziehungen wie Hyperonymie, Hyponymie etc. miteinander verknüpft. Da als Konkurrenzbildungen nur Adjektive und Substantive berücksichtigt wurden, werden hier auch nur die 39 Oberkategorien für Adjektive und Substantive verwendet. Für jede Wortverbindung wird dabei die entsprechende Oberklasse ausgewählt. Für das Kompositum Goldfisch z. B. ergibt dies die Zuordnung Gold: nomen. Substanz - F is c h : nomen.Tier; ist eine Konstituente gleichzeitig mehreren Oberklassen zugeordnet, werden sämtliche Kombinationen aufgeführt - für Goldfisch käme deshalb noch Gold: nomen. Substanz Fisch: nomen.Nahrung dazu.185 Vergleichbar mit den Lexemkombinationen, w ie sie z. B. in Abschnitt 5.1.1 gebildet wurden, werden mit diesen semantischen Kategorien ebenfalls alle belegten Kombinationen gebildet und gezählt (die Zählung erfolgt dabei nach Lexemen, nach Types). Abbildung 39 auf der nächsten Seite zeigt die Verteilungen der Anteile Konkurrenzbildungen pro semantischer Oberklasse, links für das Bestimmungsglied (in Kompositionsterminologie), rechts für den Kopf.186 Es handelt sich dabei um den Anteil Konkurrenzbildungen an der Gesamttypezahl der Komposita. Ein Lesebeispiel - ausgehend wieder von Goldfisch - sieht für nomen. Substanz als Bestimmungsglied folgendermassen aus: Bei Komposita mit einem Substanznomen als Bestimmungsglied (unterste Zeile links) liegt der Median des Konkurrenzbildungsanteils bei ca. 15%; d. h. die Hälfte der zugehörigen Kopfkategorien (z. B. nomen.Tier) haben mit nomen.Substanz zusammen Komposita, die einen Anteil von mehr als 15% Konkurrenzbildun- 185 Diese Mehrfachauflistung führt dazu, dass auch ungebräuchliche Kombinationen von Bedeutungen gebildet werden wobei in Klammern angemerkt sei, dass Goldfische sowohl im Diminutiv in Gebäckform als offenbar auch sonst durchaus gegessen werden (cf. http : / / g oldfisch e .k altw a sse raq u a ristik.d e / ko ch e n .h tm ; 29.11.2013). 186 Es wurde eine Mindesttokenzahl von 3 bestimmt, damit eine Kombination hier verzeichnet wurde. K onstituentenbedeutungen 207 gen aufweisen die andere Hälfte hat e in e n K o n k u rre n z b ild u n g s a n te il v o n unter 15% (Goldfisch selbst wird nur als K o n k u rre n z b ild u n g g ezählt, w e n n mindestens drei Belege für goldener Fisch/ Fisch aus Gold o. ä. im K o rp u s Vorkom m en) Die Kategorie nomen.Substanz als B e stim m u n g sglie d tritt m it d er Kategorie nomen. Tier als Kopf im W eb-K orpu s in 134 u n te rsc h ie d lic h e n K om posita auf (Types); 8 davon zeigen K o n k u rre n z b ild u n g e n , w a s e in e n A nteil von 6.3% ausmacht. Bestimmungsglied Kopf adj.Pertonymadj.Allgemein adj.Gesellschaftadj.Geistadj.Verhaltenadj. Menge adj.Koerperadj.Gefuehladj. Bewegungadj.Perzeption adj.Ortadj.Substanznomen.Motivadj.Zeitadj. natPhae nomenadj.privativ adj.Relation nomen.Kognitionnomen.Relationnomen.Gefuehlnomen.Zeitnomen.natGegenstandnomen.Mensch nomen. Koerper nomen. Form nomen.Ort nomen.Kommunikation nomen. natPhaenomen no men.Attribut nomen.Menge no men.Tops nomen.Artefakt nomen.Gruppe nomen.Geschehen nomen.Besitz nomen.Tier nomen.Nahrung nomen. Pflanze nomen.Substanz Q — nomen.Topsnomen.Motivnomen.Gefuehlnomen.Zeitnomen.Attributnomen. Kognitionnomen.Relationnomen. Kommunikationnomen.natPhaenomen- -L nomen.natGegenstand- —[ nomen.Geschehen- f nomen.Form adj.Zeit nomen.Koerper- t adj. Relation nomen.Substanz- — nomen.Besitz- -[_ adj.Ort- —[ adj. privativ nomen.Menge- -L nomen.Mensch- - [ nomen.Ort- — adj.Koerper- -T adj .Verhaltenadj.natPhaenomenadj.Mengenomen.Artefakt- - [ adj.Allgemein- — nomen.Gruppe- —\ adj.Gesellschaftnomen.Nahrung- — adj. Gefuehl- —| adj. Substanzadj.Bewegung- [_ nomen.Pflanze- -[ __ nomen.Tier- H T adj.Perzeptiond adj. Pertony m II h adj.Geist- II I- 0% 20% 40% 60% 80% 100% A nteil Konkurrenzbildungen 0% 20% 40% 60% 80% 100% A nteil Konkurrenzbildungen Abb. 39: Anteil Konkurrenzbildungen nach GermaNef-Oberkategorien (Web-Korpus) Es sind dabei in Abbildung 39 durchaus beträchtliche Unterschiede zwischen den einzelnen Kategorien feststellbar. Allerdings ist innerhalb einzelner Kategorien auch die Streuung recht gross. Vorwegzunehmen sind die systematischen Unterschiede zwischen Adjektiven und Substantiven. Adjektive als Bestimmungsglieder zeigen mehr Konkurrenzbildungen als Substantive. Bei 208 Kollokationen und Komposita in Konkurrenz den Köpfen ist es genau umgekehrt: Hier sind es die Substantive, die mehr Konkurrenzbildungen besitzen als die Adjektive. Allgemeine Trends sind kaum auszumachen. Auffallend ist aber z. B., dass die sehr konkreten Kategorien nomen. Tier, nomen.Pflanze, nomen.Nahrung und nomen. Substanz sowohl als Bestimmungsglieder als auch als Köpfe die niedrigsten Konkurrenzbildungsanteile haben, also vergleichsweise am häufigsten ausschliesslich Komposita bilden. Umgekehrt befinden sich Kategorien mit mehr Abstrakta zwar weiter oben in der Rangliste, dort finden sich allerdings ebenso einige Kategorien mit vielen Konkreta. Schliesslich könnten die recht grossen Streuungen, die zu beobachten sind, daher rühren, dass entweder die gewählten Kategorien für die bearbeitete Frage nicht die bestmögliche Aufteilung des semantischen Raums darstellen, oder dass andere Faktoren w ie etwa der Kontext (cf. Abschnitt 5.4) mit hineinspielen. Bestimmungsglied Kopf adj. Menge adj .Allgemein adj.Ortadj.Zeitadj.privativadj. natPhae nomenadj.Gefuehlnomen: Tops adj.Verhaltenadj.Substanzadj. Relation adj.Perzeptionadj.Gesellschaftadj.Koerpernomen.Menschadj.Geist- [ adj.Pertonymnomen. Relationnomen. Motivnomen. Gefuehlnomen.Formadj. Bewegung nomen.Kognitionnomen.Gruppenomen.Kommunikationnomen.Geschehennomen.natPhaenomennomen.Attributnomen.Artefakt nomen.Tier nomen.Menge nomen.Ort nomen.Zeit nomen. natGegenstand nomen.Nahrung nomen.Besitz nomen. Koerper nomen.Substanz nomen.Pflanze adj.natPhaenomenadj. Pertony madj.Gefuehladj.Geistadj.Zeitadj. Substanz [ nomen.Topsnomen. Pflanze nomen. Motivnomen.Nahrungnomen. Relation nomen.Gefuehlnomen.Mengenomen.Menschnomen.Substanznomen.Kommunikationnomen.Zeitnomen.Tiernomen.Ortnomen.natPhaenomennomen.Gruppenomen. Koerper^nomen. Kognition nomen.Attributnomen.Formnomen.Artefaktnomen. natGegenstand nomen.Geschehennomen.Besitzadj. Perzeption adj.privativadj.Ortadj. Koerper^adj.Gesellschaftadj.Verhaltenadj. Relationadj. Menge L J Z adj.Allgemeini % 20% 40% 60% 80% 100% 0% 20% 40% 60% 80% 100% K onkurrenzbildungen: K ollo k atio n e n + vs . Kom posita+ Konkurrenzbildungen: K ollokationen+ vs. Kom posita+ Abb. 40: Bedeutungsähnliche einseitige Konkurrenzbildungen nach GermaNet- Oberkategorien (Web-Korpus) K onstitu entenb ed eutung en 209 Eine weitere Auswertung, ebenfalls auf Basis derselben semantischen Kategorien, zeigt Abbildung 40 auf der vorherigen Seite. Hier sind nur noch Konkurrenzbildungen berücksichtigt, und von diesen nur das oberste Quartil derer mit den höchsten Bedeutungsähnlichkeiten zwischen Kompositum und Kollokation (cf. 5.1.3). Es geht also spezifischer um die Konkurrenzbildungen mit einander ähnlicher Bedeutung. Gemessen wurde der Anteil Konkurrenzbildungen mit Kollokationenüberhang im Vergleich zur Gesamtheit der einseitigen Bildungen (cf. 5.1.2). Ein Wert von 0% bedeutet also nur einseitige Bildungen mit Kompositaüberhang für die entsprechende Kategorienkombination, 50% bedeutet gleich viele Bildungen mit Kollokationenwie mit Kompositaüberhang, und 100% demnach nur Bildungen mit Kollokationenüberhang (über den Anteil der ausgewogenen Bildungen wird keine Aussage getroffen). In Abbildung 40 selbst sind wieder die entsprechenden Verteilungen, aufgeteilt nach Bestimmungsglied (linkes Diagramm) und Kopf (rechtes Diagramm), abgetragen. Ziel der Grafik ist aufzuzeigen, welche semantischen Kategorien bei Konkurrenzbildungen eher Richtung Kollokationen oder eben Richtung Komposita tendieren. Die Aufteilung nach Wortarten sieht hier bei den bedeutungsähnlichen Konkurrenzverbindungen anders aus. Bei den Köpfen markieren die Adjektive die Extreme: Sie neigen entweder stark zu Kollokationen oder stark zu Komposita. Die Neigung zum Kollokationenüberhang ist allerdings zu relativieren, da es sich entweder um Kategorien mit nur vereinzelten Kombinationen handelt (adj.natPhaenomen, adj.Pertonym, adj.Geist) oder die Streuung sehr gross ist (adj.Gefuehl und adj. Substanz). Auf der linken Seite, im Diagramm zu den Bestimmungsgliedern, zeigen die Adjektive eher einen Kollokationenüberhang. Die Substantive ihrerseits sind bei den Bestimmungsgliedern und bei den Köpfen nie stark kollokationenlastig, sondern bewegen sich in einem mittigen Bereich, insgesamt eher ein w enig Richtung Kompositaüberhang. Dabei ist die Streuung bei den Köpfen grösser als bei den Bestimmungsgliedern. Die in Abbildung 39 auf Seite 207 links (Bestimmungsglied) nahe beieinander stehenden Kategorien nomen.Tier, nomen.Pflanze, nomen.Nahrung und nomen. Substanz weisen in Abbildung 40 deutlichere Unterschiede auf, sowohl was den Median als auch was die Streuung angeht. Dies könnte darauf hinweisen, dass die ähnlichen Verteilungen in Abbildung 39 weniger auf die Konkurrenzbildungen zurückgehen, sondern mehr auf eine hohe Kompositionsaktivität, die den Einfluss der Konkurrenzbildungen entsprechend schmälert. Insgesamt sind zwar in beiden Diagrammen Unterschiede nach semantischen Kategorien feststellbar, eine spezifischere Interpretation drängt sich allerdings leider nicht auf. Angesichts der Schwierigkeit, geeignete semantische Kategorien auszuwählen, wäre es hier allenfalls sinnvoller, ein Bottomup-Vorgehen zu wählen und von konkreten Hypothesen zu einzelnen Phänomenen auszugehen, um diese dann auf die vorgestellte Weise zu überprüfen. 210 Kollokationen und Komposita in Konkurrenz Ein Beispiel einer solchen Hypothese - allerdings unter Einbezug von Morphologie oder Morphosyntax - wäre die schon erwähnte Feststellung von Schiücker & Hüning (2009a: 218f.), dass Adjektive wie sozial, optimal und extrem als Bestimmungsglieder nur bei abstrakten Entitäten auftauchen. Um Missverständnissen vorzubeugen, lohnt es sich hier, den Originalwortlaut zu betrachten: The adjectives sozial, optimal and extrem are Latin loans (in the case of sozial, they came into the language via French). [...] It seems to be a general property of these adjectives that they only combine with nouns denoting an abstract entity, like Optimalpreis ,optimal price', Optimalwert ,optimal value' or Optimalbedingung o p timal condition', but not with nouns denoting a concrete entity, cf. optimales Auto vs. nOptimalauto ,optimal car'. (Schiücker & Hüning 2009a: 218f.) Wenn man davon ausgeht, dass m it, these adjectives' nicht nur die drei genannten Adjektive, sondern allgemein lateinische Entlehnungen und neoklassische Bildungen ähnlicher Art gemeint sein könnten, bietet sich die Hypothese für eine grossflächigere Überprüfung in den Korpora an. Sieht man sich die Konkurrenzbildungen mit mehrsilbigem Adjektiv auf -iell, -uell, -al und -ar als Bestimmungsglied an, ergibt sich gemessen an den zugehörigen semantischen Oberkategorien nicht das erwartete Bild, dass keine Konkreta beteiligt wären. Nun sind die GermaNef-Oberkategorien zwar nicht konsequent nach Abstrakta und Konkreta aufgeteilt, die Belege zeigen aber deutlich, dass sehr wohl Konkreta beteiligt sind: Idealpartner, Digitalfernseher, Nuklearanlage, Lokalzeitung etc. Die Kombinationsbeschränkungen scheinen in diesem Fall eher item spezifisch zu sein und weniger die ganzen entsprechenden Wortgruppen mit ähnlichen Suffixen und Entlehnungsquellen zu betreffen. Zusammenfassung In diesem Kapitel wurden Konkurrenzbildungen, die Kompositum und Kollokation mit lexikalisch identischen Konstituenten kennen, auf ihre Verteilung hin analysiert. Untersucht worden sind zunächst Faktoren, die generell mit mehr oder weniger Komposition bzw. mehr oder weniger Kollokationen einhergehen. In diesen ersten Teil integriert ist auch ein analysemethodischer Teil, der Voraussetzungen für anschliessende Analysen etabliert. Zum Zweiten sind Faktoren betrachtet worden, welche die Verteilung zwischen Kompositum und Kollokation innerhalb einer Konkurrenzbildung beeinflussen könnten. Im analysemethodischen Teil wurde zuerst die Methode für den Direktvergleich der Konkurrenzbildungen eingeführt Diese wurden anschliessend nach beteiligten Lexemen ausgezählt. Die Lexeme zeigen zwar grosse Verteilungsunterschiede, klare Muster sind aber kaum festzustellen. Ein wichtiges Charakteristikum der Komposition ist ihre Benennungsfunktion gegenüber stärkerem Vorherrschen der Beschreibungsfunktion bei syntaktischen Phrasen. Mittels Latent Semantic Analysis wurde versucht, die semantische Ahn- K on stituentenbedeutungen 211 lichkeit in Konkurrenzbildungen quantifizierbar zu machen. In der Auswertung zeigte sich sehr stark der graduelle Charakter semantischer Ähnlichkeit. Schliesslich wurde für die Komposition ein Mass zur Produktivitätsmessung eingeführt. Kompositionsproduktivität wurde daraufhin an den bestehenden Daten gemessen und zu verschiedenen Dimensionen in Beziehung gesetzt. Einige Aussagen zur Kompositionsproduktivität können so an unseren Korpora bestätigt werden: so etwa die Produktivität unterschiedlicher Wortarten und unterschiedlicher Wortartenkombinationsmuster. Bei der Kompositionsproduktivität auf Lexemebene zeigt sich wieder ein eher uneinheitliches Bild mit grossen Unterschieden und ohne klare Muster. Bei den spezifischer auf die Konkurrenzbildungen ausgerichteten Analysen konnte für die Kompositionsproduktivität kein systematischer Zusammenhang mit der Anzahl Konkurrenzbildungen festgestellt werden. Ebenso wenig scheint ein Wortlängeneffekt bei der Kompositum-Kollokationen- Konkurrenz eine Rolle zu spielen. Ein weiteres Analysefeld waren kontextbezogene Einflüsse auf Konkurrenzbildungen. Die Verwendungskonsistenz einmal gewählter sprachlicher Formen innerhalb eines Textes ist recht hoch. Normalerweise wird also entweder das Kompositum oder die Kollokation, aber nicht beides alternierend, in einem Text verwendet. Wenn doch beide verwendet werden, geschieht dies stärker in freier stilistischer Variation denn als Wiederaufnahme per anaphorischem Kompositum. Ebenfalls stilistische Ursachen haben wohl die schwachen, kontextbezogenen Längeneffekte: Komposita aus Konkurrenzbildungen kommen eher in längeren Sätzen zusammen mit tendenziell längeren Wörtern vor. Teils klare Effekte zeigt der unmittelbare syntaktische Kontext. Es besteht eine Tendenz zur Vermeidung von Reihungen gleichartiger Konstruktionen. Stünden zwei attributive Adjektiven oder zwei Genitivattribute hintereinander, wird stattdessen oft ein Kompositum gewählt, um die Dopplung zu verhindern. Eine generelle Tendenz hin zu kürzeren Komposita statt komplexerer und längerer syntaktischer Phrasen liess sich jedoch nicht nachweisen. Es konnte auch gezeigt werden, dass Komposita zu syntaktischen Phrasen aufgelöst werden, um ein Attribut zum Bestimmungsglied setzen zu können. Ein semantischer Einfluss der an Konkurrenzbildungen beteiligten Lexeme schliesslich ist schwer fassbar, w enn auch in groben Analysen Unterschiede zwischen verschiedenen Bedeutungsklassen festgestellt wurden. 6 Schluss Die vorliegende Arbeit verbindet aus lexikografischer und analytischer Perspektive Kollokationen mit Komposita - dies über die Grenzen von Phraseologie und Wortbildung, Syntax und Morphologie hinweg. Damit wird die kombinatorische Begriffsbildung als zu betrachtendes Phänomen ins Zentrum gestellt. Aus lexikografischer Perspektive geht es um die Extraktion von Kollokationen und Komposita aus Textkorpora und um die Integration von Komposita ins Kollokationenwörterbuch. Im Analyseteil wird anhand dieser Daten die Verteilung der Kollokationen und Komposita untersucht, die identische lexikalische Komponenten aufweisen und damit potenziell Konkurrenzpaare bilden. 6.1 Zusammenfassung Nach einer theoretischen Darstellung der kombinatorischen Begriffsbildung mit Passagen zu Kollokationen, Komposita, ihren Überschneidungsbereichen und ihrem Konkurrenzverhältnis (Kapitel 2) widmet sich Kapitel 3 methodischen Fragen der Datengewinnung und -aufbereitung. Beschrieben werden Methoden, mit denen Kollokationen und Komposita automatisch aus verschiedenen Textkorpora extrahiert wurden. Die Extraktionsmethode für Kollokationen folgt gut etablierten Standardmethoden: Wortpaare werden entweder wortabstandbasiert oder nach zusätzlicher linguistischer Vorverarbeitung (Chunking) strukturbasiert erhoben und mithilfe verschiedener Assoziationsmasse in eine Rangfolge gebracht. Im nachfolgenden lexikografischen Prozess werden die Wortpaare nach dieser Rangfolge bearbeitet. Für Komposita wird eine analoge Extraktionsmethode eingeführt. Die Rangierung über Assoziationsmasse erfolgt nach denselben Prinzipien wie bei den Kollokationen. Um die Kompositakonstituenten als Lexempaare zu erhalten, müssen aber die Komposita zuerst analysiert bzw. segmentiert werden. Für diese Komposita-Analyse wird auf ein bestehendes Morphologiesystem (Morphisto) zurückgegriffen, das durch eigene Komponenten ergänzt wurde. Dies sind insbesondere ein einfacher, aus den lokal verfügbaren Korpora abgeleiteter Konkatenations-Segmentierer sowie ein Maximum- Entropie-Klassifizierer zur Disambiguierung vorgeschlagener automatischer Morphologie-Analysen. Diese erweiterte Konfiguration wurde gründlich evaluiert, wobei Vergleichbarkeit mit andernorts beschriebenen Ansätzen oft nicht gegeben war, da solche Evaluationen stark von den verwendeten und verfügbaren Daten und der zu lösenden Aufgabe abhängen. Aufgaben- 214 Schluss spezifisch ergibt jedoch die hier gewählte hybride Methode verglichen mit anderen getesteten Ansätzen die besten Resultate. Weiterhin wurde zur lexikografischen Relevanz der verwendeten Assoziationsmasse nachträglich, d. h. nach der lexikografischen Auswahl des grössten Teils der Kollokationen und Komposita, eine Evaluation vorgenommen.187 Diese kommt zum Schluss, dass unter den vorliegenden Bedingungen für die von uns angestrebte Art von Wörterbuch wohl Log-Likelihood das aussagekräftigste Mass gewesen ist (bzw. wäre). Teile der lexikografischen Umsetzung werden in Kapitel 4 genauer behandelt. Es werden einige grundsätzliche konzeptuelle Punkte zum Kollokationenwörterbuch vorgestellt: die Auswahl des Basiswortschatzes, die konkrete Umsetzung des Basis-Kollokator-Prinzips inkl. dessen Aufweichung über ein Verweissystem, die Unterscheidung von typischen und gebräuchlichen Kollokationen sowie die empirische Abstützung über die Kollokations- und Kompositumsextraktion hinaus. Verschiedene Darstellungsvarianten für mögliche Druck- und Online-Versionen werden präsentiert und besprochen, für die Online-Version auch anhand eines lauffähigen Prototypen. Es werden ausserdem erweiterte Nutzungsmöglichkeiten der Kollokationendaten angeführt. Ebenfalls zum Thema der lexikografischen Umsetzung gehört eine kurze Beschreibung des eingesetzten lexikografischen Arbeitsplatzes sowie eine Präsentation der zentralen Leitlinien der technischen Konzeption von Wörterbuch und lexikografischem Arbeitsplatz. Zentral in Kapitel 4 ist das Plädoyer für die Integration von Komposita in deutschsprachige, produktionsorientierte Kollokationenwörterbücher. Hauptargument ist, dass es sich bei diesen um kombinatorische Wörterbücher handelt und deshalb gerade die Komposition als im Deutschen sehr wichtige Möglichkeit der kombinatorischen Begriffsbildung auf keinen Fall fehlen darf. Kapitel 5 analysiert Verteilungen bei Konkurrenzbildungen, die Komposita und Kollokationen aus lexikalisch identischen Konstituenten beinhalten. Dazu werden zusätzlich notwendige methodische Mittel eingeführt. Es sind dies Methoden zur Zuordnung einander entsprechender Konkurrenzbildungen, zur Quantifizierung von Bedeutungsähnlichkeiten innerhalb von Konkurrenzbildungen mittels Latent Semantic Analysis sowie zur Berechnung eines Produktivitätsmasses für die Komposition als Wortbildungsart. Allgemeine Verteilungen bezüglich Komposita und Kollokationen können an den so untersuchten Daten weitgehend bestätigt werden: Die Vorherrschaft bestimmter Wortartenmuster in der Komposition etwa oder die höhere Produktivität der Substantivkomposition gegenüber der Adjektivkomposition (und letzterer gegenüber der Verbkomposition). 187 Bei Projektbeginn waren die auch bei Vorbildern eingesetzten, etablierten Masse gewählt worden. Eine ausgedehnte vorgängige Evaluation, die unabhängig vom entstehenden Wörterbuch hätte durchgeführt werden müssen, konnte wegen fehlender Ressourcen nicht vorgenommen werden. Fazit 215 Hinsichtlich der Verteilungen von Kollokationen und Komposita bei Konkurrenzbildungen konnten bei Analysen auf Lexemebene keine auffälligen Häufungen festgestellt werden. Dies steht in Einklang mit oder zumindest nicht in Widerspruch zu der von Schiücker & Plag (2011) angenommenen Analogiewirkung. Kombinationen richten sich in ihrer Bildungsart analogisch nach bereits bestehenden Bildungen mit denselben Lexemen. Einflüsse auf höherer semantischer Ebene, also Analogien nach semantischen Gruppen von Konstituenten, deuten sich in der vorliegenden Untersuchung zwar an, es besteht aber noch Forschungsbedarf, was die adäquate Gruppengrösse und Gruppierungsart angeht. Einen Einfluss auf die Wahl zwischen Kompositum versus syntaktischer Phrase bei Konkurrenzbildungen haben vor allem kontextuelle Faktoren. Die unmittelbare syntaktische Einbettung der Konstruktion spielt eine Rolle: So werden Reihenbildungen gleichartiger Attribute mit der Wahl eines Kompositums vermieden. Das Ausweichen auf eine syntaktische Phrase wiederum erlaubt die Modifikation eines ursprünglich kompositalen Bestimmungsglieds. Stil- oder Textsortenpräferenzen sind ebenfalls nachweisbar: Komposita kommen in längeren Sätzen und zusammen mit längeren Wörtern im Satz vor, beides Kennzahlen, die für spezifische Textsorten charakteristisch sind. Ausserdem ist die Verwendungskonsistenz einer einmal gewählten Form innerhalb eines Textes hoch: Es wird entweder das Kompositum oder die Kollokation benutzt. In den anteilsmässig wenigen Fällen, w o beide im selben Text Vorkommen, geschieht dies oft mit dem mutmasslichen Ziel freier stilistischer Variation, oder w enn Fremdtext (z. B. als Zitat) integriert wird. Nicht bestätigt haben sich hingegen alle Hypothesen, welche die Wirkung sprachökonomischer Kräfte nachzuweisen versuchten. Obwohl diese in vielen Gebieten der Linguistik gut belegt sind, scheinen sie bei den untersuchten Konkurrenzbildungen von Komposita und Kollokationen w enig wirksam zu sein, jedenfalls nicht stark genug, als dass sie sich gegenüber anderen Effekten (Kontext, Analogie) durchzusetzen vermöchten. 6.2 Fazit Ein lexikografisches Fazit müsste eigentlich nicht notwendigerweise hier von mir gezogen werden - es obliegt den künftigen Benutzerinnen und Benutzern des Kollokationenwörterbuchs zu entscheiden, ob und wie gut diese Art Wörterbuch in dieser konkreten Ausgestaltung ihren Bedürfnissen entspricht. Das Kollokationenwörterbuch hat sich bewusst auch die erfolgreichen englischsprachigen Kollokationenwörterbücher zum Vorbild genommen und versucht, verschiedene ihrer Ideen w ie auch Impulse aus der Forschung um Lexikografie und Kollokationen für eine deutschsprachige Version sinnvoll umzusetzen. Ein wichtiger Schritt hierbei, der von anderen deutschsprachigen Kollokationenwörterbüchern bisher nicht gegangen wurde, ist die Integration von Komposita ins Wörterbuch. Als lexikalisierte 216 Schluss Elemente des deutschen Wortschatzes sind sie - gleich den Kollokationen - feste Mehrworteinheiten, deren Kenntnis und Gebrauch für eine unmarkierte Verwendung des Deutschen unabdingbar sind. Die vorgeschlagene Artikeldarstellung mit einer Mischung aus semantischer Gruppierung der Wortverbindungen und Einteilung nach strukturellen Merkmalen w ie Wort- und Bildungsarten stellt einen Kompromiss dar, dessen Praxisnutzen sich noch weisen muss. Die strukturierte Erfassung der Wörterbuchdaten mit einer Organisation nach vornehmlich linguistischen Kriterien ist Grundlage für die Möglichkeiten einer medienunabhängigen Publikation und möglichst flexibler weiterer Nutzung der erhobenen Daten. Was die Analysen von Konkurrenzbildungen angeht, überrascht das Fehlen von Effekten, die sich auf sprachökonomische Kräfte zurückführen lassen. Der grosse Einfluss des Faktors Kontext ist insofern erstaunlich, als es sich bei den untersuchten Einheiten um lexikalisierte, nicht um Ad-hoc-Bildungen handelt. Dass Variation bei Kollokationen und Phraseologismen auftritt, ist nicht neu. Konkurrenzbildungen und der Kontexteinfluss auf die Wahl von Kompositum bzw. Kollokation weisen aber darauf hin, dass Variation auch konstruktionsübergreifend stattfindet, über die Grenzen von Morphologie und Syntax hinweg. 6.3 Ausblick Gerade dieser letzte Punkt, der auch das interne semantische Verhältnis zwischen konkurrierenden Formen anspricht, verlangt weitere Forschungsarbeit. Die durch semantische Oberkategorien der Konstituenten bedingten präferenziellen Unterschiede bei Konkurrenzbildungen, die zwar festgestellt, aber nicht wirklich angemessen eingeordnet werden konnten, sind ebenfalls ein Anknüpfungspunkt für weiterführende Arbeiten. Hier müsste auf theoretischer Ebene genauer herausgearbeitet werden, welche semantischen Merkmale, Ebenen oder Konzepte relevant sein könnten. Alternativ eignet sich dieser Bereich zur Aufstellung und Überprüfung einzelner Hypothesen, w ie dies exemplarisch vorgeführt wurde. Da sich kontextuelle Parameter als einflussreich erwiesen haben, bieten sich weitere Untersuchungen in diesem Bereich an, etwa mit komplexeren Zielstrukturen und halbmanueller Annotierung, z. B. für Präpositionalattribute. Zudem sind der Bereich der Verbverbindungen mit Konkurrenzbildung und die mehr als zweiwertigen Verbindungen in der vorliegenden Arbeit grösstenteils von der Untersuchung ausgenommen worden. Es waren eher praktische denn wissenschaftliche Gründe, die hinter dieser Ausklammerung standen. Der Fokus lag auf Konkurrenzbildungen mit lexikalisch identischen Konstituenten. Dieser Fokus liesse sich generell auf Komposita und Kollokationen ausdehnen, w ie dies die vorliegende Arbeit streckenweise praktiziert hat. Der starke Kontexteinfluss und die angenommene Analogie auf Lexemebene A u sblick 217 könnten Hinweise darauf sein, dass die fehlenden Aspekte der Sprachökonomie nicht bei Konkurrenzbildungen zu suchen wären, sondern in einem weiteren Rahmen bei der generellen Verteilung von Komposita und Kollokationen. Von lexikografischer Warte aus ist dem Kollokationenwörterbuch zu wünschen, dass es eine Popularisierung des Kollokationenbegriffs für das Deutsche einläutet, ähnlich w ie wir sie aus dem englischsprachigen Raum kennen. Ein geplantes didaktisches Beiheft mit Unterrichtsmaterialien zum Wörterbuch ist eine der bereits getroffenen Massnahmen seitens des Kollokationenwörterbuchs, um die Verwendung im Schulunterricht zu fördern. Zur angesprochenen Unsicherheit bezüglich der angemessene Darstellung von Komposita und Kollokationen gemeinsam in einem Wörterbuch (insbesondere bezüglich ihrer Gruppierung) sind derzeit zumindest im Ansatz Entwicklungen sichtbar, die Klärung bringen könnten. Viele der renommierten Online-Wörterbücher integrieren zunehmend Komposita und andere Wortbildungsprodukte w ie auch Kollokationen in ihre Artikel. Damit werden künftig neue Darstellungsvorschläge dazu kommen, allenfalls gar Darstellungskonventionen, von denen wir momentan noch weit entfernt sind. Zu diesem Aspekt sollten weitere Studien zur Wörterbuchbenutzung w ie die vom Kollokationenwörterbuch durchgeführte pilothafte Schulstudie neue Erkenntnisse liefern. Literatur Abel, Andrea, Stefanie Anstein & Stefanos Petrakis (2009): Die Initiative Korpus Südtirol. In: L i n g u i s t i k o n l i n e 38.2,5-12. Abney, Steven (1991): Parsing by Chunks. In: Berwick, Robert, Steven Abney & Carol Tenny (Hrsg.): P r i n c i p l e - B a s e d Parsing. Kluwer Academic Publishers. URL: h t t p : / / c it e s e e r x . i s t .p s u . edu/ viewdoc/ summary? doi=10.1.1.48.5297. Abney, Steven (1996): Chunk Stylehook. Techn. Ber. Seminar für Sprachwissenschaft, Universität Tübingen. Abrahams, David & Ralf W. Grosse-Kunstleve (2003): Building Hybrid Systems with Boost.Python. URL: h ttp : / / w w w .b o o stpro .co m / w ritin g / b pl.h tm l. Adler, Joseph (2010): R i n a Nutshell. Beijing: O'Reilly. Agricola, Erhard (1992): Wörter und Wendungen. Wörterbuch zum deutschen Sprachgeb r a u c h . Überarb. Neufassung der 14. Aufl. Mannheim: Dudenverlag. Ammon, Ulrich (1995): D i e deutsche Sprache in Deutschland, Österreich und der Schweiz. D a s P r o b l e m d e r n a t i o n a l e n Varietäten. Berlin, New York: de Gruyter. Ammon, Ulrich et al. (2004): Variantenwörterbuch des Deutschen. Die Standardsprache in Ö s t e r r e i c h , d e r S c h w e i z u n d Deutschland sowie in Liechtenstein, Luxemburg, Ostbelgien u n d S ü d t i r o l . Berlin: Walter de Gruyter. Anderson, Stephen R. (1992): A-Morphous Morphology. Cambridge: Cambridge University Press. Arnold, Toni (2006): The Threaded Flex/ Bison API Pattem of pysfst. URL: h ttp : / / download.gn a. o rg / p y s f s t/ p y s f s ta r c h ite c tu r e .p d f. Aronoff, Mark (1976): Word Formation in Generative Grammar. Cambridge, Mass.: MIT Press. Atkins, Sue, Jeremy Clear & Nicholas Ostler (1992): Corpus Design Criteria. In: Literary and Linguistic Computing 7.1,1-16. Auguie, Baptiste (2011): gridExtra: functions in Grid graphics. R package version 0.8.5. URL: h t t p : / / CRAN.R-proj a c t . org/ package=gridExtra. Baayen, R. Harald (1989): A Corpus-Based Approach to Morphological Productivity: StatisticalAnalysis andPsycholinguisticInterpretation. Diss. Amsterdam: Vrije Universiteit Amsterdam. Baayen, R. Harald (1992): Quantitative aspects of productivity. In: Booij, Geert & Jaap van Marie (Hrsg.): Yearbook ofMorphology 1991. Dordrecht: Kluwer, 109-149. Baayen, R. Harald (2001): Word Frequency Distributions. Dordrecht: Kluwer. Baayen, R. Harald (2003): „Probabilistic Approaches to Morphology". In: Probabilistic Linguistics. Hrsg, von Rens Bod, Jennifer Hay & Stefanie Jannedy. Cambridge, MA: MIT Press, 229-287. Baayen, R. Harald (2008): Analyzing Linguistic Data. A Practical Introduction to Statistics using R. Cambridge: Cambridge University Press. Baayen, R. Harald & Antoinette Renouf (1996): Chronicling the Times: Productive innovations in an English newspaper. In: Language 71,69-96. Bahns, Jens (1996): Kollokationen als lexikographisches Problem: Eine Analyse allgemeiner und spezieller Lernerwörterbücher des Englischen. Tübingen: Niemeyer. Barnbrook, Geoff (1996): Language and Computers. A Practical Introduction to the Computer Analysis of Language. Edinburgh: Edinburgh University Press. 220 Literatur Baroni, Marco & Silvia Bemardini (2004): BootCaT: Bootstrapping corpora and terms from the web. In: Proceedings ofLREC 2004. Baroni, Marco, Silvia Bemardini, Adriano Ferraresi & Eros Zanchetta (2009): The Wa- Cky Wide Web: A collection of very large linguistically processed Web-crawled corpora. In: Journal ofLanguage Resources and Evaluation 43.3, 209-226. Baroni, Marco & Alessandro Lenci (2010): Distributional Memory: A General Framework for Corpus-Based Semantics. In: Computational Linguistics 36.4,673-721. DOI: 10.1162/ coli_a_00016. Baroni, Marco, Johannes Matiasek & Flarald Trost (2002): Predicting the Components of German Nominal Compounds. In: Proceedings of the 15th European Conference on Artificial Intelligence (ECA12002). Amsterdam; IOS Press, 470-474. Bartsch, Sabine (2004): Structural and Functional Properties of Collocations in English: a Corpus Study ofLexical and Pragmatic Constraints on Lexical Co-occurrence. Tübingen: Narr. Barz, Irmhild (1996): Komposition und Kollokation. In: Knobloch, Clemens & Burkhard Schaeder (Hrsg.): Nomination fachsprachlich und gemeinsprachlich. Opladen: Westdeutscher Verlag, 127-146. Barz, Irmhild (2007): Wortbildung und Phraseologie. In: Burger, Harald, Dmitrij Dobrovol'skij, Peter Kühn & Neal R. Norrick (Hrsg.): Phraseology/ Phraseologie. An International Handbook of Contemporary Research / Ein internationales Handbuch der zeitgenössischen Forschung. Berlin, New York: Walter de Gmyter, 27-36. Bauer, Laurie (1978): The Grammar ofNominal Compounding. Odense: Odense University Press. Bauer, Laurie (1983): English Word-formation. Cambridge: Cambridge University Press. Bauer, Laurie (1998): When is a sequence of two nouns a compound in English. In: English Language and Linguistics 2 (1), 65-86. Bauer, Laurie (2000): Word. In: Booij, Geert, Christian Lehmann & Joachim Mugdan (Hrsg.): Morphologie. Ein internationales Handbuch zur Flexion und Wortbildung. Handbücher zur Sprach- und Kommunikationswissenschaft, Band 17.1. Berlin, New York: Walter de Gruyter, 247-257. Bauer, Laurie (2001): Morphological Productivity. Cambridge: Cambridge University Press. Bauer, Laurie (2003): Introducing Linguistic Morphology. 2nd Ed. Edinburgh: Edinburgh University Press. Bauer, Laurie (2005): Productivity: Theories. In: Stekauer, Pavol & Rochelle Lieber (Hrsg.): Handbook of Word-Formation. Dordrecht: Springer, 315-334. Bauer, Laurie (2009): Typology of Compounds. In: Lieber, Rochelle & Pavol Stekauer (Hrsg.): The Oxford Handbook of Compounding. Oxford handbooks in linguistics. Oxford: Oxford University Press, 343-356. Beesley, Kenneth R. &Lauri Karttunen (2003): Finite State Morphology. Stanford: Center for the Study of Language und Information. Bender, Oliver (2002): Untersuchung zur Tagging-Aufgabenstellung in der Sprachverarbeitung. Diplomarbeit. Aachen: Lehrstuhl für Informatik VI, RWTH Aachen. URL: http: / / www-i6.informatik.rwth-aachen.de/ ~bender/ papers/ da.pdf. Benson, Morton, Evelyn Benson & Robert Ilson (1986): The BBI Combinatory Dictionary of English: a Guide to Word Combinations. New York: John Benjamins. Bergenholtz, Henning & Inger Bergenholtz (2011): A Dictionary is a Tool, a Good Dictionary Is a Monofunctional Tool. In: Fuertes-Olivera, Pedro A. & Henning Literatur 221 Bergenholtz (Hrsg.): e-Lexicography. The internet, digital initiatives and lexicography. London und New York: Continuum, 187-207. Berger, Adam L., Vincent J. Deila Pietra & Stephen A. Deila Pietra (1996): A maximum entropy approach to natural language processing. In: Computational Linguistics 22.1, 39-71. URL: h ttp : / / p o r t a l . acm . o r g / c i t a t i o n . cfm? id = 234285 . 234289. Bernard, Lou & Syd Bauman (2011) (Hrsg.): TEIP5: Guidelines for Electronic Text Encoding and Interchange. Version 2.0.2. Last updated on 2nd February 2012. Charlottesville, Virginia: TEI Consortium. URL: h ttp : / / w w w .te i-c .o rg / G u id e lin e s / P 5 / . Best, Karl-Heinz (2002): Satzlängen im Deutschen: Verteilungen, Mittelwerte, Sprachwandel. In: Göttinger Beiträge zur Sprachwissenschaft 7, 7-31. Best, Karl-Heinz (2006): Quantitative Linguistik. EineAnnäherung. 3., stark überarbeitete und ergänzte Auflage. Göttingen: Peust & Gutschmidt Verlag. Biber, Douglas (1993): Representativeness in Corpus Design. In: Literary and Linguistic Computing 8.4, 243-257. Biber, Hanno, Evelyn Breiteneder & Karlheinz Moerth (2002): The Austrian Academy Corpus - Digital Resources and Textual Studies. In: Proceedings of the 14th Joint International Conference of the Association for Literary and Linguistic Computing and the Association for Computers and the Humanities (ALLC/ ACH 2002), Tubingen, Germany, 16-17. Bickel, Hans (2000): Das Internet als Quelle für die Variationslinguistik. In: Häcki Buhofer, Annelies (Hrsg.): Vom Umgang mit sprachlicher Variation. Soziolinguistik, Dialektologie, Methoden und Wissenschaftsgeschichte. Festschrift zum 60. Geburtstag von Heinrich Löffler. Tübingen: Francke, 111-124. Bickel, Hans, Markus Gasser, Lorenz Hofer & Christoph Schön (2009): Das Schweizer Textkorpus. In: Linguistik online 39.3,5-31. Bickel, Hans & Regula Schmidlin (2004): Ein Wörterbuch der nationalen und regionalen Varianten der deutschen Standardsprache. In: Bulletin VALS-ASLA (Vereinigungfür angewandte Linguistik in der Schweiz) 79, 99-122. Bird, Steven, Ewan Klein & Edward Loper (2009): Natural Language Processing with Python. Analyzing Text with the Natural Language Toolkit. O'Reilly Media. Bird, Steven & Edward Loper (2004): NLTK: The Natural Language Toolkit. In: Proceedings of the ACL demonstration session. Association for Computational Linguistics. Barcelona, 214-217. URL: h tt p : / / e p rin t s .in f o d iv .u n im e lb .e d u .a u / a r c h iv e / 00001448/ 01/ nltk.pdf. Bisetto, Antonietta & Sergio Scalise (2005): The Classification of Compounds. In: Lingue e Linguaggio IV (2), 319-332. Blank, Andreas (2008): Pathways of Lexicalization. In: Language Typology and Language Universals: an International Handbook. Bd. 2. de Gruyter, 1596-1608. Blumenthal, Peter, Sascha Diwersy & Jörg Mielebacher (2005): Kombinatorische Wortprofile und Profilkontraste. Berechnungsverfahren und Anwendungen. In: Zeitschriftfür romanische Philologie 121,49-83. Bock, Heiko (2007 [1991]) (Hrsg.): Basic German Vocabulary. Berlin, München: Langenscheidt. Böer, Katja, Sven Kotowski & Holden Härtl (2012): Nominal composition and the demarcation between morphology and syntax: Grammatical, variational, and cognitive factors. In: Fludemik, Monika & Benjamin Kohlmann (Hrsg.): Anglisten tag 2011 Freiburg. Proceedings. Trier: WVT Wissenschaftlicher Verlag Trier, 63-74. URL: h t t p : / / www.w v ttr i e r .d e / t op/ Proceed ings*/ ,202011_WVT.p df. 222 Literatur Böhtlingk, Otto (1887) (Hrsg.): Pänini's Grammatik. Herausgegeben, übersetzt, erläutert und mit verschiedenen Indices versehen von Otto Böhtlingk. Leipzig: H. Haessel. Booij, Geert (2009): Lexical Integrity as a Formal Universal: A Constructionist View. In: Scalise, Sergio, Elisabetta Magni & Antonietta Bisetto (Hrsg.): Universals ofLanguage Today. New York: Springer, 83-100. Booij, Geert (2010): Compound Construction: Schemas or Analogy? . In: Scalise, Sergio & Irene Vogel (Hrsg.): Cross-Disciplinary Issues in Compounding. Amsterdam Studies in the Theory and History of Linguistic Science, Series IV, Current Issues in Linguistic Theory. Amsterdam: John Benjamins, 93-107. Booij, Geert, Christian Lehmann & Joachim Mugdan (2000) (Hrsg.): Morphologie. Ein internationales Handbuch zur Flexion und Wortbildung. Handbücher zur Sprach- und Kommunikationswissenschaft, Band 17.1. Berlin, New York: Walter de Gruyter. Bopp, Stephan & Sandro Pedrazzini (2009): Morphological Analysis Using Linguistically Motivated Decomposition of Unknown Words. In: Mahlow, Cerstin & Michael Piotrowski (Hrsg.): State of the Art in Computational Morphology. Workshop on Systems and Frameworksfor Computational Morphology (SFCM 2009). Berlin, Heidelberg: Springer, 108-117. DOI: 10.1007/ 978-3-642-04131-0. Bosque, Ignacio (2004) (Hrsg.): REDES. Diccionario combinatorio del espanol contempordneo. Las palabras en su contexto. Madrid: Ediciones SM. Brinker, Klaus (2010): Linguistische Textanalyse. Eine Einführung in Grundbegriffe und Methoden. 7., durchgesehene Aufl. Berlin: Erich Schmidt Verlag. Brinton, Laurel J. & Elizabeth Closs Traugott (2005): Lexicalization and Language Change. Cambridge: Cambridge University Press. Bücking, Sebastian (2009): How do phrasal and lexical modification differ? Contrasting adjective-noun combinations in German. In: Word Structure 2 (2), 184-204. DOI: 10.3366/ E1750124509000403. Bücking, Sebastian (2010): German Nominal Compounds as Underspecified Names for Kinds. In: Olsen, Susan (Hrsg.): New Impulses in Word-Formation. Hamburg: Buske, 253-281. Burger, Harald (2004): Phraseologie - Kräuter und Rüben? Traditionen und Perspektiven der Forschung. In: Steyer, Kathrin (Hrsg.): Wortverbindungen mehr oder wenigerfest. Jahrbuch 2003 des Instituts Jur deutsche Sprache. Berlin, New York: de Gruyter, 19-40. Burger, Harald (2010): Phraseologie. Eine Einführung am Beispiel des Deutschen. 4. neu bearbeitete Auflage. Berlin: Erich Schmidt. Burger, Harald, Dmitrij Dobrovol'skij, Peter Kühn & Neal R. Norrick (2007) (Hrsg.): Phraseology/ Phraseologie. An International Handbook of Contemporary Research/ Ein internationales Handbuch der zeitgenössischen Forschung. Berlin, New York: Walter de Gruyter. Bussmann, Hadumod (1990): Lexikon der Sprachwissenschaft. 2., völlig neu bearbeitete Auflage. Stuttgart: Kroner. Carroll, Glenn & Mats Rooth (1998): Valence Induction with a Head-Lexicalized PCFG. In: Proceedings of the 3rd Conference on Empirical Methods in Natural Language Processing (EMNLP 3), Granada. Carter, Ronald (1987): Vocabulary. London: Allen und Unwin. Chen, Stanley F. & Ronald Rosenfeld (1999): A Gaussian priorfor smoothing maximum entropy models. Techn. Ber. CMU-CS-99-108. Carnegie Mellon University. Literatur 223 Church, Kenneth Ward & Patrick Hanks (1990): Word association norms, mutual information, and lexicography. In: Computational Linguistics 16.1, 22-29. Church, Kenneth, William A. Gale, Patrick Hanks & Donald Hindle (1991): Using Statistics in Lexical Analysis. In: Zemik, Uri (Hrsg.): Lexical Acquisition: Exploiting On- Line Resources to Build a Lexicon. Hillsdale, NJ: Lawrence Erlbaum Associates, 115- 164. Clematide, Simon (2008): An OLIF-based open inflectional resource and yet another morphological system for German. In: Storrer, Angelika, Alexander Geyken, Alexander Siebert& Kay-MichaelWürzner (Hrsg.): Text Resources and LexicalKnowledge. Selected Papers from the 9th Conference on Natural Language Processing, KONVENS 2008. Berlin: Mouton de Gmyter, 183-194. Coseriu, Eugenio (1967): Lexikalische Solidaritäten. In: Poetica 1, 293-303. Cowie, Anthony Paul (1978): The place of illustrative material and collocations in the design of a learner's dictionary. In: Stevens, P. (Hrsg.): In honour of A.S. Hornby. Oxford, 127-139. Cowie, Anthony Paul (2002): English Dictionariesfor Foreign Learners: a History. Oxford: Oxford University Press. Cowie, Anthony Paul, Ronald Mackin & Iain McCaig (1975-1983): Oxford Dictionary ofCurrent Idiomatic English. 2 Bde. London: Oxford University Press. Curran, James Richard (2004): From Distributional to Semantic Similarity. Diss. University of Edinburgh. Daume III, Hal (2004): Notes on CG and LM-BFGS Optimization of Logistic Regression. Paper available at h ttp : / / pub . h al3 . name # daume04cg b f gs, implementation available at h t t p : / / h a l3 .name/ megam/ . Deerwester, Scott, Susan Dumais, George Furnas, Thomas Landauer & Richard Harshman (1990): Indexing by Latent Semantic Analysis. In: Journal oftheAmerican Society for Information Science. DeReWo (2007): Korpusbasierte Wortgrundformenliste DeReWo, v-30000g-2007-12-31-0.1, mit Benutzerdokumentation. Mannheim, Deutschland: Institut für Deutsche Sprache, Programmbereich Korpuslinguistik. URL: h ttp : / / wwwl. ids-mannheim. d e / k l / projekte/ m ethoden/ derewo.html. Dice, Lee Raymond (1945): Measures of the Amount of Ecologic Association Between Species. In: Ecology 26 (3), 297-302. DOI: 10.2307/ 1932409. Dittmann, Henrik, Matej Durco, Alexander Geyken, Tobias Roth & Kai Zimmer (2012): Korpus C4: A distributed corpus of German varieties. In: Schmidt, Thomas & Kai Wörner (Hrsg.): Multilingual Corpora and Multilingual Corpus Analysis. Hamburg Studies in Multilingualism (HSM) 14. Amsterdam: Benjamins, 339-346. Domenig, Marc & Pius ten Hacken (1992): Word Manager: A System For Morphological Dictionaries. Dömges, Florian, Tibor Kiss, Antje Müller & Claudia Roch (2007): Measuring the Productivity of Determinerless PPs. In: Costello, Fintan, John Kelleher & Martin Volk (Hrsg.): Proceedings of the ACL 2007 Workshop on Prepositions. Prague, Czech Republic: Association for Computational Linguistics, 31-37. URL: h t t p : / / www. aclweb. org/ anthology/ W/ W07/ W07-1605.p df. Donalies, Elke (2004a): Grammatik des Deutschen im europäischen Vergleich. Kombinatorische Begriffsbildung. Teil I: Explizite Substantivderivation. Mannheim: Institut für Deutsche Sprache. 224 Literatur Donalies, Elke (2004b): Grammatik des Deutschen im europäischen Vergleich. Kombinatorische Begriffsbildung. Teil I: Substantivkomposition. Mannheim: Institut für Deutsche Sprache. Donalies, Elke (2005): Die Wortbildung des Deutschen: Ein Überblick. 2., überarbeitete Auflage. Studien zur Deutschen Sprache. Tübingen: Narr. Donalies, Elke (2011): Basiswissen Deutsche Wortbildung. 2., überarbeitete Auflage. Tübingen, Basel: A. Francke Verlag. Dowle, M., T. Short & S. Lianoglou (2012): data.table: Extension of data.frameforfast indexing, fast ordered joins, fast assignment, fast grouping and list columns. R package version 1.8.2. URL: http: / / C R A N .R -project.org / p ack ag e= d ata.ta b l e . Dressier, W. U. & M. Ladänyi (2000): Productivity in Word Formation: A Morphological Approach. In: Acta Einguistica Elungarica 47,103-144. Dressier, Wolfgang U. (2006): Compound Types. In: Libben, Gary & Gonia Jarema (Hrsg.): The representation uniprocessing ofcompoundwords. Oxford linguistics. New York: Oxford University Press, 23-44. Dryer, Matthew S. (1992): The Greenbergian Word Order Correlations. In: Language 68, 81-138. Duden 2 (2010): Duden. Das Stilwörterbuch. 9., völlig neu bearbeitete Auflage. Bd. 2. Mannheim u. a.: Dudenverlag. Duhme, Michael (1995): Lauschangriff und Rollkommando - "Einwortphraseologismen" in der Pressesprache am Beispiel des Nachrichtenmagazins Focus. In: Baur, Rupprecht S. & Christoph Chlosta (Hrsg.): Von der Einwortmetapher zur Satzmetapher. Bd. 6. Studien zur Phraseologie und Parömiologie. Bochum: Brockmeyer, 83- 93. Dunning, Ted (1993): Accurate Methods for the Statistics of Surprise and Coincidence. In: Computational Linguistics 19.1, 61-74. Durco, Peter (2010): Einsatz von Sketch Engine im Korpus. In: Ptashnyk, Stefania, Erla Hallsteinsdottir & Noah Bubenhofer (Hrsg.): Korpora, Web und Datenbanken: Computergestützte Methoden in der modernen Phraseologie und Lexikographie. Bd. 25. Phraseologie und Parömiologie. Baltmannsweiler: Schneider Verlag Hohengehren, 119-131. Dürscheid, Christa (2006): Einführung in die Schriftlinguistik. 3., überarbeitete und ergänzte Auflage. Göttingen: Vandenhoeck & Ruprecht. Dyer, Chris (2009): Using a maximum entropy model to build segmentation lattices for MT. In: Proceedings ofHuman Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics. NAACL '09. Boulder, Colorado: Association for Computational Linguistics, 406-414. EAGLES (1996): ELM-DE: EAGEES Specificationsfor German morphosyntax: Lexicon Specification and Classification Guidelines. URL: h t t p : / / www. i l c . c n r . it/ EAGLES96/ p u b / e a g le s/ le xic o n s/ e lm _ d e .p s .gz. Eggs, Frederike (2006): Die Grammatik von als und wie. Tübingen: Narr. Eichinger, Ludwig (2000): Deutsche Wortbildung. Tübingen: Narr. Eisenberg, Peter (2004): Grundriss der deutschen Grammatik. Band 1: Das Wort. 2., überarbeitete und aktualisierte Auflage. Stuttgart: Metzler. Ekstein, Kamil & Lubomir Krcmär (2012): Automatic LSA-Based Retrieval of Synonyms. In: Gaol, Ford Lumban (Hrsg.): Recent Progress in Data Engineering and Internet Technology. Bd. 1. Berlin und Heidelberg: Springer, 79-86. Engelberg, S., A. Holler & K. Proost (2011) (Hrsg.): Sprachliches Wissen zwischen Lexikon und Grammatik. Jahrbuch des Instituts für Deutsche Sprache 2010. Berlin: De Gruyter. Literatur 225 Evert, Stefan (2004): A simple LNRE model for random character sequences. In: P r o c e e dings of the 7eme s Journee s I n t e r n a t i o n a l e s d'Analyse Statistique des Donnees T e x t u e l l e s . Louvain-la-Neuve, Belgium, 411-422. Evert, Stefan (2005): The Statistics of Word Cooccurrences: Word Pairs and Collocations. Diss. Stuttgart: Universität Stuttgart. URL: h ttp : / / e l i b . uni - S t u t t g a r t . d e / o pu s/ volltexte/ 2005/ 2371. Evert, Stefan (2008): A lexicographic evaluation of German adjective-noun collocations. In: Proceedings of t h e L R E C Workshop Towards a Shared Task for Multiword Expressions (MWE 2008), 3 - 6 . URL: http : / / www .lrec-conf .org/ proceedings/ lrec2008/ workshops/ W20_Proceedings.pdf. Evert, Stefan & Marco Baroni (2005): Testing the extrapolation quality of word frequency models. In: Danielsson, P. & M. Wagenmakers (Hrsg.): Proceedings of Corpus Linguistics 2005. URL: h ttp : / / www . birmingham . ac . u k / Documents/ c o lle g e a rts la w / c o rp u s / c o n fe re n c e -a rc h iv e s / 2 0 0 5 -jo u rn a l/ L e x ic o n o d f/ EvertB aroni2005.p df. Evert, Stefan & Marco Baroni (2007): zipfR: Word frequency distributions in R. In: Proceedings o f the 45th A n n u a l M e e t i n g of the Association for Computational Linguistics, P o s t e r s and D e m o n s t r a t i o n s S e s s i o n . Prague, Czech Republic, 29-32. URL: http : / / d l . acm . org / f t _ gateway . cfm ? id = 1557780&type = pdf&CFID = 126085238&CFTOKEN=30 569946. Evert, Stefan & Anke Lüdeling (2001): Measuring morphological productivity: Is automatic preprocessing sufficient? . In: Rayson, P., A. Wilson, T. McEnery, A. Hardie & S. Khoja (Hrsg.): Proceedings of the Corpus Linguistics 2001 Conference. Lancaster: UCREL, 167-175. URL: http : / / purl .org / Stefan .evert / PUB / EvertLuedeling2001.pdf. Feldweg, Helmut & Erhard W. Hinrichs (1996) (Hrsg.): Lexikon und Text. Wiederverwendbare Methoden und Ressourcen zur linguistischen Erschliessung des Deutschen. Tübingen: Max Niemeyer Verlag. Feldweg, Helmut, Ralf Kibiger & Christine Thielen (1995): Zum Sprachgebrauch in deutschen Newsgruppen. In: Osnabrücker Beiträge zur Sprachtheorie 50,143-154. Fellbaum,Christiane (1998): WordNet: An ElectronicLexicalDatabase. Cambridge, Mass.: MIT Press. FiUmore, Charles J., Paul Kay & Mary Catherine O'Connor (1988): Regularity and idiomaticity in grammatical constructions: The case of let alone. In: Language 64.3,501- 538. Finkel, Jenny, Shipra Dingare, Huy Nguyen, Malvina Nissim, Christopher Manning & Gail Sinclair (2004): Exploiting context for biomedical entity recognition: from syntax to the web. In: Proceedings ofthe Internationaljoint Workshop on Natural Language Processing in Biomedicine and its Applications. JNLPBA '04. Geneva, Switzerland: Association for Computational Linguistics, 88-91. URL: h tt p : / / d l . acm . o r g / c ita tio n .c fm ? id = l567594.1567614. Firth, John Rupert (1957a): A Synopsis of Linguistic Theory 1930-1955. In: Firth, John Rupert (Hrsg.): Studies in Linguistic Analysis. Oxford: Blackwell, 1-32. Firth, John Rupert (1957b): Modes of Meaning. In: Firth, John Rupert (Hrsg.): Papers in Linguistics. 1934-1951. London: Oxford University Press, 190-215. Fleischer, Wolfgang (1992): Konvergenz und Divergenz von Wortbildung und Phraseologisierung. In: Korhonen,Jarmo (Hrsg.): Phraseologie und Wortbildung - Aspekte der Lexikonerweiterung. Tübingen: Max Niemeyer, 53-65. 226 Literatur Fleischer, Wolfgang & Irmhild Barz (1995): Wortbildung der deutschen Gegenwartssprache. 2., durchgesehene und ergänzte Auflage. Tübingen: Niemeyer. Fleiss, Joseph L. (1981): Measuring nominal scale agreement among many raters. In: Psychological Bulletin 76, 378-382. Forkl, Yves (2008): Zur digitalen Zukunft der Kollokationslexikographie. Perspektiven der Präsentation von Wissen über usuelle französische und deutsche Wortverbindungen in gedruckten und elektronischen Wörterbüchern. Diss. Erlangen: Universität Erlangen- Nürnberg. Francis, W. N. & H. Kucera (1979): Brown Corpus Manual. Techn. Ber. Providence, Rhode Island, US: Department of Linguistics, Brown University. URL: h t t p : / / ic a m e . u i b .no/ brown/ bcm.html. Fritzinger, Fabienne & Alexander Fraser (2010): How to avoid burning ducks: combining linguistic analysis and corpus statistics for German compound processing. In: Proceedings of the Joint Fifth Workshop on Statistical Machine Translation and MetricsMATR. WMT '10. Uppsala, Sweden: Association for Computational Linguistics, 224-234. URL: h ttp : / / p o r t a l . acm . o r g / c i t a t i o n . cfm? id= 1868850 . 1868884. Fuertes-Olivera, Pedro A. & Henning Bergenholtz (2011) (Hrsg.): e-Lexicography. The internet, digital initiatives and lexicography. London und New York: Continuum. Fuhrhop, Nanna (1998): Grenzfälle morphologischer Einheiten. Tübingen: Stauffenburg. Fuhrhop, Nanna (2008): Das graphematische Wort (im Deutschen): Eine erste Annäherung. In: Zeitschriftfür Sprachwissenschaft 27 (2), 189-228. Gaeta, Livio (2010): Synthetic Compounds. With special reference to German. In: Scalise, Sergio & Irene Vogel (Hrsg.): Cross-Disciplinary Issues in Compounding. Amsterdam Studies in the Theory and History of Linguistic Science, Series IV, Current Issues in Linguistic Theory. Amsterdam: John Benjamins, 219-235. Gaeta, Livio & Barbara Schiücker (2012) (Hrsg.): Das Deutsche als kompositionsfreudige Sprache. Berlin: De Gruyter. Gaeta, Livio & Amir Zeldes (2012): Deutsche Komposita zwischen Syntax und Morphologie: Ein korpusbasierter Ansatz. In: Gaeta, Livio & Barbara Schiücker (Hrsg.): Das Deutsche als kompositionsfreudige Sprache. Berlin: De Gruyter, 197-217. Gagne, Christina L. & Thomas L. Spalding (2006): Conceptual Combination: Implications for the Mental Lexicon. In: Libben, Gary & Gonia Jarema (Hrsg.): The representation and processing of compound words. Oxford linguistics. New York: Oxford University Press, 145-168. Gagne, Christina L. & Thomas L. Spalding (2010): Relational Competition during Compound Interpretation. In: Scalise, Sergio & Irene Vogel (Hrsg.): Cross-Disciplinary Issues in Compounding. Amsterdam Studies in the Theory and History of Linguistic Science, Series IV, Current Issues in Linguistic Theory. Amsterdam; John Benjamins, 287-300. Geyken, Alexander (2011): Die dynamische Verknüpfung von Kollokationen mit Korpusbelegen und deren Repräsentation im DWDS-Wörterbuch. In: Klosa, Annette & Carolin Müller-Spitzer (Hrsg.): Datenmodellierungfür IntemetwÖrterbücher. OPAL 2/ 2011. Mannheim: Institut für deutsche Sprache. Geyken, Alexander, Jörg Didakowski & Alexander Siebert (2009): Generation of Word Profiles for Large German Corpora. In: Kawaguchi, Yuji, Makoto Minegishi & Jacques Durand (Hrsg.): Corpus Analysis and Variation in Linguistics. John Benjamins, 141-157. Literatur 227 Geyken, Alexander & Thomas Hanneforth (2006): TAGH: A Complete Morphology for German based on Weighted Finite State Automata. In: Karttunen, Anssi Yli- Jyrä Lauri & Juhani Karhumäki (Hrsg.): Finite State Methods and Natural Language Processing. 5th International Workshop, FSMNLP 2005, Helsinki, Finland, September 1-2, 2005. Revised Papers. Bd. 4002. Springer, 55-66. DOI: 1 0 .1007/ 11780885_7. Geyken, Alexander, Alexey Sokirko, Ines Rehbein & Christiane Fellbaum (2004): What is the Optimal Corpus Size for the Study of Idioms? Paper delivered at the Annual Meeting of the German Linguistic Society, Mainz. Giegerich, Heinz (2004): Compound or Phrase? English noun-plus-noun constructions and the stress criterion. In: English Languages and Linguistics 8 (1), 1-24. Glück, Helmut (2010) (Hrsg.): Metzler Lexikon Sprache. 4., aktualisierte und überarbeitete Auflage. Stuttgart und Weimar: J. B. Metzler. Götz, Dieter, Günther Haensch & Hans Wellmann (1993) (Hrsg.): Langenscheidts Großwörterbuch Deutsch als Fremdsprache. Berlin und Zürich: Langenscheidt. Granger, Sylviane & Magali Paquot (2010) (Hrsg.): eLexicography in the 21st Century: New challenges, new applications. Proceedings ofeLex 2009, Louvain-la-Neuve, 22-24 October 2009. Louvain-La-Neuve: Presses universitaires de Louvain. Greenberg, Joseph Harold (1963): Some Universals of Grammar with Particular Reference to the Order of Meaningful Elements. In: Greenberg, Joseph Harold (Hrsg.): Universals ofLanguage. Cambridge, Mass.: MIT Press, 58-90. Grice, Paul (1975): Logic and Conversation. In: Cole, Peter & Jerry L. Morgan (Hrsg.): Speech Acts. Syntax and Semantics 3. New York: Academic Press, 41-58. Gries, Stefan Thomas (2009): Quantitative Corpus Linguistics with R. New York: Routledge. Guevara, Emiliano & Sergio Scalise (2009): Searching for Universals in Compounding. In: Scalise, Sergio, Elisabetta Magni & Antonietta Bisetto (Hrsg.): Universals ofLanguage Today. New York: Springer, 101-128. Haapalainen, Mariikka & Ari Majorin (1994): GERTWOL: Ein System zur automatischen Wortformerkennung deutscher Wörter. Techn. Ber. Lingsoft, Inc., 1-34. Häcki Buhofer, Annelies (2007): Phraseographie im Variantenwörterbuch des Deutschen. In: Deutschmann, Peter, Peter Grzybek, Heinrich Pfandl & Ludwig Kamicar (Hrsg.): Kritik und Phrase. Festschriftfür Wolfgang Eismann zum 65. Geburtstag. Wien: Praesens, 657-673. Häcki Buhofer, Annelies (2010): Phraseographie in einer plurizentrischen Sprache - Die Behandlung von Kollokationen. In: Mellado Blanco, Carmen et al. (Hrsg.): La fraseografia del S. XXL Berlin: Frank & Timme, 103-124. Häcki Buhofer, Annelies (2011a): Ein Kollokationenwörterbuchfür Lernende. Vortrag an der Sektionentagung der GAL in Bayreuth vom 22.-23.09.2011. Häcki Buhofer, Annelies (2011b): Lexikografie der Kollokationen zwischen Anforderungen der Theorie und der Praxis. In: Engelberg, S., A. Holler & K. Proost (Hrsg.): Sprachliches Wissen zwischen Lexikon und Grammatik. Jahrbuch des Instituts für Deutsche Sprache 2010. Berlin: De Gruyter, 505-531. Halliday, M. A. K. (1961): Categories of the theory of grammar. In: Word 17 (3), 241- 292. Handl, Susanne (2009): Towards Collocational Webs for Presenting Collocations in Learners' Dictionaries. In: Barfield, Andy & Henrik Gyllstad (Hrsg.): Researching Collocations in Another Language. Multiple Interpretations. Basingstoke: Palgrave Macmillan, 69-85. 228 Literatur Handwerker, Brigitte & Karin Madlener (2009): C h u n k s f ü r D a F . T h e o r e t i s c h e r Hinterg r u n d u n d P r o t o t y p e i n e r m u l t i m e d i a l e n L e r n u m g e b u n g ( i n k l u s i v e D V D ) . Baltmannsweiler: Schneider Verlag Hohengehren. Haspelmath, Martin (2002): U n d e r s t a n d i n g M o r p h o l o g y . London: Arnold. Hausmann, Franz Josef (1985): Kollokationen im deutschen Wörterbuch. Ein Beitrag zur Theorie des lexikographischen Beispiels. In: Bergenholtz, Henning & Joachim Mugdan (Hrsg.): L e x i k o g r a p h i e u n d G r a m m a t i k . A k t e n d e s E s s e n e r K o l l o q u i u m s z u r Grammatik im W ö r t e r b u c h , 28.-30.06.1984. Tübingen: Niemeyer, 118-129. Hausmann, Franz Josef (2004): Was sind eigentlich Kollokationen? . In: Steyer, Kathrin (Hrsg.): W o r t v e r b i n d u n g e n - m e h r o d e r w e n i g e r f e s t . J a h r b u c h 2 0 0 3 d e s I n s t i t u t s f ü r d e u t s c h e S p r a c h e . Berlin, New York: de Gruyter, 309-334. Hausser, Roland (2001): F o u n d a t i o n s o f C o m p u t a t i o n a l Linguistics: H u m a n - C o m p u t e r Communication i n N a t u r a l L a n g u a g e . 2nd rev. and ext. edition. Springer. Hay, Jennifer & R. Harald Baayen (2002): Parsing and productivity. In: Booij, Geert & Jaap van Marie (Hrsg.): Y e a r b o o k o f M o r p h o l o g y 2001. Dordrecht: Kluwer, 203-235. Hedlund, Turid, Heikki Keskustalo, Ari Pirkola, Eija Airio & Kalervo Järvelin (2001): Utaclir @ CLEF 2001 - Effects of Compound Splitting and N-Gram Techniques. In: Peters, Carol, Martin Braschler, Julio Gonzalo & Michael Kluck (Hrsg.): CLEF. Bd. 2406. Lecture Notes in Computer Science. Springer, 118-136. Heid, Ulrich (1994): On Ways Words Work Together - Research Topics in Lexical Combinatorics. In: P r o c e e d i n g s o f t h e 6 t h Euralex International Congress on Lexicography (EURALEX '94). Amsterdam, 226-257. Heid, Ulrich (2011): Korpusbasierte Beschreibung der Variation bei Kollokationen: Deutschland - Österreich - Schweiz - Südtirol. In: Engelberg, S., A. Holler & K. Proost (Hrsg.): Sprachliches Wissen zwischen Lexikon und Grammatik. Jahrbuch des Instituts für Deutsche Sprache 2010. Berlin: De Gruyter, 533-558. Heid, Ulrich, Fabienne Fritzinger, Susanne Hauptmann, Julia Weidenkaff & Marion Weller (2008): Providing Corpus Data for a Dictionary for German Juridical Phraseology. In: Storrer, Angelika, Alexander Geyken, Alexander Siebert & Kay- Michael Würzner (Hrsg.): Text Resources and Lexical Knowledge. Selected Papersfrom the 9th Conference on Natural Language Processing, KONVENS 2008. Berlin: Mouton de Gruyter, 131-144. Heine, Antje (2010): Wie viel Polylexikalität braucht ein Phraseologismus? . In: Korhonen, Jarmo, Wolfgang Mieder, Elisabeth Piirainen & Rosa Pinel (Hrsg.): EURO- PHRAS 2008. Beiträge zur internationalen Phraseologiekonferenz vom 13.-16.8.2008 in Helsinki. Helsinki: Universität Helsinki, 11-18. Henrich, Verena & Erhard Hinrichs (2010): GemEdiT - The GermaNet Editing Tool. In: Proceedings of the Seventh Conference on International Language Resources and Evaluation (LREC 2010), 2228-2235. URL: http: / / www.lrec-conf.org/ proceedings/ lrec2010/ pdf/ 264_Paper.pdf. Herbst, Thomas (1996): What are collocations: Sandy beaches or false teeth. In: English Studies 77A, 379-393. Herbst, Thomas (2009): Item-Specific Syntagmatic Relations in Dictionaries. In: Nielsen, Sandro & Sven Tarp (Hrsg.): Lexicography in the 21st Century: In Honour ofHenning Bergenholtz. Terminology and Lexicography Research and Practice 12. Amsterdam und Philadelphia: John Benjamins, 281-308. Heringer, Hans Jürgen (1984): Wortbildung: Sinn aus dem Chaos. In: Deutsche Sprache 12,1-13. Literatur 229 Hinrichs, Erhard, Helmut Feldweg, Marie Boyle-Hinrichs & Ralf Hauser (1995): ELWIS. Korpusunterstützte Entwicklung lexikalischer Wissensbasen p r die Computerlinguistik. Abschlussbericht. URL: h t t p : / / www. s f s .u n i-tu e b in g e n . d e / E lw is / a b s c h lu s s b e ric h t.p s . Hinrichs, Erhard, Marie Hinrichs & Thomas Zastrow (2010): WebLicht: Web-Based LRTServices for German. In: Proceedings oftheACL 2010 System Demonstrations, 25- 29. URL: http: / / w w w .aclw eb.org/ anthology/ P10-4005. Hohenhaus, Peter (1996): Ad-hoc-Wortbildung. Terminologie, Typologie und Theorie kreativer Wortbildung im Englischen. Frankfurt am Main u. a.: Peter Lang. Hollos, Zita (2010): Auf dem schmalen Grad zwischen Kollokationen und festen Wortverbindungen. In: Durco, Peter (Hrsg.): Feste Wortverbindungen und Lexikographie. Berlin und New York: de Gruyter, 85-96. DOI: 10.1515/ 9783110234060.85. Holz, F. & C. Biemann (2008): Unsupervised and Knowledge-Free Learning of Compound Splits and Periphrases. In: Gelbukh, A. (Hrsg.): CICLing 2008, Haifa: Proceedings of the Conference on Intelligent Text Processing and Computational Linguistics, LNCS 4919. Springer LNCS, 117-127. Hölzner, Matthias (2007): Substantivvalenz. Korpusgestützte Untersuchungen zu Argumentrealisierungen deutscher Substantive. Tübingen: Max Niemeyer. Hunston, Susan (2008): Collection Strategies and Design Decisions. In: Lüdeling, Anke & Merja Kytö (Hrsg.): Corpus Linguistics. An International Handbook. Bd. 1. Berlin, New York: Walter de Gruyter, 154-168. Ilson, Robert & Morton Benson (2010): The BBI Combinatory Dictionary of English. Your guide to collocations and grammar. 3rd edition. New York: John Benjamins. Ivanova, Kremena, Ulrich Heid, Sabine Schulte im Walde, Adam Kilgarriff & Jan Pomikalek (2008): Evaluating a German Sketch Grammar: A Case Study on Noun Phrase Case. Englisch. In: Nicoletta Calzolari (Conference Chair), Khalid Choukri Bente Maegaard Joseph Mariani Jan Odjik Stelios Piperidis Daniel Tapias (Hrsg.): P r o c e e d i n g s of t h e S i x t h I n t e r n a t i o n a l Language Resources and Evaluation (LREC'08). Marrakech, Morocco: European Language Resources Association (ELRA). URL: h t t p : / / www. lr e c c o n f . o rg / p ro c e e d in g s/ lre c 2 0 0 8 / . Jacobs, Joachim (2005): S p a t i e n . Z u m S y s t e m d e r Getrennt- und Zusammenschreibung im h e u t i g e n Deutsch. Berlin: de Gruyter. Jarema, Gonia (2006): Compound Representation and Processing: A cross-language perspective. In: Libben, Gary & Gonia Jarema (Hrsg.): The representation andprocess i n g ofcompoundwords. Oxford linguistics. New York: Oxford University Press, 45- 70. Jaynes, Edwin Thompson (1957): Information Theory and Statistical Mechanics. In: The Physical Review 106 (4), 620-630. Johnson, Keith (2008): Quantitative M e t h o d s i n L i n g u i s t i c s . Malden, Mass.: Blackwell. Jurafsky, Daniel & James H. Martin (2009): S p e e c h a n d L a n g u a g e P r o c e s s i n g . Second Edition. Pearson. Karttunen, Lauri (2011): Beyond Morphology: Pattern Matching with FST. In: Mahlow, Cerstin & Michael Piotrowski (Hrsg.): S y s t e m s a n d F r a m e w o r k s f o r C o m p u t a t i o n a l Morphology - Second International W o r k s h o p , S F C M 2011, Z u r i c h , S w i t z e r l a n d , A u g u s t 26, 2Oil. Proceedings. Bd. 100. Communications in Computer and Information Science. Springer, 1-13. DOI: 10.1007/ 978-3-642-23138-4. Karttunen, Lauri, Tamäs Gaal & Andre Kempe (1998): X e r o x F i n i t e - S t a t e T o o l. URL: h ttp : / / w w w .c is .u p e n n .e d u / ~ c is 6 3 9 / d o c s / xfs t.h tm l. Katamba, Francis (1993): Morphology. London: Macmillan. 230 Literatur Keller, Rudi (1994): Sprachwandel: Von der unsichtbaren Hand in der Sprache. Tübingen, Basel: Francke Verlag. Kempcke, Günter (2000): Wörterbuch Deutsch als Fremdsprache. De Gruyter Wörterbuch. Berlin: Walter de Gruyter. Kermes, Hannah & Ulrich Heid (2003): Using chunked corpora for the acquisition of collocations and idiomatic expressions. In: Proceedings of COMPLEX 2003. Kerzel, Martina, Jens Mittelbach & Thorsten Vitt (2009): TextGrid: Virtuelle Arbeitsumgebung für die Geisteswissenschaften. In: KI: Künstliche Intelligenz 4, 36-39. Kilgarriff, Adam (2003): Linguistic Search Engine. In: Proceedings of Corpus Linguistics. Bd. 31, 53-58. Kilgarriff, Adam (2005): Language is never, ever, ever, random. In: Corpus Linguistics and Linguistic Theory 1.2, 263-275. Kilgarriff, Adam, Pavel Rychly, Pavel Smrz & David Tugwell (2004): The Sketch Engine. In: Proceedings Euralex 2004, Lorient, France, 105-116. Kilgarriff, Adam & David Tugwell (2002): Sketching Words. In: Correard, Marie- Helene (Hrsg.): Lexicography andNatural Language Processing: A Festschrift in Honour ofB. T. S. Atkins. EURALEX, 125-137. Kjellmer, Göran (1994): A Dictionary of English Collocations. Oxford: Clarendon Press. Klein, Wolfgang (2004): Das digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts. In: Scharnhorst, Jürgen (Hrsg.): Sprachkultur und Lexikographie. Von der Forschung zur Nutzung von Wörterbüchern. Frankfurt am Main: Lang. Knobloch, Clemens & Burkhard Schaeder (2007): Das Wort. In: Hoffmann, Ludger (Hrsg.): Handbuch der deutschen Wortarten. Berlin: de Gruyter, 21-50. Koch, Peter & Wulf Oesterreicher (1994): Schriftlichkeit und Sprache. In: Günther, H. & O. Ludwig (Hrsg.): Schrift und Schriftlichkeit. Bd. 1. Handbücher für Sprach- und Kommunikationswissenschaft. Berlin, New York: de Gruyter, 587-604. Koefoed, Geert & Jaap van Marie (2000): Productivity. In: Booij, Geert, Christian Lehmann & Joachim Mugdan (Hrsg.): Morphologie. Ein internationales Handbuch zur Flexion und Wortbildung. Handbücher zur Sprach- und Kommunikationswissenschaft, Band 17.1. Berlin, New York: Walter de Gruyter, 303-311. Koehn, Philipp (2002): Europari: A Multilingual Corpusfor Evaluation ofMachine Translation. URL: h t t p : / / www. i c c s . in f .e d .a c .u k / -p k o e h n / p u b lic a tio n s / e u ro p a rl. pdf (besucht am 16.11. 2011). Koehn, Philipp (2005): Europari: A Parallel Corpus for Statistical Machine Translation. In: Conference Proceedings: The Tenth Machine Translation Summit. AAMT. Phuket, Thailand: AAMT, 79-86. URL: h ttp : / / m t-a rchiv e .info / H T S -2 0 0 5-K o eh n .p df. Koehn, Philipp & Kevin Knight (2003): Empirical methods for compound splitting. In: Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics - Volume 1. EACL '03. Budapest, Hungary: Association for Computational Linguistics, 187-193. URL: h ttp : / / p e o p le . c s a il .m it . e d u / people/ koehn/ publications/ com pound2003.pdf. Kosem, Iztok & Karmen Kosem (2011) (Hrsg.): Electronic Lexicography in the 21st Century. New Applications for New Users. Proceedings ofeLex 2Oil, Bled, 10-12 November 2Oil. Ljubljana: Trojina, Institute for Applied Slovene Studies. URL: h t t p : / / www. tro jin a .si/ e le x 2 0 1 1 / e le x 2 0 1 1 _ p ro c e e d in g s .p d f. Koskenniemi, Kimmo (1983): Two-level Morphology: A General Computational Model for Word-Form Recognition and Production. Diss. University of Helsinki. Literatur 231 Krenn, Brigitte, Stefan Evert & Heike Zinsmeister (2004): Determining intercoder agreement for a collocation identification task. In: P r o c e e d i n g s o f K O N V E N S 2 0 0 4 . Vienna, Austria. Kunze, Claudia & Lothar Lemnitzer (2002): GermaNet representation, visualization, application. In: Proceedings ofLREC 2 0 0 2 . Bd. V, 1485-1491. Kupietz, Marc, Cyril Belica, Holger Keibel & Andreas Witt (2010): The German Reference Corpus DeReKo: A Primordial Sample for Linguistic Research. In: Calzolari, Nicoletta, Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis, Mike Rosner & Daniel Tapias (Hrsg.): Proceedings ofthe International Conference on Language Resources and Evaluation, LREC 2 0 1 0 , 1 7 - 2 3 May 2 0 1 0 , Valletta, Malta. European Language Resources Association, 1848-1854. URL: h t t p : / / www. lr e c c o n f . o rg / pro ce edin g s/ lrec2 0 1 0 / p df/ 4 1 4 _ P ap er.p df. Kurimo, Mikko & Matti Varjokallio (2008): Unsupervised Morpheme Analysis Evaluation by a Comparison to a Linguistic Gold Standard - Morpho Challenge 2008. In: W o r k s h o p o f t h e C r o s s - L a n g u a g e E v a l u a t i o n F o r u m , C L E F 2 0 0 8 . Aarhus, Denmark. URL: h t t p : / / e p r i n t s .p a scal-n etw ork, org/ archive/ 00004303/ . Landauer, Thomas K. & Susan T. Dumais (1997): A solution to Plato's problem: The latent semantic analysis theory of the acquisition, induction, and representation of knowledge. In: P s y c h o l o g i c a l Review 104 (2), 211-240. Landauer, Thomas K., Peter W. Foltz & Darrell Laham (1998): Introduction to Latent Semantic Analysis. In: Discourse Processes 25, 259-284. Langer, Stefan (1998): Zur Morphologie und Semantik von Nominalkomposita. In: Schröder, Bernhard, Winfried Lenders, Wolfgang Hess & Thomas Portele (Hrsg.): Computer, Linguistik und Phonetik zwischen Sprache und Sprechen. Tagungsband der 4. K o n f e r e n z z u r Verarbeitung natürlicher Sprache - KONVENS-98. Frankfurt am Main, Berlin, Bern [etc.]: Peter Lang, 83-96. Larson, Martha, Daniel Willett, Joachim Köhler & Gerhard Rigoll (2000): Compound splitting and lexical unit recombination for improved performance of a speech recognition system for German parliamentary speeches. In: INTERSPEECH. IS- CA, 945-948. Lauterbach, Stefan (1993): Genitiv, Komposition und Präpositionalattribut - zum System nominaler Relationen im Deutschen. München: Iudicium-Verlag. Le Für, Dominique (2007) (Hrsg.): Dictionnaire d e s combinaisons de mots. Paris: Le Robert. Lehr, Andrea (1998): Kollokationen in Langenscheidts Grosswörterbuch Deutsch als Fremdsprache. In: Wiegand, Herbert Ernst (Hrsg.): P e r s p e k t i v e n d e r p ä d a g o g i s c h e n Lexikographie d e s Deutschen: Untersuchungen a n h a n d v o n „ L a n g e n s c h e i d t s G r o s s w ö r terbuch Deutsch a ls Fremdsprache". Tübingen: Niemeyer, 256-281. Lemnitzer, Lothar (2010): CLARIN European D e m o n s t r a t o r - C 4 U s e C a s e . Präsentation. URL: h ttp : / / w e b li c h t . sfs . u n i-tu e b in g e n . de/ PraesentationU seC ase . pdf (besucht am 16.11.2012). Lemnitzer, Lothar & Heike Zinsmeister (2010): K o r p u s l i n g u i s t i k . E i n e E i n f ü h r u n g . 2 . , durchgesehene und aktualisierte Auflage. Tübingen: Narr. Levenshtein, Vladimir (1966): Binary Codes Capable of Correcting Deletions, Insertions, and Reversals. In: Soviet P h y s i c s D o k l a d y 10.8, 707-710. Libben, Gary (2006): Why Study Compound Processing? An Overview of the Issues. In: Libben, Gary & Goniajarema (Hrsg.): T h e r e p r e s e n t a t i o n a n d p r o c e s s i n g o f c o m p o u n d w o r d s . Oxford linguistics. New York: Oxford University Press, 1-22. 232 Literatur Libben, Gary (2010): Compound Words, Semantic Transparency, and Morphological Transcendence. In: Olsen, Susan (Hrsg.): New Impulses in Word-Formation. Hamburg: Buske, 317-330. Libben, Gary & Gonia Jarema (2006) (Hrsg.): The r e p r e s e n t a t i o n a n d p r o c e s s i n g o f comp o u n d w o r d s . Oxford linguistics. New York: Oxford University Press. Lieber, Rochelle & Pavol Stekauer (2009a): Introduction: Status and Definition of Compounding. In: Lieber, Rochelle & Pavol Stekauer (Hrsg.): T h e O x f o r d Handb o o k o f Compounding. Oxford handbooks in linguistics. Oxford: Oxford University Press, 3-18. Lieber, Rochelle & Pavol Stekauer (2009b) (Hrsg.): The Oxford H a n d b o o k o f C o m p o u n d i n g . Oxford handbooks in linguistics. Oxford: Oxford University Press. Lo Cascio, Vincenzo (2012): Dizionario combinatorio compatto Italiano. Amsterdam: John Benjamins Publishing Company. Lorenz, Oliver (1996): Automatische Wortformerkennung für das Deutsche i m R a h m e n v o n MALAGA. Magisterarbeit. Friedrich-Alexander-Universität Erlangen-Nürnberg. Lübke, Diethard (2002): Lernwortschatz Deutsch: Deutsch - Englisch : [Wortschatz für das neue Zertifikat Deutsch], Ismaning: Hueber. Lüdeling, Anke (2001): O n Particle Verbs and Similar Constructions in German. Stanford: CSLI Publications. Lüdeling, Anke, Stefan Evert & Ulrich Heid (2000): On measuring morphological productivity. In: Zühlke, W. & E. G. Schukat-Talamazzini (Hrsg.): K O N V E N S - 2 0 0 0 Sprachkommunikation. Berlin: VDE-Verlag, 57-61. URL: http: / / purl.org/ stefan. evert/ PUB/ LuedelingEvertHeid2000.pdf. Macskassy, Sofus A., Haym Hirsh, Amnava Banerjee & Aynur A. Dayanik (2003): Converting numerical classification into text classification. In: Artificial In telligence 143, 51-77. Mahlow, Cerstin & Michael Piotrowski (2009a): A target-driven evaluation of morphological components for German. In: Clematide, Simon, Manfred Klenner & Martin Volk (Hrsg.): Searching Answers - Festschrift in Honour ofMichael Hess on the Occasion ofhis 60th Birthday. Münster: MV-Verlag, 85-99. Mahlow, Cerstin & Michael Piotrowski (2009b) (Hrsg.): State of the Art in Computational Morphology. Workshop on Systems and Frameworksfor Computational Morphology (SFCM 2009). Berlin, Heidelberg: Springer. DOI: 10.1007/ 978-3-642-04131-0. Makkai, Adam (1972): Idiom Structure in English. The Hague: Mouton. Manning, Christopher D., Prabhakar Raghavan & Hinrich Schütze (2008): Introduction to Information Retrieval. Cambridge: Cambridge University Press. Manning, Christopher D. & Hinrich Schütze (1999): Foundations of Statistical Natural Language Processing. Cambridge, London: The MIT Press. Marchand, Hans (1960): The Categories and Types of Present-day English Word-formation. A synchronic-diachronic approach. Wiesbaden: Otto Harrassowitz. Matiasek, Johannes, Marco Baroni & Harald Trost (2002): FASTY - A Multi-Lingual Approach to Text Prediction. In: Miesenberger, Klaus, Joachim Klaus & Wolfgang Zagler (Hrsg.): Computers Helping People with Special Needs. Bd. 2398. Lecture Notes in Computer Science. Berlin und Heidelberg: Springer, 165-176. DOI: 10.1007/ 3- 540-45491-8_51. McCormick, Susan M., Christian Lieske & Alexander Culum (2004): OLIFv.2: A Flexible Language Data Standard. URL: http : / / w w w.olif .net/ docvunents/ 0LIF_Term_ Joumal.pdf. Literatur 233 McEnery, Tony, Richard Xiao & Yukio Tono (2006): C o r p u s - B a s e d Language S t u d i e s . An Advanced Resource Book. London, New York: Routledge. McKeown, Kathleen R. & Dragomir R. Radev (2000): Collocations. In: Dale, Robert, Hermann Moisl & Harold Somers (Hrsg.): A Handbook of N a t u r a l L a n g u a g e Processing. New York: Marcel Dekker, 507-523. Mehl, Stephan, Hagen Langer & Martin Volk (1998): Statistische Verfahren zur Zuordnung von Präpositionalphrasen. In: Proceedings ofKONVENS-98. Bonn, Germany. DOI: 1 0 . 5 1 6 7 / u z h - 19074. Michel, Jean-Baptiste et al. (2010): Quantitative Analysis of Culture Using Millions of Digitized Books. In: S c i e n c e . URL: h t t p : / / www . s c ie n c e m a g . o r g / c o n t e n t / 3 3 1 / 6 0 1 4 / 1 7 6 . f u l l . Mithun, Marianne (2000): Incorporation. In: Booij, Geert, Christian Lehmann & Joachim Mugdan (Hrsg.): M o r p h o l o g i e . E i n internationales H a n d b u c h zur Flexion und W o r t b i l d u n g . Handbücher zur Sprach- und Kommunikationswissenschaft, Band 17.1. Berlin, New York: Walter de Gruyter, 916-928. Moehring, Jupp (2011): Kollokationen im Lernerwörterbuch - Anspruch und Wirklichkeit. In: E i n g u i s t i k o n l i n e 47.3, 33-53. Mondini, Sara, Gonia Jarema, Claudio Luzzatti, Cristina Burani & Carlo Semenzai (2002): Why is Red Cross Different from Yellow Cross? A Neuropsychological Study of Noun-Adjective Agreement within Italian Compounds. In: Brain and Lang u a g e 81, 621-634. Monz, Christof & Maarten de Rijke (2001): Shallow Morphological Analysis in Monolingual Information Retrieval for Dutch, German, and Italian. In: Peters, Carol, Martin Braschler, Julio Gonzalo & Michael Kluck (Hrsg.): CLEF. Bd. 2406. Lecture Notes in Computer Science. Springer, 262-277. Morcinek, Bettina (2012): Getrennt- und Zusammenschreibung: Wie aus syntaktischen Strukturen komplexe Verben wurden. In: Gaeta, Livio & Barbara Schiücker (Hrsg.): Das Deutsche als kompositionsfreudige Sprache. Berlin: De Gruyter, 83-100. Müller-Spitzer, Carolin, Alexander Koplenig & Antje Töpel (2011): What Makes a Good Online Dictionary? - Empirical Insights from an Interdisciplinary Research Project. In: Kosem, Iztok & Karmen Kosem (Hrsg.): Electronic Lexicography in the 21st Century. New Applications for New Users. Proceedings of eLex 2011, Bled, 10- 12 November 2011. Ljubljana: Trojina, Institute for Applied Slovene Studies, 203- 208. URL: h ttp : / / w w w .tro jin a .si/ e le x 2 0 1 1 / e le x 2 0 1 1 _ p ro c e e d in g s.p d f. Neef, Martin (2009): IE, Germanic: German. In: Lieber, Rochelle & Pavol Stekauer (Hrsg.): The Oxford Handbook ofCompounding. Oxford handbooks in linguistics. Oxford: Oxford University Press. Kap. 18,386-399. Neuroth, Heike, Felix Lohmeier & Kathleen Marie Smith (2011): TextGrid - Virtual Research Environment for the Humanities. In: The International Journal of Digital Duration 6 (2), 222-231. DOI: 1 0 .2 2 1 8 / ijd c . v 6 i2 .198. Nießen, Sonja & Hermann Ney (2000): Improving SMT quality with morpho-syntactic analysis. In: COLING '00: Proceedings of the 18th conference on Computational linguistics. Saarbrücken, Germany: Association for Computational Linguistics, 1081-1085. DOI: 10.3115/ 992730.992809. Oakes, Michael P. (1998): Statistics for Corpus Linguistics. Edinburgh: Edinburgh University Press. OCDSE (2009): Oxford Collocations Dictionary for Students of English. Hrsg. von Colin McIntosh. Hrsg. von Ben Francis. 2nd ed. Oxford: Oxford University Press. 234 Literatur Olsen, Susan (2000): Composition. In: Booij, Geert, Christian Lehmann &Joachim Mugdan (Hrsg.): Morphologie. Ein internationales Handbuch zur Flexion und Wortbildung. Handbücher zur Sprach- und Kommunikationswissenschaft, Band 17.1. Berlin, New York: Walter de Gruyter, 897-916. Olsen, Susan (2010) (Hrsg.): New Impulses in Word-Formation. Hamburg: Buske. Olsen, Susan (2012): Der Einfluss des Mentalen Lexikons auf die Interpretation von Komposita. In: Gaeta, Livio & Barbara Schiücker (Hrsg.): Das Deutsche als kompositionsfreudige Sprache. Berlin: De Gruyter, 135-170. Ortner, Hanspeter & Lorelies Ortner (1984): Zur Theorie und Praxis der Kompositaforschung. Bd. 55. Forschungsberichte des Instituts für Deutsche Sprache M annheim Tübingen: Narr. Ortner, Lorelies, Elgin Müller-Bollhagen, Hanspeter Ortner, Hans Wellmann, Maria Pümpel-Mader & Hildegard Gärtner (1991): Substantivkomposita. Berlin und New York: de Gruyter. Oxford English Dictionary (1989): The Oxford English dictionary. Hrsg, von John Andrew Simpson & Edmund S.C. Weiner. 2nd ed. Oxford: Clarendon Press. Pecina, Pavel (2005): An Extensive Empirical Study of Collocation Extraction Methods. In: Proceedings of the ACL Student Research Workshop. Ann Arbor, Michigan: Association for Computational Linguistics, 13-18. Pecina, Pavel (2010): Lexical Association Measures and Collocation Extraction. In: Language Resources and Evaluation 44,137-158. DOI: 10.1007/ sl0579-009-9101-4. Pecina, Pavel & Pavel Schlesinger (2006): Combining Association Measures for Collocation Extraction. In: Proceedings of the COLING/ ACL 2006 Main Conference Poster Sessions. Sydney: Association for Computational Linguistics, 651-658. Peters, Carol, Martin Braschler, Julio Gonzalo & Michael Kluck (2002) (Hrsg.): Evaluation of Cross-Language Information Retrieval Systems, Second Workshop of the Cross- Language Evaluation Forum, CLEF 2001, Darmstadt, Germany, September 3-4, 2001, Revised Papers. Bd. 2406. Lecture Notes in Computer Science. Springer. Pirrelli, Vito, Emiliano Guevara & Marco Baroni (2010): Computational Issues in Compound Processing. In: Scalise, Sergio & Irene Vogel (Hrsg.): Cross-Disciplinary Issues in Compounding. Amsterdam Studies in the Theory and History of Linguistic Science, Series IV, Current Issues in Linguistic Theory. Amsterdam: John Benjamins, 271-285. Poll, B. (2000): Diciondrio contextual bdsico da lingua portuguesa. Wien: Ed. Praesens. Popovic, Maja, Daniel Stein & Hermann Ney (2006): Statistical Machine Translation of German Compound Words. In: FinTAL - 5th International Conference on Natural Language Processing. Springer Verlag, 616-624. Porzig, Walter (1934): Wesenhafte Bedeutungsbeziehungen. In: Beiträge zur Geschichte der deutschen Sprache und Literatur 58, 70-97. Postal, Paul (1969): Anaphoric Islands. In: Binnick, Robert I. et al. (Hrsg.): Proceedings of the Fifth Meeting of the Chicago Linguistics Society. Bd. 5, 205-239. Pümpel-Mader, Maria, Elsbeth Gassner-Koch, Hans Wellmann & Lorelies Ortner (1992): Adjektivkomposita und Partizipialbildungen. Berlin und New York: de Gruyter. Quasthoff, Uwe (2011) (Hrsg.): Wörterbuch der Kollokationen im Deutschen. Berlin: De Gruyter. R Development Core Team (2011): R: A Language and Environmentfor Statistical Computing. ISBN 3-900051-07-0. R Foundation for Statistical Computing. Vienna, Austria. URL: h t t p : / / www. R-proj e c t . org/ . Literatur 235 Ralli, Angela (2009): IE, Hellenic: Greek. In: Lieber, Rochelle & Pavol Stekauer (Hrsg.): The Oxford Handbook ofCompounding. Oxford handbooks in linguistics. Oxford: Oxford University Press, 453-463. Rapp, Reinhard (2003): Word sense discovery based on sense descriptor dissimilarity. In: Proceedings of the Ninth Machine Translation Summit, 315-322. Rat für deutsche Rechtschreibung (2006) (Hrsg.): Deutsche Rechtschreibung. Regeln und Wörterverzeichnis. Amtliche Regelung. Tübingen: Narr. Ratnaparkhi, Adwait (1998): Maximum entropy models for natural language ambiguity resolution. Diss. Philadelphia, PA, USA. URL: h ttp : / / www . ir e s . upenn . e d u / download/ 1 echre p ort s/ 1 9 9 8 / 9 8-1 5 .p df. Reder, Anna (2006): Kollokationen in der Wortschatzarbeit. Wien: Praesens Verlag. Reder, Anna (2011): Kommen Kollokationen in Mode? Kollokationskonzepte und ihre mögliche Umsetzung in der Didaktik. In: Linguistik online 47.3,131-140. Rehm, Georg (2002): Schriftliche Mündlichkeit in der Sprache des World Wide Web. In: Ziegler, Arne & Christa Dürscheid (Hrsg.): Kommunikationsform E-Mail. Tübingen: Stauffenburg, 263-308. Rehürek, Radim & Petr Sojka (2010): Software Framework for Topic Modelling with Large Corpora. In: Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, h t t p : / / i s .muni . cz/ p u blic a tio n / 8 8 4 8 9 3 / e n . Valletta, Malta: ELRA, 45-50. Remanofsky, Ulrich (2000): Wortschatz. Zertifikatstraining Deutsch. Ismaning: Max Hueber Verlag. Roch, Claudia, Katja Keßelmeier & Antje Müller (2010): Productivity of NPN Sequences in German, English, French, and Spanish. In: Pinkal, Manfred, Ines Rehbein, Sabine Schulte im Walde & Angelika Storrer (Hrsg.): Proceedings of the 10th Conference on Natural Language Processing. Saarbrücken: universaar, 157-161. URL: h tt p : / / u n i v e rs a a r.u n i-s a a rla n d .d e / m o n o g ra p h ie n / v o llte x te / 2 0 1 0 / 1 2 / . Römer, Christine (2006): Morphologie der deutschen Sprache. Tübingen, Basel: A. Francke Verlag. Rösch, Eva (2012): Komposita und ihre lexikografische Umsetzung in einem Kollokationenwörterbuch. Universität Basel, Praktikumsbericht. Unveröffentlicht. Roth, Tobias (2005): Komposita neben der Norm. Eine korpuslinguistische Untersuchung über diskontinuierliche Nominalkomposita im Deutschen. Lizentiatsarbeit. Institut für Sprachwissenschaft, Universität Bern. Roth, Tobias (2009): Verteilte Korpusabfragesysteme. In: Linguistik online 38.2, 67-78. Roth, Tobias (2012): Using Web Corpora for the Recognition of Regional Variation in Standard German Collocations. In: Kilgarriff, Adam & Serge Sharoff (Hrsg.): Proceedings ofthe SeventhWeb as Corpus Workshop (WAC7). Pre-WWW2012 Workshop, 17 April, 2012, 31-38. URL: h ttp s : / / s ig w a c . org . u k / r a w a tta c h m e n t/ w ik i/ WAC7/ wac7-proc.pdf. Rundell, Michael (2010) (Hrsg.): Macmillan Collocations Dictionary. Oxford: Macmillan Education. Runte, Caroline (2011): Ausarbeitungen und Überlegungen des Übungsbuchs für Kollokationen. Universität Basel, Praktikumsbericht. Unveröffentlicht. Rychly, Pavel (2008): A Lexicographer-Friendly Association Score. In: Sojka, Petr & Ales Horäk (Hrsg.): Proceedings ofRecent Advances in Slavonic Natural Language Processing, RASLAN2008. Brno: Masaryk University, 6-9. URL: h t t p : / / n i p . f i .muni. c z / r a s la n / 2 0 0 8 / p a p e r s / 13.p df. 236 Literatur Rychly, Pavel, Milos Husäk, Adam Kilgarriff, Michael Rundeil & Katy McAdam (2008): GDEX: Automatically finding good dictionary examples in a corpus. In: Proceedings of the XIIIEURALEX International Congress. Barcelona: Institut Universitari de Lingüistica Aplicada, 425-432. Saif, A. M. & M. J. A. Aziz (2011): An automatic noun compound extraction from Arabic corpus. In: International Conference on Semantic Technology and Information Retrieval (STAIR), 2Oil, 224-230. DOI: 1 0 .1109/ STAIR.2011.5995793. Scalise, Sergio & Antonietta Bisetto (2009): The Classification of Compounds. In: Lieber, Rochelle & Pavol Stekauer (Hrsg.): The Oxford Handbook of Compounding. Oxford handbooks in linguistics. Oxford: Oxford University Press, 49-82. Scalise, Sergio & Antonio Fäbregas (2010): The Head in Compounding. In: Scalise, Sergio & Irene Vogel (Hrsg.): Cross-Disciplinary Issues in Compounding. Amsterdam Studies in the Theory and History of Linguistic Science, Series IV, Current Issues in Linguistic Theory. Amsterdam: John Benjamins, 109-125. Scalise, Sergio & Irene Vogel (2010a) (Hrsg.): Cross-Disciplinary Issues in Compounding. Amsterdam Studies in the Theory and History of Linguistic Science, Series IV, Current Issues in Linguistic Theory. Amsterdam: John Benjamins. Scalise, Sergio & Irene Vogel (2010b): Why compounding? . In: Scalise, Sergio & Irene Vogel (Hrsg.): Cross-Disciplinary Issues in Compounding. Amsterdam Studies in the Theory and History of Linguistic Science, Series IV, Current Issues in Linguistic Theory. Amsterdam: John Benjamins, 1-18. Scherer, Carmen (2005): Wortbildungswandel und Produktivität: Eine empirische Studie zur nominalen -er-Derivation im Deutschen. Tübingen: Niemeyer. Schiller, Anne (2005): German Compound Analysis with wfsc. In: Proceedings of the Fifth International Workshop of Finite State Methods in Natural Language Processing (FSMNLP. Schiller, Anne, Simone Teufel & Christine Thielen (1999): Guidelines fur das Tagging deutscher Textcorpora mit STTS (Kleines und grosses Tagset). URL: h t t p : / / www. im s. u n is tu ttg a rt.d e / p ro je k te / c o rp le x / T a g S e ts / s tts -1 9 9 9 .p d f. Schiücker, Barbara & Matthias Hüning (2009a): Compounds and phrases: A functional comparison between German A + N compounds and corresponding phrases. In: Italian Journal of Linguistics - Rivista di Linguistica 21 (1), 209-234. Schiücker, Barbara & Matthias Hüning (2009b): Introduction. In: Word Structure 2 (2), 149-154. DOI: 10.3366/ E1750124509000385. Schiücker, Barbara & Ingo Plag (2011): Compound or phrase? Analogy in naming. In: Lingua 121.9,1539-1551. DOI: 10.1016/ j .lin g u a .2011.04.005. Schmid, Helmut (1994): Probabilistic Part-of-Speech Tagging Using Decision Trees. In: International Conference on New Methods in Language Processing. Manchester, UK, 44- 49. Schmid, Helmut (1999): Improvements in Part-of-Speech Tagging with an Application to German. In: Armstrong, Susan, Kenneth Church, Pierre Isabelle, Sandra Manzi, Evelyne Tzoukermann & David Yarowsky (Hrsg.): Natural Language Processing Using Very Large Corpora. Dordrecht: Kluwer Academic Publishers, 13-26. Schmid, Helmut (2000): LoPar. Design and Implementation. Techn. Ber. Institut für maschinelle Sprachverarbeitung, Universität Stuttgart. Schmid, Helmut (2006): A Programming Language for Finite State Transducers. In: Yli-Jyrä, Anssi, Lauri Karttunen & Juhani Karhumäki (Hrsg.): Finite-State Methods and Natural Language Processing: 5th International Workshop, FSMNLP 2005 Helsinki. Berlin, Heidelberg: Sprinter, 308. Literatur 237 Schmid, Helmut, Ame Fitschen & Ulrich Heid (2004): SMOR: A German Computational Morphology Covering Derivation, Composition, and Inflection. In: Lino, Maria Teresa (Hrsg.): Proceedings of the IVth International Conference on Language Resources and Evaluation (LREC 2004), Paris. ELRA, 1263-1266. Schmid, Helmut & Sabine Schulte im Walde (2000): Robust German noun chunking with a probabilistic context-free grammar. In: Proceedings of the 18th conference on Computational linguistics, Saarbrücken, Germany. Morristown, NJ, USA: Association for Computational Linguistics, 726-732. DOI: 10.3115/ 992730.992751. Schmidlin, Regula (2007): Phraseological Expressions in German Standard Varieties. In: Burger, Harald, Dmitrij Dobrovol'skij, Peter Kühn & Neal R. Norrick (Hrsg.): Phraseology/ Phraseologie. An International Handbook of Contemporary Research/ Ein internationales Handbuch der zeitgenössischen Forschung. Berlin, New York: Walter de Gruyter, 551-562. Schmidlin, Regula (2011): Die Vielfalt des Deutschen: Standard und Variation. Gebrauch, Einschätzung und Kodifizierung einer plurizentrischen Sprache. Berlin und Boston: Walter de Gruyter. Schmidt, Ingrid & Carolin Müller (2001): Entwicklung eines lexikographischen Modells: Ein neuer Ansatz. In: Lemberg, Ingrid, Bernhard Schröder & Angelika Storrer (Hrsg.): Chancen und Perspektiven computergestützter Lexikographie. Hypertext, Internet und SGMI/ XM Lfür die Produktion und Publikation digitaler Wörterbücher. Tübingen: Max Niemeyer Verlag, 29-52. Schnörch, Ulrich (2002): Der zentrale Wortschatz des Deutschen: Strategien zu seiner Ermittlung, Analyse und lexikografischen Aufarbeitung. Bd. 26. Studien zur Deutschen Sprache. Tübingen: Narr. Schreuder, R. & R. H. Baayen (1997): How Complex Simplex Words Can Be. In: Journal ofMemory and Language 37,118-139. Schulte im Walde, Sabine (2000): The German Statistical Grammar Model: Development, Training and Linguistic Exploitation. Arbeitspapiere des Sonderforschungsbereichs 340 Linguistic Theory and the Foundations of Computational Linguistics 162. Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart. Schütte, Wilfried (2000): Sprache und Kommunikationsformen in Newsgroups und Mailinglisten. In: Kallmeyer, Werner (Hrsg.): Sprache und neue Medien. Jahrbuch des Instituts für deutsche Sprache 1999. Berlin, New York: de Gruyter, 142-178. Semenza, Carlo & Sara Mondini (2006): The Neuropsychology of Compound Words. In: Libben, Gary & Gonia Jarema (Hrsg.): The representation and processing of compound words. Oxford linguistics. New York: Oxford University Press, 71-95. Seretan, Violeta (2011): Syntax-Based Collocation Extraction. Dordrecht: Springer. Shannon, Claude Elwood (1948): A Mathematical Theory of Communication. In: The Bell System Technical Journal 27,379-423, 623-656. Siebenhüner, Steffen (2010): Kollokationenwörterbuch: Schulstudie. Universität Basel, Praktikumsbericht. Unveröffentlicht. Sinclair, John (1966): Beginning the Study of Lexis. In: Bazell, C. E. et al. (Hrsg.): In Memory ofj. R. Firth. London: Longman, 410-430. Sinclair, John (1991): Corpus, Concordance, Collocation. Oxford: Oxford University Press. Sinclair, John (1998): Korpustypologie. Ein Klassifikationsrahmen. In: Teubert, Wolfgang (Hrsg.): Tübingen: Narr, 111-128. Smadja, Frank A. (1991): From N-grams to collocations: an evaluation of Xtract. In: Proceedings of the 29th annual meeting on Association for Computational Linguistics. 238 Literatur Berkeley, California: Association for Computational Linguistics, 279-284. DOI: 10. 3115/ 981344.981380. Sokirko, Alexey (2005): User Manualfor DWDS/ Dialing Concordance. URL: http: / / w w w . ddc-concordance. org/ documentation. Spencer, Andrew (2005): Word-Formation and Syntax. In: Stekauer, Pavol & Rochelle Lieber (Hrsg.): Handbook of Word-Formation. Dordrecht: Springer, 73-98. Spohr, Dennis (2012): Towards a Multifunctional Lexical Resource. Design and implementation of a graph-based lexicon model. Berlin und Boston: de Gruyter. Sproat, Richard (1988): On Anaphoric Islandhood. In: Hammond, Michael & Michael Noonan (Hrsg.): Theoretical Morphology. San Diego: Academic Press, 291-301. Stekauer, Pavol (2009): Meaning Predictability of Novel Context-free Compounds. In: Lieber, Rochelle & Pavol Stekauer (Hrsg.): The Oxford Handbook of Compounding. Oxford handbooks in linguistics. Oxford: Oxford University Press, 272-297. Stekauer, Pavol & Rochelle Lieber (2005) (Hrsg.): Handbook of Word-Formation. Dordrecht: Springer. Stevens, Mary Elizabeth, Vincent E. Giuliano & Laurence B. Heilprin (1965) (Hrsg.): Proceedings of the Symposium on Statistical Association Methods For Mechanized Documentation, Washington 1964. Bd. 269. National Bureau of Standards Miscellaneous Publication. Steyer, Kathrin (2000): Usuelle Wortverbindungen des Deutschen. In: Deutsche Sprache 2/ 00,101-125. Steyer, Kathrin (2004) (Hrsg.): Wortverbindungen mehr oder wenigerfest. Jahrbuch 2003 des lnstitutsfür deutsche Sprache. Berlin, New York: de Gruyter. Steyer, Kathrin & Annelen Brunner (2009): Das UWV-Analysemodell. Eine korpusgesteuerte Methode zur linguistischen Systematisierung von Wortverbindungen. In: OPAL - Online publizierte Arbeiten zur Linguistik 1,1-41. Storjohann, Petra (2011): Komplexere Gebrauchsmuster in Lernerwörterbüchern Kritik und Perspektiven. In: Katelhön, Peggy & Julia Settinieri (Hrsg.): Wörter, Wörterbücher und L2-Erwerb. Praesens: Wien. Storrer, Angelika, Alexander Geyken, Alexander Siebert & Kay-Michael Würzner (2008) (Hrsg.): Text Resources and Lexical Knowledge. Selected Papers from the 9th Conference on Natural Language Processing, KONVENS 2008. Berlin: Mouton de Gruyter. Stymne, Sara (2008): German Compounds in Factored Statistical Machine Translation. In: GoTAL'08: Proceedings of the 6th International Conference on Natural Language Processing. Springer Verlag, 464-475. Svensen, Bo (2009): A Handbook of Lexicography: The Theory and Practice of Dictionary- Making. Cambridge: Cambridge University Press. Tarp, Sven (2008): Lexicography in the Borderland between Knowledge and Non-Knowledge: General Lexicographical Theory with Particular Focus on Learner's Lexicography. Tübingen: Niemeyer. Tarp, Sven (2011): Lexicographical and Other e-Tools for Consultation Purposes: Towards the Individualization of Needs Satisfaction. In: Fuertes-Olivera, Pedro A. & Henning Bergenholtz (Hrsg.): e-Lexicography. The internet, digital initiatives and lexicography. London und New York: Continuum, 54-70. ten Hacken, Pius (2009): Word Manager. In: Mahlow, Cerstin & Michael Piotrowski (Hrsg.): State ofthe Art in Computational Morphology. Workshop on Systems and Frameworks for Computational Morphology (SFCM 2009). Berlin, Heidelberg: Springer, 88- 107. DOI: 10.1007/ 978-3-642-04131-0. Literatur 239 Tono, Yukio (2009): Pocket Electronic Dictionaries in Japan: User Perspectives. In: Bergenholtz, Henning, Sandro Nielsen & Sven Tarp (Hrsg.): Bern: Peter Lang, 33-67. Traiser, W. (2000): SWD-Sachgruppen: Leitfaden zu ihrer Vergabe. Die Deutsche Bibliothek. Turney, Peter D. & Patrick Pantel (2010): From Frequency to Meaning: Vector Space Models of Semantics. In: Journal ofArtificial Intelligence Research 37,141-188. DOI: 1 0 .1613/ j a i r . 2934. Tutin, Agnes (2010): Le traitement des collocations dans les dictionnaires monolingues de collocations du frangais et de 1'anglais. In: Neveu, F., V. Muni Toke, J. Durand, T. Klingler, L. Mondada & S. Prevost (Hrsg.): Congres Mondial de Linguistique Frangaise - CMLF 2010. Paris: Institut de Linguistique Frangaise, 1075-1090. DOI: 10.1051/ cmlf/ 2010141. Ueyama, Motoko (2006): Evaluation of Japanese web-based reference corpora: Effects of seed selection and time interval. In: Baroni, Marco & Silvia Bernardini (Hrsg.): Wacky! Working Papers on the Web as Corpus. Bologna: Gedit, 99-126. van der Colff, Adri (1998): Die Komposita in Langenscheidts Großwörterbuch Deutsch als Fremdsprache. In: Wiegand, Herbert Ernst (Hrsg.): Perspektiven der pädagogischen Lexikographie des Deutschen: Untersuchungen anhand von „Langenscheidts Grosswörterbuch Deutsch als Fremdsprache". Tübingen: Niemeyer, 193-207. van der Pias, Lonneke & Jörg Tiedemann (2006): Finding Synonyms Using Automatic Word Alignment and Measures of Distributional Similarity. In: Proceedings of the COLLNG/ ACL 2006 Main Conference Poster Sessions. Association for Computational Linguistics, 866-873. Volk, Martin (1999): Choosing the right lemma when analysing German nouns. In: Multilinguale Corpora: Codierung, Strukturierung, Analyse. 11. Jahrestagung der Gesellschaft für Linguistische Datenverarbeitung, Frankfurt, 1999,304-310. Wahrig, Gerhard (2000): Deutsches Wörterbuch. 7., vollst. neu bearb. und aktualisierte Aufl., auf der Grundlage der neuen amtlichen Rechtschreibregeln, neu hrsg. von Renate Wahrig-Burfeind. Gütersloh: Bertelsmann Lexikon-Verlag. Wälchli, Bernhard (2005): Co-compounds and natural coordination. Oxford studies in typology and linguistic theory. New York: Oxford University Press. Wall, Larry, Tom Christiansen & Jon Orwant (2000): Programming Perl. Beijing: O'Reilly. WDG (1966-1977): Wörterbuch der deutschen Gegenwartssprache. Hrsg, von Ruth Klappenbach & Wolfgang Steinitz. Berlin: Akad.-Verl. Weeds, Julie & David Weir (2005): Co-occurrence Retrieval: a General Framework for Lexical Distributional Similarity. In: Computational Linguistics 31.4, 439-476. Wehrli, Eric (2007): Fips, a „Deep" Linguistic Multilingual Parser. In: ACL 2007 Workshop on Deep Linguistic Processing. Prague, Czech Republic, 120-127. Weller, Marion, Helena Biancafort, Anita Gojun & Ulrich Heid (2011): Terminology extraction and term variation patterns: a study of French and German data. In: Proceedings ofGSCL 2011. Hamburg. Wermter, Joachim & Udo Hahn (2006): You Can't Beat Frequency (Unless You Use Linguistic Knowledge) - A Qualitative Evaluation of Association Measures for Collocation and Term Extraction. In: ACL. The Association for Computer Linguistics. Wickham, Hadley (2007): Reshaping data with the reshape package. In: Journal of Statistical Software 21.12. URL: h ttp : / / w w w .js ta ts o ft.o rg / v 2 1 / il2 / p a p e r . 240 Literatur Wickham, Hadley (2009): g g p l o t 2 : elegant graphics for d a t a a n a l y s i s . New York: Springer. URL: h t t p : / / h a d . c o .nz/ ggplot2/ book. Wickham, Hadley (2011): The Split-Apply-Combine Strategy for Data Analysis. In: Journal of Statistical Software 40.1, 1-29. URL: h tt p : / / w w w .j s t a t s o f t .o r g / v 4 0 / iO l/ . Wiegand, Herbert Ernst (1998a) (Hrsg.): Perspektiven derpädagogischen Lexikographie des Deutschen: Untersuchungen anhand von "Langenscheidts Grosseoörterbuch Deutsch als Fremdsprache". Tübingen: Niemeyer. Wiegand, Herbert Emst (1998b): Wörterbuchforschung. Untersuchungen zur Wörterbuchbenutzung, zur Theorie, Geschichte, Kritik und Automatisierung der Lexikographie. Berlin und New York: Walter de Gruyter. Wimmer, Rainer & Franz-Josef Berens (1997) (Hrsg.): Phraseologie und Wortbildung. Tübingen: Narr. Wittgenstein, Ludwig (1953): Philosophische Untersuchungen. Philosophical Investigations. Oxford: Blackwell. Wohmann, Gabriele (1982): Jetzt und nie. Darmstadt und Neuwied: Luchterhand. Wurzel, Wolfgang LJ11rich (2000): Was ist ein Wort? . In: Thieroff, Rolf et al. (Hrsg.): Deutsche Grammatik in Theorie und Praxis. Tübingen: Niemeyer, 29-42. Ziai, Ramon & Niels Ott (2005): Web as Corpus Toolkit User's and Hacker's Manual. Manual for version pre3. Lexical Computing Ltd. Brighton, UK. URL: h tt p : / / www. d m i . de/ wac-tk/ Documentation. Zielinski, Andrea & Christian Simon (2008): Morphisto: An Open-Source Morphological Analyzer for German. In: Proceedings of the FSMNLP 2008: Seventh International Workshop on Finite-State Methods and Natural Language Processing. Ispra, Lago Maggiore, Italy, 177-184. Zielinski, Andrea, Christian Simon & Tilman Wittl (2009): Morphisto: Service-Oriented Open Source Morphology for German. In: Mahlow, Cerstin & Michael Piotrowski (Hrsg.): S t a t e o f t h e Art i n C o m p u t a t i o n a l Morphology. Workshop o n S y s t e m s a n d F r a m e w o r k s f o r C o m p u t a t i o n a l M o r p h o l o g y ( S F C M 2009). Berlin, Heidelberg: Springer, 64- 75. DOI: 10.1007/ 978-3-642-04131-0. Zinsmeister, Heike & Ulrich Heid (2004): Collocations of Complex Nouns: Evidence for Lexicalisation. In: P r o c e e d i n g s o f K O N V E N S 2004. Vienna, Austria. Zipf, George Kingsley (1949): H u m a n B e h a v i o r and the Principle o f L e a s t E f f o r t . Cambridge MA: Addison-Wesley. Zipf, George Kingsley (1965): T h e P s y c h o - B i o l o g y of Language. Cambridge MA: MIT Press. Komposita und Kollokationen machen den grössten und wichtigsten Teil der konventionalisierten Wortverbindungen der deutschen Sprache aus. Die Studie leistet die theoretisch-methodische Grundlegung ihrer gemeinsamen lexikografischen Bearbeitung und beschreibt deren praktische Umsetzung bei der Erarbeitung eines für das Deutsche innovativen kollokativen Wörterbuchs. An der Schnittstelle von Syntax und Morphologie wird darüber hinaus mit korpuslinguistischen Mitteln das direkte Konkurrenzverhältnis zwischen Komposita und Kollokationen analysiert. Basler Studien zur deutschen Sprache und Literatur 94 Roth Wortverbindungen und Verbindungen von Wörtern A. Francke Verlag Tübingen Tobias Roth Wortverbindungen und Verbindungen von Wörtern Lexikografische und distributionelle Aspekte kombinatorischer Begriffsbildung zwischen Syntax und Morphologie