Korpuslinguistik
0218
2019
978-3-8233-9226-2
978-3-8233-8226-3
Gunter Narr Verlag
Melanie Andresen
Heike Zinsmeister
Die Korpuslinguistik analysiert Sammlungen gesprochener und geschriebener Sprache, sog. Korpora, auf überwiegend quantitative Weise. In diesem Band wird anhand konkreter Beispiele gezeigt, welche Korpora des Deutschen es gibt, wie man sie durchsuchen kann und wie man bei Bedarf ein eigenes Korpus erstellt. Ein Schwerpunkt liegt dabei auf linguistischen Annotationen, die die Texte um Informationen wie Wortarten, Syntax oder Diskursphänomene ergänzen. Ein abschließendes Kapitel ist der Frage gewidmet, wie man korpuslinguistische Ergebnisse z. B. in einer germanistischen Hausarbeit präsentiert.
<?page no="0"?> wichtige Punkte für einen erfolgreichen Start ins Thema Korpuslinguistik zusammengefasst von Melanie Andresen und Heike Zinsmeister <?page no="1"?> Melanie Andresen, M.A. ist Projektmitarbeiterin am Institut für Germanistik der Universität Hamburg. Prof. Dr. Heike Zinsmeister ist Professorin für Linguistik des Deutschen mit dem Schwerpunkt Korpuslinguistik an der Universität Hamburg. <?page no="4"?> Melanie Andresen / Heike Zinsmeister Korpuslinguistik <?page no="5"?> Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. © 2019 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Internet: www.narr-starter.de www.narr-studienbuecher.de E-Mail: info@narr.de Satz: typoscript GmbH, Walddorfhäslach CPI books GmbH, Leck ISSN 2509-6036 ISBN 978-3-8233-8226-3 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. <?page no="6"?> Inhalt Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1. Korpora kennenlernen . . . . . . . . . . . . . . . . . . . . . . . 8 1.1 Annotation: Interpretationen offenlegen . . . 10 1.2 Metadaten: Datenumstände erfassen . . . . . . 12 1.3 Grundlegende Definitionen . . . . . . . . . . . . . . 15 1.4 Korpora des Deutschen . . . . . . . . . . . . . . . . . . 18 2. Korpora durchsuchen . . . . . . . . . . . . . . . . . . . . . . . 20 2.1 Suche in Korpora . . . . . . . . . . . . . . . . . . . . . . . 20 2.2 Ergebnisse lesen . . . . . . . . . . . . . . . . . . . . . . . . 25 3. Annotationen kennenlernen . . . . . . . . . . . . . . . . . . 31 3.1 Tokenisierung . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.2 Wortbezogene Annotationen . . . . . . . . . . . . . 33 3.3 Wortübergreifende Annotationen . . . . . . . . . 37 3.4 Annotationstools . . . . . . . . . . . . . . . . . . . . . . . 41 4. Annotierte Korpora durchsuchen . . . . . . . . . . . . . 45 4.1 Annotationsspannen . . . . . . . . . . . . . . . . . . . . 45 4.2 Hierarchische und relationale Annotationen 51 4.3 Beispiel Wortprofil . . . . . . . . . . . . . . . . . . . . . 53 narr-starter.de <?page no="7"?> 5. Ihr eigenes Korpus erstellen . . . . . . . . . . . . . . . . . . 59 5.1 Gegenstand kennenlernen und Fragestellung formulieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.2 Sichtung der Grundgesamtheit und Erfassung von Metadaten . . . . . . . . . . . . . . . . 61 5.3 Datenspeicherung . . . . . . . . . . . . . . . . . . . . . . 63 5.4 Ihr eigenes Korpus durchsuchen . . . . . . . . . . 63 6. Ihr eigenes Korpus annotieren . . . . . . . . . . . . . . . . 69 6.1 Automatische Annotation . . . . . . . . . . . . . . . 69 6.2 Manuelle Annotation . . . . . . . . . . . . . . . . . . . 73 7. Korpuslinguistische Ergebnisse präsentieren . . . . 78 7.1 Dokumentation . . . . . . . . . . . . . . . . . . . . . . . . 78 7.2 Zahlen präsentieren . . . . . . . . . . . . . . . . . . . . . 83 Glossar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 Sachregister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Inhalt 6 narr-starter.de <?page no="8"?> Vorwort Diese Einführung in die Korpuslinguistik richtet sich an Studierende der Linguistik und alle anderen Interessierten. Wir setzen kein Fachwissen voraus, Kenntnis linguistischer Grundbegriffe ist jedoch hilfreich. Kapitel 1 umfasst eine Einführung in korpuslinguistische Grundbegriffe, Kapitel 2 eine praktische Einführung in die Suche in Korpora. Annotationen und ihre Abfrage sind Gegenstand von Kapitel 3 und 4. Kapitel 5 und 6 befassen sich mit der Erstellung und Auswertung eigener Korpora. Kapitel 7 gibt abschließende Hinweise zur Präsentation korpuslinguistischer Studien in wissenschaftlichen Texten. Für eine Vertiefung der Inhalte empfehlen wir das Narr Studienbuch Korpuslinguistik von Lothar Lemnitzer und Heike Zinsmeister (2015, 3. Auflage). Begleitend zu diesem Buch finden Sie unter doi.org/ 10.5281/ zenodo.1410445 ein Korpus zur Textsorte Foodblog zum Download. Viele Beispiele in diesem Buch können Sie anhand dieser Daten selbst reproduzieren. Wir danken dem Kurs „ Korpuslinguistik “ (Sommersemester 2018) an der Universität Hamburg für die Hilfe bei der Erstellung des Korpus. Für die Unterstützung bei der Gestaltung dieses Buches danken wir unserer Kollegin Sarah Jablotschkin sowie Julia Schumacher und Tillmann Bub vom Narr Francke Attempto Verlag. Hamburg, im Dezember 2018 Melanie Andresen und Heike Zinsmeister narr-starter.de <?page no="9"?> 1. Korpora kennenlernen Wie lösen wir dieses schwere/ schwierige Problem? 1 Sind beide Varianten möglich oder gibt es hier einen Unterschied? Wie gehen Sie vor, wenn Sie beim Schreiben eines Textes Zweifel an einer Formulierung haben? Sie können jemand anderen fragen, vielleicht sogar eine Expertin oder einen Experten in einer Schreibberatung. Oder Sie schlagen in einem Lexikon oder einer Grammatik nach. Wahrscheinlich werden Sie in vielen Fällen einfach googeln. Eventuell finden Sie Webseiten, die Ihren Problemfall unmittelbar thematisieren, damit sind Sie quasi wieder bei der Expertenmeinung (auch wenn das Expertenniveau im Internet nicht immer nachvollziehbar ist). Spannender ist es, wenn Sie keine spezielle Seite finden, die Ihr Problem erklärt, sondern wenn Sie anhand der Trefferliste erkunden, welche Varianten andere Autoren und Autorinnen gewählt haben und vielleicht sogar eine Verwendungsregel ableiten können. Sie haben dann einen empirischen Weg gewählt, indem Sie nicht nur Ihre eigene Sprachkompetenz befragt oder etabliertes Wissen übernommen haben, sondern Ihre Erkenntnis aus Beobachtungen gewonnen haben. Dies ist sinnvoll, weil sowohl das eigene Sprachgefühl als auch überliefertes Wissen falsch sein können. Wenn man bewertet, ob ein Sprachbeispiel akzep- 1 Zur Notation: Sprachbeispiele werden kursiv gesetzt, Fachbegriffe fett und Ausdrücke, die in Suchfelder eingegeben werden müssen, werden in Courier dargestellt. Für Personenbezeichnungen verwenden wir in diesem Buch abwechselnd die weibliche und männliche Form sowie manchmal beide Formen. narr-starter.de <?page no="10"?> tabel ist oder nicht - was auch als Introspektion ( ‚ Hineinsehen ‘ ) bezeichnet wird - , kann das eigene Urteil durch Normregeln getrübt sein. Das kann dazu führen, dass man manchmal Strukturen ausschließt, die man im tatsächlichen Sprachgebrauch durchaus produziert ( „ Man sagt nicht Da hat er nichts von, sondern Davon hat er nichts. “ ). In der Korpuslinguistik wird das empirische Verfahren systematisch betrieben, nicht durch einfache Internetrecherchen, sondern auf der Grundlage informierter Abfragen von linguistischen Korpora. Diese Korpora, die der Korpuslinguistik ihren Namen geben, sind Textsammlungen, die speziell für empirische linguistische Untersuchungen zusammengestellt wurden. Sie haben gegenüber dem Internet den entscheidenden Vorteil, dass ihr Inhalt nachvollziehbar und damit überprüfbar ist. Bei Internetrecherchen bleibt die genaue Datengrundlage unbekannt, sodass man als Nutzerin nicht genau weiß, welche Webseiten von der Suchmaschine tatsächlich durchsucht werden. Das Internet ist zudem ständig im Wandel: Täglich kommen neue Webseiten hinzu, während andere geändert oder gelöscht werden. 2 Die Datengrundlage ist daher nicht stabil. Bei linguistischen Korpora besteht diese Unsicherheit nicht. 3 Man kann zumindest nachvollziehen, aus welchem Sprachmaterial ein Korpus zum Zeitpunkt der Abfrage besteht und die genaue Wortanzahl bestimmen, die der Untersuchung zugrunde liegt. 2 Über „ Internet Archive “ (web.archive.org) können viele geänderte oder gelöschte Webinhalte rekonstruiert werden, die in normalen Suchanfragen nicht mehr auftauchen. Diese und alle anderen URLs im Buch wurden im Oktober 2018 zuletzt besucht. 3 Ausnahmen sind hier sogenannte Monitorkorpora, die permanent wachsen und zum Beispiel von Verlagen genutzt werden. 1. Korpora kennenlernen 9 narr-starter.de <?page no="11"?> Dies ist wichtig, wenn man verschiedene Häufigkeiten vergleichen möchte. 1.1 Annotation: Interpretationen offenlegen Eine weitere wichtige Eigenschaft von Korpora ist, dass sie häufig linguistisch aufbereitet sind. Das bedeutet, dass die Primärdaten, also die reinen Texte, mit zusätzlichen Informationen angereichert wurden. Dadurch kann man nicht nur nach den Wörtern bzw. genauer, den konkreten Wortformen suchen, aus denen die Texte bestehen, sondern allgemeinere Anfragen stellen und vor allem auch umfassendere Ergebnisse erhalten. Beispielsweise kann es sinnvoll sein, wenn man neben der Wortform schwierig auch Treffer erhält, in denen andere Formen von schwierig wie schwierige, schwieriger und (am) schwierigsten auftreten. In Korpora wird dies erreicht, indem für jedes Textwort jeweils das Lemma hinterlegt wird. Ein Suchprogramm kann dann zusätzlich zur Textoberfläche auch noch auf der Lemmaebene suchen und findet dadurch alle Belege eines Wortes ungeachtet der tatsächlichen Wortform im Text. 4 Man kann sich vorstellen, wie hilfreich dieses Vorgehen ist, wenn man beispielsweise an die Anzahl der Wortformen des Verbs sein denkt: bin, bist, ist, sind, seid, sei, war, wäre, werde, würde, gewesen usw. 5 Gehen Sie auf die Webseite www.dwds.de. Das ist die Startseite des Projekts Digitales Wörterbuch der Deutschen Sprache. Geben Sie 4 Suchmaschinen wie Google leisten diese Art der Analyse inzwischen automatisch direkt bei der Abfrage. 5 Für eine vollständige Liste der Wortformen von sein siehe www. canoo.net/ inflection/ sein: V: sein oder www.duden.de/ rechtschrei bung/ sein_Hilfsverb. 1. Korpora kennenlernen 10 narr-starter.de <?page no="12"?> in das Suchfeld folgenden Suchausdruck genau so ein, wie er hier gezeigt wird (einschließlich der Anführungsstriche): "schweres Problem" . Die Anführungsstriche signalisieren dem System, dass die beiden Wörter unmittelbar aufeinander folgen sollen. Klicken Sie dann auf das Such-Icon und sichten Sie die Treffer im DWDS- Kernkorpus (1900 - 1999). Wie viele Treffer werden Ihnen angezeigt? Wie viele gibt es insgesamt im Korpus? Welche Wortformen wurden gefunden? Wiederholen Sie die Anfrage mit "schwieriges Problem" und vergleichen Sie die Ergebnisse. Welche Unterschiede stellen Sie in den Häufigkeiten und Verwendungsweisen der beiden Kombinationen fest? Welche Variante würden Sie für den Beispielsatz am Kapitelanfang wählen? Die Textanreicherung mit zusätzlichen Informationen heißt Annotation - sowohl der Prozess des Hinzufügens als auch die hinzugefügte Information selbst. Im Beispiel in der Aufgabe wurde der Text auf Wortebene mit lexikalischen Basisformen oder Lemmata annotiert. Eine weitere sehr gängige Annotation ist die Angabe der Wortart wie Verb oder Substantiv. Liegt diese vor, kann man zum Beispiel ermitteln, mit welchen anderen Substantiven schwierig und schwer typischerweise auftreten. Eine Korpussuche nach „ schwierig + Substantiv “ 6 findet Vorkommnisse wie schwieriges Umfeld oder schwierige Lage. Spontan können wir beurteilen, dass im Vergleich dazu schweres Umfeld seltsam klingt. Schwere Lage hingegen wäre durchaus möglich, wirkt aber nicht ganz so eingängig wie schwierige Lage. Interessant wäre jetzt eine vergleichende Anfrage für „ schwer + Substantiv “ , um zu 6 Im DWDS-Suchfenster lautet die entsprechende Anfrage: "schwierig $p=NN" , siehe Kap. 3.2. 1.1 Annotation: Interpretationen offenlegen 11 narr-starter.de <?page no="13"?> ermitteln, mit welchen Substantiven schwer typischerweise auftritt und ob es sich größtenteils um dieselben handelt wie bei schwierig. Aufschlussreich sind hier besonders Kombinationen wie die mit Umfeld, die nur mit einem der beiden Wörter auftreten. Sie weisen auf Bedeutungsunterschiede zwischen schwierig und schwer hin. Es kann sich dabei auch um mehr oder weniger feste Wendungen handeln, die in Wörterbüchern aufgeführt werden sollten, damit Deutschlernende darauf aufmerksam gemacht werden können. Neben Lemma und Wortart können je nach Forschungsinteresse der Korpusersteller beliebige andere Informationen im Text annotiert sein. Eigentlich gibt es hier keine Grenzen. Sie sollten sich allerdings klarmachen, dass Sie immer nur solche Informationen abfragen können, die über die reinen Wortformen vermittelt oder in Annotationen hinterlegt sind. Zunächst wollen wir uns noch genauer mit der Korpuszusammenstellung befassen und sehen, welche Möglichkeiten bzw. Grenzen der Nutzung von Korpora damit einhergehen. 1.2 Metadaten: Datenumstände erfassen Anders als viele Beispielsätze, die man in Grammatiken findet, haben Korpusbelege den Charme, dass sie „ aus dem Leben gegriffen “ sind, was bedeutet, dass es sich um authentische und nicht um erfundene Sprachbeispiele handelt. Authentische Beispiele eröffnen uns einen Zugriff auf die Vielfalt der Sprache und können uns gleichzeitig Hinweise auf mögliche Verwendungsbeschränkungen geben und damit auf das zugrundeliegende Sprachsystem oder relevante kommunikative Regeln. Um diese Vielfalt der Sprache systematisch ausschöpfen zu können, benötigen wir ähnlich zu den oben eingeführten 1. Korpora kennenlernen 12 narr-starter.de <?page no="14"?> linguistischen Annotationen zusätzliche Informationen zu den Texten. Wir würden gerne wissen, wer gesprochen hat bzw. wer der Autor war, wann der Text entstanden ist, in welcher Situation gesprochen wurde bzw. in welchem Kontext ein geschriebener Text veröffentlicht wurde usw. Solche zusätzlichen Informationen werden normalerweise nicht als Annotationen, sondern als Metadaten bezeichnet. Es sind „ Daten über die (Text-)Daten “ . Je nach Korpustyp können die Metadaten aber auch direkt im Text annotiert sein, beispielsweise die Angabe der Sprecher und Sprecherinnen in einem Gespräch mit mehreren Teilnehmenden. Bei geschriebenen Texten wird häufig die Textsorte als Metadatum angegeben: Je nach (situativem) Kontext und kommunikativer Funktion unterscheiden sich Texte systematisch. Es macht einen Unterschied, ob man privat eine WhatsApp-Nachricht an die WG-Mitbewohnerin schreibt oder ob man im Rahmen eines Bachelorstudiums eine linguistische Hausarbeit verfasst, die anschließend bewertet wird. Ebenso beeinflusst die kommunikative Funktion des Textes Form und Inhalt: Mit Texten wollen wir informieren, beeinflussen, versprechen, persönliche Kontakte knüpfen und pflegen und manchmal sogar neue Fakten schaffen und damit unmittelbar die Welt verändern, beispielsweise wenn wir kündigen oder jemandem eine Vollmacht erteilen (vgl. Brinker et al. 2014, 139 f.). Das DWDS-Kernkorpus (1900 - 1999), das Sie in der ersten Aufgabe kennengelernt haben, sieht nur eine sehr grobe Textsorten-Klassifikation für geschriebene Sprache vor. Es unterteilt Texte in Belletristik (d. h. unterhaltende, schöngeistige Literatur), Zeitungs-, Wissenschafts- und Gebrauchstexte. In anderen Online-Korpora können Sie auf feinere Klassifizierungen für Textsorten zugreifen. 1.2 Metadaten: Datenumstände erfassen 13 narr-starter.de <?page no="15"?> Zum Beispiel unterscheiden die Metadaten des Deutschen Referenzkorpus (DeReKo) 7 insgesamt 75 Textsorten wie Leserbrief, Literaturhinweis oder Lokales. Diese beruhen allerdings nicht auf einer linguistisch motivierten Analyse, sondern wurden automatisch aus den Zeitungstexten ermittelt. Daher liegt die Angabe auch nur bei einem Teil der Texte im DeReKo vor. Ein anschauliches Beispiel für den Einsatz von Metadaten finden Sie in einer korpuslinguistischen Studie zu den Adjektiven ewig und unendlich. Meißner (2008) untersucht für die Lesart ‚ zeitlich ohne Ende/ Grenze ‘ , ob die Textsorte einen Einfluss auf die Wortwahl hat. Auf der Basis von insgesamt 207 Belegen von ewig/ unendlich lang(e) aus dem DeReKo stellte sie fest, dass „ [ewig lang(e)] eher in den Rubriken Lokales, Sport und Vermischtes vorkam. Auch trat die Verstärkung mit ewig eher in der direkten Rede sowie im Kontext von dialektal gefärbten oder umgangssprachlichen Ausdrücken auf. Die Verstärkung mit unendlich fand sich hingegen eher in den Rubriken (sachlicher) Bericht oder Kommentar und wurde kaum in dialektal gefärbten oder umgangssprachlichen Kontexten verwendet. “ (Meißner 2008, 12) Meißner schließt aus diesen Beobachtungen, dass ewig eher in informellen Bereichen verwendet wird und unendlich eher „ in (Zeitungs-)Texten höherer Stilebene “ (Meißner 2008, 13). 7 Das Deutsche Referenzkorpus DeReKo, www.ids-mannheim.de/ kl/ projekte/ korpora/ , am Institut für Deutsche Sprache, Mannheim. 1. Korpora kennenlernen 14 narr-starter.de <?page no="16"?> 1.3 Grundlegende Definitionen Wir haben den Begriff „ das Korpus “ - mit seiner Pluralform „ Korpora “ - bereits mehrfach verwendet und hoffen, dass Sie inzwischen eine gewisse Vorstellung davon haben, was sich dahinter verbirgt. Die folgende Definition aus dem Narr Studienbuch zur Korpuslinguistik von Lemnitzer und Zinsmeister (2015) fasst die wichtigsten Aspekte zusammen: Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert, d. h. auf Rechnern gespeichert und maschinenlesbar. Die Bestandteile des Korpus bestehen aus den Daten selber sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind. (Lemnitzer/ Zinsmeister 2015, 13) In der Alltagssprache stellen wir uns unter „ Äußerungen “ meist etwas Gesprochenes vor, unter „ Text “ etwas Geschriebenes. In der Korpuslinguistik werden beide Begriffe für gesprochene und geschriebene Sprache verwendet. Damit Tonaufnahmen im korpuslinguistischen Sinn maschinenlesbar werden, müssen sie zuerst transkribiert werden, sodass sie in Textform vorliegen. Die Transkription kann phonetisch sein und möglichst viele Details der Lautsprache abbilden (z. B. durch das Internationale Phonetische Alphabet). Für viele linguistische Fragestellungen ist eine mehr oder weniger orthographische Transkription ausreichend, die neben dem Gesprächsinhalt auch Phänomene der Mündlichkeit wie Abbrüche oder besondere Pausen dokumentiert, z. B. nach dem Transkriptionssystem HIAT (Rehbein et al. 2004). 1.3 Grundlegende Definitionen 15 narr-starter.de <?page no="17"?> Korpora geben Zugriff auf authentische Sprachbeispiele und Belege für konkrete linguistische Phänomene. Sie dienen dabei als Mittel, empirische Evidenz zur Beantwortung linguistischer Fragestellungen zu finden. Korpusuntersuchungen haben oft das Ziel, diese Evidenz statistisch auszuwerten, um zu überprüfen, ob die Beobachtungen allgemeingültig sind. Statistische Auswertungen sind Ihnen sicher aus der Sozialforschung bekannt. Im bundesweiten Mikrozensus 2017 8 war zum ersten Mal eine sprachbezogene Frage enthalten, die empirisch ermitteln sollte, welche Sprache in deutschen Haushalten vorwiegend gesprochen wird. Hierfür muss zuerst festgelegt werden, was „ Haushalte “ bedeutet, z. B. auf der Basis von Registern des Einwohnermeldeamts. Aus dieser Gesamtheit wird eine repräsentative, d. h. zufällige Stichprobe gezogen und befragt. Die Ergebnisse der Stichprobe lassen dann Rückschlüsse auf die Gesamtheit der Haushalte zu. Schön wäre es, wenn Korpora ebenfalls eine zufällige Stichprobe der Sprache darstellen würden. Leider gibt es hier ein schwerwiegendes Problem: Die Grundgesamtheit des linguistischen Forschungsobjekts, beispielweise des Deutschen/ der Jugendsprache/ der Arzt- Patient-Kommunikation/ der Rechtssprache usw. ist nicht bekannt. Es ist unmöglich festzulegen, welche geschriebenen oder gesprochenen Äußerungen alle dazugehören. Ganz abgesehen von den vielen möglichen Sätzen, die zufällig noch niemand ausgesprochen oder geschrieben hat. Korpora 8 Siehe z. B. www.datenschutz-hamburg.de/ ihrrechtaufdatenschutz/ mikrozensus. Warum die Fragestellung aus linguistischer Sicht problematisch ist, erklärt Adler (2018). 1. Korpora kennenlernen 16 narr-starter.de <?page no="18"?> sind also keine zufälligen Stichproben der Sprache im statistischen Sinn. Trotzdem liefern sie Linguistinnen und Linguisten empirische Evidenz dafür, wie Sprache tatsächlich verwendet wird, und sind damit objektiver als die Betrachtung von beliebigen Einzelfällen wie der Rückgriff auf die eigene Sprachintuition. Bei der Einzelbetrachtung ist die Gefahr besonders groß, gerade auf die große Ausnahme, den statistischen Ausreißer, gestoßen zu sein und den eigentlichen Trend zu verpassen. Da die Grundgesamtheit der Sprache nicht bekannt ist, können Korpora auch nicht im statistischen Sinn repräsentativ dafür sein. In der Korpuslinguistik versucht man stattdessen, Korpora so zusammenzustellen, dass sie nach bestimmten Kriterien, von denen man annimmt, dass sie die Sprache beeinflussen, ausgewogen sind. Das DWDS-Kernkorpus (1900 - 1999) ist zum Beispiel in Bezug auf die Kriterien Entstehungszeit und Textsorte ausgewogen zusammengestellt und enthält ungefähr gleich viel Textmaterial für jede Textsorte in jeder Dekade des Jahrhunderts. Bevor wir Ihnen zum Abschluss des ersten Kapitels ein paar für uns relevante Korpora des Deutschen vorstellen, wollen wir zuerst noch die Disziplin der Korpuslinguistik definieren, in der Korpora als empirische Evidenz für linguistische Untersuchungen eingesetzt werden: Man bezeichnet als Korpuslinguistik die Beschreibung von Äußerungen natürlicher Sprache, ihrer Elemente und Strukturen, und die darauf aufbauende Theoriebildung auf der Grundlage von Analysen authentischer Texte, die in Korpora zusammengefasst sind. Korpuslinguistik ist eine wissenschaftliche Disziplin, d. h. sie muss wissenschaftlichen Prinzipien folgen und wissenschaftlichen Ansprüchen genügen. Korpusbasierte Sprachbeschreibung kann 1.3 Grundlegende Definitionen 17 narr-starter.de <?page no="19"?> verschiedenen Zwecken dienen, zum Beispiel dem Fremdsprachenunterricht, der Sprachdokumentation, der Lexikographie oder der maschinellen Sprachverarbeitung bzw. Computerlinguistik. (Lemnitzer/ Zinsmeister 2015, 14 f.) 1.4 Korpora des Deutschen Mit dem DWDS-Kernkorpus und dem DeReKo haben Sie schon zwei häufig verwendete Korpora für das Deutsche kennengelernt. Tabelle 1 fasst Metadaten für diese und eine Auswahl weiterer wichtiger Korpora zusammen, auf die wir in dieser Einführung Bezug nehmen. Als Namen verwenden wir Kurzformen. Alle Korpora stehen kostenlos zur Verfügung, wobei Sie sich teilweise zuerst anmelden müssen. Die Größe der Korpora ist entweder in Wörtern oder in sog. Token angegeben. Letztere zählen Satzzeichen als eigenständige Textbausteine mit. Tab. 1: Korpora des Deutschen Name Informationen zum Korpus DECOW German web corpus by COW - Corpora from the Web (Bildhauer/ Schäfer 2012, Schäfer 2015); automatisch aus dem Internet heruntergeladen; 2011 und 2014; DECOW16A: mehr als 15 Milliarden Wörter in mehr als 17 Millionen Texten. Online: www.webcorpora.org 9 9 Kurz vor Drucklegung dieses Buches wurde der Zugang zu DECOW für Studierende leider eingeschränkt. 1. Korpora kennenlernen 18 narr-starter.de <?page no="20"?> Name Informationen zum Korpus DeReKo Deutsches Referenzkorpus/ Archiv der Korpora geschriebener Gegenwartssprache (Kupietz et al. 2010); Zeitungstexte, belletristische, wissenschaftliche und populärwissenschaftliche Texte u. a.; 1700 bis 2017 (schwerpunktmäßig seit 1950), Version 2018- I: 42 Milliarden Wörter. Online über COSMAS II web : 10 www.idsmannheim.de/ cosmas2 DWDS DWDS-Kernkorpus (1900 - 1999) (Geyken 2007); Belletristik, Zeitung, Wissenschaft, Gebrauchsliteratur; 1900 - 1999; Version 3: ca. 100 Mio. Wörter in 79 116 Texten. Online: www.dwds.de Falko Fehlerannotiertes Lernerkorpus für Deutsch als Fremdsprache (Reznicek et al. 2012); Texte von DAF-Lernenden, Vergleichs- und Vorlagentexte; 2004 - 2011; Version 2.0: mehr als 381 000 Token, davon ca. 280 000 Token in 551 Texten von Lernenden. Online über ANNIS: korpling.german.hu-berlin.de/ falko-suche FOLK Forschungs- und Lehrkorpus Gesprochenes Deutsch (Schmidt 2014); Gesprächsdaten (Ton, Video, Transkripte) aus unterschiedlichsten Bereichen (Arbeit, Freizeit, Bildung, Dienstleistungen usw.); seit 2008; Version 2.10: Transkripte: ca. 2 Mio. Wörter in 259 Gesprächen (279 Stunden, 34 Minuten). Online: dgd.ids-mannheim.de PCC Potsdam Commentary Corpus; Zeitungskommentare (Märkische Allgemeine Zeitung) (Stede 2016); 2001 - 2002; Version 2.0: ca. 32 000 Wörter in 175 Texten. Online über ANNIS: PCC2 (zwei Texte aus PCC) 11 , PCC2.1 (Vollkorpus); korpling.org/ annis3/ ReM Referenzkorpus Mittelhochdeutsch (Klein/ Dipper 2016); Vers-, Prosa- und Urkundentexte; 1050 - 1350; Version 1.0: ca. 2 Mio. Wörter in 394 Texten. Online: www.linguistics.rub.de/ rem TüBa Tübinger Baumbank des Deutschen/ Zeitungskorpus (TüBa-D/ Z) (Telljohann et al. 2017); Zeitungstexte (die tageszeitung); 1989 - 1999; Version 11: ca. 2 Mio. Token in 3816 Texten. Online über TüNDRA: weblicht.sfs.uni-tuebingen.de/ weblichtwiki/ in dex.php/ Tundra 10 COSMAS I/ II (Corpus Search, Management and Analysis System), © 1991 - 2016 Institut für Deutsche Sprache, Mannheim. 11 Zum PCC2 siehe www.corpus-tools.org/ annis/ corpora.html. 1.4 Korpora des Deutschen 19 narr-starter.de <?page no="21"?> 2. Korpora durchsuchen Im letzten Kapitel haben wir einige Korpora des Deutschen vorgestellt, die kostenlos verfügbar sind. In diesem Kapitel geht es darum, wie man diese Korpora der eigenen Fragestellung entsprechend durchsuchen und die Ergebnisse lesen kann. 2.1 Suche in Korpora Zunächst ein allgemeiner Hinweis vorab: Die öffentlichen Korpora bekommen wir als Nutzerinnen und Nutzer normalerweise nicht oder nicht nur als Dateien zum Download, sondern sie sind in der Regel online verfügbar und kommen mit einer bestimmten Suchoberfläche. Diese Suchoberflächen haben jeweils ihre eigene Suchsyntax. Unter Suchsyntax verstehen wir, analog zu natürlichen Sprachen, ein Regelsystem, das festlegt, in welchem logischen Zusammenhang zwei Suchausdrücke stehen, zum Beispiel ob zwei Wörter direkt aufeinanderfolgen oder in einem syntaktischen Dominanzverhältnis stehen sollen. Die Suchsyntax unterscheidet sich von System zu System. Auch wenn die wesentlichen Funktionen meist die gleichen sind und ähnlich realisiert werden, lohnt sich unbedingt ein Blick in die Beschreibung der Suchsyntax (z. B. in der Tool-Hilfe), wenn man mit einer neuen Korpusoberfläche arbeitet. narr-starter.de <?page no="22"?> Einfache Suchausdrücke Im einfachsten Fall suchen wir in einem Korpus nach einem bestimmten Wort, weil wir uns für seine Verwendung interessieren. Doch bei flektierenden Sprachen wie dem Deutschen stellt sich schon hier die Frage nach der Unterscheidung von Wortform und Lemma, zu dem unterschiedliche Wortformen gehören können. Interessieren wir uns für die Verwendung des Wortes protestieren, möchten wir nicht nur Treffer zum Infinitiv oder im Plural, sondern auch alle anderen Flexionsformen finden. Hier empfiehlt sich gleich der erste Blick in die Suchsyntax: Beim DWDS etwa wird bei einer Suche nach protestieren nach allen Formen des Lemmas gesucht, bei COSMAS II (der Suchoberfläche für das DeReKo, s. Tabelle 1) hingegen nur nach der Wortform: Tab. 2: Suchanfragen beim DWDS und bei COSMAS II im Vergleich Wortform Lemma DWDS @protestieren protestieren COSMAS II protestieren &protestieren Reguläre Ausdrücke Häufig wollen wir nicht nur nach spezifischen Wörtern suchen, sondern nach ganzen Gruppen von Wörtern, die alle einem gemeinsamen Muster entsprechen, für das wir uns interessieren. Teilweise helfen uns hier Annotationen: Um alle Wortformen von Hund zu finden, können wir nach dem entsprechenden Lemma suchen. Oft stehen aber keine Lemma-Annotationen zur Verfügung oder wir interessieren uns für ein ganz anderes Muster. 2.1 Suche in Korpora 21 narr-starter.de <?page no="23"?> Hierfür kann bei vielen Suchoberflächen auf reguläre Ausdrücke 12 zurückgegriffen werden. Möchten wir zum Beispiel nach dem Wort Hund in Singular und Plural suchen, können wir durch das ? markieren, dass das letzte Zeichen e optional ist: Suchanfrage: Hunde? mögliche Treffer: Hund, Hunde Tabelle 3 gibt eine Übersicht über die gängigsten regulären Ausdrücke und Anwendungsbeispiele. Tab. 3: Wichtige reguläre Ausdrücke und Beispiele RegEx Beschreibung Suchausdruck Ergebnisse . ein beliebiges Zeichen (i. d. R. keine Zeilenumbrüche) H.nd Hand, Hund, auch: Hßnd [ ] Auswahl möglicher Werte V[oö]gel Vogel, Vögel ? Element davor kommt einmal oder gar nicht vor Hunde? Hund, Hunde + Element davor kommt einmal oder mehrmals vor Hallo+ Hallo, Halloo, Hallooo * Element davor kommt gar nicht, einmal oder mehrmals vor Hallo! * Hallo, Hallo! , Hallo! ! , Hallo! ! ! ! | oder Zauber(er|in) Zauberer, Zauberin \ Element danach ist nicht als RegEx gemeint ( „ escapen “ ) Dr\. Dr. Je nach Suchoberfläche kann die genaue Syntax der regulären Ausdrücke variieren. Am besten prüfen Sie in der Beschrei- 12 Oft wird hierfür als Abkürzung RegEx für das englische regular expression verwendet. 2. Korpora durchsuchen 22 narr-starter.de <?page no="24"?> bung der Suchsyntax, ob die Suchoberfläche reguläre Ausdrücke unterstützt oder ähnliche Operatoren zur Verfügung stellt. Um mit regulären Ausdrücken zu experimentieren und sie gezielt zu testen, empfehlen wir die Seite www. regex101.com. Suchausdrücke optimieren Wenn wir nach komplexen Mustern suchen, ist es häufig gar nicht so einfach, einen Suchausdruck zu erstellen, der genau zu dem Phänomen passt, das wir untersuchen wollen. Bei der Bewertung eines Suchausdrucks unterscheidet man zwei Arten von Fehlern: Wenn ein Suchausdruck etwas nicht findet, was er eigentlich finden soll, erzeugt das Falsch- Negative ( ‚ false negatives ‘ ). Wenn ein Suchausdruck etwas findet, was er eigentlich nicht finden soll, erzeugt er Falsch- Positive ( ‚ false positives ‘ ) (s. Tabelle 4). Tab. 4: Fehlertypen bei der Bewertung von Suchausdrücken soll gefunden werden soll nicht gefunden werden wird gefunden ü Falsch-Positive wird nicht gefunden Falsch-Negative ü Natürlich möchten wir beide Fehlergruppen so klein wie möglich halten. In der Praxis führt jedoch die Reduktion der einen Fehlergruppe häufig zur Vergrößerung der anderen Fehlergruppe, es gibt einen sog. Trade-off. Die vollständige Vermeidung beider Fehlergruppen ist deshalb oft nicht erreichbar. Um trotzdem zu einem möglichst guten Ergebnis zu kommen, müssen wir folgende Überlegung anstellen: Welche Konsequenzen haben die beiden Fehlergruppen jeweils? Was können wir mit Blick auf unsere Fragestellung 2.1 Suche in Korpora 23 narr-starter.de <?page no="25"?> eher in Kauf nehmen? Hierbei sollte ein Unterschied zwischen den Fehlertypen besonders berücksichtigt werden: Falsch-Positive fallen (potentiell) bei der Sichtung der Treffer auf, Falsch-Negative hingegen werden ja gerade nicht gefunden und müssen durch sorgfältige Überlegung und das Vergleichen unterschiedlicher Suchausdrücke identifiziert werden. Es kann außerdem hilfreich sein, zu diesem Zweck einen Textauszug manuell nach dem gewünschten Phänomen zu durchsuchen. Probieren Sie die folgenden Möglichkeiten aus, über COSMAS II alle Verwendungen des Verbs diskutieren im DeReKo zu finden: Suchausdruck Ergebnis diskutieren Viele Falsch-Negative: diskutiert, diskutierte, diskutierten werden nicht gefunden. diskutier* Viele Falsch-Positive: Diskutier-Kanzler, Diskutier-Klub, Diskutier-Laune etc. werden auch gefunden. &diskutieren Bringt das gewünschte Ergebnis. Viele linguistische Anfragen, für die wir uns komplizierte Muster überlegen müssen, können viel einfacher abgefragt werden, wenn wir in einem annotierten Korpus suchen, in dem beispielsweise schon Wortarten und syntaktische Strukturen ausgezeichnet sind. Mehr dazu erfahren Sie in Kap. 3 und 4. Metadaten Bisher unberücksichtigt gelassen haben wir die Metadaten des Korpus, obwohl sie eine sehr wichtige Rolle spielen. Schließlich müssen wir für die Interpretation der Ergebnisse unbedingt wissen, in was für Daten wir eigentlich gesucht haben. 2. Korpora durchsuchen 24 narr-starter.de <?page no="26"?> Dazu gehört zunächst, sich genau über das Korpus zu informieren, was über die begleitenden Webseiten in der Regel möglich ist. Welche Textsorten sind im Korpus vertreten? Aus welcher Zeit, welcher Region stammen die Daten? Wie sind die Texte erhoben worden? All diese Fragen sind essentiell für die Entscheidung, ob ein Korpus für unsere aktuelle Fragestellung geeignet ist oder nicht. Bei COSMAS II besteht zusätzlich die Möglichkeit, aus den verfügbaren Texten ein eigenes Korpus zusammenzustellen, das genau zu den eigenen Bedarfen passt. Je nach Plattform kann man auch bei der Suchanfrage selbst filtern. Sucht man z. B. im DWDS-Kernkorpus (1900 - 1999), kann man in der Suchmaske mithilfe von Häkchen festlegen, in welchen der vier Textsorten Belletristik, Wissenschaft, Gebrauchsliteratur und Zeitung und in welchem Zeitraum man suchen möchte. Außerdem kann man sich nach Absenden der Suchanfrage die Metadaten für jeden einzelnen Treffer anzeigen lassen. 2.2 Ergebnisse lesen Wir haben einen passenden Suchausdrück für das Phänomen, das uns interessiert, gefunden. Wie sehen die Ergebnisse einer solchen Anfrage aus? Konkordanzen Ergebnisse von Suchanfragen können auf unterschiedliche Weise dargestellt werden. In der Regel wird eine Konkordanz oder KWiC-Ansicht ( ‚ keyword in context ‘ , siehe Abbildung 1) angeboten. Hier steht in jeder Zeile ein Korpustreffer. Das Suchwort steht hervorgehoben in der Mitte, 2.2 Ergebnisse lesen 25 narr-starter.de <?page no="27"?> rechts und links davon sehen wir den unmittelbaren Kontext des Wortes. Hierüber kann man sich einen guten ersten Eindruck über die Verwendungskontexte verschaffen, insbesondere, wenn die Möglichkeit besteht, nach den Wörtern links und rechts vom Suchwort zu sortieren, sodass hochfrequente Kontexte schnell erkennbar werden. Abb. 1: KWiC-Ansicht zum Ergebnis der Suche nach als im DWDS-Kernkorpus (1900 - 1999) Je nach Fragestellung ist dieser stark reduzierte Kontext eventuell nicht ausreichend. Für diesen Fall bieten die meisten Oberflächen zusätzlich eine Volltext-Ansicht an, in der ein größerer Kontext des Treffers angezeigt wird. Achtung: Ein tatsächlicher Volltext im Sinne des vollständigen Quellentextes ist bei vielen öffentlichen Korpora aus Gründen des Urheberrechts leider nicht möglich. Gehen Sie auf www.dwds.de, klicken Sie auf „ Textkorpora “ und suchen Sie nach dem Wort als. Welche Verwendungen des Wortes können Sie unterscheiden? Wie viel Kontext brauchen Sie jeweils, um den Verwendungstyp bestimmen zu können? Relative Frequenzen Neben der Frage nach den Verwendungsweisen eines Wortes drehen sich korpuslinguistische Fragestellungen oft um den 2. Korpora durchsuchen 26 narr-starter.de <?page no="28"?> Vergleich von Frequenzen (Häufigkeiten). Wir wollen beispielsweise wissen: Ist das Wort diskutieren in der Wissenschaftssprache häufiger als in der Zeitungssprache? Oder: Wird das Wort SMS seit dem Vormarsch von internetbasierten Messengern seltener verwendet? Um letztere Frage zu beantworten, können wir für jedes Jahr seit 1990 die Frequenz von SMS ermitteln und vergleichen. Hier ist es essentiell wichtig, zwischen absoluten und relativen Frequenzen zu unterscheiden. Suchen wir etwa über COSMAS II im DeReKo 13 nach SMS , bekommen wir zunächst die absoluten Trefferzahlen (Abbildung 2). Diese scheinen die oben aufgestellte These zu belegen: Abb. 2: Absolute Frequenzen von SMS im DeReKo (Darstellung in MS Excel) Hierbei wurde jedoch eine zentrale Frage außer Acht gelassen: Wie viele Texte bzw. Wörter umfasst das insgesamt durchsuchte Korpus in den jeweiligen Jahren? Schließlich ist es nur logisch, dass in einem größeren Korpus auch mehr 13 Genauer: Im Korpus W-öffentlich, das unter dem Archiv der geschriebenen Sprache (W) zu finden ist. 2.2 Ergebnisse lesen 27 narr-starter.de <?page no="29"?> Treffer gefunden werden. Im DeReKo sind die Jahrgänge sehr unterschiedlich groß. Um diese Unterschiede auszugleichen, verwenden wir relative Frequenzen. Eine bekannte Form der relativen Frequenzen sind Prozente. Da sich dabei für Wörter in der Sprache aber sehr kleine Zahlen ergeben, geben wir hier die Frequenz pro einer Million Wörter an. Abbildung 3 zeigt, dass ein Rückgang der Verwendung von SMS bis zum Jahr 2015 im DeReKo nicht nachweisbar ist. Abb. 3: Relative Frequenzen von SMS im DeReKo (pro 1 Mio. Wörter, Darstellung in MS Excel) Die Berechnung der relativen Frequenz erfolgt folgendermaßen: Wir teilen die Anzahl der Treffer durch die Anzahl der insgesamt durchsuchten Wortformen (=die Korpusgröße). Zusätzlich kann mit einem Vielfachen von 10 multipliziert werden, um schwer lesbare Zahlen mit sehr vielen Nullen nach dem Komma zu vermeiden. Dieser Faktor muss angegeben werden und für alle verglichenen Zahlen der gleiche sein (im SMS-Beispiel 1 Mio.). 2. Korpora durchsuchen 28 narr-starter.de <?page no="30"?> Kookkurrenz Korpuslinguistinnen interessieren sich nicht nur für die Verwendung und Frequenz von Wörtern, sondern auch dafür, welche Wörter besonders häufig gemeinsam auftreten. Begrifflich ist dabei meist von Kookkurrenzen oder Kollokationen die Rede. Kookkurrenz ist dabei ein sehr deskriptiver Begriff, der zunächst nur das gemeinsame Vorkommen meint. Kollokation ist demgegenüber stärker mit linguistischer Theorie aufgeladen und wird in unterschiedlichen Bedeutungen verwendet (vgl. Evert 2008). Grundsätzlich müssen für die Berechnung von Kookkurrenzen zwei Entscheidungen getroffen werden: 1. Was verstehen wir unter „ gemeinsam auftreten “ ? Die restriktivste Sicht würde nur Wörter betrachten, die im Satz direkt nebeneinander stehen. Oft wird stattdessen ein Fenster von z. B. fünf Wörtern vor und nach dem Zielwort angesetzt. Je nach Forschungsziel kann aber auch ein ganzer Satz oder sogar ein ganzes Dokument als Bezugseinheit verwendet werden. Letzteres ist beispielsweise für Suchmaschinen die entscheidende Bezugsgröße. 2. Was bedeutet „ besonders häufig “ ? Hier reicht es nicht, die absoluten Frequenzen zu betrachten, weil manche Wörter (der, und, dass) ohnehin viel häufiger sind als andere. Vielmehr interessiert uns die Frage, ob zwei Wörter häufiger zusammen auftreten, als wir basierend auf ihren Einzelfrequenzen erwarten würden. Für einen Überblick zu geeigneten Assoziationsmaßen siehe Evert (2008). COSMAS II bietet eine solche Berechnung unter dem Namen „ Kookkurrenzanalyse “ an. Auch das DWDS-Wortprofil zeigt häufige Kookkurrenzen an, die hier zusätzlich nach syntaktischer Relation zum Suchwort unterschieden 2.2 Ergebnisse lesen 29 narr-starter.de <?page no="31"?> werden (siehe auch Kap. 3.3). Für das Suchwort Ente etwa werden als wichtigste Adjektivattribute lahm, gebraten, knusprig und ölverschmiert angegeben. Export Die meisten Suchoberflächen ermöglichen auch den Export von Suchergebnissen, etwa als CSV-Datei, die dann mit Programmen zur Tabellenverarbeitung (z. B. LibreOffice, MS Excel) geöffnet werden können. Das ermöglicht eine weiterführende Auswertung der Daten. In unserem Beispiel zur Suche nach Verwendungen von als könnte etwa für jeden Treffer in einer neuen Spalte annotiert werden, welche Lesart des Wortes jeweils vorliegt, um so die Frequenz der unterschiedlichen Lesarten zu ermitteln. Achten Sie auf die Optionen beim Export. Wenn Sie zum Beispiel nur eine Stichprobe der Treffer auf eine bestimmte Eigenschaft hin untersuchen wollen, sollten Sie die Treffer zufällig sortieren. Andernfalls betrachten Sie eventuell nur Beispiele aus einer einzigen Zeitung oder aus dem gleichen beschränkten Zeitraum. 2. Korpora durchsuchen 30 narr-starter.de <?page no="32"?> 3. Annotationen kennenlernen Im letzten Kapitel haben Sie gesehen, wie Sie Korpora auf der Wortebene abfragen können und wie sich manche Generalisierungen durch reguläre Ausdrücke abbilden lassen, zum Beispiel Hunde? für die Formen Hund und Hunde. Für viele Generalisierungen bzw. die dahinterliegenden linguistischen Konzepte wie die gemeinsame Wortart von verschiedenen Wortformen ist die Anfrage einfacher, wenn die Informationen als Annotationen im Korpus vorliegen. In diesem Kapitel werden wir Ihnen wortbezogene und wortübergreifende Annotationsebenen vorstellen, die Sie in Online- Korpora antreffen. Außerdem wollen wir Sie auf Programme 14 hinweisen, mit denen Sie diese Annotationen automatisch oder manuell erstellen können. 3.1 Tokenisierung Bevor wir erste Annotationen vornehmen können, muss der Text im Korpus in Wörter und ggf. Sätze segmentiert werden. Doch was ist eigentlich ein Wort? Diese Frage erscheint im Alltag völlig trivial. Aus linguistischer Perspektive ist sie hochkomplex und kaum abschließend zu beantworten. Dem Computer erschließt sich diese Kategorie von selbst überhaupt nicht. In der Korpuslinguistik wird normalerweise ein einfacher, oberflächenbasierter Wortbegriff angesetzt, der zur Abgren- 14 In der Korpuslinguistik werden Computerprogramme oft als ‚ Tools ‘ bezeichnet. narr-starter.de <?page no="33"?> zung gegenüber anderen Wortbegriffen als Token bezeichnet wird. Der Prozess, in dem ein Text automatisch in Token segmentiert wird, heißt Tokenisierung. Die Tokenisierung orientiert sich primär an Leerzeichen im Text. Zusätzlich werden Satzzeichen von den vorangehenden Wörtern getrennt, sofern sie nicht wie bei Abkürzungen dazugehören. Die Satzzeichen selbst werden auch als Token gezählt. Die Größe von Korpora wird oft in Token angegeben (vgl. Tabelle 1). Ein etwas anderer Begriff von Token liegt bei der Unterscheidung von Type (engl.) und Token vor. Als Type bezeichnen wir ein Wort im Sinne einer abstrakten Kategorie. Kommt in einem Satz (oder Korpus) zweimal das Wort und vor, gehören beide Instanzen zum gleichen Type. In der Korpuslinguistik wird ein Type in der Regel über die gleiche Oberflächenform definiert. Die Artikel in die Eiderente und die Riesen gehören dieser Lesart entsprechend zum gleichen Type, auch wenn ihre morphologischen Merkmale sich unterscheiden (Femininum im Singular vs. Maskulinum im Plural). Token sind demgegenüber die konkreten Vorkommen eines Types an einer bestimmten Stelle im Text. Zu einem Type kann es im Korpus also immer ein oder mehrere Token geben. Im Satz (1) gibt es zum Beispiel jeweils zwei Token, die zum Type laufe und ich gehören: (1) Ich laufe und laufe bis ich nicht mehr kann. Der Type-Token-Ratio ist ein Maß dafür, wie vielfältig das Vokabular eines Textes ist. In annotierten Korpora kann der Type auch über die Annotation ermittelt werden, z. B. gehören laufen und laufe beide zum Lemma-Type laufen. 3. Annotationen kennenlernen 32 narr-starter.de <?page no="34"?> 3.2 Wortbezogene Annotationen Lemma Grob gesagt entspricht das Lemma (auch: die Basisform) der Wortform, die Sie für eine gegebene Wortform in einem Wörterbuch erwarten würden. Für das Deutsche sind das die Nominativ-Singularform für Substantive (Hund und nicht Hundes), die unflektierte Form für Adjektive (lang, nicht länger) und die Infinitivform für Verben (sein anstatt ist). Schwieriger ist die Festlegung zum Beispiel bei Artikeln: Ist die Grundform von die in die Frau ebenfalls die (Nominativ Singular Feminin) oder der (Nominativ Singular Maskulin)? In Korpora findet man beide Lösungen, manche Korpusersteller entscheiden sich auch für die genusneutrale Kurzform d. Bei großen Korpora, die nicht manuell korrigiert werden können, trifft man manchmal auf das Lemma unknown. Das bedeutet, dass der automatische Lemmatisierer das Lemma der Wortform nicht erkannt hat. Dies passiert häufig bei neuen Wörtern wie simste oder bei seltenen Fachwörtern wie präsupponiert. Manchmal liegt auch nur ein Tippfehler im Text vor, z. B. immmer. Manche Lemmatisierer geben anstelle von unknown die Wortform selbst als Lemma aus. Dann würde für simste als Lemma simste angegeben anstelle des eigentlich gewünschten Infinitivs simsen. Wortart Bei der Wortartenannotation (engl. ‚ Part of Speech ‘ , POS) wird jedem Token eine Wortart zugeordnet, die zusätzlich zum Lemma eine syntaktische, morphologische und/ oder semantische Generalisierung darstellt: Hund in Der Hund bellte unterscheidet sich syntaktisch und semantisch vom 3.2 Wortbezogene Annotationen 33 narr-starter.de <?page no="35"?> Eigennamen Laska in Laska bellte. Bellte wiederum unterscheidet sich sowohl syntaktisch als auch morphologisch von gebellt in Laska hat gebellt. Viele deutsche Korpora sind mit dem Stuttgart-Tübingen-Tagset (STTS) annotiert, das auf elf Hauptwortarten aufbaut (vgl. Abbildung 4). 1. Substantive (N) 7. Adverbien (ADV) 2. Verben (V) 8. Konjunktionen (KO) 3. Artikel (ART) 9. Adpositionen (AP) 4. Adjektive (ADJ) 10. Interjektionen (ITJ) 5. Pronomina (P) 11. Partikeln (PTK) 6. Kardinalzahlen (CARD) Abb. 4: Hauptwortarten im STTS (Schiller et al. 1999, 4) Die Hauptwortarten werden auf insgesamt 54 Unterwortarten erweitert, wobei hier zum Beispiel auch eigene Tags (engl. für ‚ Label/ Etikett ‘ ) für verschiedene Satzzeichen hinzukommen. Die Kürzel der Tagnamen sind systematisch von links nach rechts aufgebaut. Die Hauptklassen werden durch weitere Abkürzungen ergänzt. Die Hauptklasse Substantiv N (für „ Nomen “ ) wird erweitert in die Unterklassen „ normales “ Nomen NN (Appellativum) und Eigenname NE. Die Verbklasse V wird noch feiner unterteilt wie in Abbildung 5 dargestellt: Zunächst wird nach Voll-, Modal- und Hilfsverb VV, VM und VA (A steht dabei für „ Auxiliar “ ) unterschieden und dann noch flexionsmorphologisch zum Beispiel nach Finitum (VVFIN), Infinitiv (VVINF) und Partizip Perfekt (VVPP). 3. Annotationen kennenlernen 34 narr-starter.de <?page no="36"?> V FIN V + M + INF → VVFIN, VMFIN, VAFIN, VVINF . . . A PP Abb. 5: Hierarchischer Aufbau der Verbtags im STTS Durch den hierarchischen Aufbau der Tagnamen können Sie bei Suchausdrücken mit regulären Ausdrücken (vgl. Kap. 2) über die Unterwortarten generalisieren - sofern die Suchoberfläche diese Funktionalität unterstützt. Eine Abfrage nach VV.* findet beispielsweise alle Belege für Vollverben, egal, ob diese im Infinitiv stehen oder in einer anderen Form. Eine Abfrage nach V.FIN liefert Ihnen alle finiten Verben, egal ob Voll-, Modal- oder Hilfsverb. In Bezug auf die beiden sehr häufigen Verben haben und sein sieht das STTS eine Vereinfachung vor, die in den meisten Korpora übernommen wurde: Das Wortartentagging unterscheidet nicht zwischen den Verwendungen als Hilfs- und Vollverb, sondern vergibt immer das Hilfsverbtag VA. In den Beispielsätzen in (2) wird ist daher beide Male als VAFIN getaggt. (2) a. Sie ist_ VAFIN angekommen. (Hilfsverb) b. Sie ist_ VAFIN eine Linguistin. (Vollverb) Um die genauen Definitionen der STTS-Tags zu verstehen, sollten Sie unbedingt selbst einen Blick in die STTS- Guidelines (Schiller et al. 1999) werfen 15 . 15 Lemnitzer/ Zinsmeister 2015, Kap. 4 stellen das STTS ebenfalls detailliert vor. 3.2 Wortbezogene Annotationen 35 narr-starter.de <?page no="37"?> Gehen Sie auf www.dwds.de und geben Sie den Suchausdruck "schwer $p=ADJA" (mit Anführungsstrichen) ein. Das Attribut $p zeigt dem System an, dass der folgende Ausdruck auf der Wortarten-(Part of Speech-)Ebene gesucht werden soll ( ADJA = „ Adjektiv, attributiv “ ). Erweitern Sie Ihre Anfrage auf "schwer $p=ADJ*" . Beachten Sie, dass * hier nicht nur ein Wiederholungsoperator ist, sondern für den komplexen regulären Ausdruck .* steht. Vergleichen Sie nun die Belege. Welche Verwendungsweisen kommen hinzu? Überprüfen Sie abschließend in der STTS-Übersicht 16 , welche Tags durch ADJ* abgedeckt sind. Alle Korpora in Tabelle 1 in Kap. 1 sind mit dem STTS oder Varianten davon getaggt. Im DeReKo finden Sie die Annotationen in den Archiven TAGGED-T (TreeTagger). COS- MAS II hilft Ihnen beim Aufbau der Suchanfrage mit einem MORPH-Assistenten. Das ReM-Korpus verwendet für das Wortartentagging des Mittelhochdeutschen das Historische Tagset (HiTS), eine Erweiterung des STTS, um der historischen Sprache gerecht zu werden (Dipper et al. 2013). Im FOLK-Korpus wurde das STTS ebenfalls erweitert (STTS 2.0), um Phänomene der gesprochenen Sprache abzubilden (Westpfahl et al. 2017). Morphologie Deutsche Korpora enthalten teilweise Annotationen der Flexionsmorphologie wie Kasus und Numerus, die es zum Beispiel erlauben, nach Wörtern im Dativ oder im Plural zu suchen. Diese Annotationen beziehen sich wie das Lemma und die Wortart jeweils nur auf einzelne Wörter. Das be- 16 www.ims.uni-stuttgart.de/ forschung/ ressourcen/ lexika/ TagSets/ stts-table.html 3. Annotationen kennenlernen 36 narr-starter.de <?page no="38"?> deutet, dass Konzepte wie Tempus oder Genus Verbi (Aktiv/ Passiv) nur marginal abgebildet werden können, da diese Konzepte oft analytisch, d. h. durch die Kombination mehrerer Wörter gebildet werden. Ein gängiges Morphologie- Tagset leitet sich vom STTS-Tagset ab (Schiller et al. 1999). Im DeReKo können Sie über COSMAS II in den Archiven TAGGED-C (Connexor) nach Verbmorphologie und in TAGGED-M (MECOLB) auch nach voller Substantivmorphologie suchen. 17 3.3 Wortübergreifende Annotationen Syntax Die syntaktische Annotation stellt Bezüge zwischen Wörtern und Wortgruppen innerhalb eines Satzes her. Es werden dabei zwei grundlegende Ansätze unterschieden: Die Konstituentenanalyse gruppiert Wörter, die jeweils formale und inhaltliche Einheiten darstellen, in sog. Phrasen wie Nominalphrase (NP), Präpositionalphrase (PP) oder in die Satzkonstituente (S). Die syntaktische Dependenzanalyse hingegen bildet keine Wortgruppen, sondern baut syntaktische Beziehungen unmittelbar zwischen zwei Wörtern auf: Das abhängige Wort (Dependens) steht in einer Dependenzrelation zu seinem Regens bzw. „ Kopf “ , zum Beispiel als Subjekt zum finiten Verb des Satzes. Es handelt sich also um eine gerichtete Relation zwischen zwei Wörtern. 17 In Zukunft werden Sie über die neue Schnittstelle KorAP (korap. ids-mannheim.de) für das gesamte DeReKo Zugriff auf morphologische Informationen erhalten. 3.3 Wortübergreifende Annotationen 37 narr-starter.de <?page no="39"?> Abbildung 6 zeigt einen Beispielsatz aus PCC2 (s. Tabelle 1) mit Konstituenten- 18 (oben) und Dependenzannotation (unten). Abb. 6: Syntaktische Analysen eines Beispiels aus dem PCC2: Konstituenten, mit ovalen Phrasen-Labels markiert (oben) und Dependenzen (unten) (Darstellung in ANNIS) Vergleichen Sie, wie in den beiden Analysen in Abbildung 6 jeweils das Subjekt (Die Jugendlichen in Zossen) und das Akkusativobjekt (ein Musikcafé) strukturell dargestellt und eingebunden sind. 18 Nach den Guidelines des Tiger-Korpus: http: / / www.ims.unistuttgart.de/ forschung/ ressourcen/ korpora/ tiger.html 3. Annotationen kennenlernen 38 narr-starter.de <?page no="40"?> Für die germanistische Linguistik ist noch eine dritte Sichtweise auf den Satzbau relevant: Nach dem Modell der Topologischen Felder wird ein Satz auf der Basis der Verteilung der finiten und nicht-finiten Verbteile (in der sog. Verbklammer) in das Vor-, Mittel- und Nachfeld eingeteilt. Diese Analyse ist auch für den Informationsfluss im Textzusammenhang interessant: Die Information vor dem finiten Verb im Vorfeld erhält in der Regel die meiste Aufmerksamkeit. TüBa wurde manuell mit Konstituenten - die mit grammatischen Funktionen (wie Subjekt) erweitert sind - und Topologischen Feldern annotiert und zusätzlich automatisch in ein Dependenzformat überführt. Letzteres ist dadurch motiviert, dass in der automatischen Sprachverarbeitung Dependenzanalysen dominieren. 19 Eine lexikographische Anwendung von Dependenzanalysen liegt in der Bildung von Wortprofilen (Geyken 2011), bei denen die Bedeutung eines Wortes durch seine Gebrauchskontexte erschlossen wird. Anstelle von beliebigen Konkordanzen werden im Wortprofil Dependenzbeziehungen ausgewertet. Öffnen Sie in Ihrem Browser www.dwds.de und geben Sie schwer in die Suchmaske ein. Klicken Sie im Abschnitt „ Typische Verbindungen “ auf „ DWDS-Wortprofil zu › schwer ‹“ . Zu welchen Substantiven fungiert es als Adjektivattribut? Zu welchen als Prädikativ? Geben Sie dann oben als „ Lemma Vergleichswort “ schwierig ein und klicken Sie erneut auf „ Wortprofil abfragen “ . Welche unterschiedlichen Verwendungen der beiden Wörter lassen sich von der Auflistung unter „ ist Prädikativ von “ ableiten? 19 Bspw. Universal Dependencies www.universaldependencies.org. 3.3 Wortübergreifende Annotationen 39 narr-starter.de <?page no="41"?> Weitere Analyseebenen Wir wollen Sie einladen, sich mit den in Tabelle 1 genannten Beispielkorpora, die eine Reihe weiterer Annotationsebenen enthalten, genauer zu befassen. Im PCC zum Beispiel sind verschiedene pragmatische, textbezogene Analyseebenen annotiert, wie die Koreferenz bzw. anaphorische Wiederaufnahme, mit der man sich wiederholt auf dieselbe Person oder Sache bezieht. In (3) werden bspw. eine Gruppe von Jugendlichen und ein Ort jeweils zweimal erwähnt (durch Indizes markiert). (3) [Die Jugendlichen in [Zossen] zossen ] jugend wollen ein Musikcafé. Das forderten [sie] jugend bei der ersten [Zossener] zossen Runde am Dienstagabend. In nicht-standardsprachlichen Korpora gibt es oft noch eine Normalisierungsebene, in der nicht-standardisierte Formen auf standardisierte Wortformen abgebildet werden. Das betrifft Texte mit großer Variabilität bzw. Inkonsistenz, wie in historischen Sprachstufen vor der Einführung der Orthographie (siehe ReM) oder in gesprochener Sprache (siehe FOLK). Durch die Normalisierung kann man dann z. B. nach allen Vorkommen von ich suchen, auch wenn im Text mal ich, ik, jk usw. steht. Eine besondere Art der Normalisierung stellen die Zielhypothesen (ZH) im Lernerkorpus Falko dar. In der ZH1 sind alle Sätze systematisch in eine minimal grammatisch korrekte Variante überführt, in der ZH2 sind sie zusätzlich semantisch und pragmatisch korrigiert. Abweichungen zwischen den Ebenen wie Änderungen auf der Wortebene, Einfügungen, Tilgungen und Verschiebungen werden durch 3. Annotationen kennenlernen 40 narr-starter.de <?page no="42"?> automatisch generierte Differenztags markiert, die dann als Grundlage für weitere Fehlerannotationen und Auswertungen dienen. Abbildung 7 zeigt die spaltenweise Annotation eines Lernertexts aus Falko: In der ersten Spalte steht der Lernertext (ctok: ctok), in der zweiten Spalte die Zielhypothese 1 (ZH1: ZH1) und in der dritten Spalte die Differenztags (ZH1: ZH1Diff). Im Beispiel ist hier die Einfügung des definiten Artikels das in der ZH1 markiert (INS für ‚ insertion ‘ , Einfügung). In einer zusätzlichen Spalte könnte die Einfügung nachträglich weiter analysiert werden, zum Beispiel mit einer Fehlerkategorie wie Markierung der Definitheit. Abb. 7: Spaltenweise Annotation eines Lernertexts (ctok: ctok) mit Zielhypothese 1 (ZH1: ZH1) und Differenztag (ZH1: ZH1Diff) in MS Excel (Datei aus Falko EssayL2: fkb002_2007_09_L2v2.4.xlsx) 3.4 Annotationstools Sie kennen nun eine Reihe von Annotationsebenen. In diesem Abschnitt stellen wir Ihnen frei zugängliche Annotationssoftware ( ‚ Tools ‘ ) vor, die Sie teilweise in Kap. 6 im praktischen Einsatz kennenlernen werden. 3.4 Annotationstools 41 narr-starter.de <?page no="43"?> Automatische Annotation Viele grammatische Merkmale von Sprache können bereits mit guten Ergebnissen automatisch annotiert werden. Das gilt für die Rekonstruktion des Lemmas (z. B. kocht → kochen) oder die Annotation der Wortart (z. B. kocht → VVFIN). Für das Deutsche liefert zum Beispiel das Tool MarMoT (Müller et al. 2013) 20 sehr gute Ergebnisse und verfügt über eine gute Dokumentation. Auch für die Annotation syntaktischer Strukturen wie Phrasen oder Dependenzen stehen recht gute Programme zur Verfügung, z. B. MATE (Björkelund et al. 2010) 21 . Insgesamt muss man jedoch sagen, dass die Dokumentation der meisten Tools für unerfahrene Nutzerinnen und Nutzer nicht leicht zugänglich ist. Eine Möglichkeit, viele dieser Tools zu nutzen, ohne sie auf dem eigenen Rechner installieren und ihre technische Dokumentation im Detail verstehen zu müssen, ist die Plattform WebLicht (Martens 2013) 22 . Sie bündelt eine Vielzahl automatischer Tools z. B. zur Normalisierung, zum POS-Tagging und zum syntaktischen Parsing (siehe auch das WebLicht-User Manual). Korpora automatisch oder zumindest teilautomatisch annotieren zu können, bedeutet eine große Zeitersparnis. Wenn man viele Daten hat und es nicht auf jeden einzelnen Beleg ankommt, ist die automatische Annotation eine große Hilfe (vgl. Zinsmeister 2015). Häufig werden automatische Annotationen in einem zweiten Schritt manuell korrigiert. 20 cistern.cis.lmu.de/ marmot 21 code.google.com/ archive/ p/ mate-tools/ wikis/ ParserAndModels. wiki 22 weblicht.sfs.uni-tuebingen.de 3. Annotationen kennenlernen 42 narr-starter.de <?page no="44"?> Manuelle Annotation WebAnno (Eckart de Castilho et al. 2016) 23 ist ein Tool für wortbasierte Annotationen und Relationen zwischen Wörtern. Die bereits vorinstallierten Tagsets für Wortarten, Dependenzen, Koreferenz u. ä. können um eigene Tagsets erweitert werden. Für die spezielle Annotation von Koreferenzrelationen wollen wir Sie auf den CorefAnnotator (Rösiger et al. 2018) 24 hinweisen, der in seiner Handhabung sehr intuitiv ist und auch lange Einzeltexte einlesen kann. Für die Transkription und Annotation gesprochener Sprache, besonders für Forschungsfragen in der Gesprächsanalyse, eignet sich der Partitur-Editor EXMARaLDA (Schmidt 2012). 25 Obwohl für gesprochene Sprache entwickelt, wird EXMARaLDA auch häufig für die Annotation und Analyse geschriebener Sprache verwendet, da man Token und Spannen aus mehreren Token übersichtlich annotieren kann. Ursprünglich für literaturwissenschaftliche Analysen entwickelt, bietet sich das Tool CATMA (Meister et al. 2016) 26 auch für linguistische Spannen-Annotationen an. CATMA hat gegenüber EXMARaLDA den Vorteil, dass es den Text mit Zeilenumbrüchen darstellt und man ihn so besser überblicken kann. Für Token und Spannen eignen sich grundsätzlich auch Tabellenprogramme wie LibreOffice oder MS Excel. Ab- 23 webanno.github.io/ webanno 24 github.com/ nilsreiter/ CorefAnnotator 25 www.exmaralda.org/ de 26 www.catma.de 3.4 Annotationstools 43 narr-starter.de <?page no="45"?> bildung 7 in Kap. 3.3 illustriert dies anhand eines Ausschnitts aus dem Falko Essay-Korpus in MS Excel. 3. Annotationen kennenlernen 44 narr-starter.de <?page no="46"?> 4. Annotierte Korpora durchsuchen In Kap. 2 haben Sie bereits einfache Suchsyntax und reguläre Ausdrücke zur Suche auf der Wortebene kennengelernt und in Kap. 3 erste Anfragen an annotierte Korpora. Letztere werden wir hier vertiefen. Viele Onlinekorpora bieten zur Suche von Annotationen Hilfestellungen in Form von Auswahllisten an, wie der bereits erwähnte MORPH-Assistent in COSMAS II. Flexibler und meistens auch schneller ist die Suche mit Hilfe einer Abfragesprache. Da sich die einzelnen Schnittstellen im Detail unterscheiden, wollen wir Ihnen zunächst die grundlegenden Herangehensweisen vorstellen und diese anhand von einigen konkreten Abfragen illustrieren. Am Ende des Kapitels führen wir Sie durch ein größeres Beispiel. 4.1 Annotationsspannen Die Kunst bei der Korpusabfrage besteht darin, die linguistischen Phänomene, nach denen man das Korpus durchsuchen möchte, sinnvoll zu operationalisieren, d. h. in eine Form zu übersetzen, die eindeutig ist und der Korpusrepräsentation entspricht. Nehmen wir an, wir wollen die Lesarten von nach als Präposition (1-a) mit denen als Postposition (1-b) vergleichen. (1) a. Nach meiner Meinung hat niemand gefragt. b. Ihrer Meinung nach ist der Plan durchführbar. narr-starter.de <?page no="47"?> Stellen Sie sich eine Tabelle mit spaltenweiser Annotation vor, in der jedes Token eine eigene Zeile erhält. In Tabelle 5 sind einige Token aus Beispielsatz (1-b) zusammen mit wortbezogenen Annotationen dargestellt. Tab. 5: Repräsentation wortbezogener Annotationen von (1-b) in Tabellenform id token lemma pos 1 Ihrer ihr PPOSAT 2 Meinung Meinung NN 3 nach nach APPO 4 ist sein VAFIN . . . . . . . . . . . . 8 . . $. Formal betrachtet bildet hier jede Zeile eine Token-Instanz, die durch vier Merkmale bzw. Attribute (id, token, lemma, pos) mit ihren jeweiligen Werten charakterisiert ist, z. B. die erste Instanz durch id="1", token="Ihrer" usw. und die letzte Instanz durch id="8", token="." (der Schlusspunkt) usw. Beim Aufbau der Abfrage für nach als Postposition sollten Sie folgende Fragen im Hinterkopf haben: 1. Wie heißen die relevanten Attribute und Werte im vorliegenden Tool bzw. Korpus? 2. Wie zeigt man an, dass zwei Attribute zum selben Token gehören? In Tabelle 6 sehen Sie die entsprechenden Abfragen für fünf Online-Schnittstellen, mit denen Korpora aus Tabelle 1 in Kap. 1 online durchsuchbar sind. 27 27 Zu DECOW s. Fußnote 9. 4. Annotierte Korpora durchsuchen 46 narr-starter.de <?page no="48"?> Tab. 6: Abfragesyntax für Token nach als Postposition Tool Korpus Abfrage COSMAS II DeReKo nach / w0 MORPH(AP po) DDC 28 DWDS @nach with $p=APPO NoSketch Engine 29 DECOW [word="nach" & tag="APPO"] TüNDRA 30 TüBa [word="nach" & pos="APPO"] ANNIS 31 Falko tok="nach" _=_ pos="APPO" Sie sehen auf den ersten Blick, dass die Abfragesyntax der Systeme sehr unterschiedlich ist. Daher ist das Lernziel für diesen Abschnitt nicht, sich mit all den verschiedenen Abfragesprachen vertraut zu machen, sondern allgemeine Prinzipien zu erkennen, die allen Systemen zugrunde liegen, damit Sie diese auf weitere Abfrageschnittstellen übertragen können. Zu Frage 1: Attribute und Werte. In NoSketchEngine, TüNDRA und ANNIS fragen Sie nach dem Token und der Wortart mittels Attribut-Wert-Paaren, z. B. in ANNIS mit den Attributen tok und pos, die hier die Werte nach und APPO haben sollen. Beachten Sie die Anführungsstriche um die Wertangaben! In allen drei Tools können Sie nach Token auch über die einfache Eingabe des Wortes in Anführungsstrichen suchen (z. B. "Ihrer" ). Wir haben uns hier aber für die explizite Variante entschieden, um Ihnen zu verdeutlichen, 28 DDC ist das Abfragetool, das der DWDS-Online-Schnittstelle zugrunde liegt (www.ddc-concordance.org). 29 Vgl. Rychlý (2007). 30 Vgl. Martens (2013). 31 Mit ANNIS beziehen wir uns im Buch auf die Version ANNIS 3 (Krause/ Zeldes 2016). Es dient auch zur Abfrage von PCC und ReM. Allerdings heißen die Attribute dort teilweise anders. 4.1 Annotationsspannen 47 narr-starter.de <?page no="49"?> dass der Attributname für dasselbe Konzept in verschiedenen Korpora variieren kann, zum Beispiel word versus tok und pos versus tag. In COSMAS II und DDC geben Sie für das Token keinen eigenen Attributnamen (wie tok) an, sondern nur das Wort, ggf. mit einer Markierung für das Lemma bzw. die flektierte Form (vgl. Tabelle 2 in Kap. 2). Auch die Wortarteninformation wird hier jeweils speziell kodiert. Zum Beispiel fehlen Anführungsstriche bei der Wertangabe APPO. Zu Frage 2: Zwei Attribute eines Tokens. Dass zwei Attribute (hier: Token nach und Wortart APPO) zum selben Token gehören sollen, muss für alle Korpora explizit angegeben werden. COSMAS II und DDC ähneln sich mit dem Wortabstandsoperator / w0 (Wortabstand null) bzw. der Zuweisung with . NoSketchEngine und TüNDRAverfolgen hier jeweils dieselbe Strategie, indem sie die Token durch eckige Klammern markieren und die Attribute mit & verknüpfen. Die eckigen Klammern symbolisieren dabei die Informationen einer Zeile aus Tabelle 5 und könnten theoretisch noch weitere Attribute auflisten, z. B. [word="nach" & lemma="nach" & pos="APPO"] . Das wäre in diesem Fall allerdings teilweise redundant, da nach nicht flektiert und die Lemmatisierung dadurch keine zusätzliche Information bietet. Die Abfrage in ANNIS ist wiederum anders aufgebaut. Das Suchtool ist nicht speziell für Falko programmiert worden, sondern als allgemeines Tool für Korpora mit sehr unterschiedlichen Arten von Annotationen. Daher müssen die Beziehungen zwischen verschiedenen Annotationen grundsätzlich explizit angegeben werden, im Beispiel geschieht dies über den Operator _=_ . Der Operator markiert, dass zwei Annotationen exakt dieselbe Tokenspanne abdecken, was im Beispiel (Tabelle 5) 4. Annotierte Korpora durchsuchen 48 narr-starter.de <?page no="50"?> einer Spanne von genau einem Token entspricht, der des Tokens nach. Als nächstes Abfragebeispiel wollen wir die Suche weiter einschränken und zwar auf solche Vorkommnisse, in denen die Postposition vor einem finiten Verb steht. Hiermit verlieren wir zwar viele Treffer, vermeiden aber auf jeden Fall Präpositionen, die fälschlicherweise als Postposition annotiert wurden. Die verschiedenen Abfragevarianten sind in Tabelle 7 dargestellt. In Ergänzung zu den Überlegungen der ersten Abfragen werden hier zwei zusätzliche Punkte relevant: 3. Wie werden mehrere Token miteinander kombiniert? 4. Wie kann die unterspezifizierte Wortart durch reguläre Ausdrücke dargestellt werden? Tab. 7: Abfragesyntax für Token nach als Postposition unmittelbar gefolgt von einem finiten Verb. Die Zeilenumbrüche sind ohne Bedeutung. Tool Korpus Abfragen COSMAS II DeReKo nach / w0 MORPH(AP po) (MORPH(VRB fin)) DDC DWDS "@nach with $p=APPO $p=/ V.FIN/ " NoSketch- Engine DECOW [word="nach" & tag="APPO"] [tag="V.FIN"] TüNDRA TüBa [word="nach" & pos="APPO"] . [pos=/ V.FIN/ ] ANNIS Falko tok="nach"& pos="APPO"&pos=/ V.FIN/ & #1 _=_ #2 & #1 . #3 Zu Frage 3: Kombination mehrerer Token. In COSMAS II und DDC werden zwei direkt aufeinanderfolgende Token nur 4.1 Annotationsspannen 49 narr-starter.de <?page no="51"?> durch eine Leerstelle getrennt. 32 In NoSketchEngine sind die Angaben zu einem Token zusätzlich in eckigen Klammern gebündelt. Letzteres gilt auch für TüNDRA, wobei hier explizit angegeben werden muss, dass die beiden Einheiten aufeinander folgen. Der Punktoperator steht hier für lineare, d. h. horizontale Abfolge von links nach rechts (Präzedenz) und ist deshalb notwendig, weil es in TüNDRA auch möglich ist, über hierarchische, d. h. vertikale Abfolgen von oben nach unten (Dominanz) zu suchen. Letzteres ist für die Suche auf Konstituentenstrukturen relevant (siehe Kap. 4.2). Die Abfrage in ANNIS unterscheidet sich in Tabelle 7 stark von der einfachen Abfrage in Tabelle 6. Beachten Sie, dass zuerst alle drei Attribute (jeweils durch & verknüpft) aufgelistet und dann anschließend über Operatoren in Beziehung zu einander gesetzt werden. Hierzu werden die eingeführten Attribute durch die Variablen #1 , #2 und #3 wieder aufgenommen, zum Beispiel tok="nach" durch #1 . Ausformuliert heißt die letzte Zeile der Abfrage daher: tok="nach" deckt genau dieselbe Spanne ab wie pos="APPO" (vgl. Tabelle 5) und tok="nach" steht unmittelbar links von pos=/ V.FIN/ in der linearen Abfolge. Zu Frage 4: Darstellung regulärer Ausdrücke. Beachten Sie, dass in DDC, TüNDRA und ANNIS ein regulärer Ausdruck von Schrägstrichen eingerahmt werden muss, wohingegen in NoSketchEngine nur Anführungsstriche verwendet werden. In COSMAS II können Sie mit regulären Ausdrücken nur auf der Wortebene suchen, nicht in Bezug auf Wortarten- 32 In COSMAS II entspricht dies der Grundeinstellung, die geändert werden kann. 4. Annotierte Korpora durchsuchen 50 narr-starter.de <?page no="52"?> label. Der MORPH-Assistent bietet aber auch eine unterspezifizierte Suche an, zum Beispiel (MORPH(VRB fin)) in Tabelle 7, das ebenfalls nach allen finiten Verben unabhängig von der Verbunterklasse sucht. 4.2 Hierarchische und relationale Annotationen In Konstituentenstrukturen spielen hierarchische Beziehungen eine wichtige Rolle. In Abbildung 8 (vgl. auch Abbildung 6 in Kap. 3.3) dominiert der Satzknoten S unmittelbar einen Nominalphrasenknoten NP, das Token wollen und noch eine Nominalphrase. Alle anderen Bestandteile des Satzes werden nur mittelbar von S dominiert, da andere Knoten dazwischenliegen. Die erste NP wiederum dominiert unmittelbar die Token die Jugendlichen und eine Präpositionalphrase PP. Zwischen dem PP-Knoten und den beiden Token ein Musikcafé besteht keine Dominanz, da von PP keine absteigende Verbindungslinie zu den beiden Token führt. In ANNIS und TüNDRA kann man mit einem speziellen Dominanzoperator > in hierarchischen Strukturen suchen. Die Abfrage [cat="NP"] > [cat="PP"] findet NP-Knoten, 33 die wie die NP Die Jugendlichen in Zossen unmittelbar einen PP-Knoten dominieren. 33 Das Attribut cat steht hier für syntaktische (Phrasen-)Kategorie. 4.2 Hierarchische und relationale Annotationen 51 narr-starter.de <?page no="53"?> Abb. 8: Hierarchische Konstituentenstruktur (Beispiel aus PCC) Bei Dependenz- oder Koreferenzrelationen bestehen keine Dominanzverhältnisse im engeren syntaktischen Sinn, sondern gerichtete Beziehungen direkt zwischen Token oder Spannen von Token. Die Relationen starten vom Regens einer Dependenzrelation und weisen auf das Dependens oder sie starten von der Anapher einer Koreferenzrelation und weisen auf das Antezedens. In ANNIS (z. B. PCC) wird dies mit dem Pfeiloperator -> ausgedrückt, um es von Dominanz zu unterscheiden. Die oberste Zeile in Tabelle 8 zeigt das allgemeine Abfrageschema. In den Zeilen darunter ist das LABEL einmal durch anaphor_antecedent und einmal durch dep realisiert: „ Finde alle Tokenpaare, die durch eine Koreferenzrelation verbunden sind “ bzw. „ Finde alle Tokenpaare, bei denen das eine Token als Kopf des Akkusativobjekts des anderen fungiert “ . Tab. 8: Abfrage gelabelter Relationen in ANNIS (hier: in PCC2) ANNIS Relationen tok ->LABEL[Attribut="Wert"] tok Koreferenz tok ->anaphor_antecedent tok Dependenz tok ->dep[func="obja"] tok 4. Annotierte Korpora durchsuchen 52 narr-starter.de <?page no="54"?> In TüNDRA wird derselbe Operator > für Dominanz- und andere (gelabelte) Relationen einschließlich Dependenz verwendet. Tabelle 9 zeigt wieder zuerst das allgemeine Schema und dann die Abfrage nach dem Kopf des Akkusativobjekts. Tab. 9: Abfrage gelabelter Relation in TüNDRA (hier: in TüBa-D/ Z v10 Dependency (Experimental)) TüNDRA Relationen tok >LABEL tok Dependenz #1 >OBJA #2 4.3 Beispiel Wortprofil Im letzten Abschnitt dieses Kapitels wollen wir auf der Basis von Dependenzannotationen in Falko die Gebrauchskontexte des Substantivs Geld in der Form eines Wortprofils untersuchen. In Kap. 3.3 haben Sie bereits das DWDS- Wortprofil mit einer Analyse für das Adjektiv schwer kennengelernt. Zunächst betrachten wir das entsprechende DWDS-Wortprofil für Geld. Gehen Sie im Browser auf das DWDS-Wortprofil für Geld: www. dwds.de/ wp/ Geld. Mit welchen Verben tritt Geld als Objekt auf ( „ ist Akk./ Dativ-Objekt von “ )? Neben erwartbaren Verben wie verdienen, ausgeben und kosten werden Sie wahrscheinlich auch zunächst überraschende Resultate erhalten, wie stecken und kosen. Das erste erklärt sich bei der Sichtung von Beispielbelegen wie Dafür wollen wir mehr Geld in Bildung und Forschung stecken. Es handelt sich um das Verb etw. in etw. stecken, das neben dem Akkusativobjekt auch ein Präpositionalobjekt mit in verlangt. Es weist Geld eine ähnliche Rolle zu wie das Verb etw. 4.3 Beispiel Wortprofil 53 narr-starter.de <?page no="55"?> ausgeben. Das Verb kosen geht auf einen Fehler in der Lemmatisierung zurück. Die Präteritumsformen von kosen mit langem o und die Präsensformen von kosten mit kurzem o sind teilweise homograph, also im Schriftbild identisch. Ein automatischer Lemmatisierer muss hier raten und liegt dann manchmal falsch. Diese Analyse wollen wir auf dem Lernerkorpus Falko durch eine Abfrage der Dependenzannotation vollziehen. Welche Verben verwenden junge Lernende des Deutschen mit Geld zusammen? Abb. 9: Dependenzannotation in falkoEssayL2v2.4 (Darstellung in ANNIS) 34 Das Ziel unserer Abfrage ist es, analog zum DWDS-Wortprofil Verben zu finden, die in den Lerneraufsätzen des Teilkorpus falkoEssayL2v2.4 mit dem Akkusativobjekt Geld auftreten, vgl. Abb. 9. Die Dependenz-Abfrage in ANNIS hatten wir bereits in Kap 4.1 in Tab. 8 für das Demokorpus PCC2 vorgestellt. Für Falko müssen wir die Abfrage hier etwas anpassen. 34 Quelle: korpling.german.hu-berlin.de/ falko-suche/ ? id=fab0aecfa472-4a60-af1-d6705ac4868 4. Annotierte Korpora durchsuchen 54 narr-starter.de <?page no="56"?> In Falko wurde nicht der eigentliche Lernertext mit Dependenzen annotiert, sondern die Ebene der Zielhypothese ZH1 (vgl. Kap. 3.3). Dies muss in der Abfrage berücksichtigt werden, indem man direkt auf die ZH1-Elemente anstatt auf Token Bezug nimmt. Als erstes Element wird einfach ein Platzhalter ZH1 eingesetzt. Das zweite Element wird auf den Wert Geld beschränkt: ZH1 ->dep[func="OBJA"] ZH1="Geld" Diese Abfrage ermittelt 119 Treffer in 69 verschiedenen Dokumenten. Um die Ergebnisse in einer Frequenzanalyse zusammenzufassen, wie wir es für ein Wortprofil benötigen, bietet ANNIS die Option Frequency Analysis. In ANNIS 3 aktiviert man diese als zusätzliches Panel über die erweiterten Funktionen (siehe More). Führen Sie nun diese Korpusabfrage und Frequenzanalyse selbst durch. Gehen Sie auf den Falko-Zugang von ANNIS (korpling. german.hu-berlin.de/ falko-suche/ ), wählen Sie unten links das Korpus falkoEssayL2v2.4 aus uns und suchen Sie oben links nach den Akkusativobjekten von Geld. Können Sie das Ergebnis reproduzieren? Sichten Sie die Belege. Wie verwenden die Deutschlernenden das Wort Geld? Erstellen Sie eine Frequenzanalyse über die erweiterten Funktionen (More). Verwenden Sie hierfür die voreingestellte Auswahl. Enthalten die Ergebnisse Überraschungen? Eine Besonderheit der Frequenzliste fällt unmittelbar ins Auge: Sie listet flektierte Verbformen und keine Lemmata auf. Wir sehen hier zwar keine Verwechslung von kosen und kosten, aber zwei verschiedene Flexionsformen von kosten als 4.3 Beispiel Wortprofil 55 narr-starter.de <?page no="57"?> einzelne Einträge. Um eine sinnvolle Aggregierung der Vorkommnisse zu erhalten, wollen wir anstelle der flektierten Wortformen die zugrundeliegenden Lemmata zusammenzählen. Die Abfrage wird so erweitert, dass zusätzliche Variablen für die Ebene von ZH1lemma eingeführt werden. Die Informationen aus beiden Ebenen ZH1 und ZH1lemma werden dann durch den Identitätsoperator _=_ auf das selbe Token bezogen: ZH1 ->dep[func="OBJA"] ZH1 & #1 _=_ ZH1lemma & #2 _=_ ZH1lemma="Geld" Das erste ZH1-Element wird durch den Platzhalter #1 wieder aufgegriffen, das zweite durch #2 . Die einzelnen Bedingungen sind jeweils durch & verbunden. Die Ergebnisanzahl ist mit 119 Treffern dieselbe wie bei der ersten Abfrage. Dies liegt daran, dass Geld als Akkusativobjekt immer die gleiche Oberflächenform hat, sodass durch die Lemmatisierung keine weiten Instanzen dazukommen. Ändern Sie die Korpusabfrage in ANNIS wie im Text beschrieben, sodass Sie auf die ZH1lemma zugreifen. Erstellen Sie anschließend eine neue Frequenzanalyse. Hierfür brauchen Sie nur die Variablen 3 und 4. Die überflüssigen Variablen sollten Sie löschen, bevor Sie die Analyse starten (siehe Abb. 10). Sichten Sie das Ergebnis erneut und vergleichen Sie es mit dem DWDS-Wortprofil. 4. Annotierte Korpora durchsuchen 56 narr-starter.de <?page no="58"?> Abb. 11 fasst das Ergebnis in einem Säulendiagramm zusammen. Wir haben hierfür die Tabelle aus ANNIS heruntergeladen und in MS Excel eingelesen. In Kap. 7.2 geben wir Ihnen weitere Hinweise für diese Art der Visualisierung. Abb. 11: Frequenzen von Verben in FalkoEssayL2v2.4, die Geld als Akkusativobjekt nehmen (Darstellung in ANNIS) Abb. 10: Dependenzabfrage und Vorbereitung der Frequenzanalyse in Falko unter Einbezug von ZH1 und ZH1lemma (Abfragetool: ANNIS) 4.3 Beispiel Wortprofil 57 narr-starter.de <?page no="59"?> Verdienen ist mit 38 Vorkommnissen auch hier das häufigste Verb, ausgeben hingegen, das im DWDS am zweithäufigsten nach verdienen folgt, ist im Lernerkorpus nur einmal vertreten. Verben wie investieren und anlegen tauchen überhaupt nicht auf, was aber auch mit den Essaythemen im Lernerkorpus zusammenhängt. 35 Mit einer ähnlichen Anfrage können Sie nach Attributen (ATTR) von Geld suchen. Beachten Sie, dass Geld hier zum Kopf der Dependenzrelation wird (vgl. Abb. 9): ZH1 ->dep[func="ATTR"] ZH1 & #1 _=_ ZH1lemma="Geld" & #2 _=_ ZH1lemma Weitere Relationen, in denen Geld auftritt, können Sie beim Browsen durch falkoEssayL2v2.4 ermitteln und dann entsprechend durch die Frequenzanalyse aggregieren. Erklärungen für die Bedeutungen der Relationen finden Sie in den Guidelines von Foth (2006). Mit diesem Beispiel zur Erstellung eines Wortprofils auf der Basis von Dependenzannotationen verlassen wir die grundlegenden Kapitel dieses Buches und lassen Sie in den folgenden Kapiteln mit einem eigenen Korpus arbeiten, dem im Vorwort bereits angekündigten Foodblog-Korpus. 35 Themen in falkoEssay: (1) Der Feminismus hat den Frauen mehr geschadet als genutzt. (2) Kriminalität zahlt sich nicht aus. (3) Die meisten Universitätsabschlüsse bereiten die Studenten nicht auf die wirkliche Welt vor. Sie sind deswegen von geringem Wert. (4) Die finanzielle Entlohnung eines Menschen sollte dem Beitrag entsprechen, den er/ sie für die Gesellschaft geleistet hat. 4. Annotierte Korpora durchsuchen 58 narr-starter.de <?page no="60"?> 5. Ihr eigenes Korpus erstellen Für das Deutsche sind bereits zahlreiche Korpora verfügbar. Da die Erstellung eines eigenen Korpus mit einem hohen Zeitaufwand verbunden ist, sollten Sie immer zunächst prüfen, ob es bereits ein Korpus gibt, das zur Bearbeitung Ihrer Fragestellung geeignet ist. Wenn Sie sich aber zum Beispiel für eine ganz spezifische Textsorte interessieren, werden Sie oft feststellen, dass Sie ein eigenes Korpus erstellen müssen. In diesem Kapitel zeigen wir Ihnen, welche Überlegungen Sie im Vorfeld anstellen müssen und wie Sie bei der Erstellung und Analyse des Korpus vorgehen können. Nehmen wir an, dass wir uns für die Textsorte Foodblog interessieren. Darunter verstehen wir hier Artikel aus privat geführten Blogs, die sich dem Thema Essen widmen und, spezifischer, Rezepte präsentieren. Wir führen Sie beispielhaft durch die Erstellung des Foodblog-Korpus, das begleitend zu diesem Buch zur Verfügung steht. Unter dem Link doi.org/ 10.5281/ zenodo.1410445 finden Sie das Korpus zum Download und eine Tabelle mit Metadaten zu den Artikeln, die wir in unser Korpus aufgenommen haben. 5.1 Gegenstand kennenlernen und Fragestellung formulieren Ausgangspunkt jeder (nicht nur) korpuslinguistischen Untersuchung sollte die Formulierung von Fragestellungen sein. Erst aus den Fragestellungen ergibt sich, welche Daten und welche Annotationen Sie zur Bearbeitung dieser Fragestellungen benötigen. narr-starter.de <?page no="61"?> Schauen Sie sich im Internet ein paar Beispiele der Textsorte Foodblog an. Welche Kommunikationsabsichten verfolgen die Autorinnen und Autoren? Aus welchen formalen Elementen bestehen die Artikel? Lofgren (2013) zufolge besteht die primäre Funktion von Foodblogs darin, Wissen rund ums Essen mit anderen zu teilen und darüber in Austausch zu kommen. Sie betont aber auch ihre Rolle als Mittel der Identitätsbildung der Autorinnen und Autoren ( „ tools for identity building “ ), sie dienen folglich der Selbstdarstellung. In formaler Hinsicht haben typische Artikel in Foodblogs eine Überschrift, einen Text und ein oder oft mehrere Bilder. Der Text kann unterteilt werden in eine persönliche Geschichte und das eigentliche Rezept, das wiederum aus einer Liste von Zutaten und einer Vorgehensbeschreibung besteht. Jedes dieser Elemente bringt unterschiedliche (linguistische) Eigenschaften mit und bei der Korpuserstellung müssen wir entscheiden, welche dieser Elemente wir in das Korpus aufnehmen möchten. Auch wenn die Bilder für die Textsorte von großer Bedeutung sind, werden wir uns im Folgenden auf die textuellen Elemente beschränken. Die Zutatenliste hingegen wollen wir nicht aus unserer Analyse ausschließen. Sie ist zwar syntaktisch unvollständig, enthält aber wichtige Schlüsselwörter. Nachdem wir die Textsorte ein wenig kennengelernt haben, formulieren wir Hypothesen zu ihrer sprachlichen Beschaffenheit. In der Textsorte Foodblog erwarten wir beispielsweise: • viele Wörter aus dem Wortfeld „ Lebensmittel “ , • eine hohe Frequenz von Pronomen der 1. Person, 5. Ihr eigenes Korpus erstellen 60 narr-starter.de <?page no="62"?> • eine hohe Frequenz von Adjektiven, • für Rezepte typische Formen, z. B. viele Infinitivsätze (Jetzt die Eier unterheben). Manche dieser Hypothesen können wir anhand der bloßen Textdaten überprüfen (Wortfeld „ Lebensmittel “ ), für andere benötigen wir zusätzliche Annotationen z. B. zur Wortart (viele Adjektive) oder der Syntax (viele Infinitivsätze). Manchmal können wir ein Phänomen auch anhand einfacherer Annotationen approximieren: Personalpronomen sind ein Phänomen auf Ebene der Wortart, aber eine hohe Frequenz von ich lässt sich auch ohne solche Annotationen identifizieren. Überlegen Sie aber immer genau, was Ihnen durch diese Vereinfachung verloren geht (Falsch-Negative, siehe Kap. 2.1). Fallen Ihnen noch weitere Hypothesen zur Sprache von Foodblogs ein? 5.2 Sichtung der Grundgesamtheit und Erfassung von Metadaten Um festzulegen, welche Texte wir in das Korpus aufnehmen, müssen wir uns zunächst genauer über unsere Grundgesamtheit informieren, d. h. die Gesamtheit deutschsprachiger Foodblogs. Leider gibt es hier, wie bei den meisten (korpus-) linguistischen Untersuchungen, keine Möglichkeit, tatsächlich die Grundgesamtheit zu erschließen (vgl. Kap. 1). Es existiert keine Liste aller betreffenden Foodblogs. Mithilfe einer Suche im Internet können wir uns aber zumindest einen guten Überblick über viele deutsche Foodblogs ver- 5.2 Sichtung der Grundgesamtheit und Erfassung von Metadaten 61 narr-starter.de <?page no="63"?> schaffen - immer durch die Algorithmen der Suchmaschinen gefiltert und sortiert. Als nächster Schritt muss überlegt werden, welche Metadaten wir zu den Blogs und Texten erheben möchten. Hier eine mögliche Auswahl: ● Name des Blogs ● Thema ● URL ● Lizenz ● Ort ● . . . ● Autor/ inn/ engeschlecht Der letzte Punkt, die Lizenz, ist besonders wichtig, wenn Sie die Daten weitergeben oder sogar veröffentlichen möchten. Dies muss die Urheberin der Texte explizit erlauben. Dazu eignen sich beispielsweise Texte, die unter einer entsprechenden Creative Commons-Lizenz (CC-Lizenz) veröffentlich wurden. Hier kann man das Internet nach Inhalten mit solchen Lizenzen durchsuchen: search.creativecommons. org. Wir können nun entscheiden, wie diese Metadaten auf unser Korpus verteilt sein sollen, um ein möglichst ausgewogenes Korpus zu erhalten. Beispielsweise sollen nicht alle Texte aus dem gleichen Ort kommen, sondern möglichst weit über das deutschsprachige Gebiet verteilt sein. Auch die Geschlechter der Autorinnen und Autoren sollten nach Möglichkeit ähnlich gut vertreten sein. In Bezug auf die Themen wäre es von Vorteil, wenn es nicht in allen aufgenommenen Texten um genau das gleiche Thema, z. B. vegane Kuchen, geht. Für all diese Merkmale erreichen wir in unserem Foodblog-Korpus eine ausreichend gute Streuung. Wir beschränken unsere Auswahl auf Blogs mit einer CC- Lizenz, die die Weitergabe der Texte erlaubt. 5. Ihr eigenes Korpus erstellen 62 narr-starter.de <?page no="64"?> 5.3 Datenspeicherung Wir haben uns für eine Liste von fünfzehn Foodblogs entschieden und speichern für jeden davon zehn Artikel. Dazu kopieren wir die jeweiligen Inhalte aus der Homepage in ein einfaches Textdokument (Dateiendung .txt ). Hierfür geeignete Texteditoren sind etwa Notepad++ (Windows) oder BBEdit (MacOS). Wichtig ist dabei die korrekte Zeichenkodierung: Sie sollte unbedingt auf UTF-8 eingestellt sein, damit später Umlaute und andere Sonderzeichen korrekt dargestellt werden können. In den genannten Editoren ist das normalerweise die Voreinstellung. Überlegen Sie sich ein sinnvolles System zur Benennung Ihrer Dateien. Idealerweise sollten die Dateinamen bereits für Sie wichtige Metadaten enthalten. Wir benennen jede Datei mit einem Kürzel für den Blog, in dem der Artikel erschienen ist, und einer fortlaufenden Nummerierung, z. B. zuckerbaeckerei_01.txt . Je nach später verwendeten Tools kann es sinnvoll sein, in den Dateinamen auf Umlaute und Leerzeichen zu verzichten. 36 5.4 Ihr eigenes Korpus durchsuchen Um ein eigenes Korpus aus Textdateien korpuslinguistisch zu durchsuchen, stehen unterschiedliche kostenfreie und kostenpflichtige Tools zur Verfügung. Für eine erste Sichtung des Korpus möchten wir hier das Programm AntConc (Anthony 2018) 37 empfehlen. Es ermöglicht eine einfache Suche auf Wortebene ohne Annotation. AntConc kann 36 Siehe z. B. die Empfehlungen in Trognitz (2017). 37 www.laurenceanthony.net/ software/ antconc 5.4 Ihr eigenes Korpus durchsuchen 63 narr-starter.de <?page no="65"?> kostenlos heruntergeladen werden und ist für alle Betriebssysteme verfügbar. Nach dem Öffnen des Programms können Sie über „ File “ > „ Open File “ eine Datei öffnen, oder - meist praktischer - über „ File “ > „ Open Dir “ gleich den ganzen Ordner öffnen, in dem Sie Ihre Dateien gespeichert haben. In der Übersicht auf der linken Seite können Sie dann die Namen aller hinzugefügten Dateien sehen. Auf der rechten Seite stehen sieben Reiter mit unterschiedlichen Analysemöglichkeiten zur Verfügung, von denen wir einige hervorheben wollen. Die einfachste ist die Konkordanz, die Sie bereits in Kap. 2 kennengelernt haben. Wenn Sie unten ein Suchwort eingeben und auf „ Start “ drücken, sehen Sie, in welchen Kontexten das Wort in Ihrem Korpus vorkommt (KWiC). Mithilfe des Abschnitts „ Kwic Sort “ können Sie Ihre Treffer nach dem Kontext sortieren. Wir interessieren uns beispielsweise für die Verwendung des Wortes lassen und wüssten gerne, welche Wörter jeweils davor verwendet werden. Abbildung 12 zeigt das Ergebnis. Das Wort lassen kommt 308-mal vor und in seinem linken Kontext tut sich ein für die Textsorte charakteristisches Wortfeld auf. Typische Verbindungen sind etwa abtropfen, antauen, aufkochen, auskühlen, einkochen, gehen, köcheln, quellen, ruhen, schmelzen, trocknen oder ziehen lassen. Im zweiten Reiter von rechts besteht die Möglichkeit, eine Wortliste zu erstellen. Hier werden alle im Korpus gefundenen Wörter nach Frequenz sortiert präsentiert. Diese Ansicht wird in allen Korpora von den mehr oder weniger gleichen Wörtern angeführt, nämlich von sehr frequenten grammatischen Wörtern wie Artikeln und Präpositionen. Dies hängt mit der Zipf ’ schen Verteilung zusammen: In jedem Korpus sind einige wenige Wörter sehr 5. Ihr eigenes Korpus erstellen 64 narr-starter.de <?page no="66"?> frequent und sehr viele Wörter sehr selten. Besonders groß ist die Anzahl an Hapax Legomena, also Wörtern, die im Korpus nur ein einziges Mal vorkommen. Die Wortliste kann in AntConc auf zwei Weisen um diese oft nicht sehr interessanten grammatischen Wörter bereinigt werden. Unter dem Menüpunkt „ Settings “ > „ Tool Preferences “ > „ Word List “ kann man eine Liste von Stoppwörtern hinzufügen. Eine solche Liste umfasst genau die oben genannten, frequenten, aber möglicherweise wenig charakteristischen Wörter. Bei Nutzung einer solchen Liste werden die entsprechenden Wörter von der Wortliste ausgeschlossen. Abb. 12: Konkordanz zum Suchwort lassen in AntConc 5.4 Ihr eigenes Korpus durchsuchen 65 narr-starter.de <?page no="67"?> Die zweite, etwas elaboriertere Möglichkeit finden Sie im Reiter ganz rechts mit dem Titel „ Keyword List “ . Dem Konzept des Schlüsselworts (Keyword) liegt die Intuition zugrunde, dass vor allem solche Wörter für ein Korpus charakteristisch sind, die im Korpus deutlich häufiger vorkommen als in einem Vergleichskorpus. Dabei ist die Wahl des Vergleichskorpus von entscheidender Bedeutung. Wenn wir die Foodblog-Daten mit wissenschaftssprachlichen Texten vergleichen, werden wir ganz andere Ergebnisse bekommen als bei einem Vergleich mit einem Korpus gesprochener Sprache. Zu Demonstrationszwecken nutzen wir das Potsdam Commentary Corpus (PCC), das Zeitungskommentare enthält (vgl. Tabelle 1). Um das Vergleichskorpus einzurichten, öffnen Sie „ Settings “ > „ Tool Preferences “ > „ Keyword List “ und fügen es im Abschnitt „ Reference Corpus “ hinzu ( „ Add Directory “ , dann „ Load “ und unten „ Apply “ ). Die resultierende Keyword-Liste sieht folgendermaßen aus: Abb. 13: Keyword-Liste zum Foodblog-Korpus im Vergleich mit dem PCC 5. Ihr eigenes Korpus erstellen 66 narr-starter.de <?page no="68"?> Unter den wichtigsten Keywords finden sich einige Inhaltswörter, die klar mit dem Thema der Texte zu erklären sind, z. B. die Maßangaben g, c 38 , ml und el sowie salz, minuten, butter, zucker, teig, zutaten, rezept, pfeffer. Auch ca ergibt sich durch die zahlreichen Maßangaben. Die grammatischen Keywords ich, und und mit sind interpretationsbedürftiger. Ich verdeutlicht die zentrale Rolle der Autorinnen und Autoren und die selbstdarstellerische Funktion der Textsorte (1). (1) Ich wäre nicht Marianne, wenn ich nicht aus einer Torte ein Törtchen machen würde. (bakingwithmarianne_01.txt) Die Konjunktion und kann möglicherweise auf die reihenhafte Nennung von Arbeitsschritten zurückgeführt werden (2). (2) Vom Feuer nehmen und den klein geschnittenen Basilikum unterrühren und den Schafskäse in würfeln zugeben. (blog_tuschel_04.txt) Die Präposition mit ist häufig, weil sie für die Kombination von Zutaten verwendet werden kann (2) oder instrumentelle Adverbiale einleitet (3): (3) Das Kirschpüree mit dem Gelierzucker in einen kleinen Topf geben. (bakingwithmarianne_03.txt) (4) In die heiße Milch geben und mit einem Rührbesen verrühren [. . .]. (lamiacucina_01.txt) 38 AntConc berücksichtigt Groß- und Kleinschreibung in der Voreinstellung nicht. 5.4 Ihr eigenes Korpus durchsuchen 67 narr-starter.de <?page no="69"?> In dieser Keyword-Liste sehen Sie gut den erwähnten Effekt des Vergleichskorpus: Ich kommt in den hier als Vergleich gewählten Zeitungstexten nur selten vor. Bei einem Vergleichskorpus mit gesprochenen Dialogen wäre ich sicherlich nicht oben in der Keyword-Liste gelandet. Laden Sie sich das Foodblog-Korpus unter dem Link doi.org/ 10.5281/ zenodo.1410445 herunter und importieren Sie es in AntConc. Was verrät uns die Konkordanz über die Verwendung des Wortes vorsichtig? Probieren Sie auch die anderen Funktionen von AntConc aus, die in der Hilfedatei unter „ Help “ > „ Readme File “ gut dokumentiert sind. Probieren Sie mal eine ganz andere Textsorte als Vergleichskorpus aus und vergleichen Sie die Ergebnisse. Das Korpus „ Erzählen über Konflikte “ von Evelyn Gius zum Beispiel umfasst Interviewdaten und ist frei verfügbar: zenodo.org/ record/ 894732. 5. Ihr eigenes Korpus erstellen 68 narr-starter.de <?page no="70"?> 6. Ihr eigenes Korpus annotieren Einige Fragen lassen sich anhand der Primärdaten alleine nicht beantworten. Wir würden beispielsweise gerne wissen, mit welchen Objekten das Verb backen verwendet wird oder ob ich nur in den einleitenden Textbausteinen oder auch im eigentlichen Rezept vorkommt. Hierfür brauchen wir Annotationen, die zum Teil automatisch, zum Teil manuell hinzugefügt werden können/ müssen. 6.1 Automatische Annotation Ein Korpus annotieren Für die automatische Annotation nutzen wir die Plattform WebLicht 39 (vgl. Kap. 4.3). Nach einem Klick auf „ Start WebLicht “ ist eine Anmeldung erforderlich. Angehörige der meisten deutschen Universitäten können sich mit den Zugangsdaten ihrer Universität anmelden, alle anderen können einen kostenlosen CLARIN-Account erstellen. Nach einem weiteren Klick auf „ Start “ kann man die zu annotierende Datei hochladen. Für das Beispiel hier haben wir alle Foodblog-Texte in foodblogs_all.txt zusammengeführt, um sie gemeinsam statistisch auszuwerten. Als Sprache ( „ Language “ ) geben wir „ German “ an. Wir wählen den „ Advanced Mode “ und dann eine Reihe von Tool-Panels, die wir durch Doppelklick aktivieren: 39 weblicht.sfs.uni-tuebingen.de/ narr-starter.de <?page no="71"?> 1. „ SfS: To TCF Converter “ 40 : Erzeugt aus dem Eingabetext eine XML-Version im Text Corpus Format. 2. „ SfS: Tokenizer/ Sentences “ : Teilt den Text in Satz- und Tokeneinheiten. Wichtig: Hier wählen wir für die „ newlinebounds “ den Wert „ true “ , damit Überschriften und Listen ohne Satzendezeichen richtig segmentiert werden. 3. „ IMS: Stuttgart Dependency “ 41 : Diesem Aufruf liegt das Tool MATE (siehe Kap. 3.4) zugrunde, das zusätzlich zu Dependenzen (Tiger) auch Lemmata und POS-Tags (STTS) ausgibt. Mit einem Klick auf „ Run Tools “ unten rechts startet die Analyse. Je nach Textgröße, Anzahl genutzter Tools und der aktuellen Serverauslastung kann die Annotation eine Weile dauern. In unserem Beispiel erscheint im Panel des letzten Tools rechts unten ein kleines blaues „ T “ , das uns direkt zu TüNDRA weiterleitet (vgl. Kap. 4), wo wir unser annotiertes Korpus durchsuchen können. Ein annotiertes Korpus durchsuchen In TüNDRA können wir direkt mit den Auswertungen beginnen. Allerdings muss man sich, wie in Kap. 4 eingeführt, darüber im Klaren sein, welche Annotationen mit welchen Tagsets vorliegen. In unserem Beispiel sind dies Lemmata, Wortarten nach dem STTS und Dependenzrelationen nach Tiger. Zuerst suchen wir nach allen Verben im Korpus. Uns interessieren dabei nur die Vollverben. Das ist die dazugehörige Suchanfrage: 40 SfS: Seminar für Sprachwissenschaft, Universität Tübingen 41 IMS: Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart 6. Ihr eigenes Korpus annotieren 70 narr-starter.de <?page no="72"?> #1: [pos=/ VV.*/ ] Der Button „ Run “ rechts oben startet die Abfrage. TüN- DRA gibt als Ergebnis keine Konkordanzen aus, sondern einzelne Syntaxbäume, durch die Sie navigieren können. Neu an der Anfrage oben ist, dass wir #1: als Variable vor die eckige Klammer stellen, die für das Token steht. Dies erlaubt uns, über „ Stats “ , ebenfalls rechts oben, Zusammenfassungen für die Ergebnisse zu erstellen. Hierbei muss man angeben, welche Variable (hier als _1 bezeichnet) und welches Attribut (hier pos ) angezeigt werden sollen. Über „ Download statistics “ kann man das gesamte Ergebnis sichten. Tab. 10: Verteilung der Vollverbformen nach dem STTS im Foodblog-Korpus (ermittelt über WebLicht und TüNDRA) Value Frequency Percentage VVINF 3666 44,36 VVFIN 3090 37,39 VVPP 1346 16,29 VVIZU 120 1,45 VVIMP 42 0,51 Tabelle 10 zeigt, dass Infinitive in den Foodblogs mit 44,36 Prozent den höchsten Prozentsatz unter den Formen der Vollverben einnehmen. Um dieses Ergebnis zu bewerten, vergleichen wir es mit der Verbverteilung in einer anderen Textsorte. Dazu wählen wir das Zeitungskorpus TüBa. 42 Wir stellen fest, dass sich unsere Vermutung über das häufige Auftreten von Infinitiven in Foodblogs bestätigt. In TüBa stehen sie mit 19,63 Prozent nur auf Rang 3 hinter VVFIN (53,79 Prozent) und VVPP (24,10 Prozent). 42 In TüNDRA „ Load treebank “ : „ TüBa-D/ Z v11, Constituency “ . 6.1 Automatische Annotation 71 narr-starter.de <?page no="73"?> Beachten Sie, dass automatische Annotationen immer auch Fehler enthalten. Um abschätzen zu können, wie zuverlässig diese Analyse ist, müsste man zumindest eine Stichprobe der Verben manuell kontrollieren. Wir wollen auch wissen, welche Verblemmata in der Korpusabfrage oben gefunden wurden. Um das ausgeben zu lassen, müssen wir bei der letzten Anfrage nur bei „ Stats “ das Attribut „ lemma “ auswählen. Die Verben geben (353 Treffer) und lassen (347) sind am häufigsten vertreten. Die häufigsten Verben mit semantischem Bezug zum Foodblog sind schneiden (125) und backen (98) auf Rang 4 und 6. Die nächste Frage geben wir an Sie weiter: Untersuchen Sie, welche Akkusativobjekte zu backen im Foodblog-Korpus annotiert sind. Sie benötigen hierzu die in WebLicht erstellten, nach TüNDRA überführten Annotationen von foodblogs_all. txt Die Anfrage lautet: #1: [lemma="backen"] >OA #2: [pos=/ N./ ] Die Suche nach den Akkusativobjekten ist hier auf nominale Wortarten (NN und NE) eingeschränkt, um Falsch-Positive zu minimieren. Bei der Zusammenfassung in „ Stats “ wählen Sie die Variable _2 und das Attribut lemma , um die Lemmata für das Objekt zu sichten. Was für Falsch-Positive finden Sie? Ein Nachteil der Analyse in TüNDRA besteht darin, dass wir hier alle Texte in einer Datei zusammenfassen müssen und keinen Zugriff auf die Metadaten der einzelnen Texte haben. Das Suchtool ANNIS erlaubt, ähnlich wie AntConc (vgl. Kap. 5.4), viele Dateien so in ein gemeinsames Korpus zusammenzufassen und auszuwerten, dass man gleichzeitig nach den Metadaten filtern kann, z. B. nach bestimmten Textsorten oder Entstehungszeiten. Hierfür müssen wir jede Datei zuerst einzeln annotieren und dann in das ANNIS- 6. Ihr eigenes Korpus annotieren 72 narr-starter.de <?page no="74"?> Format (relANNIS) umwandeln. Dieser Vorgang sprengt leider den Rahmen unserer Einführung, ist aber auf der Webseite von ANNIS gut dokumentiert (corpus-tools.org). 6.2 Manuelle Annotation Um zu ermitteln, ob das Pronomen ich vor allem am Textanfang bzw. in der eher biografischen Einleitung des Blogtextes auftritt, müssen wir Textstrukturen annotieren. Hierfür gibt es kein automatisches Tool. Abb. 14 zeigt eine manuelle Textstruktur-Annotation in EXMARaLDA. Über das Gesamtkorpus kann man dann mit dem EXMARaLDA- Suchtool EXACT suchen oder aber die Dateien wie oben in das ANNIS-Format umwandeln und dort durchsuchen. Alternativ könnten Sie die Textstrukturen in CATMA annotieren und durchsuchen, wie wir es im Folgenden beschreiben. Abb. 14: Strukturannotation von kochzivilisten_01.txt in EXMARaLDA Bei der manuellen Annotation ist es unbedingt notwendig, die Kategorien in Annotationsguidelines genau zu beschreiben. So wird sichergestellt, dass wir auch nach mehreren Monaten oder Jahren noch wissen, wie wir bei der Annotation vorgegangen sind. Außerdem wird die Annotation dadurch für andere nachvollziehbar und damit nachnutzbar. Wenn es möglich ist, bittet man eine zweite Person, die Texte ebenfalls nach den Guidelines zu annotieren, um die Ergeb- 6.2 Manuelle Annotation 73 narr-starter.de <?page no="75"?> nisse zu vergleichen und zu überprüfen, wie zuverlässig und objektiv die Annotationen sind (vgl. Lemnitzer/ Zinsmeister 2015, 101 - 104). Für die Annotation der Textstruktur in CATMA haben wir in den Guidelines folgende Textteile unterschieden: Rezeptrahmung Viele Artikel in Foodblogs beginnen mit einer - oft autobiografischen - Erzählung, in der die Präsentation des Rezeptes motiviert wird. Ebenfalls zu dieser Kategorie zählen wir Kommentare zum Rezept, etwa Empfehlungen zu bestimmten Zutaten oder Utensilien. Die Rahmung kann an jeder Position im Artikel vorkommen. Zutatenliste Eine für ein Rezept auch außerhalb von Foodblogs typische, syntaktisch nicht eingebundene Liste von Zutaten. Vorgehensbeschreibung Die für ein Rezept auch außerhalb von Foodblogs typische Beschreibung der Arbeitsschritte. Empfehlungen für Beilagen zählen wir zur Vorgehensbeschreibung. Sonstiges Dieses Label kann für Textabschnitte verwendet werden, die in keine der vorangehenden Kategorien passen. Anmerkungen: (Zwischen-)Überschriften werden nicht annotiert. Im Normalfall werden ganze Absätze annotiert. Kleinteiliger differenziert wird nur in auffälligen Hybridfällen. 6. Ihr eigenes Korpus annotieren 74 narr-starter.de <?page no="76"?> Annotationsguidelines werden typischerweise im Laufe der Annotation weiterentwickelt. Mit der Annotation neuer Texte stößt man auf neue Zweifelsfälle, die evtl. eine Präzisierung der Kategorien oder die Einführung zusätzlicher Kategorien erfordern. Dieser Prozess kann sehr aufwendig sein, aber wir lernen dabei meistens sehr viel über unseren Untersuchungsgegenstand, weil die Annotation uns zu einer präzisen Beschreibung zwingt (ausführlicher zum sog. Annotationszyklus: Lemnitzer/ Zinsmeister 2015, 103). 43 CATMA 44 ist ein kostenfreies Tool, das lediglich eine Anmeldung erfordert. Die Annotation in CATMA ist gut dokumentiert und intuitiv durchzuführen. Abbildung 15 zeigt auf der rechten Seite die Annotationskategorien und die Zuordnung der Farben (hier in schwarz-weiß). Auf der linken Seite sehen Sie einen annotierten Ausschnitt aus dem Text mangoseele_04.txt . 43 Bei der Umsetzung der obenstehenden Guidelines stellte sich etwa heraus, dass die Abgrenzung von Rezeptrahmung und Vorgehensbeschreibung nicht immer eindeutig ist. In einem nächsten Annotationsdurchlauf müssten die Guidelines entsprechend verfeinert werden. 44 www.catma.de. Wir arbeiten mit der Version CATMA 5. Mit der für Anfang 2019 geplanten Umstellung auf CATMA 6 wird sich die Oberfläche verändern und der Funktionsumfang erweitern. 6.2 Manuelle Annotation 75 narr-starter.de <?page no="77"?> Abb. 15: Annotation von Textteilen in CATMA 5 (im Original farbig) CATMA ermöglicht eine Reihe von Auswertungen. Wir beschränken uns darauf, alle annotierten Textteile mit ihrem Tag zu exportieren. Dazu verwenden wir folgende Suchanfrage: # tag="%" Das Prozent-Zeichen ist dabei ein Platzhalter für ein beliebiges Tag. In der Ergebnisübersicht „ Result by Tag “ laden wir das Ergebnis als Tabelle ( „ flat table “ ) herunter. Sie können diese Tabelle ebenfalls hier herunterladen: doi.org/ 10.5281/ zenodo.1410445. Es zeigt sich, dass der Umfang von Rezeptrahmung und Vorgehensbeschreibung in allen Blogs zusammen ungefähr gleich groß ist: 32 713 bzw. 33 069 Token. Das Pronomen ich kommt in der Rahmung aber 750-mal vor, in den Vor- 6. Ihr eigenes Korpus annotieren 76 narr-starter.de <?page no="78"?> gehensbeschreibungen nur 95-mal. In relativen Frequenzen macht das 22,93-mal pro 1000 Token im Rahmen und nur 2,87-mal pro 1000 Token in der Vorgehensbeschreibung. Filtern Sie den Text in der Tabelle nach Textteil, kopieren Sie den Text in ein neues Textdokument und führen Sie teilspezifische Auswertungen durch. Wie verändert sich zum Beispiel die in Kap. 5.4 mit AntConc erzeugte Keyword-Liste, wenn Sie nur die Rezeptrahmung oder nur die Vorgehensbeschreibungen berücksichtigen? Welche Merkmale des vollständigen Korpus sind auf welche Textteile zurückzuführen? 6.2 Manuelle Annotation 77 narr-starter.de <?page no="79"?> 7. Korpuslinguistische Ergebnisse präsentieren Nachdem Sie eine korpuslinguistische Untersuchung durchgeführt haben, werden Sie in der Mehrzahl der Fälle schriftlich von Ihrer Untersuchung berichten wollen, sei es in einer Haus- oder Abschlussarbeit oder in einem wissenschaftlichen Artikel. In diesem Kapitel geht es darum, wie Sie einen solchen Text gestalten können. Wichtig ist dabei die saubere Dokumentation aller Schritte Ihrer Untersuchung. Eine wichtige Rolle spielt bei den Ergebnissen die Präsentation von Zahlen. Oft bietet sich zur Erhöhung der Verständlichkeit eine Visualisierung Ihrer Ergebnisse als Diagramm an. 7.1 Dokumentation Korpuslinguistische Untersuchungen finden in der Regel im Kontext wissenschaftlichen Arbeitens statt. Um wissenschaftlichen Anforderungen zu genügen, müssen Ihre Ergebnisse nachvollziehbar und idealerweise sogar reproduzierbar sein. Das bedeutet, dass jede Person, die Ihren Text gelesen hat, Ihre Schritte selbst wiederholen können und zu den gleichen Ergebnissen kommen muss. Auf diese Weise wird sichergestellt, dass alle anderen Mitglieder der wissenschaftlichen Gemeinschaft die Ergebnisse prüfen und bei Bedarf kritisieren können. Deshalb sollte sich auch die Dokumentation Ihrer Untersuchung immer an der Maßgabe orientieren, dass die Leserin des Textes jeden Ihrer Schritte nachvollziehen kann. Was umfasst das konkret? narr-starter.de <?page no="80"?> Datengrundlage Zunächst muss die Leserin wissen, mit welchen Daten Sie gearbeitet haben. Im einfachsten Fall basiert Ihre Untersuchung auf einem Korpus, das ohnehin öffentlich verfügbar ist. Bei vielen Korpora findet sich auf der Webseite ein Hinweis dazu, wie das Korpus zitiert werden soll. Für das DeReKo beispielsweise wird folgende Zitierweise empfohlen: Das Deutsche Referenzkorpus DeReKo, http: / / www.ids-mannheim.de/ kl/ projekte/ korpora/ , am Institut für Deutsche Sprache, Mannheim Falls Sie nur mit einem Teil des Korpus gearbeitet haben, denken Sie daran, Ihre Auswahl zu beschreiben. Das De- ReKo bietet etwa die Möglichkeit, die Suche auf eine oder mehrere bestimmte Quellen oder Zeiträume zu beschränken. Wenn Sie mit einem selbst zusammengestellten Korpus arbeiten, ist die Beschreibung in der Regel etwas aufwendiger, orientiert sich aber genauso an der Reproduzierbarkeit. Welche Texte haben Sie in Ihr Korpus aufgenommen (und warum)? Je nachdem, mit welchen Textsorten Sie arbeiten, sind unterschiedliche Angaben erforderlich. Am einfachsten sind wiederum schriftliche, in irgendeiner Form publizierte Texte. Geben Sie in diesem Fall die genaue Quelle Ihrer Texte an, zum Beispiel die URL der Webseite (mit dem Zeitpunkt des letzten Aufrufs) oder die bibliografischen Angaben des Buches samt Auflage. So kann die Leserin die Quellentexte selbst auch an diesem Ort finden. Bei unveröffentlichten Daten geht das natürlich nicht. Wenn Sie mit unveröffentlichten Daten arbeiten, sollten Sie die Texte im Fall einer Prüfungsleistung mit abgeben, um Ihre Arbeit für die Gutachterinnen und Gut- 7.1 Dokumentation 79 narr-starter.de <?page no="81"?> achter überprüfbar zu machen. Wenn Sie eine wissenschaftliche Veröffentlichung Ihrer Arbeit planen, sollten die Daten im Idealfall der Öffentlichkeit zugänglich gemacht werden (z. B. über Zenodo). In der Praxis kann das allerdings problematisch sein, insbesondere aus Gründen des Urheberrechts oder des Datenschutzes. Informieren Sie sich gründlich darüber, was Sie mit den von Ihnen erhobenen Daten machen dürfen, und was nicht! Informationen zum Thema Urheberrecht bietet zum Beispiel die Webseite der Bundeszentrale für politische Bildung: www.bpb.de. Egal, ob Sie ein bestehendes Korpus verwenden oder selbst eines zusammenstellen: Geben Sie bei der Beschreibung der Datengrundlage immer auch die Motivation für Ihre Entscheidungen an. Diese wird in der Regel mit Ihrer Fragestellung zusammenhängen: Warum sind die verwendeten Daten Ihrer Ansicht nach zur Beantwortung Ihrer Fragestellung geeignet? Weitere Gründe für die Wahl der Daten hängen oft mit der Verfügbarkeit zusammen: Wenn bestimmte Daten bereits als Korpus oder zumindest digital vorliegen, erleichtert das natürlich die Arbeit. Diese Argumente sollten aber erst sekundär nach der Fragestellung erwogen werden. Formulierungsbeispiele ● Für die Analyse der Genitivverwendung werden zwei Korpora herangezogen: . . . ● Um die Verwendung von evaluierenden Adjektiven zu untersuchen, greife ich auf das Foodblog-Korpus zurück, da . . . 7. Korpuslinguistische Ergebnisse präsentieren 80 narr-starter.de <?page no="82"?> Analyse Nach der Beschreibung der Datengrundlage sollten Sie offenlegen, wie Sie bei der Analyse dieser Daten vorgegangen sind. Die Inhalte dieses Abschnitts sind folglich stark davon abhängig, was für eine Analyse Sie vorgenommen haben. Dennoch lassen sich ein paar allgemeine Hinweise geben. In vielen korpuslinguistischen Untersuchungen werden im Korpus Belege für ein Phänomen gesucht und anschließend auf bestimmte Eigenschaften hin kategorisiert. In Andresen (2016) zum Beispiel wurden Instanzen des Verbs diskutieren in wissenschaftlichen Texten analysiert. Erstens erfolgte eine grammatische Bestimmung danach, ob sie mit einem Akkusativobjekt (1) oder einem Präpositionalobjekt (2) verwendet werden. (1) Meiritz (2014) diskutiert die Ergebnisse der Umfrage. (2) Die Talkshowgäste diskutieren über den Klimawandel. Zweitens wurde eine semantische Kategorisierung vorgenommen, bei der unterschieden wurde, ob der referenzierte Vorgang des Diskutierens innerhalb (1) oder außerhalb wissenschaftlicher Texte (2) stattfindet. Aus der Dokumentation der Analyse sollte klar werden, wie Sie Ihre Analysekategorien operationalisiert haben: Anhand welcher Kriterien werden die Kategorien zugeordnet? Wie sind Sie mit Zweifelsfällen umgegangen? Im obigen Beispiel wäre zum Beispiel zu klären, ob auch Objektsätze als Akkusativobjekt gewertet werden (Wir diskutieren, ob . . .), oder einer eigenen Kategorie zugewiesen werden. Auch hier ist das Ziel, einer anderen Person die Reproduktion der Analyse zu ermöglichen. Je nach Analysekriterien ist dieser 7.1 Dokumentation 81 narr-starter.de <?page no="83"?> Idealzustand unterschiedlich schwierig herzustellen. Bei stark subjektiven Kategorien (z. B. Stereotype) wird dies kaum möglich sein. Häufig vergessen wird, die für die Analyse verwendeten Tools zu zitieren (zum Beispiel für die Suche im Korpus oder die Annotation der Daten). Auch hier gibt es meistens Empfehlungen auf den Webseiten der Tools. Für das Abfragesystem COSMAS II, mit dem das DeReKo durchsucht werden kann, wird folgende Referenz empfohlen: COSMAS I/ II (Corpus Search, Management and Analysis System), http: / / www.ids-mannheim.de/ cosmas2/ , © 1991 - 2016 Institut für Deutsche Sprache, Mannheim Auch im Zuge der Analyse produzierte Daten, wie zum Beispiel Annotationen in Form von Tabellendokumenten, sollten den Gutachterinnen und Gutachtern der Arbeit bzw. der Öffentlichkeit nach Möglichkeit zur Verfügung gestellt werden. Da solche Analysen meistens nur Auszüge aus Texten enthalten, ist ihre Veröffentlichung manchmal auch möglich, wenn das untersuchte Korpus selbst aus Gründen des Urheberrechts nicht veröffentlicht werden kann. Formulierungsbeispiele ● Für die folgende Analyse wurden die Treffer zum Suchausdruck "diskutieren" ->dep "mit" herangezogen. ● Als „ biografisch “ klassifiziere ich alle Textabschnitte, die folgende Kriterien erfüllen: [. . .] 7. Korpuslinguistische Ergebnisse präsentieren 82 narr-starter.de <?page no="84"?> 7.2 Zahlen präsentieren Viele Ergebnisse korpuslinguistischer Analysen bestehen in Zahlen, insbesondere in Frequenzen der sprachlichen Phänomene, die Gegenstand der Untersuchung sind. Für ihre Darstellung bietet sich die Nutzung von Tabellen und Diagrammen an. Bereits in Kap. 2 wurde auf die Wichtigkeit von relativen Frequenzen beim Vergleich von Frequenzen hingewiesen. Relative Frequenzen werden oft als Zahl zwischen 0 und 1 dargestellt. Je nach Größe der Werte kann eine Multiplikation mit einem Vielfachen von 10 die Lesbarkeit erhöhen, z. B. mit 100, um Prozente zu erhalten. Achten Sie aber darauf, dass ihre Datengrundlage nicht deutlich kleiner ist als der Multiplikator. Angenommen, Sie untersuchen 100 Wörter und das Wort Ihres Interesses kommt einmal vor. Die relative Frequenz ist damit 0,01. Hier können Sie guten Gewissens einen Multiplikator von 100 nutzen und sagen, das Wort mache 1 % Ihrer Stichprobe aus. Wenn Sie stattdessen einen Multiplikator von 10 000 verwenden und behaupten, das Wort käme 100-mal pro 10 000 Wörter vor, beschreibt das zwar das gleiche Größenverhältnis, ist aber sehr stark hochgerechnet und nicht durch Ihre Stichprobe nachweisbar. Aus diesem Grund sollten Sie, auch wenn Sie für den Vergleich relative Zahlen nutzen, immer auch die absoluten Zahlen nennen. Üblich ist es, dazu die Größe der Stichprobe zu benennen. Formulierungsbeispiele ● Es wurden 200 Belege des Wortes diskutieren untersucht, davon werden 27 % mit einem Präpositionalobjekt verwendet. 7.2 Zahlen präsentieren 83 narr-starter.de <?page no="85"?> ● Das Wort kochen kommt im Foodblog-Korpus 5-mal häufiger vor als das Wort braten. ● Das Wort Olivenöl kommt im Korpus 112-mal vor, was einem relativen Anteil von 0,0014 entspricht. ● Die beiden untersuchten Korpora unterscheiden sich sehr deutlich in der Frequenz des Worts Rhetorik: . . . Tabellen Tabellen sind eine sehr einfache Form, (nicht nur) Zahlen, die miteinander in Zusammenhang stehen, kompakt zu präsentieren. Tabellen können unterschiedlich organisiert sein. Im einfachsten Fall steht jede Zeile der Tabelle für ein Objekt (im weitesten Sinne) und erfasst unterschiedliche Eigenschaften des Objektes. Diese Form wird häufig als Urdatenset bezeichnet. Tabelle 11 zeigt dies am Beispiel der grammatischen Bestimmung der Verbalkomplexe in einem (hypothetischen) Text. Tab. 11: Beispiel einer Tabelle zur Analyse von Verbalkomplexen ID Verbalkomplex Vollverblemma Tempus Genus Verbi 1 diskutiert diskutieren Präsens Aktiv 2 hat gesagt sagen Perfekt Aktiv 3 wird empfohlen empfehlen Präsens Passiv 4 . . . . . . . . . Häufige Verwendung finden außerdem Kreuztabellen. Hier steht nicht mehr eine Zeile für eine Instanz. Stattdessen werden zwei relevante Attribute herausgegriffen und ihre Werte als Spaltenbzw. Zeilenbezeichnungen verwendet. In 7. Korpuslinguistische Ergebnisse präsentieren 84 narr-starter.de <?page no="86"?> den Feldern dazwischen wird dann angegeben, auf wie viele Instanzen die entstandene Merkmalskombination zutrifft. In Tabelle 12 werden als Beispiel die Attribute Tempus und Genus Verbi aus Tabelle 11 gekreuzt. Tab. 12: Beispiel für eine Kreuztabelle mit den Attributen Tempus und Genus Verbi Passiv Aktiv Summe Präsens 58 43 101 Perfekt 25 65 90 Summe 83 108 191 Tabellen werden im Text fortlaufend nummeriert und erhalten eine Beschriftung, die ihren Inhalt benennt. Die Beschriftung von Tabellen steht manchmal unter, manchmal über der Tabelle. In jedem Fall sollte es einheitlich gestaltet sein. Eine Tabelle sollte nie isoliert stehen, sondern immer im Text beschrieben und in die Argumentation eingebunden werden. Formulierungsbeispiele ● In Tabelle A sieht man alle Verbalkomplexe des Textes und ihre grammatischen Annotationen zu Verblemma, Person und Genus Verbi. Es ist erkennbar, dass . . . ● Tabelle B zeigt die relativen Frequenzen aller Modalverben über die vier Untersuchungszeiträume hinweg. Besonders auffällig ist dabei . . . Diagramme Wenn es um die Darstellung von Zahlen geht, bietet sich häufig die Visualisierung durch Diagramme an. Sie haben 7.2 Zahlen präsentieren 85 narr-starter.de <?page no="87"?> den Vorteil, dass die enthaltenen Informationen leichter im Zusammenhang erfasst werden können. Ein schlecht gewähltes Diagramm kann aber auch den gegenteiligen Effekt haben. Das in Zeitungen beliebte Kreis- oder Tortendiagramm wird in wissenschaftlichen Texten eher vermieden. Grund dafür ist, dass der optische Vergleich der dargestellten Gruppen durch die unterschiedlichen Ausrichtungen der „ Tortenstücke “ nicht sehr präzise ist (Few 2007). Auch eine Messung des Winkels zur Klarstellung ist im üblichen Druckmaßstab nicht sehr genau. Das häufigste Diagramm in wissenschaftlichen Kontexten ist das Säulen- oder Balkendiagramm. Von Säulen sprechen wir bei einem vertikalen Verlauf, von Balken bei einem horizontalen Verlauf. Abbildung 16 zeigt beispielweise in einem Säulendiagramm, wie viele der zehn Artikel pro Blog das Wort Zucker enthalten. Abb. 16: Säulendiagramm zur Anzahl der Artikel pro Blog, in denen das Wort Zucker vorkommt (n=10 pro Blog, Darstellung in MS Excel) 7. Korpuslinguistische Ergebnisse präsentieren 86 narr-starter.de <?page no="88"?> Diagramme gelten im Text als Abbildung und auch zu ihnen gehört immer eine Beschriftung mit fortlaufender Nummerierung. Bei Abbildungen steht die Beschriftung unter der Abbildung. In der Bildunterschrift wird häufig angegeben, auf wie vielen Beobachtungen die Grafik beruht. Das ist besonders wichtig, wenn nur relative Frequenzen angegeben werden. Dieser Wert wird üblicherweise als n bezeichnet (siehe Abbildung 16 als Beispiel). Auch für Diagramme gilt: Sie sprechen nie für sich selbst, sondern müssen im Text erläutert und in die Argumentation des Textes eingebaut werden. Formulierungsbeispiele ● Abbildung A zeigt auf der x-Achse die unterschiedlichen Blogs und auf der y-Achse die Anzahl der Artikel, die das Suchwort Zucker enthalten. ● Dieser Zusammenhang wird in Abbildung B besonders klar: Je länger die Probanden in Deutschland leben (x-Achse), desto weniger Genusfehler enthalten ihre Texte (y-Achse). Signifikanztests In der Korpuslinguistik können wir oft nicht alle Belege, die zu einem Phänomen im Korpus enthalten sind, untersuchen, weil es viel zu viele sind. Es besteht aber die Möglichkeit, nur eine zufällig (! ) gezogene Stichprobe der Belege zu untersuchen und mithilfe eines Signifikanztests zu bestimmen, ob wir davon ausgehen können, dass die in der Stichprobe gefundenen Unterschiede nicht zufällig sind, sondern auf das Korpus als Ganzes zutreffen. Zusätzlich empfiehlt sich immer auch ein Maß für die Effektstärke, das die Größe 7.2 Zahlen präsentieren 87 narr-starter.de <?page no="89"?> des Unterschiedes beziffert. Für eine Einführung in die Statistik siehe z. B. Lemnitzer/ Zinsmeister (2015, Kap. 6) und weiterführend Gries (2008) oder Meindl (2011). Inwieweit auch ein Korpus als Stichprobe der Sprache im Ganzen angesehen werden kann und Rückschlüsse auf diese erlaubt, ist in der Korpuslinguistik umstritten. Da wir die Grundgesamtheit der Sprache im Ganzen nicht bestimmen und folglich auch keine Zufallsstichprobe ziehen können, sind Signifikanztests aus mathematischer Perspektive nicht sinnvoll (siehe z. B. Rieger 1979, Koplenig 2017). Sie sind aber trotzdem gängige Praxis, da sie zumindest einen Anhaltspunkt dafür bieten, ob die Ergebnisse über das Korpus hinaus verallgemeinert werden können. Vorsicht ist bei der Verwendung des Wortes signifikant geboten. In der Alltagssprache sprechen wir oft von einem signifikanten Unterschied, wenn wir einen sehr großen Unterschied meinen. In der Korpuslinguistik hingegen ist damit das statistische Konzept der Signifikanz gemeint. Wenn Sie also von einem signifikanten Unterschied schreiben, müssen Sie dazu auch einen entsprechenden Signifikanztest durchgeführt und diesen dokumentiert haben. Sprechen Sie andernfalls lieber von z. B. einem auffälligen Unterschied. Wir hoffen, dass wir bei Ihnen ein wenig Neugier auf die Korpuslinguistik geweckt haben, Sie sich nun einfache Untersuchungen zutrauen und über die Terminologie verfügen, um zu weiterführenden Fragen selbstständig zu recherchieren. 7. Korpuslinguistische Ergebnisse präsentieren 88 narr-starter.de <?page no="90"?> Glossar Annotation Unter A. versteht man die linguistische Anreicherung der Primärdaten eines Korpus. Der Begriff bezeichnet sowohl den Prozess als auch das Ergebnis. Typische Annotationen sind Lemmata, Wortarten und syntaktische Funktionen. CSV-Datei CSV steht für ‚ comma-separated values ‘ . Es handelt sich dabei um eine Textdatei, in der eine tabellarische Struktur wiedergegeben wird. Der Sprung von einer Spalte in die nächste wird dabei durch ein bestimmtes Zeichen wie das Komma kodiert. Besonders häufig ist das tabstoppgetrennte Format. Konkordanz Siehe KWiC-Ansicht. Korpus, das Ein K. ist eine (typischerweise digitale,) zu Forschungszwecken zusammengestellte Sammlung schriftlicher oder gesprochener Äußerungen. Ein Korpus kann neben den Primärdaten noch Annotationen und Metadaten umfassen. KWiC-Ansicht K. steht für ‚ keyword in context ‘ und bezeichnet eine Ansicht, bei der pro Zeile ein Korpustreffer zu einem Suchausdruck steht. Das Suchwort steht zentriert und rechts und links ist ein Kontext von z. B. zehn Wörtern sichtbar. Lemma Das L. ist die Grundform einer bestimmten lexikalischen Einheit und steht stellvertretend für alle Wortformen dieser lexikalischen Einheit. Wenn in einem Korpus alle Token mit dem dazugehörigen Lemma annotiert werden, bezeichnen wir das als Lemmatisierung. narr-starter.de <?page no="91"?> Metadaten Als M. werden Beschreibungen der Primärdaten und Annotationen eines Korpus bezeichnet. M. geben z. B. Auskunft über die Herkunft und den Umfang der Primärdaten. Parsing Das P. bezeichnet den Prozess der syntaktischen Textanalyse. Ein Parser ist ein Computerprogramm, das Texten eine syntaktische Analyse zuweist, z. B. in Form eines Phrasenstruktur- oder Dependenzbaums. Part-of-Speech P. (oft kurz POS) ist das englische Wort für Wortart. In der Korpuslinguistik wird, insbesondere wenn es um die Automatisierung geht, häufig das englische Wort benutzt. Primärdaten Als P. werden die Texte bzw. Äußerungen bezeichnet, die in einem Korpus versammelt sind. Token Ein T. bezeichnet das Vorkommen eines Wortes (inkl. Interpunktion) an einer bestimmten Stelle im Korpus. Die Größe von Korpora wird häufig in T. angegeben. Tagging Beim T. (auch POS-Tagging) werden den Token eines Korpus Wortartenlabel (sog. Tags) zugeordnet. Ein Computerprogramm, das das automatisch macht, heißt Tagger. Tokenisierung Bei der T. werden Texte in Sätze und diese in Token zerlegt. Ein Tokenizer ist ein Computerprogramm, das diese Zerlegung durchführt. Type In einem T. werden die Token eines Korpus zusammengefasst, die nach einem festgelegten Kriterium ähnlich oder gleich sind, z. B. alle Token mit gleicher orthographischer Form. Glossar 90 narr-starter.de <?page no="92"?> Literatur Adler, Astrid. 2018. Die Frage zur Sprache der Bevölkerung im deutschen Mikrozensus 2017. Arbeitspapiere. Mannheim: Institut für Deutsche Sprache. urn: nbn: de: bsz: mh39-73180 Andresen, Melanie. 2016. Im Theorie-Teil der Arbeit werden wir über Mehrsprachigkeit diskutieren - Sprechhandlungsverben in Wissenschafts- und Pressesprache. Zeitschrift für angewandte Linguistik 64 (1). 47 - 66. doi: 10.1515/ zfal-2016-0001 Anthony, Laurence (2018). AntConc (Version 3.5.7). Tokyo, Japan: Waseda University. www.laurenceanthony.net/ software Björkelund, Anders; Bohnet, Bernd; Hafdell, Love & Nugues, Pierre. 2010. A High-Performance Syntactic and Semantic Dependency Parser. In: Coling 2010: Demonstration Volume, 33 - 36. Peking, China. Brinker, Klaus; Cölfen, Hermann & Pappert, Steffen. 2014. Linguistische Textanalyse. Eine Einführung in die Grundbegriffe und Methoden. 8., neu bearbeitete und erweiterte Auflage. Berlin: Erich Schmidt Verlag. Dipper, Stefanie; Müller, Stefan; Donhauser, Karin; Klein, Thomas; Linde, Sonja & Wegera, Klaus-Peter. 2013. HiTS: Ein Tagset für Historische Sprachstufen des Deutschen. In: Journal for Language Technology and Computational Linguistics (JLCL) 28 (1): 85 - 137. Eckart de Castilho, Richard; Mújdricza-Maydt, Éva, Yimam, Seid Muhie; Hartmann, Sylvana; Gurevych, Iryna; Frank, Anette & Biemann, Chris. 2016. A Web-based Tool for the Integrated Annotation of Semantic and Syntactic Structures. In: Proceedings of the LT4DH workshop at COLING 2016, 76 - 84. Osaka, Japan. Evert, Stefan. 2006. How Random is a Corpus? The Library Metaphor. Zeitschrift für Anglistik und Amerikanistik 54 (2): 177 - 190. doi: 10.1515/ zaa-2006-0208 narr-starter.de <?page no="93"?> Evert, Stefan. 2008. Corpora and Collocations. In: Anke Lüdeling & Merja Kytö (Hrsg.), Corpus Linguistics: An International Handbook (Handbücher zur Sprach- und Kommunikationswissenschaft 29), vol. 2, 1212 - 1248. Berlin, Boston: De Gruyter. Few, Stephen. 2007. Save the Pies for Dessert. Visual Business Intelligence Newsletter. www.perceptualedge.com/ articles/ visual_business_intelligence/ save_the_pies_for_dessert.pdf Foth, Kilian A. 2006. Eine umfassende Constraint-Dependenz-Grammatik des Deutschen. Universität Hamburg. urn: nbn: de: gbv: 18- 228-7-2048 Geyken, Alexander. 2007. The DWDS Corpus: A Reference Corpus for the German Language of the 20th Century. In: Christiane Fellbaum (Hrsg.), Collocations and Idioms: Linguistic, Lexicographic, and Computational Aspects, 23 - 41. London: Continuum Press. Geyken, Alexander. 2011. Statistische Wortprofile zur schnellen Analyse der Syntagmatik in Textkorpora. In: Andrea Abel & Renata Zanin (Hrsg.). Korpora in Lehre und Forschung, 115 - 137. Bozen-Bolzano University Press. Gries, Stefan Th. 2008. Statistik für Sprachwissenschaftler. (Studienbücher zur Linguistik 13). Göttingen: Vandenhoeck & Ruprecht. Klein, Thomas & Dipper, Stefanie. 2016. Handbuch zum Referenzkorpus Mittelhochdeutsch. Bochumer Linguistische Arbeitsberichte 19. Koplenig, Alexander. 2017. Against Statistical Significance Testing in Corpus Linguistics. Corpus Linguistics and Linguistic Theory (Ahead of print). doi: 10.1515/ cllt-2016-0036 Krause, Thomas & Zeldes, Amir. 2016. ANNIS3: A New Architecture for Generic Corpus Query and Visualization. In: Digital Scholarship in the Humanities 31 (1), 118 - 139. Kupietz, Marc; Belica, Cyril; Keibel, Holger & Witt, Andreas. 2010. The German Reference Corpus DeReKo: A primordial sample for linguistic research. In: Proceedings of the 7th Conference on International Language Resources and Evaluation (LREC 2010), 1848 - 1854. Valletta, Malta. Literatur 92 narr-starter.de <?page no="94"?> Lemnitzer, Lothar & Zinsmeister, Heike. 2015. Korpuslinguistik: eine Einführung. 3., überarbeitete und erweiterte Auflage. (Narr Studienbücher). Tübingen: Narr. Lofgren, Jennifer. 2013. Food Blogging and Food-related Media Convergence. M/ C Journal 16 (3). Martens, Scott. 2013. TüNDRA: A Web Application for Treebank Search and Visualization. In: Proceedings of the Twelfth Workshop on Treebanks and Linguistic Theories (TLT12), 133 - 44. Sofia, Bulgarien. Meindl, Claudia. 2011. Methodik für Linguisten. (Narr Studienbücher). Tübingen: Narr. Meißner, Cordula. 2008. Eine gebrauchsorientierte Beschreibung des Sprachsystems mit Hilfe der Korpuslinguistik - das Beispiel der Synonyme ewig und unendlich. Deutsch als Fremdsprache 45 (1): 8 - 13. Meister, Jan Christoph; Petris, Marco; Gius, Evelyn & Jacke, Janina. 2018. CATMA 5.2. doi: 10.5281/ zenodo.1470119 Müller, Thomas; Schmid, Helmut & Schütze, Hinrich. 2013. Efficient Higher-Order CRFs for Morphological Tagging. In: Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP), 322 - 332. Seattle, Washington. Reznicek, Marc; Lüdeling, Anke; Krummes, Cedric; Schwantuschke, Franziska; Walter, Maik; Karin Schmidt; Hirschmann, Hagen & Andreas, Torsten. 2012. Das Falko-Handbuch. Korpusaufbau und Annotationen Version 2.01. Humboldt-Universität zu Berlin. Rychlý, Pavel. 2007. Manatee/ Bonito - A Modular Corpus Manager. In: Proceedings of the 1st Workshop on Recent Advances in Slavonic Natural Language Processing, 65 - 70. Brno, Tschechien. Rehbein, Jochen; Schmidt, Thomas; Meyer, Bernd; Watzke, Franziska & Herkenrath, Annette. 2004. Handbuch für das computergestützte Transkribieren nach HIAT. Arbeiten zur Mehrsprachigkeit, Folge B 56, Sonderforschungsbereich 538. http: / / exmaralda. org/ de/ hiat/ Rieger, Burghard. 1979. Repräsentativität: Von der Unangemessenheit eines Begriffs zur Kennzeichnung eines Problems linguistischer Korpusbildung. In: Henning Bergenholtz & Burkhard Schaeder Literatur 93 narr-starter.de <?page no="95"?> (Hrsg.), Empirische Textwissenschaft: Aufbau und Auswertung von Text-Corpora, 52 - 70. Königstein/ Taunus: Scriptor. Rösiger, Ina; Schulz, Sarah & Reiter, Nils. 2018. Towards Coreference for Literary Text: Analyzing Domain-Specific Phenomena. In: Proceedings of the Second Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2018), 129 - 138. Santa Fe, New Mexico. Schäfer, Roland. 2015. Processing and Querying Large Web Corpora with the COW14 Architecture. In: Proceedings of CMLC-3, 28 - 34. Lancaster, England. Schäfer, Roland & Bildhauer, Felix. 2012. Building Large Corpora from the Web Using a New Efficient Tool Chain. In: Proceedings of the Language Resources and Evaluation Conference (LREC- 2012), 486 - 493. Istanbul, Türkei. Schiller, Anne; Teufel, Simone; Stöckert, Christine & Thielen, Christine. 1999. Guidelines für das Tagging deutscher Textcorpora mit STTS. Universität Stuttgart & Universität Tübingen. http: / / www. ims.uni-stuttgart.de/ forschung/ ressourcen/ lexika/ TagSets/ stts- 1999.pdf Schmidt, Thomas. 2012. EXMARaLDA and the FOLK Tools. In: Proceedings of the Language Resources and Evaluation Conference (LREC-2012), 236 - 240. Istanbul, Türkei. Schmidt, Thomas. 2014. Gesprächskorpora und Gesprächsdatenbanken am Beispiel von FOLK und DGD. In: Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion 15, 196 - 233. Stede, Manfred (Hrsg.) 2016. Handbuch Textannotation: Potsdamer Kommentarkorpus 2.0. Potsdam Cognitive Science Series Vol. 8. Universitätsverlag Potsdam, urn: nbn: de: kobv: 517-opus4-827 Telljohann, Heike; Hinrichs, Erhard; Kübler, Sandra; Zinsmeister, Heike & Beck, Kathrin. 2017. Stylebook for the Tübingen Treebank of Written German (TüBa-D/ Z). Universität Tübingen. www.sfs.uni-tuebingen.de/ fileadmin/ static/ ascl/ resources/ tuebadz -stylebook-1707.pdf Trognitz, Martina. 2017. Dateibenennung. In: IANUS (Hrsg.), IT- Empfehlungen für den nachhaltigen Umgang mit digitalen Daten Literatur 94 narr-starter.de <?page no="96"?> in den Altertumswissenschaften. https: / / www.ianus-fdz.de/ itempfehlungen/ dateibenennung Westpfahl, Swantje; Schmidt, Thomas; Jonietz, Jasmin & Borlinghaus, Anton. 2017. STTS 2.0. Guidelines für die Annotation von POS-Tags für Transkripte gesprochener Sprache in Anlehnung an das Stuttgart Tübingen Tagset (STTS). Arbeitspapier. Mannheim: Institut für Deutsche Sprache. urn: nbn: de: bsz: mh39-60634 Zinsmeister, Heike. 2015. Chancen und Grenzen von automatischer Annotation. In: Noah Bubenhofer & Joachim Scharloth (Hrsg.), Themenheft „ Maschinelle Textanalyse “ . Zeitschrift für Germanistische Linguistik 43 (1): 84 - 110. Literatur 95 narr-starter.de <?page no="97"?> Sachregister Annotation 10 ff., 15, 21, 31 ff., 36 f., 41 ff., 45 f., 48, 51, 53 f., 59, 61, 63, 69 f., 72 ff., 76, 82, 85, 89 f. Attribut 36, 46 ff., 50 ff., 71 f., 84 f. Ausgewogen 17, 62 Authentisch 12, 16 f. Falsch-Negative 23 f., 61 Falsch-Positive 23 f., 72 Frequenz - absolut 27, 29 f., 55 ff., 60 f., 64, 80 - relativ 26 ff., 77, 83 ff., 87 Guidelines 35, 38, 58, 73 ff. Keyword 60 ff., 77 Kollokation s. Kookkurrenz Konkordanz s. KWiC-Ansicht Kookkurrenz 29 Korpus, Korpora 9, 15 ff., 18 f., 25, 59 ff., 89 Korpuslinguistik 71 Kreuztabelle 84 f. KWiC-Ansicht 25 f., 39, 64 f., 68, 71, 89 Lemma, Lemmata 10 ff., 21, 32 f., 36, 40, 42, 46, 48, 54, 70, 72, 89 Lizenz 62 Metadaten 12 ff., 18, 24 f., 59, 61 ff., 72, 89 f. Normalisierung 40, 42 Operationalisierung 45 ff., 81 POS s. Wortart Primärdaten 10, 69, 89 f. Regulärer Ausdruck, RegEx 21 ff., 31, 35 f., 49 f. Schlüsselwort s. Keyword Stichprobe 16 f., 30, 72, 83, 87 f. Stoppwort 65 Textsorte 13 f., 17, 25, 59 f., 64, 67 f., 71 f., 79 Token 18 f., 32 f., 43, 46 ff., 51 f., 56, 71, 89 f. Tokenisierung 31 f., 70, 90 Transkription, transkribiert 15, 43 Type-Token-Ratio 32 Urdatenset 84 UTF-8 63 Wortart 11 f., 24, 31, 33 ff., 36, 42 f., 47 ff., 61, 70, 72, 89 f. Wortartentagging 33, 35 f., 42 Wortprofil 39 f., 53 ff. Zipf ’ sche Verteilung 64 narr-starter.de <?page no="98"?> MIT narr STARTER BEGINNEN, MIT narr STUDIENBÜCHER VERTIEFEN, ERFOLGREICH STUDIEREN! www.narr-STARTER.de <?page no="99"?> ISBN 978-3-8233-8226-3 für einen schnellen Einstieg ins Thema Grundbegriffe und wichtige Zusammenhänge schnell erfasst ideal für die Seminarvorbereitung in den ersten Semestern Die Korpuslinguistik analysiert Sammlungen gesprochener und geschriebener Sprache, sog. Korpora, auf überwiegend quantitative Weise. In diesem Band wird anhand konkreter Beispiele gezeigt, welche Korpora des Deutschen es gibt, wie man sie durchsuchen kann und wie man bei Bedarf ein eigenes Korpus erstellt. Ein Schwerpunkt liegt dabei auf linguistischen Annotationen, die die Texte um Informationen wie Wortarten, Syntax oder Diskursphänomene ergänzen. Ein abschließendes Kapitel ist der Frage gewidmet, wie man korpuslinguistische Ergebnisse z.B. in einer germanistischen Hausarbeit präsentiert. www.narr-starter.de www.narr-studienbuecher.de www.narr.de