POS-Tagging für Transkripte gesprochener Sprache
Entwicklung einer automatisierten Wortarten-Annotation am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK)
0330
2020
978-3-8233-9361-0
978-3-8233-8361-1
Gunter Narr Verlag
Swantje Westpfahl
10.2357/9783823393610
CC BY-SA 4.0https://creativecommons.org/licenses/by-sa/4.0/deed.de
Der Band leistet eine theoretisch begründete und empirisch validierte Entwicklung einer automatisierten Wortartenannotation (Part-of-Speech-Tagging) für Transkripte spontansprachlicher Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), das über die Datenbank für Gesprochenes Deutsch der Forschungsgemeinschaft öffentlich zugänglich ist. Dabei setzt er zwei Schwerpunkte: erstens die theoretische Aufarbeitung von Unterschieden von Transkripten gesprochener Sprache zu schriftsprachlichen Daten in Hinblick auf die Entwicklung eines Tagsets für das gesprochene Deutsch; zweitens die Darstellung der empirischen Arbeitsschritte zur Erstellung des automatisierten Part-of-Speech-Taggings, d. h. die Implementierung und Evaluierung für die Annotation des FOLK-Korpus. Der Band ist eine kritische Reflexion der Wortartentheorien im Spannungsfeld zwischen Theorie und datengeleiteter Arbeit. Er gibt Einblicke über die Korpusaufbereitung von Transkripten gesprochener Sprache und stellt diese in Bezug zu Theorien über die Eigenheiten gesprochener Sprache.
Die Autorin hat für ihre Arbeit 2020 den Peter-Roschy-Preis des Vereins der Freunde des Leibniz-Instituts für Deutsche Sprache erhalten.
<?page no="0"?> ISBN 978-3-8233-8361-1 Der Band leistet eine theoretisch begründete und empirisch validierte Entwicklung einer automatisierten Wortartenannotation (Part-of-Speech-Tagging) für Transkripte spontansprachlicher Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), das über die Datenbank für Gesprochenes Deutsch der Forschungsgemeinschaft öffentlich zugänglich ist. Dabei setzt er zwei Schwerpunkte: erstens die theoretische Aufarbeitung von Unterschieden von Transkripten gesprochener Sprache zu schriftsprachlichen Daten in Hinblick auf die Entwicklung eines Tagsets für das gesprochene Deutsch; zweitens die Darstellung der empirischen Arbeitsschritte zur Erstellung des automatisierten Part-of-Speech-Taggings, d. h. die Implementierung und Evaluierung für die Annotation des FOLK-Korpus. Der Band ist eine kritische Reflexion der Wortartentheorien im Spannungsfeld zwischen Theorie und datengeleiteter Arbeit. Er gibt Einblicke über die Korpusaufbereitung von Transkripten gesprochener Sprache und stellt diese in Bezug zu Theorien über die Eigenheiten gesprochener Sprache. Die Autorin hat für ihre Arbeit 2020 den Peter-Roschy-Preis des Vereins der Freunde des Leibniz-Instituts für Deutsche Sprache erhalten. Swantje Westpfahl POS-Tagging für Transkripte gesprochener Sprache 83 STUDIEN ZUR DEUTSCHEN SPRACHE FORSCHUNGEN DES INSTITUTS FÜR DEUTSCHE SPRACHE Entwicklung einer automatisierten Wortarten-Annotation am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) POS-Tagging für Transkripte gesprochener Sprache Swantje Westpfahl 18361_Umschlag.indd Alle Seiten 18361_Umschlag.indd Alle Seiten 18.02.2020 08: 53: 26 18.02.2020 08: 53: 26 <?page no="1"?> STUDIEN ZUR DEUTSCHEN SPRACHE 83 <?page no="2"?> STUDIEN ZUR DEUTSCHEN SPRACHE FORSCHUNGEN DES INSTITUTS FÜR DEUTSCHE SPRACHE Herausgegeben von Arnulf Deppermann, Stefan Engelberg, Andreas Witt und Angelika Wöllstein Band 83 <?page no="3"?> Entwicklung einer automatisierten Wortarten-Annotation am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) POS-Tagging für Transkripte gesprochener Sprache Swantje Westpfahl <?page no="4"?> Zugleich Dissertation der Universität Mannheim. Gefördert durch den Publikationsfonds Monografien der Leibniz-Gemeinschaft. Leibniz-Institut für Deutsche Sprache R 5, 6-13 68161 Mannheim DOI: https: / / doi.org/ 10.2357/ 9783823393610 © 2020 · Swantje Westpfahl Das Werk ist eine Open Access-Publikation. Es wird unter der Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen | CC BY-SA 4.0 (https: / / creativecommons.org/ licenses/ by-sa/ 4.0/ ) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, solange Sie die/ den ursprünglichen Autor/ innen und die Quelle ordentlich nennen, einen Link zur Creative Commons-Lizenz anfügen und angeben, ob Änderungen vorgenommen wurden. Die in diesem Werk enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der am Material vermerkten Legende nichts anderes ergibt. In diesen Fällen ist für die oben genannten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen. Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Internet: www.narr.de eMail: info@narr.de Satz: Annett Patzschewitz CPI books GmbH, Leck ISSN 0949-409X ISBN 978-3-8233-8361-1 (Print) ISBN 978-3-8233-9361-0 (ePDF) Redaktion: Melanie Kraus Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. www.fsc.org MIX Papier aus verantwortungsvollen Quellen FSC ® C083411 ® <?page no="5"?> DANKSAGUNG Viele wunderbare Menschen haben mich in den letzten Jahren begleitet, all diesen Menschen möchte ich von Herzen danken. Mich begleiten hieß dabei auch unweigerlich meine Dissertation begleiten, denn wie bei vielen war mein Leben in dieser Zeit eng mit meiner Dissertation verbunden. Begonnen hat die Geschichte meiner Dissertation mit meinem Wunsch, meine Examensarbeit zu nutzen, um Einblicke in das Gebiet der Computerlinguistik zu bekommen, das im Lehramtsstudium leider unter den Tisch gefallen ist. Während dieser Zeit arbeitete ich am Leibniz-Institut für Deutsche Sprache (IDS) als Hilfskraft und Arnulf Deppermann bot mir an, dass ich auch am IDS, bei ihm meine Examensarbeit schreiben könne. Dass es sehr wünschenswert sei, das FOLK-Korpus mit POS-Tags zu annotieren, darüber waren wir uns schnell einig. Dass es ein sehr ambitioniertes Ziel war, war uns ebenfalls bewusst. Mein Glück war es, dass kurz darauf Thomas Schmidt seine Stelle am IDS antrat, an den Arnulf Deppermann mich als Experten für Computerlinguistik verwies. Auf diese Weise gewann ich zwei Betreuer: Arnulf Deppermann für alle Fragen, die ich zu linguistischen Theorien hatte, und Thomas Schmidt, der mir bei der Umsetzung aller meiner Ideen half und mich mit der nötigen computerlinguistischen Praxis vertraut machte. Als ich dann nach der Examensarbeit den Schritt in die Promotion wagte, waren es wiederum diese beiden, deren Türen mir immer offen standen und auf deren Unterstützung ich im vollen Maße bauen konnte. Thomas Schmidt war schließlich derjenige, der mit dem regelmäßigen Spruch: „Jetzt schreib sie einfach fertig! “ für den nötigen Fußtritt in den Hintern gesorgt hat, mich nicht weiter zu verzetteln und das Buch zu beenden. Als Doktorvater im Geiste war er ein großartiger Chef und Kollege, der mir viele Türen gezeigt und geöffnet hat. Ich danke ihm von Herzen für die jahrelange enge und vor allem humorvolle Zusammenarbeit, für die Freiheiten, die er mir gegeben hat, und für alle Unterstützung, wenn ich sie brauchte. Arnulf Deppermann möchte ich noch einmal explizit für sein Vertrauen in mich danken, für die vielen fachlichen Diskussionen und für seinen Beitrag, mich in die akademische Welt einzuführen. Ich möchte ihm auch noch einmal ausdrücklich dafür danken, dass ich mir in allen Lebenslagen seiner Unterstützung bewusst sein konnte - ob es nun die Geburt meines Sohnes war oder der Tod meines Vaters - er hat mir immer geholfen, Wege zu finden, die Dissertation zu Ende zu bringen. <?page no="6"?> 6 Danksagung Ein besonderer Dank gilt auch Carola Trips. Durch die Einladung in ihr Kolloquium hat sie für mich den Blick über den germanistischen linguistischen Tellerrand hinaus institutionalisiert. All die Jahre hat sie mich und meine Forschung begleitet. Auch wenn wir es nie so explizit gesagt haben, war sie doch immer meine Mentorin, der ich jede Frage stellen konnte, was die ach so verrückte Welt der Academia anging. Wesentlich für die Entwicklung der Lösungen für das POS-Tagging waren die Diskussionen und Workshops mit vielen Kollegen am IDS und darüber hinaus. Zunächst einmal möchte ich insbesondere meinen Hilfskräften Anton Borlinghaus und Jasmin Jonietz danken, die einen Riesenteil der Annotationen geleistet haben und mich mit ihren Fragen immer wieder auf neue Gedanken gebracht haben. Über die Jahre entwickelte sich ein Personenkreis, mit denen ich mich immer wieder austauschen konnte und denen ich ebenfalls für viele Ideen und Anregungen sehr dankbar bin: Hardarik Blühdorn, Ines Rehbein, Heike Zinsmeister, Konstanze Marx, Wolfgang Imo, Hagen Hirschmann, Angelika Wöllstein, Angelika Storrer, Michael Beißwenger, Sascha Wolfer, Sandra Hansen-Morath, Isabell Neise, Thomas Spranz-Fogasy, Nadine Proske, Julia Kaiser, Silke Reineke, Antonina Werthmann, Andreas Witt, Anette Frank, Katja Markert, Florian Busch, Fabian Barteld, Ramon Ziai, Thomas Bartz, u. v. m. Herzlich möchte ich auch meinen (bisher nicht genannten) Kollegen am IDS und insbesondere aus meiner Abteilung danken. Ein Ort, an dem die Türen immer offen stehen und man durch Tagungen und Vorträge viele spannende Anhaltspunkte für Diskussionen erfährt. Besonderer Dank gilt Henrike Helmer, die als meine Büro-WG-Genossin im schönsten Büro des IDS alle Aufs und Abs der Dissertation begleitet hat und auf deren Freundschaft und Hilfsbereitschaft ich immer zählen konnte. Wie ich eingangs erwähnte, waren es nicht nur die Kollegen, die mich auf dem Weg zur Fertigstellung meiner Dissertation begleitet haben, sondern ebensosehr auch meine Familie und meine Freunde. Ohne meinen Mann Christian Westpfahl hätte ich diese Dissertation sicherlich nicht fertiggestellt. Ich möchte ihm daher hier einen ganz besonders großen Dank angedeihen lassen, denn ich kann mir gar nicht ausmalen, was ich ohne seine Unterstützung getan hätte. Danke Christian, dass du mir immer wieder Mut machst, dass du nie den Glauben in mich verlierst und dass du immer an meiner Seite stehst, in guten wie in schlechten Zeiten. Danke auch für das Korrektur-Lesen, für das ich auch Katharina Scheck, Isabell Neise, Melanie Kraus und Annett Patzschewitz herzlich danken möchte. <?page no="7"?> 7 Danksagung Ich danke auch meiner Mutter, die mich ebenfalls immer wieder unterstützte. Immer hatte sie ein offenes Ohr und immer wieder hat sie auf unseren Sohn aufgepasst, sei es, damit ich in Ruhe schreiben oder auf Konferenzen fahren konnte. Die Jahre der Entstehung der Dissertation waren eine intensive und eine privat sehr turbulente Zeit. Allen, die es mir verziehen haben, dass ich mich streckenweise nicht um unsere Beziehungen und Freundschaften kümmern konnte, danke ich für ihr Verständnis. Ich bin auch sehr dankbar für alle Freundschaften, die sich wegen oder auch trotz der Dissertation entwickelt haben und alle, die sie überstanden haben. Ich danke auch Fadja Ehlail, Christa Grewe-Volpp, ganz besonders Marieke Volkert und allen anderen Frauen des AcadeMIA-Programms für die intensiven Workshops und den Austausch, den wir in dem gemeinsamen Jahr erlebt haben. Ich werde immer mit Freude an meine Zeit der Forschung am IDS zurückblicken und für die vielen Erfahrungen, die ich dort und an der Universität Mannheim gemacht habe, bin ich sehr dankbar. <?page no="9"?> 9 1. Einleitung ...................................................................................................... 13 1.1 Was ist Part-of-Speech-Tagging? ............................................................... 13 1.2 Inhalt und Aufbau der Untersuchung ...................................................... 16 1.3 Datengrundlage FOLK ............................................................................... 18 1.4 Related Work ............................................................................................... 20 1.4.1 Deutsche getaggte Korpora und ihre Unterschiede zum FOLK-Korpus .................................................................................. 21 1.4.2 Referenzkorpora - Korpora für gesprochene und geschriebene Sprache ..................................................................... 23 1.4.3 Korpora für gesprochene Sprache ................................................ 28 1.4.4 Zwischenfazit................................................................................... 32 1.5 Pilotstudie ..................................................................................................... 33 1.6 Zielsetzung der Untersuchung .................................................................. 35 2. Theoretische Grundlagen ........................................................................... 37 2.1 Grammatik der gesprochenen Sprache .................................................... 37 2.2 Segmentierung von Transkripten gesprochener Sprache ..................... 50 2.3 Kontext und Multimodalität in der Face-to-Face-Interaktion .............. 57 2.4 Wortarten in der gesprochenen Sprache .................................................. 68 2.4.1 Gesprächspartikeln ......................................................................... 68 2.4.2 Exkurs: topologisches Satzmodell ................................................ 70 2.4.3 Exkurs: Umgang mit Mehrworteinheiten ................................... 71 2.4.4 Problematik verschiedener Definitionen von Partikeln ............ 71 2.4.5 Gesprächswörter - Definitionen in der Literatur ....................... 72 2.4.6 Satz-interne Partikeln ..................................................................... 83 2.4.7 Satz-unabhängige Partikeln ......................................................... 100 2.4.8 Satz-externe Elemente .................................................................. 127 2.5 Weitere Klassifikationsprobleme ............................................................. 177 2.5.1 Medialitätsübergreifende Abgrenzungsprobleme ................... 180 2.5.2 Probleme beim Taggen spezifisch gesprochensprachlicher Phänomene ..................................................................................... 226 2.5.3 Zwischenfazit................................................................................. 243 3. Empirischer Teil ......................................................................................... 245 3.1 Zielsetzung der empirischen Arbeit ....................................................... 245 INHALT <?page no="10"?> 10 Inhalt 3.2 Überblick über die empirische Vorgehensweise ................................... 246 3.3 Auswahl des Taggers und des Tagsets ................................................... 247 3.4 Funktionsweise des Taggers .................................................................... 250 3.5 Möglichkeiten der Anpassung des Taggers und des Tagsets .............. 252 3.6 Erstellen des Goldstandards .................................................................... 257 3.6.1 Kriterien für die Auswahl der Transkripte des Goldstandards ........................................................................ 258 3.6.2 Darstellung der Transkripte des Goldstandards ...................... 261 3.6.3 Sub-Sets des Goldstandards ........................................................ 276 3.7 Erste Anpassung des Tagsets und der Guidelines ................................ 278 3.7.1 Das STTS - Aufbau des Tagsets und der Guidelines ............... 279 3.7.2 Die Anwendung des STTS für Transkripte gesprochener Sprache - eine Problemanalyse ................................................... 282 3.7.3 Grundsätze für eine Anpassung des STTS und der Guidelines ............................................................................... 287 3.7.4 Erste Änderungen am Tagset und an den Guidelines ............. 289 3.7.5 Das STTS 2.0 ................................................................................... 301 3.8 Manuelle Korrektur des Development-Sets .......................................... 303 3.8.1 OrthoNormal, das Tool zur manuellen Korrektur des POS-Taggings ................................................................................. 303 3.8.2 Annotator*innen und Annotationsprozess ............................... 306 3.9 Inter-Annotator-Agreement zur manuellen Korrektur des Development-Sets ...................................................................................... 307 3.9.1 Voraussetzungen und Vorgehen ................................................ 310 3.9.2 Ergebnisse des ersten Inter-Annotator-Agreements ................ 313 3.10 Einführung eines Post-Processings ......................................................... 319 3.11 Zweite Anpassung der Guidelines .......................................................... 321 3.12 Entwicklung eines automatisierten Taggings anhand des Development-Sets ...................................................................................... 323 3.12.1 Erstellen des Lexikons .................................................................. 323 3.12.2 Neutraining mit Development-Set und Lexikon ...................... 325 3.12.3 Auswertung .................................................................................... 327 3.13 Manuelle Korrektur des Goldstandard-Sets .......................................... 329 3.13.1 Inter-Annotator-Agreement zur manuellen Korrektur des Goldstandard-Sets ................................................................. 330 3.13.2 Endkorrektur des Goldstandards ............................................... 331 3.14 Entwicklung eines automatisierten Taggings anhand des Goldstandards ............................................................................................ 336 3.14.1 Trainings-Set und Evaluations-Sets ............................................ 336 <?page no="11"?> 11 Inhalt 3.14.2 Segmentierung der Daten anhand von Pausenlänge und Ausschluss von mit Dummys markierten Wortformen .......... 340 3.15 Evaluation des POS-Taggings für spontansprachliche Daten ............ 342 3.15.1 Ergebnisse der automatisierten Annotationen ......................... 342 3.15.2 Analyse der Annotationsdifferenzen ......................................... 345 3.15.3 Ambiguitäten ................................................................................. 356 3.16 Fazit ............................................................................................................. 359 4. Abschließende Diskussion und Ausblick ............................................... 361 5. Literatur ...................................................................................................... 367 6. Anhang ........................................................................................................ 391 6.1 Transkriptionskonventionen ................................................................... 391 6.1.1 Transkriptionskonventionen nach GAT 2 (Selting et al. 2009) ........................................................................ 391 6.1.2 Multimodale Konventionen (Kurzversion) .............................. 392 6.2 STTS Tag table (1995/ 1998) ....................................................................... 393 6.3 Transkripte des Goldstandards ............................................................... 395 6.4 Heatmap-Plots der Annotationsdifferenzen .......................................... 406 6.5 Plots für Annotationsunterschiede einzelner Tags ............................... 414 <?page no="13"?> Was ist Part-of-Speech-Tagging? 13 1. EINLEITUNG 1.1 Was ist Part of - Speech - Tagging? Mit Part-of-Speech-Tagging oder kurz POS-Tagging bezeichnet man im Allgemeinen eine morphosyntaktische Wortartenannotation, d. h. die Zuweisung von Wortartenlabels, die man als Part-of-Speech-Tags (POS-Tags) bezeichnet, zu einzelnen Items im Korpus. Es handelt sich also um eine Annotation der Daten auf Wortartenebene. Nehmen wir beispielsweise die Äußerung: oh was SCHREIB ich? 1 aus FOLK. 2 Eine Annotation mit Wortarten bedeutet in diesem Fall, dass man den einzelnen Wörtern je die Information hinzufügt, um welche Wortart es sich bei ihnen handelt. Also beispielsweise, dass es sich bei dem oh um eine Interjektion handelt, bei dem was um ein Pronomen, bei dem schreib um ein Verb und bei dem ich wiederum um ein Pronomen. Die Grundlage für die Annotation ist ein sogenanntes Tagset, d. h. ein Set von möglichen Wortartenlabels, mit denen man die Items im Korpus bezeichnen möchte. Jedes Tagset lehnt sich an Theorien über Wortarten und Grammatik an, ist jedoch pragmatisch ausgerichtet, um Mehrfachannotationen und Ambiguitäten zu vermeiden. Ein solches Tagset kann sehr grobkörnig strukturiert sein, wie beispielsweise das Universal Tagset (Petrov/ Das/ McDonald 2012), das mit insgesamt 12 POS-Tags auskommt. Im Gegensatz dazu gibt es auch sehr feinkörnige Klassfikiationen, wie beispielsweise das Tagset des Corpus Gesproken Nederlands (CGN), welches 316 POS-Tags vorsieht (Oostdijk 2013). Für unseren Beispielsatz würde das bedeuten, dass man entweder, wie bereits geschehen, sehr grobe Wortartenbezeichnungen zur Beschreibung heranzieht, oder aber etwas präzisiert, d. h., dass es sich bei dem was um ein Fragepronomen handelt, bei dem schreib um ein finites Verb und bei dem ich um ein Personalpronomen. Geht man noch detaillierter vor, kann man noch weitere Informationen hinzufügen, wie beispielsweise, dass es sich bei dem 1 http: / / dgd.ids-mannheim.de/ service/ DGD2Web/ ExternalAccessServlet? command=displayTran script&id=-FOLK_E_00005_SE_01_T_02_DF_01&cID=c837&wID=c837. 2 Die folgenden Beispiele sind jeweils unter dem angegebenen Link nach Registration bei der Datenbank für Gesprochenes Deutsch (DGD) im Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) abrufbar. Dort wird weiterhin der Gesamtkontext sowie Audiospur zugänglich gemacht. In dieser Dissertation sind die Beispiele nach dem Transkriptionssystem GAT2 (Selting et al. 2009) dargestellt. Da das Transkriptionssystem jedoch teilweise wiedersprüchliche Definitionen enthält, diente es für die Darstellung der Transkripte hier nur als Orientierung. Die Konventionen des Transkriptionssystems, wie beispielsweise die Markierung der Fokusakzente durch Kapitalisierung etc., befinden sich im Anhang dieses Bandes. <?page no="14"?> Einleitung 14 schreib um ein finites Verb in der ersten Person Singular handelt etc. Die Konzeption und Auswahl des Tagsets ist jeweils vor dem Hintergrund zu betrachten, mit welchen Forschungsfragen man an die Daten herantritt, welche Theorien man zugrunde legt und auch, welchen Aufwand man bei der Annotation einplant. Die Annotation geschieht entweder manuell oder maschinell. Bei der manuellen Annotation folgen die Annotator*innen 3 Guidelines, die beschreiben welchen Wortformen welche POS-Tags zuzuordnen sind und wie sich bestimmte Part-of-Speech-Kategorien von anderen abgrenzen lassen. Die maschinelle Annotation erfolgt mit Hilfe von Programmen, sogenannten Part-of-Speech- Taggern, denen verschiedene Algorithmen zugrunde liegen. So gibt es regelbasierte POS-Tagger, wie beispielsweise der Brill-Tagger (Brill 1992), der durch einen maschinellen Lernprozess von Input-Daten automatisiert Regeln ableitet und dann zum Taggen anderer Daten anwendet. Einen anderen Weg verwenden stochastische Tagger, wie beispielsweise verschiedene Conditional Random Fields (CRF) Tagger, deren Algorithmen auf probabilistischen Methoden aufbauen und die zufällige Kontexte auswählen, um bestimmte Tags zu bestimmen. Weiterhin gibt es noch Mischformen, wie beispielsweise den TreeTagger (Schmid 1995). Dieser arbeitet größtenteils stochastisch, teils aber auch regelbasiert, beispielsweise durch Abfragen eines Lexikons für Endungen. Im Gegensatz zum Brill-Tagger leitet er seine Regeln jedoch nicht maschinell her, sondern benutzt vordefinierte Regeln. Die statistischen Werte, anhand derer die stochastischen Tagger die Wahrscheinlichkeit zur Vergabe bestimmter Tags an Wortformen berechnen, werden initial mit einer Menge an manuell annotierten Daten, sogenannten Goldstandards, erstellt. Diesen Prozess bezeichnet man als Trainieren eines Taggers. Die statistischen Werte werden so in einer Parameter-Datei gespeichert, die dem Algorithmus als Grundlage für die Annotation von weiteren Daten dient. Je mehr Daten dazu verwendet werden, desto präziser kann der Tagger anhand der Parameter-Datei später die Wahrscheinlichkeit für eine Wortart einer bestimmten Wortform bestimmen. Die Beschaffenheit des Goldstandards hat großen Einfluss auf die Erstellung der Parameter-Datei und somit auf die Performance des Taggers an weiteren Daten. 3 Bei personenbezeichnenden Substantiven wird - entgegen den üblichen Konventionen dieser Schriftenreihe - das plurale generische Femininum mit Gendersternchen (*) verwendet, um eine geschlechtersensible Sprache zu gebrauchen. Diese Schreibform soll ein Mittel zur expliziten sprachlichen Repräsentation aller Geschlechtsidentitäten sein und das Gendersternchen dabei einen Hinweis auf Menschen geben, deren Geschlechtsidentität nicht-binär ist. Der Gebrauch einer geschlechtersensiblen Sprache gründet auf meiner festen Überzeugung, dass Sprache einen prägenden Einfluss auf unser (gesellschaftliches) Denken und Handeln hat. <?page no="15"?> Was ist Part-of-Speech-Tagging? 15 Für die Erhebung von stochastischen Werten ist die Konsistenz der manuellen Annotationen von großer Bedeutung. Genauer bedeutet dies, dass beispielsweise dieselben Verwendungen einer Wortform in den Daten konsequent immer auf dieselbe Weise manuell getaggt werden müssen. Eine solche Konsistenz lässt sich anhand eines Inter-Annotator-Agreements messen. Dabei lässt man mindestens zwei Annotator*innen dieselben Daten annotieren und vergleicht schließlich die Übereinstimmungen und Abweichungen der Annotationen. Sind die Guidelines klar verständlich und das Tagset so strukturiert, dass es möglichst wenig Ambiguitäten zulässt, ist die Übereinstimmung eines solchen Tests sehr hoch und man kann davon ausgehen, dass sich die Daten für ein Training und die Erstellung einer Parameter-Datei eignen. Des Weiteren spielt die Art und Beschaffenheit der Daten eines Goldstandards eine Rolle. Beispielsweise ist eine Parameter-Datei, die durch ein Training an einem Goldstandard von Zeitungstexten erstellt wurde, hervorragend dazu geeignet, weitere Zeitungstexte zu taggen. Für die Annotation von Gedichten, Dramen-Texten oder gar Transkripten gesprochener Sprache ist sie jedoch weniger geeignet, wie im Folgenden noch gezeigt wird. Ein annotiertes Korpus, sei es manuell oder automatisiert getaggt, hat entscheidende Vorteile. Jede Part-of-Speech-Annotation (POS-Annotation) ist letztendlich eine morphosyntaktische Interpretation der Daten. Die Interpretation ist jedoch nachvollziehbar durch die Beschreibung des Tagsets und der Tagging-Guidelines. Nutzer*innen eines Korpus können nun Anhand des Wissens um diese Interpretationen Suchanfragen schneller und effizienter durchführen. Gerade in der deutschen Sprache sind viele Wortformen in ihrer Bedeutung von der Verwendung im Kontext abhängig, d. h. ohne den Kontext sind sie ambig. Beispielsweise könnte die Wortform modern je nach Kontext die Funktion eines Adjektivs haben und somit die Bedeutung zeitgemäß oder die Funktion eines Verbs mit der Bedeutung verfaulen. Sucht man nun in einem Korpus genau nach Letzterem, muss man feststellen, dass die Verwendung im Sinne von verfaulen deutlich seltener ist, als die von zeitgemäß und man sehr viele falsch-positive Ergebnisse aussortieren müsste. Kann man ein Korpus allerdings nach POS-Tags durchsuchen, so ließe sich diese Suche wesentlich effizienter gestalten, indem man nach modern als Verbform sucht und so von vornherein alle als Adjektiv getaggten Vorkommen aussortieren kann. Die morphosyntaktische Annotation von Daten ermöglicht also bereits im Vorfeld eine Disambiguierung bei Suchanfragen. Des Weiteren kann man ein mit POS-Tags annotiertes Korpus auch für wortklassenbezogene Fragestellungen nutzen. So könnte man beispielsweise im Fremdsprachenunterricht darstellen, welche verschiedenen Formen von Kon- <?page no="16"?> Einleitung 16 junktionen es gibt, oder auch, in welchen Konstruktionen Imperative gebraucht werden etc. POS-Tags sind jedoch nicht nur für spezifische Suchanfragen von Bedeutung, sondern sie bilden auch die Grundlage für weitere Annotationsebenen oder für andere Prozesse der maschinellen Sprachverarbeitung. Beispielsweise basieren syntaktische Annotationen auf den POS-Tags aber auch Algorithmen zur maschinellen Übersetzung ziehen oft POS-Tags als Grundlage heran. Die Arbeit mit POS-Tags gestaltet sich jedoch nicht immer so einfach, wie es auf den ersten Blick scheint. POS-Tags basieren auf grammatischen Kategorien und sind damit denselben Problemen ausgesetzt wie die Definition dieser grammatischen Kategorien an sich. Häufig ist es der Fall, dass eine Wortform, selbst wenn der Kontext gegeben ist, nur schwer zu klassifizieren ist, da die Definitionen der grammatischen Kategorien selbst nicht klar voneinander abgrenzbar sind. Sind beispielsweise substantivierte Adjektive noch immer Adjektive oder schon Nomen? Über solche Fragen ist sich die Grammatik- Forschung bisweilen selbst noch nicht einig, dennoch müssen solche Elemente mit POS-Tags ausgezeichnet werden, d. h. für ihre Annotation muss eine Entscheidung getroffen werden. Ein weiteres Problem für die Bestimmung von Wortarten ist Sprachwandel. Viele Wortformen haben einen Prozess der Grammatikalisierung durchlaufen, bzw. durchlaufen ihn noch immer, und können im gegenwärtigen Gebrauch in verschiedenen Funktionen nebeneinander auftreten. Ein Beispiel dafür ist die Klasse der Modalpartikeln, die in vielen Fällen noch Homonyme in der Klasse der Adverbien haben. Aufgrund dieser Probleme ist es notwendig, Guidelines für die Annotation von POS-Tags möglichst eindeutig zu formulieren, damit Nutzer*innen die Interpretationen, die von den Annotator*innen des Korpus gemacht wurden, möglichst leicht nachvollziehen kann. Die Konzeption der Annotation eines Korpus mit POS-Tags bedeutet daher immer ein Abwägen zwischen der Konformität mit grammatischen Theorien und der praktischen Anwendung der Kategorien auf Daten. Ziel muss es immer sein, ein System zu erschaffen, das für Nutzer*innen praktisch anwendbar und gleichermaßen nachvollziehbar ist. 1.2 Inhalt und Aufbau der Untersuchung Diese Dissertation zielt auf das Ergebnis eines mit POS-Tags annotierten FOLK-Korpus ab. Die praktische Zielsetzung dieser Arbeit impliziert über eine erfolgreiche automatisierte POS-Annotation hinaus, dass die Annotationen für die Nutzer*innen der Datenbank brauchbar sind. Diese Aufgabe <?page no="17"?> Inhalt und Aufbau der Untersuchung 17 macht es notwendig, Analysen unter verschiedenen Gesichtspunkten vorzunehmen, die in einem wechselseitigen Verhältnis zueinander stehen. Einerseits geht es um die praktische und empirische Arbeit mit Transkripten gesprochener Sprache zur Korpusaufbereitung. Andererseits erfolgt dies in Hinblick auf die Spezifik dieser Daten, namentlich in Bezug auf die Gemeinsamkeiten und Unterschiede der Sprachverarbeitung von schriftsprachlichen Daten und Transkripten gesprochener Sprache. Dies bedingt eine theoretische Aufarbeitung dieser Unterschiede und Gemeinsamkeiten. Theoretische und empirische Analysen sind in dieser Untersuchung eng miteinander verwoben und resultieren in einem iterativen Prozess. Dieser geht von einer Pilotstudie, d. h. der automatisierten Annotation von drei Transkripten, aus, auf deren Grundlage Problemfelder der Wortartenannotation an Transkripten gesprochener Sprache identifiziert wurden. Diese wurden dann durch Literatur-Rezeption und Datenanalysen aufgearbeitet. Darauf aufbauend wurden praktische Änderungen für die manuelle Annotation vorgeschlagen. Bei dieser manuellen Annotation zeigten sich wiederum Probleme bei der Klassifikation, die eine erneute Theorie-Aufarbeitung und -Bildung verlangte, die dann wiederum in der praktischen Arbeit verifiziert werden musste. Dieser zyklische Prozess lässt sich in einer verschriftlichten Form der Untersuchung (dieser Dissertation) kaum darlegen, da oftmals viele Dinge gleichzeitig geschahen, die nun linear dargestellt werden müssen. Für die Darstellung werden daher die theoretischen Überlegungen von der Erklärung der in der empirischen Arbeit vorgenommenen Schritte getrennt. Die Gleichzeitigkeit der Erarbeitung der Themen wird jedoch immer wieder durch Bezüge zwischen den Kapiteln deutlich. Um diese Arbeiten zu rahmen und die Voraussetzungen zu erläutern, wird im Folgenden zunächst die Datengrundlage (FOLK) vorgestellt, die den Ausgangspunkt und die Grundlage dieser Untersuchung markiert. In einem weiteren Schritt soll die Aufgabenstellung dieser Untersuchung im Kontext verwandter Arbeiten (Related Work) platziert werden. Dargestellt werden andere, mit POS-Annotationen versehene Korpora des Deutschen und ihre Unterschiede zum FOLK-Korpus, die Gemeinsamkeiten und Unterschiede zu Referenzkorpora des geschriebenen Deutsch sowie die Darstellung anderer Korpora gesprochener Sprache und ihrer Annotationen im internationalen Vergleich. Um die Ausgangslage dieser Untersuchung zu verdeutlichen, wird im einleitenden Teil zudem noch die Pilotstudie erörtert, die im Rahmen der Examensarbeit der Verfasserin durchgeführt wurde. Sie vermittelt einen Überblick über die Problemlage und bietet erste Anhaltspunkte für eine Bearbeitung dieser Probleme. Die genauere Darstellung der Zielsetzung wird die folgenden Kapitel motivieren. Die theoretischen Grundlagen werden eingeleitet von einer Reflexion über den Status der Grammatik der gesprochenen Sprache, gefolgt von einem Überblick über die Segmentierungsproblematik der gesprochenen Sprache und der Rolle von Kontext und <?page no="18"?> Einleitung 18 Multimodalität für die Interpretation von Äußerungen auf Wortarten-Ebene. Der Schwerpunkt des theoretischen Teils befasst sich mit den Wortarten der gesprochenen Sprache und im Besonderen mit Gesprächspartikeln. Die Darstellung der empirischen Arbeiten bildet das Herzstück dieser Untersuchung. Daher werden dort zunächst noch einmal die Zielsetzungen der empirischen Arbeit konkretisiert, und folgend die Abläufe bei der Entwicklung des POS- Taggings für Transkripte gesprochener Sprache dokumentiert und kommentiert. Abschließend werden die Ergebnisse dieser Untersuchung zusammenfassend diskutiert und es wird ein Ausblick auf mögliche weitere Forschung zu diesem Thema gegeben. 1.3 Datengrundlage FOLK Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) des Leibniz-Instituts für Deutsche Sprache (IDS) Mannheim ist ein kontinuierlich wachsendes Korpus, das Daten von deutschsprachigen Interaktionen aufarbeitet und der Forschungsgemeinschaft zur Verfügung stellt (Institut für Deutsche Sprache 2015b). Seit 2008 werden Gesprächsdaten erhoben, transkribiert, annotiert und dokumentiert (Deppermann/ Hartung 2012, S. 418). Das Korpus ist seit 2012 über die Datenbank für Gesprochenes Deutsch (DGD) abrufbar. Aktuell umfasst die über die DGD veröffentlichte Version des FOLK-Korpus 169 Gesprächsereignisse mit 481 dokumentierten Sprecher*innen, Aufnahmen mit einer Gesamtdauer von 134 Stunden, 55 Minuten und Transkripte mit einem Umfang von ca. 1,2 Millionen Wörtern. (Institut für Deutsche Sprache 2015a) Ziele beim Aufbau des FOLK-Korpus sind die Stratifikation der Daten a) in Hinblick auf die dokumentierten Sprechereignisse, d. h. eine möglichst breite Streuung von sowohl privaten, als auch institutionellen und öffentlichen Interaktionen; b) in Hinblick auf die in der Datenbank aufgenommenen Sprecher*innen, d. h. eine möglichst hohe Diversität auf der demografischen Ebene und c) in Hinblick auf die Merkmale der Sprache, d. h. die Datenbank soll sowohl standardnahe als auch standardferne Sprache umfassen, sowohl strukturierte oder disziplinierte Gespräche als auch interaktive Konversationen sowie formellen und informellen Sprachgebrauch abbilden (Deppermann/ Hartung 2012, S. 423). Weiterhin sind Ziele des Korpusaufbaus, ein ausreichend großes und balanciertes Korpus zu erstellen, bei dem die Daten von solcher Qualität sind, dass sie sowohl Ansprüchen qualitativer als auch quantitativer Korpusforschung gerecht werden. Dafür werden die Daten nach den neuesten technischen Standards aufgearbeitet und zur Verfügung gestellt. Schließlich ist die Verbreitung der Daten recht- <?page no="19"?> Datengrundlage FOLK 19 lich abgesichert, sodass die Nutzer*innen an den Daten forschen können ohne unnötige Einschränkungen durch rechtliche Hürden (Schmidt 2014c, S. 383). In Hinblick auf die Zielgruppe richtet sich dieses Korpus vornehmlich an Gesprächsforscher*innen und die linguistische Gesprochene-Sprache-Forschung. Darüber hinaus jedoch auch an alle Forscher*innen der Sozio-, Psycho-, Variations- und Medienlinguistik, Phonetik, Sprachsoziologie, Sprachtechnologie, Pädagogik und Kulturwissenschaft, die Interesse an der Untersuchung authentischer Gespräche haben. Ebenso soll das Korpus als Lehrmaterial im Kontext von Deutsch-als-Fremdsprache-Unterricht dienlich sein sowie für die germanistische Hochschullehre (Deppermann/ Hartung 2012, S. 420). Um diesen Ansprüchen gerecht zu werden, werden die Daten folgendermaßen verarbeitet: Zunächst werden die Audiodaten tontechnisch aufgearbeitet, d. h. Namen und Orte zur Anonymisierung verrauscht und wenn es möglich ist, Nebengeräusche gefiltert etc. Die Transkription ist ein Prozess, der in mehreren Schritten erfolgt. Zunächst werden die Audiodateien von geschulten studentischen Hilfskräften transkribiert. Dies geschieht nach dem Transkriptionssystem cGAT, das dem Minimaltranskript des gesprächsanalytischen Transkriptionssystems GAT2 (Selting et al. 2009) entspricht. Dieses sieht die Transkription in literarischer Umschrift vor, d. h. starke Abweichungen vom Standardsprachlichen werden möglichst der Aussprache entsprechend verschriftlicht. Ebenso werden typisch gesprochensprachliche Phänomene wie Verschleifungen, Abbrüche aber auch nonverbale Artikulationen wie Atmen, Seufzen oder Lachen in der Transkription abgebildet. Der Vorteil dieses Transkriptionssystems liegt darin, dass es einerseits der Standard für Transkripte in der deutschen Gesprächsforschung ist und andererseits die linguistische Interpretation der Daten durch die Transkribent*innen möglichst geringhält (Schmidt 2014c, S. 385). Spezielle Bedeutung kommt in der Transkription den Pausen und Gesprächs- Überlappungen zu. Der Transkriptionseditor FOLKER (Schmidt/ Schütte 2010) erlaubt es, präzise Pausen und Überlappungen des Gesprächs zu messen und zu markieren während die Audiodaten automatisch mit den Transkripten aligniert werden (Schmidt 2014c, S. 385). Pausen, die größer als 0,2 Sekunden sind, werden keiner Sprecher*in zugeordnet. Auch dies ist dem Umstand geschuldet, dass sich das Korpus zum Ziel gesetzt hat, die Daten möglichst wenig interpretativ darzustellen. Auf diese Art und Weise kann einerseits vermieden werden, dass eine längere Pause einer Sprecher*in zugeordnet wird, auf der anderen Seite entstehen so pausenbedingt Beitragsbzw. Segmentgrenzen. Die Transkribent*innen alignieren die Beiträge mit den Audio-Dateien während der Transkription in einer Granularität von drei bis fünf Sekunden (Schmidt 2014b, S. 1452). Die Daten sind also nicht nach pro- <?page no="20"?> Einleitung 20 sodischen, syntaktischen oder pragmatischen Kriterien segmentiert, sondern allein anhand von Sprecherwechseln und Pausengrenzen. Um eine bessere Durchsuchbarkeit der Daten zu gewährleisten, wird auf einer weiteren Annotationsebene, aufbauend auf der literarischen Umschrift, die korrespondierende orthografisch korrekte Normalform des Wortes hinzugefügt. Dieser Annotationsschritt wird Normalisierung genannt. Die Annotation erfolgt dabei semi-automatisch. Zunächst werden von der Standardorthografie abweichende Formen mit einem Lexikon abgeglichen. Dieses Lexikon besteht aus einer Datenbank von schon vorhergehend annotierten Elementen. Darin werden die korrespondierenden Formen gesucht und diese dann automatisch korrigiert. Mit diesem Verfahren können bereits 80 Prozent der von der Standardorthografie abweichenden Formen automatisch korrigiert werden. Die verbleibenden 20 Prozent der zu korrigierenden Formen werden schließlich unter Zuhilfenahme des Orthonormal-Tools (Schmidt 2012), welches für diese Zwecke optimiert wurde, von studentischen Hilfskräften manuell korrigiert (Schmidt 2014c, S. 385 f.). Auf einer dritten Annotationsebene werden den normalisierten Formen Lemmata zugewiesen. Diese Annotation erfolgt automatisiert durch den Lemmatisierer des TreeTaggers (Schmid 1995). Die daraus hervorgehende Lemmatisierung hat nur eine geringe Fehlerrate von weniger als zwei Prozent und wird ohne weitere manuelle Korrektur verwendet (Schmidt 2014c, S. 386). Auf einer vierten Annotationsebene ist die Annotation mit Part-of-Speech- Tags geplant, welche Gegenstand dieser Arbeit ist. Auch diese Ebene basiert auf den Normalisierungsannotationen der zweiten Ebene. Wie in dieser Untersuchung gezeigt werden wird, sind Teile der Normalisierungskonventionen auch auf das darauf aufbauende Part-of-Speech-Tagging abgestimmt. Es ist davon auszugehen, dass bei einer immer größer werdenden Nutzergruppe und einem immer weiter wachsenden Korpus die Nutzer*innen auch Interesse daran haben, die Daten nach Wortarten zu filtern. Darüber hinaus ist zu beachten, dass Forscher*innen, die mit diesen Daten arbeiten, ein Interesse daran haben, genau ebensolche Wortarten und Wortformen auffinden zu können, die typisch für die gesprochene Sprache sind. Bei der Entwicklung des POS-Taggings muss dies daher berücksichtigt werden. 1.4 Related Work Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) hat es sich zum Ziel gesetzt, der Forschergemeinschaft ein sorgfältig aufgearbeitetes und balanciertes Korpus deutscher gesprochener Sprache zur Verfügung zu stellen. Ein vergleichbares Korpus der deutschen gesprochenen Sprache gibt es bisher nicht. Im Folgenden werden die Korpora gesprochener Sprache für das <?page no="21"?> Related Work 21 Deutsche sowie auch die wichtigsten Korpora gesprochener Sprache im europäischen Vergleich vorgestellt. Es wird erörtert werden, ob und wie diese Korpora mit Wortartenannotationen versehen wurden und wo sich Gemeinsamkeiten und Unterschiede zu dem hier vorliegenden Projekt ergeben. Eine Software speziell für die automatisierte Wortartenannotation von Transkripten jedweder Form von deutscher gesprochener Sprache existiert zum heutigen Zeitpunkt nicht. 1.4.1 Deutsche getaggte Korpora und ihre Unterschiede zum FOLK - Korpus Für die deutsche gesprochene Sprache existiert eine Vielzahl kleiner, sehr spezifischer Korpora, die in verschiedensten Forschungsprojekten zusammengestellt wurden. Sie sind meist in Hinblick auf spezifische Fragestellungen erstellt worden und sind nur teilweise, wenn überhaupt, für die Forschungsöffentlichkeit verfügbar (Deppermann/ Hartung 2012, S. 416). Aufgrund dieser unbefriedigenden Situation haben wir im Jahre 2008 am IDS damit begonnen, ein nationales Gesprächskorpus aufzubauen, das den „kommunikativen Haushalt“ (Luckmann 1986) der deutschsprachigen mündlichen Kommunikationspraxis in seinen wesentlichen Ausprägungen repräsentieren soll. (ebd., S. 418) Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) hat es sich also zum Ziel gesetzt, ein Referenzkorpus der deutschen gesprochenen Sprache zu werden und um die Möglichkeiten der Analyse und der besseren Auffindbarkeit der Daten zu vergrößern, soll es nun mit POS-Tags annotiert werden. Wirft man einen Blick auf die Korpora deutscher gesprochener Sprache, die der Forschungsöffentlichkeit zur Verfügung stehen, so sind nur vier davon mit Wortartenannotationen versehen. Das wohl bekannteste unter ihnen ist die Tübinger Baumbank des Deutschen/ Spontansprache (TüBa-D/ S). Sie ist ein syntaktisch annotiertes Korpus spontansprachlicher Dialoge, die manuell transliteriert und ebenfalls manuell mit POS-Tags annotiert wurden. Sie umfasst circa 360.000 Wörter (Universität Tübingen, Seminar für Sprachwissenschaft 2014). Es handelt sich um Daten aus dem Verbmobil-Projekt, d. h. die Dialoge sind vorwiegend Telefongespräche aus den Domänen Reiseplanung und Hotelreservierung (Wahlster 2000). Diese Daten wurden manuell mit dem Stuttgart Tübingen Tagset (STTS) annotiert (Beck et al. 2012). Als Goldstandard für ein Training eines Taggers für gesprochene Sprache eignen sich die Daten allerdings nicht. Das Tagset wurde nicht an die gesprochene Sprache angepasst, die meisten Gesprächspartikeln wurden mit den teils unzutreffenden Kategorien Adverb oder Interjektion getaggt. Zudem umfasst die Baumbank nur Daten aus einer ganz spezifischen Kommunikationssituation: Förmliche Service-Telefonate, bei denen maximal <?page no="22"?> Einleitung 22 zwei Sprecher*innen teilnehmen und viele Floskeln, die typisch für diese Art von Service sind, gebraucht werden. Auch die Maptask-Korpora, das HAMATAC (The Hamburg MapTask Corpus) und das BeMaTaC (Berlin Map Task Corpus) sind nur auf eine Art der Konversation ausgerichtet. Bei diesen bestehen die Daten aus elizitierten dialogischen Strukturen, in denen immer eine Person der anderen erklärt, wie eine Linie auf einem Blatt mit darauf gezeichneten Gegenständen eingezeichnet werden soll. Beides sind Lernerkorpora, in denen sich Personen, die meist Deutsch als Fremdsprache erlernt haben, unterhalten. Beide Korpora enthalten jedoch auch Daten von Muttersprachlern. Das FOLK-Korpus hat einige der Interaktionen aus dem HAMATAC als Datengaben aufgenommen. Insgesamt umfasst das HAMATAC 21.433 transkribierte Wörter (HZSK 2010) und ist damit ein eher kleines Korpus. Im HAMATAC wurden die POS-Tags mit dem original STTS und dem TreeTagger maschinell annotiert. Wie hoch die Fehlerquote bei der Annotation war, wurde nicht dokumentiert. Typisch gesprochensprachliche Phänomene wie beispielsweise Wortabbrüche, Hesitationspartikeln oder Stottern wurden im HAMATAC auf einer gesonderten Ebene annotiert. Ähnlich wird im BeMaTaC verfahren. Das aktuelle Release des BeMaTaC umfasst 8.900 Token von muttersprachlichen Daten und 9.228 Token Daten von Sprecher*innen mit Deutsch als Fremdsprache (Sauer (Hg.) 2015). Das Projekt ist noch nicht abgeschlossen, es werden noch weitere Daten transkribiert und annotiert, jedoch wird auch dieses Korpus keinen erheblich größeren Datensatz mehr produzieren. Auch dort werden die Daten mit dem original STTS und dem TreeTagger maschinell annotiert und gesonderte Phänomene wie Hesitationspartikeln auf einer weiteren Ebene annotiert. Es lassen sich ebenfalls keine Angaben dazu finden, inwiefern das automatisierte POS-Tagging die POS-Tags korrekt annotiert. Ebenso nur aus einer Domäne, jedoch aus einem ganz anderen Setting, sind die Daten des KiezDeutsch-Korpus (KiDKo) (Rehbein/ Schalowski/ Wiese 2014). Das Korpus beinhaltet Gespräche von Jugendlichen in ihrer Peergroup aus dem multiethnischen Viertel Berlin-Kreuzberg (circa 266.000 Token) und dem eher monoethnisch geprägten Viertel Berlin-Hellersdorf (circa 111.000 Token) (ebd., S. 2). Die Daten stammen somit aus einem demografisch stark eingeschränkten Feld. Dennoch sind die Daten in vielen Belangen denen des FOLK-Korpus ähnlich, da sie nicht-elizitierte und in der Themenwahl freie Konversationen beinhalten. Im Gegensatz zum FOLK-Korpus wurde im KiDKo bei der Transkription eine Segmentierung durch Einfügen von Interpunktion vorgenommen. Von besonderem Interesse ist, dass für dieses Korpus ein für Spontansprache spezifisches automatisiertes POS-Tagging entwickelt wurde. Bei der Umsetzung wurde eine Anpassung des STTS an spontansprachliche Daten vorgenommen, die beispielsweise Tags für Unver- <?page no="23"?> Related Work 23 ständliches, Abbrüche und Hesitationspartikeln vorsieht. Diese Anpassung sah zunächst auch Tag-Kategorien für Modalpartikeln, Fokuspartikeln, Intensitätspartikeln und weitere Gesprächspartikeln vor (Rehbein/ Hirschmann 2014a und b), dies wurde jedoch aufgrund eines schlechten Inter-Rater- Agreements für diese Kategorien wieder verworfen, sodass sie im endgültigen Tagset nicht mehr vorhanden sind (Rehbein 2014). Um sowohl das Outof-Vocabulary-Problem als auch das Problem, dass nur sehr wenige Daten zum Neutrainieren vorhanden sind, zu umgehen, wurde dem Tagger noch ein Dictionary hinzugefügt, das Rehbein/ Schalowski aus dem Huge German Corpus (HGC) (Fitschen 2004) generiert haben (Rehbein/ Schalowski 2013, S. 218). Schließlich wurde mit Hilfe von circa 66.000 manuell annotierten Token ein CRF-basierter Tagger angepasst und evaluiert. Diese Anpassungen führten zu einem Ergebnis von 96,9 Prozent Genauigkeit des automatisierten Taggings auf den KiDKo-Daten (Rehbein/ Schalowski/ Wiese 2014, S. 4). Allerdings räumt Rehbein ein, dass die Ergebnisse ein wenig zu optimistisch sein könnten, da sowohl Pausen als auch unverständliches Material in dem Korpus mit POS-Tags annotiert werden und diese einerseits immer eindeutig als solche zu taggen sind, andererseits in sehr hoher Quantität im Korpus vorkommen (ebd.). Ebenso verweisen Rehbein/ Schalowski/ Wiese (2014) darauf, dass das Einfügen von Interpunktion eine positive Rolle bei dem automatisierten Tagging spielt. Zählt man die Tags für Interpunktion heraus, verschlechtert sich das Tagging-Ergebnis um 1,4 Prozent (ebd., S. 4). Diese Studie ist für das Forschungsvorhaben dieser Dissertation von großer Bedeutung. Einerseits erfolgte die Anpassung des Tagsets in gegenseitiger Absprache, sodass die Daten beider Korpora schließlich für Vergleichsstudien herangezogen werden können. Andererseits zeigt sie, dass es möglich ist, ein automatisiertes Tagging für spontansprachliche Daten umzusetzen. Die KiDKo- Daten unterscheiden sich in zwei wesentlichen Punkten von denen der FOLK-Daten. Sie stammen zum einen nur aus einer spezifischen Domäne von Konversationen, zum anderen sind sie anders transkribiert, d. h. die Segmentierung der Daten durch Interpunktion hatte einen großen Einfluss auf das Tagging-Ergebnis. 1.4.2 Referenzkorpora - Korpora für gesprochene und geschriebene Sprache Wie bereits dargestellt, gibt es für das Deutsche neben dem FOLK-Korpus keine weiteren großen und über verschiedene Merkmale und Interaktionsformen stratifizerten Korpora für gesprochenes Deutsch. Daher werden nun Korpora zur gesprochenen Sprache im Ausland diskutiert, die den Anspruch haben, Referenzkorpora zu sein. Von besonderem Interesse ist dabei, ob und wie sie mit POS-Tags annotiert wurden, und im Besonderen ob ein automatisiertes POS-Tagging speziell für gesprochene Sprache entwickelt wurde. <?page no="24"?> Einleitung 24 Viele Korpora, die sich als Referenzkorpora bezeichnen, bestehen sowohl aus Daten geschriebener als auch gesprochener Sprache. Das sind im englischsprachigen Raum beispielsweise das British National Corpus (BNC) (The British National Corpus 2007), welches 100 Millionen Wörter umfasst, davon zehn Millionen Wörter aus Transkripten gesprochener Sprache. Der gesprochensprachliche Teil basiert auf versteckt durchgeführten Aufnahmen, die zwischen 1991 und 1994 entstanden sind und spontansprachliche Konversationen beinhalten. Sie sind jedoch der Schriftsprache entsprechend transkribiert. Ein spezifisches Wortarten-Tagging für die gesprochene Sprache wurde nicht entwickelt. Die Daten wurden, wie die der geschriebenen Sprache, mit dem CLAWS4 (the Constituent Likelihood Automatic Word-tagging System) Tagger und Tagset annotiert (Garside/ Smith 1997). Die Genauigkeit des Taggers wurde auf den BNC-Daten evaluiert. Bei einem Sample der geschriebenen Sprache Daten wies er eine Fehlerrate von 1,14 Prozent auf und 3,83 Prozent der Token wurden als ambig markiert, bei dem Sample der gesprochenen Sprache wies er eine Fehlerrate von 1,17 Prozent auf und 3 Prozent der Token wurden als ambig markiert (Leech/ Smith 2000). Für diesen sehr geringen Unterschied in der Performanz auf geschriebenen und gesprochenen Daten lassen sich zwei Gründe anführen. Erstens sind die Daten der geschriebenen Sprache angepasst, d. h. während der Transkription wurden typisch gesprochensprachliche Phänomene wie Wortabbrüche, Wiederholungen und Stottern korrigiert bzw. entfernt und der Schriftsprache angepasst. Zweitens sieht das CLAWS-Tagset eine Art Reste-Kategorie namens „unclassified words“ (FU) für all jene Elemente vor, die sich nicht in die anderen Wortarten-Kategorien einordnen lassen. Aus den Beschreibungen dieser Kategorie wird deutlich, dass vorwiegend Gesprächspartikeln blah, gefüllte Pausen er und andere typisch gesprochensprachliche Elemente ain’t mit diesem Tag annotiert werden (Garside/ Smith 1997). Das BNC ist somit zwar eines der größten Korpora für gesprochene Sprache, aus der Perspektive des Taggings allerdings ist es sehr schwer, typisch gesprochensprachliche Phänomene in den Daten zu finden, da die Annotation auf das Gesamt-Korpus, und somit überwiegend auf schriftsprachliche Daten, ausgelegt ist. Das American National Corpus (ANC (Hg.) 2002-2010) (Ide/ Suderman 2004) ist ebenfalls ein Korpus für geschriebene und gesprochene Sprache, genauer gesagt für geschriebenes und gesprochenes amerikanisches Englisch. Insgesamt beinhaltet es über 22 Millionen Wörter, wovon circa vier Millionen Wörter Transkripte gesprochener Sprache sind. Auf der Webseite wird jedoch nicht angegeben, um welche Interaktionen es sich bei den Transkripten handelt. Es wurde maschinell mit dem Biber-Tagger und dem Biber-Tagset (Biber 1993) getaggt. Das Tagset sieht, ähnlich wie das CLAWS-Tagset, nur ein Tag (UH++++) für alle Gesprächspartikeln vor, inklusive gefüllter Pausen, Interjektionen und Responsiven (ebd.). Es ist nicht dokumentiert, wie mit Abbrüchen oder Ähnli- <?page no="25"?> Related Work 25 chem verfahren wird. Auf der Webseite wird angegeben, dass der Biber-Tagger mit einer Genauigkeit von circa 95 Prozent annotiert (Ide/ Suderman 2004). Es ist jedoch nicht angegeben, ob es Unterschiede in der Genauigkeit zwischen schriftsprachlichen Daten und Transkripten gesprochener Sprache gibt. Ebenso wie das ANC beansprucht auch das Corpus of Contemporary American English (COCA) 4 (Davies 2009) ein Referenzkorpus für geschriebenes und gesprochenes amerikanisches Englisch zu sein. Es ist jedoch deutlich größer als das ANC mit circa 520 Millionen Wörtern, wovon circa ein Fünftel der Daten aus Transkripten gesprochener Sprache bestehen, was aktuell circa 80 Millionen Wörter ausmacht (ebd.). Der Teil des Korpus mit gesprochener Sprache enthält nur Konversationen aus TV- und Radiosendungen. Die Autor*innen rechtfertigen dies damit, dass es unmöglich sei, solche Datenmengen aus Alltagskonversationen zu erheben und verweisen darauf, dass die Konversationen zwar nicht sehr umgangssprachlich seien, jedoch die typischen Merkmale gesprochener Sprache wie Abbrüche, Formulierungsschwierigkeiten etc. aufweisen (ebd.). Getaggt wurde das Korpus maschinell mit dem CLAWS7- Part-of-Speech-Tagger und dem CLAWS7-Tagset. In den spezifisch für die gesprochene Sprache anwendbaren Kategorien unterscheidet sich das CLAWS7- Tagset nicht von dem im BNC verwendeten CLAWS4-Tagset. Aus der Online-Dokumentation des COCA geht hervor, dass eine manuelle Korrektur nur für die Wortlisten der 100.000 frequentesten Wörter des Korpus vorgenommen wurde. Aus der persönlichen Kommunikation mit Mark Davies (2016) 5 ging hervor, dass die Genauigkeit des Taggers auf den Transkripten gesprochener Sprache im Korpus nicht evaluiert wurde. Das International Corpus of English (Nelson 2005) ist ein Korpus, das Daten aus verschiedensten Ländern zusammenträgt, in denen Englisch offizielle Landessprache ist. Momentan umfasst es Subkorpora aus Kanada, Ost-Afrika, Großbritannien, Hong Kong, Indien, Irland, Jamaica, Neuseeland, Nigeria (nur geschriebene Sprache), die Philippinen, Singapur, Sri Lanka (nur geschriebene Sprache) und den USA (nur geschriebene Sprache) (ebd.). Generell sind die Subkorpora dabei immer gleich aufgebaut, auch um die Vergleichbarkeit der verschiedenen Variationen des Englischen zu ermöglichen: Die Korpora beinhalten Texte und Transkripte von Gesprächen von 1990 oder später. Insgesamt umfassen sie jeweils eine Million Token, davon sind 400.000 Token verschiedene Texte geschriebener Sprache, 600.000 Token aus Transkripten gesprochener Sprache. Davon wiederum sind circa 240.000 Token aus Transkripten von Monologen und 360.000 Token Transkripte von Dialogen, genauer jeweils circa 200.000 private Konversationen und 160.000 öffent- 4 Corpus of Contemporary American English (COCA) = 520 Million words, 1990-2015 (Online: http: / / corpus.byu.edu/ coca, Stand: 2. 2. 2016). 5 E-Mail an Swantje Westpfahl von Mark Davies (2016): POS-Tagging in the COCA, 3. 2. 2016. <?page no="26"?> Einleitung 26 liche Gespräche (Nelson 2005). Weiterhin wird ein Gleichgewicht der Daten in demografischer Hinsicht angestrebt (ebd.). Die Texte sind maschinell getaggt, teils mit dem ICE-Tagger und ICE-Tagset, teils mit dem CLAWS7-Tagger und Tagset und teils beides (ebd.). Das ICE-Tagset basiert auf der Grammatik von Quirk et al. (1985) und ist ein eher grobes Tagset von 20 Tags, das jedoch um eine Vielzahl an Features, die einem Tag zusätzlich zugewiesen werden können, erweitert ist. Beispielsweise hat die Kategorie Adverb acht mögliche Features, die unter anderem auch Intensitätspartikeln oder Fokuspartikeln markieren. Bezüglich der Gesprächspartikeln unterscheidet das Tagset drei Typen: Interjektionen, Partikeln und Reaktionssignale (Nelson 2005, S. 2). Darüber hinaus werden Pausen als solche getaggt, Abbrüche, Stottern und Ähnliches erhalten allerdings das Tag UNTAG (ebd.). Eine Angabe, wie die Präzision der Tagger auf den Daten ist, wird nicht gemacht. Aus persönlicher Kommunikation mit Sean Wallis 6 geht hervor, dass die Präzision auf 95 Prozent Genauigkeit geschätzt wird. Evaluiert wurde dies an den unterschiedlichen Daten jedoch nicht. Referenzkorpora im slawischsprachigen Raum sind das Czech National Corpus (CNC) (Institute of the Czech National Corpus 2010), das Russian National Corpus (Russian National Corpus 2003-2016) und das National Corpus of Polish (NKJP) (Bańko et al. 2012). Das Czech National Corpus (CNC) ist eine Sammlung verschiedener Subkorpora, wovon ein Großteil schriftsprachliche Textkorpora sind. Das CNC umfasst verschiedene schriftsprachliche Korpora, teilweise bis zu einer Größe von 2.232 Millionen Token. Teils sind sie jedoch keine Referenzkorpora, d. h. sie verändern sich stetig in Gestalt und Größe. Für die gesprochene Sprache haben die im CNC gesammelten Korpora einen Umfang von insgesamt 6.745.000 Token, die von 1918 bis 2015 erhoben wurden (Faculty of Arts, Charles University in Prague 2015). Das Subkorpus ORAL2013, ein Referenzkorpus des informellen gesprochenen Tschechisch von 2013, ist dem Aufbau des FOLK-Korpus sehr ähnlich. Auch dort wurde eine möglichst demografisch koordinierte Datensammlung angestrebt, die Transkripte wurden mit den Audiodateien aligniert und in literarischer Umschrift transkribiert. Dieses Korpus wurde allerdings nicht mit POS-Tags annotiert. Ältere Subkorpora dieser Art sind teils nicht ausgeglichen, teils nicht aligniert und nutzten standardnahe Transkription. Das einzige gesprochensprachliche Subkorpus, das mit POS-Tags annotiert wurde, ist das SPEECHES-Korpus, welches nur Reden von Präsidenten zu besonderen Anlässen (1918 bis 2015) enthält (Institute of the Czech National Corpus 2010). Eine Information darüber, wie sie getaggt wurden, ist nicht verfügbar. 6 E-Mail an Swantje Westpfahl von Sean Wallis (2016): POS-Tagging in the ICE Corpora, 21. 1. 2016. <?page no="27"?> Related Work 27 Laut der Online-Dokumentation erhebt das Russian National Corpus den Anspruch, ein Referenzkorpus für die russische Sprache zu sein. Es besteht aus über 300 Millionen Token, wovon circa 5.810.482 Token aus Transkripten gesprochener Sprache stammen. Letztere verteilen sich auf drei Subkorpora, die in der Zeit von 1930 bis 2007 entstanden sind und sowohl verschiedene regionsspezifische Varianten des Russischen abbilden als auch aus verschiedenen Genres stammen: 64,3 Prozent der Daten stammen aus Aufnahmen öffentlicher Kommunikation - also Funk und Fernsehen -, 27,6 Prozent aus Filmdialogen - also geskripteter Konversation - und 8,1 Prozent (470.597 Token) aus Transkripten von Spontansprache. All diese Daten wurden in standardsprachlicher Orthografie transkribiert, dialektale Eigenheiten im dialektalen Subkorpus in den Bereichen Morphologie, Syntax und Lexik wurden jedoch erhalten (Apresjan et al. 2006). Spezifisch dialektale morphologische Merkmale wurden mit speziellen Tags markiert und stark dialektale Lexeme mit Kommentaren versehen. Die Daten wurden maschinell mit POS-Tags annotiert und das Tagset basiert auf dem Modell von A. A. Zalizniaks „Grammatical dictionary of the Russian Language“ (Zalinzniak 1977). Speziell annotiert werden unter anderem Abbrüche, Abweichungen vom Standard auf morphologischer Ebene, d. h. teilweise veraltete oder umgangssprachliche Formen, und Formen, die nicht im Lexikon vorhanden sind, erhalten ein gesondertes Tag (ebd.). Das National Corpus of Polish (NKJP) enthält über 1,5 Milliarden Token und ist morphologisch und nach Satzstrukturen durchsuchbar. Es umfasst Texte der klassischen Literatur zwischen 1823 und 2011, Zeitungsarchive von 1920 bis 2011, eine Auswahl verschiedener Internet-Texte und auch Transkripte gesprochener Sprache. Letztere beinhalten sowohl weibliche als auch männliche Sprecher, die aus den verschiedenen Regionen Polens stammen (Bańko et al. 2012). In der Online-Korpusdokumentation gibt es keine genauere Information dazu, wieviele der Daten der gesprochenen Sprache zugehörig sind. Bezüglich eines POS-Taggings ist nur ersichtlich, dass ein 1.000.000 Token-Subkorpus mit POS-Tags manuell annotiert worden ist. Welche Daten darin enthalten sind und wie der Rest der Daten annotiert wurde, geht aus der Dokumentation nicht hervor (ebd.). Für die romanischen Sprachen schließlich gibt es zwei nennenswerte Referenzkorpora: Das Reference Corpus of Contemporary Portuguese (CRPC) (Centro de Linguistica da Universidade de Lisboa 2012) und die französische Datenbank Outils et Recherches sur le Francais Ecrit et Oral (ORFEO 2016). Das CRPC beinhaltet 309,8 Millionen Wörter geschriebener Sprache und 1,6 Millionen Wörter Transkripte von gesprochener Sprache. Das gesprochensprachliche Subkorpus wurde mit den dazugehörigen Audio-Dateien aligniert. Die Autor*innen weisen darauf hin, dass das Korpus in dem Sinne ein <?page no="28"?> Einleitung 28 Referenzkorpus ist, da die schriftsprachlichen Texte ausgewogen zusammengestellt wurden bevor sie in das Korpus aufgenommen wurden. Mit POS- Tags annotiert wurde das Korpus nicht (Centro de Linguistica da Universidade de Lisboa 2012). ORFEO besteht aus circa 15 Millionen Token geschriebener Sprache und drei Millionen Token gesprochener Sprache. Die Datenbank ist eine Komposition verschiedener Korpora, die nach den Standards von ORFEO aufgearbeitet werden, d. h. die gesprochene Sprache Daten stammen aus verschiedenen Subkorpora, unter anderem auch aus einem Teil von CLAPI (siehe unten) und von C-ORAL-ROM (siehe unten). Alle gesprochenen Sprache Subkorpora wurden in Bezug auf Metadaten, Transkriptionen, Text-Ton-Alignierung und morphologische syntaktische, semantische, prosodische und pragmatische Annotationen hin aufgearbeitet. Der Webseite ist zwar zu entnehmen, dass Werkzeuge für diese Annotationen entwickelt wurden, eine Dokumentation ist jedoch nicht verfügbar (ORFEO 2016). Es wird ersichtlich, dass häufig nur ein kleiner Teil der Daten der Referenzkorpora Transkripte von gesprochener Sprache sind. Dies lässt sich auch dadurch erklären, dass sowohl die Erhebung von Gesprächen als auch die Transkription in den meisten Fällen sehr zeit- und kostenaufwändig ist. Neben diesen Mischkorpora, die den Vergleich zwischen gesprochener und geschriebener Sprache ermöglichen sollen, gibt es auch Korpora, die allein für die Analyse gesprochener Sprache aufgebaut wurden. 1.4.3 Korpora für gesprochene Sprache Das CHRISTINE-Corpus (Sampson 2004) und das Spoken BNC2014 (Love et al. 2017) sind zwei englischsprachige Korpora, die beide mit Bezug auf das British National Corpus (BNC) aufgebaut wurden. Das CHRISTINE-Corpus versteht sich als eine Überarbeitung des gesprochene-Sprache-Teils des BNC, bei dem ein Teil der Daten linguistisch aufgearbeitet wurde. Zunächst einmal wurden die Daten demografisch so zusammengestellt, dass in dem Korpus eine gleiche Anzahl an männlichen und weiblichen Sprechern, an Sprecher*innen der sechs verschiedenen Altersgruppen, an Sprecher*innen der vier soziale-Klassen-Kategorien und an Sprecher*innen aus allen geografischen Regionen Großbritanniens vertreten sind (Sampson 2004). Alles in allem umfasst das CHRISTINE-Korpus 80.500 Wörter exklusive Hesitationspartikeln und anderen gesprochensprachlichen Phänomenen (ebd.). Im CHRISTINE-Korpus wurden dem ELF Tagset (Sampson 1995) weitere Tags hinzugefügt, um typisch gesprochensprachliche Phänomene des Englischen abzubilden. Beispielsweise für Schimpfwörter, Begrüßungs- und Verabschiedungsfloskeln, Vagheitsausdrücke, gefüllte Pausen, <?page no="29"?> Related Work 29 Unverständliches etc. Diese Erweiterungen wurden der Daten-Auswahl aus dem ursprünglichem BNC Spoken manuell ergänzt (Sampson 2004). Das Spoken BNC2014 ist eine Neuauflage des gesprochene-Sprache-Teils des BNC. Da die letzten Daten des BNC von 1994 sind, wurde zwischen 2014 und 2017 eine weitere Datensammlung gesprochener Sprache zusammengestellt und transkribiert. Analog zum BNC ist es ein Korpus von 11,5 Millionen Token (etwas mehr als im vorhergehenden Teil) transkribierter Spontansprache. Das Sampling beschreiben die Autor*innen als „opportunistisch“, d. h. in dem Bestreben möglichst viele Daten zu sammeln, ist es nicht ganz ausbalanciert zu Lasten von männlichen Sprechern, Kindern und älteren Sprecher*innen (Love et al. 2017, S. 326). Die Daten wurden zwischen 2012 und 2016 erhoben. 2017 wurde das Korpus dann für die Forschungsgemeinschaft verfügbar gemacht. Es wurde nicht mit den Tondaten aligniert, was einen Rückbezug auf das, was konkret gesagt wurde, unmöglich macht. Eine Alignierung ist jedoch für einen späteren Zeitpunkt erhofft (ebd., S. 335). Ebenso wie das BNC ist auch die Transkription des Spoken BNC2014 eine orthografische Transkription: Speech phenomena which require a higher level of transcriber inference to be included in linguistic detail, such as “false starts, hesitation, non-verbal signals” (Atkins et al. 1992, S. 10), take more time to transcribe, and even more time to achieve consistency within each transcriber’s work and across transcribers. We aimed, therefore, to normalize or disregard these phenomena at the transcription stage as far as we could, while still serving most of the needs of most of our intended users. (Love et al. 2017, S. 333) Auf eine Transkription von Atmen und vokaler Kommunikation wurde demnach weitgehend verzichtet und Pausen innerhalb eines Sprecherbeitrags wurden erst ab einer Sekunde Länge notiert. Das Korpus wurde, wie auch das BNC, mit dem CLAWS-Tagger und dem C6 Tagset annotiert (ebd., S. 339). Eine spezielle Anpassung an Spontansprache oder eine Evaluation der Präzision der Annotationen erfolgte nicht. Für den französischen Sprachraum existieren verschiedene Korpora gesprochener Sprache, wovon drei den gesamten Sprachraum Frankreichs abdecken: das Corpus de Langues Parlées en Interaction (CLAPI, Laboratoire ICAR 2014), das Corpus prosodique de référence en français parlé (RHAPSODIE, Lacheret-Dujour/ Sourie/ Tchobanov 2015) sowie das französische Subkorpus der Integrated reference corpora for spoken romance languages (C-ORAL- ROM 2005). CLAPI beinhaltet circa 135 Stunden durchsuchbares Datenmaterial aus 300 verschiedenen Aufnahmen, die in 50 Subkorpora unterteilt sind. Wie viele Token sie enthalten, ist nicht dokumentiert. Genau wie im FOLK-Korpus sind die Daten natürlichen Interaktionen aus verschiedensten Kontexten entnom- <?page no="30"?> Einleitung 30 men, die durch Metadaten erfassbar sind: berufliche Kommunikation, private Kommunikation, Kommunikation aus dem medizinischen Bereich, institutionelle Kommunikation etc. Die Ton- oder Videoaufnahmen stammen aus den Jahren 1992 bis 2014. Sie sind mit den Transkripten aligniert und werden gerade nach „aktuellen französischen Standards“, die nicht genauer spezifiziert sind, getaggt, können jedoch nicht nach POS-Tags durchsucht werden. Nach Angaben der Webseite werden Tagset und Tools des ORFEO gerade implementiert (Laboratoire ICAR 2014). RHAPSODIE ist ein eher kleines Korpus von insgesamt 57 kurzen Aufnahmen von gesprochenem Französisch (je circa fünf Minuten Länge), d. h. insgesamt von circa 33.000 Wörtern. Die Auswahl ist jedoch repräsentativ für verschiedene Genres gesprochener Sprache, d. h. private und öffentliche Kommunikation, Monologe und Dialoge, face-to-face-Kommunikation und Aufnahmen aus Funk und Fernsehen. Wie der Name der Datenbank deutlich macht, ist das Korpus annotiert mit prosodischen Merkmalen (Intonationskonturen, Akzenten, Abbrüchen etc.) (Lacheret-Dujour/ Sourie/ Tchobanov 2015). Darüber hinaus ist es jedoch auch mit POS-Tags annotiert, wenn auch mit einem sehr groben Tagset von nur 13 Tags, wovon eines als Reste-Kategorie fungiert (genannt „X“), welches allen typisch gesprochensprachlichen Phänomenen zugeordnet wird, die nicht in die Kategorien der Hauptwortarten passen (Kahane et al. 2013, S. 7 f.). Ebenfalls ein französisches Subkorpus enthalten die Integrated reference corpora for spoken romance languages (C-ORAL-ROM) (Cresti/ Moneglia 2003), ein Projekt, das eine Datenbank gesprochener romanischer Sprachen für Sprachvergleiche entwickelt hat. Es besteht aus vier Subkorpora von jeweils 300.000 Token (circa 35 Stunden gesprochene Sprache) aus den Corpora of Spontaneous Spoken Italian (LABLITA), das Daten seit dem Beginn der 1970er Jahre beinhaltet, dem Spoken French Corpus (GARS/ DELIC), das Daten seit 1978 enthält, dem Corpus of spoken Portuguese (FUL.CLUL), welches Aufnahmen aus verschiedensten portugiesisch-sprachigen Ländern seit Beginn der 1970er Jahre umfasst, und dem UAM corpus of spoken Spanish, das seit 1991 entwickelt wird (C-ORAL-ROM 2005). Alle Subkorpora wurden so zusammengestellt, dass sie sowohl informelle als auch formelle Gespräche sowie zu gleichen Teilen Monologe und Dialoge enthalten. Die Alignierung der Transkripte mit den Audio-Dateien war ebenfalls Bestandteil des Projektes. Annotiert wurden in der Datenbank prosodische Pausen, allerdings keine POS-Tags (Cresti/ Moneglia 2003). Zwischen 1998 und 2004 wurde das Spoken Dutch Corpus (Het Corpus Gesproken Nederlands; CGN) (Oostdijk 2000) aufgebaut: ein Korpus, das gesprochenes Niederländisch sowohl aus dem flämischen Teil Belgiens als auch <?page no="31"?> Related Work 31 aus dem niederländischen Teil des Landes enthält (Oostdijk 2000). In der Version 1.0 umfasst das Korpus insgesamt fast neun Millionen Wörter (circa 800 Stunden Audio-Aufnahmen). Circa ein Drittel der Daten stammen aus dem flämischen Teil Belgiens, circa zwei Drittel der Daten aus den Niederlanden. Das gesamte Korpus wurde orthografisch transkribiert und mit den Audio- Dateien aligniert, sowie mit Lemmata und POS-Tags annotiert. Eine Auswahl von circa einer Million Wörtern wurde phonetisch transkribiert und auf Wort- Ebene aligniert. Weiterhin wurde eine Auswahl von einer Million Wörtern syntaktisch annotiert und eine Auswahl von circa 250.000 Wörtern prosodisch annotiert (Dutch Language Union 2004). In Bezug auf das POS-Tagging wurde für das Spoken Dutch Corpus ein eigenes, sehr feinkörniges Tagset entwickelt, das insgesamt 316 POS-Tags umfasst. Es hat beispielsweise 16 verschiedene Tags für Nomen, 30 für Adjektive und 26 für Verben (van Eynde/ Zavrel/ Daelemans 2000, S. 1430). Die Annotationsrichtlinien ließen keine Ambiguitäten zu, d. h. jedem Token wurde genau ein Tag zugewiesen. Dabei wurde das Prinzip Form über Funktion angewendet, d. h. bei der Klassifikation in der Annotation wurde die morphosyntaktische Form eines Tokens eher herangezogen als dessen syntaktische Funktion. Um das POS-Tagging zu automatisieren, wurden zunächst 40.000 Token manuell annotiert (ebd., S. 1433). Dieser Goldstandard wurde dann genutzt, um mit Hilfe eines Bootstrapping- Verfahrens und der Kombination verschiedener Tagger (TnT, MBT, Brill, MX) ein automatisiertes Tagging des Gesamt-Korpus zu ermöglichen (Zavrel/ Daelemans 2000). Dieses Verfahren ermöglichte schließlich die automatisierte Annotation mit einer Präzision von 94,3 Prozent (van Eynde/ Zavrel/ Daelemans 2000, S. 1433). Das Göteborg Spoken Language Corpus (GSLC) (Allwood et al. 2000) ist ein wachsendes Korpus des gesprochenen Schwedisch und beinhaltet momentan 1.416.248 Token aus 371 Aufnahmen mit circa 180 Stunden Audio-Material. Das Korpus strebt eine Stratifikation nach verschiedenen Formen der Kommunikation an, d. h. eine Datensammlung aus so vielen verschiedenen sozialen Interaktionen wie möglich (Göteborg University (Hg.) 2016). Die Daten werden mit standardisierter modifizierter Orthografie transkribiert, um die Eigenheiten der gesprochenen Sprache abzubilden. Berücksichtigt werden sowohl verschiedene Aussprachevarianten, die jedoch standardisiert transkribiert und für das Tagging auf die orthografische Normalform gemappt werden, als auch besonders betonte Wörter, Pausen und Overlaps. Die Daten werden mit POS-Tags annotiert. Zu diesem Zwecke wurde ein Hidden Markov Model Tagger (Viterbi-Algorithmus) an den Daten geschriebener Sprache trainiert und dann an die Daten gesprochener Sprache angepasst (Nivre/ Grönqvist 2001, S. 57 f.). Unter anderem wurde das Tagset angepasst: Einerseits wurde es von 23 auf 13 Tags reduziert, andererseits wurden zwei neue <?page no="32"?> Einleitung 32 Kategorien eingeführt - eine für Feedback (fb) und eine für own communication management (ocm) (ebd., S. 56). Mit dieser Methode wurde ein automatisiertes Tagging mit einer Präzision von circa 96 Prozent erreicht (siehe Göteborg University Webseite). Das Corpus of Spoken Slovene (GOS) (Verdonik/ Zwitter Vitez/ Tivadar 2011) ist ebenfalls ein Korpus gesprochener Sprache, das circa 120 Stunden Aufnahmen des gesprochenen Slowenisch beinhaltet. Es erhebt den Anspruch, ein repräsentatives Korpus des gesprochenen Slowenisch zu sein und enthält Gespräche aus den Bereichen Radio und TV, Schulstunden und Vorlesungen, private Konversationen zwischen Freunden und Familie, berufliche Kommunikation, Verkaufsgespräche etc. Die Sprecher*innen-Auswahl wurde von demografischen Kriterien bestimmt, d. h. die Sprecher*innen des Korpus sind zu etwa gleichen Teilen männlich und weiblich, stammen aus verschiedenen Landesteilen Sloweniens, sind verschiedenen Altersgruppen zugehörig und haben eine unterschiedliche Schulbildung. Informationen über die Sprecher*innen und Aufnahmesituation sind in Metadaten gespeichert (Romih/ Krek/ Kosem 2013). Die Transkription erfolgte zweifach, einmal nach Standard-Orthografie und einmal in literarischer Umschrift „write it down as you hear it“ (ebd.) und ist mit den Audiodateien aligniert. Alles in allem umfasst das Korpus mehr als eine Million Wörter. In dem Projekt „Communication in Slovene“ (JOS) (Erjavec/ Krek 2008) wurde für die linguistische Annotation der Daten ein Tagger (Obeliks) und ein Tagset (JOS-Tagset) entwickelt (ebd.). Der Obeliks Tagger, welcher auf dem TnT Tagger (Brants 2000) basiert, führt dabei verschiedene Annotationen aus: Er segmentiert und tokenisiert den Text in Sätze sowie Wörter und annotiert Lemmata und POS-Tags (Erjavec et al. 2010). Das Tagset umfasst mit allen Tag-Kategorien und ihren Attributen 1.902 Tags. 100.000 Token geschriebenes Slowenisch wurden damit manuell annotiert und dienten als Grundlage für ein Training des Taggers (Erjavec/ Krek 2008). Die Dokumentation des Taggings der Daten zur gesprochenen Sprache des GOS ist leider nur auf Slowenisch verfügbar. Der Projekt- Webseite ist zu entnehmen, dass das Tagging mit dem Obeliks-Tagger und dem JOS-Tagset eine Präzision von 91,34 Prozent erreicht. Evaluiert man nur die Superkategorien (Nomen, Verb, Adjektiv etc.), erreicht er eine Präzision von 98,30 Prozent (Romih/ Krek/ Kosem2013). 1.4.4 Zwischenfazit Fasst man diesen Überblick zusammen, so wird deutlich, dass es Referenzkorpora für viele verschiedene Sprachen gibt. Solche, die keine Daten gesprochener Sprache beinhalten, wurden hier nicht aufgeführt. Auch gibt es viele sehr spezifisch zusammengestellte Korpora, die ebenfalls nicht berücksichtigt wurden, da ihre Zahl einerseits sehr groß ist und sie andererseits nicht mit <?page no="33"?> Pilotstudie 33 dem in dieser Untersuchung behandelten FOLK-Korpus vergleichbar sind. Betrachtet man die hier vorgestellten Referenzkorpora, so stellt man fest, dass nur wenige davon auf gesprochene Sprache spezialisiert sind und noch weniger - nämlich nur das CHRISTINE-Korpus, das Spoken Dutch Corpus, das International Corpus of English, das Russian National Corpus und das Corpus of Spoken Slovene - ein Tagging bzw. Tagset entwickelt haben, das auf gesprochene Sprache angepasst ist. Für die deutsche Sprache wurde nur im KiezDeutsch-Korpus ein Tagging speziell für Daten gesprochener Sprache entwickelt. Da dieses Korpus jedoch allein eine spezifische Domäne von Konversationen beinhaltet, namentlich Jugendsprache im Freizeit-Kontext, ist es nur schwerlich auf ein Korpus mit einer Vielzahl verschiedener Interaktionsformen übertragbar. Da Änderungen des Tagsets des KiezDeutsch- Korpus jedoch in Kooperation mit diesem Dissertationsprojekt entstanden, wird an verschiedenen Stellen noch genauer auf die Ansätze von Rehbein/ Schalowski/ Wiese (2014) eingegangen werden, auch um darzustellen, inwiefern die Korpora schließlich auf POS-Tagging-Ebene miteinander vergleichbar sind. 1.5 Pilotstudie Dieser Untersuchung ging eine Pilotstudie voraus. Im Rahmen der Examensarbeit der Verfasserin mit dem Titel: „Problemanalyse des POS-Taggings für spontansprachliche Daten anhand des Forschungs- und Lehrkorpus Gesprochenes Deutsch“ wurden drei automatisiert getaggte Transkripte aus dem FOLK-Korpus (11.029 Token) analysiert. Einerseits wurde die Präzision des Treetaggers mit dem Stuttgart-Tübingen-Tagset (STTS) evaluiert, andererseits auch die Anwendbarkeit des Tagsets auf gesprochene Sprache überprüft. Bei den Transkripten handelte es sich um eine Berufsschulinteraktion, ein Alltagsgespräch von Student*innen in der Mensa und eine Kind-Kind-Vorleseinteraktion. Durch die Auswahl dieser unterschiedlichen Kommunikationssituationen sollte vermieden werden, dass Probleme beim Taggen, die einer bestimmten Art der Kommunikation geschuldet sind, einerseits zu sehr in den Vordergrund gelangten, andererseits eventuell unberücksichtigt blieben. Die Berufsschulinteraktion ist stark regionalsprachlich und durch den Aufbau des Unterrichts - hauptsächlich eine Frage-Antwort-Struktur - stark institutionell geprägt, mit einer geregelten Verteilung des Rederechts. Im Gegensatz dazu ist das studentische Alltagsgespräch kaum dialektgeprägt und durch das ungezwungene Beisammensein der Student*innen in der Mensa eher persönlich. Zuletzt ließ das Kind-Kind-Vorlesen, bedingt durch das Alter der Kinder, Fälle von nicht standardsprachlicher Wortstellung erwarten sowie Teile des konzeptionell schriftlichen Sprechens durch das Vorlesen von Textpassagen. <?page no="34"?> Einleitung 34 Diese Transkripte wurden zunächst maschinell mit dem deutschen Parameter-File des TreeTaggers und dem STTS getaggt und dann, mit Hilfe der Software Orthonormal (Schmidt 2014a), manuell korrigiert. Die Korrektur orientierte sich bei der Zuordnung der Wortarten zunächst an der Duden-Grammatik (Duden 2009), da diese nach den Normalisierungskonventionen von Deppermann/ Schütte/ Winterscheid (unveröffentlichtes Arbeitspapier am Leibniz-Institut für Deutsche Sprache) als Grundlage für die Normalisierung im Workflow des FOLK-Projektes dient. Aus diesem Ansatz ergaben sich jedoch schnell Probleme, da die Zugehörigkeit einer Wortform zu einer Wortart oft kontextabhängig ist und die Duden- Grammatik häufig keine klare Definition der Wortarten zur Abgrenzung der Wortartenzuordnung einer Wortform in verschiedenen Kontexten liefert. Zudem bleibt sie sehr unklar in Bezug auf die Klassifikation vieler Gesprächspartikeln und anderer Phänomene, die typisch für gesprochene Sprache sind. Die Auswertung der manuellen Korrektur ergab, dass der TreeTagger mit dem Original-STTS auf den drei Transkripten im Durchschnitt eine Präzision von 81,18 Prozent erreichte. Die höchste Präzision erreichte der Tagger auf den Daten des studentischen Alltags-Gesprächs mit 81,38 Prozent. Die Sprecher*innen dieser Interaktion sprechen ein sehr standardnahes Hochdeutsch. Die sehr dialektal geprägte Berufsschulinteraktion war zu 81,21 Prozent korrekt getaggt. Wie zu erwarten, war die von Kindersprache und vielen Onomatopoetika, Gesprächspartikeln und idiolektalen Interjektionen geprägte Kind-Kind-Vorlese-Interaktion mit 80,5 Prozent Präzision am wenigsten akkurat getaggt. Die Tagging-Performanz liegt damit weit unter den Werten für das Tagging schriftsprachlicher Daten, das bei 97,5 Prozent Präzision liegt (Schmid 1995). Selbst die Evaluation anhand der Präzision bezüglich der Superkategorien ergab keine große Verbesserung. Die Erkennung der Superkategorien gelang nur zu 85,03 Prozent. Bei genauerer Betrachtung stellte sich heraus, dass nur 3,87 Prozent aller vergebenen Tags, d. h. circa ein Fünftel der Fehler (20,55 Prozent) aufgrund der Subkategorisierung falsch getaggt wurden. Umgekehrt bedeutet dies, dass 79,45 Prozent der Fehler durch eine generell falsche Kategorisierung entstanden sind. Die Studie ergab, dass der größte Teil der Fehlerquote (51,59 Prozent der Fehler) durch fehlerhaftes Taggen der Gesprächspartikeln, beispielsweise Responsive oder Interjektionen, entstand. Weiterhin hatten folgende Kategorien großen Einfluss auf die Fehlerquote: − 13,43 Prozent der Fehler waren der fehlerhaften Kategorisierung von Pronomen geschuldet, − 9,14 Prozent der von Verben und <?page no="35"?> Zielsetzung der Untersuchung 35 − 8,18 Prozent der von Material, das nach dem Original-STTS der Kategorie XY (Nichtwort) zugewiesen werden musste, wie beispielsweise Wortabbrüche, Stottern etc. Weiterhin wurden in der Examensarbeit die einzelnen Verursacher dieser Fehlerquoten genauer analysiert, insbesondere solche Elemente, die typisch für die gesprochene Sprache sind. Hierzu wurden die Unterschiede der geschriebenen Sprache zu Transkripten gesprochener Sprache herausgearbeitet. Analysiert wurden die Unterschiede in der semantischen Kontextabhängigkeit einzelner Wortformen, Unterschiede in Lexik und Grammatik, die Häufung von Anakoluthformen und syntaktischer Diskontinuität in der gesprochenen Sprache und schließlich auch das Problem der Segmentierbarkeit von gesprochener Sprache, insbesondere, dass das Satz-Konzept, wie es in der Schriftsprache existiert, nicht anwendbar ist. Das Fazit dieser Pilotstudie war, dass einerseits das Tagset angepasst werden muss, um den Eigenheiten der gesprochenen Sprache gerecht zu werden. Andererseits stellte sich heraus, dass die Transkripte der Spontansprache so weit von Texten bzw. Zeitungstexten in Syntax und in der Funktion verschiedener Wortformen abweichen, dass ein Tagger an spontansprachlichen Daten neu trainiert werden muss, um bessere Ergebnisse zu erreichen. 1.6 Zielsetzung der Untersuchung Ziel dieser Untersuchung ist es, eine automatisierte Wortartenannotation (Part-of-Speech-Tagging) für das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), d. h. für Transkripte deutscher gesprochener Sprache, zu erarbeiten. Die bisher existierenden Tools zur automatisierten Wortartenannotation wurden bisher nur für die geschriebene deutsche Sprache konzipiert, genauer gesagt für Zeitungstexte, und funktionieren für Transkripte gesprochener Sprache nur unzureichend, wie die Pilotstudie belegen konnte. Ziel dieser Untersuchung ist es daher, die Fehlerquote beim automatisierten Partof-Speech-Tagging (POS-Tagging) auf maximal fünf Prozent zu minimieren. Damit läge man, der Besonderheit der Datenform Rechnung tragend, in einem Bereich, der auch für Korpusanalysen noch ausreichend gute Ergebnisse erzielt. Mit dieser Zielsetzung ist zudem verbunden, dass typisch gesprochensprachliche Phänomene durch das POS-Tagging auffindbar werden, sodass das POS-Tagging auch einen Mehrwert für die Nutzer*innen der Datenbank des Leibniz-Instituts für Deutsche Sprache hat. Diese Arbeit enthält zwei Schwerpunkte: Einerseits findet eine theoretische Diskussion der Phänomene gesprochener Sprache in Abgrenzung zu der Sprache in Zeitungstexten statt. Ziel ist es, die Literatur im Bereich der Wortarten und im Besonderen der Gesprächspartikeln auf eine mögliche Anwendung für POS-Kategorien zu <?page no="36"?> Einleitung 36 analysieren. Dabei wird das Verhältnis zwischen Theorie und Empirie immer wieder diskutiert. Andererseits enthält diese Arbeit eine empirische Studie, d. h. eine Beschreibung der Versuche und Experimente, der Tools und Konzepte, die eingesetzt bzw. erstellt wurden, um herauszufinden, wie sich das automatisierte POS-Tagging auf technischer Ebene verbessern lässt. Hier gilt es, verschiedene Wege und Methoden zu eruieren und zu evaluieren. Die empirischen Studien sollen zugleich helfen, die theoretischen Grundlagen zu hinterfragen sowie diese umgekehrt helfen sollen, typisch gesprochensprachliche Phänomene in den Daten zu identifizieren und zu annotieren. <?page no="37"?> Grammatik der gesprochenen Sprache 37 2. THEORETISCHE GRUNDLAGEN 2.1 Grammatik der gesprochenen Sprache Zentral für die automatisierte Annotation von Wortarten ist die Frage, ob bestimmte Abfolgen von Wortformen verschiedener Wortartenkategorien statistisch signifikant rekurrent vorkommen. Denn nur, wenn dies der Fall ist, können diese in einem automatisierten Verfahren identifiziert werden und zu einer erfolgreichen Annotation beitragen. Die Beschreibung des Systems der Abhängigkeiten solcher Abfolgen nennt man gemeinhin Syntax. Die Frage, die sich bei der Bearbeitung von Transkripten gesprochener Sprache nun also stellen muss, ist, inwiefern sich diese Abfolgen von denen von Zeitungstexten, für die der standard TreeTagger ausgelegt ist, abweichen. Es stellt sich also die Frage, ob die in der gesprochenen Sprache verwendete Syntax andere Ausprägungen in der Wortformen-Abfolge hat als die der geschriebenen Sprache. Für die Entwicklung des TreeTaggers und auch für andere Tools zur Sprachverarbeitung (z. B. Parser) wurden häufig Zeitungstexte herangezogen, da diese im besonderen Maße redigiert sind und somit der schriftsprachlichen Norm entsprechen. Über alle Textsorten hinweg zeigt sich, dass ein automatisiertes POS-Tagging mit an Zeitungsdaten trainierten Taggern immer dann problematisch ist, je weiter die Daten von der schriftsprachlichen Norm abweichen. Dies gilt sowohl für historische Texte als auch für Daten der internetbasierten Kommunikation als auch für Transkripte gesprochener Sprache. In allen diesen Anwendungskontexten von Sprache kann die Sprachverwendung eine breite Varianz zeigen, von standardnah und somit nah an der Norm bis standardfern. Um die verschiedenen Kommunikationsformen hinsichtlich verschiedener Kommunikationsbedingungen zu analysieren und die Differenzen im Sprachgebrauch zu erklären, entwickelten Koch/ Oesterreicher (1985) das Nähe-Distanz-Modell. Mit diesem lassen sich einzelne Kommunikate innerhalb des Spannungsverhältnisses zwischen medial mündlicher und medial schriftlicher Kommunikation einordnen und unter Einbezug der jeweiligen Kommunikationsbedingungen interpretieren (ebd., S. 15). Ausgangspunkt des Modells ist die Einordnung von Kommunikation hinsichtlich ihrer Medialität, d. h. ob sie phonisch oder grafisch geäußert wurde. Jede Kommunikation lässt sich unter Berücksichtigung ihrer Medialität dann auf einem Kontinuum zwischen den konzeptuellen Polen hinsichtlich ihrer kommunikativen Nähe oder Distanz verorten. Insgesamt lässt sich das Schema in vier medial-konzeptionelle Bereiche einteilen: „A (phonische/ gesprochen), B (phonische/ geschrieben), C (graphische/ gesprochen) und D (gra- <?page no="38"?> Theoretische Grundlagen 38 phische/ geschrieben)“ (ebd.). Die Begriffe gesprochen und geschrieben sind hier als Konzepte im Sinne der Transkodierungsmöglichkeiten (der Verlautlichung bzw. der Verschriftung) zu verstehen, die die Ausprägungen kommunikativer Nähe oder Distanz widerspiegeln. Dabei markiert das Trapez die „intuitive[…] Erfahrung, dass […] das phonische Medium eine besondere Affinität zur gesprochenen Konzeption aufweist und das graphische Medium zur geschriebenen Konzeption“ (Koch/ Oesterreicher 2008, S. 200). Abb. 1: Verschränkungen von Medium und Konzeption: Das Nähe - Distanz - Kontinuum (Koch/ Oesterreicher 2008, S. 201, Abb. 8.2) Für die Einordnung einer Kommunikationssituation auf diesem konzeptuellen Kontinuum bietet das Modell eine Orientierung anhand verschiedener Parameter, bzw. Kommunikationsbedingungen, die die jeweiligen Enden des Kontinuums (Nähe vs. Distanz) definieren: Privatheit Vertrautheit der Kommunikationspartner starke emotionale Beteiligung Situations- und Handlungseinbindung referenzielle Nähe raum-zeitliche Nähe (face-to-face) kommunikative Kooperation Dialogizität Spontaneität freie Themenentwicklung Öffentlichkeit Fremdheit der Kommunikationspartner geringe emotionale Beteiligung Situations- und Handlungsentbindung referenzielle Distanz raum-zeitliche Distanz keine kommunikative Kooperation Monologizität Reflektiertheit Themenfixierung usw. Abb. 2: Kommunikationsbedingungen bei Koch/ Oesterreicher (2008, S. 201) <?page no="39"?> Grammatik der gesprochenen Sprache 39 Seit der Einführung des Modells 1985 fand es großen Anklang in den verschiedensten Bereichen der Linguistik, wie auch der 30 Jahre später von Feilke/ Hennig (Hg.) (2016) herausgegebene Sammelband „Zur Karriere von Nähe und Distanz - Rezeption und Diskussion des Koch-Oesterreicher-Modells“ illustriert. Diskutiert wird das Modell vor allem auch in Hinblick auf die Interpretation von Daten der computer- oder handygestützten Kommunikation (zum Beispiel in Beißwenger 2010), wo es nach Dürscheid (2003, 2016) den Einbezug einer weiteren Ebene, namentlich der der (Quasi-)Synchronität oder Asynchronität der Kommunikation bedarf (Dürscheid 2016, S. 371). Auch in Hinblick auf eine Analyse der Eigenheiten der Transkripte gesprochener Sprache ist eine Einordnung der Daten innerhalb des Modells hilfreich. Die Daten, an denen der TreeTagger trainiert wurde, sind im Bereich D als medial und konzeptionell grafisch bzw. geschrieben zu verorten und in Hinblick auf die Parameter zur Identifikation der Kommunikationsbedingungen lassen sie sich auf dem äußersten Ende des Kontinuums als Sprache der Distanz bezeichnen. Die Transkripte des FOLK-Korpus lassen sich im Bereich C als medial und konzeptionell grafisch bzw. gesprochen verorten, 7 die aufgenommenen Interaktionen selbst entstammen aus dem Bereichen A bis B. In Bezug auf die Kommunikationsbedingungen verteilen sich die einzelnen im Korpus enthaltenen Interaktionen jedoch stark über das gesamte Kontinuum, wie auch im Kapitel 3.6.2 „Darstellung der Transkripte des Goldstandards“ genauer dargelegt wird. Der überwiegende Teil der Daten entstammt der Face-to-Face-Kommunikation und ist geprägt von raum-zeitlicher Nähe. In Hinblick auf alle anderen Parameter ist das Korpus stark gestreut. Für eine Analyse hinsichtlich der Sprachverwendung ist nun also interessant, inwiefern auch für das andere Ende des Kontinuums, also der Sprache der kommunikativen Nähe, Normen existieren und inwiefern sich diese im Speziellen im Bereich der (Morpho-)Syntax von den Normen des anderen Endes des Kontinuums abgrenzen. Es ist zu erwarten, dass Transkripte, die auf dem Kontinuum eher im Bereich der Sprache der Distanz anzusiedeln sind (wie beispielsweise abgelesene, öffentliche Vorträge), bei einem automatisierten Tagging mit dem TreeTagger präziser annotiert werden können, als Transkripte, die stark von Nähesprachlichkeit geprägt sind (zum Beispiel Gespräche in der Familie etc.). Diese Verortung lässt sich einerseits für die jeweiligen Transkripte vornehmen, viel wichtiger für die Frage nach den Eigenheiten 7 Strenggenommen lassen sich die Transkripte des FOLK-Korpus als solche nicht mit dem Nähe-Distanz-Modell beschreiben. Sie stehen außerhalb des Nähe-Distanz-Modells, da sie Kommunikation repräsentieren und sie selbst Dokumentations- und nicht Kommunikationsmedium sind. Ihre Inhalte wiederum lassen sich im Nähe-Distanz-Modell abbilden, wie im Kapitel 3.6.2 „Darstellung der Transkripte des Goldstandards“ genauer dargelegt wird. Im vorliegenden Kontext geht es um eine Analyse des Sprachgebrauchs, der durch die Transkripte repräsentiert wird. Hierfür ist eine Einordnung auf dem Modell wiederum hilfreich. <?page no="40"?> Theoretische Grundlagen 40 der gesprochenen Sprache ist jedoch die Verortung einzelner Äußerungen. Von Interesse für die Analyse dieser Untersuchung sind exakt solche Äußerungen, die spezifisch für die Sprache kommunikativer Nähe sind, da für Äußerungen, die der schriftsprachlichen Norm entsprechen, bereits ein POS- Tagging entwickelt worden ist. Die Pilotstudie hat gezeigt, dass es offensichtliche Abweichungen im Sprachgebrauch zwischen Zeitungstexten, an denen der Tagger trainiert wurde, und den untersuchten Transkripten der Pilotstudie gab. Die Präzision der POS- Annotation wich stark von den angegebenen Präzisionswerten für Zeitungstexte ab. Gleichzeitig scheint jedoch ein Großteil der an der Schriftsprache trainierten Abfolgen auch für die Transkripte der gesprochenen Sprache Anwendung zu finden, denn nur so erklärt sich die immer noch hohe Präzision in der POS-Annotation von 81,2 Prozent. Vor dem Hintergrund einer Neukonzeption des Tagsets sowie für die Trainierbarkeit des Taggers auf Transkripten spontansprachlicher Daten stellt sich also die Frage, was genau die circa 17 Prozent der Daten ausmachen, 8 die nicht durch die an Zeitungstexten trainierten Strukturen erfasst werden konnten. Grundlegend für einen Erfolg eines Neutrainings des Taggers ist die Beantwortung der Frage, welche Sprachverwendungsformen auf (morpho-)syntaktischer Ebene für die Sprache der Nähe typisch sind und ob sich daraus eine Norm ableiten lässt, die sich durch ein Training an annotierten Daten dieser Art statistisch abbilden lässt. In der Gesprochenen-Sprache-Forschung ist man seit geraumer Zeit bemüht, Normen der gesprochenen Sprache zu identifizieren (siehe zum Beispiel Schneider 2011, 2016; Couper-Kuhlen/ Selting 2018) und Differenzen zwischen der geschriebenen und gesprochenen Sprache theoretisch abzubilden (beispielsweise bei Fiehler et al. 2004 oder Hennig 2006). Für das nähere Verständnis spezifischer Strukturen der gesprochenen Sprache wird hier zunächst auf die spezifischen Eigenheiten der Sprachproduktion in der Mündlichkeit eingegangen. Wie Auer (2000) in seinem Artikel zur On line-Syntax herausstellt, sind die Flüchtigkeit, Irreversibilität und Synchronisierung der mündlichen Kommunikation der Rahmen, vor dem die Syntax der gesprochenen Sprache interpretiert werden muss (ebd., S. 44-46). Nimmt man das Beispiel der typischen Face-to-Face-Kommunikation, so beschränkt sich die „‚Präsenz‘ gesprochener Sprache […] auf die Zeitspanne, in der sie Sprecher und Hörer im Gedächtnis behalten können“ (ebd., S. 44). Diese Zeitspanne ist nicht sehr groß. Gesprochene Sprache ist für die kogni- 8 Ausgehend von einer Fehlerquote von ca. 2,5 Prozent, die für das Tagging mit dem TreeTagger und dem STTS für Zeitungstexte angegeben wurde (Schmid 1995, S. 8). <?page no="41"?> Grammatik der gesprochenen Sprache 41 tive Prozessierung, d. h. sowohl für die Produktion als auch für die Verarbeitung von Sprache, flüchtig (Auer 2000, S. 44). Ein oberflächliches Korrelat ist die Tatsache, dass Sprechern bei komplexen Konstruktionen manchmal „der Faden verloren geht“, was zumindest beim schriftlichen Endprodukt nicht der Fall zu sein pflegt, und dass Hörer bei solchen Konstruktionen gedächtnisbedingte Rezeptionsprobleme haben können. (ebd.) Gleichzeitig ist die gesprochene Sprache in dem Sinne irreversibel, als sie sich nicht editieren lässt wie geschriebene Texte. „Interaktiv gesehen geht es um die ebenso schlichte wie konsequenzenreiche Tatsache, dass, was gesagt ist, gesagt ist, und nicht mehr rückgängig gemacht werden kann“ (ebd., S. 45). Hier sind das oberflächliche Korrelat „‚Edierungsphänomene‘ […], die im schriftlichen Text nicht existieren oder getilgt werden“ (ebd.). 9 Eine spezifische Eigenheit der Face-to-Face-Interaktion im Gegensatz zur schriftlichen Kommunikation ist die Synchronisierung des kommunikativen Handelns zwischen Sprecher*innen und Hörer*innen. Wie wir seit Alfred Schütz wissen, ist die face to face-Situation dadurch gekennzeichnet, dass in ihr wie in keiner anderen Interaktionsform die Bewusstseinsströme des Ich und des Du synchronisiert werden: mein eigenes Handeln wird vom Gesprächspartner mit minimaler Verzögerung an meinem Verhalten erkannt, und umgekehrt sein Handeln an seinem Verhalten. (ebd., S. 46) Die Frage, die sich nun stellt, ist, inwiefern diese Rahmenbedingungen der mündlichen Kommunikation dazu führen, dass Sprecher*innen andere Syntagmen als Schreiber*innen (von Zeitungstexten) bilden und sich so strukturelle Regularitäten identifizieren lassen, die nicht der Schriftnorm entsprechen. Denn obwohl viele Äußerungen als Abweichungen von der Schriftnorm zu beschreiben sind, scheinen sie dennoch keine Probleme in der Kommunikation zu bereiten und werden auch nicht als Fehler in der Ausdrucksweise wahrgenommen (Schneider 2011, S. 182 f.). Es wird deutlich, dass man bei einer Beschreibung der Norm des Sprachgebrauchs in der Face-to-Face-Interaktion den Rahmenbedingungen desselben Rechnung tragen muss. Hennig (2006) expliziert drei Anforderungen an eine Grammatik-Schreibung für die gesprochene Sprache: 1. Eine Theorie der Grammatik der gesprochenen Sprache muss den Differenzcharakter der gesprochenen Sprache berücksichtigen, d. h., sie muss berück- 9 In der Chat-Kommunikation sind solche Phänomene bisweilen auch in der Schriftsprache sichtbar. Insbesondere dann, wenn es sich um hoch interaktive Chats handelt (insbesondere mit mehreren Teilnehmern), bei denen der einzelne Beitrag in seiner Zeitlichkeit von Bedeutung ist und eine Antwort eventuell „zu spät“ sein könnte. Generell haben Chat-Nutzer*innen jedoch die Möglichkeit, ihre Äußerungen zu editieren. <?page no="42"?> Theoretische Grundlagen 42 sichtigen, dass „gesprochene Sprache“ in Schriftkulturen ein Abgrenzungsbegriff ist. 2. Eine Theorie der Grammatik der gesprochenen Sprache muss die kommunikativ-pragmatischen Bedingungen gesprochensprachlichen Sprechens berücksichtigen. 3. Eine Theorie der Grammatik der gesprochenen Sprache muss die kognitiven Bedingungen der Produktion und Rezeption gesprochensprachlicher Äußerungen berücksichtigen. (ebd., S. 55) Mit ersterem Punkt bezieht sich Hennig (ebd.) auf den wechselseitigen Einfluss zwischen schriftlichem und mündlichem Sprachgebrauch in Schriftkulturen im Sinne der Identifikation von Merkmalen primärer oder tertiärer Oralität (ebd., S. 59). 10 Unter zweiterem Punkt versteht sie die Modellierung von Kommunikationsbedingungen (beispielsweise nach Fiehler et al. 2004, S. 56 oder Koch/ Oesterreicher 1985, 2008) als Basis für die systematische Erklärung grammatischer Erscheinungen gesprochener Sprache (Hennig 2006, S. 56). Letzterer Punkt zielt auf die Berücksichtigung der oben dargestellten on line-Prozessierung in der mündlichen Kommunikation ab. Eine Grammatik [ist] ein je nach Prämissen, Daten und Zielsetzungen des Grammatikschreibers unterschiedlicher Gegenstand […], [der] aber wohl immer die Beschreibung struktureller Regularitäten des jeweils gewählten Teils oder Ausschnitts einer Sprache anzielt. (Selting 2007, S. 100 f.) Grammatik-Konzeptionen, die sich spezifisch mit der Interpretation gesprochensprachlicher Daten befassen, sind die der Construction Grammar und der interaktionalen Linguistik. Konstruktionsgrammatische Ansätze stellen die unregelmäßigen Konstruktionen ins Zentrum der Theorienbildung. Sie sind bottom up-Grammatiken, die Sprachkompetenz als eine im Wesentlichen einzelsprachspezifische und idiomatisch strukturierte Fähigkeit ansehen. […] Abstrakte grammatische Kategorien (wie Wortarten) sind nicht Bausteine für Konstruktionen, sondern umgekehrt Abstraktionen aus konkreten Konstruktionen. […] Das Kind lernt zunächst konkrete, lexikalisch und morphologisch spezifische Konstruktionen, aus denen nach und nach, in Abhängigkeit von kommunikativen Erfahrungen und oftmals nicht einheitenkategorial konsistent abstrakte Schemata induziert werden. (Deppermann 2006, S. 49) 10 Hennig (2006) bezeichnet die Reorganisation der Oralität durch den Einfluss der Literalität auf die Oralität nach Vilmos Ágel als tertiäre Oralität und macht deutlich, dass solche aus der Schriftsprache entnommenen Strukturen bei der empirischen Analyse gesprochensprachlicher Daten neben Strukturen der primären Oralität (rein gesprochensprachlichen Strukturen) stehen. Als sekundäre Oralität definiert Mathilde Hennig nach Vilmos Ágel Literalität (ebd., S. 58 f.). <?page no="43"?> Grammatik der gesprochenen Sprache 43 Der Fokus dieses Grammatik-Ansatzes ist die Identifikation, Analyse und Anwendung von Konstruktionen im Sprachgebrauch. In Bezug auf die Identifikation syntaktischer Strukturen impliziert diese Theorie, dass Konstruktionen in ihrer Struktur einen Aufbau haben, der in seinen Einzelbestandteilen analysiert werden kann und deren Zusammensetzung sich im Sprachgebrauch wiederholt. Die interaktionale Linguistik geht ebenfalls von der Sedimentierung von Strukturen aus, zielt jedoch mehr auf die Beschreibung dieser Strukturen unter Berücksichtigung der lokalen Anpassung im interaktionalen Kontext ab. Interactional Linguistics pursues three objectives: (i) it aims at a functional description of linguistic structures as interactional resources mobilized in practices designed for the accomplishment of recurrent tasks in social interaction; (ii) it aims at cross-linguistic analysis and comparison of these practices in order to determine both how language and language type impinge on the details of the organization of social interaction; (iii) it aims at drawing general linguistic conclusions for a theory of language in social interaction which explains how language is organized and practiced in social interaction. The goal of Interactional Linguistics is a realistic reconstruction of the linguistic structures and practices that participants themselves deploy and orient to in the conduct of social interaction. (Couper-Kuhlen/ Selting 2018, S. 16) Die interaktionale Linguistik sieht sich als ein interdisziplinäres Forschungsfeld, das Ansätze der Konversationsanalyse, der interaktionalen Soziolinguistik und der Kontextualisierungstheorie und der anthropologischen Linguistik vereint (Selting/ Couper-Kuhlen 2000, S. 78; Couper-Kuhlen/ Selting 2018, S. 4-12). „Auf diese Weise wollen die Forschenden der Tatsache gerecht werden, dass Sprache normalerweise immer in sozialer, und häufig in konversationeller Interaktion gebraucht wird“ (Selting/ Couper-Kuhlen 2000, S. 78). Zudem ist die interaktionale Linguistik ein strikt empirischer Ansatz, der auf der kontext-sensitiven Analyse natürlicher Interaktion beruht und linguistische Phänomene aller Art vor dem Hintergrund interaktionaler Relevanz beleuchtet (ebd., S. 77 f. und Couper-Kuhlen/ Selting 2018, S. 26). Die Konstruktionen, die im Kontext der Construction Grammar und der interaktionalen Linguistik beschrieben werden, basieren auf der empirischen Analyse ebensolcher Transkripte natürlicher Interaktion, für die nun ein POS- Tagging entwickelt werden soll. Wie bereits herausgestellt wurde, sind die linguistischen Strukturen, die nicht der schriftsprachlichen Norm entsprechen, von Interesse für die Forschung im Bereich der Wortarten-Annotation von Transkripten gesprochener Sprache, und zwar im Besonderen solche Strukturen, die im linguistischen Bereich der (Morpho-)Syntax anzusiedeln sind. <?page no="44"?> Theoretische Grundlagen 44 Der Frage, inwieweit solche Strukturen Norm-Charakter haben, d. h. eine Norm der gesprochenen Sprache im Gegensatz zur schriftsprachlichen Norm repräsentieren, geht Schneider (2011, 2016) nach. Auch er analysiert Daten gesprochener Sprache vor dem Hintergrund des Kontextes der on line-Prozessierung mit dem Ziel zu klären, was überhaupt als Konstruktion, d. h. als (mehr oder weniger) schematisierte Einheit, gelten kann, und was als reines Performanzphänomen, d. h. als nichtschematisiertes Einzelereignis, oder gar als „sprachliche Fehlleistung“ zu betrachten ist. (Schneider 2011, S. 167) Diese Abgrenzung setzt voraus, dass die gesprochene Sprache, ebenso wie die geschriebene Sprache, implizite, „wenngleich auch stark veränderliche, Regeln auf[weist]“ (ebd., S. 171), veränderlich in dem Sinne, als sie vom Gesprächskontext und der Gesprächssituation abhängig sind. In seinen Arbeiten setzt er sich zum Ziel, diese Regeln zu identifizieren. Er unterstützt diese These weiterhin durch das Argument, dass man bei Muttersprachlern ein Korrekturverhalten und -vermögen an den Äußerungen von Lernern der Sprache beobachten kann, was wiederum darauf schließen lässt, dass der Aufbau bestimmter Konstruktionen geduldet ist und anderer nicht (ebd., S. 182 f.). Die Kriterien, die er zur Identifikation von spezifischen syntaktischen Konstruktionen des gesprochenen Standards heranzieht, sind folgende: a) Es handelt sich um eine schematisierte Einheit (= Konstruktion) und nicht um ein reines Performanzphänomen. b) Die Konstruktion ist aus den medialen Grundbedingungen der gesprochenen Sprache erklär- und funktional beschreibbar („Online-Syntax“). c) Die Konstruktion ist c.1) im Gesprochenen auch in überregionalen, formelleren Kontexten regelhaft und unmarkiert, obwohl sie c.2) keine strukturelle Entsprechung im geschriebenen Standard hat. (Schneider 2016, S. 276) Die Abgrenzung von Konstruktionen zu Performanzphänomenen definiert er folgendermaßen: Wie in den vorangegangenen Kapiteln bereits mehrfach erwähnt wurde, setzt der Konstruktionsstatus eine Schematisierung, eine syntaktische Typenbildung voraus. Sprachliche Schemata entstehen durch Iteration von Zeichen im sozialen Gebrauch. Ein Unterschied zwischen einer Konstruktion (= einer schematisierten Einheit) und einem reinen Performanzphänomen besteht also […] in der Rekurrenz, der Frequenz der betreffenden syntaktischen Struktur. (Schneider 2011, S. 180) Auf diese Weise identifiziert er folgende Strukturen als Konstruktionen der gesprochenen Sprache: Linksversetzungen und freie Themen bzw. Referenz- Aussage-Strukturen (Schneider 2016, S. 277), Verbzweit-Konstruktionen mit den Diskursmarkern weil, wobei und obwohl (Schneider 2011, S. 181), Apokoi- <?page no="45"?> Grammatik der gesprochenen Sprache 45 nu-Konstruktionen (ebd., S. 175; Schneider 2016, S. 278) und Adverbialklammer-Konstruktionen (ebd., S. 279). Er konnte mit seinen Analysen belegen, dass es grammatische Konstruktionen im gesprochenen Standarddeutsch gibt, die es im standardsprachlichen geschriebenen Deutsch nicht gibt. 11 Diese Konstruktionen sind auch für das POS-Tagging relevant. In Linksversetzungen bzw. bei freien Themen (beispielsweise Duden 2009, S. 1198), wie im Beispiel 1, folgt ein koreferenzielles Pronomen einem Nomen oder Eigennamen. Die ist eine Kombination von Wortarten-Tags, die in der Schriftsprache von Zeitungstexten nicht sehr häufig sein dürfte. Beispiel 1: Freies Thema, Tischgespräch, Transkript FOLK_E_00047_ SE_01_T_01_DF_01, 21: 36-21: 51 12 01 PB n_ja die TISCHdecke die is echt dreckig hier . Beispiel 2: Apokoinu, Telefongespräch, Transkript FOLK_E_00084_ SE_01_T_01_DF_01, 00: 30-00: 35 13 01 EG [ un DA is_er -] 02 FR [also AUßen ][auch oder wie- ] 03 EG [(.) also auf_m D]ACH war der halt. h° 04 FR oh GOTT- h° Apokoinu-Konstruktionen können unterschiedlich aufgebaut sein. Für das POS-Tagging relevant sind zum Beispiel solche Apokoinu-Konstruktionen, bei denen eine Äußerung zwei finite Verben enthält, die jedoch nicht koordiniert sind und auch von der Stellung her so nicht im Sprachgebrauch der Schriftnorm vorkommen wie im Beispiel 2. In Bezug auf die Adverbialklammer-Konstruktionen (Beispiel 3) und auch die Verbzweit-Konstruktionen mit den Diskursmarkern weil, wobei und obwohl (Beispiel 4) wird es notwendig sein, die Annotation dieser Wortformen mit den klassischen Kategorien Adverb bzw. subordinierende Konjunktion zu überdenken. 11 Er beschreibt diese Strukturen als „medialitätsbedingt“. Gerade bei der Betrachtung von Chat-Daten und anderen Daten der CMC wird jedoch deutlich, dass diese Konstruktionen sehr wohl auch im Medium Schrift verwendet werden. 12 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00047_SE_01_T_01_DF_01&cID=c943&wID=w3398&textSize=200&contextSi ze=4. 13 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00084_SE_01_T_01_DF_01&cID=c28&wID=w128&textSize=200&contextSi ze=4. <?page no="46"?> Theoretische Grundlagen 46 Beispiel 3: Adverbialklammer-Konstruktion, Tischgespräch, Transkript FOLK_E_00055_SE_01_T_09_DF_01, 01: 57: 50-01: 57: 57 14 01 NH äh RÖteln? 02 (0.42) 03 NH hab ich ANgeblich gehabt-= 04 NH =ich bin da nich GEgen geimpft? Beispiel 4: weil als Diskursmarker, Sprachbiografisches Interview, Transkript FOLK_E_00187_SE_01_T_01_DF_01, 00: 12-00: 18 15 01 EUP1 ist das mikrofon GUT so? 02 (0.49) 03 EUP1 weil isch hab_s grad_n bisschen verSTELLT glaub isch. Anakoluthformen bezeichnet Schneider (2011) als Performanzphänomene und schließt sie als mögliche Konstruktionen aus: Retraktionen sind im Gesprochenen zwar als Phänomene der Online-Prozessierung zu begreifen, sie können aber durchaus zu grammatischen Konstruktionen führen, die dem geschriebenen Standard entsprechen. […] Abbrüche mit Wiederholung und Korrektur […] können an jeder beliebigen Stelle einer Einheit erfolgen und sind daher nicht als eigenständige Konstruktionen zu betrachten: Der Konstruktionsstatus setzt eine Schematisierung, eine syntaktische Typenbildung voraus. Ähnlich verhält es sich mit den Ausstiegen (den Abbrüchen ohne Korrektur) - auch sie können in spontanen Redesituationen an beliebigen Stellen erfolgen, ohne dass die Kommunikation dadurch gestört sein müsste. (ebd., S. 174) Schneider unterscheidet demnach zwischen Performanzphänomenen und Konstruktionen und unterstützt damit explizit (ebd., S. 167) die These von defizitären Äußerungen, was im klaren Gegensatz zu interaktionalen oder konstruktionsgrammatischen Ansätzen steht. Es gibt sehr viel Literatur über Anakoluthe, die in vielfältiger Weise wiederkehrende Schemata in ihrer Realisierung beschreiben (siehe eine grobe Unterteilung in Ausstieg, Retraktion und Umstieg (Zifonun/ Hoffmann/ Strecker 1997), sowie die Klassifikation und Diskussion um Increments 16 (Auer 1991; 14 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00055_SE_01_T_09_DF_01&cID=c413&wID=w2352&textSize=200&contextSi ze=4. 15 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00187_SE_01_T_01_DF_01&cID=c14&wID=w17&textSize=200&contextSize=4. 16 Die Interpretation von Increments als Anakoluthstrukturen hängt davon ab, wie strikt die Orientierung an der rechten Klammer (siehe dazu auch das Kapitel 2.4.2 „Exkurs: topologisches Satzmodell“) angesehen wird. <?page no="47"?> Grammatik der gesprochenen Sprache 47 Schegloff 1996; Ford/ Fox/ Thompson 2002; Vorreiter 2003; Auer 2006; Couper- Kuhlen/ Ono 2007)). Darüber hinaus kann ebenfalls, in Bezug auf Schneiders eigene Argumentationslinie angefügt werden, dass solche Äußerungen nicht dem oben genannten Korrekturverhalten unterliegen. Auch die Studien des SegCor-Projektes geben Hinweise darauf, dass sich verschiedene Abbruchstrukturen auch syntaktisch weiter klassifizieren lassen. Hier müsste eingehender geprüft werden, wann und in welcher Weise eventuell auch bestimmte Anakoluthformen erkennbaren Schemata folgen. Couper-Kuhlen/ Selting (2018) präsentieren in ihrer jüngsten Publikation zu sprachvergleichenden interaktionalen Studien ebenfalls Strukturen, die als typisch gesprochensprachliche Strukturen zu bezeichnen sind: − und-, aber- und oder-Konstruktionen, die nicht parataktisch gebraucht werden (ebd., S. 429-439). In solchen Konstruktionen muss der Status dieser Wortformen als Konnektoren für ein POS-Tagging hinterfragt werden. − Verbspitzenstellung bei Konditionalsätzen 17 (ebd., S. 457 f.) (siehe zur Verbspitzenstellung bei deutschen Deklarativen auch Auer 1993), − freistehende wenn-Sätze (Couper-Kuhlen/ Selting 2018, S. 458-460), − komplexe Diskursmarker wie ich glaub, ich mein als Teil des komplexen Strukturaufbaus (ebd., S. 464-466), − Pseudoclefts (ebd., S. 480), − Extrapositionierungen (ebd., S. 482-484) und − Ein-Wort-Konstruktionen, namentlich Gesprächspartikeln (ebd., S. 493- 537), deren Klassifikation im Rahmen des POS-Taggings grundsätzlich geklärt werden muss (Genaueres dazu um Kapitel 2.4 „Wortarten in der gesprochenen Sprache“). Betrachtet man die Vielzahl solcher gesprochensprachlicher Konstruktionen, so wird deutlich, dass ein POS-Tagger, der an Zeitungstexten trainiert wurde, diese Konstruktionen nicht erfassen kann. Weiterhin wird schnell deutlich, dass sie teilweise (und im Besonderen die Gesprächspartikeln) von dem Konzept „Satz“ der Schriftnorm abweichen. Der Satz ist die zentrale Kategorie der Einheiten-Definition der schriftsprachlichen Norm und die Bezugsgröße für den Aufbau von Äußerungen nach syntaktischen Regeln. Die Definition des Satzbegriffes ist jedoch keineswegs unumstritten: „Der Satz ist eines der umstrittensten Konzepte der Sprachwissenschaft; dies zeigen allein schon die ca. 200 Versuche zu Satzdefinitionen“ (Zifonun/ Hoffmann/ Strecker 1997, S. 86). 17 Findet sich auch in der Schriftsprache, beispielsweise in Märchen etc., ist jedoch eher seltener gebräuchlich. <?page no="48"?> Theoretische Grundlagen 48 Die Duden-Grammatik präsentiert drei Ansätze zur Definition des „prototypischen“ (Duden 2009, S. 763) Satzes. 1) „Ein Satz ist eine Einheit, die aus einem Prädikat mit finitem Verb und allen zugehörigen Satzgliedern besteht“ (ebd., S. 763). Dieser Ansatz repräsentiert den Verb-zentrierten Ansatz zur Definition des Satz-Konzeptes. Dieser Ansatz wird auch vom grammatischen Informationssystem Grammis 2.0 (Institut für Deutsche Sprache 2017) vertreten: Als Sätze betrachten wir Einheiten, die im Rahmen der Grammatik über ihre Form bestimmt sind: Sie enthalten ein finites Verb und die unter strukturellen und kontextuellen Bedingungen notwendigen Komplemente. Darüber hinaus können sie auch Supplemente enthalten. Von Sätzen unterscheiden wir die funktional bestimmten kommunikativen Minimaleinheiten, die kleinsten sprachlichen Einheiten, mit denen eine sprachliche Handlung vollzogen werden kann. Diese Differenzierung zwischen Satz und kommunikativen Minimaleinheiten vertritt auch die „Grammatik der deutschen Sprache“ (GDS) 18 (Zifonun/ Hoffmann/ Strecker 1997, S. 86). Der zweite in der Duden-Grammatik geschilderte Ansatz entspricht den kommunikativen Minimaleinheiten: 2) „Ein Satz ist eine abgeschlossene Einheit, die nach den Regeln der Syntax gebildet worden ist“ (Duden 2009, S. 764). Die Identifikation eines Satzes ist nach dieser Definition unabhängig von der Existenz eines finiten Verbs in der Äußerung. Nach dieser Definition können alle Äußerungen als Satz bezeichnet werden, die mit minimal zwei Wörtern eine syntaktische Abhängigkeit voneinander aufweisen. Der dritte Ansatz bezieht sich auf die Problematik der Frage, wo die Grenzen der Einheit Satz sind: 3) „Ein Satz ist die größte Einheit, die man mit den Regeln der Syntax erzeugen kann“ (ebd.). Nach dieser Definition sind die verschiedenen Bestandteile eines komplexen Satzes Teil desselben und nicht als einzelne (Teil-)Sätze zu definieren. Andere Definitionen sehen jeden Teilsatz (z. B. Haupt- und Nebensätze) jeweils als eine Einheit. Zusammenfassend kann man konstatieren: „[H]inter der Bezeichnung Satz [steht] nicht ein einzelner Begriff, sondern eine ganze Familie sich überschneidender Begriffe“ (ebd., S. 763). Die hier dargestellten verschiedenen Ansätze zu Definitionen des Satzbegriffes verdeutlichen die Relevanz des Satz-Konzeptes in der Grammatik-Theorie. All diesen Konzepten ist jedoch gemein, dass sie „aus der geschriebenen Sprache entwickelt worden sind, den Besonderheiten der gesprochenen Sprache also nicht immer gerecht 18 Im Folgenden wird auf dieses Werk nur noch mit der Kurzform „GDS“ verwiesen. <?page no="49"?> Grammatik der gesprochenen Sprache 49 werden“ (ebd.). So ist es naheliegend, dass das meist-diskutierte Problem im Zusammenhang mit der Analyse der Grammatik gesprochener Sprache, die Frage nach den Einheiten der gesprochenen Sprache ist. Diese Frage ist auch für das POS-Tagging elementar. Für die Gruppierung von Wortformen-Abfolgen, die dann statistisch als zusammenhängend interpretiert werden, bedarf es der Identifikation von Einheiten, die syntaktisch voneinander abhängig sind. Einen Einblick darin, inwiefern die Strukturen der Äußerungen der Transkripte des FOLK-Korpus vom traditionellen Satzkonzept abweichen, liefern auch erste Ergebnisse des Segmentation of Oral Corpora Projektes (SegCor). Für die Annotation des Pilotkorpus im Projekt SegCor wurde zunächst eine Adaption des topologischen Feldermodells herangezogen. Das Annotationsschema legt eine Satzdefinition mit der Prämisse der Existenz eines finiten Verbs zugrunde und differenziert zwischen simplen und komplexen Satzstrukturen als jeweils eine Einheit. Erste Ergebnisse aus dem annotierten SegCor-Pilotkorpus zeigen, dass etwas mehr als die Hälfte (51,5 Prozent) der annotierten Segmente der schriftsprachlichen, klassischen Satzdefinition entsprechen, d. h. sie enthielten ein finites Verb mit allen notwendigen Satzgliedern. Fast zehn Prozent der Segmente wurden als abgebrochene Äußerungen und 37 Prozent der Segmente als Äußerungen ohne finites Verb annotiert. Darüber hinaus zeigt sich eine starke Streuung in Bezug auf die Interaktionstypen. Beispielsweise machten Satzstrukturen im Experten-Vortrag einen Anteil von 79 Prozent aus, in einem familiären Tischgespräch waren es nur 35 Prozent. Dies bestätigt die Annahmen der interaktionalen Linguistik, dass die Art und Weise, welche Formulierungen gewählt werden, stark von der Gesprächssituation und dem Kontext abhängen. Diese quantitativen Untersuchungen zeigen, dass im Durchschnitt fast die Hälfte aller Äußerungen nicht durch ein Satzkonzept der Schriftnorm abgebildet werden können. Seit dem Beginn der empirischen Erforschung der gesprochenen Sprache ist die Einheitenbildung in der gesprochenen Sprache eine zentrale Frage. Sie wird sowohl auf theoretischer Ebene diskutiert als auch vor dem Hintergrund der Korpusaufbereitung und Transkription. Inwiefern die Segmentierung der Transkripte des FOLK-Korpus für das POS-Tagging relevant wird, wird im folgenden Kapitel 2.2 „Segmentierung von Transkripten gesprochener Sprache“ genauer ausgeführt. Auf theoretischer Ebene wird deutlich, dass sich alle umfassenden Werke zur Beschreibung einer Grammatik der gesprochenen Sprache mit der Frage nach den Einheiten derselben auseinandersetzen. Die Literatur zu diesem Thema ist umfassend, daher sollen hier nur die verbreitetsten Konzepte kurz vorgestellt werden. Nach Hennig (2006) lassen sich drei Strategien im Umgang mit der Analyse und Beschreibung von Einheiten in der gesprochenen Sprache feststellen (ebd., S. 148). Erstens, die Übernahme <?page no="50"?> Theoretische Grundlagen 50 einer schriftsprachlichen Kategorie, zweitens, die Adaption einer solchen Kategorie und drittens, der Vorschlag neuer Kategorien (ebd.). Unter letzteren Punkt fallen beispielsweise Äußerungseinheiten nach Rath (1990, 1997), Einheiten der pragmatischen Syntax nach Jürgens (1999, 2001), funktionale Einheiten nach Fiehler et al. (2004), Fiehler (2007, 2015), Talk Units nach Halford (1996) oder Turn Construction Units (TCUs) (Sacks/ Schegloff/ Jefferson 1978; Schegloff 1996; Selting/ Couper-Kuhlen 2000; Selting 2007, 2015; Couper-Kuhlen/ Selting 2018). Eine ausführliche Besprechung der Vor- und Nachteile dieser Einheiten-Konzepte findet sich bei Deppermann/ Proske (2015) in ihrem Aufsatz „Grundeinheiten der Sprache und des Sprechens“. Sie werden im folgenden Kapitel noch genauer ausgeführt. Die Daten des FOLK-Korpus sind nach keinem dieser Konzepte segmentiert. Die Segmentierung in der Transkription der Audio- und Videodaten erfolgt pausenbasiert. Welche Implikationen diese Form der Segmentierung für das POS-Tagging hat, wird im folgenden Kapitel genauer erörtert. 2.2 Segmentierung von Transkripten gesprochener Sprache Bis heute ist die gängige Praxis der Transkription großer spontansprachlicher Korpora eine pausenbasierte Segmentierung (Hamaker/ Zeng/ Picone 1998). Die für das FOLK-Korpus angewendete pausenbasierte Transkription nach cGAT (Schmidt/ Schütte/ Winterscheid 2015) ist eine leicht zu operationalisierende Segmentierungs-Methode, welche die Daten theorieneutral behandelt. Jede Sprecherpause, die mehr als 0,2 Sekunden andauert, markiert eine Segmentgrenze. Nach Angaben des Transkriptionshandbuchs cGAT (ebd.) handelt es sich bei Pausen, die kleiner als 0,2 Sekunden sind, „oftmals um Pausen, die im Oszillogramm nicht genau gemessen werden können, sondern eher beim Abhören der Aufnahme als kurzes Absetzen innerhalb einer Äußerung wahrgenommen werden“ (ebd., S. 48). Im Umkehrschluss bedeutet dies, dass man die kleinste, verlässliche Einheit gewählt hat, um die Äußerungen in Einheiten zu untergliedern. Durch die Alignierung mit den Audiodateien lässt sich die Pausenlänge exakt bemessen und wird im Transkript vermerkt. Diese Segmentierungsweise erschwert die Nutzung dieser Korpora für die Forschung, einerseits für linguistische Analysen der Gesprochene-Sprache-Forschung oder den Sprachvergleich mit anderen Sprachen, beispielsweise wenn Nutzer*innen nach bestimmten Wortformen am Anfang oder am Ende einer Äußerung suchen wollen. Andererseits erschwert es auch die Anwendung und Entwicklung von Sprachtechnologie, die häufig anhand der schriftsprachlichen Norm entwickelt wurden und den Satz als Bezugsgröße verwenden. Welche Auswirkungen diese Segmentierung auf die Entwicklung des POS-Taggings für Transkripte gesprochener Sprache hat, wird im Folgenden erläutert. <?page no="51"?> Segmentierung von Transkripten gesprochener Sprache 51 Beispiel 5: Berufsschulinteraktion, Transkript FOLK_E_00001_SE_01_T_01_ DF_01, 00: 00-00: 16 19 Das Beispiel 5 illustriert die Problematik der pausenbasierten Segmentierung. In einer auf Regeln der Schriftsprache basierten Segmentierung könnte man diese Äußerungen als zwei aufeinanderfolgende Sätze interpretieren: ich darf euch begrüßen heute zur Unterrichtsstunde | wir haben ja zuletzt über die prüfung vom sekundärbereich gesprochen |. In der pausenbasierten Segmentierung fallen jedoch Teile des zweiten Satzes mit dem ersten in ein Segment, weil der Sprecher LB an dieser Stelle keine Sprecherpause macht. Der zweite Satz verteilt sich hingegen auf vier Segmente, weil LB drei sehr lange Pausen innerhalb der Äußerung des zweiten Satzes macht. Für dieses Beispiel ist eine Segmentierung nach einem Satzmodell, wie es für die Schriftsprache gilt, möglich, abgesehen von der Interjektion so und der Hesitationspartikel äh. Schon diese zwei Gesprächspartikeln jedoch markieren den Beginn einer langen Liste an Eigenheiten von Transkripten gesprochener Sprache, die sich mit dem Satzkonzept der geschriebenen Sprache nicht abbilden lassen. Deppermann/ Proske (2015) konstatieren: „Die Kategorie ‚Satz‘ [ist] als Grundkonzept für die exhaustive Analyse von Einheiten des Sprechens untauglich“ (ebd., S. 20 f.). In ihrem schon oben erwähnten Aufsatz „Grundeinheiten der Sprache und des Sprechens“ zeigen sie verschiedene Konzepte auf, die als Vorschläge zur Segmentierung von Daten gesprochener Sprache gemacht wurden: − zunächst Turns bzw. Gesprächsbeiträge oder -schritte im Sinne von Rath (2000) bzw. Brinker/ Sager (2010) oder Henne/ Rehbock (1995) (vgl. Deppermann/ Proske 2015, S. 21), 19 In diesem speziellen Fall wird das Beispiel als Screenshot aus der DGD dargestellt, um die pausenbasierte Segmentierung zu illustrieren, die bei einem GAT-Transkript nicht gegeben wäre. FOLK_E00001 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? comma nd=displayTranscript&id=FOLK_E_00001_SE_01_T_01_DF_01&cID=c2&wID=w5&textSize= 300&contextSize=8. <?page no="52"?> Theoretische Grundlagen 52 dann ebenenspezifische Einheitenkonzepte: − auf syntaktischer Ebene nach Kindt (1994), oder auch eine Zusammenfassung anderer Konzepte bei Fiehler et al. (2004) und das Konzept der On line-Syntax nach Auer (2000 und 2007) (vgl. Deppermann/ Proske 2015, S. 22), − auf pragmatischer Ebene, d h. auf Basis sprachlicher Handlungen nach dem Transkriptionssystem HIAT (Rehbein et al. 2004), nach Hagemann/ Rolf (2000) oder Staffeldt (2014) (vgl. Deppermann/ Proske 2015, S. 22), − auf prosodischer Ebene, d. h. auf Basis von Intonationsphrasen in den GAT2- Konventionen nach Selting et al. (2009), die wiederum basieren auf Halliday (1967), Chafe (1994) oder Cruttenden (1997) und anderen (vgl. Deppermann/ Proske 2015, S. 23), und ebenenübergreifende Konzepte wie: − Turnkonstruktionseinheiten (engl. turn constructionial units (TCUs)) nach Sacks/ Schegloff/ Jefferson (1978), Ford/ Thompson (1996), Selting (2000, 2005) u. a. (vgl. Deppermann/ Proske 2015, S. 25-27), − Talk Units nach Halford (1996) (vgl. Deppermann/ Proske 2015, S. 32), − kommunikative Minimaleinheiten und interaktive Einheiten nach Zifonun/ Hoffmann/ Strecker (1997) (vgl. Deppermann/ Proske 2015, S. 33), − Äußerungseinheiten nach Rath (1976, 1985, 1990, 1997) (vgl. Deppermann/ Proske 2015, S. 30 f.) sowie − funktionale Einheiten nach Fiehler et al. (2004) (vgl. Deppermann/ Proske 2015, S. 29 f.). Gleichzeitig zeigen Deppermann/ Proske auch Fälle auf, die für die Segmentierung mit diesen Konzepten Probleme bereiten. Als Beispiele führen sie Diskursmarker und Linksversetzungen, Increments, Gesprächspartikeln, kollaborative Turns sowie nonverbale Handlungen und Strukturen an (ebd., S. 34-38). Aufgrund der Problematik, dass keiner dieser Ansätze dazu geeignet ist, Daten gesprochener Sprache exhaustiv zu segmentieren, schlagen Auer (2010) und Barth-Weingarten (2016) auf sehr unterschiedliche Weisen vor, anstelle der Segmentierung auf ein Zäsurierungskonzept auszuweichen. Barth-Weingarten bezieht sich auf vielfältige phonetisch-prosodische Parameter, die aber in FOLK-Transkripten nicht repräsentiert sind. Auer bezieht sich auf revidierbare, aushandelbare Einheiten mit mehr oder weniger klarem Status und nimmt dafür Zäsurierungen auf verschiedenen linguistischen Ebenen vor. Die jeweiligen Kriterien für das Setzen dieser Zäsuren für eine verlässliche (im Sinne eines Inter-Annotator-Agreements) Zäsurierung, beschreibt er lei- <?page no="53"?> Segmentierung von Transkripten gesprochener Sprache 53 der nicht. Somit bleiben diese Konzepte nicht für die Transkripte des FOLK- Korpus operationalisierbar. Zusammenfassend kann man konstatieren, dass bisher kein Segmentierungssystem, das sowohl linguistisch fundiert als auch praktisch operationalisierbar für große Korpora gesprochener Sprache ist, existiert. Einige der Probleme, die beim POS-Tagging durch die pausenbasierte Segmentierung entstehen, lassen sich voraussichtlich durch eine Bearbeitung der Transkripte hinsichtlich einer Segmentierung lösen. Rehbein/ Schalowski/ Wiese (2014) konnten zeigen, dass das Einfügen von Interpunktion in den Transkripten des KiezDeutsch-Korpus (KiDKo) nach dem HIAT-System zu einer Steigerung der POS-Tagging-Präzision des TreeTaggers um 2,3 Prozent führt (ebd., S. 3930). Dabei ist zu beachten, dass in diese Präzision dann ebenfalls die Annotationen der doch sehr frequenten Interpunktionszeichen eingerechnet sind. Im bereits erwähnten Projekt „Segmentation of Oral Corpora“ (SegCor) des IDS Mannheim wurden verschiedene der oben genannten Ansätze zur Segmentierung in ihrer Tauglichkeit für die Anwendung auf große Gesprächskorpora evaluiert. Solche Ansätze umfassen beispielsweise die Segmentierung nach prosodischen Kriterien nach den Guidelines des gesprächsanalytischen Transkriptionssystems (GAT2) (Selting et al. 2009), die eher pragmatischen Ansätze der halbinterpretativen Arbeitstranskription (HIAT) (Rehbein et al. 2004) und des Makrosyntax-Systems (Benzitoun et al. 2012) sowie eher hybride Ansätze nach Turn Construction Units (TCUs) (Sacks/ Schegloff/ Jefferson 1978; Selting 2005) oder Zäsurierungen (Auer 2010). Seit 2017 wird auch ein Konzept zur syntaktisch basierten Segmentierung der Transkripte des FOLK- Korpus erarbeitet, das auf dem topologischen Feldermodell basiert und das bestimmte Problemfälle bei der Segmentierung der Transkripte pragmatisch löst (Westpfahl/ Gorisch 2018). Aus den Analysen und Annotationssowie Segmentierungsexperimenten des SegCor-Projektes ging ein Inventar an Segmentierungsproblemen hervor. Dieses reflektiert spezifische Unterschiede in der Syntax zwischen FOLK-Transkripten und geschriebener Sprache. Einige dieser im Inventar enthaltenen Phänomene bergen auch gleichzeitig Problempotenzial für die Annotation mit POS-Tags. Bei allen diesen Problemen handelt es sich um Eigenheiten der gesprochenen Sprache, die von dem traditionellen Satzmodell abweichen. Dies sind zunächst transkribierte Gesprächspartikeln wie Interjektionen, Diskursmarker und Rezeptionssignale aber auch Hesitationspartikeln und transkribiertes Atmen. Für die Segmentierung ist zu entscheiden, ob diese separat zu segmentieren sind oder aber zu den vorherigen oder folgenden <?page no="54"?> Theoretische Grundlagen 54 Äußerungen hinzugezählt werden. Generell lassen sich solche Entscheidungen regelbasiert operationalisieren, wie beispielsweise durch die Regel, dass Interjektionen immer ein eigenes Segment erhalten und Hesitationspartikeln oder transkribiertes Atmen immer dem folgenden Segment angehängt werden. Bei einigen Fällen bestehen jedoch Zweifelsfälle, bei denen die Entscheidung Auswirkungen auf die POS-Klassifikation haben kann. Ein Beispiel dafür ist die Abgrenzung zwischen bestimmten Interjektionen und Diskursmarkern. Beispiel 6: Telefongespräch, Transkript FOLK_E_00084_SE_01_T_01_DF_01, 03: 36-03: 44 20 01 EG nee (.) desWEgen ich achte da eigentlich au drauf dass des halt nie offen is wenn wir nich 02 (0.3) 03 EG im- 04 FR und WART ihr dann heute auch mit tom jetzt beim arzt noch? 05 FR oder WIE- h° Im Beispiel 6 sind zwei Interpretationen des deswegen möglich. Einerseits als Responsiv, wonach es als eigenes Segment abgegrenzt würde, andererseits als Diskursmarker, wonach es gemeinsam mit der folgenden Äußerung segmentiert würde. In beiden Funktionen ist das Lexem deswegen nicht prototypisch verwendet. Die prototypische Verwendung als Adverb schließt sich durch das mit dem Pronomen ich besetzte Vorfeld aus. Während für die manuelle Segmentierung dieser Äußerung die Interpretation der Wortart das Entscheidungskriterium ist, so hängt umgekehrt die POS-Annotation auch von der Interpretation der Segmentgrenze ab, die eventuell auch über mehr Informationen als nur den syntaktischen Kontext verfügt, wie beispielsweise Prosodie etc. Das größte Problemfeld für die Segmentierung hängt jedoch mit solchen Äußerungen zusammen, die als syntaktisch und/ oder pragmatisch unvollständig zu bezeichnen sind. In der Gesprächsforschung werden solche Strukturen gemeinhin als Anakoluthe bezeichnet, die sowohl Abbrüche, Selbstkorrekturen bzw. Retraktionen und auch syntaktische Umstiege beinhalten (Zifonun/ Hoffmann/ Strecker 1997, S. 444-458). Die Literatur zu diesem Themenkomplex ist umfassend. Aktuelle Forschung zu den Themenkomplexen finden sich bei Dürscheid/ Schneider (Hg.) (2015) und im speziellen für Selbstreparaturen bei Pfeiffer (2015). 20 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00084_SE_01_T_01_DF_01&cID=c185&wID=w829&textSize=200&contextSi ze=4. <?page no="55"?> Segmentierung von Transkripten gesprochener Sprache 55 Solche syntaktisch unvollständigen Strukturen bergen großes Problempotenzial für die Segmentierung. Problematisch sind hierbei meist syntaktisch ambige Strukturen, die a) als Teil der vorherigen oder nachfolgenden Struktur interpretiert werden können, b) als eine eigene, begonnene syntaktische Struktur interpretiert werden können oder, c) je nach Kontext, als eigene zwar pragmatisch aber nicht syntaktisch vollständige Struktur interpretiert werden können. Letztere fallen nicht unter die Bezeichnung Anakoluth, sind jedoch für das POS-Tagging ebenso von Bedeutung, da sie syntaktisch nicht vollständig sind. Für die POS-Annotation spielen solche Probleme dann eine Rolle, wenn, ähnlich wie in Beispiel 6 und Beispiel 7, die Wortformen des ambigen Teils Homonyme in verschiedenen POS-Kategorien haben, deren Interpretationen wiederum vom syntaktischen Kontext abhängen, der in diesen Beispielen fehlt. Beispiel 7: Verkaufsgespräch in der Apotheke, Transkript FOLK_E_00231_ SE_01_T_01_DF_01, 00: 20-00: 51 21 01 CE was KOstet der den[n so (.) als- ] 02 AS [äh so um DIE- ] 03 AS JA. 04 AS äh (.) MUSS mal- 05 AS m müsse se rechne FÜNFezwanzich bis dreißisch euro. Beispiel 7 zeigt den Problemfall, dass sich hier die Wortform als in verschiedener Weise Interpretieren lässt, was einerseits Auswirkung auf die Segmentierung aber auch Auswirkung auf die POS-Annotation hat. 1) Die Äußerung von CE in Zeile 01 könnte als ein vollständiges Segment ohne Abbruch angesehen werden. In diesem Fall müsste das als dann als pfälzische Partikel interpretiert werden. 2) Als wird als Konjunktion geäußert und der nachfolgende Teil ist abgebrochen. Dann gibt es wiederum zwei Interpretationsmöglichkeiten: a) als ist eine subordinierende Konjunktion, die den Beginn eines Verbletztsatzes und eines darauffolgenden Hauptsatzes markiert oder b) als ist ein einteiliger kopulativ-komparativer Konjunktor (Eggs 2006) (was kostet der denn so (.) als student). Für die Segmentierung wäre als dann nach der Interpretation von a) ein eigenständiges Segment und von b) Teil des vorherigen Segmentes. Für das POS-Tagging würde zwischen KOUS bzw. KON unterschieden werden müssen. 3) Bei als handelt es sich um einen wortinternen Abbruch von beispielsweise also. Auch dann bieten sich wieder verschiedene Interpretationen an, die 21 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00231_SE_01_T_01_DF_01&cID=c17&wID=&textSize=200&contextSize=4. <?page no="56"?> Theoretische Grundlagen 56 sowohl Auswirkungen auf Segmentierung als auch POS-Tagging haben (beispielsweise als Adverb oder Diskursmarker). Auch die Hinzunahme der Audiospur liefert in diesem Beispiel keine Hinweise auf eine Klärung, da das als kaum hörbar geäußert wird, während Hintergrundgeräusche und die überlappende Äußerung von AS im Vordergrund zu vernehmen sind. Ein ähnliches Problem für die Segmentierung und POS-Annotation bilden Äußerungen in kollaborativen Turns. Eine eventuelle syntaktische Vollständigkeit ergibt sich aus den Äußerungen zweier Sprecher*innen. Für sich genommen sind die Äußerungen jeweils unvollständig, die Interpretation ihrer syntaktischen Funktion ergibt sich jedoch, anders als bei oben beschriebenen Anakoluthen, aus dem Kontext. Wenn nun aber die Sprecher*in des ersten Teils die Äußerung im Nachhinein anders vervollständigt, so ergeben sich im Problemfall zwei Alternativen zur Interpretation der ersten Äußerung. Diese kann sich sowohl auf die Segmentierung als auch auf die POS-Annotation beziehen: Beispiel 8: Interview, Transkript FOLK_E_00191_SE_01_T_02_DF_01, 30: 35-30: 46 22 01 AJ das war nich mehr so diese °h diese JUgendverführung. 02 AJ das HATte nich mehr diesen- 03 HF (.) ((schmatzt)) [REIZ. ] 04 AJ [diese FASzi]nation. In Beispiel 8 vervollständigt Sprecher HF in Zeile 03 die Äußerung von AJ. Exakt gleichzeitig jedoch äußert AJ selbst die Vervollständigung seiner Äußerung, indem er eine Selbstkorrektur des Determiners diesen vornimmt. Für sich genommen ist keine der drei Äußerungen in den Zeilen 02 bis 04 vollständig. Für die Segmentierung ergibt sich das Problem, dass der Teil der Äußerung in Zeile 02 sowohl für HFs Äußerung in Zeile 03 als auch für AJs Äußerung in Zeile 04 als Segmentbestandteil anzusehen ist. Für das POS-Tagging ergibt sich das Problem, dass die Wortarten-Kategorie des Demonstrativartikels diesen durch die Doppelung und Änderung in Zeile 04 ungeklärt bleibt. Zusammenfassend lässt sich festhalten, dass für das POS-Tagging die Segmentierung der Transkripte in zweifacher Weise problematisch ist. Einerseits entstehen durch die pausenbasierte Segmentierung Strukturen, in denen 22 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00191_SE_01_T_02_DF_01&cID=c28&wID=w172&textSize=200&contextSi ze=4. <?page no="57"?> Kontext und Multimodalität in der Face-to-Face-Interaktion 57 wichtige Elemente im Kontext zur Wortartenbestimmung fehlen, andererseits zeigt sich, dass dieses Problem in Teilen auch nach einer Segmentierung in Hinsicht auf bestimmte typisch spontansprachliche Strukturen bestehen bleibt. Weitere Beispiele für die Auswirkung der pausenbasierten Segmentierung der FOLK-Transkripte auf das POS-Tagging sowie von Anakoluth-Strukturen und kollaborativen Turns werden eingehender im Kapitel 2.4 „Wortarten in der gesprochenen Sprache“ dargelegt. 2.3 Kontext und Multimodalität in der Face to - Face - Interaktion Durch die konzeptionelle Gesprochensprachlichkeit der Textform Transkript weicht der verschriftlichte Kontext generell stark von schriftsprachlichen Texten ab. Im Text müssen Annahmen über mögliche Rezipienten in eine Formgestalt eingehen, die ein weitgehend situationsunabhängiges Verstehen erlaubt und daher sprachlich in besonderer Weise explizit formuliert und - von dialogischen Formen abgesehen - generell adressiert ist. (Hoffmann 2018, S. 7) Dieser Grundsatz ist jedoch auch vor dem Hintergrund des Nähe/ Distanz- Kontinuums zu betrachten. Generell gilt, dass die Agierenden sowohl bei medial mündlicher ebenso wie bei medial schriftlicher Kommunikation in einem Verhältnis der Distanz deutlich mehr Kontext formulieren müssen. Sowohl Schriftstück wie auch Äußerungen müssen den relevanten Kontext deutlich formulieren, wenn die Aussagen situationsunabhängig rezipiert werden sollen. Dies ist beispielsweise der Fall bei Zeitungstexten und literarischen Werken bzw. bei Reden oder auch bei Kommunikation im institutionellen Rahmen wie beispielsweise bei Prüfungsgesprächen oder im Gericht. Im Gegenzug dazu kann auch medial schriftliche Kommunikation stark kontext- und situationsgebunden sein. Dies ist beispielsweise der Fall in der Chatkommunikation und insbesondere in Kontexten, in denen diese in Livestreams in Radio, Fernsehen oder Internet eingebunden sind. Hier wird die Multimodalität der Handlungen oftmals auf besondere Weise schriftlich repräsentiert, beispielsweise durch Verlinkungen, Hashtags oder Adressierungen. Der TreeTagger und das STTS wurden an Zeitungstexten konzipiert, d. h. an einer Textform, die man nach dem Nähe-/ Distanz-Kontinuum als maximal distanziert im Bereich des medial Schriftlichen bezeichnen könnte und die eine maximal situationsungebundene Rezeption der Texte voraussetzt. Die Transkripte von Face-to-Face-Kommunikation sind nur in wenigen Fällen als konzeptionell schriftlich zu bezeichnen. <?page no="58"?> Theoretische Grundlagen 58 Darüber hinaus ist die Transkription nach cGAT eine vereinfachte, verschriftlichte Repräsentation der sprachlichen Kommunikation in einer Interaktion und ist somit mit schriftsprachlichen Texten kaum zu vergleichen. Die Transkription gibt nur einen kleinen Teil der im Gespräch gegebenen Multimodalität der Kommunikation wieder. Atmen, vokale Kommunikation, wie beispielsweise Lachen oder Seufzen, und non-verbale Handlungen werden nur dann in der Transkription verschriftlicht, wenn sie hörbar sind - Letztere sogar nur, wenn sie für die weitere hörbare Interaktion eine Rolle spielen (Schmidt/ Schütte/ Winterscheid 2015, S. 50-52). Blicke, Gestik, Mimik und auch Prosodie werden in der Transkription nicht berücksichtigt, sind jedoch für die Kommunikation in der Face-to-Face-Interaktion hoch relevant. „Sprache kommt im wirklichen Leben nie abstrakt, als solche, und nur selten allein vor“ (Deppermann 2018, S. 51). Deppermann (ebd.) illustriert in seinem Artikel „Sprache in der Multimodalen Interaktion“ den Zusammenhang zwischen leiblichem Handeln und der Sprache als gemeinsames Medium der Kommunikation und zeigt auf, dass Sprache nicht oder nur selten autonom verwendet wird, sondern generell Teil einer „intentionalen körperlichen Aktivität“ (ebd., S. 58) ist und in der jeweiligen Interaktionssituation von allen Beteiligten als solche interpretiert wird (ebd., S. 53). Die fehlenden Informationen über multimodale Handlungen und den Situationskontext sind potenziell auch ein Problem für die POS-Annotation bestimmter Äußerungen. Gerade Wortformen, die auf sprachlicher Ebene Deixis ausdrücken, oder aber auch solche, die als Gesprächspartikeln verwendet werden, haben oftmals Homonyme in anderen Wortartenklassen und die Klärung, in welcher Funktion sie verwendet werden, lässt sich nur aus dem multimodalen Kontext erschließen. Wie schon aus obigen Beispielen zur Segmentierungsproblematik deutlich wurde, betrifft dies vor allem Fälle, bei denen zwischen der Interpretation als Ellipse oder aber als Abbruch entschieden werden muss. Komplikationen für das POS-Tagging ergeben sich dabei in verschiedenen Abstufungen. Für das automatisierte POS-Tagging ist der verschriftlichte Kontext relevant, genauer gesagt Trigramme, d. h. immer drei aufeinanderfolgende Wortformen (siehe dazu auch genauer in Kapitel 3.4 „Funktionsweise des Taggers“). Gerade in Bezug auf die pausenbasierte Segmentierung fehlt auf diese Weise häufig der verschriftlichte Kontext für die automatische Annotation. Der für die manuelle Annotation der POS-Tags gegebene Kontext sind der gesamte verschriftlichte Kontext und, insofern die Audiospur deutlich genug ist, auch prosodische Informationen. <?page no="59"?> Kontext und Multimodalität in der Face-to-Face-Interaktion 59 Das Sprechen unterscheidet sich vom Schreiben durch nichts so sehr wie durch die Prosodie. In welchem Ton jemand etwas sagt, ist oft entscheidender als die inhaltliche Mitteilung. (Schwitalla 2012, S. 56) Insofern nicht eine antiquierte Computer-generierte Stimme Teil der Konversation ist, spielt Prosodie eine wesentliche Rolle für die Verstehensprozesse in Interaktionen. Die Erweiterung des Textes um Informationen zur Intonation markiert einen wesentlichen Unterschied zwischen medial mündlicher und schriftlicher Kommunikation. In ihrem Buch „Das Syntax/ Prosodie-Interface - Die Entwicklung der Forschung an der Schnittstelle zwischen Syntax und Prosodie“ zeigt Korth (2018) auf, inwiefern die Interpretation der syntaktischen Struktur einer Äußerung von der Prosodie abhängt. Sie beschreibt und interpretiert dabei verschiedene Modelle, die teils die Oberflächen- und teils die Tiefenstruktur als Bezugspunkt für die Ableitung von Betonungen oder Akzenten heranziehen und wie und ob „die prosodische Struktureinteilung postsyntaktisch erfolgt oder ob es zu einem zyklischen Wechsel zwischen syntaktischem und prosodischem Strukturaufbau kommt“ (ebd., S. 261). Das aktuellste Überblickswerk zu diesem Thema ist also ein theoretisches Werk, das verschiedene Theorien zur Betonungsweise syntaktischer Strukturen vor allem in Hinblick auf ihre Wohlgeformtheit erörtert. Diese Theorien wurden nicht an Korpusdaten evaluiert bzw. empirisch belegt und lassen demnach keine Rückschlüsse zur Interpretation z. B. von Anakoluthformen zu. Unter Anführung von Belegen aus Korpora, aber immer noch sehr allgemein gehalten, benennt Schwitalla (2012) die Funktionen von Prosodie im Gespräch, beispielsweise die Thematisierung bestimmter Elemente, die Markierung des rhematischen Bereichs (nach Stock 1996), das Hinweisen auf eine inhaltliche Umorientierung, Emphase, sowie den Ausdruck von Wertung (nach Redder 1994; Rehbein 1999 und Deppermann 2002). Rabanus (2001) geht spezifischer auf intonatorische Verfahren in Kontexten von Kommunikationsproblemen ein. Er untersucht sowohl für das Deutsche und als auch für das Italienische die intonatorischen Verfahren bei selbstinitiierten Selbstreparaturen, bei der Bearbeitung akustischer Verstehensprobleme, bei lokalen Erwartungsproblemen, bei Turnbeanspruchung und -Verteidigung, sowie bei Widerspruch und Insistieren (ebd., S. 145-236). Viele der Funktionen von Prosodie im Gespräch haben wenig Einfluss auf das POS-Tagging, da die Interpretation, ob es sich um eine sarkastische Äußerung, um die Emphase eines der Bestandteile oder eine Thematisierung eines bestimmten Elementes handelt, keine Auswirkung auf die Wortart-Klassifikation der jeweiligen Wortformen in den Äußerungen hat. Es gibt jedoch einige Ausnahmen, die vor allem Gesprächspartikeln betreffen. Diese haben häufig Homonyme in anderen Wortarten und die Differenzierung der Verwendungsweise lässt sich häufig an prosodischen Kriterien festmachen. Dies be- <?page no="60"?> Theoretische Grundlagen 60 trifft vor allem in Kontexten mit mangelndem verschriftlichten Kontext die Differenzierung zwischen Adjektiven und Interjektionen, Diskursmarkern und Konjunktionen oder Modalpartikeln und Interjektionen. Um diese Problematik zu illustrieren, eignet sich besonders die Betrachtung der Wortform ja, wie sie beispielsweise bei Imo (2013) analysiert wurde. Er zeigt auf, dass ja insgesamt sieben verschiedene Funktionen in der Interaktion einnehmen kann, namentlich: − als Modalpartikel, die sich darüber definiert, dass sie unflektierbar, nicht betonbar, nicht erfrag- und negierbar und auf die Stellung im Mittelfeld beschränkt ist (ebd., S. 159-161), − als Responsiv, wenn ja sequenziell affirmierend auf eine Vorgängeräußerung reagiert. Dabei kann es sich um eine positive Antwort auf eine Entscheidungsfrage, einen positiven Bescheid auf eine Vermutung oder Hypothese, eine Ratifizierung eines Vorschlags u. v. m. handeln (ebd., S. 161), − als Hörersignal, mit dem Zuhörer*innen ihre Aufmerksamkeit signalisieren und anzeigen, dass der/ die Sprecher*in fortfahren kann (ebd., S. 174), − als Zögerungs- und Planungssignal bzw. als Diskursmarker, in welcher Funktion es einen Äußerungsbeginn markiert und gleichzeitig die Vorgängeräußerung bestätigt (ebd., S. 176), − als Beendigungssignal, das als Indikator für das Ende eines Redebeitrags genutzt wird (ebd., S. 184 f.), − als Vergewisserungssignal, mit dem eine Reaktion der Gespächspartner eingefordert wird und der/ die Sprecher*in sich der Aufmerksamkeit der Zuhörer*innen vergewissert (ebd., S. 191) oder − als Teil von Erkenntnisprozessmarkern, die gemeinsam mit anderen Partikeln wie ah, oh oder ah einen Erkenntnisprozess ausdrücken (ebd., S. 193). Imo zeigt auf, dass die Interpretation, in welcher Funktion die Wortform ja genutzt wird, sowohl vom situativen Kontext als auch von der Prosodie abhängt. Abgesehen von der Antwortpartikel gibt es für keine der anderen von ihm genannten Funktionen im originalen STTS eine POS-Kategorie. Syntaktisch gesehen lässt sich jedoch ein deutlicher Unterschied erkennen zwischen beispielsweise Modalpartikeln, die in den syntaktischen Aufbau des Satzes eingebunden sind, und den anderen Gesprächspartikeln, die außerhalb syntaktischer Zusammenhänge stehen. Einer solchen Differenzierung muss in einem POS-Tagging von Transkripten gesprochener Sprache Rechnung getragen werden. Eine ausführliche Aufarbeitung dieser Problematik wird im Kapitel 2.4 „Wortarten in der gesprochenen Sprache“ präsentiert. Auch das folgende Beispiel 9 illustriert die Problematik der Interpretation einer Wortform bezüglich ihres POS-Tags in ihrer Abhängigkeit von Prosodie. <?page no="61"?> Kontext und Multimodalität in der Face-to-Face-Interaktion 61 Beispiel 9: WG-Casting, Transkript FOLK_E_00251_SE_01_T_01_DF_01, 00: 51-00: 59 23 01 AS oKAY.= 02 AS =was WOLLT ihr von mir wissen.= 03 AS =also ich bin äh ZWEIunzwanzig jahre alt; 04 AS °h (.) [ich- ] 05 SL [du bis jetzt] DIE ? 06 AS (.) ANna. 07 SL oKAY. Es handelt sich bei dem Beispiel um einen Ausschnitt aus einem WG-Casting, bei dem sich die Bewerberin AS vorstellt. Die von Sprecherin SL in Zeile 05 geäußerte Wortform die wird besonders betont und mit steigender Intonation geäußert. Generell gibt es für die POS-Annotation dieser Wortform zwei mögliche Kategorien: einerseits als Artikel und andererseits als Pronomen. Die steigende, projizierende Intonation und die Vervollständigung der Nominalphrase durch Sprecherin AS in Zeile 06 legt eine Interpretation als Artikel nahe. Rein syntaktisch gesehen steht die in der Äußerung von SL ohne Kontext, was einzig die Interpretation als Pronomen zulässt. Unter pragmatischen Gesichtspunkten ist die Äußerung vollständig, da die Frage nach dem Namen der Bewerberin mit dieser Äußerung abgeschlossen ist. SL evoziert durch die prosodische Markierung einen kollaborativen Turn, in dem AS durch die Nennung ihres Namens die syntaktische Konstruktion (NP) vervollständigt. Das Beispiel 9 illustriert die Problematik einer allein auf der Transkription basierten POS-Annotation, die weder Prosodie noch den sprecherübergreifenden Kontext berücksichtigt. Eine Möglichkeit, diese Problematik zu umgehen, wäre die Anwendung eines Transkriptionssystems, das prosodische Merkmale in der Transkription darstellt. Für das Deutsche gibt es zwei Transkriptionssysteme, die prosodische Merkmale innerhalb der Transkription, wie beispielsweise Fokusakzente oder Tonhöhenbewegungen, enthalten. Eines davon ist das Gesprächsanalytische Transkriptionssystem (GAT2) (Selting et al. 2009), das eine Hervorhebung von Fokus- und Nebenakzenten durch Kapitalisierung der entsprechenden Silben bzw. Laute und Tonhöhenbewegungen vorsieht. GToBI („German Tones and Break Indices“) ist ein weiteres Transkriptionssystem, das prosodische Informationen innerhalb der Transkription vorsieht. Es wurde für verschiedene Sprachen entwickelt und angepasst. Für das Deutsche werden Akzenttöne und Grenztöne von Intonationskonturen ebenfalls durch Kapitalisierung und ein paar weiteren Zeichen im Text markiert sowie auf einer wei- 23 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00251_SE_01_T_01_DF_01&cID=c72&wID=&textSize=200&contextSize=4. <?page no="62"?> Theoretische Grundlagen 62 teren Annotationsebene durch eine Kombination verschiedener Label und Diakritika markiert (Grice/ Baumann 2002). Außerhalb der Transkriptionsspur sieht auch HIAT (Rehbein et al. 2004) in kleinerem Umfang prosodische Annotationen vor. Eine prosodische Informationen enthaltende Transkription ist hilfreich für die Interpretation der Daten auf vielen verschiedenen Ebenen. Bisher existiert keine Software, die ohne manuelle Kontrolle prosodische Informationen reliabel annotiert. Darüber hinaus beinhaltet das Forschungs- und Lehrkorpus viele Daten von sehr interaktiven Gesprächen mit mehreren Teilnehmern in teilweise auch sehr Geräusch-intensiven Kontexten. In solchen Kontexten funktionieren die Tools zur automatischen Erkennung von Intonationskurven und Akzenten nicht. Sowohl eine manuelle Korrektur als auch eine manuelle Annotation in der Transkription gestaltet sich als sehr zeitaufwändig und ist, wie Experimente des SegCor-Projektes mit dem GAT2-System gezeigt haben, auch wenig reliabel. Eine Transkription, die prosodische Informationen enthält, ist also für das FOLK-Korpus nicht operationalisierbar. Zusammenfassend kann man festhalten, dass Prosodie zwar bei der Disambiguierung einzelner Wortformen hinsichtlich ihrer POS-Kategorie helfen kann, sie faktisch für die manuelle POS-Annotation in den Transkripten nur teilweise und für eine automatisierte POS-Annotation durch das Fehlen von prosodischen Informationen im Transkript gar nicht verfügbar ist. Über die Prosodie hinaus wird in der Gesprächssituation eine Vielzahl weiterer Handlungen der Beteiligten relevant für die Kommunikation und vor allem auch für die Interpretation des Gesagten, sofern es sich um eine Face-to- Face-Interaktion handelt. Sowohl sprachliche als auch nicht-sprachliche Handlungen werden immer in Bezug auf den Situationskontext interpretiert. Dies betrifft im Besonderen deiktische Elemente. Selbstverständlich sehen Sprecher*innen in einer Interaktion nicht die Notwendigkeit, jeglichen Situationskontext zu explizieren, welcher eine Disambiguierung auf POS-Ebene vereinfachen würde. Schon Grice (1975) machte deutlich, dass es eine Maxime für eine gelungene Kommunikation ist, nicht mehr zu sagen als im jeweiligen Kontext notwendig ist. Jede einzelne Interaktion wiederum ist vor dem Hintergrund konventionalisierter Handlungen zu interpretieren: To describe the basic structure of social-institutional reality, we need exactly three primitives: collective intentionality, the assignment of function, and constitutive rules and procedures. (Wegener Knudsen et al. 2002, S. 16) Dieses Zitat bezieht Searle (2006) in seinem Aufsatz „Social ontology: Some basic principles“ allein auf sprachliche Handlungen aber es wird evident, dass es sich auf jegliche Form der multimodalen Kommunikation übertragen lässt. <?page no="63"?> Kontext und Multimodalität in der Face-to-Face-Interaktion 63 Für die Interpretation von Wortformen bezüglich der POS-Annotation ist dies im Besonderen ein Problem, da ihre jeweilige Funktion vom Einsatz im jeweiligen multimodalen Kontext abhängig ist. Inwiefern diese Funktionszuweisung im Bereich der Deixis, d. h. Ablaufregularitäten des deiktischen Zeigens konventionalisiert sind, zeigen die Arbeiten von Stukenbrock (2015, 2016). Sie konnte zeigen, dass deiktische Prozesse einem bestimmten Ablauf mit unterschiedlichen multimodalen Teilaufgaben folgen, die sich ebenso auf Verweise außerhalb des direkten Situationskontextes beziehen lassen (Deixis am Phantasma) (Stukenbrock 2016, S. 120). Streeck (2016) argumentiert in seinem Artikel „Gestische Praxis und sprachliche Form“, dass körperliche Handlungen, in diesem Falle Gesten, als Teil grammatischer Konstruktionen betrachtet werden können. Er illustriert an einem Beispiel, wie das deiktische Adverb so gemeinsam mit einer Geste ein Objekt bildet: „Man könnte dieses konversationelle Objekt als eine multimodale Konstruktion im Sinne der Konstruktionsgrammatik (vgl. Zima 2014) beschreiben“ (Streeck 2016, S. 61 f.). Beispiel 10: Gespräch beim Renovieren, Transkript FOLK_E_00217_ SE_01_T_01_DF_01, 17: 20-17: 23 24 01 PZ DREH, 02 (0.33) 03 PZ SO- 04 (0.34) 05 PZ dann WIRD_s- 06 (0.2) 07 PZ PASST_s rein? Hat man von Beispiel 10 nur das Transkript zur Hand, zumal noch ohne Informationen über Tonhöhenbewegungen (die hier im GAT2 Transkript schon beigefügt sind, in den Original-Daten aber nicht enthalten sind), so bestehen mehrere Möglichkeiten der Wortartenzuweisung für die Wortform so in Zeile 03. So kann es einerseits als Adverb interpretiert werden im Sinne von dreh so auf diese Art und Weise oder aber als Interjektion, die als Diskurspartikel die Bestätigung des getanen Arbeitsschrittes konstatiert. Nimmt man nun das in diesem Falle verfügbare Video hinzu, zeigt sich, dass Sprecherin PZ während der Äußerung eine drehende Bewegung mit der Hand macht, einmal bei der Äußerung von dreh und dann noch einmal mit der Äußerung von so, um ihrer Gesprächspartnerin die Richtung zu zeigen, in welche diese eine Schraube im Schrank drehen soll. 24 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00217_SE_01_T_01_DF_01&cID=c831&wID=c831. <?page no="64"?> Theoretische Grundlagen 64 Beispiel 11: Gespräch beim Renovieren, siehe Beispiel 10 01 PZ #+DREH,-------------------------------------+ pz +streckt Arm mit drehender Handbewegung aus+ Abb. #Abb. 3 02 (0.33) tz *lenkt Blick auf die Hand von PZ* 03 PZ + SO ,-------+ pz #+dreht Hand+ Abb. #Abb. 4 04 (0.34) tz *lenkt Blick wieder nach unten* 05 PZ dann WIRDs- (0.2) 06 PZ PASST_s rein? Abb. 3: PZ macht erste Geste, TZ blickt auf das Regal Abb. 4: TZ blickt auf die Hand, PZ wiederholt Geste <?page no="65"?> Kontext und Multimodalität in der Face-to-Face-Interaktion 65 Aus der multimodalen Analyse lässt sich schlussfolgern, dass es sich bei diesem so, obwohl es durch Pausen isoliert steht, um ein Modaldeiktikum handelt, das als Adverb getaggt werden müsste. Ebenso können multimodale Analysen helfen zu entscheiden, ob es sich um eine vollständige Äußerung oder einen Abbruch handelt, wie folgende zwei Beispiele illustrieren sollen. In beiden Fällen steht die Wortform den am Ende einer Äußerung. den kann, je nach Kontext, als Demonstrativpronomen oder als Artikel interpretiert werden. In Beispiel 12 zeigt der Fahrlehrer RK auf ein von links herannahendes Fahrzeug. Die steigende Tonhöhenbewegung bei der Äußerung von den legt nahe, dass es sich um eine finale Tonhöhenbewegung (er stellt eine Frage) handelt und die Äußerung damit abgeschlossen ist. Bezieht man noch RKs Zeigegeste mit ein, wird deutlich, dass mit den deiktisch auf ein konkretes Objekt verweist. Unter Einbezug des prosodischen sowie gestischen Kontextes wird deutlich, dass es sich hier um eine Verwendung von den als Demonstrativpronomen handelt und die Äußerung vollständig ist. Beispiel 12: den als Pronomen, Fahrschulinteraktion, Transkript FOLK_E_00172_SE_01_T_02_DF_01, 43: 33-43: 37 25 01 RK #+GUCK- rk +Zeigegeste aus dem linken Fahrzeugfenster--> Abb. #Abb. 5 02 RK (.) siehst du DEN ? #+ rk ------------------>+ 03 TD (.) ja, Abb. 5: Fahrlehrer zeigt auf zu beachtendes anderes Fahrzeug 25 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip tVideo&id=FOLK_E_00172_SE_01_T_02_DF_01&cID=c370&wID=w774&textSize=200&conte xtSize=4. <?page no="66"?> Theoretische Grundlagen 66 Beispiel 13 ist wiederum der Renovierungs-Interaktion entnommen. In diesem Ausschnitt ist der auf der Leiter stehenden TZ die Klebebandrolle aus der Hand gefallen. PZ reagiert darauf, indem sie die Klebebandrolle aufhebt und TZ entgegenstreckt, mit dem Ratschlag es doch auf die oberste Stufe der Leiter zu legen. Bei der ersten Äußerung in diesem Ausschnitt handelt es sich um eine ganz ähnlich aufgebaute Äußerung wie aus Beispiel 12. Auch diese Äußerung (Beispiel 13, Zeile 01) beginnt mit einem finiten Verb und endet mit einem den, das entweder als Pronomen in einer vollständigen Äußerung oder aber als Artikel in einer abgebrochenen Äußerung interpretiert werden kann. Während PZ ihre Äußerung beginnt, blickt sie noch zu Boden, um die Klebebandrolle aufzuheben. Während der Äußerung des den blickt sie auf, offenbar um den Referenten für das nachfolgende Nomen zu suchen. Gemeinsam mit der Äußerung des Deiktikums da zeigt sie auf den anvisierten Ort und benennt das Ziel auf die oberste Stufe (Zeile 03). Hier wird erst aus der multimodalen Analyse heraus deutlich, dass es sich bei legs auf den um einen Abbruch handelt. Hätte PZ ihre Zeigegeste gemeinsam mit der Äußerung von den ausgeführt, so müsste man es als Demonstrativpronomen verstehen und somit als eine abgeschlossene Äußerung. Durch die Analyse ihrer Blickrichtung und basierend auf der Tatsache, dass ihre Zeigegeste erst nach der Äußerung erfolgt, ist die Interpretation als abgebrochene Äußerung und somit von den in der Funktion eines Artikels naheliegender. Beispiel 13: den in Abbruch, Gespräch beim Renovieren, Transkript FOLK_E_00217_SE_01_T_04_DF_01, 12: 23-12: 27 26 01 PZ %+legs AUF den -%# + pz +hebt Klebebandrolle auf+ pz %Blick zu Boden%Blick auf Leiter--> Abb. #Abb. 6 02 (0.4) 03 PZ #+da auf die oberste STUfe einfach drauf.=weisch, + pz +zeigt mit Klebebandrolle auf oberste Stufe der Leiter+ pz ------------------------------------------------------>> Abb. #Abb. 7 26 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00217_SE_01_T_04_DF_01&cID=c432&wID=w1468&textSize=200&contextSi ze=4. <?page no="67"?> Kontext und Multimodalität in der Face-to-Face-Interaktion 67 Abb. 6: PZ hebt Klebebandrolle auf Abb. 7: PZ streckt Klebebandrolle in die intendierte Richtung Daraus lässt sich schlussfolgern, dass das Wissen um Gesten und Blicke von Gesprächsteilnehmer*innen bei der Disambiguierung von POS-Annotationen helfen kann, beispielsweise bei homonymen Wortformen im Bereich der Wortartenklassen der Artikel und Pronomen, wie in den Beispiel 13 gezeigt, aber auch bei Wortformen wie beispielsweise so in der Funktion als modaldeiktisches Adverb oder als Interjektion (siehe auch Beispiele bei Streeck 2016, S. 61 f.). Für eine solche Interpretation bedarf es jedoch geeigneter Videoaufnahmen der Gesprächsteilnehmer. Auch Deppermann (2018, S. 56) betont, dass konsequenterweise für die Interpretation einer sprachlichen Handlung Videodaten zwingend notwendig sind, um die leiblichen Handlungen der Beteiligten für die Analyse zugänglich zu machen. Basierend auf den Videodaten könnte man dann die Handlungen der Gesprächsteilnehmer über eine Annotation der körperlichen Handlungen zugänglich zu machen. Im Rahmen des ISLE (International Standards for Language Engineering) Programms hat die Natural Interactivity and Multimodality (NIMM) Working Group eine Übersicht über verschiedene Annotationssysteme zur Annotation von multimodaler Kommunikation erstellt (Wegener Knudsen et al. <?page no="68"?> Theoretische Grundlagen 68 2002). In ihrem Bericht vergleichen sie sieben Schemata zur Annotation von Mimik und 14 Schemata für die Annotation von Gesten. In ihrem Vergleich kommen die Autor*innen der Studie zu dem Schluss, dass die verschiedenen Annotationsschemata jeweils stark den Fokus des jeweiligen Forschungsprojektes repräsentieren, für das sie entwickelt wurden (ebd., S. 113). Seit der Veröffentlichung der Studie sind noch viele weitere Annotationsschemata multimodaler Kommunikation hinzugekommen. Neuere Studien stellen vor allem das Crowd-sourcing von Annotationen (Spiro et al. 2010) und die Automatisierung von Annotationen von Gestik und Mimik in den Vordergrund (Kipp/ Neff/ Albrecht 2007; Beugher/ Brône/ Goedemé 2018). Für das FOLK-Korpus und vor allem für die POS-Annotationen sind solche (semi-)automatischen Verfahren zur Annotation von Gestik leider nicht verfügbar. Einerseits sind nur für einen geringen Teil der Datenbank Videodaten verfügbar, andererseits sind diese nicht immer geeignet für die entsprechenden Tools, die darüber hinaus noch eine zeitintensive Nachbearbeitung der Annotationen erfordern. Wären die Videodaten bei der manuellen POS-Annotation verfügbar, so könnten Informationen über den Situationskontext zumindest bei der manuellen Korrektur der POS-Tags für den Goldstandard mit einbezogen werden. Das verwendete Tool zur manuellen Annotation sieht jedoch eine solche Funktion nicht vor. Zusammenfassend lässt sich konstatieren, dass es immer dort, wo Multimodalität im sprachlichen Handeln für die syntaktische Interpretation relevant wird, zu Problemen beim POS-Tagging kommen kann, wenn Informationen über den Kontext nicht anderweitig zugänglich sind. Dies gilt überdies nicht nur für Transkripte gesprochener Sprache, sondern auch für viele Formen der Schriftsprache, die stark in den Situationskontext eingebunden sind. 2.4 Wortarten in der gesprochenen Sprache 2.4.1 Gesprächspartikeln Je umgangssprachlicher ein Text ist, desto partikelreicher ist er in der Regel auch. (Weydt 1969, S. 95) Partikeln sind ein elementarer Bestandteil der gesprochenen Sprache. Diesbezüglich ist man sich in der Partikelforschung einig. Was jedoch genau unter dem Begriff zu fassen ist, wie er definiert wird und nach welchen Kriterien, darüber herrscht wenig Einigkeit. Die Problematik ist Gegenstand zahlreicher Arbeiten. Möchte man spontansprachliche Daten taggen, ist es notwendig, sich dieser Wortart zu widmen und das Tagset dieser Eigenheit der gesprochenen Sprache anzupassen. <?page no="69"?> Wortarten in der gesprochenen Sprache 69 Da das Stuttgart Tübingen Tagset (STTS) für redigierte Texte entworfen wurde, wurden bei der Konzeption des STTS Partikeln eher stiefmütterlich behandelt. Wie Schwitalla zusammenfasst, kommen einige Wortklassen […] nur in gesprochener Sprache vor, in schriftlichen Texten allenfalls, um Gesprochenes zu imitieren. Dazu gehören außer einigen Modalpartikeln die meisten primären Interjektionen und Gesprächspartikeln. (Schwitalla 2012, S. 156) Jedoch trifft dies nicht allein auf gesprochene Sprache zu, sondern lässt sich in vielen Fällen ebenso auf die Sprachverwendung in internetbasierter Kommunikation übertragen, wie beispielsweise in E-Mails, Chats, Online-Foren, Twitter, Weblogs und Instant-Messaging-Anwendungen. Aus diesem Grund sollte, trotz der teilweise abweichenden Verwendung von Partikeln in verschiedenen Textgattungen, bei der Anpassung des Tagsets eine mögliche Vergleichbarkeit mit anderen Genres ermöglicht werden. Es ist denkbar, dass gerade der Vergleich zwischen gesprochener Sprache und geschriebener sowie auch der Vergleich mit internetbasierter Kommunikation für viele Forscher von Interesse ist. Um jedoch eine Überarbeitung des STTS vorzunehmen, müssen zunächst der Begriff der Partikel und die dazugehörigen Kategorien klar definiert werden. Ein Blick in verschiedene Grammatiken und in die Literatur der Partikelforschung soll helfen, Probleme der Kategorisierung und Subkategorisierung zu verdeutlichen und Ansätze für eine für das Tagging praktikable Neukategorisierung zu liefern. Hierzu soll auch die bisherige Kategorisierung im STTS untersucht werden. Um eine Vergleichbarkeit mit den bereits getaggten Schriftkorpora zu ermöglichen, sollen so viele Kategorien wie möglich erhalten bleiben, jedoch so viele wie nötig geändert oder neu hinzugefügt werden. Des Weiteren sollen neue Kategorien in die Strukturen des Tagsets sinnvoll eingepasst werden. Eine Beschreibung des Aufbaus des Tagsets sowie eine Problematisierung der bestehenden Tags im Bereich der Partikeln müssen also einer Neukategorisierung vorausgehen. Des Weiteren sind Vorüberlegungen notwendig, nach welchen Grundsätzen eine Neukategorisierung vorgenommen werden soll. Da diese Arbeit auf ein erfolgreiches automatisiertes POS-Tagging ausgerichtet ist, soll vor allem die Praktikabilität in der Umsetzung der Kategorisierung im Vordergrund stehen. Dies setzt einerseits Neutralität gegenüber verschiedenen Grammatik-Theorien voraus, andererseits eine Orientierung an eher distributionellen Kriterien, wie im Folgenden erläutert wird. Voraussetzung für die Änderung bestehender Tags sowie für die Einführung neuer Tags ist die Diskussion des in der Forschung nicht eindeutig geklärten Begriffs Partikeln und seiner Subkategorien, eine Untersuchung der bisheri- <?page no="70"?> Theoretische Grundlagen 70 gen Kategorisierung des STTS und die Formulierung von Kriterien, denen die Neukategorisierung genügen soll. 2.4.2 Exkurs: topologisches Satzmodell Die folgenden Ausführungen legen das topologische Satzmodell zugrunde, daher soll dieses hier kurz erläutert werden. Der Begriff Topologie beschreibt die Reihenfolgeeigenschaften von Satzgliedern bzw. Konstituenten auf der Ebene der Syntax (Altmann/ Hofmann 2008, S. 17). Das Modell bildet eine auf Linearität basierende geordnete Folge von Struktureinheiten ab, „um derart bestimmte syntaktische Muster und Beschränkungen ebenso wie Möglichkeiten linearer Ordnung deutlich werden zu lassen“ (Wöllstein 2014, S. 143). Im Fokus der Theorie sind demnach die Abfolgemöglichkeiten bzw. Positionen bestimmter Satzelemente, die als topologische Felder bezeichnet werden (ebd., S. 144 f.). Die Felder sind für das Deutsche folgendermaßen (der linearen Reihenfolge nach) aufgestellt: − das Vorfeld, das die Position für eine beliebige Konstituente ist und zwar genau eine (ebd., S. 144) (ungleich beispielsweise zum Englischen); − die linke Satzklammer (LSK), die „Position für das Finitum bzw. die satzeinleitende oder verknüpfende Konjunktion“ (ebd., S. 146). In letzterem Fall bleibt das Vorfeld unbesetzt und das Finitum verbleibt in der rechten Satzklammer (RSK) und „bei infiniten Komplementsätzen bleibt auch die LSK (C) unbesetzt“ (ebd.); − das Mittelfeld, die Position für beliebige weitere Konstituenten und Partikeln; − die rechte Satzklammer (RSK), die „Position für abgetrennte Verbzusätze, ggf. des finiten und weiterer infiniter Verben“ (ebd.), die dementsprechend jedoch nicht zwangsläufig besetzt sein muss (ebd., S. 149); − das Nachfeld, das die Position für weitere „schwere oder satzartige“ (ebd., S. 146) Konstituenten ist. Von Bedeutung für die Diskussion der Stellung von Gesprächspartikeln und ihrer Abgrenzung zu Adverbien etc. im Satzmodell ist die Definition der Konstituente im Rahmen dieser Theorie. Gemeint sind sogenannte unmittelbare Konstituenten (Bußmann (Hg.) 2008, S. 364 f.; Lewandowski 1985, S. 567; Glück (Hg.) 2010, S. 343), d. h. Satzeinheiten, „die aufgrund von Weglaß-, Ersatz- und Umstellproben als relative Ganzheiten ermittelt werden“ (Lewandowski 1985, S. 567) können. <?page no="71"?> Wortarten in der gesprochenen Sprache 71 2.4.3 Exkurs: Umgang mit Mehrworteinheiten Ein häufig diskutiertes Problem in der Annotation von Wortarten sind komplexe Gefüge, die der Form nach aus mehreren Wörtern bestehen, jedoch gemeinsam nur eine Funktion erfüllen. Solche Mehrworteinheiten, wie beispielsweise Interjektionen wie Ach Du lieber Gott! oder Oh Gott, oh Gott! , Konjunktionen wie beispielsweise das heißt, komplexe Eigennamen wie Das Kap der Guten Hoffnung und Buch- oder Filmtitel wie beispielsweise „Das Leben des Brian“ bestehen der Form nach aus mehreren Einheiten, konstituieren allerdings gemeinsam eine Funktion. Die Wortartenzuweisung ist bezüglich solcher Mehrworteinheiten umstritten. Auf der einen Seite ist die Wortartenzuweisung nach dem STTS funktionsgebunden und nicht formgebunden. Auf der anderen Seite verstößt das Tagging von einer komplexen Konstruktion mit nur einem Tag gegen das Gebot, dass jedem Token genau ein Tag zugewiesen wird. Dies würde schließlich auch dazu führen, dass statistische Berechnungen in korpuslinguistischen Studien verzerrt würden, beispielsweise bei der Berechnung von relativen Häufigkeiten. Ein weiteres Problem ist die automatisierte Erkennung dieser Elemente als Mehrworteinheiten. In ihrer Oberflächenstruktur unterscheiden sie sich nicht von anderen Konstruktionen, sind also ihrer Form nach nicht automatisiert als eine Einheit erfassbar. Diese Probleme sprechen auch gegen ein Verfahren, jeder Wortform der Konstruktion das gleiche Tag zuzuordnen. Einerseits ist es kaum operationalisierbar, diese komplexen Konstruktionen automatisiert als Einheit zu erkennen. Dies ist höchstens bei sehr frequenten Konstruktionen wie einigen Interjektionen oder Konjunktionen möglich, nicht jedoch bei Film- oder Buchtiteln oder komplexen Eigennamen. Andererseits würde auch dies zu Verzerrungen bei der statistischen Analyse solcher Daten führen. Es sei also an dieser Stelle darauf hingewiesen, dass das Problem der Mehrworteinheiten erkannt wurde, in dieser Arbeit jedoch aus Gründen des Umfangs nicht weiter bearbeitet wird und diese sowohl beim manuellen als auch beim automatisierten Tagging nicht berücksichtigt werden, und jedes Token einzeln getaggt wird. 2.4.4 Problematik verschiedener Definitionen von Partikeln Wirft man einen Blick in die bisherige Forschungsliteratur, so zeigt sich schnell, dass das, was unter dem Begriff Partikeln verstanden wird, sehr unterschiedlich ist. Einige benutzen den Begriff Partikel als zusammenfassende Bezeichnung für alle unflektierbaren Einheiten inklusive Präpositionen und Konjunktionen (Engel 2004). Andere unterscheiden zwischen Partikeln in weiterem Sinne, denen die soeben genannte Kategorisierung entspricht, und Partikeln im engeren Sinne, als Synsemantika, ohne grammatische oder syn- <?page no="72"?> Theoretische Grundlagen 72 taktische Funktionen (Hentschel/ Weydt 2002; Duden 2005; Burkhardt 1982b). Wieder andere unterscheiden Letztere distributionell in solche, die zum kompositionellen Aufbau von Sätzen beitragen, und solche, die selbstständige (satzwertige) Einheiten bilden können (Diewald 2006; Weinrich 2005; Hoffmann 2013; Zifonun/ Hoffmann/ Strecker 1997; Institut für Deutsche Sprache 2013). Für solche selbstständigen Einheiten werden verschiedene Bezeichnungen benutzt. Die IDS-Grammatik, Hoffmann und Grammis 2.0 bezeichnen sie als „Interaktive Einheiten“ (Hoffmann 2013; Zifonun/ Hoffmann/ Strecker 1997; Institut für Deutsche Sprache 2013). Eine ähnliche Konnotation haben die Diskurspartikeln Diewalds (2006) und die Sprechersignale und Dialogpartikeln bei Weinrich (2005). Burkhardt (1982b) verfolgt zur Kategorisierung einen pragmatischen Ansatz, indem er seine sogenannten Gesprächswörter zwischen sprecherseitigen Partikeln und hörerseitigen (Rückmeldungs-)Partikeln unterscheidet (Burkhardt 1982b). Diese erste grobe Zusammenfassung zeigt, dass eine Definition des Begriffs „Partikeln“ sowie eine Beschreibung der als solche zu bezeichnenden Lexeme Gegenstand einer weitreichenden Diskussion in der Forschungsliteratur ist. Es soll daher zunächst ein tiefergehender Überblick über die verschiedenen Definitions-Ansätze des Begriffs in einschlägiger Literatur geschaffen werden. Folgend sollen die divergierenden Definitionen der darunter subsumierten Wortklassen vergleichend dargestellt und ihre Kategorisierung analysiert werden. Sie sollen später in Bezug auf eine mögliche Übernahme bei einer Neukategorisierung des Tagsets diskutiert werden. Zunächst ist es aber notwendig noch kurz das Konzept Satz zu diskutieren. Ob sich das traditionelle Satzkonzept auf die gesprochene Sprache anwenden lässt, wird häufig in Frage gestellt, dennoch liegt es in der Literatur zu Partikeln vielen Definitionen unreflektiert zu Grunde. 2.4.5 Gesprächswörter - Definitionen in der Literatur Die Duden-Grammatik definiert Partikeln mit einem Verweis auf die Häufigkeit ihres Vorkommens in gesprochener Sprache vor allem in Hinblick auf ihre Funktion: Als Gradpartikeln geben sie Auskunft über die Intensität von Eigenschaften, als Fokuspartikeln heben sie bestimmte Teile eines Satzes hervor, als Negationspartikeln verneinen sie einen Satz oder Teilsatz, als Abtönungspartikeln geben sie Auskunft über die subjektive Einstellung, die Haltung des Sprechers zum geäußerten Sachverhalt, als Gesprächspartikeln steuern sie den Ablauf von Dialogen, als Interjektionen dienen sie dem Ausdruck von Emotionen, und als Onomatopoetika imitieren sie Geräusche. (Duden 2005, S. 588) <?page no="73"?> Wortarten in der gesprochenen Sprache 73 Weiterhin erläutert sie, dass ihre Kürze, ihre Nichtflektierbarkeit sowie die Möglichkeit, dass eine Form je nach ihrer Funktion verschiedenen Klassen zugeordnet werden könne, Hauptmerkmale der Partikeln seien (ebd.). Die Duden-Grammatik unterscheidet die Wortart Partikel weiterhin - wie im obigen Zitat schon angedeutet - in: − Gradpartikeln, die im Duden auch als Steigerungspartikeln und Intensitätspartikeln bezeichnet werden, − Fokuspartikeln, − Negationspartikeln, − Abtönungspartikeln, die im Duden auch als Modalpartikeln bezeichnet werden, − Gesprächspartikeln, die sich in Gliederungspartikeln und Antwortpartikeln aufteilen, − Interjektionen, die auch als Ausdruckspartikeln bezeichnet werden und in einfache und komplexe Interjektionen unterschieden werden, − und Onomatopoetika (ebd.). An dieser Stelle sei darauf verwiesen, dass die Klassifikation der Gradpartikeln und deren Bezeichnung als Intensitätspartikeln sowie die synonyme Bezeichnung von Abtönungspartikeln und Modalpartikeln im Kapitel 2.4.6 „Satz-interne Partikeln“ problematisiert werden. Im Vergleich zu der Duden-Grammatik macht die GDS bei der Definition des Begriffs Partikel eine grundlegende distributionelle Unterscheidung. Sie unterscheidet zwischen Wörtern, die zum kompositionellen Aufbau von Sätzen beitragen, und solchen, die selbstständige Einheiten bilden. Zu Ersteren zählt sie Intensitätspartikeln, Gradpartikeln, Negationspartikeln, Modalpartikeln, Abtönungspartikeln und Konnektivpartikeln. Letztere fasst sie unter dem Begriff interaktive Einheiten zusammen, der Interjektionen und Responsive umfasst (Zifonun/ Hoffmann/ Strecker 1997). Die GDS definiert den Begriff Partikeln folgendermaßen: Die im folgenden [sic! ] (2.16.-2.21.) vorzustellenden PARTIKELN (P) haben das gemeinsame Merkmal, daß sie nicht Kopf einer Phrase sein können. Sie sind - sieht man von gewissen Modalpartikeln (vgl. 2.19.) ab - nicht untereinander koordinierbar (*sehr und einigermaßen, *wohl und ja. *leider und sicherlich) (vgl. dazu auch 2.20.). Partikeln sind ferner unflektierbar, aber das gilt auch für Adverbien, Präpositionen, Konjunktoren, Subjunktoren und Adjunktoren, die wir nicht den Partikeln zuordnen. (ebd., S. 56) Es wird deutlich, dass der Begriff der Partikeln hier enger gefasst wird als in der Duden-Grammatik. Zwar schließt auch diese Adverbien, Präpositionen, Konjunktoren, Subjunktoren und Adjunktoren nicht in die Klasse mit ein, je- <?page no="74"?> Theoretische Grundlagen 74 doch werden dort ebenfalls Gliederungspartikeln und Antwortpartikeln dem Begriff untergeordnet, die nach der GDS nicht als Partikeln bezeichnet werden dürfen, sondern „interaktive Einheiten“ sind. Diese werden wie folgt genauer definiert: Im Unterschied zu Wortarten sind INTERAKTIVE EINHEITEN dadurch gekennzeichnet, daß ihre Elemente als selbständige Einheiten der Interaktion fungieren und nicht zum Aufbau von Sätzen oder kommunikativen Minimaleinheiten beitragen. (ebd., S. 62) Die Bezeichnung ist zunächst irreführend, da sie impliziert, dass Partikeln nicht das Merkmal der Interaktivität tragen, das genau genommen für jede Turn Construction Unit (TCU) gilt. Die Selbstständigkeit dieser Einheiten ist hierbei jedoch das entscheidende Merkmal. Auf die weitere Untergliederung in Responsive und Interjektionen und deren Begriffsdefinition sowie der Vergleich mit entsprechenden Klassifizierungen der Duden-Grammatik soll später genauer eingegangen werden. Deutlich wird bei dieser Unterteilung jedoch schon hier, dass sie grundlegende Kriterien zur Unterscheidung der Elemente auf distributioneller Ebene bietet, gleichsam aber auf diese Weise keinen Ort der Zuordnung für Diskursmarker mehr erlaubt, die zwar unabhängig vom kompositionellen Aufbau des Satzes sind, jedoch nicht selbstständig stehen können, wie die interaktiven Einheiten. Die Internetplattform Grammis 2.0 und die dort enthaltene „Systematische Grammatik“ sind eng an die GDS angelehnt, haben jedoch eine leicht abweichende Kategorisierung der Partikeln (Institut für Deutsche Sprache 2013). Wie in der GDS wird allerdings auch die grundlegende Unterscheidung zwischen Partikeln und interaktiven Einheiten gemacht, die Begründung jedoch genauer ausgeführt. Grammis 2.0 expliziert, dass es verschiedene Ansätze geben kann, den Begriff Partikeln zu definieren: Partikeln stellen den wahrscheinlich uneinheitlichsten Bereich der Wortartenklassifikation. Drei Ansätze lassen sich ausmachen. Beim weitesten Partikelbegriff werden sämtliche unflektierbaren Einheiten als Partikeln klassifiziert, also zum Beispiel auch Präpositionen, Junktoren und Adverbien. Ein engeres Konzept, von dem auch wir ausgehen, grenzt Präpositionen, Junktoren und Adverbien aufgrund von Satzgliedwert und syntaktischen Eigenschaften aus den Partikeln aus. Schließlich wird im allerengsten Sinn eine Restgruppe bezeichnet, die im wesentlichen[sic! ] mit den Klassen Abtönungspartikeln und Fokuspartikeln identisch ist. (Institut für Deutsche Sprache 2013) Das Konzept, von dem Grammis 2.0 ausgeht, wird folgendermaßen definiert: Als Partikeln bezeichnen wir eine heterogene Klasse von unflektierbaren Einheiten. Die meisten Partikeln können nicht selbständig als Antwort auf eine Frage fungieren und bilden keine Phrasen. Im Unterschied zu den Adverbien <?page no="75"?> Wortarten in der gesprochenen Sprache 75 zeigen manche Partikelklassen auch Beschränkungen in den Stellungsmöglichkeiten und können nicht allein im Vorfeld eines Aussagesatzes stehen. Partikeln sind - besonders in der Alltagssprache - hochfrequent. Sie sind polyfunktional. (ebd.) Auch hier wird auf die Häufigkeit des Partikelgebrauchs in der gesprochenen Sprache hingewiesen. Die so definierten Partikeln unterteilt Grammis 2.0, anders als die GDS und die Duden-Grammatik, in vier Subklassen: Intensitätspartikeln, Fokuspartikeln, Abtönungspartikeln und Konnektivpartikeln. Auch auf diese Subklassifizierung soll später im Vergleich mit anderen Grammatiken genauer eingegangen werden. Genau wie die GDS unterscheidet auch Grammis 2.0 interaktive Einheiten von den Partikeln und unterteilt sie in Responsive und Interjektionen. Sie definiert sie ähnlich der GDS: Interaktive Einheiten fungieren im Unterschied zu den traditionellen Wortarten als selbständige Einheiten der Interaktion, tragen aber nicht zum kompositionellen Aufbau von Sätzen bei. Sie wirken gesprächssteuernd, indem sie Reaktionen auf Äußerungen zum Ausdruck bringen oder über Emotionen des Sprechers informieren. Zu den Interaktiven Einheiten gehören die Interjektionen und die Responsive. (Institut für Deutsche Sprache 2013) Ein Unterschied zur GDS ist, dass sie die Grundlage der Unterscheidung von Partikeln und interaktiven Einheiten dahingehend definiert, dass Letztere keine Wortart im eigentlichen Sinne ist, sondern eine „Funktionale Klasse quer zu den Wortarten“ (ebd.). Genauer: Quer zu den Wortarten als lexikalischen Kategorien stehen die folgenden rein nach ihrer Funktion zusammengefassten Klassen, deren Elemente entweder gar keiner Wortart oder verschiedenen lexikalischen Wortarten entsprechen. (ebd.) Da sie also auf distributioneller Ebene nicht weiter subklassifiziert werden können, werden Elemente, die nicht in syntaktischen Gefügen definierbar sind, nach ihrer Funktion weiter subklassifiziert. Inwiefern man sie dennoch beim Wortartentagging berücksichtigen sollte, muss bei der Konzeption der Grundsätze für eine Neukategorisierung der Wortartentags diskutiert werden - zumal Grammis 2.0 die „Funktionalen Klassen quer zu den Wortarten“ in seinem Gliederungs-Aufbau den Wortarten untergliedert. Weiterhin räumt die Plattform ein, dass andere Bezeichnungen und Zuordnungen für interaktive Einheiten „Gliederungspartikeln, Gesprächswörter und Antwortpartikeln“ seien und legt somit einen Vergleich mit der Duden-Grammatik nahe, auf den bei der Besprechung der einzelnen Klassen genauer eingegangen wird. Die „Deutsche Grammatik: Grundlagen für Lehrerausbildung, Schule, Deutsch als Zweitsprache und Deutsch als Fremdsprache“, die von Hoffmann (2013) veröffentlicht wurde, ist, wie der Untertitel impliziert, ausgelegt auf <?page no="76"?> Theoretische Grundlagen 76 den Erwerb von Deutsch als Fremdsprache. Sie orientiert sich an der GDS und fügt keine Explikationen bezüglich der Unterscheidung von Partikeln und interaktiven Einheiten an. Weinrich (2005) bietet in seiner „Textgrammatik der deutschen Sprache“ ebenfalls keine genauere Definition des Begriffs Partikel, expliziert jedoch unter den Begriff fallende Phänomene im Kapitel „Syntax des Dialogs“. Seine Unterscheidung ist grundlegend verschieden von der GDS und der Duden-Grammatik und grundsätzlich an die Funktion der Formen im Dialog gebunden. Er unterscheidet zwischen Sprechersignalen, Dialogpartikeln, Interjektionen und Modalpartikeln. In der Terminologie der GDS entsprechen nur Letztere dem Begriff der Partikeln, die ersten drei denen der interaktiven Einheiten. Der Begriff der Modalpartikel wird hier also sehr weit gefasst. Diewald (2006) setzt sich in ihrem Aufsatz „Discourse particles and modal particles as grammatical elements“ mit der Klassifikationsproblematik von Partikeln auseinander und spricht drei grundlegende Probleme an: − Erstens, inwiefern man Partikeln generell nach ihrer grammatischen Funktion unterscheiden kann, − zweitens, wie die einzelnen grammatischen Funktionen bestimmter Partikeln sich von den grammatischen Funktionen anderer Elemente bzw. untereinander unterscheiden - vor allem, weil viele Partikeln polyfunktional sind und ihre Bedeutung stark von Kontextfaktoren und der respektiven Interpretation derselben abhängig ist, und − drittens, in welchem Ausmaß ihre Funktion von der ihnen inhärenten Semantik jedes lexikalischen Items abhängig ist. Diesbezüglich stellt sie weiterhin die Frage nach welchen Kriterien man die Wortartenklassifikation einzelner Lexeme vornehmen muss. Diewald (2006, S. 405) stellt diesbezüglich drei grundlegende Fragen: Muss man solche Elemente ihrer jeweiligen Funktion nach rein synchron betrachten, also als voneinander unabhängige Homonyme, die jeweils zu verschiedenen Wortklassen zuzuordnen sind? Oder muss man eine Grundbedeutung annehmen, also sie als ein einziges linguistisches Element betrachten, das kontextabhängig verschieden interpretiert werden kann? Oder aber muss man solche Elemente als Polyseme betrachten und sollte versuchen, die Bedeutung eines jeden Elements zu beschreiben und die Zusammenhänge zu verwandten Bedeutungen aufzeigen? (ebd.). Sie kommt zu dem Schluss, dass eine Klassifizierung der nichtflektierbaren Elemente vor allem nach funktionalen Kriterien geschehen muss, jedoch unter Bezugnahme ihrer morphosyntaktischen Eigenheiten. Sie folgert daraus, dass man Partikeln jeweils nach ihrer funktionellen Domäne, der sie angehören, und in Bezug auf die Ele- <?page no="77"?> Wortarten in der gesprochenen Sprache 77 mente, die sie verbinden, in drei Klassen differenzieren kann: Diskurspartikeln, Modalpartikeln und Konjunktionen (Diewald 2006, S. 406): Accordingly, […] discourse particles (DPs), as well as modal particles (MPs) and conjunctions, are here considered to be functionally constituted classes of grammatical markers which operate outside the syntactic confines of the clause, relating two items through an indexical procedure, i. e. through a process of linguistic pointing […]. The three classes differ in the functional domains they apply to and in the type of elements they link. Ihre Klassifikation ist auf die Funktion der Partikeln in Sprechakten (im Sinne von Searle) ausgelegt: Konjunktionen verbinden zwei Propositionen, Modalpartikeln modifizieren die Proposition während Diskurspartikeln auf keine Proposition referieren. Bei Letzteren ist der Bezug allein auf die kommunikative Situation bzw. den Diskurs ausgerichtet (Duden 2005, S. 408). Es wird deutlich, dass Diewald nur eine sehr grobe Unterscheidung in ihrer Klassifikation macht. Sie entspricht einem eher „weiten“ Partikelbegriff und postuliert zwar sehr klare syntaktische und funktionale Unterscheidungskriterien, die Kategorisierung ist jedoch gleichsam undifferenziert und gibt wenig inhaltliche Auskunft über die Elemente. In der von Helbig/ Buscha (2011) veröffentlichten „Deutsche[n] Grammatik. Ein Handbuch für den Ausländerunterricht“ findet sich eine sehr detaillierte Definition von Partikeln und zwei verschiedene Ansätze zu deren Klassifikation. Helbig definiert Partikeln unter dem morphologischen Aspekt, dass sie „weder deklinierbar noch konjugierbar oder komparierbar“ seien, unter „syntaktischem Aspekt“, dass sie nicht satzgliedfähig seien und somit nicht vorfeldfähig, unter „semantischem Aspekt“, dass sie „ein Wort im Satz näher bestimmen,erläutern,spezifizierenodergraduieren“undunter„kommunikativem Aspekt“, dass sie „oft feine Nuancen“ im konversationellen Kontext ausdrücken und „Indikatoren für bestimmte Sprechhandlungen“ seien (ebd., S. 476). Aus dieser Definition geht hervor, dass Helbig/ Buscha (ebd.) das, was die GDS als interaktive Einheiten bezeichnet und was in der Duden-Grammatik als Gesprächspartikeln, Interjektionen und Onomatopoetika klassifiziert wird, explizit nicht zu den Partikeln zählt. An anderer Stelle hebt er noch einmal hervor, dass Partikeln sich durch ihre Unselbstständigkeit sowohl von Interjektionen als auch von anderen Satzäquivalenten unterscheiden (ebd., S. 475). Eine Klassifikation der von ihm so definierten Partikeln nimmt er nach zwei verschiedenen Ansätzen vor. Auf der einen Seite klassifiziert er sie allein nach ihrer syntaktischen Stellung, d. h. nach: − „Partikeln, die zu Substantiven, Verben, Adjektiven und Adverbien treten können,“ <?page no="78"?> Theoretische Grundlagen 78 − „Partikeln, die zu Substantiven, Adjektiven und Adverbien treten können,“ − „Partikeln, die zu Verben, Adjektiven und Adverbien treten können,“ − „Partikeln, die zu Adjektiven und Adverbien treten können,“ − „Partikeln, die zu Substantiven und (ursprünglichen) Adverbien treten können“ und − „Partikeln, die zu Verben treten können.“ (ebd., S. 477-479) Auf der anderen Seite klassifiziert er sie „in Abhängigkeit von der Dominanz der semantischen oder der kommunikativen Funktion“ (ebd., S. 477). Das heißt in: (a) solche Partikeln, bei denen die kommunikative Funktion dominiert, z. B. aber, also, auch, bloß, denn, doch, eigentlich, einfach, etwa, gerade, halt, ja, mal, noch, nun, nur, schon, überhaupt, vielleicht, wohl, (b) solche Partikeln, bei denen die semantische Funktion dominiert, z. B. beinahe, bereits, etwas, ganz, höchst, immer, nahezu, recht, sehr, so, überaus, viel, weit, weitaus, zu. (ebd., S. 477) Sieht man sich seine Klassifikationen an, so wird deutlich, dass die syntaktische Unterscheidung, die er vornimmt, zwar einer Klassifikation dienen kann, sie aber wenig aussagekräftig ist. Wie schon an der Begrifflichkeit dominieren deutlich wird, ist seine Unterscheidung der Partikeln in eine kommunikative und semantische Funktion sehr vage. Sie schließt eine mutuell exklusive Klassifikation von vornherein aus. Auch gibt er nur ein einziges Kriterium zur Unterscheidung der beiden Klassen an: Partikeln mit kommunikativer Funktion können illokutionäre Indikatoren sein. Darüber hinaus gibt es jedoch keine weiteren Abgrenzungskriterien (ebd., S. 480). Im Vergleich mit den Klassifikationen anderer Grammatiken gestaltet sich sein Vorschlag daher als wenig nachvollziehbar, da er seinen Partikelbegriff und die Kriterien für eine Klassifikation deutlich anders gestaltet als die bisher diskutierten Grammatiken und auch nur sehr vage definiert. Im Gegensatz zu Helbig/ Buscha (2011) fasst Engel (2004) in seiner „Deutschen Grammatik“ den Begriff der Partikel sehr weit: Partikeln sind unabänderliche Wörter. […] Partikeln haben Nebenfunktionen in der Sprache. […] Näher bestimmende Partikeln sind erstens solche, die Geschehen oder Größen präzisieren. Zu ihnen gehören vor allem Adverbien, die hier teilweise mit undeklinierten Adjektiven konkurrieren, sowie Kopulapartikeln. […] Zweitens gehören hierher Partikeln, die die Illokution präzisieren oder modifizieren. […] Zu den verbindenden Partikeln gehören vor allem die Präpositionen. […] Subjunktoren, die Nebensätze einleiten, verbinden Geschehensbeschreibungen. […] Konjunktoren verbinden gleichartige Elemente. […] Ähnlich funktionieren Vergleichspartikeln. […] Die sonstigen Partikeln ersetzen Äußerungen (als Satzäquivalente) […] So sind die Partikeln hinsichtlich <?page no="79"?> Wortarten in der gesprochenen Sprache 79 der Struktur von Äußerungen nur Begleiterscheinungen. Was die Semantik betrifft, bilden sie dennoch oft den Schwerpunkt einer Äußerung. Dies zeigt sich deutlich etwa an der Gradpartikel nicht, die den Inhalt einer Äußerung in ihr Gegenteil verkehren kann. (ebd., S. 384) Die Definition entspricht in etwa dem, was Grammis 2.0 als weitesten Partikelbegriff definiert hat. Untersucht man die weiteren Subklassifizierungen, die einem im Sinne der GDS engeren Begriff zuzuordnen sind, - schließt also die Klassen der Präpositionen, Subjunktoren, Adverbien, Kopulapartikeln, Konjunktoren und Vergleichspartikeln aus - so differenziert Engel zwischen Modalpartikeln, Rangierpartikeln, Gradpartikeln, Abtönungspartikeln und Satzäquivalenten, welche er wiederum in Antwortpartikeln, Initiativpartikeln, reaktive Partikeln und Interjektionen unterteilt (ebd.). Merkmale für die Unterscheidung der Subklassen sind vorrangig ihre mögliche Distribution im Satz, nachrangig ihre Semantik. Die Klasse der Partikeln, die er unter den Satzäquivalenten zusammenfasst, ist jedoch über ihre Funktion im Dialog definiert. In den „Handbüchern zur Sprach- und Kommunikationswissenschaft“ im Band „Lexikologie“ und dem darin enthaltenen Beitrag „Die Wortart ‚Partikel‘“, verfasst von Hentschel/ Weydt (2002), ist der Partikelbegriff wiederum anders definiert. Generell definieren sie den Begriff Partikel nach syntaktischen und semantischen Kriterien: Semantisch sind Partikeln dadurch definiert, dass sie weder lexikalische (autosemantische) Bedeutungen haben, d. h. nichts aus der außersprachlichen Wirklichkeit ausgliedern, noch deiktische. Sie sind Synkategorematika (oder Synsemantika) und entfalten ihre Bedeutung nur zusammen mit anderen Elementen des Wortschatzes, die ihrerseits Autosemantika oder Deiktika sind. Auch Interjektionen gehören, da sie keine Synkategorematika sind, nicht zu den Partikeln. Syntaktisch sind Partikeln meist satzintegriert, haben aber normalerweise keine Satzgliedfunktion. (ebd., S. 646) Wie bereits in dem Zitat am Beispiel der Interjektionen expliziert, gehören nach dieser Definition, wie auch bei Helbig, solche Elemente, die in der Duden-Grammatik als Gesprächspartikeln, Interjektionen und Onomatopoetika bezeichnet werden, sowie solche, die in der GDS, Grammis 2.0 systematischer Grammatik und in Hoffmanns „Deutscher Grammatik“ als interaktive Einheiten bezeichnet werden, nicht zu der Klasse der Partikeln. Allerdings werden in der Definition Vagheitsausdrücke wie meist und normalerweise verwendet, was die nach dieser Definition widersprüchlich erscheinende Subklassifizierung erklärt, die Klassen wie Antwortpartikeln, Situativpartikeln und Sequenzpartikeln vorsieht. Des Weiteren differenzieren Hentschel/ Weydt zwischen einem Partikelbegriff im weiten und im engeren Sinne. Hierbei definieren sie Partikeln im weiteren Sinne nicht - wie beispielsweise die systematische Grammatik der Plattform Grammis 2.0 - allein nach morphologi- <?page no="80"?> Theoretische Grundlagen 80 schen Kriterien, d. h. durch die Unflektierbarkeit der Elemente, sondern auf semantischer Ebene. Sie unterscheiden sich daher grundlegend von dem Partikelbegriff, der von der Duden-Grammatik, Weinrich, Engel und Diewald vertreten wird. Stattdessen definieren sie Partikeln im weiteren Sinne als die „Klasse der Synsemantika als ganze“ (Hentschel/ Weydt 2002, S. 646). Dem entsprechend gehören nach dieser Definition auch Präpositionen (wobei hier zu diskutieren ist, ob diese wirklich Synsemantika sind), Konjunktionen etc. zu der Klasse der Partikeln (ebd.). Partikeln im engeren Sinne definieren sie als „Synsemantika ohne grammatische oder syntaktische Funktionen […], die als selbständige Morpheme zumeist satzintegriert auftreten“ (ebd., S. 647). Auch hier lässt sich nur durch den Ausdruck zumeist der Einbezug der drei Subklassen Antwortpartikeln, Situativpartikeln und Sequenzpartikeln erklären. Für den Begriff der Partikeln im engeren Sinne postulieren Hentsche/ Weydt folgende Subklassen: Modalwörter, Abtönungspartikeln, Situativpartikeln (Satzadverbien), Intensivpartikeln (Gradpartikeln), Fokuspartikeln, Antwortpartikeln, Negationspartikel, Topikalisierungspartikeln, phatische Partikeln und Sequenzpartikeln (Gliederungssignale) (ebd., S. 647). Es wird deutlich, dass die hier vorgenommene Klassifikation widersprüchlich zu ihrer Definition des Begriffs Partikeln ist, da sie dort Interjektionen ausdrücklich ausschließen, innerhalb ihrer Definition der Antwortpartikeln Interjektionen wiederum explizit als solche bezeichnen und mit einschließen (ebd., S. 648 f.). Burkhardt setzte sich schon 1982 mit dem Problem der Klassifizierung solcher vorwiegend in gesprochener Sprache vorkommenden Elemente auseinander. In seinem Beitrag „Gesprächswörter - Ihre lexikologische Bestimmung und lexikographische Beschreibung“ differenziert er zwischen logischen, grammatischen und kommunikativen Funktionswörtern. Als Funktionswörter bezeichnet er die gesamte Gruppe der Synsemantika und nichtflektierbarer Wörter und erläutert, dass diese ihre Bedeutung durch die Regel ihres Gebrauchs konstituieren (Burkhardt 1982b, S. 139 und 141). Seine Definition der Funktionswörter entspricht der Definition des Begriffs Partikeln im weiteren Sinne Hentschels/ Weydts und der Partikeln im weitesten Sinne der Systematischen Grammatik auf Grammis 2.0. Als logische Funktionswörter bezeichnet er Junktoren. Als der Klasse der grammatischen Funktionswörter zugehörig zählt er „Artikel, Präpositionen, die meisten Konjunktionen sowie Hilfsverben, Elativformen, adverbiale Partikeln und Relativpronomen“ (Burkhardt 1982b, S. 141). Die Klasse der kommunikativen Funktionswörter bezeichnet er auch als Gesprächswörter. Diese Klasse entspricht dem, was die Duden- Grammatik unter dem Begriff Partikeln versteht und die systematische Grammatik auf Grammis 2.0 als Partikeln im engeren Sinne definiert. Burkhardt beschreibt kommunikative Funktionswörter folgendermaßen: <?page no="81"?> Wortarten in der gesprochenen Sprache 81 Nun sollte deutlich geworden sein, daß es eine große Klasse von unflektierbaren Wörtern gibt, die besonders häufig in der gesprochenen Sprache auftreten und hier spezielle pragmatische Funktionen übernehmen. Wenn man davon ausgeht, daß die konventionalisierte Bedeutung dieser Sprachzeichen genau diese kommunikativ-pragmatische Funktion ist, die sie auch von allen anderen Wörtern aller anderen Klassen unterscheidet, so scheint es in der Tat zweckmäßig zu sein, eine Wortart „Gesprächswörter“ anzusetzen. (ebd., S. 158) Hierbei setzt er voraus, dass Gesprächswörter nur in mündlicher Kommunikation vorkommen können, d. h., dass solche Elemente nur in Situationen auftreten, in denen Sprecher*innen und Hörer*innen mindestens einen Sprechakt und einen Rückmeldungsakt vollziehen (ebd., S. 139). Seine Definition der kommunikativen Funktionswörter ist damit rein auf die gesprochene Sprache festgelegt. Bezüglich der Subklassifizierung der kommunikativen Funktionswörter stellt er Folgendes fest: Nun haben die Gesprächswörter mit den übrigen Partikeln (im weiteren Sinne, vgl. dazu Helbig 1977, 31) in formaler Hinsicht die Unflektierbarkeit gemeinsam, so daß für eine Typologisierung, Deskription und Klassifizierung nur noch ihre unterschiedliche Funktion sowie in manchen Fällen auch ihre unterschiedliche Stellung in Satz bzw. Äußerung als Kriterium in Frage kommt. Weil die syntaktischen nicht immer zuverlässig sind, sind die wesentlichen Kriterien dabei semantischer Art. (Burkhardt 1982b, S. 139) Wie bereits zitiert, begründet Burkhardt seine Klassifikation der Gesprächswörter auf ihrer kommunikativ-pragmatischen Funktion. Er führt aus, dass bestimmte Partikeln verschiedene Funktionen übernehmen können und sie demnach in ihrer jeweiligen Funktion „als Rückmeldungs-, Gliederungs-, Abtönungs- oder Sprechhandlungspartikel oder als Interjektion“ (ebd., S. 159) fungieren können bzw. als solche klassifiziert werden können, da sie „verschiedene Funktionstypen desselben Wortes“ (ebd.) sind. Nach diesen weitgehend semantischen und funktionsorientierten Ansätzen baut Burkhardt seine Typologie dahingehend auf, dass er die Klasse der Gesprächswörter in hörerseitige und sprecherseitige Partikeln unterteilt. Hörerseitige Partikeln können zwei Funktionen annehmen, die der rückbestätigenden Partikeln und die der rückfragenden Partikeln. Sprecherseitige Partikeln können die Funktion von Interjektionen, Sprechhandlungs-, Gliederungs- und Abtönungspartikeln übernehmen (ebd., S. 147-157). Hierbei wird deutlich, dass Burkhardt, ähnlich wie die Duden-Grammatik, Diewald und Weinrich, keine weitere Differenzierung zwischen solchen Partikeln macht, die selbstständig stehen können, und solchen, die von anderen Satzgliedern abhängig sind. Schwitalla (2012) definiert Burkhardts Gesprächswörter und deren Klassifikation als Gesprächspartikeln im weiten Sinne: <?page no="82"?> Theoretische Grundlagen 82 Wenn man Gesprächspartikeln im weiten Sinne als Wörter definiert, die bei der Durchführung eines Gesprächs wichtig sind (so die Klassifikation bei Burkhardt 1985 [Zusammenfassung der 1982 veröffentlichten Klassifikation, Anm. d. V.]), dann gehören auch Modalpartikeln, Onomatopoetika und alle Typen von Interjektionen dazu; fasst man sie in einem engen Sinne [sind es] solche, die der Gesprächsorganisation und -steuerung dienen (Anfang und Ende, Teile, Sprecher-/ Hörersteuerung, Bezüge von Sprecherbeiträgen). (Schwitalla 2012, S. 157) Schwitalla verknüpft in seiner Definition von Gesprächspartikeln im weiten Sinne den Funktions- und Gesprächsorientierten Ansatz Burkhardts und benennt sie gleichzeitig entsprechend der Kategorisierung der Subklassen der Wortart Partikel in der Duden-Grammatik. Seine Definition von Gesprächspartikeln im engen Sinne wiederum entspricht weitgehend der in der Duden- Grammatik gleichnamig als Subklasse der Partikeln definierten Gesprächspartikeln. Schwitalla bietet keinen Versuch der Klassifikation dessen an, was er als Gesprächspartikeln definiert. Vielmehr gibt er eine Übersicht bzw. zählt auf, welche Funktionen Gesprächspartikeln in einer Konversation übernehmen können. Ihm zufolge dienen sie der Kontaktherstellung, Sicherung der Aufmerksamkeit, Einleitung der Gesprächsbeendigung, Gliederung von thematischen und interaktiven Gesprächsteilen, Sicherung der Sprecherrolle - beispielsweise durch gefüllte Pausen -, Markierung eines plötzlichen Einfalls, als Korrektursignale, zur Hörersteuerung und Segmentierung - beispielsweise durch Rückversicherungssignale - und als Rezeptionssignale (ebd.). Wie auch Arnim Burkhardt verweist er darauf, dass dementsprechend „lexikalisierte Wörter und Wortverbindungen, die nicht mehr mit ihrer ursprünglichen Bedeutung paraphrasiert werden können“ der Klasse der Gesprächspartikeln zuzuordnen sind (ebd.; Burkhardt 1982b, S. 158). Aus der hier präsentierten Übersicht der Definitionen und Auslegungen des Partikelbegriffs in verschiedenen Grammatiken für die deutsche Sprache sowie einschlägiger, themenproblematisierender Literatur, ist deutlich geworden, wie uneinheitlich Definitionen, Klassifikationen und Auslegungen im Bereich Partikeln sind. Nach vielen Jahren der Partikelforschung und der Auseinandersetzung mit dem Thema ist noch immer keine Lösung für eine einheitliche Begriffsdefinition gefunden. Im Gegenteil: Vor allem in der Subklassifikation, wie sich im Folgenden zeigen wird, werden vielmals verschiedene Begriffe für ein Konzept und häufig derselbe Begriff für verschiedene dahinterliegende Konzepte verwendet. Ziel dieser Arbeit ist es zwar nicht, eine Lösung für die Definitionsproblematik zu erarbeiten, denn das würde den Rahmen dieser Arbeit sprengen, jedoch muss hier eine praktikable Lösung für die Klassifikation dieser schwierig zu definierenden Elemente unserer Sprache gefunden werden. Zunächst jedoch sollen noch die Subklassifi- <?page no="83"?> Wortarten in der gesprochenen Sprache 83 zierungen der verschiedenen Partikelbegriffe analysiert und miteinander verglichen werden, um weitere Grundlagen für eine Kategorisierung der Wortartentags zu schaffen. Hierbei werden zunächst jene Klassen miteinander verglichen, die sich unter dem Begriff Partikeln im engeren Sinne zusammenfassen lassen, also zum kompositionellen Aufbau des Satzes beitragen, folgend solche, die man als selbstständige interaktive Einheiten zusammenfassen kann. Danach erfolgt die Abgrenzung der selbstständigen interaktiven Einheiten zu Diskursmarkern, die in den Begriffsdefinitionen der bisher diskutierten Literatur keine Erwähnung gefunden haben, jedoch für eine Neuklassifizierung typischer spontansprachlicher Elemente nicht weniger relevant sind. 2.4.6 Satz interne Partikeln Unter Partikeln im engeren Sinne werden nach obiger Definition solche Gesprächswörter verstanden, die in den konzeptionellen Aufbau des Satzes eingefügt sind, d. h. im Mittelfeld des Satzes stehen und nicht isoliert vom Satz stehen können. Diese Eigenschaft unterscheidet sie von den Satz-unabhängigen Einheiten und den Diskursmarkern. Grob lassen sich vier Gruppen von Elementen unterscheiden: − Intensitätspartikeln, Gradpartikeln und Fokuspartikeln, − Abtönungs- und Modalpartikeln, − Negationspartikeln, − Konnektivpartikeln, Rangierpartikeln und Konjunktionaladverbien. Im Folgenden sollen nun Definitionen und Kriterien dieser Elemente untersucht und miteinander verglichen werden sowie erste Überlegungen für ihre Verwendbarkeit in einer möglichen Neuklassifizierung der POS-Tags des STTS angestellt werden. 2.4.6.1 Intensitätspartikeln, Gradpartikeln und Fokuspartikeln Die erste Gruppe der Subklassifizierungen von Partikeln, die hier genauer beleuchtet werden soll, ist die der Intensitätspartikeln, Gradpartikeln und Fokuspartikeln. Diese drei Klassen werden gemeinsam behandelt, da verschiedene Grammatiken diese Ausdrücke jeweils unterschiedlich definieren, d. h. sie entweder synonym verwenden oder aber auf verschiedene Weise voneinander abgrenzen. Beispielsweise unterscheiden sich nach den Definitionen der Duden-Grammatik und nach den HSK Fokuspartikeln semantisch von Gradpartikeln, letztere sich jedoch nicht von Intensitätspartikeln. Nach Grammis 2.0 und der GDS hingegen sind Fokuspartikeln identisch mit Gradpartikeln, nicht aber mit Intensitätspartikeln. Daher werden hier die einzelnen Definitionen analysiert und miteinander verglichen. Im Anschluss wird ein <?page no="84"?> Theoretische Grundlagen 84 erster Vorschlag für den Umgang mit diesen Klassen bei einer Neukategorisierung für das POS-Tagging gemacht. Die Duden-Grammatik definiert Gradpartikeln folgendermaßen: Gradpartikeln geben an, in welchem Intensitätsgrad eine Eigenschaft oder ein Sachverhalt ausgeprägt ist. Deshalb stehen sie meist vor Adjektiven und Adverbien, auch vor Zahlwörtern und bei Verben, nicht jedoch vor artikelfähigen Substantiven. […] Gradpartikeln können betont werden. Meistens können sie nicht allein ins Vorfeld verschoben werden. Ähnlich wie Fokus- und Abtönungspartikeln können Gradpartikeln weggelassen werden, ohne dass der Satz ungrammatisch würde. Gradpartikeln decken eine Skala ab von geringer über starke Intensität bis hin zum Höchstbzw. Übermaß. (Duden 2005, S. 588) Semantisch fasst sie also Gradpartikeln und Intensitätspartikeln in einer Klasse zusammen und definiert diese anhand ihrer Distribution, d. h. anhand der Wortarten, die sie modifizieren bzw. vor denen sie stehen können. Beispiele, die für die Klasse der Grad- und Intensitätspartikeln angeführt werden, sind: „wenig, etwas, einigermaßen, fast, ziemlich, so, sehr, ausgesprochen, besonders, ungemein, überaus, ganz, äußerst, zutiefst, höchst, zu“ (ebd.). Ebenso definiert sie Fokuspartikeln: Fokuspartikeln [bilden] im Verbund mit ihrer Konstituente den Informationskern (Fokus) des Satzes, d. h., sie markieren den Teil des Satzes mit dem größten Mitteilungswert. Dabei können sie auch vor bzw. hinter Substantive und Pronomen treten. […] Im Gegensatz zur Gradpartikel haben nur wenige Fokuspartikeln graduierende Funktion. Fokuspartikeln setzen Alternativen zu ihrem Bezugswort voraus und schließen andere Möglichkeiten aus oder ein. (ebd., S. 589 f.) Fokuspartikeln werden demnach dahingehend von Gradpartikeln abgegrenzt, dass sie bei Substantiven und Pronomen stehen können, während Intensitätspartikeln und Gradpartikeln dies nicht können. Dies wird anhand folgender Beispielsätze verdeutlicht: „Nur er / er nur ist gekommen. Allein sie / sie allein ist daran schuld. So etwas kann bloß/ nur ihm passieren.“ (ebd., S. 590). Zudem schreibt sie implizit den Gradpartikeln, aber auch den Fokuspartikeln eine gradierende Funktion zu. „Einzig/ nur die Lehrerin spielte mit (sonst niemand; exklusiv)“ (ebd.) im Gegensatz zu „Sogar/ selbst/ auch/ besonders die Lehrerin spielte mit (andere auch; inklusiv)“ (ebd.). Denkbar wären jedoch auch Äußerungen wie „Der is voll der Nette“, also ein Intensitätspartikel gefolgt von einer Nominalphrase. Wie eine Klassifikation für ein POS-Tagging demnach aussehen muss, um solchen Äußerungen gerecht zu werden, wird im Kapitel 3.7 „Erste Anpassung des Tagsets und der Guidelines“ beschrieben. <?page no="85"?> Wortarten in der gesprochenen Sprache 85 Dieselbe Klassifikation wie die Duden-Grammatik nehmen auch die HSK vor. Sie definieren die Subklassen jedoch nicht anhand von distributionellen Kriterien, sondern auf der Ebene der Semantik. Sie differenzieren ebenfalls nicht zwischen Gradpartikeln und Intensitätspartikeln (hier Intensivpartikeln genannt): Intensivpartikeln oder Intensifikatoren […] zuweilen auch „Gradpartikeln“ genannt […], sind Partikeln, die die „Intensität“ ihres Bezugswortes ausdrücken […]. Sie geben an, in welchem Grad die entsprechende Eigenschaft (der Vorgang, Zustand etc.) gegeben ist. (Hentschel/ Weydt 2002, S. 648) Parallel zur Duden-Grammatik wird auch hier die graduierende Funktion der Gradpartikel hervorgehoben. Beispiele, die für diese Klasse angeführt werden sind: „sehr, […] zutiefst, äußerst, ganz, etwas“ (ebd.). Deutlich wird, dass sowohl in der Duden-Grammatik als auch in den HSK-Bänden die Begriffe Gradpartikel und Intensitätspartikel jeweils synonym verwendet werden; wenn auch die HSK wesentlich weniger Kriterien zur Differenzierung der Klasse von anderen Klassen angeführt werden wie aus Tabelle 1 (siehe unten) hervorgeht. Fokuspartikeln werden bei Hentschel/ Weydt (ebd.) zunächst sehr grob definiert: „Unter Fokuspartikeln […] versteht man eine Gruppe von Partikeln wie engl. only, even, dt. nur, gerade, sogar, die mit ihrem Skopus zusammen den Fokus eines Satzes bilden.“ (ebd., S. 648). Sie differenzieren die Klasse der Fokuspartikeln nochmals in zwei Teilklassen: in „exklusive“ oder „inklusive“ Fokuspartikeln (ebd.). Exklusive Fokuspartikeln sind solche wie beispielsweise nur/ einzig x, die semantisch eine Teilmenge von anderen x ausschließen. Inklusive Fokuspartikeln sind beispielsweise „sogar/ wenigstens/ schon“ x (ebd.), die semantisch eine weitere Teilmenge x mit einschließen. Sie führen weiter aus, dass Skalarpartikeln eine Subklasse der Fokuspartikeln sind, indem die Fokuspartikel sogar „einen Extremwert auf einer Wahrscheinlichkeitsskala“ impliziere (ebd.). Mit dieser Einordnung wird deutlich, dass es schwer wird Fokuspartikeln, so wie sie hier definiert sind, von den Intensitätspartikeln und Gradpartikeln abzugrenzen. Nach dieser Definition verhalten sich, allein ihrer Funktion nach, Fokuspartikeln, Gradpartikeln und Intensitätspartikeln sehr ähnlich, und lassen sich im Einzelfall nur schwer voneinander differenzieren. Schließlich weisen sie noch darauf hin, dass auch Adjektive und Adverbien die Funktion einer Fokuspartikel einnehmen können, und machen eine Abgrenzung zu anderen Wortklassen dadurch noch undifferenzierter (ebd.). Ganz ähnlich werden Fokuspartikeln auch von der systematischen Grammatik der Internetplattform Grammis 2.0 definiert: <?page no="86"?> Theoretische Grundlagen 86 Zu den Fokuspartikeln gehören Ausdrücke wie sogar, bereits, nur, selbst, mit denen eine Einstufung des Gesagten bzw. bestimmter hervorgehobener Aspekte des Gesagten auf Skalen vorgenommen wird. […] Die Verwendung von Fokuspartikeln impliziert also spezifische Präsuppositionen. Fokuspartikeln können vor oder nach ihrem Bezugsausdruck stehen, oder auch in Distanzstellung zu diesem, aber nicht allein im Vorfeld. Der Bezugsausdruck ist intonatorisch hervorgehoben. Als Bezugsausdrücke können Einheiten unterschiedlicher Komplexität - vom Satz bis zu einzelnen Wörtern - fungieren. Zu den Fokuspartikeln rechnen wir auch die Negationspartikel. (Breindl/ Donalies 2011b) Auch hier werden die Skalarpartikeln als Teil der Fokuspartikeln definiert. Die funktionale Nähe zu den Gradpartikeln wird auf der Plattform dadurch ausgedrückt, dass Gradpartikeln und Skalarpartikeln als „Andere Bezeichnungen und Zuordnungen“ (ebd.) angegeben werden. Im Gegensatz zu den Gradpartikeln werden Intensitätspartikeln in der systematischen Grammatik sehr klar von den Fokuspartikeln differenziert: Als Intensitätspartikeln bezeichnen wir eine Klasse von Partikeln, die die von einem Adjektiv oder Adverb ausgedrückte Charakterisierung intensivierendsteigernd oder abschwächendabstufend modifizieren. […] Intensitätspartikeln haben semantische Ähnlichkeit mit den Fokuspartikeln, haben aber eine andere Distribution als diese: sie stehen unmittelbar vor dem modifizierten Ausdruck, der - im Unterschied zu den Fokuspartikeln - kein Nomen sein kann. (Breindl/ Donalies 2012a) Genau wie die Duden-Grammatik differenziert Grammis 2.0 sehr klar zwischen Fokuspartikeln und Intensitätspartikeln und auch hier wird deutlich, dass sich Gradpartikeln, Intensitätspartikeln und Fokuspartikeln semantisch sehr ähnlich sind. Unter den Beispielen, die sie für Intensitätspartikeln anführen, sind u. a. beileibe, fast, kaum, nahezu (ebd.). Alle diese Partikeln lassen sich jedoch auch als Modifikator einer Nominalphrase verwenden, z. B. „Kaum ein Tier kann sprechen“ oder „Das ist nahezu ein Wunder“. In diesen Fällen haben die Partikeln sowohl eine gradierende, intensivierende als auch den Fokus auf die NP lenkende Funktion. Es geht aus der bisherigen Betrachtung hervor, dass die Duden-Grammatik das gleiche Konzept von Intensitätspartikeln hat wie Grammis 2.0, auch wenn sie diese als Synonyme von Gradpartikeln bezeichnet. Die distributionellen Kriterien, die das Konzept begründen, sind bei beiden die gleichen. Auch die Definition der Intensitätspartikeln in der GDS entspricht diesem Konzept: Sie spezifizieren das mit einem Adjektiv oder Adverb zum Ausdruck Gebrachte vor dem Hintergrund einer mit dem Bezugsausdruck gegebenen Norm, die über- oder unterschritten werden kann. Grob lassen sie sich als „intensivierend-steigernd“ (überaus, ungemein …) bzw. „abschwächend-abstufend“ (einigermaßen, etwas …) charakterisieren. Intensitätspartikeln können - anders <?page no="87"?> Wortarten in der gesprochenen Sprache 87 als die Gradpartikeln - keine Nominalphrase als Bezugsausdruck haben. Sie können nicht allein das Vorfeld besetzen (bilden kein „Satzglied“). Sie können in der Regel nicht selbständig als Antwort auf Fragen fungieren. Sie stehen stets vor dem Ausdruck, auf dem sie operieren. (Zifonun/ Hoffmann/ Strecker 1997, S. 56) Auch Zifonun/ Hoffmann/ Strecker (1997) unterscheiden die Intensitätspartikeln von Gradpartikeln, die sie als Synonym von Fokuspartikeln bezeichnen, auf distributioneller Ebene. Sowohl Hoffmann als auch Engel bezeichnen die Gradpartikel weder als Intensitätspartikel noch als Fokuspartikel. Aus ihren Definitionen der Gradpartikel geht jedoch hervor, dass beide sie sowohl über ihre einstufende, den Grad der Erwartbarkeit ausdrückende Funktion als auch in Hinsicht auf die Relevanz ihres Bezugsbereiches, d. h. Skopus definieren (Hoffmann 2013, S. 385; Engel 2004, S. 437). Weiterhin postulieren sie, dass Gradpartikeln jegliche Phrase modifizieren können, solange sie betonbar ist und nicht im Nachfeld steht, wie folgende Beispiele belegen sollen (der Skopus der jeweiligen Gradpartikeln ist durch die spitzen Klammern dargestellt, der Fokusakzent durch Unterstrich, A. d. V.): (9) Sogar <einen eigenen Elefanten> hat Paul im Zoo von Trelleborg. (10) Paul importiert auch <kleinwüchsige> Elefanten. (11) Schon <heute> steht die Währung auf der Kippe. (12) *Paul hat sogar <es> gekauft. (13) Paul hat sogar <sie/ die> getroffen. [betontes sie und die sind Objektdeixis] (14) Paul hat sogar <darauf> gewettet. (15) Paul hat sogar <gewettet, dass es regnet>. (16) Selbst <schlafend> gewinnt er das Spiel. (17) *Paul ist nach Hause gefahren sogar <gestern>. [Nachfeld] (Hoffmann 2013, S. 386 f.) Es wird deutlich, dass die Literatur sehr uneinheitliche Bezeichnungen für die Konzepte dieser Partikelklassen verwendet. Folgende Tabelle 1 soll die Unterschiede und Gemeinsamkeiten der Konzepte der drei Klassen der Intensitäts-, Fokus- und Gradpartikeln in den verschiedenen Grammatiken noch einmal herausstellen. Man kann zusammenfassen, dass eine Differenzierung dieser drei Partikelklassen, die schlussendlich mutuell exklusiv wäre, nicht möglich ist. Aus der Tabelle 1 geht hervor, dass den Intensitätspartikeln als alleinstellendes Merkmal zugeschrieben wird, dass sie keine Nominalphrasen modifizieren. Allen drei Partikelklassen werden durchgängig die Merkmale zugeschrieben, dass sie Adjektivphrasen, Adverbphrasen etc. modifizieren können, dass sie eine skalierende und gradierende Funktion haben können. Fokus- und Gradparti- <?page no="88"?> Theoretische Grundlagen 88 keln wird zudem eine fokusbildende Funktion zugeschrieben, während darüber in den Definitionen der Intensitätspartikeln keine Aussagen gemacht werden. Den Intensitäts- und Gradpartikeln wird wiederum eine intensivierende oder abschwächende Funktion zugewiesen, die nur die GDS auch den Fokuspartikeln zuweist, indem sie die Begriffe Fokuspartikeln und Gradpartikeln synonym verwendet. properties/ particle name Duden Grammis GDS HSK Engel FP GP IP 27 FP GP IP FP 28 GP IP FP GP 29 IP FP GP IP modifiziert Nominalphrasen + - (+) (+) - + - n/ a n/ a n/ a + n/ a modifiziert Adjektiv-, Verb- und Zahlwortphrasen + + (+) (+) + + + n/ a n/ a n/ a + n/ a skalierende Funktion + + + + n/ a + n/ a + n/ a n/ a + n/ a Fokusbildend + n/ a + + n/ a + n/ a + n/ a n/ a + n/ a intensivierende/ abschwächende Funktion n/ a + n/ a n/ a + + + n/ a + n/ a + n/ a gradierende Funktion (+) 30 + + + n/ a + n/ a n/ a + n/ a + n/ a betonbar n/ a + n/ a n/ a n/ a n/ a n/ a n/ a n/ a n/ a n/ a n/ a Vorfeldfähig n/ a (-) 31 - - - (-) 32 n/ a n/ a n/ a n/ a - n/ a weglassbar ohne Veränderung der Proposition (-) + n/ a n/ a + + n/ a - n/ a n/ a n/ a n/ a FP Fokuspartikeln (+) Kriterium ist implizit genannt GP Gradpartikeln - Kriterium ist explizit verneint IP Intensitätspartikeln (-) Kriterium ist implizit verneint + Kriterium ist explizit genannt Tab. 1: Vergleich Fokus - , Grad - und Intensitätspartikeln 27 In der Duden-Grammatik ist die Bezeichnung Intensitätspartikeln synonym verwendet mit Gradpartikeln. 28 Korrespondieren zu Gradpartikeln. 29 Korrespondieren zu Intensitätspartikeln. 30 Die Duden-Grammatik formuliert vage, dass einige Formen in dieser Klasse eine gradierende Funktion haben. 31 Die Duden-Grammatik formuliert vage, dass die meisten Formen in dieser Klasse im Vor- Vorfeld stehen können. 32 Die GDS beschreibt, dass sie abgesehen von den Formen noch und schon nicht im Vor-Vorfeld stehen können. <?page no="89"?> Wortarten in der gesprochenen Sprache 89 Die Duden-Grammatik und die HSK fügen den Fokuspartikeln als Alleinstellungsmerkmal an, dass sie nicht weglassbar sind, ohne die Proposition der Äußerung zu ändern. Mit Ausnahme der Partikeln noch und schon wird allen drei Partikelklassen die Vorfeldfähigkeit abgesprochen. Es wird deutlich, dass Gradpartikeln semantisch den Intensitätspartikeln sehr ähnlich sind, jedoch auch die distributionellen Eigenschaften der Fokuspartikeln annehmen können. Man kann daraus schlussfolgern, dass es sowohl Gradpartikeln gibt, die auch Intensitätspartikeln sein können, als auch solche, die auch Fokuspartikeln sein können. Intensitäts-, Grad- und Fokuspartikeln sind also auf distributioneller Ebene keine mutuell exklusiven Klassen. Aus diesem Grund machen einige Forscher auch keine Unterscheidung zwischen den Begriffen, sondern definieren alle oben genannten Eigenschaften als die einer Klasse, wie beispielsweise Altmann (2007) im De Gruyter Lexikon „Deutsche Wortarten“. Altmann definiert in seinem Aufsatz zur „Gradpartikel“ diese über ihren fokus- und skopusbindenden Gebrauch sowie über ihre skalierenden Eigenschaften im Sinne der generalisierten konversationellen Implikatur (ebd.). Ihm zufolge „können alle Satzglieder Fokus einer Grap [Gradpartikel, A. d. V.] sein, vorausgesetzt, die jeweilige Füllung der Satzglieder ist akzentfähig und passt semantisch zu der Grap“ (ebd., S. 366). Andersherum jedoch ist diese Klasse von Partikeln nicht Satzgliedfähig: Gradpartikeln haben nicht die Eigenschaften von Satzgliedern (Erfragbarkeit, Ersetzbarkeit durch Pronomina/ Proterme, allein vorfeldfüllend) und auch nicht die von Stellungsgliedern (allein vorfeldfüllend). Sie sind immer einem Ausdruck zugeordnet, der einen Fokusakzent trägt, und zwar stehen sie meist unmittelbar vor diesem Ausdruck. Werden diese Fokusausdrücke umgestellt, so müssen die Gradpartikeln mit umgestellt werden, wenn die Bedeutung erhalten bleiben soll. (ebd., S. 365 f.) Auch der im selben Band enthaltene Artikel über Intensitätspartikeln stellt heraus, dass Intensitätspartikeln nur schwer von Gradpartikeln abgrenzbar sind: Die Bezeichnung Intensitätspartikel erfordert wiederum eine Abgrenzung gegen […] Intensifiers/ Intensifikatoren […] die man, sofern man sie nicht als Klasse sui generis ansieht, am besten zu den Gradpartikeln bzw. Fokuspartikeln rechnet (so auch Altmann in diesem Band). (Breindl 2007, S. 398) Weiterhin stellt Breindl fest: „Syntaktisch müssten Intensitätspartikeln allgemeine Partikeleigenschaften wie Unflektierbarkeit, Nicht-Erfragbarkeit, Nicht-Topikalisierbarkeit, Nicht-Erweiterbarkeit teilen“ (ebd., S. 399). Auf syntaktischer Ebene sind sie demnach nicht von Fokus- und Gradpartikeln unterscheidbar. <?page no="90"?> Theoretische Grundlagen 90 Aus diesen Betrachtungen folgt, dass eine Unterscheidung von Intensitäts-, Grad- und Fokuspartikeln für ein POS-Tagging spontansprachlicher Daten nicht operationalisierbar ist, da sich klare Kriterien für eine Unterscheidung auf distributioneller Ebene schwerlich in der Theorie, keinesfalls jedoch für die Praxis formulieren lassen. 2.4.6.2 Abtönungs - / Modalpartikeln Ähnlich wie bei den Gradpartikeln, Intensitätspartikeln und Fokuspartikeln werden auch Modalpartikeln und Abtönungspartikeln sehr unterschiedlich definiert. Auch hier werden vielfach einem Konzept verschiedene Namen zugeschrieben, einem Namen verschiedene Konzepte und manchmal werden sie auch als Synonyme bezeichnet. Beispielsweise machen die Duden-Grammatik sowie die Internet-Plattform Grammis 2.0 keine Unterscheidung zwischen Modal- und Abtönungspartikeln, sondern verweisen explizit darauf, dass Modalpartikel ein synonymer Begriff der Abtönungspartikeln ist. Schwitalla (2012), Diewald (2006) und Weinrich (2005) sehen in ihrer Klassifikation der Partikeln keine Abtönungspartikeln vor. Allerdings sind ihre Definitionen der Modalpartikeln sehr weit gefasst. Im Gegensatz dazu finden sich in der Klassifikation Burkhardts (1982a und b) keine Modalpartikeln, dafür unterscheidet er bei den Abtönungspartikeln nochmals „zwischen i l l o k u t i o n s a b t ö n e n d e n oder Abtönungspartikeln, die die alte Illokution beibehalten, und i l l o k u t i o n s t r a n s f o r m i e r e n d e n , die sie verändern“ (Burkhardt 1982b, S. 154). Im Gegensatz dazu machen Hentschel/ Weydt (2002) in ihrem Beitrag in den HSK nicht nur eine Unterscheidung zwischen Abtönungs- und Modalpartikeln, sondern unterscheiden diese auch noch von den Situativpartikeln. Listet man die Merkmale auf, nach denen diese zwei Partikelklassen definiert werden, so spielen folgende immer wieder eine Rolle: 1) die Bedeutung der Partikel in ihrer Kontextabhängigkeit, 2) der Ausdruck von Einstellungen, Erwartungen, Annahmen, Bewertungen und Erwartungen der Sprecher*innen und der Adressat*innen, 3) der Einfluss der Partikeln auf die Illokution, 4) der Einfluss der Partikeln auf die Proposition, 5) ob sie als Antwort auf eine Entscheidungsfrage dienen können, 6) ob sie als Konstituente erfragbar sind, 7) ob sie negierbar sind, 8) ob sie im Vorfeld stehen können, 9) ob sie den ganzen Satz modifizieren oder nur eine Konstituente, <?page no="91"?> Wortarten in der gesprochenen Sprache 91 10) ob sie betont werden können oder nicht und 11) ob sie Homonyme in anderen Wortklassen haben. Allein die ersten beiden Merkmale finden sich mit kleineren Abänderungen in den Definitionen sowohl für Abtönungsals auch für Modalpartikeln in allen Grammatiken, Handbüchern und Artikeln wieder. So formuliert die Duden- Grammatik: „Sie drücken sehr differenziert Einstellungen, Annahmen, Bewertungen und Erwartungen des Sprechers bezüglich des geäußerten Sachverhalts, teilweise auch seine Erwartungen an den Hörer aus“ (Duden 2005, S. 591). Die HSK hingegen heben noch die Kontextabhängigkeit hervor: „sie haben die Funktion, die Äußerung im univers du discours zu verankern, Bezüge zu Ko- und Kontext herzustellen und die Einstellung der Sprechenden zum Gesagten zu verdeutlichen“ (Hentschel/ Weydt 2002, S. 647). In der GDS und auf Grammis 2.0 heißt es: „Sie tragen zur Einpassung der kommunikativen Minimaleinheit in den jeweiligen Handlungszusammenhang bei, indem sie auf den Erwartungen und Einstellungen des Sprechers und der Adressaten operieren“ (Zifonun/ Hoffmann/ Strecker 1997, S. 59) bzw. „[s]ie zielen auf Erwartungen und Einstellungen des Sprechers und Hörers und tragen dazu bei, Äußerungen in den jeweiligen Handlungszusammenhang zu integrieren“ (Breindl/ Donalies 2011a). Ähnliche Formulierungen dieser Merkmale verwenden auch Diewald (2006, S. 407), Schwitalla (2012, S. 154 f.), Hoffmann (2013, S. 53), Weinrich (2005, S. 843 f.), Burkhardt (1982b, S. 154) und Engel (2004, S. 423). Eine so hohe Übereinstimmung findet sich jedoch bei den anderen Kriterien weniger. Einige Autor*innen definieren Modal- und Abtönungspartikeln anhand sprechakttheoretischer Kriterien (3) und 4)). Bezüglich dieser Kriterien sind die Definitionen verschiedener Autor*innen jedoch sehr unterschiedlich, teils sogar widersprüchlich. Die Duden-Grammatik bezieht diese Kriterien nicht in ihre Definition mit ein. In den HSK werden Modalpartikeln hingegen sehr deutlich danach definiert, dass sie die Proposition einer Äußerung beeinflussen: Unter dem Begriff „Modalwörter“ […] wird eine formal sehr heterogene Gruppe von Wörtern […] zusammengefasst. Gemeinsam ist ihnen, dass sie die Modalität im Kantischen Sinne, also den Grad der Bestimmtheit kennzeichnen, mit dem gesagt werden kann, dass die Proposition zutrifft. (Hentschel/ Weydt 2002, S. 647) Weiterhin verweisen sie darauf, dass Abtönungspartikeln eine illokutive Funktion zugeschrieben wird (ebd.). Im Gegensatz dazu schreibt die GDS den Modalpartikeln eine illokutive Funktion zu: „Mit den MODALPARTIKELN […] wird eine illokutionstangierende Bewertung […] zum Ausdruck gebracht. Modalpartikeln können zur Markierung einer bestimmten Illokution beitragen.“ (Zifonun/ Hoffmann/ Strecker 1997, S. 58). Indirekt schreiben sie den Modalpartikeln jedoch auch eine Auswirkung auf die Proposition zu, indem sie ihnen die Funktion der „Bewertung oder Einschränkung der Geltung ei- <?page no="92"?> Theoretische Grundlagen 92 nes Sachverhalts als Modifikation des Modus dicendi (darin der Komponente ‚so ist es‘)“ (ebd.) einräumt. In der Definition der Abtönungspartikeln werden sprechakttheoretische Kriterien allerdings nicht berücksichtigt. Diewald (2006) schreibt den Modalpartikeln ebenfalls Auswirkung auf die Proposition sowie auch auf die Illokution zu: „MPs [Modalpartikeln, a. d. V.] […] apply to propositions and speech-act alternatives, which is to say that they have propositional or speech-act scope“ (ebd., S. 407). Wie bereits erwähnt, sieht sie, wie auch Schwitalla, in ihrer Klassifikation keine Abtönungspartikeln vor. Auch Schwitalla (2012) beschreibt die Modalpartikeln als illokutionsmodifizierend: „Sie dienen der Hervorhebung, der Verstärkung und Abschwächung von Sprechakten (z. B. von Aufforderungen)“ (ebd., S. 154). Eine Auswirkung auf die Proposition jedoch schreibt er ihnen nicht zu. Ebenso definieren Breindl/ Donalies auf der Internetplattform Grammis 2.0 Abtönungsbzw. Modalpartikeln, die sie als Synonyme erachten: Abtönungspartikeln sind satzmodussensitiv, d. h. es bestehen Bindungen zwischen einzelnen Abtönungspartikeln und bestimmten Satzmodustypen, etwa dem Aussagesatz, dem Fragesatz und dem Aufforderungssatz. (Breindl/ Donalies 2011a) Auch hieraus kann man interpretieren, dass sie den Partikeln Auswirkungen auf die Illokution zuschreiben, nicht aber auf die Proposition. Ganz im Gegensatz dazu wiederum definiert Hoffmann (2013) in seiner Deutschen Grammatik die Auswirkung der Modalpartikeln auf die Proposition als zentrales Kriterium: „Die MODALPARTIKEL schränkt die Geltung des Gesagten ein und kann explizit wertend gebraucht werden“ (ebd., S. 53) und es geht „um die faktische Geltung von Sachverhalten“ (ebd., S. 398). Das Kriterium der Illokutionsmodifizierung ist jedoch nicht aufgeführt, weder bei seiner Definition der Modalnoch bei der der Abtönungspartikeln. Ebenso bezieht Weinrich (2005) das Kriterium der Funktion der Modalpartikel in Bezug auf die epistemische Geltung, also auf die Proposition, in seine Definition mit ein: „Durch Modalpartikeln gibt der Sprecher seinem Hörer insbesondere zu verstehen, wie die Geltung einer Feststellung ‚modalisier‘ […] werden kann“ (ebd., S. 841). Auch sieht er in seiner Klassifikation keine Abtönungspartikeln vor und bei ihm ist ebenfalls das Kriterium der Illokutionsmodifizierung in der Definition nicht vorhanden. Engel wiederum sieht in seiner Klassifikation sowohl Modalals auch Abtönungspartikeln vor, allerdings rechnet er die Abtönungspartikeln zu einer weiteren Klasse, den Abtönungsangaben. Diese definiert er jedoch u. a. über das Kriterium der Illokutionsmodifikation: Die ABTÖNUNGSANGABEN wirken sich mit wenigen Ausnahmen auf die Illokution der Äußerung aus, verstärken sie, schwächen sie ab oder modifizieren sie in anderer Weise: Sie drücken die Einstellung des Sprechers aus oder unterstellen dem Partner eine bestimmte Einstellung. Es handelt sich um gut zwei Dutzend Partikeln, die weder erfragbar noch negierbar sind und nicht ins Vor- <?page no="93"?> Wortarten in der gesprochenen Sprache 93 feld versetzt werden können. Die meisten Abtönungsangaben sind auch nicht betonbar. Ausdrucksformen sind ausschließlich Partikeln. (Engel 2004, S. 128) Das Kriterium der Auswirkung der Partikeln auf die Proposition führt er weder bei den Modal-, den Abtönungspartikeln noch bei den Abtönungsangaben an. Ganz ähnlich bezieht auch Burkhard das Kriterium der Auswirkung der Partikeln auf die Illokution bei der Definition der Abtönungspartikeln mit ein. Er differenziert sogar genauer: Die semantisch-pragmatische Funktion der Abtönungspartikeln lässt sich insgesamt demnach wie folgt umschreiben: Abtönungspartikeln rekurrieren und referieren auf die (pragmatische) Präsuppositionsstruktur der Redesituation und tönen die Illokution eines Sprechakts, den sie eben dadurch auch mit indizieren (neben Wortstellung, Intonation etc.), auf diese Weise ab. Indem sie auf Vorannahmen des Sprechers und des Hörers hinweisen, geben sie oft auch die Einstellung des Sprechers zum Gesagten kund und haben konversationelle und interaktionsstrategische Bedeutung. […] Während also im Falle der eigentlichen Abtönungspartikeln ein möglicher Interessenkonflikt, eine Erwartungsdivergenz von Sprecher und Hörer nur unbestimmt angedeutet und damit möglichen Einwänden von vornherein begegnet und der Wind aus den Segeln genommen wird, wodurch dann die ursprüngliche Illokution zwar beibehalten, aber abgetönt wird, liegt im Falle der letzteren Gruppe von Partikeln eine lllokutionsveränderung vor: aus Befehlen oder Aussagen werden Drohungen, Forderungen oder Erlaubnisse. Man muß demnach zwischen i l l o k u t i o n s a b t ö n e n d e n oder Abtönungspartikeln, die die alte Illokution beibehalten, und i l l o k u t i o n s t r a n s f o r m i e r e n d e n , die sie verändern, unterscheiden. (Burkhardt 1982b, S. 154) Kriterium 5), die Möglichkeit der Partikel als Antwort auf eine Entscheidungsfrage zu fungieren, ist ebenfalls sehr uneinheitlich in den Definitionen aufgenommen. Das Kriterium findet nur bei einigen Autor*innen Eingang in die Definition von Modalpartikeln, niemals wird es den Abtönungspartikeln zugeschrieben. Beispielsweise heißt es in der GDS in der Definition der Modalpartikeln: „Sie können in der Funktion eines Responsivs als Antwort auf Entscheidungsfragen fungieren oder mit einem Responsiv kombiniert werden (bedauerlicherweise nein)“ (Zifonun/ Hoffmann/ Strecker 1997, S. 58). Hierbei ist jedoch zu hinterfragen, ob es sich bei dem Modifikator „bedauerlicherweise“ wirklich um eine Modalpartikel handelt und nicht viel mehr um eine klassische adverbiale Bestimmung der Art und Weise und somit um ein Adverb. Hentschel/ Weydt (2002) stellen in den HSK schlicht fest: „Sie können Antworten auf Ja-Nein-Fragen bilden“ (ebd., S. 647). Auch hier ist das Beispiel, das sie an dieser Stelle anführen - „Kommt Maja auch? - Vielleicht.“ (ebd.) - diskutierbar, d. h. ob es sich bei dem „vielleicht“ tatsächlich um eine Modalpartikel handelt. Hoffmann (2013, S. 398) und Engel (2004, S. 423) beziehen dieses Kriterium in ihre Definition der Modalpartikeln ebenso mit ein. Dem widersprechend formuliert Weinrich (2005) in seiner Definition der Mo- <?page no="94"?> Theoretische Grundlagen 94 dalpartikeln: „Im Unterschied zu den Dialogpartikeln können sie nicht als Antwort auf eine Frage gebraucht werden“ (ebd., S. 841). Auch bei der Analyse der Definitionen auf dieses Kriterium hin zeigt sich, dass die Definitionen dessen, was man als Modalpartikel versteht, sehr unterschiedlich sind und sich sogar widersprechen. Etwas mehr Einigkeit herrscht in Bezug auf die Aussage, dass Modal- und Abtönungspartikeln keine Konstituenten bilden können, d. h. sie weder durch eine W-Frage erfragbar noch negierbar (7) sind. Nicht jede Definition expliziert diese Kriterien. Beispielsweise finden sie bei der Definition der Duden-Grammatik keine Erwähnung. Bei denen, die sie explizieren, ist jedoch verwunderlich, dass sie diese teilweise der Modalpartikel zuschreiben, nicht aber der Abtönungspartikel oder andersherum. Eine Ausnahme bildet die Internetplattform Grammis 2.0, für die Abtönungs- und Modalpartikeln ein und dasselbe sind. So werden in den HSK diese Kriterien in der Definition der Modalpartikel aufgenommen, und auch in der Klasse der Situativpartikeln, nicht aber in der Definition der Abtönungspartikeln. In der GDS ist es genau andersherum. Dort heißt es: „Abtönungspartikeln können nicht Bezugsausdruck einer Negationspartikel sein, können nicht erfragt und nicht koordiniert werden“ (Zifonun/ Hoffmann/ Strecker 1997, S. 59). In der Definition der Modalpartikeln jedoch werden diese Kriterien nicht erwähnt. Es kann jedoch nicht davon ausgegangen werden, dass implizit ausgedrückt werden soll, dass die jeweils andere Klasse von Partikeln erfragbar oder negierbar sei. Explizit wird dies bei keiner/ keinem der bereits genannten Autor*innen ausgedrückt. Ein Kriterium, bei dem die Autor*innen wiederum teilweise sich widersprechende Definitionen bieten, betrifft die Frage, ob Modalpartikeln vorfeldfähig seien. Teilweise widersprüchlich daher, weil nur Engel (2004) ihnen das Kriterium der Vorfeldfähigkeit zuschreibt: „Modalpartikeln sind unveränderliche Wörter, die im Vorfeld des Konstativsatzes stehen können und als Antwort auf Ja-/ Nein-Fragen verwendbar sind“ (ebd., S. 423). Im Gegensatz dazu definiert beispielsweise Schwitalla (2012): Unter „Modalpartikeln“ versteht man Partikeln, die normalerweise unbetont sind, nicht im Vorfeld stehen können, nicht mit jedem Satztyp kombinierbar sind und deren allgemeine Funktion es ist, eine Einstellung des Sprechers auszudrücken. (ebd., S. 154) Ähnlich drücken es auch Diewald (2006, S. 408) und Weinrich (2005, S. 841) aus. Die Duden-Grammatik (2005, S. 591), Grammis 2.0 (Breindl/ Donalies 2011a), die HSK (Hentschel/ Weydt 2002, S. 647), die GDS (Zifonun/ Hoffmann/ Strecker 1997, S. 59), Hoffmann (2013, S. 402) und auch Engel (2004, S. 442) explizieren in ihren Definitionen der Abtönungspartikeln, dass diese nicht im Vorfeld stehen können, wobei die Erstgenannten, wie bereits erwähnt, Abtönungs- und Modalpartikeln als Synonyme verstehen. In Bezug auf Abtö- <?page no="95"?> Wortarten in der gesprochenen Sprache 95 nungspartikeln sind sich demnach die Autor*innen über das Kriterium der Vorfeldunfähigkeit einig. „Abtönungspartikeln beziehen sich auf den gesamten Satz“ (Duden 2005, S. 591). Dieses Kriterium (9) expliziert allein die Duden-Grammatik. Allerdings kann man annehmen, dass es implizit auch durch oben genannte Kriterien der Auswirkung auf den Sprechakt enthalten ist. Vergleicht man das Kriterium der Betonbarkeit von Modal- und Abtönungspartikeln (10) zeigt sich, dass viele darauf verweisen, dass Abtönungspartikeln generell nicht betont werden, abgesehen von Ausnahmen wie ja, bloß, doch und schon (ebd.; Breindl/ Donalies 2011a; Zifonun/ Hoffmann/ Strecker 1997, S. 59; Hentschel/ Weydt 2002, S. 647). Dieser Aufzählung müsste man sicher noch die Partikel wohl hinzufügen. Schwitalla (2012) schreibt diese Eigenschaft auch den Modalpartikeln zu (ebd., S. 154). Ein weiteres Merkmal, das einige Autor*innen sowohl Modalals auch Abtönungspartikeln zuordnen, ist die Aussage, dass sie auch Homonyme in anderen Wortklassen haben. Die HSK (Hentschel/ Weydt 2002, S. 647), Diewald (2006, S. 408), Grammis 2.0 (Breindl/ Donalies 2011a) und Hoffmann (2013, S. 402) verweisen darauf explizit. Da dieses Merkmal jedoch nicht dazu beitragen kann, die Abtönungs- und Modalpartikeln von anderen Wortarten abzugrenzen, soll es hier nicht weiter verfolgt werden. Man kann aus diesen Analysen herauslesen, dass Modalpartikeln und Abtönungspartikeln in der Literatur sehr uneinheitlich definiert werden, wie folgende Tabelle 2 noch einmal vergleichend darstellen soll. Möchte man die unstrittigen Kriterien zusammenfassen, kommt man zu folgenden Ergebnissen: − diese Partikeln drücken Einstellungen, Erwartungen, Annahmen, Bewertungen und Erwartungen der Sprecher*innen und der Adressat*innen aus, − die Distribution betreffend sind sich die Autor*innen zumindest einig, dass Abtönungspartikeln nicht im Vorfeld stehen können, − Modal- und Abtönungspartikeln bilden keine Konstituenten, − bis auf wenige Ausnahmen sind diese Partikeln nicht betonbar − und sie haben Homonyme in anderen Wortklassen. Letzterer Punkt macht es schwer, sie von anderen Wortklassen beim Tagging zu unterscheiden. Es ist also notwendig bei einer Subklassifizierung der Partikeln klare Kriterien zu definieren, die sie vor allem von ihren Homonymen unterscheidbar machen. Weiterhin wird deutlich, dass man Abtönungspartikeln nicht von Modalpartikeln wird unterscheiden können, da nach obiger Analyse klare Kriterien für eine Subklassifizierung nicht auszumachen sind. <?page no="96"?> Theoretische Grundlagen 96 Grammatik/ Kriterien Duden HSK GDS Diewald Schwitalla Grammis Hoffmann Weinrich Engel Burkhardt MP+AP MP AP MP AP MP AP MP AP MP+AP MP AP MP AP MP AP MP AP Ausdruck von Sprecher*innenhaltung + + + + n/ a + n/ a + + + + n/ a + n/ a + verändern die Illokution (+) + + + + + + verändern die Proposition + + + + + Antwort auf ja/ nein-Fragen + + + - + - haben Konstituenten-Wert - - - - (-) - können negiert werden - - - - können im Vorfeld stehen - - - - - - - - + - immer unbetont + + + + + MP Modalpartikeln AP Abtönungspartikeln +/ (+)/ -/ (-) siehe Tabelle 1 „Vergleich Fokus-, Grad- und Intensitätspartikeln“ Tab. 2: Vergleich Modal - und Abtönungspartikeln <?page no="97"?> Wortarten in der gesprochenen Sprache 97 2.4.6.3 Negationspartikeln Wie bereits zitiert, zählt laut der Systematischen Grammatik auf der Plattform Grammis 2.0 die Negationspartikel zu den Fokuspartikeln (Breindl/ Donalies 2011b). Jedoch räumen die Autor*innen ein: „Sie verändern aber im Unterschied zu diesen [den Fokuspartikeln, A. d. V.] immer den Wahrheitswert des von ihnen betroffenen Satzes“ (Breindl/ Donalies 2012b). Die GDS zählt die Negationspartikel zwar nicht zu den Fokuspartikeln (dort als Gradpartikeln bezeichnet), verweist jedoch auf die Ähnlichkeit der Eigenschaften. Auch sie verweist auf die „charakteristische Implikation“ der Negationspartikel, den Wahrheitsgehalt zu verändern, „denn die Negation wirkt (als ‚monadischer Funktor‘) stets auf die Proposition. Sie hat den ganzen Satz im Skopus“ (Zifonun/ Hoffmann/ Strecker 1997, S. 57). Allgemein ist zu beachten, dass dies nicht auf Fälle der metalinguistischen Negation zutreffen kann, wie das Beispiel Das ist nicht gut, das ist super! verdeutlicht. Dem tragen Hentschel/ Weydt (2002) in den HSK Rechnung, indem sie zwischen propositionaler Negation und nicht-propositionaler Negation differenzieren. In nicht-propositionaler Verwendung ist sie „immer unbetont und fusioniert im Unterschied zum ‚normalen‘ Negator nicht mit indefiniten Elementen im Satz“ (ebd., S. 649). Ein Beispiel für die nicht-propositionale Verwendung sind Sätze wie: Ist das nicht toll? im Gegensatz zur propositionalen Verwendung in Sätzen wie: Das ist nicht schön. Das Wort nicht verändert demnach nicht immer den Wahrheitswert der Aussage. Die Duden-Grammatik drückt sich etwas vorsichtiger aus: „Die Negationspartikel nicht negiert meist den ganzen Satz. […] Anders als bei vielen anderen Partikelarten ändert sich der Wahrheitswert der Aussage, wenn man die Negationspartikel weglässt“ (Duden 2005, S. 590). Schließlich beschreibt Hoffmann noch den Aspekt der Gewichtung als Funktion der Negationspartikel als Merkmal: Die NEGATIONSPARTIKEL […] nicht dient der Verneinung eines Sachverhalts und interagiert mit der Gewichtung (zum Zweck des Bestreitens, Korrigierens, Reparierens etc.): nicht <dieses> Buch, sondern <jenes>. (Hoffmann 2013, S. 52) Diese Übersicht über die Definitionen der Negationspartikel einschlägiger Grammatiken macht deutlich, dass die Einordnung und Definition dieser nur aus einem Wort bestehenden Partikelklasse sehr verschieden ist. Ihnen allen gemeinsam ist, dass sie nur das Wort nicht zu der Klasse der Negationspartikel zählen. Eine Subklassifizierung der Negationspartikel unter die Fokuspartikel, wie es Grammis 2.0 vorschlägt, scheint wenig sinnvoll für eine Abbildung in POS-Tags. Sie mag zwar einige Eigenschaften mit der Klasse der Fokuspartikeln teilen, jedoch hat sie durch ihre spezielle Eigenschaft des Einflusses auf die Proposition einen eigenen Status und sollte in einem Korpus als eigene Klasse abgefragt werden können. <?page no="98"?> Theoretische Grundlagen 98 2.4.6.4 Konnektivpartikeln, Rangierpartikeln und Konjunktionaladverbien Der systematischen Grammatik der Internetplattform Grammis 2.0 ist zu entnehmen, dass Konnektivpartikeln, wie beispielsweise allerdings oder deshalb, als Synonyme von Rangierpartikeln und Konjunktionaladverbien verstanden werden (Breindl/ Donalies 2010). Diese Begriffe werden auch in der Deutschen Grammatik Engels bzw. in der Duden-Grammatik verwendet. Jedoch sind dort die unter diesen Begriffen definierten Konzepte verschieden zu dem, was in der GDS, in Hoffmanns „Deutsche Grammatik“ und auf der Internetplattform Grammis 2.0 als Konnektivpartikeln definiert wird. Diese drei Grammatiken machen die Konnektivpartikeln grundsätzlich an drei Kriterien fest. 1) Die Funktion der Konnektivpartikel sei die inhaltliche Relationierung zweier Sachverhalte (Zifonun/ Hoffmann/ Strecker 1997, S. 59 f.; Breindl/ Donalies 2010; Hoffmann 2013, S. 419). 2) Das die Relation herstellende Element beziehe sich auf den vorhergehenden Satz, sei also „in den zweiten Satz integriert“ (Breindl/ Donalies 2010). 3) Es gebe zwei Möglichkeiten der Stellung der Konnektivpartikel: im Vorfeld und im Mittelfeld des Satzes (Zifonun/ Hoffmann/ Strecker 1997, S. 59 f.; Breindl/ Donalies 2010; Hoffmann 2013, S. 419). Die Duden-Grammatik stimmt in ihrer Definition der Konjunktionaladverbien weitgehend mit dem ersten und dritten Punkt überein: Konjunktionaladverbien entsprechen auf der funktionalen Ebene den Konjunktionen bzw. Subjunktionen (Junktionen), verhalten sich aber wie Adverbien. Ähnlich wie Junktionen verbinden sie Sätze inhaltlich miteinander. Sie stehen dabei jedoch nicht wie die Junktionen vor dem Vorfeld. Sie bewirken auch nicht (wie die Subjunktionen) die Letztstellung des finiten Verbs. Konjunktionaladverbien können das Vorfeld besetzen oder in den Satz integriert sein. (Duden 2005, S. 590) Weiterhin unterteilt die Duden-Grammatik die Konjunktionaladverbien in semantische Gruppen: kopulativ, lokal, temporal, kausal, konditional und konsekutiv, konzessiv, spezifizierend: restriktiv/ explikativ und adversativ (ebd., S. 591 f.). Im Eintrag der systematischen Grammatik auf Grammis 2.0 zu den Konnektivpartikeln unterscheiden Breindl/ Donalies jedoch nur zwischen den auch in der Duden-Grammatik genannten Funktionen konzessiv, adversativ und temporal (Hirschmann 2011). Wobei im Übersichtsartikel auf der Plattform diesen ein zum Beispiel vorangestellt ist, was weitere Kategorien offenlässt (Breindl/ Donalies 2010). Hoffmann (2013) unterscheidet in seiner Deutschen Grammatik andere, wenn auch ähnliche, Kategorien: „Sie können eine gliedernde (erstens), konzedierende (gleichwohl), kontrastierende (aller- <?page no="99"?> Wortarten in der gesprochenen Sprache 99 dings) oder substituierende (stattdessen) Relationierung leisten“ (ebd., S. 419). Ebendiese Unterscheidung macht auch die GDS, deutet jedoch durch ein usw. an, dass diese Klassifizierung erweiterbar ist (Zifonun/ Hoffmann/ Strecker 1997, S. 59). Sowohl die GDS als auch der Eintrag auf Grammis 2.0 verweisen darauf, dass ihr Konzept der Konnektivpartikeln der von Engel (2004) so benannten Rangierpartikel entspricht. Untersucht man aber Engels Definition der Rangierpartikel, so wird deutlich, dass eine Übereinstimmung nur bezüglich des oben genannten Punktes drei, genauer der Stellung der Partikel im Satz, erkennbar ist - sie sei „leicht verschiebbar“. Auf der Bedeutungsebene jedoch schreibt er den Rangierpartikeln eher die Funktion der Modalpartikeln zu: Rangierpartikeln sind unveränderliche Wörter, die im Vorfeld des Konstativsatzes stehen können, aber nicht als Antworten auf irgendwelche Fragen verwendbar sind. Auch die Rangierpartikeln sind existimatorischer Natur. Sie tragen also nichts zur Beschreibung des Sachverhaltes bei, sondern enthalten ein Urteil des Sprechers über den Sachverhalt. Rangierpartikeln sind (wie auch ihr Name andeutet) leicht verschiebbar. (ebd., S. 425) Diese Definition lässt die Frage aufkommen, ob hier nicht eher Einstellungsadverbien beschrieben werden, zumal ja explizit auf ihre existimatorische Natur, also der Ausdruck einer Einschätzung, verwiesen wird. Auch die Beispiele, die er aufführt („Du könntest beispielsweise den Wagen waschen“, ebd., S. 426), machen deutlich, dass er den Rangierpartikeln keine Konnektiv- Funktion, d. h. keine inhaltliche Relationierung, beimisst (ebd.) und diese eher als Adverbien beschrieben werden müssten. Aus dieser Gegenüberstellung wird deutlich, dass die Konzepte dessen, was als Konnektivpartikel, Rangierpartikel und Konjunktionaladverb bezeichnet wird, keinesfalls als klar definiert bezeichnet werden können. Wie von der Duden-Grammatik betont, sind die Konnektivpartikeln oder auch Konjunktionaladverbien ihrer Stellung im Satz nach den Adverbien ähnlich, stehen allerdings semantisch den Junktionen näher. Zumal Letzteres in Hinsicht auf die diskutierten Beispiele ebenfalls fraglich erscheint. Daher muss an dieser Stelle zunächst die grundlegende Frage gestellt werden, ob die besprochenen Phänomene den Partikeln oder den Adverbien zugehörig sind, d. h. ob es bestimmte Kriterien gibt, nach denen man ihre Zugehörigkeit zu der einen oder anderen Klasse bestimmen kann. Hirschmann (2015) beschäftigt sich in seiner Dissertation mit der Klassifikation von Modifikatoren im Deutschen. Er kommt darin zu dem Schluss, dass das einzige klare Kriterium zur Unterscheidung von Partikeln und Adverbien die Isolierbarkeit der Adverbien ist, d. h. die Verschiebbarkeit ins Vorfeld: <?page no="100"?> Theoretische Grundlagen 100 Erst in der prädikativen Struktur zeigt sich, dass die in der DP [Determiner- Phrase, A. d. V.] gleich aussehenden Strukturen unterschiedliche sind: Die Adverbien lassen sich hier syntaktisch isolieren, die Partikeln nicht. (ebd., S. 69) Diese Abgrenzung stimmt auch mit Helbig/ Buschas (2011) Definition von Partikeln überein, der deren syntaktische Merkmale folgendermaßen beschreibt: Unter syntaktischem Aspekt sind die Partikeln keine Satzglieder, folglich nicht allein, sondern nur zusammen mit ihrem Bezugswort im Satz verschiebbar und auch nicht als selbständige Antwort auf eine Satz- oder Satzgliedfrage verwendbar. Im Unterschied zu den Adverbialbestimmungen sind sie nicht fähig, die erste Stelle im Satz (vor dem finiten Verb) allein auszufüllen. (ebd., S. 476) Folgt man dieser Analyse, so handelt es sich bei dem hier diskutierten Phänomen also eher um Adverbien denn um Partikeln, weshalb die Bezeichnung Konnektivpartikel irreführend ist. Dies gilt wohl auch unter morphologischen Gesichtspunkten, da die meisten Wörter dieser Klasse deriviert sind. Die Konsequenz dieser Analyse ist, dass erwogen werden muss, dass das, was unter dem Konzept der Konnektivpartikeln bzw. Rangierpartikeln verstanden wird, in einer Neuklassifikation des STTS nicht als Partikel klassifiziert wird. 2.4.7 Satz unabhängige Partikeln Nachdem nun eine Gegenüberstellung und Analyse der Definitionen all jener Wortarten vorgenommen wurde, die in den Bereich der Partikeln im engeren Sinn einzuordnen sind, werden nun jene Phänomene untersucht, die nicht zum kompositionalen Aufbau eines Satzes beitragen, d. h. syntaktisch nicht in den Satz integriert sind. Vielmehr fungieren solche Wörter auf der pragmatischen Ebene der Sprache und werden daher auf Grammis 2.0 als „funktionale Klasse quer zu den Wortarten“ bezeichnet: „Die interaktiven Einheiten wiederum […] gehören gar keiner Wortart im herkömmlichen Sinne an. Sie sind selbstständige Einheiten der Interaktion und fungieren als gesprächssteuernde Elemente“ (Breindl/ Donalies 2011c). Wie bereits erwähnt, werden sie auf Grammis 2.0 und in der GDS als interaktive Einheiten bezeichnet. Hier werden sie jedoch, um den Fokus auf die Selbstständigkeit dieser Elemente zu legen, als Satz-unabhängige Einheiten bezeichnet. Wenn sie auch keine Wortarten im herkömmlichen Sinne sind, so ist ihre Klassifizierung und Benennung und somit auch die Vergabe von Tag-Labels in einer Analyse der gesprochenen Sprache dennoch notwendig. Ebenso ist es notwendig, sie formbezogen und grammatisch zu definieren, da sie sich sonst nicht von jeglicher Art von Turn Construction Units (TCUs) oder gar Turns unterscheiden lassen. Eine Untersuchung dessen, wie solche Satz-unabhängigen Einheiten <?page no="101"?> Wortarten in der gesprochenen Sprache 101 in der einschlägigen Literatur definiert und klassifiziert werden, bzw. welche anders benannten Konzepte in diese Klasse von Wörtern einzuordnen sind, wird nachfolgend dargelegt. Die Begriffe, die für diese Klasse verwendet werden, sind sehr unterschiedlich. Die Duden-Grammatik (2005) beispielsweise nennt sie Gesprächspartikeln (ebd., S. 594), Engel (2004) nennt sie Satzäquivalente (ebd., S. 439), Weinrich (2005) Sprechersignale (ebd., S. 832-835), und Schwitalla (2012) nennt sie Gesprächspartikeln im engen Sinne (ebd., S. 157). Wie im Folgenden expliziert wird, fallen alle Konzepte darunter, die gemeinhin als Interjektionen, Responsive, Sprecher- oder Hörersignale, Aktionswörter, Onomatopoetika und gefüllte Pausen bezeichnet werden. Einen Eindruck, was alles in den Bereich dieser Klasse von Wörtern fällt, erhält man in Schwitallas „Gesprochenes Deutsch“, wo Gesprächspartikeln im engen Sinne folgendermaßen definiert sind: Sie dienen der Kontaktherstellung (hallo, he, kst); Sicherung der Aufmerksamkeit (attention getter: hör mal; schau mal; Kraft 1999; Strecker 2002, 566); Einleitung der Gesprächsbeendigung (am Telefon: gut, okay mit entsprechenden Partikeln der Zustimmung); Gliederung von thematischen und interaktiven Gesprächsteilen (Gliederungssignale: gut, so, ansonsten, naja, jedenfalls, oft mit Tonsprung); Sicherung der Sprecherrolle: gefüllte Pause (äh, m; vgl. 6.2.3); Markierung eines plötzlichen Einfalls (ach/ ah SO); Korrektursignale (oder, äh); Hörersteuerung und Segmentierung: Rückversicherungssignale (ne? , nich? , gell? ); Rezeptionssignale, z. B. na JA? = Zweifel, Widerstreben; na GUT. = Zustimmen, Nachgeben; ja JA? = Irrelevanz; tja = Ratlosigkeit, Unabänderlichkeit; ach SO = plötzliches Verstehen und viele andere. (Schwitalla 2012, S. 157) Es wird deutlich, dass er sich auf die pragmatische Funktion der Elemente, d. h. auf die Funktion für das Gespräch fokussiert. All diese Elemente sind weder intern syntaktisch strukturiert noch in eine syntaktische Struktur eingebunden, im Sinne von Rektionsverhältnissen. Er beschreibt, dass diese Elemente, abhängig von ihrer Intonation, verschiedene Funktionen der Mitteilung im Gespräch haben. Da einerseits Intonation im Korpus nicht annotiert wird und andererseits solche Bedeutungszuschreibungen, wie er sie vornimmt, stark interpretativ sind, scheint diese Klassifikation wenig hilfreich für ein verlässliches, mutuell exklusives Kategoriensystem für ein POS-Tagging. Einen der ersten Ansätze, diese Elemente zu klassifizieren, postulierte Burkhardt (1982b): Nimmt man diejenigen Partikeln, die Illokutionen selber vollziehen hinzu, wie z. B. „Satzwörter“ wie ja (Bejahung, Zustimmung), nee (Verneinung, Ablehnung) oder doch! (Widerspruch), Grußwörter wie hallo, tschüß, na, früher als Interjektionen bestimmte Wörter wie ach (Bedauern), oh (Erstaunen, Bedauern), aha (Informativitätsbestätigung, Erstaunen), wehe (Drohung, Warnung), pst (Stillegebot) oder sog. „Adverbien“ wie bitte und danke, so zeigt sich, daß man <?page no="102"?> Theoretische Grundlagen 102 hier eine neue Funktionsklasse ansetzen müßte. Im Hinblick auf die lexikographische Praxis erscheint hier der Terminus Sprechhandlungspartikeln als relativ benutzerfreundlich. (ebd., S. 154 f.) Er unterscheidet also zwischen illokutionsvollziehenden und illokutionstransformierenden Partikeln. Es wird deutlich, dass die illokutionsvollziehenden Partikeln dem Konzept der Satz-unabhängigen Einheiten entsprechen, wie es oben definiert wurde. Er nähert sich diesen durch die Pragmatik des konversationellen Gebrauchs geprägten Elementen auf einer sprechakttheoretischen Ebene. So hilfreich diese Theorie auf der einen Seite zur Beschreibung der Funktion von Elementen in der Konversation sein kann, so anfechtbar ist jedoch die Klassifikation, die von Austin, Searle und anderen zur Kategorisierung von Sprechakten vorgenommen wurde (vgl. Staffeldt/ Hagemann 2014). Eine Subklassifikation der Sprechhandlungspartikeln, bzw. Satz-unabhängigen Einheiten anhand ihrer illokutionären Rolle im Gespräch, wie Burkhardt sie vornimmt, ist daher leicht anfechtbar und impraktikabel. Zudem würde es einen Bruch mit der inhärenten Logik eines POS-Taggings darstellen, die primär kategorialgrammatisch und distributionell begründet ist, aber nicht handlungsfunktional im Sinne der Sprechakttheorie. Weiterhin wäre erstens die Klassifikation stark von der Interpretation der Annotator*innen abhängig und sie wäre zweitens weder exhaustiv noch mutuell exklusiv, da eine Äußerung durchaus mehrere Illokutionen beinhalten kann und drittens, wie an der Kritik der bisherigen Klassifikationen möglicher Sprechakte deutlich wurde, die bisherigen Kategorien einerseits sprach- und kulturabhängig sind und andererseits ständig erweiterbar. Nichtsdestoweniger ist Burkhardts Definition dennoch hilfreich, da sie durch die Terminologie des Illokutionsvollzugs auf das Kriterium der Unabhängigkeit von Sätzen und anderen Elementen hinweist. Er macht deutlich, dass all solche Elemente innerhalb einer neuen Klasse oder Kategorie beschrieben werden müssen. Auch auf Grammis 2.0 und in der GDS wird die Notwendigkeit der Kategorisierung dieser Elemente in eine eigene Klasse herausgestellt: Die interaktiven Einheiten wiederum, z. B. Interjektionen wie äh, hm, huch und Responsive wie ja, nein, gehören gar keiner Wortart im herkömmlichen Sinne an. Sie sind selbstständige Einheiten der Interaktion und fungieren als gesprächssteuernde Elemente. (Breindl/ Donalies 2011c) Sie subklassifizieren die interaktiven Einheiten in Interjektionen und Responsive und ordnen sie, neben Konnektoren, Interrogativ-Elementen und Relativ-Elementen, den ‚funktionalen Klassen quer zu den Wortarten‘ zu. Diese sind „rein nach ihrer Funktion zusammengefassten Klassen, […] durch funktionale Kriterien unterschiedlicher Art begründet, die allerdings nicht die An- <?page no="103"?> Wortarten in der gesprochenen Sprache 103 nahme einer syntaktischen Funktion rechtfertigen“ (ebd.). Diese Kategorisierung erscheint durchaus problematisch - umso mehr, als sie ihrer eigenen Definition von „Wortarten“ widerspricht: Die in der syntaktischen Struktur hierarchieniedrigsten, terminalen Einheiten sind die Wörter. Relevant für die hier vorgenommene Beschreibung werden sie als syntaktische Wörter, als spezifische grammatische Ausprägungen eines Wortes in einer ganz bestimmten, flexivisch markierten Wortform […] Wörter in diesem Sinne, also Lexeme oder lexikalische Einheiten, können hinsichtlich verschiedener Kriterien kategorisiert werden: nach ihren morphologischen, syntaktischen, ontologisch-semantischen oder semantisch-funktionalen Merkmalen. (ebd.) Aus der dort folgenden Übersicht geht hervor, dass sie u. a. Konjunktionen sehr wohl zu den Wortarten zählen, wie auch, dass sie Wortarten nach ihrer syntaktischen Funktion für den Satz kategorisieren. Interjektionen und Responsive sind jedoch schwerlich in dieses Konzept zu integrieren, da sie außerhalb der Syntax-Hierarchie stehen und nicht als „terminale Einheiten“ den Aufbau eines Satzes ausmachen. Klassischerweise beruht die Wortartenklassifikation zwar nicht auf Satzfunktionen (wie beispielsweise Subjekt, Prädikat oder Objekt), jedoch gerade bei den funktionalen Wörtern (im Gegensatz zu lexikalischen) auf ihrer Funktion für den Aufbau des Satzes, wie z. B. Konjunktionen oder Determiner. Dies spiegelt sich auch in einem Wortartentagging wider. Es muss nun also geklärt werden, nach welchen Kriterien Wörter klassifiziert werden, die außerhalb der syntaktischen Hierarchie stehen, da sie ohne Frage Teil des Sprachgebrauchs sind und ihnen ein Wortartentag zugewiesen werden kann. Die Selbstständigkeit dieser Elemente nimmt auch Engel (2004) in seiner Definition auf, indem er hervorhebt, dass sie - äquivalent zu einem Satz - vollständige Äußerungen bilden können: „Satzäquivalente sind unveränderliche Wörter, die für sich allein eine Äußerung bilden können und mit satzförmigen Äußerungen kommutieren“ (ebd., S. 439). Der Begriff scheint problematisch, da er davon ausgeht, dass eine kommunikativ vollständige sprachliche Einheit eigentlich immer ein Satz sein müsse, bzw. als solcher paraphrasierbar sei. Zu der Diskussion des Satzkonzeptes für die gesprochene Sprache siehe das Kapitel 2.1 „Grammatik der gesprochenen Sprache“. Engel (ebd.) unterscheidet die Satzäquivalente in vier Subklassen: Antwortpartikeln als „Reaktion auf Entscheidungsfragen“, Initiativpartikeln für „abstrakte Aufforderungen oder Fragen“, reaktive Partikeln für Reaktionen „auf Feststellungen oder Aufforderungen“ und Interjektionen, die „emotive Reaktionen auf verbale oder nonverbale Ereignisse“ (ebd., S. 439) ausdrücken. Genauer definiert er diese vier Subklassen nicht. Er fügt lediglich eine Liste mit Beispielen für die von ihm gewählte Klassifikation an. Inwiefern die hier beschriebenen <?page no="104"?> Theoretische Grundlagen 104 Subklassifikationen mit den Konzepten der anderen Autor*innen übereinstimmen, soll nach der allgemeinen Begriffsklärung dieser Elemente im Einzelnen untersucht werden. Anhand seiner Subklassen kann man erkennen, dass auch er, genau wie die GDS und Grammis 2.0, seine Klassifikation nach funktionalen Kriterien vornimmt und die Überkategorie dadurch bestimmt ist, dass die Elemente für sich allein stehen. Bis auf die Subklassifikation stimmt die Definition der Satzäquivalente also mit der der interaktiven Einheiten der GDS und Grammis 2.0 überein. Im Unterschied zu beiden letzteren Grammatiken gliedert er jedoch die Satzäquivalente in die Klasse der Partikeln ein. Allerdings fasst er den Begriff der Partikel, wie bereits erläutert, sehr weit und ordnet auch Konjunktoren und Präpositionen dieser Klasse zu. Er unterscheidet also nicht zwischen Elementen, die eine syntaktische Funktion im Satz haben, und solchen, die diese Funktion nicht haben. Indem er sie als Satzäquivalent bezeichnet und ihnen somit eine Sonderstellung einräumt, vermeidet er es, ihre syntaktische Funktion zu bestimmen. Die Duden-Grammatik definiert die Klasse der Gesprächspartikeln nach ähnlichen Kriterien, nimmt allerdings eine andere Subklassifikation vor: Zu den Gesprächspartikeln werden Gliederungspartikeln und Antwortpartikeln gezählt, manchmal auch Interjektionen (887-892) und Onomatopoetika (893-894). […] Gesprächspartikeln dienen der Organisation und Aufrechterhaltung des Gesprächs, d. h., sie steuern die Interaktion zwischen Sprecher und Hörer, markieren Beginn und Ende der Redebeiträge, füllen Pausen oder binden den Hörer ein. Gesprächspartikeln sind nicht in den Satz eingebettet; sie stehen meist am Anfang oder am Ende eines Satzes bzw. einer Äußerung oder allein. (Duden 2005, S. 594) Der letzte Satz verweist auf die Nicht-Eingebundenheit in syntaktische Strukturen. Die Subklassifikation orientiert sich an der Funktion der Partikeln für das Gespräch. Wie sich noch zeigen wird, umfasst diese Definition jedoch auch Elemente wie Diskursmarker und Tag Questions, die ebenfalls am Anfang oder Ende eines Satzes stehen können, aber eben nicht unabhängig von diesem sind. Es wird deutlich, dass die Begriffe Sprechhandlungspartikeln, interaktive Einheiten, und Satzäquivalente verschiedene Termini für ein Konzept sind. Gesprächspartikeln hingegen ist eher ein Oberbegriff, der die genannten mit umfasst, aber auch von Satzstrukturen abhängige Elemente mit einbezieht. Auf eine andere Weise geht Weinrich in seiner „Textgrammatik der deutschen Sprache“ auf die Problematik der Beschreibungsebene ein. Er fasst bisher genannte Phänomene unter dem Begriff Syntax des Dialogs zusammen. Man könnte daher annehmen, er setze die pragmatische Ebene mit einer syntak- <?page no="105"?> Wortarten in der gesprochenen Sprache 105 tischen gleich, indem er den Bezugsrahmen vom Satz auf den Dialog verschiebt. Bei einer Betrachtung dessen, was er alles der Syntax des Dialogs unterordnet, wird jedoch deutlich, dass er alle linguistischen Ebenen einbezieht und tatsächlich keine Differenzierung vornimmt. Beispielsweise teilt er die Syntax des Dialogs in die drei Unterkategorien Dialogkontakt, Affirmation und Negation und Frage und Antwort auf. Erstere untergliedert er sowohl in Elemente auf syntaktischer Ebene, wie beispielsweise Modalpartikeln, aber auch in Elemente auf rein pragmatischer Ebene, d. h. alle Phänomene der Dialogorganisation, wie etwa Sprechersignale und Hörersignale sowie Dialogpartikeln und Interjektionen. Auch bei dem zweiten Punkt Affirmation und Negation fasst er sowohl die Negationspartikel nicht als auch pragmatische Ausdrücke der Negation wie nein sowie syntaktische Elemente wie „Negations-Pronomina, -Adverbien und -Junktoren“ (Weinrich 2005, S. 13) zusammen. Es wird deutlich, dass seine Subklassifikation der Syntax des Dialogs wenig hilfreich ist, um eine Struktur für POS-Tags zu finden. Dennoch finden sich auch bei Weinrich innerhalb der Elemente des Dialogkontakts Beschreibungen von Phänomenen, die hier bereits als interaktive Einheiten, Satzäquivalente oder Gesprächspartikeln bezeichnet wurden. Hierzu zählen beispielsweise Elemente wie die Hörer- und Sprechersignale, Interjektionen und Dialogpartikeln. Letztere kategorisiert er nach ihrer Funktion im Dialog, d. h. hinsichtlich der Verteilung des Rederechts, z. B. Fortsetzungssignale, Beendingungssignale, Stützungssignale und Übernahmesignale (ebd., S. 832- 835). Alles in allem geht er von dem Gebrauch der Partikeln in ihrer Funktion im Dialog aus, ohne sie linguistischen Ebenen zuzuordnen (ebd., S. 835-840). Seine Ausführungen sind daher eher Beschreibungen der Phänomene als Definitionen. Die HSK sehen ebenfalls keine eigene Kategorie für Satz-unabhängige Einheiten vor, sondern ordnen sie den Partikeln im engeren Sinne zu. Entgegen der Analyse der GDS und der systematischen Grammatik auf Grammis 2.0 bezeichnen Hentschel/ Weydt (2002) entsprechende Phänomene klar als Wortart wie der Titel des Beitrags „Die Wortart Partikel“ deutlich macht. Sie bezeichnen die hier diskutierten Elemente als phatische Partikeln: Als „phatische Partikeln“ können Wörter bezeichnet werden, die dazu dienen, den Kontakt zwischen den Sprechenden zu etablieren, aufrechtzuerhalten oder zu beenden. Hierzu gehören: Grüße wie tschüss, ade, hallo, frz. salut, engl. byebye; tags oder tag-questions (Refrain-Fragen), mit denen das Einverständnis des Gegenübers eingeholt wird, vgl. z. B. dt. (dialektal) gell(e), sogenannte back-channel-Signale, die anzeigen, dass die Kommunikation aufrecht gehalten wird, und schließlich eine Reihe von Wörtern mit verschiedenen Funktionen wie z. B. bitte, danke. (ebd., S. 650) <?page no="106"?> Theoretische Grundlagen 106 Der Begriff phatische Partikeln lässt vermuten, dass er sich von dem von Malinowski geprägten Begriff der phatischen Kommunikation ableitet, d. h. von einer Bezeichnung für „kommunikative Akte, die ausschließlich [eine] soziale Funktion erfüllen“ (Bußmann (Hg.) 2008, S. 509). Es handelt sich also einerseits um einen sehr weit gefassten Begriff, der auf der pragmatischen Ebene anzusiedeln ist und ebenso wie der Begriff Gesprächspartikeln auch vom Satz abhängige Elemente wie beispielsweise Tag Questions mit einschließt, andererseits greift der Begriff zu kurz, denn so wie er definiert ist, würde er beispielsweise Antwortpartikeln, Gesprächsstrukturmarkierungen oder Verstehensrückmeldungen nicht mit einschließen. Da die große Gruppe der phatischen Partikeln den Partikeln untergeordnet sind, ist es problematisch, sie von anderen Satz-unabhängigen Einheiten, beispielsweise Interjektionen, abzugrenzen - was Hentschel/ Weydt (2002) auch selbst einräumen: Ein zusätzliches Problem stellt die Abgrenzung der phatischen Partikeln gegenüber den Interjektionen dar, da phatische Partikeln häufig von Interjektionen ersetzt werden und auch in die Klasse der Interjektionen übergehen. (ebd., S. 650) Die Problematik, wie genau sich Interjektionen von anderen Satz-unabhängigen Einheiten abgrenzen, wird im Folgenden in der Gegenüberstellung der Subklassifikationen diskutiert. Deutlich wird jedoch schon an dieser Stelle, dass man Interjektionen und andere Satz-unabhängige Elemente oder selbstständige interaktive Einheiten, welchen Begriff man auch immer nehmen möchte, als eine Klasse von Elementen definieren muss, die sich nur durch ihre pragmatische Funktion beschreiben lassen, da sie syntaktisch nicht in Sätzen integriert sind. Sie sind daher zwangsläufig von anderen Partikeln, wie beispielsweise Modal- oder Intensitätspartikeln abzugrenzen, und können auch nicht der gleichen Wortart zugerechnet werden. Sie sind generell nicht flektierbar, weshalb sie in die Definitionen von Partikeln im weitesten Sinne fallen, allerdings sind sie wie die Konjunktionen und Präpositionen klar von Partikeln im engeren Sinne zu unterscheiden. Für ein POS-Tagging von spontansprachlichen Daten ist es sinnvoll, diese zwei Klassen von Elementen zu differenzieren. Neben diesen Satz-internen Partikeln und Satz-unabhängigen Elementen gibt es, wie schon angedeutet, jedoch noch eine weitere Klasse, namentlich die der Satz-externen Elemente, die weder in die syntaktische Struktur des Satzes integriert sind, noch unabhängig von ihr stehen können. Sie werden in den Ausführungen zu Gesprächspartikeln in den Grammatiken nicht von Satz-unabhängigen Elementen abgegrenzt, sondern werden teilweise lediglich als Diskursmarker, Operatoren oder Tag Questions benannt, ohne sie zu definieren. Wie sie zu definieren sind und von Satz-unabhängigen Elementen abgegrenzt werden können, wird in Kapitel 2.4.8 „Satz-externe Elemente“ diskutiert. Eine Schwierigkeit sowohl bei den Satz-unabhängigen als auch bei den <?page no="107"?> Wortarten in der gesprochenen Sprache 107 Satz-externen Elementen ist, dass sie teilweise aus Mehrworteinheiten bestehen, wie beispielsweise na gut oder ach so aber auch schon gut oder alles klar. Bei Letzteren scheint es sogar eine Art rudimentäre Syntax zu geben - alles ist flektiert und schon modalisiert das gut. Man könnte argumentieren, dass die Formen verfestigt bzw. univerbiert sind und daher als ein Lexem zu betrachten seien. Die Frage, inwiefern Mehrworteinheiten bei einem POS-Tagging für gesprochene Sprache berücksichtigt werden können, wird aufgrund der Komplexität des Themas in einem Exkurs in Kapitel 2.4.3 „Exkurs: Umgang mit Mehrworteinheiten“ genauer diskutiert. Im Folgenden wird die Gruppe der Satz-unabhängigen Elemente genauer untersucht, mit dem Ziel, eine Subklassifikation der Elemente vorzunehmen. Es wird daher zunächst der sehr unterschiedlich definierte Begriff der Interjektion analysiert, um ihn daraufhin von Inflektiven, Onomatopoetika, Responsiven und gefüllten Pausen abzugrenzen. 2.4.7.1 Interjektionen Interjektionen werden üblicherweise als Wortart bezeichnet und werden in vielen Schulgrammatiken den Wortarten zugeordnet (Landesbildungsserver 2018). Sie gehören jedoch zu den Satz-unabhängigen Einheiten. Dass diese keine Wortarten im herkömmlichen Sinne sind, wird bei der Definition der Klasse der Interjektionen noch einmal deutlich werden. Ehlich (2007) sieht den Ursprung der Kategorisierung der Interjektionen zu den Wortarten schon bei den antiken Griechen, wie er in seinem Beitrag „Interjektion und Responsiv“ im Lexikon Deutsche Wortarten expliziert. Dadurch, dass Dionysios Thrax sie als Subkategorie der Epirrhemata, d. h. der Adverbien behandelte, seien sie in die Kategorisierung der Wortarten in den Grammatiken aufgenommen worden und seither habe sich diese Kategorisierung verfestigt (ebd., S. 424). Das Problem besteht allerdings nicht darin, dass sie als Wortart behandelt werden, sondern dass es sehr schwierig ist, sie klar zu definieren: „So findet sich bis heute keine verallgemeinerte Bestimmung des Umfangs der Klasse der Interjektionen oder ihrer Funktionen“ (ebd., S. 426). Dies ist im Wesentlichen drei Problemen geschuldet: − dem Problem der Differenzierung zwischen Form und Funktion, − dem Problem der Funktionsbestimmung − und dem Problem der Einordnung in eine am Schriftgebrauch orientierten Syntaxtheorie (ebd., S. 426 f.). Auch in den HSK wird im Beitrag „Die Wortart ‚Interjektionen‘“ auf diese Probleme hingewiesen: <?page no="108"?> Theoretische Grundlagen 108 Trivialerweise lässt sich die heterogene Klassifikation der involvierten Phänomene mit ihren lautlichen, formal-grammatischen, semantischen und pragmatischen Eigenschaften begründen: Bei Interjektionen scheint jener für die Linguistik wesentliche Zuordnungsmechanismus zwischen Lautformen und Bedeutungen bzw. Funktionen über formal-grammatische und logisch-semantische Konstrukte gleich in mehrfacher Hinsicht zu scheitern. Interjektionen sind häufig durch idiosynkratische Lautformen gekennzeichnet […]. Syntaktisch treten Interjektionen isoliert auf und besitzen kaum restringierbare syntaktische Distributionen, insbesondere die parenthetische Distribution außerhalb der Größe Satz. Schließlich verfügen sie über semantisch-pragmatische Eigenschaften, die, vor allem[,][sic! ] weil nicht einer wahrheitswert-orientierten Semantik und hiermit verbundenen interpretativen kompositionellen Prinzipien zugänglich, eher mit Gesten (vgl. deutsch Aua! , Pst! ) oder in bestimmten Fällen (vgl. deutsch äh, hm) mit Pausen vergleichbar sind als mit sprachlichen Zeichen. (Helbig/ Buscha 2011, S. 654) Letzterer Satz verdeutlicht noch einmal das Problem der Differenzierung zwischen Form und Funktion: In der Kommunikation lokalisiert sich die Form der Interjektionen „in einem Bereich, in dem sich auch andere akustisch-formale Phänomene befinden“ (Ehlich 2007, S. 427). Diese können sowohl „sprachlicher Art“ als auch „interaktionell-kommunikativer, aber nichtsprachlicher Art“ sein, wie beispielsweise Stöhnen, Schreien oder Seufzen (ebd., S. 427). Die Duden-Grammatik beispielsweise zählt auch Laute zu den Interjektionen, die nicht einmal der Definition des Wort-Begriffs gerecht werden: Manche Interjektionen können Laute oder Lautkombinationen enthalten, die in anderen deutschen Wörtern nicht üblich sind, wie z. B. Schnalzlaute zum Ausdruck von Bewunderung, Würgelaute zum Ausdruck von Ekel oder das zischende Einatmen von Luft zum Ausdruck von Schmerz. (Duden 2005, S. 598) Die Ausführungen in der Duden-Grammatik, von Ehlich (2007) sowie Fries (2002) zeigen somit ein elementares Problem bei der Definition der Klasse der Interjektionen auf: die mögliche Varietät der Formen, die dennoch die Funktion einer Interjektion einnehmen können. Genauer gehen darauf Reber/ Couper-Kuhlen (2010) ein, die für eine erweiterte Auffassung von Lautobjekten als Interjektionen im Zusammenhang mit der Interaktion plädieren. Sie unterscheiden dabei zwischen lexikalisierten, d. h. konventionalisiert gebrauchten Lautgestalten und nicht-lexikalisierten Lautobjekten, die aber ähnliche Funktionen wie die lexikalisierten Lautobjekte einnehmen können (ebd., S. 77-88). Eben dieses Problem stellt sich, möchte man Interjektionen im Sinne eines Wortarten-Taggings definieren. Es besteht also das Problem, dass schon ihre Form teilweise nicht der eines konventionalisierten Lexems entspricht. <?page no="109"?> Wortarten in der gesprochenen Sprache 109 Die Duden-Grammatik bestimmt die Funktion der Interjektionen als „Ausdruck spontaner, reaktiver Emotionen oder Bewertungen“ (Duden 2005, S. 597). In der „Textgrammatik der deutschen Sprache“ wird expliziert: „Interjektionen sind Sprachzeichen, deren Bedeutung darin besteht, beim Hörer ein lebhaftes Interesse für die gegebene Situation zu erzeugen“ (Weinrich 2005, S. 857). Die Veröffentlichungen des Instituts für deutsche Sprache, die GDS und die systematische Grammatik der Internetplattform Grammis 2.0 sehen die Funktion der Interjektionen in der Lenkung der Gesprächspartner*innen in Hinsicht auf die Steuerung der laufenden „Handlungskoordination und Wissensorganisation“ (Zifonun/ Hoffmann/ Strecker 1997, S. 62 f.; Institut für Deutsche Sprache 2013) und seiner Information „über mentale Zustände“ (ebd.). Letztere können sowohl Emotionen und Bewertungen als auch Interesse umfassen. Eine solche Vagheit lässt zu, dass jegliche Ausdrücke, die zum Ausdruck von mentalen Zuständen verwendet werden und syntaktisch nicht integriert sind, als Interjektionen bezeichnet werden können, einschließlich der gesamten Bereiche der so genannten sekundären Interjektionen und Responsive, auf die später noch eingegangen wird. Dies bedeutet, dass der Begriff Interjektion von Lauten bis hin zu Mehrwortkonstruktionen wie idiomatisierten Wendungen alles umfassen kann. Fries (2002) unterstützt diese Sichtweise in seinem Beitrag in den HSK in seiner sehr weit gefassten Definition der Interjektionen. Er definiert die Funktionsbestimmung der Interjektionen so weit, dass sie die gesamte Klasse der selbstständigen interaktiven Einheiten umfassen. Nach seiner Definition besitzen Interjektionen nicht nur „expressive (Ausdruck von Emotionen und Körperempfindungen des Sprechers), reaktive (Reaktionen auf Hörerhandlungen), appellative und darstellende Funktionen“ (ebd., S. 657), sie dienen überdies auch zur gesamten Segmentierung des Sprachflusses, […] der Regulierung des Gesprächsablaufs [und] der Kennzeichnung von affektiven und sozialen Relationen (wie Sympathie oder Dominanz) der Interaktionspartner. (ebd.) Letztere Feststellung führt zum dritten Problem: kann man die Klasse nicht nach ihrer Form und Funktion eingrenzen, so wäre eine Klassifikation auf der Ebene der Syntax hilfreich. Allerdings weist schon der Name Interjektion, der von dem lateinischen intericere, also dazwischenwerfen abgeleitet ist (Berlin- Brandenburgische Akademie der Wissenschaften (Hg.) 2013), darauf hin, dass Interjektionen zwischen syntaktischen Strukturen sind, und nicht ein Teil derselben. Ehlich (2007) postuliert: „Zugleich ist daran abzulesen, dass die Wortart überhaupt syntaktisch bestimmt werden soll - wenn auch über die Defizienz“ (ebd., S. 428). Er verweist darauf, dass man Phänomenen, die dem Kontext des Gesprochenen entstammen, mit einem Syntaxkonzept, das <?page no="110"?> Theoretische Grundlagen 110 sich an einem „traditionellen Satzkonzept orientiert“ (Ehlich 2007, S. 428), nicht gerecht werden kann. Auch hier zeigt ein Blick in verschiedene Grammatiken, wie in Tabelle 3 beschrieben, dass die Autor*innen versuchen, Interjektionen anhand des traditionellen Satzkonzeptes zu definieren. Die Duden-Grammatik löst das Problem, indem sie die Interjektionen als „syntaktisch autonom“ bezeichnet, und expliziert, dass sie allein den Satz bilden (Duden 2005, S. 597). Letzteres erfordert jedoch ein Konzept vom Satz, der unabhängig von syntaktischen Regeln oder Funktionen gebildet wird. Dies entspricht einem semantischen Satzkonzept wie schon bei Leibniz, in dem ein Satz sich über die Proposition definiert (Leibniz 1967). Gemäß der eigenen Definition des Satzes in der Duden-Grammatik ist die Konformität mit den Regeln der Syntax jedoch das Grundelement einer jeden Definition (Duden 2005, S. 773 f.). Auch Weinrich definiert die Stellung der Interjektionen als außerhalb der Syntax: „Interjektionen stehen in der Regel außerhalb der Verbalklammer mit ihren drei Feldern oder schneiden in diese ein“ (Weinrich 2005, S. 857). Die GDS und Grammis 2.0 stellen dem gegenüber, dass die Interjektionen selbstständige funktionale Einheiten sind, die unabhängig von Syntaxkonzepten allein auf der pragmatischen Ebene operieren (Zifonun/ Hoffmann/ Strecker 1997, S. 62 f.). Auch Ehlich (2007) stellt heraus: „Pragmatisch handelt es sich bei der Verwendung von Interjektionen um selbstsuffiziente Prozeduren, die ihre Handlungszwecke (vgl. § 2.) ohne Integration in größere Einheiten erreichen“ (ebd., S. 429). Im Gegensatz dazu bettet Fries (2002) Interjektionen in den Syntax-Rahmen der X-Bar-Theorie ein. Er postuliert, dass Interjektionen als Kopf eigener Phrasen fungieren, die in wenigen Fällen andere Phrasen regieren können, selbst jedoch „nicht als Modifikatoren oder Spezifizierer anderer Phrasen auftreten können“ (Helbig 2011, S. 656). Letzterer Zusatz bedeutet jedoch im Umkehrschluss, dass man Interjektionsphrasen nicht in komplexe Satzstrukturen einbinden kann, sondern dass sie immer unabhängig auftreten. Sie bleiben somit syntaktisch selbstständige interaktive Einheiten. Am Beispiel der Interjektionen wird die Sonderstellung, die selbstständige interaktive Einheiten einnehmen, indem sie nicht in den Bezugsrahmen syntaktischer Konzepte passen, hervorgehoben. Es wird deutlich, dass der Bezugsrahmen für eine Kategorisierung solcher selbstständigen interaktiven Einheiten nur ein pragmatischer sein kann und man zu einer klaren Differenzierung nur dadurch gelangen kann, dass man innerhalb dieses Bezugsrahmens klare syntaktische, formale und funktionale Kriterien findet, die exhaustiv und mutuell exklusiv sind. <?page no="111"?> Wortarten in der gesprochenen Sprache 111 Definitionskriterien Duden GDS Grammis 2.0 Hoffmann Weinrich Engel HSK Burkhardt nicht konventionalisierte Lautverbindungen + - - + + + + - Unterscheidung zwischen primären und sekundären ITJ + - - - - - + - Mehrwortkonstruktionen + - - - - - + + Spontane Reaktion + n/ a n/ a n/ a (+) + + n/ a Ausdruck von Emotionen + + + + + + + + Ausdruck von Bewertungen + n/ a n/ a n/ a n/ a (+) + n/ a Erzeugen von Interesse bei der Hörer*in + n/ a n/ a n/ a + n/ a n/ a n/ a Lenkung der Handlungskoordination (+) + + + (+) (+) + - Lenkung der Wissensorganisation n/ a + + + n/ a n/ a + - Ausdruck mentaler Zustände (+) + + (+) (+) (+) + (+) Träger von Propositionen n/ a - - n/ a n/ a n/ a n/ a n/ a Apellfunktion + n/ a n/ a n/ a (+) + + - Onomatopoetika - - - n/ a + + + + Inflektive + - - n/ a + - - + +/ (+)/ -/ (-) siehe Tabelle 1 „Vergleich Fokus-, Grad- und Intensitätspartikeln“ Tab. 3: Vergleich Defintionskriterien von Interjektionen <?page no="112"?> Theoretische Grundlagen 112 2.4.7.2 Abgrenzung und Subklassifikation der Interjektionen Nachdem die größten Probleme bei der Definition der Klasse der Interjektionen dargelegt wurden, werden nun die verschiedenen Ansätze ihrer Subklassifikation und somit auch Abgrenzung von anderen Klassen dargestellt und untersucht. Prinzipiell wird in nahezu allen Grammatiken eine grundlegende Differenzierung der Elemente innerhalb der Klasse vorgenommen. Man kann sie als eine Unterscheidung in primäre Interjektionen und sekundäre Interjektionen bezeichnen, wie sie beispielsweise Schwitalla und Ehlich benennen (Schwitalla 2012, S. 156; Ehlich 2007, S. 435). Eine andere Terminologie verwendet die Duden-Grammatik, die zwischen einfachen Interjektionen und komplexen Interjektionen unterscheidet (Duden 2005, S. 598) oder Burkhardt, der zwischen eigentlichen Interjektionen und lexikalisierten und konventionalisierten Interjektionen unterscheidet (Burkhardt 1982b, S. 155- 157). Erstere Gruppe, also primäre, eigentliche oder einfache Interjektionen, werden alle als Lautverbindungen ohne andere Funktion der Form als die der Interjektion beschrieben. Der zweiten Gruppe, also sekundären, komplexen oder lexikalisierten und konventionalisierten Interjektionen, ist das Merkmal gemeinsam, dass Formen von Interjektionen, die dieser Gruppe angehören, Homonyme in anderen Wortarten haben. Es handelt sich bei Letzteren um Lexeme, denen in ihrer Verwendung als Interjektion ihre ursprüngliche Bedeutung nicht mehr zugeschrieben werden kann. „Es handelt sich hier insbesondere um Nominalphrasen, die als ganze aus dem Symbolfeld in ein anderes Feld übertragen werden“ (Ehlich 2007, S. 435), nämlich das Lenkfeld. „Beim Lenkfeld geht es um die direkte, unmittelbare Einflussnahme in die Handlungsverläufe des je anderen“ (ebd., S. 434). Zusammenfassend kann man feststellen, dass alle Autor*innen Interjektionen in zwei Subklassen differenzieren, d. h. in eine enger gefasste Klasse, die der einfachen Interjektionen, und eine weiter gefasste Klasse, in die die Homonym-Interjektionen fallen. Im Folgenden werden sie der Übersicht halber als primäre und sekundäre Interjektionen bezeichnet. Gemein ist diesen Ansätzen, dass sie von Interjektionen als Lexemen ausgehen und nicht-lexikalisierte Lautgebilde (Reber/ Couper-Kuhlen 2010) gar nicht erst behandeln. Hier soll nicht weiter auf diese Abgrenzung eingegangen werden, denn sie wird nicht auf der Ebene des POS-Taggings behandelt, sondern bereits auf der Ebene der Transkription (Selting et al. 2009). Sieht man sich die Differenzierung zwischen primären und sekundären Interjektionen genauer an, bemerkt man, dass bei der Beschreibung der Funktion von Interjektionen wenig Übereinstimmung herrscht. Für die GDS und Grammis 2.0 dienen sie dazu, die Gesprächspartner*innen zu lenken, im Sinne der Handlungskoordination und der Wissensorganisation des Gesprächs, oder um ihn über mentale Zustände zu informieren (Institut für Deutsche Sprache <?page no="113"?> Wortarten in der gesprochenen Sprache 113 2013; Zifonun/ Hoffmann/ Strecker 1997, S. 62 f.). Es wird deutlich, dass diese Definitionen sehr vage sind und damit sehr viele Elemente der Klasse der Interjektionen zugeordnet werden können, u. a. alle gefüllten Pausen oder Responsive. Auch Hoffmanns Definition (2013) entspricht diesem Ansatz und legt ebenfalls einen Schwerpunkt auf die Partnersteuerung: Interjektionen sind selbständige Gesprächseinheiten ohne gedanklichen Gehalt, die der Partnersteuerung dienen, auch aus der Hörerposition heraus. Daher werden sie dem Lenkfeld der Sprache zugeordnet, sie realisieren lenkende, expeditive Prozeduren. Sie steuern die laufende Handlungskooperation, die Planung und die Erwartungsverarbeitung; sie können emotionale Befindlichkeit direkt übertragen (hm, hm, au). (ebd., S. 53) Weinrich (2005) unterscheidet drei Funktionsbestimmungen der Interjektionen (ebd., S. 857). Sie können erstens situativ gebraucht werden, d. h. sie „weisen den Hörer nachdrücklich auf die Situation oder ein Element dieser Situation hin und reklamieren dafür sein Interesse“ (ebd., S. 858). Diese Formulierung lässt darauf schließen, dass auch er auf die lenkende Funktion gegenüber den Gesprächspartner*innen abzielt. Auch wenn er es unter dem Merkmal „Interesse“ zusammenfasst, kann man davon ausgehen, dass es ihm hier um die Wissensorganisation und Handlungskoordination des Gesprächs geht, äquivalent zur GDS, Grammis 2.0 und Hoffmann (2013). Auch die zweite Funktionsbestimmung, die der expressiven Interjektionen, ist ähnlich den als „emotionale Befindlichkeit“ oder „Information über mentale Zustände“ (Zifonun/ Hoffmann/ Strecker 1997, S. 62 f.; Institut für Deutsche Sprache 2013) bezeichneten Funktionen. Weinrich (2005) bezeichnet diese Funktion als das Erzeugen von „emotionale[m] Interesse beim Hörer“ (ebd., S. 859). Neben diesen doch weitgehend übereinstimmenden Funktionsbestimmungen fügt Weinrich den Interjektionen noch eine dritte Gruppe hinzu: die imitativen Interjektionen. Da sein Hauptmerkmal zur Definition von Interjektionen „Interesse“ ist, schließt er die Onomatopoetika als Ausdrucksmittel von „Verhaltensformen, Bewegungen und Geräusche[n], an denen der Hörer ein bestimmtes Interesse nehmen soll“ (ebd., S. 860) mit ein. Eine engere Funktionsbestimmung wiederum nimmt Schwitalla (2012) vor. Interjektionen „drücken Gefühle aus, manche auch einen Appell“ (ebd., S. 156). Beide Funktionen lassen sich unter den bereits genannten Definitionen subsumieren, andersherum schließen sie jedoch den Bereich der Wissensorganisation aus und beschränken die Handlungskoordination im Gespräch auf Appelle. Diese Definition lässt Responsive, gefüllte Pausen und Onomatopoetika außer Acht. Burkhardt (1982b) wiederum schließt Onomatopoetika und Inflektive in seine Definition von Interjektionen mit ein. Sprechhandlungspartikeln und Gliederungspartikeln hingegen, d. h. die Funktionen zur Lenkung der Gesprächs- <?page no="114"?> Theoretische Grundlagen 114 partner*innen, schließt er explizit aus. Übereinstimmend mit allen bisherigen Funktionsbestimmungen ist bei ihm nur die des Ausdrucks von Emotionen (ebd., S. 155-157). Die engste Funktionsdefinition nimmt Engel (2004) vor. Für ihn ist die Funktion von Interjektionen nur auf „emotive Reaktionen auf verbale oder nonverbale Ereignisse“ (ebd., S. 439) beschränkt. Anhand seiner Beispiele wird deutlich, dass er jedoch auch Onomatopoetika, die keinen emotiven Ausdruck haben, zu den Interjektionen zählt (ebd., S. 441). Die Duden-Grammatik (2005) schließlich definiert die Funktionsbestimmung folgendermaßen: „Interjektionen bewegen sich zwischen emotionalen Reaktionen und Bewertungen eines Sachverhalts. Diese beiden Funktionen erfüllen sie jeweils mehr oder weniger stark“ (ebd., S. 597). Elemente, die der Lenkung des Gesprächs dienen, werden als Gesprächspartikeln klassifiziert. Vergleichend kann man feststellen, dass es ein Spektrum von sehr weit gefassten bis hin zu sehr eng gefassten Funktionsbestimmungen von Interjektionen gibt. Diese lassen wiederum verschiedene Möglichkeiten der Subklassifizierung zu. Differenzen im Bereich der Subklassifikation scheinen vornehmlich durch den verschiedenen Umgang mit dem Begriff der lexikalischen Bedeutung entstanden zu sein. Wichtig ist hier die Ausrichtung, mit der das Verhältnis von bereits existierenden Lexemen und Interjektionen betrachtet wird. Beispielsweise geht die Duden-Grammatik davon aus, dass bereits existierende Lexeme eine zusätzliche Funktion, nämlich die der Interjektion erhalten (ebd., S. 599). Im Gegensatz dazu nimmt Burkhardt an, dass es eine Interjektion gibt, die in der Folge lexikalisiert wird, d. h. deren Bedeutung bereits existiert und folgend durch ein in anderem Kontext verwendetes Lexem ersetzt wird. Folglich haben solch verschiedene Perspektiven auch Einfluss auf die Subkategorisierung der Interjektionen. Die Duden-GrammatikunterteiltdieprimärenInterjektioneninAppellinterjektionen und Lautkombination-Interjektionen (Duden 2005, S. 598), die komplexen, also sekundären Interjektionen in Lexeme/ Wortgruppen und Inflektive (ebd., S. 599). Burkhardt hingegen kategorisiert die Inflektive, gemeinsam mit Onomatopoetika und emotiven Interjektionen den primären Interjektionen zugehörig. Nach Burkhardt gehören Onomatopoetika und Inflektive deshalb zu dem enger gefassten Interjektionsbegriff, da sie nicht vollständig lexikalisiert wurden. Aus der Sicht der Duden-Grammatik hingegen leiten sich die Inflektive von Lexemen ab, sie werden dort auch als Lexeminterjektionen und deverbative Interjektionen bezeichnet und sind somit den sekundären Interjektionen zugeordnet. Nübling (2004) unterscheidet zwischen neun Klassen, die je nach ihren Eigenschaften mehr oder weniger der prototypischen Definition der Interjektion entsprechen. Ihr zufolge ist eine Dif- <?page no="115"?> Wortarten in der gesprochenen Sprache 115 ferenzierung eher in einem Kontinuum zu betrachten, wobei sie primäre Interjektionen und die Eigenschaft, Emotionen auszudrücken, als den Prototypen definiert, wovon sich sekundäre, Apell-, und Adverbinterjektionen, liederungspartikel, Inflektive, Nominalstämme, Onomatopoetika und Baby Talk nach unterschiedlichen Kriterien unterschiedlich weit von dem Prototyp entfernen. Ihrer Ansicht nach liegt es an der diachronen Entwicklung der Interjektionen, wenn sie durch unterschiedliche Verwendungsweisen nicht klar in eine der Kategorien einzuordnen sind (ebd., S. 34 f.). Aus diesen und obigen Betrachtungen leiten sich vier Fragen ab. Erstens, ob Inflektive und zweitens, ob Onomatopoetika der Klasse der Interjektionen zugeordnet werden sollten. Drittens, ob der Bereich der Rezeptionssignale und Responsive als eigene Klasse definiert werden kann und viertens, ob Hesitationssignale eine eigene Klasse bilden. Um einer Antwort auf diese Fragen näher zu kommen, werden zunächst Definitionen von Onomatopoetika, Inflektiven, Responsiven und Rezeptionssignalen sowie Hesitationssignale untersucht, um schließlich festzustellen, ob die Klasse der Interjektionen eine Überkategorie aller dieser Phänomene ist oder ob sie eigene Klassen im Bereich der Satz-unabhängigen Einheiten bilden. 2.4.7.3 Inflektive Bei der Untersuchung der Definitionen von Inflektiven wird deutlich, dass sie vor allem über ihre Wortbildung und ihren Gebrauch in Comics und in der Jugendsprache definiert werden (Duden 2005, S. 599; Weinrich 2005, S. 860 f.). Schwitalla hingegen stellt heraus, dass sie in der Umgangssprache nicht so häufig verwendet werden, wie ihnen zugeschrieben wird (Schwitalla 2012, S. 160). Allerdings tragen sie zum „‚Klangzauber‘ […] mündlicher Ausdrucksmöglichkeiten“ bei, „besonders wenn das Lexem selbstreflexiv so gesprochen wird, wie es seiner Bedeutung entspricht“ (ebd., S. 161). Durch Inflektive wird also häufig eine nicht ausgeführte (kommunikative) Handlung oder Reaktion verbalisiert, d. h. selbstreflexiv als solche kenntlich gemacht. Beispiele hierfür sind Äußerungen wie seufz anstelle von tatsächlichem Seufzen, würg oder kotz als Ausdruck eines Ekelgefühls oder hüpf und freu als Ausdruck von Freude. Die meisten solcher Äußerungen hängen mit Handlungen zusammen, die dem Ausdruck von Emotionen dienen. Gerade diese Eigenschaft lässt sie nach Nübling (2004, S. 36) in die Nähe der Interjektionen rücken. Ausdrucksweisen von Emotionen werden hierbei in Worten statt in Gesten oder Bewegungen ausgedrückt. Es ist daher nicht verwunderlich, dass sie aus der Comic-Welt entstammen, da auf diese Weise, unterstützend zu den Bildern, die Handlungen oder Empfindungen der Charaktere verbalisiert werden können. Wie bereits erwähnt, kommen sie jedoch auch in zwischenmenschlicher Interaktion <?page no="116"?> Theoretische Grundlagen 116 vor, wie beispielsweise in der bereits genannten Umgangssprache aber auch in internetbasierter Kommunikation. Besonders häufig finden sie sich in Chat-Daten wieder, da man dort durch die mangelnde gegenseitige Kopräsenz Reaktionen und Handlungen dem Gegenüber zwangsläufig verbalisieren muss und Inflektive sich dafür besonders gut eignen. In der gesprochenen Sprache werden sie benutzt, wenn die damit signalisierte Handlung dem Sprechenden entweder gerade nicht möglich ist oder sie gesellschaftlich nicht akzeptabel ist, z. B. im Falle von würg oder kotz. Häufig werden sie jedoch ironisch oder sarkastisch gebraucht wie beispielsweise freu oder lach in Situationen, die nicht zum Freuen oder Lachen anregen. Ausgehend von der Tatsache, dass Inflektive in vielen Fällen Emotionen ausdrücken, ist verständlich, dass sie häufig den Interjektionen zugeordnet werden. Auch Nübling (ebd.) schreibt ihnen das Merkmal „primär expressiv/ emotiv“ zu, lässt aber Ausnahmen offen (ebd., S. 34 f.). Allerdings finden sich gerade in Chat-Daten häufig Fälle, bei denen allein eine Handlung angezeigt oder kommentiert werden soll, einige sogar in ganzen Inflektivkonstruktionen, wie in folgenden Beispielen: Beispiel 14: Dortmunder Chat-Korpus, Mitschnitt #2221003 Tigerelse: ich als person bin 21. Tigerelse: *erklär* quaki: mhmm Beispiel 15: Dortmunder Chat-Korpus, Plauderchat Message Nr. 581 Monk: meinst du er hat das verdient McMike: *insWasserflieg* McMike: abtauch* Gangster: *leinewerf* ineli26: ja, hat er, monk .... Monk winkt Mcmike noch hinterher ineli26: *wink* Aufgrund ihrer eher Aktion repräsentierenden Eigenschaft bezeichnen Bartz/ Beißwenger/ Storrer (2013) diese Wörter als Aktionswörter, da sie in Chat- Sprache nicht allein als unflektierte Wurzelwörter gebraucht werden, sondern darüber hinaus auch als Akronyme und Mehrwort-Einheiten vorkommen. Über die Verwendung solcher Aktionswörter in internetbasierter Kommunikation schreiben Bartz/ Beißwenger/ Storrer (ebd.): Aktionswörter werden zur Beschreibung von Gesten, mentalen Zuständen, oder Handlungen verwendet. Sie dienen als Emotions- oder Illokutionsmarker […], als Ironiemarker […], zur spielerischen Nachbildung fiktiver Handlungen […] oder dazu, sich selbst (oder dem eigenen virtuellen Charakter) Charakter- <?page no="117"?> Wortarten in der gesprochenen Sprache 117 merkmale oder innere Zustände zuzuschreiben. Einige sehr gebräuchliche Aktionswörter haben die Form von Akronymen - z. B. *lol* (<lauging out loud), *rofl* (<rolling on the floor laughing). (ebd., S. 177). Die vorangegangenen Beispiele zeigen, dass die spontane Bildung von Inflektiven auf verschiedene Arten entstehen kann. Hierbei hat die Chat-Kommunikation einen Einfluss auf die gesprochene Sprache, der in den meisten Grammatiken noch nicht berücksichtigt ist. Beispielsweise beschreibt die Duden-Grammatik sie als „bloße[…] Verbstämme[…] ohne Flexionsendungen“ (Duden 2005, S. 599) und Ehlich (2007) als „sekundäre Bildungen einer Art Grundform, was durch die Tilgung des Infinitivelementes -en zum Ausdruck kommt. Man könnte sie als eine Art ‚Infinitivus absolutus‘ bezeichnen“ (ebd., S. 440). Es wird deutlich, dass beide aus dem Englischen stammende Akronyme und Inflektivkonstruktionen nicht berücksichtigen. Auf die Frage, ob Inflektive den Interjektionen zuzuordnen sind, d. h. ob sie den Definitionen der Interjektionen gerecht werden, lassen sich nun folgende Antworten geben: 1) Sie sind Ausdrücke für fiktive Handlungen und können auf diese Weise mentale Zustände oder Emotionen vermitteln. So dienen sie auch dazu, den Gesprächspartner*innen im Sinne der Handlungskoordination und der Wissensorganisation des Gesprächs zu lenken. Dies alles entspricht den oben genannten weitesten Funktionsbestimmungen von Interjektionen. 2) Inflektive sind klar von Lexemen abgeleitet (außer Akronyme) und keine lexikalisierten primären Interjektionen. Dies wird daran deutlich, dass sie im Gegensatz zu den als sekundären Interjektionen bezeichneten Formen die Semantik der Lexeme, aus denen sie geformt sind, beibehalten. In diesem Punkt entsprechen sie nicht den bisher genannten Definitionen von Interjektionen, da sich keine Homonymie entwickelt hat. Weiterhin sind sie nicht Träger der lexikalischen Semantik der Handlungen, die sie ausdrücken. Damit erfüllen sie ein Kriterium, das die GDS klar als Ausschlusskriterium definiert: „Interjektionen können nicht als Träger von Propositionen dienen, sie haben keine Darstellungsfunktion“ (Zifonun/ Hoffmann/ Strecker 1997, S. 62 f.). Ähnliche Definitionen finden sich auch bei Hoffmann (2013, S. 53), Schwitalla (2012, S. 156), und auf Grammis 2.0 (Institut für Deutsche Sprache 2013). Folgt man den Definitionen dieser Autor*innen, sind Inflektive keine Interjektionen. Folgt man den in ihren Funktionsbestimmungen sehr engen Definitionen von beispielsweise der deutschen Grammatik Engels oder der Duden- Grammatik, müsste man eine Teilmenge der Inflektive zu den Interjektionen zählen, nämlich die, die dem Ausdruck von Emotionen oder Bewertungen dienen. Inwiefern die Inflektive also eine Subkategorie der Interjektionen <?page no="118"?> Theoretische Grundlagen 118 sind, hängt von der Definition der Interjektionen als mögliche Träger einer Proposition ab. 2.4.7.4 Onomatopoetika Zu den Phänomenen, die häufig mit den Interjektionen konfundiert werden, gehören die sogenannten Onomatopoetika, lautmalende Ausdrücke wie wau, miau, peng, bumm, tatütata […]. Hier handelt es sich freilich schwerlich um eine Wortart im Sinn der üblichen Verwendung dieser linguistischen Kategorie. Vielmehr wird auf eine unverkennbare Eigenart bei der Bildung solcher Ausdrücke abgehoben. (Ehlich 2007, S. 438) Wie bereits problematisiert, werden bei einigen Autoren, beispielsweise bei Burkhardt (1982b) und Weinrich (2005), Onomatopoetika als Teilmenge der Interjektionen bezeichnet. Im Gegensatz dazu definieren die Duden-Grammatik (2005), Ehlich (2007) und Schwitalla (2012) sie als eine eigene Klasse. Die GDS, Grammis 2.0 sowie die HSK scheinen sie weder als Teil einer Klasse noch als eigene Klasse anzuerkennen, denn sie sind in keiner Kategorisierung enthalten. Wie schon im Zitat von Ehlich angedeutet, lässt sich das Phänomen Onomatopoetikon hauptsächlich anhand von zwei Kriterien definieren: Seiner Form bzw. Bildung und Funktion als schallnachahmendes Element. Die Bildung von Onomatopoetika beschreibt Ehlich sehr präzise: Ihnen liegt jeweils ein akustisches Phänomen zugrunde. Dieses wird über eine akustische Mimesis in den Bereich der Sprache übernommen. Das mimetische Element bildet das akustische Phänomen in spezifischer Weise ab. (Ehlich 2007, S. 439) Aus diesem Grund können Onomatopoetika „aus dem Augenblick heraus erfunden“ (Schwitalla 2012, S. 160) werden. Obwohl es also eine große Gruppe von gängigen Onomatopoetika gibt, die Schwitalla als lexikalisierte Onomatopoetika bezeichnet, wie beispielsweise wuff für Hundebellen oder miau für das Maunzen einer Katze, ist die Klasse also prinzipiell offen (ebd.). Die Funktion dieser Elemente ist es, „Laute[…] bzw. Schallereignisse […] vielerlei Art“ (Duden 2005, S. 599) direkt ohne komplexe Beschreibungen der Geräusche, abzubilden. Onomatopoetika definieren sich also vor allem über ihre Form, das heißt über die Nachbildung von Geräuschen. Die Definitionen der Form von Interjektionen lassen viel Spielraum, sodass eine Kategorisierung der Onomatopoetika als Teilklasse der Interjektionen (oder aber als eigene Klasse) anhand von syntaktischen, semantischen oder funktionalen Kriterien bestimmt werden muss. Burkhardts Definition der Interjektionen enthält zwei Funktionsbestimmungen: Interjektionen können emotive und schallimitierende Funktionen haben. Interjektionen scheinen bei ihm eine Art Restkategorie zu sein, in der jegliche Phänomene ihren <?page no="119"?> Wortarten in der gesprochenen Sprache 119 Platz bekommen, die dem Kriterium der Dazwischengeworfenheit genügen, also der Nicht-Eingebundenheit in die Syntax, aber nicht zu seiner Kategorie der Sprechhandlungspartikeln zählen. Da Onomatopoetika dieses Kriterium erfüllen, bestimmt er sie als Teilklasse der Interjektionen (Burkhardt 1982b, S. 155). Ebenso handhabt es Weinrich, der in seiner Definition das sehr allgemeine Merkmal Interesse als Hauptkriterium festlegt, also Einwürfe, die das Interesse des Gegenübers auf sich ziehen. Da Onomatopoetika dies tun können, nennt er sie imitative Interjektionen (Weinrich 2005, S. 857). Dieser Ansatz scheint nicht nur ungewöhnlich, sondern auch problematisch, da er hier ein perlokutionäres Kriterium zum Klassifikationskriterium macht, d. h. die Wirkung auf das Gegenüber. Zudem ist dieses Kriterium sehr vage, da es einerseits für alle Satz-unabhängigen Einheiten, ja sogar für jeglichen Sprachgebrauch, gelten kann. Andererseits macht es eine Wirkung zum Kriterium, die nicht unbedingt gegeben sein muss: Es ist durchaus möglich, dass jemand intendiert, das Interesse der Hörer*innen zu erwecken, dieses Ziel aber nicht zwangsläufig erreicht. Die Duden-Grammatik hingegen kategorisiert die Onomatopoetika als selbstständige Klassen neben den Interjektionen. Dies erklärt sich dadurch, dass sie Interjektionen die Funktion des „Ausdruck[s] spontaner, reaktiver Emotionen oder Bewertungen“ (Duden 2005, S. 597) zuschreiben und die Onomatopoetika diesem Kriterium nicht entsprechen: „Ihre Funktion besteht jedoch weniger im Ausdruck von Gefühlen als in der reinen Schallnachahmung“ (ebd., S. 599). Aus diesem Grund würden sie auch der Interjektions-Definition von Grammis 2.0 und der GDS nicht genügen, da sie weder über Emotionen der Sprecher*innen informieren noch der Gesprächssteuerung zur Handlungskoordination und Wissensorganisation dienen (Institut für Deutsche Sprache 2013). Schließlich muss man feststellen, dass die Beantwortung der Frage, ob Onomatopoetika und Inflektive eine Teilklasse der Interjektionen sind, stark davon abhängig ist, welche Kriterien man für die Definition von Interjektionen wählt. Offensichtlich ist, dass Onomatopoetika sowie Inflektive das Kriterium der Unabhängigkeit von der Syntax mit ihnen teilen, sie somit alle der Klasse der Satz-unabhängigen Einheiten angehören. Auch Nübling weist darauf hin, dass auf formaler Ebene Onomatopoetika die Eigenschaften mit denen der Interjektionen teilen. Differenzen sieht sie jedoch in der Funktion: während Interjektionen „primär expressiv/ emotiv“ sind und Illokutionen ausdrücken, sind Onomatopoetika „primär schallimitativ“ und referenziell (Nübling 2004, S. 34-37). Inwiefern man sie in einer Neukategorisierung des Tagsets als drei verschiedene Klassen behandelt oder sie gemeinsam unter eine fasst, muss nach der Erwägung, welche Kriterien man bei der Neukategorisierung gewichten möchte, entschieden werden. <?page no="120"?> Theoretische Grundlagen 120 2.4.7.5 Responsive Wie bereits erwähnt, sind die Funktionsbestimmungen von Interjektionen bei einigen Grammatiken so weit gefasst, dass sie Responsive und gefüllte Pausen mit einbeziehen müssten. Interessanterweise weisen jedoch genau solche Grammatiken eigene Kategorien für die Responsive auf (Zifonun/ Hoffmann/ Strecker 1997, S. 63; Institut für Deutsche Sprache 2013; Hoffmann 2013, S. 54). Auch in der „Textgrammatik der deutschen Sprache“ wird ein eigenes Kapitel der „syntaktische[n] Affirmation und Negation“ (Weinrich 2005, S. 862) gewidmet. Inwiefern und auf welche Art man also die Klasse der Responsive von Interjektionen abgrenzen kann und was sie als eigene Klasse Satz-unabhängiger Einheiten auszeichnen könnte, wird folgend diskutiert. Äußerungen wie ja, nein, oder verschiedene Varianten des ein- oder zweigipfligen hm bzw. hmhm werden häufig als Antwortpartikeln, Backchannelsignale, Rückmeldepartikeln, Responsive in Antwortfunktion und rezeptionsbezogene Responsive bezeichnet. Sie sind alle Begriffe, die Satz-unabhängige Einheiten bezeichnen, die zur Affirmation und Negation anderer Beiträge im Gespräch dienen. Schon an der Varietät der Begriffe für diese Phänomene wird deutlich, dass auch hier wenig Einigkeit in Bezug auf die Begriffsdefinition und bezüglich der Konzepte, die unter diesen Begriffen verstanden werden, herrscht. Es erfolgt daher zunächst eine Gegenüberstellung der verschiedenen Definitionen, anhand derer eine Abgrenzung zu den Interjektionen diskutiert werden kann. Antwortpartikeln drücken Zustimmung oder Ablehnung aus. […] Antwortpartikeln sind im Gegensatz zu den meisten anderen Partikelarten (außer den Interjektionen und Onomatopoetika) satzwertig und bilden eine vollständige Äußerung. Sie sind immer betont. (Duden 2005, S. 596) Die Funktionsbestimmung der Antwortpartikeln ist bei der Duden-Grammatik ganz klar definiert: sie drücken entweder Zustimmung oder Ablehnung aus. Auf syntaktischer Ebene sind sie, wie auch die Interjektionen, Satzunabhängige Einheiten, was in der obigen Definition mit ihrer Beschreibung als „satzwertig“ ausgedrückt wird. Die Subklassifikation, die die Duden- Grammatik vornimmt, bezieht sich auf den Kontext, in denen die Responsive angewendet werden. Sie unterscheidet sie daher in „Antworten auf Entscheidungsfragen“ (ebd.) und „Antwortpartikeln als Reaktion (Bestätigung, Verstärkung, Einschränkung) auf einen Aussagesatz“ (ebd.). Die „Deutsche Grammatik“ Engels versteht unter dem Begriff Antwortpartikel nur Antworten auf Entscheidungsfragen und kategorisiert „Reaktive Partikeln (auf Feststellungen oder Aufforderungen)“ als eigene Klasse (Engel <?page no="121"?> Wortarten in der gesprochenen Sprache 121 2004, S. 439). Sowohl Reaktive Partikeln als auch Antwortpartikeln sind dort eigenständige Subklassifikationen der Satzäquivalente. Engel hat demzufolge einen wesentlich enger definierten Begriff der Antwortpartikel als die Duden-Grammatik. Auch in Hoffmanns „Deutscher Grammatik“ beschränkt sich die Definition der hier als Responsive bezeichneten Elemente auf die Funktion der Beantwortung von Entscheidungsfragen: „Das Responsiv (ja, nein) dient als Antwortausdruck nach Entscheidungsfragen, ohne einen eigenen Gedanken auszudrücken“ (Hoffmann 2013, S. 54). Elemente, die dem Konzept der Responsive entsprechen, finden sich in der „Textgrammatik der deutschen Sprache“ Weinrichs unter dem Begriff „Syntaktische Mittel der Affirmation und Negation“ (Weinrich 2005, S. 862). Sie sind definiert als Elemente, „durch die eine fragliche Geltung entweder bestätigt oder bestritten wird“ (ebd., S. 862). Diese Formulierung lässt sowohl ihre Interpretation als Antworten auf Entscheidungsfragen als auch als Reaktionen auf Aussagesätze zu, was sie nur sehr schwer von Interjektionen abgrenzbar machen würde (ebd., S. 865). In dem Kapitel über Affirmation und Negation in der „Textgrammatik der deutschen Sprache“ wird jedoch keine Klassifikation von Wortarten vorgenommen, vielmehr werden alle sprachlich möglichen Mittel beschrieben, die im Dialog zur Affirmation oder Negation dienen, seien sie implizit oder explizit. Die dort gemachten Beschreibungen dieser Elemente dienen daher wenig zur Abgrenzung einer Klasse von anderen Phänomenen. Ähnlich schwierig zum Vergleich mit anderen Klassifikationen gestaltet sich die Beschreibung solcher Phänomene bei Burkhardt, da er sie jeweils der Rolle der Gesprächsteilnehmer unterordnet. Er differenziert zwischen hörerseitigen und sprecherseitigen Partikeln. Die hörerseitigen Partikeln bezeichnet er auch als Rückmeldungspartikeln, welche er als eine Ausdrucksform des „back-channel behavior“ beschreibt (Burkhardt 1982b, S. 147). Die Funktionsbestimmung dieser Rückmeldungspartikeln definiert er folgendermaßen: „Ihre aktuelle Bedeutung und damit ihre Bedeutungsmöglichkeiten auf der Ebene der Langue können zwischen bloßer Ratifikation der Sprecherrolle und expliziter Zustimmung zum Gesagten graduell variieren“ (ebd., S. 148). Er führt aus, ihre Funktion sei es die Turn-Verteilung zu bestätigen, Aufmerksamkeit zu signalisieren sowie Verstehen oder Nicht-Verstehen und Zustimmung oder Ablehnung des Gesagten zu vermitteln (ebd.). Diese Definition umfasst demnach sowohl Antworten auf Entscheidungsfragen als auch Reaktionen auf Aussagesätze. In seiner Beschreibung der sprecherseitigen Partikeln ordnet er ebendiese Elemente der Klasse der Sprechhandlungspartikeln zu, die er hier darüber definiert, dass sie selbst eine Illokution voll- <?page no="122"?> Theoretische Grundlagen 122 ziehen können. Der Übersichtlichkeit halber sei das Zitat hier noch einmal wiederholt: Nimmt man diejenigen Partikeln, die Illokutionen selber vollziehen hinzu, wie z. B. „Satzwörter“ wie ja (Bejahung, Zustimmung), nee (Verneinung, Ablehnung) oder doch! (Widerspruch), Grußwörter wie hallo, tschüß, na, früher als Interjektionen bestimmte Wörter wie ach (Bedauern), oh (Erstaunen, Bedauern), aha (Informativitätsbestätigung, Erstaunen), wehe (Drohung, Warnung), pst (Stillegebot) oder sog. „Adverbien“ wie bitte und danke, so zeigt sich, daß man hier eine neue Funktionsklasse ansetzen müßte. Im Hinblick auf die lexikographische Praxis erscheint hier der Terminus Sprechhandlungspartikeln als relativ benutzerfreundlich. (Burkhardt 1982b, S. 154 f.) Burkhardt vergibt also für dieselben Elemente, je nachdem aus welcher Perspektive man sie betrachtet, verschiedene Begriffsbezeichnungen - Rückmeldungspartikeln und Sprechhandlungspartikeln -, die er zudem auf unterschiedliche Weise definiert. Er macht deutlich, dass die Sprechhandlungspartikeln und Rückmeldungspartikeln nicht zu den Interjektionen zählen, gibt jedoch keine Erklärung, nach welchen Kriterien sie voneinander abzugrenzen sind. Dass hier keine klare Abgrenzung möglich ist, wird auch dadurch noch einmal deutlich, dass Elemente, die er den „eigentlichen, emotiven Interjektionen“ zuordnet, wie beispielsweise „hoppla, huch, […] ah (erwartungsvolles Staunen)“ (ebd., S. 155), ebenso den Sprechhandlungspartikeln zugeordnet werden könnten, und das unter den Funktionen, die er „Erstaunen, Bedauern [und] […] Informativitätsbestätigung“ (ebd., S. 155) nennt. Kriterien für eine Abgrenzung der Interjektionen von Responsiven lassen sich also bei Burkhardt nicht finden. Auf der anderen Seite macht eine Untersuchung seiner Ausführungen deutlich, dass Beschreibungen, die Kriterien auf allen linguistischen Ebenen beinhalten, in diesem Falle auf sprechakttheoretischer Ebene, den Ebenen der Funktionsbestimmungen, syntaktischen und morphologischen Eigenschaften sowie der Einbezug von Turn-Taking-Strukturen, eine klare Definition unmöglich machen. Wie lassen sich nun aber Interjektionen von Responsiven abgrenzen? Eine Untersuchung der Definitionen von Responsiven in den Grammatiken, die eine Differenzierung der beiden Begriffe durch ihre Klassifikation zum Ausdruck bringen, lässt Antworten erwarten. Sowohl in der systematischen Grammatik des Leibniz-Instituts für Deutsche Sprache auf der Internetplattform Grammis 2.0 als auch in der GDS und in der Deutschen Grammatik Hoffmanns wird diese Subklassifikation der Satz-unabhängigen Einheiten in Interjektionen und Responsive vorgenommen. Ihre Definitionen der Interjektionen unterscheiden sich inhaltlich nur in wenigen Punkten. Hoffmann zieht zu seiner Definition noch Elemente der Theorie der Funktionalen Pragmatik hinzu (Coniglio 2012). Er beschreibt Interjektionen als „lenkende expeditive Prozedu- <?page no="123"?> Wortarten in der gesprochenen Sprache 123 ren“ (Hoffmann 2013, S. 53). Über Responsive schreibt er: „sie sind auch wie Interjektionen (paraexpeditiv) einsetzbar“ (Hoffmann 2013, S. 54). Im Gegensatz zu der GDS und der systematischen Grammatik Grammis 2.0 grenzt er jedoch die Funktionsbeschreibung der Responsive stark auf die Funktion der Beantwortung von Entscheidungsfragen ein, wie im oben genannten Zitat deutlich wurde. Er stellt damit heraus, dass Elemente beider Klassen im Lenkfeld anzuordnen sind, dass Responsive jedoch nur einen sehr eingeschränkten Funktionsrahmen haben. Auch wenn er die Responsive und Interjektionen als zwei verschiedene Klassen kategorisiert, wird bei einer Analyse der Definitionen dieser Klassen ersichtlich, dass Responsive eine nach ihrer Funktion eingeschränkte Teilklasse der Interjektionen sind, da auch die Beantwortung von Entscheidungsfragen „der Partnersteuerung dienen“ (ebd., S. 53) können. Auch die Definition in der systematischen Grammatik des Leibniz-Instituts für Deutsche Sprache auf der Internetplattform Grammis 2.0 unterscheidet dem Text nach Interjektionen allein anhand eines pragmatischen Kriteriums: der Reaktion auf Gesagtes im Kontext in Form von erwartbaren Handlungsmustern (Institut für Deutsche Sprache 2013). Es ist jedoch fraglich, ob sich diese Eigenschaft nicht unter dem Kriterium der Hörerlenkung im Sinne einer Handlungskoordination und Wissensorganisation subsumieren lässt. Man kann davon ausgehen, dass eine Antwort auf eine Entscheidungsfrage die Hörer*in insofern lenkt, als diese nun über den Wissensstand des Antwortenden in Kenntnis gesetzt wurde und nun in einer weiteren Handlung auf die Antwort reagieren kann. Nach der sehr weit gefassten Funktionsbestimmung der Interjektionen auf der Internetplattform lassen sich Responsive demnach unter diesen einordnen. Die GDS fügt der Definition der Responsive noch einen Zusatz hinzu, der auf Grammis 2.0 nicht zu finden ist, obwohl die Definitionen der Interjektionen und Responsive in beiden Grammatiken sonst nahezu identisch sind. Zu den RESPONSIVEN gehören Ausdrücke, die selbständig eine kommunikative Minimaleinheit bilden können, ein Handlungsmuster durch eine im Muster erwartbare Reaktion abschließen, nicht in einen Satz integrierbar und nur minimal ausbaufähig (ganz genau, ja gut) sind. Sie haben selbst keinen propositionalen Gehalt, sondern operieren auf kontextuellen sprachlichen Einheiten (z. B. vorhergehende Frage); insofern lassen sie sich dem Operationsfeld zuordnen [H. d. V.]. (Zifonun/ Hoffmann/ Strecker 1997, S. 63) Wie Hoffmann (2013) ziehen Zifonun/ Hoffmann/ Strecker (1997) die Ebene der funktionalen Pragmatik heran, um Responsive von den Interjektionen abzugrenzen. Im Gegensatz zu Hoffmann ordnen sie die Responsive nicht dem Lenkfeld, sondern dem Operationsfeld zu. Sie seien also nicht lenkend, son- <?page no="124"?> Theoretische Grundlagen 124 dern den Dialog aufbauend. Ehlich (2007), der seine Definition der Interjektionen und Responsive an der der Grammatik der deutschen Sprache anlehnt, expliziert dazu: Der Terminus hebt ab auf den Umstand, dass diese Ausdrücke in ihren basalen Verwendungen eine charakteristische Zweitstellung in einer elementaren Sprechhandlungssequenz (einer Abfolge mindestens zweier Sprechhandlungen mit einem systematisch erforderten Sprecher-Wechsel) aufweisen (lat. respondere, antworten). Sie bilden eine Teilgruppe der für Affirmation und Negation einsetzbaren sprachlichen Mittel. (Ehlich 2007, S. 437) Auch er assoziiert die Responsive mit dem Operationsfeld, nicht mit dem Lenkfeld. Man muss jedoch berücksichtigen, dass die Theorie der funktionalen Pragmatik nicht darauf abzielt, grammatische Klassen voneinander abzugrenzen, sondern vielmehr die funktionalen Eigenschaften einzelner Elemente beschreiben will. Es muss daher in Frage gestellt werden, ob eine Definition auf der Ebene der funktionalen Pragmatik für eine Differenzierung von Wortarten-Kategorien überhaupt zielführend ist. In den HSK werden Interjektionen als eine mögliche Form der Responsive dargestellt, die aber von den Antwortpartikeln abgegrenzt werden: Unterschiedliche Zeichen können als Antworten auf Fragen verwendet werden: Interjektionen (z. B. mh-mh, Schnalzlaute) nonverbale mimische und gestische Zeichen (z. B. Kopfschütteln, Handzeichen), aber auch spezielle Antwortpartikeln. […] Diese Antwortpartikeln können meist nur als Antwort gebraucht werden, sind also anaphorisch. (Hentschel/ Weydt 2002, S. 648 f.) Die Formulierung der Funktionsbestimmung der Antwortpartikeln zeigt, dass sie nur als Antwort auf Entscheidungsfragen dienen können, alle anderen verbalen responsiven Ausdrucksformen werden hier der Klasse der Interjektionen zugeordnet. Zusammenfassend lässt sich feststellen, dass eine Abgrenzung der beiden Klassen voneinander nur dann möglich ist, wenn man Responsive wie auch Interjektionen sehr eng definiert. Zieht man beispielsweise Definitionen der Interjektionen heran, die eine enger gefasste Funktionsbestimmung haben, beispielsweise die der Duden-Grammatik, lassen sich Antworten auf Entscheidungsfragen nicht darunter fassen, da sie weder Emotionen noch eine Bewertung des Sachverhalts ausdrücken. Reaktionen auf Aussagesätze würden in diesem Fall dennoch den Interjektionen zugeordnet werden müssen. Die Klasse der Responsive wäre nach einer solchen Definition sehr klein, da ihr nur Elemente zugeordnet werden könnten, die als Antwort auf Entscheidungsfragen dienen, also ja, nein und eventuell noch vielleicht doch auch bei diesen wäre es eventuell von der Intonation abhängig, denn es kann diskutiert werden, ob ein enthusiastisch ausgedrücktes ja oder ein <?page no="125"?> Wortarten in der gesprochenen Sprache 125 entrüstetes nein nicht vielleicht doch Emotionen ausdrücken können und in solchen Fällen unter die Definition der Klasse der Interjektionen fallen würden. Ob eine Abgrenzung der beiden Klassen voneinander für ein POS-Tagging sinnvoll ist bzw. sie praktikabel in einem automatisierten Verfahren umsetzbar ist, wird im Kapitel 3.7.4 „Erste Änderungen am Tagset und an den Guidelines“ dargelegt. 2.4.7.6 Filler Durchschnittlich macht man nach 11 bis 13 Silben eine „gefüllte“ (äh, öh, m: ) oder „stille“ Pause (Bose 1994, 121). Beide Pausentypen sind funktional nicht gleichwertig. Gefüllte Pausen gehören zu den Gesprächspartikeln […] sie signalisieren, dass der Sprecher die Sprecherrolle ergreifen bzw. behalten will. (Schwitalla 2012, S. 76) Der Klasse der Elemente, die man als gefüllte Pausen, Haltesignale oder Filler bezeichnen kann, wird in Grammatiken sehr wenig Beachtung geschenkt. Sie sind für eine umfassende Klassifikation der in gesprochener Sprache vorkommenden Elemente gerade wegen ihrer Häufigkeit jedoch von großer Bedeutung, denn es kommt ihnen eine wichtige Rolle im Gesprächsaufbau zu. Dennoch werden diese Elemente nicht unbedingt wissentlich geäußert, im Gegenteil werden die meisten unbewusst produziert (Quasthoff 1979, S. 44), und vor allem auch unbewusst rezipiert: Es „ist erwiesen, daß ‚Verzögerungsphänomene‘ - Strukturierungsindikatoren in unserem Sinne - bei der Perzeption weitgehend ausgefiltert werden (z. B. Voss 1977), also i. a. semantisch nicht relevant sind“ (Quasthoff 1979, S. 43). Aus diesem Grunde wird nach wie vor kontrovers diskutiert, wie das Phänomen grammatisch einzuordnen sei. Einige vertreten dabei die Ansicht, dass Elemente wie äh oder öhm als linguistische Einheiten zu behandeln seien und zählen sie zu der Wortart der Interjektionen. Andere wiederum sehen solche Elemente „als Verzögerungsphänomen nicht zur Klasse der normalen lexikalischen Einheiten [gehörend], sondern […] [als] ein ‚neutraler Laut‘, der produziert wird, wenn der Sprechfluß anläßlich eines Produktionsproblems unterbrochen wird“ (Keseling 1989, S. 576). Dem ist entgegenzuhalten, dass sie einzelsprachlich je eine verschiedene Phonetik aufweisen und somit offensichtlich schwer als „neutrale Laute“ zu behandeln sind. Aus obigem Zitat geht hervor, dass Schwitalla sie den Gesprächspartikeln zuordnet. Er begründet dies aufgrund verschiedener Funktionen, die diese Elemente für das Gespräch haben. Ihm zufolge werden sie nicht nur produziert, wenn Sprecher*innen Wortfindungsprobleme haben, das Rederecht aber nicht abgeben wollen (siehe auch Weinrich 2005, S. 833; Duden 2005, S. 595), <?page no="126"?> Theoretische Grundlagen 126 sondern können auch rhetorisch genutzt werden „um unwilliges oder vorsichtiges Sprechen anzuzeigen […] und um spannungsvolle Verzögerungen von einer wichtigen Information zu schaffen“ (Schwitalla 2012, S. 76). Sie sind also typische Phänomene der Produktion dispräferierter Turns. Auch Schegloff (2010) zeigt in seinem Artikel „Some other uh(m)s“ die verschiedenen Verwendungsmöglichkeiten dieser Elemente auf. Neben den bereits genannten drei Verwendungsmöglichkeiten fügt er noch eine vierte hinzu, die Nutzung des Elements, um einen Turn zu beenden: „[It] serves to (re-)enact the speakers’ commitment to exit the extended turn or sequence“ (ebd., S. 140). Dies bezieht er beispielsweise auf solche Fälle, bei denen Sprecher*innen zunächst den Turn beenden, ihm dann noch eine Konjunktion oder Ähnliches folgen lassen, dann aber der Projektion keine Erfüllung folgen lassen können oder möchten. In solchen Fällen zeigt das Element nicht an, dass die Sprecher*in weitersprechen möchte, sondern genau das Gegenteil, dass er oder sie, trotz einer offenen Projektion, den Turn beenden möchte (ebd., S. 140 f.). Solchen Definitionen liegt selten eine korpuslinguistische Untersuchung zugrunde. Inwiefern Filler all diese Funktionen erfüllen und welche Verwendung der prototypische Gebrauch ist, ließe sich anhand eines Korpus wie FOLK sicherlich in Zukunft untersuchen. Die Duden-Grammatik klassifiziert solche Elemente als Haltesignale und ordnet sie den Gliederungspartikeln unter und diese wiederum den Gesprächspartikeln. Zifonun/ Hoffmann/ Strecker (1997) definieren sie als Subklassen der Interjektionen und fassen jede Form der Elemente als eine Klasse zusammen. Sie ordnen sie deshalb den Interjektionen unter, da „der Sprecher Interjektionen der Klassen ÄH, HM, NA, ACH oder [auch] funktionsäquivalent gebrauchte Ausdrücke wie tja oder okay als ‚Pausenfüller‘ einsetzen [kann]“ (ebd., S. 240). Tatsächlich wird deutlich, dass man für jede der oben genannten Funktionen auch eine Interjektion einsetzen könnte. Genau wie die Interjektionen können sie der Lenkung der Sprecher*innen hinsichtlich der Handlungssteuerung und Wissenskoordination dienen: Beispielsweise kann eine gefüllte Pause der Hörer*in signalisieren, dass die Sprecher*in folgend noch weiterreden möchte. Fraglich ist jedoch, ob sie dennoch der gleichen Kategorie zuzuordnen sind. So könnte man einerseits argumentieren, dass die Verwendung von Interjektionen in diesem Zusammenhang bewusster ist als die von einem einfachen Hesitationssignal wie äh. Zudem müsste man die Semantik anders beschreiben, schwingt doch bei Interjektionen, auch wenn sie explizit zur Dehnung oder Verzögerung eingesetzt werden, immer auch ihre Grundsemantik mit. Eher noch kann man diese Klasse von Elementen über ihre Formen definieren. Weinrich beschreibt sie als eine individuell in Qualität und Dehnung geprägte vokalische Lautform (Weinrich 2005, S. 833). Man könnte ihre Form <?page no="127"?> Wortarten in der gesprochenen Sprache 127 darüber definieren, dass sie entweder aus einem gedehnten offenen Vokal bestehen, oder aus einem gedehnten Nasal, oder dass sie in dieser Reihenfolge aufeinander folgen. Diese sehr offene Definition rührt auch daher, dass der „Einsatz dieser Mittel sich der bewußten Kontrolle weitgehend entzieht“ (Quasthoff 1979, S. 44) und die Produktion daher durch einen anhaltenden Luftstrom mit entweder geschlossenem oder offenem Mund zustande kommt. Allerdings ist hier den Elementen, die intentional geäußert werden, kaum Rechnung getragen. Zudem wird, wie bereits erwähnt, auch bei Interjektionen die Form als Differenzierungskriterium kontrovers diskutiert. Zusammenfassend kann man feststellen, dass die Elemente, welche Funktion sie auch immer einnehmen mögen, unter die Definition der Satz-unabhängigen Einheiten gefasst werden können, auch wenn sie, wie beispielsweise die Interjektionen, nicht zwangsläufig einen eigenen Turn ausmachen. Ob sie anhand des Kriteriums, dass sie nicht immer bewusst geäußert werden, - welches kein empirisches Kriterium sein kann - oder aufgrund ihrer Form eine eigene Klasse unabhängig der Interjektionen bilden, hängt davon ab, welche Definition der Interjektionen man voraussetzt. Für ein Part-of-Speech-Tagging der gesprochenen Sprache muss daher diskutiert werden, ob man sie der Kategorie der Interjektionen unterordnet oder ihnen eine eigene Kategorie im Rahmen der Satz-unabhängigen Einheiten schafft. 2.4.8 Satz externe Elemente Neben den Satz-unabhängigen Elementen und den Partikeln gibt es eine Gruppe von Elementen, die weder selbstständig stehen, also generell unabhängig von einem Satz sind, noch in den konzeptionellen Aufbau des Satzes eingebunden sind. Dies bedeutet, dass sie einerseits keine Rektion ausüben und auch nicht von Rektion betroffen sind, andererseits auf rein distributioneller Ebene nicht innerhalb einer Konstruktion (NP, VP etc.) stehen oder diese modifizieren. Gemeint sind Äußerungs-Elemente wie: (1) Also , ich bin jetzt soweit. (2) Das geht doch, ne ? Diese werden in der Literatur als Operator-Skopus-Strukturen oder Diskursmarker bezeichnet (1) bzw. als Rückversicherungspartikeln oder Tag Questions (2). Sie sind vor allem in der Analyse gesprochener Sprache von großer Bedeutung. Diese Elemente werden in den Grammatiken nicht als eigene Klassen bezeichnet. Vielmehr finden sich in den Klassifizierungen Elemente und Definitionen von Subkategorien im Bereich der Partikeln und selbstständigen interaktiven Einheiten bzw. Interjektionen wieder, die man den Diskursmarkern zuschreiben kann. Im Folgenden sollen diese Beschreibungen <?page no="128"?> Theoretische Grundlagen 128 beleuchtet werden und anhand einer Definition von Tag Questions und Diskursmarkern soll die Notwendigkeit der Abgrenzung dieser Elemente von den Satz-unabhängigen Elementen und den Partikeln verdeutlicht werden. Auch hier muss wiederum darauf hingewiesen werden, dass in der gesprochenen Sprache nicht vom klassischen Satzkonzept ausgegangen werden kann. Mit den Ausdrücken Satz-unabhängig und Satz-extern sind hier Trägerstrukturen gemeint, die man vielleicht eher als satzwertige Einheiten bezeichnen kann denn als Satz, da sie weder die Präsenz eines Subjekts, noch die eines Verbs erfordern. Ebenso wie für die Klassifikation der Partikeln spielt auch bei diesen Elementen die Theorie der topologischen Felder (siehe dazu auch das Kapitel 2.4.2 „Exkurs: topologisches Satzmodell“) eine Rolle. Die Elemente, die hier untersucht werden sollen, sind sogenannte Vor-Vorfeld-Elemente und Elemente des rechten Außenfeldes. Von Interesse ist dabei, inwiefern die Elemente, die gemeinhin als Diskursmarker bezeichnet werden, von anderen Vor-Vorfeld-Elementen abgrenzbar sind und man sie als eigene Wortart kategorisieren kann. Zunächst wird daher definiert, was als Vor-Vorfeld-Element zu verstehen ist, um dann diesen Begriff von dem der Operator-Skopus-Strukturen abgrenzen zu können, um schließlich innerhalb dieser Gruppe herausarbeiten zu können, was davon als Diskursmarker zu definieren ist. Die Abgrenzung dieser Elemente zu distributionell ähnlich verteilten Elementen ist daher wichtig, weil man nur so den Wortarten-Status dieser Elemente begründen kann, der für ein Wortarten- Tagging notwendige Voraussetzung ist. Danach werden die Elemente des rechten Außenfeldes genauer definiert und eine Klassifikation der darin enthaltenen Elemente vorgenommen. 2.4.8.1 Äußerungsinitiale Elemente 2.4.8.1.1 Vor - Vorfeld - Elemente und ihre Bezeichnungen Wie bei den Satz-unabhängigen Elementen sind bei den Vor-Vorfeld-Elementen Beschreibungsansätze auf verschiedenen linguistischen Ebenen zu beobachten. Die Internetplattform Grammis 2.0 und Pittner/ Berman (2013) beschreiben auf rein syntaktischer, distributioneller Ebene, dass es Elemente im Vor-Vorfeld gibt, definieren sie aber nur sehr vage bzw. nur in Hinblick auf den schriftsprachlichen Gebrauch. Thim-Mabrey (1988), Burkhardt (1982b), Barden/ Elstermann/ Fiehler (2001), Schwitalla (2012), die HSK (Hentschel 2002), Weinrich (2005), die GDS (Zifonun/ Hoffmann/ Strecker 1997) und die Duden-Grammatik (2009) beschreiben die Elemente auf der rein pragmatischen Ebene. Sie alle heben die gesprächsstrukturierende und metakommunikative Funktion dieser Elemente hervor. Viele andere, wie zum Beispiel Auer <?page no="129"?> Wortarten in der gesprochenen Sprache 129 (1997), Diewald (2006), Imo (2012, 2013) und Günthner (2015), beschreiben die Phänomene auf der pragmatischen Ebene sowie auf einer distributionellen, syntaktischen Ebene und stellen die Verbindung der distributionellen Eigenschaften mit den pragmatischen Funktionen dieser Elemente heraus. Ihre Definitionen und Kategorisierungen sind es, auf die im Folgenden näher eingegangen wird, da sie Ansatzpunkte für eine distributionelle Klassifikation bieten. Vor allem Auer (1997) und Günthner (2005) befassen sich mit der Abgrenzung dieser Elemente zu ihren Homonymen in anderen Wortklassen und verweisen auf die Rolle der Grammatikalisierung dieser Elemente. Auch darauf soll im Folgenden genauer eingegangen werden, denn der Grammatikalisierungsstatus dieser Elemente bildet die Grundlage für eine Einordnung derselben in eine eigene, von den Homonymen unabhängige Wortartenklassifikation, wie sie auch Imo (2012) postuliert. Ebenfalls von Interesse sein wird die Rolle der Prosodie für eine Definition dieser Elemente. Die Frage, ob sie prosodisch oder intonatorisch vom Rest der Äußerung abgesetzt sind, gilt bei Auer (1997), Barden/ Elstermann/ Fiehler (2001) und Imo (2012) als Kriterium der Differenzierung von anderen Wortarten, bzw. zumindest als Indikator. Auch dies findet im Folgenden Berücksichtigung. Zunächst wird jedoch zusammengetragen, inwiefern Grammatiken für das Deutsche (Duden, GDS, Textgrammatik der deutschen Sprache) und einschlägige Werke zur Beschreibung von deutscher Syntax (Pittner/ Berman 2013), Lexikografie (Burkhardt 1985) oder zu Phänomenen gesprochener Sprache (Schwitalla 2012, S. 148) diese Elemente definieren und kategorisieren. Die wohl unspezifischste und zugleich die größte Gruppe von Elementen umfassende Bezeichnung für oben genannte Elemente ist die der Vor-Vorfeld-Konstruktionen, die sich allein an der distributionellen Eigenschaft dieser Elemente festmacht. Diese Eigenschaft kennzeichnet, dass Elemente vor einer als syntaktisch vollständig zu bezeichnenden Äußerung stehen. Ähnliche Termini, die jedoch synonym dazu verwendet werden, sind beispielsweise „linkes Außenfeld“ (Institut für Deutsche Sprache 2010a) oder „Vorschaltelemente“ (Schwitalla 2012, S. 148). So umschließen diese Bezeichnungen neben Diskursmarkern und anderen Operatoren auch „Konjunktionen, Interjektionen, […] Adverbien, Konjunktionaladverbien, feste[n] Wortverbindungen, Anredeformen, Imperative[n] und sogar Sätze[n]“ (ebd.). Die Internetplattform Grammis 2.0 geht nicht präziser auf die Elemente ein, die an dieser Stelle stehen können. Es wird vage postuliert, dass „Interaktive Einheiten“, „koordinierende Ausdrücke“, „Thematisierungsausdrücke“ und „Zusätze“ (Institut für Deutsche Sprache 2010a, 2010b) diese Position besetzen können. Eine Differenzierung, inwiefern diese Elemente semantisch oder pragmatisch an die Äußerung gebunden sind, wird dort nicht vorgenommen. <?page no="130"?> Theoretische Grundlagen 130 In ihrem Kapitel „Besonderheiten bei der Vorfeldbesetzung: Ausnahmen von der Verbzweitregel? “ gehen Pittner/ Berman (2013) auf die Problematik ein, dass es manchmal Abweichungen von der Verbzweitregel gibt, wie beispielsweise deiktische Elemente oder mehrere Adverbiale vor dem Vorfeld. Diese betrachten sie allerdings als seltene Konstruktionen, da man sie nur in „sehr wenigen, stark literarischen“ Beispielen finde (ebd., S. 85 f.). Hier wird deutlich, dass sich das Werk zur Einführung in die deutsche Syntax vornehmlich auf Schriftsprache bezieht. Bei den Möglichkeiten für etwaige Vor-Vorfeld- Besetzungen beschreiben sie ebenfalls eher schriftsprachliche Phänomene bzw. Elemente, die auch in der Schriftsprache regelkonform im Vor-Vorfeld stehen, wie beispielsweise Konjunktionen: Vor dem Vorfeld (im „Vor-Vorfeld“) gibt es also noch eine Position für koordinierende Konjunktionen (KOOR) und eine Position für linksversetzte Konstituenten (LV). Tritt sowohl eine koordinierende Konjunktion als auch eine linksversetzte Konstituente auf, so ist die Abfolge koordinierende Konjunktion vor Linksversetzung. (ebd., S. 87) Auf Diskursmarker oder andere Elemente, die nicht als Konstituente des Satzes oder als Konjunktion bezeichnet werden können, gehen sie nicht ein. Im Gegensatz dazu stellt Schwitalla (2012) auf pragmatischer Ebene heraus, dass es eine typisch gesprochensprachliche Äußerungsanordnung ist […], vor der eigentlichen Ausführung kleine Elemente zu setzen, die sich sowohl semantisch-pragmatisch auf die vorhergehende (monologische oder dialogische) Rede zurückbeziehen, wie auch verstehensanleitende Vorausweisungen auf den unmittelbar folgenden Sprechakt zu geben. (ebd., S. 147) Auch die aktuelle Ausgabe der Duden-Grammatik bleibt im Kapitel „Wortstellung: Die Abfolge von Satzgliedern und Prädikatsteilen im Satz“ zum Vor-Vorfeld recht vage: Sätze können um einen zusätzlichen Bereich noch vor dem Vorfeld erweitert sein; man spricht dann von einem Vorvorfeld. Das gilt besonders für die gesprochene Sprache. Im Vorvorfeld können Ausdrücke stehen, die das Thema im Sinne der funktionalen Satzperspektive nennen. […] Im Vorvorfeld können Ausdrücke stehen, die den Rest des Satzes kommentieren. (Duden 2009, S. 885) Im Gegensatz zu Grammis 2.0 expliziert die Duden-Grammatik neben Thematisierungen und Satzäquivalenten, womit Interjektionen und Anredeformen gemeint sind, dass das Vor-Vorfeld ebenfalls die Position für eine Kommentierungsfunktion ist, die sie weiterhin untergliedert in Sprechereinstellung, irrelevante Faktoren und Parakonjunktionen (ebd., S. 885 f.). Eine genauere Definition dieser Termini gibt es jedoch nicht. Auch wird deutlich, dass, bis auf Parakonjunktionen, die Kommentierungen auch aus ganzen <?page no="131"?> Wortarten in der gesprochenen Sprache 131 Sätzen bestehen können, wie beispielsweise „um es freundlich auszudrücken“ (Sprechereinstellung) oder „Wer auch immer anruft“ (irrelevante Faktoren) (ebd., S. 885). Eine klarere Vorstellung, was diese Klassen alles umschließen und wie sie sich von anderen abgrenzen lassen, wird aus diesen Beispielen nicht ersichtlich. Parakonjunktionen werden an dieser Stelle auch nicht genauer definiert, jedoch an anderer Stelle eingehender beschrieben, dort wird auch auf ihre distributionellen Eigenschaften Bezug genommen: Beiordnende Konjunktionen und Partikeln, die sich auf den ganzen Satz oder das ganze Satzgefüge beziehen, besetzen kein eigenes Feld, sondern lehnen sich je nachdem an das Vorfeld oder an die linke Satzklammer an. (ebd., S. 886) Jedoch werden hier ebenso die Elemente mit eingeschlossen, die an anderer Stelle als Gesprächspartikeln bezeichnet werden. Bei der Diskussion von ursprünglich subordinierenden Konjunktionen mit Verbzweitstellung wird etwas präziser auf deren Verwendung als Operatoren bzw. Diskursmarker hingewiesen: Bei dieser Verwendung verändern sich allerdings auch die Bedeutung und die funktionalen Einsatzmöglichkeiten dieser Ausdrücke. Es ist deshalb umstritten, ob sie weiterhin als Subjunktion behandelt werden können. Sie werden in dieser Verwendung auch als Operatoren bzw. als Diskursmarker (Günthner 1999) gedeutet. (ebd., S. 1206) Der Begriff Operator wird in der Duden-Grammatik im Zusammenhang einer Beschreibung der gesprochenen Sprache zwar behandelt, eine eigene Wortartenklasse wird diesen Elementen aber nicht zugewiesen. Da sich die Ausführungen zu den Operatoren mit denen von Barden/ Elstermann/ Fiehler (2001) und Fiehler et al. (2004) decken, soll nach der Diskussion dieses Aufsatzes noch einmal darauf eingegangen werden. Parakonjunktionen und Diskursmarker werden in der Duden-Grammatik im Zusammenhang einer Beschreibung der gesprochenen Sprache zwar genannt, aber nicht näher definiert (Duden 2009, S. 885). Auch auf sie soll in den folgenden Kapiteln noch näher eingegangen werden, da sie sich auf die Definitionen von Barden/ Elstermann/ Fiehler (2001), Fiehler et al. (2004) und Thim-Mabrey (1988) beziehen. Sucht man nach Beispielen für die Elemente, die als Satz-externe Elemente beschrieben werden sollen, findet man sie neben den Beschreibungen von Subjunktionen als Parakonjunktionen oder Konjunktionen beispielsweise auch bei den Beschreibungen von Adverbien, Konjunktionaladverbien und Präpositionaladverbien (Duden 2009, S. 586, 1050 f., 1067, 1071) und weiterhin bei der Beschreibung der abhängigen Verbzweitkonstruktionen, die zu den Operator-Skopus-Strukturen gezählt werden (ebd., S. 1205 f.). An anderer Stelle wird man ebenfalls unter der Kategorie Gesprächspartikeln (und äquivalente Mehrwortfügungen) fündig, die in dem Kapitel „Besonderheiten gesprochener Sprache“ behandelt werden. Es wird zwischen „sprecher- <?page no="132"?> Theoretische Grundlagen 132 seitigen Gesprächspartikeln und andererseits als reaktive Aktivität vom jeweiligen Hörer geäußerte hörerseitigen Gesprächspartikeln“ (ebd., S. 1216) unterschieden. Die Gruppe, die als Startsignale bezeichnet werden, umfasst Interjektionen, Responsive, aber auch Elemente, die man zu der Klasse der Diskursmarker zählen könnte, z. B. also und nun (ebd., S. 1216). Es wird also nicht differenziert zwischen potenziellen selbstständigen Elementen, wie beispielsweise Interjektionen und Responsive, die eine eigene (responsive) Handlung vollziehen, und solchen Elementen, die eine Rahmungsfunktion für die folgende Äußerung haben und somit außerhalb des Kontexts keine eigene Handlung vollziehen. Insgesamt schlägt die Duden-Grammatik demnach ein Sammelsurium von Termini vor, die Vor-Vorfeld-Ausdrücke aller Art bezeichnen können. Eine klare Differenzierung dieser Elemente, die als Grundlage für eine Wortartenklassifikation dienen könnte, nimmt sie jedoch nicht vor. Weinrich (2005) geht von einer rein pragmatisch orientierten Kategorisierung der Partikeln für ihre Funktionen im Dialog aus. Eine besondere Bedeutung für die Dialogsteuerung haben die Dialogpartikeln. Das sind kurze, invariante Sprachzeichen, die aber je nach ihrer Placierung [sic! ] im Dialog unterschiedlich gedehnt und intoniert sein können. (ebd., S. 835) Nach der „Textgrammatik der deutschen Sprache“ ist eine Differenzierung zwischen den in dieser Arbeit als Satz-extern bezeichneten Elementen und als Satz-unabhängige Elemente definierten Gruppe sehr schwierig. Weinrich beschreibt einerseits die Gruppe „Signale der Rollenverteilung im Dialog“, in der er zwischen Sprecher- und Hörersignalen unterscheidet. Die Sprechersignale unterteilt er in Fortsetzungssignale, die den Beispielen nach im Vor- Vorfeld stehen, und Beendigungssignale (rechtes Außenfeld); die Hörersignale unterteilt er in Stützungssignale und Übernahmesignale. Beispiele, die er als Fortsetzungssignale benennt, sind eben solche Elemente, die man auch als Operatoren oder Diskursmarker bezeichnen könnte. Bei den Beendigungssignalen beschreibt er neben denen, die Vagheit anzeigen (und so, oder so), auch Vergewisserungssignale, die man auch als Nachfeld-Elemente oder Tag Questions bezeichnen kann. Andererseits beschreibt er eine Gruppe von Elementen, die er Dialogpartikeln nennt und die er weder der Sprechernoch der Hörerrolle zuschreibt. Die Gruppe der Elemente, die er als Dialogpartikeln bezeichnet, ist schwieriger einzuordnen, da sie Elemente umfasst, die er an anderer Stelle auch als Interjektionen bezeichnet (tja, ach, aha, ah, naja etc.), solche, die man als Responsive kategorisieren kann (ja, nein, doch), aber auch die Form also, die man in einigen Fällen als Diskursmarker verstehen kann (ebd., S. 835-840). Er definiert den Begriff Dialogpartikel nicht genauer, stattdessen werden beispielhaft einige Partikeln angeführt und deren Funktion <?page no="133"?> Wortarten in der gesprochenen Sprache 133 erläutert, die der der Gliederungspartikeln im Duden ähnlich scheint. Auch die Form ja bezeichnet er als Gliederungspartikel (ebd., S. 836). Er bemerkt dabei selbst, dass einige Dialogpartikeln auch als Interjektionen gebraucht werden (ebd., S. 837). Eine Abgrenzung dieser Klassen voneinander nimmt er aber nicht vor. Wie bereits in der Diskussion um die Definition der Interjektionen und Responsive gezeigt, eignet sich seine rein nach pragmatischen Kriterien aufgestellte Klassifikation wenig dazu, Kriterien für eine klare Definition von Wortarten abzuleiten. Burkhardt (1982b) referiert nicht auf Vor-Vorfeld-Elemente, man kann jedoch annehmen, dass sie unter der Klasse der gesprächsstrukturierenden Signale subsumiert werden können. Innerhalb dieser sind sie der Subklasse der gesprächsschritteinleitenden Gliederungspartikeln zuzuordnen. Diese sollen zur Kontaktaufnahme dienen, einen Gesprächsschritt einleiten, „auf vorher Gesagtes, Getanes und/ oder auf Folgehandlungen oder -gesprächsakte“ anaphorisch oder kataphorisch referieren und als Sicherung der Aufmerksamkeit und Zustimmung fungieren (Burkhardt 1982b, S. 148 f.). Burkhardt differenziert hier nicht nach syntaktischen oder distributionellen Kriterien. Die gesprächsschritteinleitenden Gliederungspartikeln lassen sich nach seiner Definition von den Sprechhandlungspartikeln derart abgrenzen, dass sie keine eigene Illokution vollziehen. Jedoch ist fraglich, wie nach dieser Definition seine emotiven Interjektionen von den gesprächsschritteinleitenden Gliederungspartikeln abzugrenzen sind, können sie doch genauso zur Sicherung der Aufmerksamkeit eingesetzt werden, referieren auf zuvor Gesagtes oder auf Nachfolgendes und beanspruchen die Aufmerksamkeit der Hörer*innen. Daraus könnte man folgern, dass Burkhardts Interjektionen zugleich auch immer der Gruppe der gesprächsstrukturierenden Signale zuzuordnen sind. Die Abgrenzung ist speziell schwierig zwischen dem, was er als emotive Interjektionen definiert, und dem, was er unter abtönenden Gliederungspartikeln versteht. Gerade in der Funktion der Abtönung besteht auch immer eine positive oder negative Wertung bzw. emotionale Haltung dem Gesagten gegenüber. Diese Problematik wird von ihm zwar angesprochen, aber eine Antwort für eine Methode der Differenzierung gibt er nicht: Die Frage, ob gesprächsschritteinleitende Partikeln wie naja, tja, na und ja unter bestimmten, v. a. intonatorischen und kontextuellen, Bedingungen als satzassoziierte Abtönungspartikel oder als abtönende Gliederungspartikel aufzufassen sein können, […] ist dabei weitgehend eine Frage der Wahl eines semantischen oder eines syntaktischen Ansatzes. (ebd., S. 157) Auch die GDS (Zifonun/ Hoffmann/ Strecker 1997) behandelt Satz-externe Elemente unter einem diskurspragmatischem Ansatz. Eine Definition der Begriffe Vor-Vorfeld-Elemente, Diskursmarker oder ähnliches findet sich dort jedoch nicht. Man könnte sie jedoch der Klasse der Geltungsneutralen <?page no="134"?> Theoretische Grundlagen 134 Diktumserweiterung zuordnen, welche wiederum nach Diskursorganisatoren, Handlungsbezogener Kommentierung und Wertung und Abtönung differenziert wird. Die beiden ersten Kategorien scheinen für die Untersuchung von Satz-Elementen interessant. Abtönungspartikeln wurden bereits im Kapitel 2.4.6 „Satz-interne Partikeln“ diskutiert. Diskursorganisatoren definiert die GDS folgendermaßen: Um das Verstehen der Zusammenhänge und damit auch des Sinns der einzelnen Handlungen zu sichern, können Dikta mit einem Hinweis versehen werden, der ihre Stellung in einer Interaktionssequenz deutlich macht. Diskursorganisatoren unterstützen die Organisation von Gesprächen, ohne in die Geltungsbedingungen einzugreifen, die mit ihren Basisdikta verbunden sind, und ohne zusätzliche Geltungsbedingungen einzuführen. Eine Aussage, die einen Diskursorganisator einschließt, kann nie deshalb falsch, jedoch in anderer Weise unangemessen sein. (Zifonun/ Hoffmann/ Strecker 1997, S. 899) Diese Definition hebt zwei sehr wichtige Eigenschaften dieser Elemente hervor: Erstens sind sie mit ihren Basisdikta verbunden - auch wenn hier nicht genauer expliziert ist, auf welche Art und Weise; zweitens haben sie keine Auswirkung auf den Wahrheitsgehalt des Bezugs-Diktums, können jedoch unangemessen sein. Unangemessen in der Weise, als dass sie eine bestimmte Projektion in Bezug auf das, was im Folgenden ausgedrückt werden soll, eröffnen. Folgt dies nicht, ist der Diskursorganisator unangemessen verwendet. Wie noch gezeigt wird, ähneln sie auf funktionaler Ebene den von Barden/ Elstermann/ Fiehler (2001) und Fiehler et al. (2004) beschriebenen Operator- Skopus-Strukturen. Aus den Beispielen wird jedoch klar, dass es sich hierbei nicht um Vor-Vorfeld-Konstruktionen handeln kann, denn die Diskursorganisatoren stehen im Vorfeld oder parenthetisch innerhalb der Äußerungen. Die Beispiele dessen, was unter handlungsbezogene Kommentierung und Wertung beschrieben wird, sind, abgesehen von den nachgestellten und parenthetisch eingefügten Äußerungen, Vor-Vorfeld-Konstruktionen. Vorzugsweise in spontaner mündlicher Rede finden sich daneben auch Bemerkungen, die nicht dem Sachverhalt, sondern der Handlung gelten, die mit der Äußerung einer kommunikativen Minimaleinheit vollzogen wird. Solche handlungsbezogenen Kommentierungen und Wertungen können verschiedenste Aspekte kommunikativer Handlungen betreffen. Geltungsneutral sind sie im Hinblick auf sachverhaltsbezogene Geltungsansprüche. Sie können sich jedoch modifizierend auf die Handlungen auswirken, die mit ihnen verbunden werden: Was ohne Kommentierung als Behauptung zu verstehen wäre, kann kommentiert unter Umständen nur noch als Mutmaßung gelten. (Zifonun/ Hoffmann/ Strecker 1997, S. 900) <?page no="135"?> Wortarten in der gesprochenen Sprache 135 Diese Kommentierungsfunktion ist zentral für die Funktionsbeschreibung von Vor-Vorfeld-Ausdrücken, wie beispielsweise von Thim-Mabrey (1988) beschrieben. Formale Eigenschaften dieser Ausdrücke werden, wie aus den Beispielen ersichtlich ist, hier jedoch nicht definiert. Aus dieser Übersicht wird deutlich, dass die traditionellen Grammatiken sich dem Phänomen Vor-Vorfeld-Elemente nicht derart annehmen, dass man daraus eine Klassifikation im Sinne eines POS-Taggings ableiten kann, da sie diese Elemente weder genauer definieren, noch aus den Ausführungen dazu deutlich wird, ob man sie als eine eigene Wortart klassifizieren kann oder nicht. An dieser Stelle ist daher eine eingehende Analyse der Literatur zu Vor- Vorfeld-Elementen, Operator-Skopus-Strukturen und Diskursmarkern notwendig, um herauszufinden, wie Elemente, die in dieser Position stehen, zu klassifizieren sind. 2.4.8.1.2 Vor - Vorfeld Schon Thim-Mabrey (1988) verwendet den Ausdruck Vor-Vorfeld-Ausdrücke und grenzt sie von anderen Formen der Metakommunikation, insbesondere von metakommunikativen Sätzen ab. Sie stellt dabei heraus, dass Vor-Vorfeld-Ausdrücke sich allein auf die folgenden Äußerungen desselben Sprechers beziehen und keine partnerorientierten Funktionen einnehmen können (ebd., S. 54). Metakommunikative Sätze hingegen können sich einerseits auch auf vorhergehende Äußerungen des Sprechers beziehen, andererseits aber auch partnerorientierte Funktionen erfüllen, wie beispielsweise „Nachfragen und Auffordern zu[m Unterlassen von] Sprechhandlungen“ (ebd.). Des Weiteren zeigt sie auf, dass es sich bei Vor-Vorfeld-Ausdrücken weder um Ellipsen, noch um syntaktisch selbstständige Elemente handelt, sondern dass sie strukturell abhängig vom Folgesatz sind: Eine echte Satzellipse im Sinne einer einzigen zugrundeliegenden Struktur zu postulieren, als deren Elemente alle Vorvorfeld-Ausdrücke aufgefaßt werden können, ist somit nicht vertretbar. […] Vor-Vorfeld-Ausdrücke sind keine Elemente von Matrixsätzen, in die der Folgesatz strukturell eingebettet ist. Andererseits kann das Vor-Vorfeld auch nicht als Feld für strukturell unabhängige Einheiten betrachtet werden. (ebd., S. 63) Thim-Mabrey argumentiert weiter, dass Vor-Vorfeld-Ausdrücke strukturell Teil des Satzes sein müssen, da es ihrer Ansicht nach immer möglich ist, zwischen sie und den Rest des Satzes Parenthesen einzuschieben. „Parenthesenischen“ aber existieren nur innerhalb der Einheit Satz. Vorvorfeld Ausdrücke sind somit als Teil dieser Einheit zu definieren. Diese syntaktische Problematik soll hier jedoch nicht behandelt werden. (ebd., S. 64) <?page no="136"?> Theoretische Grundlagen 136 Sie stellt eine Typologie möglicher Vor-Vorfeld-Ausdrücke auf und teilt diese in sechs Gruppen ein, die jedoch taxonomisch teils auf unterschiedlichen linguistischen Ebenen liegen, was diese Einteilung wenig konsistent erscheinen lässt. Die erste Gruppe ist die der Parakonjunktionen. Diese beschreibt sie als unflektierbare Wörter, die ausschließlich in der Vor-Vorfeld-Position ihre metakommunikative Funktion erhalten und „mit besonderen intonatorischen Merkmalen verbunden werden können: fallendes Tonmuster, Akzent und anschließende Pause. Para-Konjunktionen sind z. B. allerdings, dennoch, jedoch, nur und übrigens“ (ebd., S. 54 f.). Die zweite Gruppe ist die der Sprecherabsichten. Durch sie kann die Sprecher*in ausdrücken, dass „er [oder sie] für die Folgeäußerung eine bestimmte Zielsetzung angibt“ (ebd., S. 55), beispielsweise die der Ankündigung von Paraphrasen oder Korrekturen oder die Anordnung des Gesagten. Die dritte Gruppe ist die der da- oder weil-Sätze, „die erklären können, wodurch sich der Sprecher zur folgenden Äußerung motiviert sieht“ (ebd.). Die vierte Gruppe bestimmt sie als die der wenn-Sätze, „die in keinem Zusammenhang zur Proposition des Folgesatzes [stehen]. Eine Wiederaufnahme des wenn-Satzes durch ein dann ist deshalb auch nicht möglich“ (ebd., S. 56). Als der fünften Gruppe zugehörig bezeichnet sie die „Ausdrücke, die ausschließlich das Thema der Folgeäußerung(en) in Form eines sogenannten freien Themas angeben“ (ebd.) und die sechste Gruppe schließlich umfasst Ausdrücke in Form von Nebensätzen in einer generalisierenden oder spezifizierenden konzessiven Relation oder hypothetisch konditionalen Nebensätzen (ebd., S. 54-58). Aus dieser Typologie geht hervor, dass Thim-Mabrey unter dem Begriff Vor-Vorfeld-Ausdrücke auch komplexe Konstruktionen versteht, wie beispielsweise spezifische Nebensatz-Konstruktionen mit dem pragmatischen Merkmal der metakommunikativen Rahmung des Folgesatzes. Syntaktisch sind diese Konstruktionen abhängig von den ihnen folgenden Äußerungen, sie sind jedoch auch nicht syntaktisch in diese integriert, was durch ihre distributionelle Stellung im Vor-Vorfeld deutlich wird. Auer (1997) untersucht die „Formen und Funktionen der Vor-Vorfeldbesetzung im gesprochenen Deutsch“ (ebd.) und verweist auf die besondere Rolle, die diesen Vor-Vorfeld-Konstruktionen in einer Syntax des gesprochenen Deutsch zukommen. Er diskutiert dabei die Rolle der metapragmatischen Verstehensanweisungen, der Prosodie und die projektive Kraft von Adverbialen in Vor-Vorfeld-Position. Weiterhin geht er spezifisch auf die Arten von Adverbialsätzen ein, die in dieser Position stehen können, namentlich Partizipial-Konstruktionen, um-zu-Konstruktionen, konditionale und konzessive Adverbialsätze. Außerdem beleuchtet er weitere Vor-Vorfeldbesetzungen, wie beispielsweise von ihm sogenannte neue und alte Konjunktionen, freie Themen, Vokative und Partikeln (ebd.). Er stellt eine Typologie der Elemente auf, die im Vor-Vorfeld stehen können, und spezifiziert ihre morphologische <?page no="137"?> Wortarten in der gesprochenen Sprache 137 und syntaktische Struktur, die Art und Weise ihrer Rahmungsfunktion und ob sie intonatorisch integriert oder exponiert vorkommen. Auf die Rolle der Prosodie in diesem Zusammenhang wird im Kapitel 2.4.8.1.6 noch genauer eingegangen. Die wichtigsten Typen der Vor-Vorfeld-Besetzungen sind nach seiner Typologie einfache Adverbialien, komplexe Adverbialien, Konjunktionen und freie Themen. Spezifisch von Interesse für diese Untersuchung ist jedoch, dass es ihm gelingt, herauszuarbeiten, dass diese Elemente im Vor-Vorfeld eigenständige syntaktische Projektionen aufbauen, und dies neben ihrer Bedeutung auf der semantischen oder pragmatischen Ebene (ebd., S. 55). Er differenziert dabei die Funktionen, die diese Elemente auf verschiedenen linguistischen Ebenen haben, wenn auch nur implizit. Auf der pragmatischen und semantischen Ebene bestätigt er bereits genannte Postulate, namentlich, dass die Funktion der Vor-Vorfeld-Ausdrücke auf pragmatischer und semantischer Ebene die „explizite Metakommunikation“ ist, d. h. der Ausdruck im Vor-Vorfeld gebe dem Hörer Anweisungen, wie er die folgende Äußerung verstehen soll. […] Sie können z. B. eine Äußerungskomponente ankündigen, die zum Vorherigen in einer Reihenfolge-, Oppositions-, Paraphrase-, Korrektur-, Resumé-, Beispiel- oder thematischen Disjunktionsbeziehung („touch-off topics“) steht. (ebd., S. 59) Spezifisch für die Adverbiale im Vor-Vorfeld bezeichnet er die modale Verwendungsweise, d. h. „das Adverbiale signalisiert in diesem Fall die Einstellung des Sprechers zum Gesagten und/ oder zum Hörer“ (ebd.). Bezüglich der Konjunktionen macht Auer klar, dass er auch sie der Gruppe der Vor- Vorfeld-Elemente zuordnet. Seiner Ansicht nach haben Konjunktionen dieselbe projektive Kraft, die auch Adverbien oder Adverbial-Sätze im Vor-Vorfeld aufzeigen. Wesentliches Merkmal der Adverbien im Vor-Vorfeld ist ihre projektive Kraft: nach ihnen ist kein möglicher Turn-Abschluss möglich, d. h. sie lassen eine Folgeäußerung desselben Sprechers erwarten. Damit unterscheiden sie sich von der retrospektiven Verwendung teils derselben Adverbien. (ebd., S. 65) Auch die Elemente, die klassischerweise als Subjunktionen bezeichnet werden, die in gesprochener Sprache jedoch mit Verbzweit-Stellung auftreten, ordnet er nach dieser Definition den beiordnenden Konjunktionen zu und zählt sie somit zur Gruppe der Vor-Vorfeld-Elemente. Sie können, wenn sie als „Satzverbindungen“ (und nicht als Phrasenkonjunktionen) verwendet werden, keine andere topologische Position als die des Vor- Vorfelds besetzen und unterscheiden sich darin von funktional identischen kohäsionsstiftenden (Pronominal-)Adverbien wie trotzdem, die auch im Mittel- oder Vorfeld stehen können. In der gesprochenen Sprache ist das Inventar der <?page no="138"?> Theoretische Grundlagen 138 beiordnenden Konjunktionen bekanntlich zumindest um weil, obwohl, konzessives wobei und adversatives während erweitert. Zumindest bei wobei dürfte es sich um eine neue Entwicklung handeln. (ebd., S. 75) Mit Letzterem bezieht er sich auf die von ihm beschriebene Eigenschaft des Vor-Vorfeldes, als bevorzugter Ort für Grammatikalisierungsprozesse zu fungieren (Auer 1996). Inwiefern diese Elemente mit Grammatikalisierungsprozessen zusammenhängen, soll im folgenden Kapitel noch genauer beleuchtet werden. Die Funktion von Vor-Vorfeld-Elementen auf syntaktischer Ebene ist vor allem die, dass sie eine Projektion aufbauen und somit nicht unabhängig von einer Folgeäußerung stehen können. An dieser Stelle wird deutlich, dass sich gerade bei diesen Elementen die Funktionen auf den verschiedenen linguistischen Ebenen nur schwer voneinander trennen lassen. Einerseits ist es eine pragmatische bzw. semantische Eigenschaft dieser Wörter, eine Folgeäußerung zu verlangen. Andererseits bedeutet dies auf syntaktischer Ebene, dass sie an sich keine abgeschlossene syntaktische Struktur formen können und dennoch nicht dazu in der Lage sind, „eine bestimmte syntaktische Struktur vorzugeben“ (Auer 1997, S. 84). Allein, dass eine irgendwie geartete, vervollständigende Struktur folgen muss, ist eine grundlegende Eigenschaft dieser Elemente. Die Funktion von allen Vor-Vorfeld-Elementen, seien es Adverbiale, Konjunktionen, deverbale Formen, freie Themen etc., ist bei allen dieselbe und zwar auf den verschiedenen linguistischen Ebenen: sie rahmen die Folgeäußerung. Auer macht diese Tatsache anhand der Verwendung solcher Elemente in der geschriebenen Sprache deutlich. Er betont, dass diese Vor-Vorfeld-Elemente, wenn sie in schriftsprachlicher Form vorkommen, von dem folgenden Syntagma mit Doppelpunkten abgegrenzt würden, deren Funktion es nach Söll sei, das Verhältnis von „Erwartung und Erfüllung, Spannung und Lösung“ (Söll 1968, S. 427) auszudrücken (Auer 1997, S. 85). Dies ist wiederum genau das, was Auer auch als Eigenschaft den Vor-Vorfeld-Elementen zuschreibt (ebd.). Dem ist anzufügen, dass ein Gedankenstrich oder jegliche andere Interpunktion anstelle eines Punktes ebenso dazu geeignet wäre. Dennoch macht diese Beobachtung deutlich, dass es, im Gegensatz zu dem, was in den Grammatiken unter der Bezeichnung Vor-Vorfeld-Elemente geführt wird, eine zentrale Eigenschaft dieser Elemente ist, dass sie eben nicht syntaktisch unabhängig sein können. Interjektionen und andere Satz-unabhängige Elemente sind in diesem Sinne von der Gruppe der Vor-Vorfeld-Elemente abzugrenzen. <?page no="139"?> Wortarten in der gesprochenen Sprache 139 Wie deutlich wurde, sind die Analysen Auers und Thim-Mabreys neben den funktionellen Eigenschaften auf pragmatischer Ebene vor allem auf die distributionelle Struktur dieser Elemente gerichtet und darauf, welche strukturellen Eigenschaften die Elemente in der syntaktischen Gesamtstruktur einnehmen. 2.4.8.1.3 Operator - Skopus - Strukturen Die Frage nach dem grammatischen Status der oben beschriebenen Vor-Vorfeld-Konstruktionen ist bisher nicht beantwortet worden. Barden/ Elstermann/ Fiehler (2001) gehen der Frage nach, inwiefern eine Teilgruppe der Vor-Vorfeld-Konstruktionen als eine grammatische Kategorie beschreibbar ist. Sie postulieren eine Klasse von Operator-Skopus-Strukturen, die sie formal und funktional von anderen Konstruktionen, wie Referenz-Aussage-Strukturen oder Interjektionen und Responsiven abgrenzen, und nach formalen und funktionalen Kriterien definieren. 33 Obwohl sie explizit betonen, dass es sich bei der Klasse der Operator-Skopus- Strukturen um eine „genuin pragmatische Kategorie“ (Barden/ Elstermann/ Fiehler 2001, S. 231) handelt, zeigen sie jedoch auch die formalen syntaktischen und semantischen Eigenheiten dieser Klasse auf, die sie von anderen Strukturen und Elementen abgrenzbar macht. Sie sehen die Notwendigkeit, diese Klasse zu begründen, auch darin, dass sich diese Elemente standardgrammatisch nicht einordnen lassen, da sie weder „prototypische Fälle des einfachen Satzes noch in eindeutiger Weise Satzgefüge“ (ebd., S. 230) sind. Zwar kann der Skopus in der Regel als traditioneller Satz verstanden werden, der Operator ist allerdings im Vor-Vorfeld angesiedelt und kann nicht wie ein reguläres Satzglied fungieren. Ebenso ist er jedoch auch kein elliptischer selbstständiger Satz - er kann nicht im Kontext verschoben werden und ist vom Satz im Skopus abhängig. Barden/ Elstermann/ Fiehler (ebd.) postulieren somit, dass es „eine Struktur sui generis“ (ebd., S. 230) sei. Sollte dies der Fall sein und die Klasse ist formal und funktional eindeutig von anderen Strukturen abgrenzbar, so könnte sie als neue Klasse für ein POS-Tagging relevant werden. Im Folgenden wird daher genauer auf die Ausführungen von Barden/ Elstermann/ Fiehler (2001) eingegangen. Im Speziellen wird dabei analysiert, wie solche Konstruktionen von anderen abgrenzbar sind und inwiefern die Definitionen eindeutig genug sind, um diese Klasse als mögliche POS-Tag-Kategorie einzuführen. Barden/ Elstermann/ Fiehler definieren Operator-Skopus-Strukturen zunächst wie folgt: 33 In ihrer Monografie „Eigenschaften gesprochener Sprache“ erläutern Fiehler et al. (2004) das Konzept der Operator-Skopus-Strukturen im Detail. Der hier zitierte Artikel von Barden/ Elstermann/ Fiehler (2001) enthält jedoch bereits alle wichtigen Definitionskriterien, die dann in der Monografie (Fiehler et al. 2004) ausgeführt werden. <?page no="140"?> Theoretische Grundlagen 140 Operator-Skopus-Strukturen sind spezifische zweigliedrige sprachliche Einheiten, deren einer Bestandteil, der Operator, aus einem Wort oder einer kurzen Formel besteht […] und deren anderer Bestandteil, der Skopus, eine vollständige Äußerung darstellt. Wir sprechen von Operator-Skopus-Strukturen, weil der Operator sich auf einen Skopus bezieht, den er in spezifischer Weise qualifiziert: Der Operator gibt - funktional betrachtet - dem Hörer eine Verstehensanleitung oder -anweisung, wie die Äußerung in seinen Skopus aufzunehmen ist. (ebd., S. 197) Einerseits lassen sich nach dieser recht vagen Definition komplexere Strukturen, wie beispielsweise im Vor-Vorfeld verwendete Adverbialsätze, aus der Klasse der Operator-Skopus-Strukturen ausschließen. Andererseits schließt diese Definition selbstständige, grammatikalisch unabhängige Elemente, wie beispielsweise Responsive oder Interjektionen, nicht aus. Der Ausschluss dieser Elemente geht jedoch aus dem Kriterienkatalog hervor, den Barden/ Elstermann/ Fiehler aufgestellt haben, um klare Kriterien für eine grammatische Kategorie Operator-Skopus-Strukturen aufzustellen. Sie weisen allerdings darauf hin, dass es „prototypische Strukturen“, aber auch Fälle gibt, „wo es nicht mehr eindeutig ist, ob es sich um eine Operator-Skopus-Struktur handelt“ (ebd., S. 200). In ihrem Kriterienkatalog explizieren sie acht Kriterien: (1) Der Operator gibt eine Verstehensanweisung für den Skopus. (2) Der Operator ist im prototypischen Fall dem Skopus vorangestellt. (3) Operator und Skopus bilden eine zweigliedrige Struktur. (4) Operatoren allein sind keine selbständigen interaktiven Einheiten, erst Operator und Skopus zusammen konstituieren eine interaktive Einheit. (5) Zwischen Operator und Skopus besteht eine hierarchische Beziehung; der Operator eröffnet eine Leerstelle für den Skopus. (6) Der Operator hat Projektionskraft. (7) Der Skopus ist jeweils eine potentiell selbständige interaktive Einheit. (8) Operatoren zeichnen sich durch Kürze aus, sie haben die Eigenschaften von festen Wendungen (Lexikalisierungen) oder sie sind formelhaft. (ebd., S. 200-203) Die Kriterien (1), (5) und (6) sind zunächst rein pragmatischer Art. Auf pragmatischer Ebene gibt der erste Teil der Struktur, der Operator, eine Verstehensanweisung, wie der folgende Teil zu verstehen ist. Diese Verstehensanweisung ist dabei projizierender Natur. Sie ist dem Skopus hierarchisch übergeordnet, sodass die projizierte Leerstelle durch den folgenden Teil, den Skopus, gefüllt werden muss. Dies bedeutet jedoch, - auch wenn sich diese Kriterien auf das semantische Verhältnis zwischen Operator und Skopus beziehen - dass zwischen Operator und Skopus „eine unspezifische Art von <?page no="141"?> Wortarten in der gesprochenen Sprache 141 Dependenz“ besteht, „die zwar nicht den gleichen Verbindlichkeitsgrad hat wie die Dependenz von Konstituenten innerhalb eines Syntagmas, die aber trotzdem als syntaktische Relation angesehen werden kann“ (ebd., S. 202). Auf diese Art und Weise bilden Operator und Skopus formal auch auf syntaktischer Ebene eine zweigliedrige Struktur: Mit dem Operator wird eine Struktur begonnen, die nicht nur semantisch, sondern auch syntaktisch unvollständig ist. Es muss auf jeden Fall etwas ergänzt werden, auch wenn der Operator keine Rektions- oder andere Zwänge auf das Folgende ausüben kann, die syntaktische Gestaltung des Skopus noch völlig offen ist. Nicht wie syntaktisch angeschlossen wird, kann also der Operator bestimmen, aber dass syntaktisch angeschlossen werden muss, dafür ist er ursächlich verantwortlich. (ebd.) Auf formaler Ebene spiegelt sich dies auch in den Kriterien (2), (3), (4) und (7), wobei sich Letzteres aus der hierarchischen Beziehung der Struktur ergibt, da der Skopus die in die Struktur einzusetzende Leerstelle füllt, die durch jegliche syntaktisch vollständige Struktur gefüllt werden kann. Die Ausführungen dazu, inwiefern diese Zweigliedrigkeit prosodisch realisiert wird, werden im Kapitel 2.4.8.1.6 „Die Rolle der Prosodie“ genauer diskutiert. Aus den Kriterien (3) und (4) ergibt sich auch die Abgrenzung zu Interjektionen und Responsiven, die zwar ebenfalls kurz sind und semantisch mit der nachfolgenden Äußerung zusammenhängen können, jedoch nicht im engeren Sinne eine Verstehensanweisung geben und keine projizierende Kraft haben, die zwingend eine weitere Äußerung fordert. Das klarste Differenzierungsmerkmal ist jedoch, dass Interjektionen und Responsive, wie bereits gezeigt, unabhängig von anderen Strukturen stehen können. Operatoren können dies nicht, da sie zwingend ein zweites Glied in der Struktur verlangen und ohne dies keinen Sinn ergeben. Wie lassen sich nun aber die Operator-Skopus-Strukturen von anderen Vor- Vorfeld-Konstruktionen, wie beispielsweise die von Thim-Mabrey (1988) oder Auer (1997) beschriebenen, abgrenzen? Gemein ist den von Thim- Mabrey beschriebenen Vor-Vorfeldkonstruktionen und den Operator-Skopus-Strukturen, dass beide als explizit metakommunikativ beschrieben werden und somit eine Verstehensanweisung geben. Sie grenzt diese wiederum von metakommunikativen Sätzen ab, indem die von ihr beschriebenen Vor- Vorfeld-Konstruktionen immer die Funktion des Kommentars haben (Thim- Mabrey 1988, S. 61). Aus ihren Ausführungen kann man entnehmen, dass zwar nicht jeder Kommentar ein Vor-Vorfeld-Ausdruck nach ihrer Definition ist, jedoch jeder Vor-Vorfeld-Ausdruck ein metakommunikativer Kommentar. Dies ist eine sehr grobe Beschreibung der Funktion, die zwar korrekt ist, jedoch wenig ausdrucksstark. <?page no="142"?> Theoretische Grundlagen 142 Auer (1997) differenziert genauer, welche Vor-Vorfeld-Ausdrücke welche metakommunikativen Funktionen übernehmen. So haben seines Erachtens − einfache Adverbialien im Vor-Vorfeld die metapragmatische Funktion der Textstrukturierung und Modalisierung sowie der semantischen Verbindung zwischen Propositionen, die er konjunktionale Funktion (ebd., S. 60) nennt; − komplexe Adverbialien ebendiese metapragmatischen Funktionen sowie zusätzlich die Funktion der Angabe von Relevanzbedingungen; − Konjunktionen die konjunktionale Funktion sowie epistemische und sprechaktbezogene metapragmatische Funktionen; − Freie Themen die Funktion der thematischen oder situativen Rahmung; − ungesättigte Syntagmen mit offener Objektvalenz die Funktion der Modalisierung oder einer zusätzlichen Angabe des Sprechers und − Vokative und Diskurspartikeln die Funktion der Modalisierung und Aufmerksamkeitsfokussierung. (ebd., S. 82 f.) Operatoren in Operator-Skopus-Strukturen können nach Barden/ Elstermann/ Fiehler (2001) vier Funktionen haben: Erstens können sie den Handlungstyp des im Skopus Ausgedrückten benennen (ebd., S. 204). Diese Funktion ist identisch mit dem, was Thim-Mabrey als Benennung bezeichnet, namentlich die der illokutiven Funktion der Folgeäußerung (Thim-Mabrey 1988, S. 61). Sie stellt fest, dass keine der von ihr beschriebenen Gruppen von Vor-Vorfeld- Ausdrücken allein diese Funktion erfüllen, dass jedoch einige Ausdrücke diese Funktion mittragen können (ebd.). Auer schreibt diese Funktion den Konjunktionen zu, denen er auch ursprünglich subordinierende Konjunktionen mit Verbzweitstellung wie beispielsweise weil oder obwohl zuordnet. Die zweite von Barden/ Elstermann/ Fiehler (2001) beschriebene Klasse von Operatoren hat die Funktion, den mentalen Status des Sprechers in Bezug auf die Äußerung im Skopus zu verdeutlichen: Sie verdeutlichen, ob es sich bei der betreffenden Äußerung um eine Meinung, eine (Ein-)Schätzung, ein Wissen, eine Idee, einen Glauben, eine Hoffnung, einen Wunsch, eine Präferenz, ein Gefühl etc. des Sprechers handelt. (ebd., S. 205) Die hier beschriebene Funktion stimmt im weitesten Sinne mit der von Thim- Mabrey beschriebenen Funktion der Stellungnahme (Thim-Mabrey 1988, S. 61) überein und wird von Auer als Modalisierungsfunktion (Auer 1997, S. 60) beschrieben. Diese kann ihm zufolge durch einfache und komplexe Adverbialien, ungesättigte Syntagmen mit offener Objektvalenz und durch Vokative und Diskurspartikeln ausgedrückt werden (ebd., S. 82 f.). Sie alle können nach Auer „die Einstellung des Sprechers zum Gesagten und/ oder zum Hörer“ <?page no="143"?> Wortarten in der gesprochenen Sprache 143 (ebd., S. 59) ausdrücken, wobei aus seinen Ausführungen nicht ganz klar wird, inwiefern Vokative in dieses Schema hineinpassen. Eben diese Modalisierungsfunktion überschneidet sich jedoch auch mit der dritten Gruppe der Funktionsklassifikation nach Barden/ Elstermann/ Fiehler (2001), namentlich derer Operatoren, die den kommunikativen Status des im Skopus Ausgedrückten signalisieren sollen (ebd., S. 206 f.). Diese können wiederum vier Ausprägungen haben: (1) Die Verstehensanweisung soll entweder die Geltung hinsichtlich des Wahrheitsgehaltes und der Sicherheit des Sprechers gegenüber des im Skopus Folgenden ausdrücken (ebd., S. 206). Dies steht im Kontrast zu den Behauptungen der GDS, dass Vor-Vorfeldkonstruktionen die propositionale Geltung nicht betreffen können, sondern nur eine epistemische Funktion habe. Diese Widersprüchlichkeit lässt sich eventuell damit erklären, dass hier die linguistischen Ebenen nicht klar voneinander abgegrenzt werden. Äußerungen wie beispielsweise ich sach mal … liegen zwischen propositionaler und epistemischer Geltung und sind somit schwer in einer Typologie zu erfassen. 2) Die Relevanz, die das Gesagte für die Sprecher*innen hat, 3) wie aufgeschlossen sie sich den Hörer*innen gegenüber geben (Offenheit), oder 4) die Modalität, d. h. wie ernsthaft die folgende Äußerung gemeint ist (ebd., S. 207). Es wird deutlich, dass mit einem Operator, wie beispielsweise ehrlich gesagt oder ich hoffe, sowohl der mentale Status der Folgeäußerung verdeutlicht werden kann, nämlich, dass Sprecher*innen eine Einschätzung ausdrücken bzw. eine Hoffnung, gleichzeitig aber auch den kommunikativen Status ausdrücken können, nämlich hinsichtlich der Modalität bzw. der Geltung des Ausgedrückten. Barden/ Elstermann/ Fiehler (ebd.) weisen jedoch selbst darauf hin, dass die vorgenommene Klassifikation nicht beansprucht „trennscharf“ (ebd., S. 208) zu sein. Wie auch die zweite Klasse könnte man diese dritte Klasse unter der von Thim-Mabrey beschriebenen Funktion der Stellungnahme (Thim-Mabrey 1988, S. 61) zusammenfassen. Die vierte Funktionsklasse, die Barden/ Elstermann/ Fiehler (2001) postulieren, ist die der Operatoren, die Relationen oder Zusammenhänge zwischen der Äußerung im Skopus und anderen Äußerungen im Kontext ausdrücken. Diese werden wiederum unterschieden in Operatoren, die Aspekte der Gesprächsorganisation verdeutlichen und damit eher formalen Charakter haben, und zum anderen Operatoren, die inhaltlichfunktionale Beziehungen zwischen Äußerungen explizieren. Die Grenze zwischen diesen beiden Gruppen ist allerdings fließend. (ebd., S. 207) Sie entsprechen somit den von Auer postulierten Konzepten der konjunktionalen Funktion, der Funktion der Textstrukturierung und der Funktion der thematischen oder situativen Rahmung, die seines Erachtens durch einfache und komplexe Adverbiale, freie Themen und Konjunktionen ausgedrückt werden können <?page no="144"?> Theoretische Grundlagen 144 (Auer 1997, S. 59 f., 65, 82 f.). Eine vergleichbare Differenzierung dieser Funktionen findet sich bei Thim-Mabrey in der Gruppe II von Vor-Vorfeld-Ausdrücken, die sie als Strategie der Sprecher*innen bzw. Sprecherabsicht bezeichnet (Thim-Mabrey 1988, S. 55). In ihrer Beschreibung der Funktionen der Ausdrücke findet sich kein explizites Äquivalent. Sie beschreibt solche Ausdrücke als explizit metakommunikativen Kommentar (ebd., S. 53) und ordnet sie somit der sehr weitgefassten Beschreibung der Kommentarfunktion unter. Dies ist verwunderlich, da die von ihr beschriebene Gruppe II ja allein durch ein pragmatisches Kriterium, nämlich dem der Funktion als Ausdruck der Strategie des Sprechers bzw. der Sprecherabsicht definiert ist. Dies lässt sich jedoch dadurch erklären, dass sie in ihrer Typologie der Vor-Vorfeld-Ausdrücke keine erkennbare Differenzierung zwischen Form und Funktion macht, vielmehr einige nach formalen Kriterien (Parakonjunktionen, da- oder weil-Sätze, wenn-Sätze, freie Themen, Nebensätze), andere nach der Funktion (Sprecherabsichten) in Gruppen zusammenfasst. Höchstwahrscheinlich fällt es ihr auch daher schwer, die von ihr aufgestellten Gruppen von Vor-Vorfeld-Ausdrücken mit der von ihr dargelegten Klassifikation von Funktionen, die diese erfüllen, zu verknüpfen. Man könnte also annehmen, dass die Gruppe II eher eine weitere Funktionsklasse denn eine Klasse auf formaler Ebene ist, die wiederum der vierten Klasse von Barden/ Elstermann/ Fiehler (2001) entspricht. Wie hier herausgearbeitet wurde, sind die Funktionsbeschreibungen dessen, was unter Vor-Vorfeld-Ausdrücken und Operatoren in Operator-Skopus- Strukturen definiert wurde, nahezu identisch. Ebenso stellen sowohl Thim- Mabrey als auch Auer die strukturelle Abhängigkeit des Vor-Vorfeld-Ausdrucks und der Folgeäußerung, also die spezifische Zweigliedrigkeit dieser Konstruktionen in den Vordergrund. Die Art und Weise, wie diese Abhängigkeit geartet ist, bildet für Barden/ Elstermann/ Fiehler (2001) jedoch die Grundlage der funktionalen Abgrenzung der Operator-Skopus-Strukturen von Referenz-Aussage-Strukturen, wie beispielsweise Linksversetzungen oder freien Themen. Diese betrachten sie zwar ebenfalls als Vor-Vorfeld-Konstruktionen, nicht aber als Operator-Skopus-Strukturen. Während bei Operator-Skopus-Strukturen der Operator dem Hörer eine Verstehensanweisung für die folgende Äußerung gibt, entsteht die Zweigliedrigkeit der Referenz-Aussage-Strukturen durch die Dissoziation von Referenzakt und Prädikation bzw. von Themeneinführung und Aussage zu dem betreffenden Thema. (ebd., S. 227) Des Weiteren ist auch das von Barden/ Elstermann/ Fiehler postulierte Kriterium der Kürze (8) Grundlage für die Abgrenzung von Operatoren zu anderen Vor-Vorfeld-Konstruktionen. Dieses schließt komplexe Adverbialien (Auer 1997, S. 67), da-, weil- oder wenn-Sätze sowie Nebensätze in einer gene- <?page no="145"?> Wortarten in der gesprochenen Sprache 145 ralisierenden oder spezifizierenden konzessiven Relation oder hypothetisch konditionale Nebensätze (Thim-Mabrey 1988, S. 55-58) aus. An dieser Stelle manifestiert sich wiederum das Problem, dass die Operator-Skopus-Theorie grammatische und pragmatische Kriterien mischt und dadurch unklar wird, was genau als kurz oder komplex anzusehen ist und somit zu den Operatoren dazu gehört. Sehr unklar zum Beispiel für dieses Kontinuum ist die Einordnung bzw. Differenzierung zwischen abhängigen Hauptsätzen und deverbalen Diskursmarkern wie ich mein oder ich dachte. Dies wiederum hängt damit zusammen, dass Barden/ Elstermann/ Fiehler (2001) den Prozess einer Grammatikalisierung dieser Elemente voraussetzen, der sie zu Operatoren werden ließ. Auf die Rolle der Grammatikalisierungsprozesse wird im Kapitel 2.4.8.1.5 „Grammatikalisierung oder Pragmatikalisierung“ noch genauer eingegangen. An dieser Stelle ist jedoch von Bedeutung, dass sich der Prozess auf die gesamte zweigliedrige Struktur der Operator-Skopus-Strukturen auswirkt und somit helfen kann, diese als eigene grammatische Klasse von funktionsähnlichen Konstruktionen abzugrenzen. Andererseits führt ebendies gerade bei Konstruktionen, die sich noch im Grammatikalisierungsprozess befinden, zu Schwierigkeiten bei der Abgrenzung. Barden/ Elstermann/ Fiehler gehen davon aus, dass es im Speziellen zwei Prozesse sind, die zur Entstehung dieser kurzen Operator-Konstruktionen führen. „Die Zweigliedrigkeit der Operator-Skopus-Struktur kann Resultat entweder der Zusammenrückung zweier selbständiger Einheiten oder der Dissoziation einer Einheit in zwei Bestandteile sein“ (ebd., S. 228). Ersteres bedeutet, dass eine komplexe Vor-Vorfeld- Konstruktion oder ein ehemals vollständiges Syntagma zu einem Operator „verkürzt bzw. komprimiert wird und dass die Verbindung der Teile formal nur durch Asyndese gekennzeichnet ist“ (ebd., S. 228). Als Dissoziation bzw. Desintegration bezeichnen Barden/ Elstermann/ Fiehler (ebd.) den Prozess, dass ein Teil eines vormals komplexen Syntagmas herausgestellt wird, als Operator im Vor-Vorfeld positioniert wird und ebenfalls asyndetisch gekennzeichnet ist. Ungleich eines freien Themas handelt es sich dabei um ein vormaliges Adverbial, das allerdings statt der Vorfeld-Position in die Vor-Vorfeld-Position gerückt wird. Barden/ Elstermann/ Fiehler (ebd.) betonen: „Dabei ist wichtig zu sehen, dass nur kurze oder formelhafte Elemente in dieser Weise dissoziiert werden können“ (ebd., S. 228). Auf diese Art und Weise sind von den von Auer (1997) aufgestellten Typen von Vor-Vorfeld-Konstruktionen nur folgende auch als Operatoren zu bezeichnen: im Vor-Vorfeld befindliche einfache Adverbialien, (Para-)Konjunktionen, ungesättigte Syntagmen mit offener Objektvalenz und Diskurspartikeln. Letztere werden in Auers Klassifikation der Vor-Vorfeld-Elemente zwar genannt, jedoch nicht genauer expliziert. Im Folgenden soll nun diskutiert werden, inwiefern es sich bei den nun hier formal eingegrenzten Operatoren von <?page no="146"?> Theoretische Grundlagen 146 Operator-Skopus-Strukturen um eine Wortart handeln könnte, die häufig auch als Diskursmarker bezeichnet wird. 2.4.8.1.4 Diskursmarker Wie bereits erwähnt, sind die Beschreibungen zu Vor-Vorfeld-Konstruktionen in den Grammatiken sehr dürftig. Viele von ihnen thematisieren jedoch die Existenz von ehemals subordinierenden Konjunktionen mit Verbzweitstellung, nach Barden/ Elstermann/ Fiehler (2001) Operatoren, nach Thim- Mabrey Parakonjunktionen. In Engels „Deutscher Grammatik“ werden sie folgendermaßen beschrieben: In salopper Alltagssprache ist - wie bei obwohl - nach weil „Konstativsatzstellung“ im Nebensatz möglich, sofern dieser nachgestellt ist. […] Es muß aber betont werden, dass die Verwendung solcher Sätze in der Standardsprache als unkorrekt gilt. (Engel 2004, S. 730) Auch Weinrich (2005) beschreibt in der „Textgrammatik der deutschen Sprache“ obwohl und weil mit Verbzweitstellung. Er expliziert, dass beim konzessiven obwohl und auch beim kausalen weil „heute in der mündlichen Umgangssprache […] manchmal die Endstellung des Verbs“ (ebd., S. 758) unterbleibt. Auch er weist darauf hin, dass „[d]ieser Sprachgebrauch, der sich nur bei nachgestelltem Adjunkt findet, […] in der Schriftsprache nicht als normgerecht [gilt]“ (ebd., S. 762). In der GDS wird ebenfalls auf obwohl- und weil-Konstruktionen mit Verbzweitstellung eingegangen. Moduskommentierendes obwohl wird die Konstruktion in Abgrenzung zu der Konzessivsubjunktion obwohl genannt. „obwohl--- (kurze Pause) Verbzweitsatz“ fungiere „in Richtung einer Selbstkorrektur oder partiellen Rücknahme des soeben Gesagten“ (Zifonun/ Hoffmann/ Strecker 1997, S. 2316). In keiner dieser drei Grammatiken werden diese Konstruktionen jedoch in einen größeren Zusammenhang eingebettet. Sie werden nach wie vor als Konjunktionen gesehen, deren Folgesyntagma nicht mehr der Standardnorm entspricht. Wie bereits angedeutet, geht die Duden-Grammatik etwas ausführlicher auf diese Konstruktionen ein. Sie expliziert zu weil, obwohl und wobei mit Verbzweitstellung: In gesprochener Sprache sowie in Alltagssprache, die dieser nahesteht (z. B. Foren im Internet […]), stehen Wörter wie weil, obwohl, wobei auch in Sätzen mit Verbzweitstellung. Hier liegt nicht etwa ein syntaktischer Wandel vom Verbletztzum Verbzweitnebensatz vor; vielmehr haben sich die Gebrauchsmöglichkeiten der genannten Wörter ausgeweitet (Wegener 1993): Neben der her- <?page no="147"?> Wortarten in der gesprochenen Sprache 147 gebrachten Verwendung als Subjunktionen (bzw. im Fall von wobei als relativem Präpositionaladverb) in Verbletztnebensätzen (Beispielblock a) treten sie auch als Konjunktionen (b) oder Parakonjunktionen (c) vor Hauptsätze. Semantisch leisten die Nebensatzkonstruktion (a) und die Hauptsatzkonstruktionen (b) und (c) nicht dasselbe. (Duden 2009, S. 1050 f.) Eine klare Definition dessen, was unter dem Begriff Parakonjunktionen verstanden wird, ist nicht vorhanden. Aus dem Kontext geht hervor, dass die Abgrenzung von Konjunktionen zu Parakonjunktionen hier allein anhand der Interpunktion vorgenommen wird, die hier beispielhaft für eine prosodische Markierung eingesetzt wurde, namentlich einer Pause im Gesprochenen. Ist weil, obwohl oder wobei prosodisch oder durch Interpunktion von der Folgeäußerung mit Verbzweitstellung abgesetzt, werden sie als Parakonjunktionen bezeichnet; sind sie prosodisch nicht markiert und nicht durch Interpunktion separiert, werden sie als Konjunktionen bezeichnet (ebd., S. 1050 f.). „Wenn Konjunktionaladverbien das Vorvorfeld besetzen, nehmen sie die Funktion von Parakonjunktionen an“ (ebd., S. 1071). In Bezug auf die Verwendung von Adverbien oder Konjunktionaladverbien im Vor-Vorfeld wird deren Zugehörigkeit zu den Parakonjunktionen und nicht den Konjunktionen dadurch begründet, dass sie sich zu einem Satz erweitern lassen, „der die Verknüpfungsleistung explizit macht“ (ebd., S. 1067, 1071). An dieser Stelle bezieht sich die Duden-Grammatik auf Thim-Mabreys Ausführungen und verweist darauf, dass Parakonjunktionen „stets eine metadiskursive Bedeutung“ (Duden 2009, S. 1071) annehmen. An einer anderen Stelle wird in der Beschreibung der Konjunktionaladverbien im Gebrauch als Parakonjunktionen zusätzlich darauf hingewiesen, dass in der gesprochenen Sprache […] eine kurze Pause nach der Parakonjunktion hörbar werden [kann und] [i]n der geschriebenen Sprache […] diese Pause durch ein Satzzeichen (einen Gedankenstrich, einen Doppelpunkt oder ein Komma) imitiert [wird]. (ebd., S. 586) Ob sie also intonatorisch von der Folgeäußerung abgesetzt sind oder nicht, ist, ungleich zu der Abgrenzung bei den Subjunktoren im Gebrauch als Parakonjunktionen, fakultativ. Eine Verknüpfung dieser Elemente mit dem Begriff Diskursmarker oder Operator-Skopus-Strukturen muss man bei der Beschreibung von Konjunktionaladverbien oder Adverbien im Vor-Vorfeld vermissen. Eine Definition des Begriffs Diskursmarker findet sich, wie bereits geschildert, in der Duden-Grammatik nicht, jedoch finden sie zweimal Erwähnung. Einmal in bereits geschildertem Zusammenhang als einfache Begriffsnennung, das zweite Mal in der Analyse, dass eine Grammatikalisierungstendenz […] dazu führt, dass der Operator zugunsten der abhängigen Verbzweitkonstruktion formal und auch in seiner Bedeutung <?page no="148"?> Theoretische Grundlagen 148 immer weiter reduziert wird und sich so zum Diskursmarker entwickelt. (ebd., S. 1205 f.) Diese Verbindung könnte darauf schließen lassen, dass auch die anderen Strukturen, die als Parakonjunktionen definiert wurden, der Gruppe der Operatoren und schließlich den Diskursmarkern zuzurechnen sind. Operator-Skopus-Strukturen werden in der Duden-Grammatik im Wesentlichen nach den Ausführungen von Barden/ Elstermann/ Fiehler (2001) definiert. Bei den Beispielen der Operatoren, die Relationen ausdrücken, findet sich auch das weil wieder, welches an anderer Stelle als Parakonjunktion oder Konjunktion definiert wurde (Duden 2009, S. 1201-1204). Abgesehen von den Beispielen wird auf formaler Ebene jedoch nicht angegeben, welche weiteren Konstruktionen oder Wortarten zu Operatoren werden können, abgesehen von einer Struktur, welche sie Matrixsatz mit abhängigen Verbzweitkonstruktionen nennt (ebd., S. 1204). Sie sind Äquivalent zu den Konstruktionen, die Auer ungesättigte Syntagmen mit offener Objektvalenz nennt (Auer 1997, S. 83). Es handelt sich bei ihnen vor allem um Matrixsätze mit Verba Dicendi und Sentiendi, denen sowohl in der gesprochenen wie auch in der geschriebenen Sprache eine Konstruktionsalternative für den Folgesatz offensteht. Die offene Objektvalenz kann entweder durch eine Verbletztkonstruktion mit Subjunktion oder aber durch eine Verbzweitkonstruktion ohne Subjunktion erfüllt werden (ebd.). Im Gegensatz zu Auer wird jedoch genauer auf den pragmatischen Nutzen dieser abhängigen Verbzweit-Konstruktionen eingegangen. Nach der Duden- Grammatik kann durch eine Operator-Skopus-Struktur der Fokus auf die kommunikative Relevanz der vom Matrixsatz (Operator im Vor-Vorfeld) abhängigen Verbzweitkonstruktion gelenkt werden. Bei einer Konstruktion mit einem Verbletztsatz hingegen läge der Fokus auf dem Matrixsatz, da „abhängige Verbletztkonstruktionen relativ präsupponierend, während abhängige Verbzweitkonstruktionen relativ assertierend sind“ (Duden 2009, S. 1205). Des Weiteren wird herausgestellt, dass die Verwendung solcher Konstruktionen „auf das Hier und Jetzt der Sprechsituation angewiesen ist“ (ebd.), was wiederum selbstverständlich scheint, da die Kernfunktion dieser Elemente die Verstehensanweisung der Folgeäußerung ist. Wie gezeigt werden konnte, werden Diskursmarker in den Grammatiken häufig nur im Zusammenhang mit der Verbzweitstellung nach ursprünglich subordinierenden Konjunktionen erwähnt. Dies könnte darauf zurückzuführen sein, dass es sich hierbei um besonders verfestigte und auffällige Strukturen handelt. Sie sind auffällig, da gerade sie sonst eine besonders starre Verbletztstruktur einfordern. Operatoren, die aus Matrixsätzen mit Verba Dicendi oder Sentiendi bestehen, sind vielleicht weniger auffällig, da sie erstens im <?page no="149"?> Wortarten in der gesprochenen Sprache 149 Schriftgebrauch häufig vorkommen und zweitens selbst der grammatischen Beschreibung für geschriebene Sprache nach nicht inkorrekt sind, ist doch die Erfüllung der Objektvalenz fakultativ. Dies spiegelt sich auch in der Literatur zu Diskursmarkern für die deutsche Sprache wider. Sie ist spärlich und die Definitionen in den Grammatiken, wie bereits angedeutet, schwammig bis nicht existent. Die Texte, die sich mit Diskursmarkern befassen, haben den Fokus meist auf der Grammatikalisierung von bestimmten Wortformen wie beispielsweise weil, obwohl und wobei (Scheutz 1998; Gohl/ Günthner 1999; Günthner 1999, 2002, 2005; Günthner/ Mutz 2004) oder ja (Mroczynski 2013). Nur Imo (2012) stellt eine Definition der Klasse als solche in den Mittelpunkt. Sprachwissenschaftliche Lexika, wie beispielsweise das „Lexikon der Sprachwissenschaft“ (Bußmann (Hg.) 2008) oder das „Metzler Lexikon Sprache“ (Glück (Hg.) 2010), bieten zwar Einträge für den Begriff Diskursmarker, meinen aber nicht allein Vor-Vorfeld-Elemente, sondern Gesprächspartikeln im Allgemeinen. Das Lexikon der Sprachwissenschaft beispielsweise definiert: Aus der angloamerikan. Forschung übernommener Oberbegriff für sprachliche Ausdrücke, die zur Strukturierung von Diskurs (1) verwendet werden, z. B. satzwertige Ausdrücke wie Interjektionen, oder syntaktisch unselbstständige Ausdrücke (etwa Konjunktionen, Adverbien). Wie […] verschiedene[…] englische[…] Bezeichnungen andeuten, handelt es sich um eine bislang nicht klar abgegrenzte Klasse von Ausdrücken. […] D. sind häufig diachron und synchron multifunktional. Die Subjunktionen obwohl (Günthner 1999) und weil (Gohl/ Günthner 1999) entwickeln inzwischen eine Variante, die als D. eingestuft wird. (Bußmann (Hg.) 2008, S. 143) Das Metzler Lexikon Sprache bietet sogar eine noch vagere Definition: ([…] Auch: Diskursmarker, Gesprächswort, Gliederungssignal) Zusammenfassende Bez. für sprachl. Ausdrücke, deren Vorkommen der Organisation, Gliederung, Strukturierung vor allem gesprochener Sprache dient; je nach der Interpretation von „Diskurs“ ändert sich die Extension der Klasse. (Glück (Hg.) 2010, S. 155) Es wird deutlich, dass sie Diskursmarker für einen pragmatischen Oberbegriff halten, der flexibel eingesetzt werden kann für alle Elemente, die im Diskurs eine Gliederungsfunktion einnehmen. Eine formale Definition der Elemente findet nicht statt, die wiederum die Grundlage für eine Abgrenzung zu anderen Partikeln etc. wäre. Ähnlich ist die Definition Diewalds (2006), die zwar sehr einleuchtende Kriterien darlegt, Modalpartikeln von Konjunktionen und von Diskurspartikeln abzugrenzen, Letztere allerdings ebenfalls sehr weit gefasst definiert. Nach ihrer Definition umfassen Diskurspartikeln Interjektionen ebenso wie Segmentierungssignale, Responsive, Hesitationspartikeln etc. Ihre funktionale Aufgabe ist es, verschiedene <?page no="150"?> Theoretische Grundlagen 150 Äußerungen des Diskurses miteinander zu verknüpfen: „The entities they denote are features of the discourse and the communicative situation“ (ebd., S. 406 f.). Genaugenommen beschreibt Diewald hier alle Elemente des Diskurses. Sie grenzt sie allerdings wiederum von der Masse der syntaktisch gebundenen Elemente ab und ihre Klasse der Diskurspartikeln ist also gleichzusetzen mit der der selbstständigen interaktiven Einheiten der GDS. Ebenso ist dies der Fall bei den Ausführungen zu Diskurspartikeln von Kehrein/ Rabanus (2001), aus deren Artikel: „Ein Modell zur funktionalen Beschreibung von Diskurspartikeln“ hervorgeht, dass für sie Diskurspartikeln alle Gesprächspartikeln sind, die der Kommunikationsorganisation dienen, d. h. beispielsweise der Turnsicherung oder -beanspruchung dienen, zu Reaktionen auffordern, inhaltliches Verstehen quittieren oder problematisieren, Zustimmung oder Ablehnung aber auch Unentschiedenheit ausdrücken können; kurz, alle Interjektionen, Responsive, Hesitationssignale etc., die irgendwie zum kommunikativen Aufbau des Diskurses beitragen (ebd.). Um einer Definition von Diskursmarkern als formale Kategorie näher zu kommen, muss man sie also von dem Begriff der rein funktional definierten Diskurspartikeln abgrenzen. Wie bereits erwähnt, nimmt sich Imo (2012) dieser Aufgabe in seinem Aufsatz „Wortart Diskursmarker“ an. Die erste Definition dieser Elemente, wenn auch noch mit Fokus auf funktionale Kriterien, stellen Gohl/ Günthner (1999) auf. Im Folgenden werden die Parallelen von dem von Barden/ Elstermann/ Fiehler (2001) vorgenommenen Kriterienkatalog für Operatoren zu der Definition von Diskursmarkern von Gohl/ Günthner (1999), Auer/ Günthner (2005) sowie von Imo (2012) untersucht, da sich aus ihren Überlegungen zur Grammatikalisierung bestimmter Elemente zu Diskursmarkern eine formale Definition und schließlich eine Abgrenzung zu anderen Partikeln herausarbeiten lässt. Davon ausgehend, dass Diskursmarker als grammatikalisierte Operatoren bezeichnet wurden (Duden 2009, S. 1205 f.), stellt sich nun die Frage, ob die Elemente, die man auf funktionaler bzw. pragmatischer Ebene als Operatoren bezeichnet, auf formaler Ebene eine Wortart begründen können, namentlich die der Diskursmarker. Gohl/ Günthner (1999) definieren die Eigenschaften von Diskursmarkern vorwiegend anhand der Literatur für englische Diskursmarker (Brinton 1996; Fraser 1990, 1996; Lenk 1998; Levinson 1983; Schiffrin 1987) und orientieren sich dabei an den Auswertungen in Bezug auf die spezifische Funktion von weil als Diskursmarker. Eigenschaften, die sie den Diskursmarkern letztlich zuschreiben, sind (Gohl/ Günthner 1999, S. 59 f.): <?page no="151"?> Wortarten in der gesprochenen Sprache 151 - reduzierter semantischer Gehalt; - die Funktion bezieht sich auf eine größere Einheit als den Satz (Skopusausweitung); - eher gesprochenals geschriebensprachlich; - kurze, meist einsilbige Einheiten; - in Initialposition, oft außerhalb der syntaktischen Struktur eines Satzes bzw. nur lose damit verbunden; - optionale, d. h. grammatisch und semantisch nicht-obligatorische, Elemente, die Sprecher benutzen können, um ihren Diskurs zu organisieren. Auf formaler Ebene ist dieser Definition von Diskursmarkern mit der Definition der Operatoren gemein, dass sie kurz oder formelhaft sind, sich in Initialposition befinden, d. h. im Vor-Vorfeld stehen (Gohl/ Günthner 1999, S. 55), und dass es optionale Elemente sind, der nachfolgende Satz also eine „potenziell selbständige interaktive Einheit“ (Barden/ Elstermann/ Fiehler 2001, S. 200-203) ist. Auf pragmatischer Ebene gibt es Ähnlichkeiten a) in der Beschreibung der Projektionskraft der Elemente, wobei Gohl/ Günthner (1999) hier den Skopus nicht auf das Folgesyntagma begrenzen; und b) in der Beschreibung der Funktion dieser Elemente, namentlich eine Verstehensanweisung für die Folgeäußerung zu geben (ebd., S. 55). In ihrer Definition der Diskursmarker verweisen sie auf die Definition Frasers (1996): „They provide instructions to the addressee on how the utterance to which the discourse marker is attached is to be interpreted“ (ebd., S. 186). Auf diese Art und Weise gibt es zwar Überschneidungen mit der Definition der Operatoren von Barden/ Elstermann/ Fiehler (2001), allerdings wird die Projektionskraft der Elemente, und somit die Forderung einer syntaktischen Vervollständigung, nicht so klar herausgearbeitet. Auf der anderen Seite legen Gohl/ Günthner (1999) einen größeren Fokus auf die Semantik, namentlich die semantische Ausbleichung der Elemente im Vergleich zu ihren Homonymen im Zuge des Grammatikalisierungsprozesses: Statt mit Polysemie haben wir es hier eher mit Polyfunktionalität zu tun: Im Vergleich zur Konjunktion weil ist der Diskursmarker weil zwar semantisch „ausgeblichen“, doch der zentrale Unterschied liegt in dessen neuer pragmatischer Funktion. […] Zugleich wird bei der Frage nach Polysemie bzw. Polyfunktionalität wieder einmal deutlich, daß eine starre Grenzziehung zwischen Semantik und Pragmatik, zwischen Bedeutung und Funktion äußerst problematisch sein kann, und daß „Bedeutungen“, die sich auf der pragmatischen Ebene ansiedeln, durchaus wichtige Informationen bezüglich der Beschreibung einer Einheit - beispielsweise für einen Lexikoneintrag - liefern können. (ebd., S. 61) Sie sprechen an dieser Stelle eine zentrale Problematik dieser Elemente an, die auch bei Barden/ Elstermann/ Fiehler (2001) thematisiert wird. Sie sind einerseits pragmatische, diskursive Elemente, deren Semantik andererseits jedoch <?page no="152"?> Theoretische Grundlagen 152 eine Projektion eröffnet, die ein Folgesyntagma fordert. Auf diese Art und Weise sind sie wiederum doch auch Elemente, die auf der Ebene der Syntax beschrieben werden müssen, da sie nicht unabhängig von anderen syntaktischen Strukturen betrachtbar sind. In dem Aufsatz von Auer/ Günthner (2003) „Die Entstehung von Diskursmarkern im Deutschen - Ein Fall von Grammatikalisierung? “ wird diskutiert, aus welchen Wortarten sich Diskursmarker im Deutschen gebildet haben, mit besonderem Fokus auf die Frage, ob es sich hierbei um einen Grammatikalisierungsprozess, oder eher umgekehrt, um einen Degrammatikalisierungsprozess bzw. Pragmatikalisierungsprozess handelt. Im Grunde ist ihre Definition der Diskursmarker nicht stark von der von Gohl/ Günthner 1999 abweichend (Auer/ Günthner 2003, S. 1). Sie zeigen auf, aus welchen anderen Wortarten sich Diskursmarker abgeleitet haben und inwiefern sie sich nun „in Bezug auf ihre syntaktische Rolle und ihre Funktion“ (ebd.) unterscheiden. Sie vermeiden es, Diskursmarker als Wortart zu bezeichnen. Auf der einen Seite definieren sie Diskursmarker als grammatikalisierte Elemente und betonen: „ihre syntaktische Rolle ist eindeutig lexikalisch kodiert“ (ebd.). Auf der anderen Seite lehnen sie die Beschreibung der Entstehung dieser Elemente auf der Ebene der Morphosyntax ab, ebenso allerdings auch für „Entstehung von […] Konjunktionen, Präpositionen, Modalpartikeln u. a.“ (ebd., S. 26). Sie diskutieren, inwiefern die Einordnung dieser Elemente als grammatische Elemente von dem Grammatikbegriff abhängig ist, den man verwendet. Auf diese Art und Weise können sie Diskursmarker als grammatikalisierte Elemente bezeichnen, vermeiden es aber, sie als Wortart zu bezeichnen. Sie orientieren sich hierbei an dem sehr weit gefassten Grammatikalisierungsbegriff nach Hopper/ Traugott (1993) und postulieren, dass es sich bei der Entwicklung der Diskursmarker um eine Subkategorie dieses weiten Grammatikalisierungsbegriffs handelt. In ihrem Aufsatz: „Grammatikalisierungs-/ Pragmatikalisierungserscheinungen im alltäglichen Sprachgebrauch“ vermeidet Günthner (2005) noch immer den Begriff Wortart. Sie führt aus, dass sich diese Elemente nur schwer in traditionelle Wortartenklassen einordnen lassen (ebd., S. 47) und dass ihre primäre Funktion eine pragmatische ist (ebd., S. 48). An anderer Stelle betont sie allerdings, dass es sich bei den Konstruktionen um „regionalübergreifende Tendenzen der Syntax des gesprochenen Deutsch“ (ebd., S. 43) handelt, siedelt sie also dennoch auf der Ebene der Syntax an. Des Weiteren führt sie im Zusammenhang mit der Grammatikalisierungsdiskussion an, dass Subjunktionen und Relativadverbien (an denen sie ihre Beispiele festmacht) als Diskursmarker reanalysiert werden (ebd., S. 49 f.). Da sie die Subjunktionen und Relativadverbien auf der Ebene der Wortarten beschreibt, impliziert dies, dass eine Reanalyse als Diskursmarker ebenfalls auf dieser Ebene stattfindet. <?page no="153"?> Wortarten in der gesprochenen Sprache 153 Durch ihre Untersuchung von obwohl und wobei stellt sie heraus, dass es sich nicht mehr um Subjunktion bzw. Relativadverb handeln kann, wenn sie in Vor-Vorfeld-Verwendung und mit Verbzweitsatz auftreten. Die beiden Verbstellungstypen [sind] weder funktional noch grammatisch äquivalent […] und man [kann] folglich auch nicht einfach die scheinbar „ungrammatische“ Hauptsatz-Variante durch die „grammatische“ Nebensatz-Konstruktion ersetzen. (ebd., S. 56) Aus dieser Feststellung geht implizit hervor, dass die Elemente sehr wohl auf der Ebene der Morphosyntax operieren, indem sie nämlich nur durch eine Hauptsatz-Variante ergänzbar sind, nicht aber durch eine Nebensatz-Konstruktion. Wie bereits erwähnt, ist Imo (2012) der Erste, der sich dem Problem annimmt, ob man Diskursmarker als Wortart bezeichnen kann oder nicht. Als Ausgangspunkt setzt er die Kriterien, die Hoffmann (2007) für das Bestehen einer Wortart ansetzt: Wenn in einer Sprache Wörter nach ihrem funktionalen Beitrag zu einer Äußerung, den sie in ihrer Form bzw. ihren Formen erbringen, zu klassifizieren sind, können für sie Wortartkategorien angenommen werden. Dieser Funktionalität entsprechen Merkmale der Oberflächenform, eine Positionsgebundenheit in der Realisierungsabfolge. (Hoffmann 2007, S. 8) Weiterhin basiert Imo seine Analysen auf dem Modell der Konstruktionsgrammatik (Goldberg 1996; Croft 2001), die er nutzt, um Diskursmarker in eine granulare Umgebung einzubetten. Auf Stufe 1 (sehr grob) siedelt er die Projektorkonstruktionen, Modalisierungskonstruktionen und Diskurspartikel-Konstruktionen an. Auf Stufe 2 (feinere Körnung) verortet er dann „Kategorien auf der Ebene der traditionellen Wortarten […] im Sinne von prototypischen Beispielen, […] [die] konkret mit einer mehr oder weniger endlichen Aufzählung von typischen Vertretern gefüllt werden [können]“ (Imo 2012, S. 81); Diskursmarker fasst er auf diese Weise als Wortart und als eine Untergruppe der Projektorkonstruktionen und Diskurspartikeln (ebd., S. 80 f.). Die dritte Stufe (sehr feine Körnung) ist dann eine Beschreibung auf der Ebene des jeweiligen vorliegenden Tokens und somit für die Analyse von beispielsweise Prosodie oder gesprächsanalytischen Fragen interessant, jedoch für die Klassifikation als Wortart irrelevant (ebd., S. 84). Die Abgrenzung der Wortart Diskursmarker von Operator-Skopus-Strukturen oder Projektorkonstruktionen findet also auf der Ebene der Stufe 2 statt. Imo (2012) stellt fest, „dass es ein syntaktisches und sehr abstraktes Muster Projektorkonstruktion gibt, innerhalb dessen Diskursmarker als verfestigte, kurze Einheiten eine Untergruppe stellen“ (ebd., S. 66). Ähnlich zu den Projektorkonstruktionen wertet er auch Operator-Skopus-Strukturen als ein Konstruktionsmuster auf der Ebene der Stufe 1. „Der Begriff des Operators ist in <?page no="154"?> Theoretische Grundlagen 154 diesem Kontext in Bezug auf die ausgeübte Funktion äquivalent zu dem des Diskursmarkers“ (ebd., S. 61). Formal betrachtet differenziert Imo jedoch zwischen Diskursmarkern und Operatoren. Während Operatoren auch parenthetisch oder äußerungsfinal eingesetzt werden können, sind Diskursmarker ihm zufolge immer äußerungsinitial. Diese Position ist jedoch in der Forschung umstritten. Beispielsweise argumentieren König/ Stoltenburg (2013), Günthner/ König (2015) oder Alm (2015), dass es sich auch bei äußerungsfinalen Elementen wie beispielsweise und so oder oder so etc. (König/ Stoltenburg 2013), irgendwie (Günthner/ König 2015) und also (Alm 2015) im weitesten Sinne des Diskursmarker-Begriffs auch um Diskursmarker handelt. Inwiefern diese Elemente als Diskursmarker getaggt werden können, wird an späterer Stelle diskutiert. Weiterhin seien, nach Imo, bei Operatoren „die Grenzen zu größeren Einheiten […] potentiell offen“ (Imo 2012, S. 61), prototypische Diskursmarker hingegen bestünden aus einem Wort oder maximal kurzen Phrasen wie beispielsweise ich mein oder ich glaub, auch wenn bei diesen schon umstritten ist, ob sie noch der Wortart Diskursmarker zuzuordnen sind: Bei der Bestimmung der Wortart Diskursmarker lässt sich sagen, dass es ein syntaktisches und sehr abstraktes Muster Projektorkonstruktion gibt, innerhalb dessen Diskursmarker als verfestigte, kurze Einheiten eine Untergruppe stellen. Diese Gruppe hat viele „gute“ Vertreter im Sinne der Prototypentheorie (darunter fallen Diskursmarker, die aus einem Wort bestehen, wie z. B. weil, obwohl oder also), weist aber an den Rändern auch einige umstrittene Fälle auf (das betrifft Diskursmarker, die aus Phrasen wie ich mein oder ich glaub bestehen, bei denen eine Wortarten-Zuordnung problematisch ist). (ebd., S. 66) Schließlich definiert er Diskursmarker als Elemente von Diskursmarker-Konstruktionen. Auf der Ebene der Syntax zählt er ausschließlich die Elemente zu den Diskursmarkern, die in Vor-Vorfeld-Position stehen, betont jedoch, dass sie mit anderen Diskursmarkern dort kombinierbar sind. Auf der Ebene der Morphologie sind sie „kurz und formelhaft“ (ebd., S. 79), wenn sie aus mehr als einem Wort bestehen, dann handelt es sich um „verfestigte Phrasen“ (ebd.), die oft mit der Zeit einen Prozess der Univerbierung durchlaufen. Diskursmarker werden nicht flektiert bzw. haben „eingefrorene Flexionsendungen“ (ebd.). Auf der Ebene der Semantik sind Diskursmarker im Vergleich zu ihren Homonymen in anderen Wortklassen semantisch ausgeblichen und sie leisten keinen „Beitrag zur folgenden Proposition“ (ebd.). Ihre Funktion definiert er als die Rahmung einer Äußerung zur Gesprächsorganisation sowie der Sequenzierung: „Der Diskursmarker projiziert eine Äußerung und bettet sie in den Kontext der vorigen Äußerungen ein“ (ebd.). <?page no="155"?> Wortarten in der gesprochenen Sprache 155 In Hinblick auf die prosodische Markierung dieser Elemente behauptet Imo wie auch Barden/ Elstermann/ Fiehler (2001), dass Diskursmarker immer prosodisch markiert sind, wenn „die verwendete Einheit eine homonyme Dublette hat, die an gleicher Position verwendet werden kann“ (Imo 2012, S. 79), ansonsten sei die prosodische Realisierung frei (ebd.). Diese Behauptung wird an späterer Stelle anhand einer Korpusstudie überprüft. Zusammenfassend stellt er fest: Bezogen auf den Untersuchungsgegenstand dieser Arbeit können bei dieser Körnigkeit Diskursmarker in der Tat als feste Konstruktion gewertet werden. Es lassen sich unstrittige Vertreter feststellen, und die Netzwerkbeziehungen zu benachbarten Konstruktionen lösen die Probleme der vermeintlichen Unschärfe dieser „Wortart“: Die Tatsache, dass auf einer gröberen Beschreibungsebene Diskursmarker sowohl den Diskurspartikeln als auch den Projektorkonstruktionen zugeordnet werden können, klärt deren besondere Eigenschaften, allen voran die Kombination aus Projektionskraft und Gesprächs- und Interaktionssteuerung. (ebd., S. 83) Imo hat somit einen entscheidenden Beitrag zur Abgrenzung und Definition dieser Elemente geleistet. Er selbst weist darauf hin, dass er seinen Beitrag als Vorschlag zur Lösung dieser Definitionsproblematik - vor allem in Bezug auf die Annotation von Korpora gesprochener Sprache - sieht. Er schlägt vor, die Elemente auf verschiedenen Ebenen zu annotieren, also verschiedene Annotationen für Konstruktionen der Stufe 1 und Wortarten auf Stufe 2. Letzteres ist entscheidend für das POS-Tagging und soll darin auch berücksichtigt werden. Dass die Ausführungen Imos inzwischen in der Diskursmarker-Forschung anerkannt sind, zeigt auch der Aufsatz von Günthner (2015) „Diskursmarker in der Interaktion - zum Einbezug alltagssprachlicher Phänomene in den DaF-Unterricht“, in dem sie die Notwendigkeit des Einbezugs von der Wortart Diskursmarker im Fremdsprachenunterricht hervorhebt (ebd., S. 139). Zudem orientiert sich ihre Definition des Begriffs Diskursmarker an der Definition Imos (Günthner 2015, S. 141): - Diskursmarker sind typische Elemente der gesprochenen Sprache; - sie treten äußerungsinitial (im Vor-Vorfeld) auf; d. h. sie leiten neue Turnkonstruktionseinheiten bzw. Redezüge ein; - sie sind strukturell unabgeschlossen und projizieren ein Folgesyntagma; - sie sind nur lose mit der syntaktischen Struktur der betreffenden Äußerung verbunden und haben keine eindeutige grammatische Funktion; - sie sind insofern „optional“, als die betreffenden Äußerungen beim Weglassen der Diskursmarker nicht ungrammatisch wären; <?page no="156"?> Theoretische Grundlagen 156 - mit der Verwendung der betreffenden Elemente als Diskursmarker nimmt der Skopus in der Regel zu, d. h. ihr Bezugsbereich umfasst meist die gesamte Folgeeinheit; - sie haben primär pragmatische bzw. metapragmatische Funktionen, indem sie die Beziehung zwischen der folgenden und der vorausgehenden Äußerung bzw. Handlung markieren und Verstehensanleitungen an das Gegenüber geben; - sie werden neben ihrer Funktion als Diskursmarker noch in ihren traditionellen Funktionen (als Subjunktion, Konjunktion, Adverb, Partikel, Matrixsatz, Imperativ etc.) verwendet. Diese Definition soll nun als Grundlage einer Kategorie für das POS-Tagging gelten. Allerdings ist noch zu diskutieren, inwiefern sie sich von ihren Homonymen, die an gleicher Position verwendet werden können, abgrenzen lassen. Hierbei spielen zwei Aspekte eine Rolle: erstens die Frage danach, inwiefern diese Elemente vollständig grammatikalisiert oder auch pragmatikalisiert wurden, und zweitens ob es klare prosodische Muster gibt, die eindeutig zur Differenzierung herangezogen werden können. Sie sollen im Folgenden beide auf ihre Nutzbarkeit für eine Abgrenzung der Diskursmarker von ihren Homonymen geprüft werden. 2.4.8.1.5 Grammatikalisierung oder Pragmatikalisierung Mroczynski (2013) beschreibt die Herausbildungsprozesse der Diskursmarker als den neuralgischen Punkt der Grammatikalisierungsforschung. In der Tat gehen die Meinungen darüber, ob es sich bei der Entstehung von Diskursmarkern um Grammatikalisierung handelt oder um einen anderen Sprachwandelprozess, teils weit auseinander. An dieser Stelle werden daher zunächst in einem kleinen Exkurs zwei Theorien zu Grammatikalisierungsprozessen vorgestellt, die in der Diskussion um die Sprachwandelprozesse bezüglich der Diskursmarker immer wieder als Grundlage für Annahmen und Streitpunkte dienen. Es handelt sich hierbei um die Definitionen von Grammatikalisierung von einerseits Hopper/ Traugott (1993), die einen eher weiten Begriff von Grammatikalisierungsprozessen postulieren, und andererseits um die Definition Lehmanns (2002, 2009), der einen engeren Begriff anlegt. Hopper/ Traugott (1993) gehen zunächst von folgender Definition von Grammatikalisierung aus: When a content word assumes the grammatical characteristics of a function word, the form is said to be “grammaticalized.” Quite often what is grammaticalized is not a single context word but an entire construction that includes that word. (ebd., S. 4) <?page no="157"?> Wortarten in der gesprochenen Sprache 157 Dies ist eine sehr grobe Definition, vor allem, da die Autor*innen „grammatical characteristics of a function word“ nicht näher definieren. Was damit gemeint ist, wird deutlicher im Kontext der Annahme eines „clines“, d. h. eines Sprachwandelkontinuums, das verschiedene Stufen des Grammatikalisierungsprozesses abbildet (Hopper/ Traugott 1993, S. 6 f.). Bei einem cline wird angenommen, dass Grammatikalisierungsprozesse sich immer entlang einer oder mehrerer Stufen vom „content item“ zum „grammatical word“, zum „clitic“ bis hin zum „inflectional affix“ entwickeln (ebd.). Für einen erfolgreichen Grammatikalisierungsprozess muss der Sprachwandel jedoch nicht alle diese Stufen durchlaufen. Allein die Entwicklung hin zu einer dieser Stufen reicht für einen Sprachwandelprozess aus, um als Grammatikalisierungsprozess bezeichnet zu werden. Der Mechanismus, mit dem Hopper/ Traugott Grammatikalisierungsprozesse erklären, ist der der Reanalyse und Analogie (ebd., S. 32, 38, 56, 61). Unter Reanalyse verstehen sie einen verdeckten Prozess, bei dem eine sprachliche Struktur auf grammatischer Ebene reanalysiert wird, d. h. unbewusst eine Annahme über die grammatische Struktur einer Äußerung gemacht wird, die dann erst durch analoge Verwendung in einem anderen Kontext offensichtlich wird. Wenn diese sprachliche, grammatische oder syntaktische Struktur dann als Regel generalisiert wird, hat nach Hopper/ Traugott (ebd.) ein Prozess der Grammatikalisierung stattgefunden. Da die reanalysierte, analog verwendete Struktur im Sprachgebrauch häufig parallel neben dem ursprünglichen Gebrauch dieser Form existiert, kommt es häufig zur Entwicklung von Homonymen bzw. Polysemen der grammatikalisierten Formen (ebd., S. 70-72). Die Interpretation, ob es sich um die eine oder andere Verwendung der Struktur handelt, ist häufig kontextabhängig und somit auch ambig. In Bezug auf diese Kontextabhängigkeit postulieren Hopper/ Traugott, dass der Beginn eines Grammatikalisierungsprozesses zunächst von „pragmatic enrichment“, also einer funktionalen Erweiterung der Verwendungsmöglichkeiten einer Form begleitet wird (ebd., S. 87-93). „Bleaching [happens] exclusively in the late stages of grammaticalization“ (ebd., S. 93). Die so häufig als Kriterium für Grammatikalisierung zitierte semantische Ausbleichung der Form hin zu einer rein grammatischen Verwendung derselben geschieht laut Hopper/ Traugott (ebd.) erst in einem sehr späten Stadium des Grammatikalisierungsprozesses. Ein weiterer, häufig diskutierter Punkt in der Grammatikalisierungsforschung ist die Unidirektionalität von Grammatikalisierungsprozessen. Auch hier vertreten Hopper/ Traugott (2009) eine eher offene Definition von Unidirektionalität in Grammatikalisierungsprozessen: The lexical items that become grammaticalized must first be semantically general and serve commomnly needed discourse functions. Then they become syntactically fixed (they become constructions), and may eventually amalgamate <?page no="158"?> Theoretische Grundlagen 158 morphologically, say, as stem and affix. The basic assumption is that there is a relationship between between two stages A and B, such that A occurs before B, but not vice versa. (ebd., S. 100) Insbesondere im Fokus ist dabei der Aspekt der „decategorialization“, der deutlich macht, dass entlang eines Grammatikalisierungsprozesses eine Form verschiedene Funktionen erhalten kann, sich nicht jedoch zu einer semantisch stark beladenen Form, d. h. Hauptwortart, entwickeln kann (ebd., S. 106-109). Nicht gemeint ist mit diesem Begriff eine Art Verfall oder Herabstufung im Sinne einer grammatischen Hierarchie. Vielmehr soll der Begriff ausdrücken, dass eine Vielzahl von Funktionen im Diskurs eine spezifische, starre Funktion, d. h. eine Zuschreibung zu einer Kategorie, ersetzen: „In ascribing ‚decategorialization‘ to a form, we are not tracing the decay or deterioration of that form, but its functional shift from one kind of role to another in the organization of discourse“ (ebd., S. 108). Grammaticalization is a process leading from lexemes to grammatical formatives. A number of semantic, syntactic and phonological processes interact in the grammaticalization of morphemes and of whole constructions. A sign is grammaticalized to the extent that it is devoid of concrete lexical meaning and takes part in obligatory grammatical rules. (Lehmann 2002, S. vii) Aus dieser Definition Lehmanns geht hervor, dass er den Begriff der Grammatikalisierung wesentlich enger fasst als Hopper/ Traugott (2009). Zunächst postuliert er, dass man den Grammatikalisierungsgrad einer Wortform am Grad der Autonomie seines Gebrauchs festmachen kann. Unter Autonomie einer Wortform versteht er erstens das Gewicht einer Wortform auf semantischer Ebene, zweitens die Variabilität der Stellungsmöglichkeiten im Syntagma und drittens die Unabhängigkeit von anderen Konstruktionen. Daraus leitet er drei Parameter der Grammatikalisierung ab, namentlich die Abnahme an (semantischem) Gewicht (weight) und Variabilität (variability) und eine Zunahme an Kohäsion (cohesion), die je auf paradigmatischer und syntagmatischer Ebene erkennbar werden (Lehmann 2002, S. 109). Um den Grad der Grammatikalisierung einer Konstruktion festzustellen, stellt er sechs Kriterien auf, nach denen festzustellen ist, inwiefern eine Konstruktion noch autonom gebraucht wird, oder sich schon in einem Grammatikalisierungsprozess befindet (ebd., S. 110 f.). Den Parameter weight auf paradigmatischer Ebene nennt er integrity und postuliert, dass sich durch einen Prozess der Erosion (attrition) die Anzahl der semantischen Merkmale verringert und sich tendenziell mehrsilbige Strukturen zu oligo- oder monosegmentalen Strukturen entwickeln (ebd., S. 112-114). Auf syntagmatischer Ebene bezeichnet er den Parameter weight als structural scope und postuliert, dass durch einen Prozess der Kondensierung (condensa- <?page no="159"?> Wortarten in der gesprochenen Sprache 159 tion) eine Konstruktion oder ein Item sich nicht mehr auf eine Konstituente oder eine Konstruktion jedweder Komplexität bezieht, sondern nur noch ein einzelnes Wort oder auch nur einen Wortstamm modifiziert: „The relationality (or absoluteness) of an item is part of its grammatical features. Grammaticalization rips off the lexical features until only the grammatical features are left“ (ebd., S. 115). Die Zunahme von Kohäsion innerhalb eines Grammatikalisierungsprozesses beschreibt er ebenfalls auf paradigmatischer und syntagmatischer Ebene mit den Begriffen Paradigmatisierung (paradigmaticization) und Koaleszenz (coalescence). Diesen Prozess fasst er auf paradigmatischer Ebene unter dem Parameter der Paradigmatizität (paradigmacity), in dem ein Zeichen, das ehemals frei oder lose zu einem Wortfeld gehörte sich dahingehend entwickelt, dass es zu einem hochintegrierten Paradigma gehört (ebd., S. 118). Auf syntagmatischer Ebene bezeichnet er den Parameter als Fügungsenge (bondedness), das sich dadurch auszeichnet, dass bei ungrammatikalisierten Elementen das Zeichen frei oder „unabhängig juxtaponiert“ steht (ebd., S. 132; 2009). Bei stark grammatikalisierten Elementen steht das Zeichen hingegen als Affix mit einer anderen Wortform verbunden oder wird nur noch durch eine phonologische Eigenschaft der Trägerkonstruktion ausgedrückt (Lehmann 2002, S. 121). Den Prozess der Abnahme von Variabilität bezeichnet er auf der paradigmatischen Ebene als Obligatorisierung (obligatorification) und auf syntagmatischer Ebene als Fixierung (fixation). Auf paradigmatischer Ebene bedeutet dies, dass die Wählbarkeit (paradigmatic variability) eines Wortes oder einer Konstruktion eingeschränkt wird, bis hin zu dem Punkt, an dem es obligatorisch wird, diese spezielle Konstruktion oder dieses spezielle Zeichen zu verwenden (ebd., S. 123 f.). Die Fixierung auf syntagmatischer Ebene zeichnet sich dadurch aus, dass ein Zeichen oder eine Konstruktion ursprünglich frei im Syntagma verschiebbar war, durch einen Grammatikalisierungsprozess bzw. durch einen Prozess der syntaktischen Reanalyse jedoch nur noch eine feste Position besetzen kann (ebd., S. 140). Anhand dieser Parameter und Kriterien lässt sich Lehmanns Begriff der Grammatikalisierung definieren, wobei auch er den Prozesscharakter dieser Entwicklungen betont. Ein vollkommen autonomes Element ist somit nach kommunikativen Absichten frei wählbar, beinhaltet ein Bündel semantischer Merkmale und gehört zu einem losen Wortfeld. Syntaktisch steht es unabhängig, ist frei verschiebbar und bezieht sich auf ein Syntagma beliebiger Komplexität (ebd.). Ein vollkommen grammatikalisiertes Element hingegen gehört zu einem hochintegrierten Paradigma, die Wahl der Konstruktion oder des Zeichens ist eingeschränkt oder obligatorisch, durch Erosion haben sich semantische Merkmale in grammatische Merkmale gewandelt und es besetzt <?page no="160"?> Theoretische Grundlagen 160 als Affix eine feste Position und modifiziert einen Wortstamm (Lehmann 2002, S. 146; 2009). Die Diskussion um die Entstehung von Diskursmarkern hat dazu geführt, dass die Definition dessen, was unter Grammatikalisierung verstanden wird, in Frage gestellt wurde, da vor allem die Kriterien des Skopusverlusts, der Zunahme an Grammatizität und syntaktischer Kondensierung in diesem Zusammenhang nicht aufrechterhalten werden können. Gohl/ Günthner (1999) formulieren die Problematik in Bezug auf den Untersuchungsgegenstand weil und obwohl sehr präzise: Vielmehr zeigen sich bei der Entwicklung vom subordinierenden weil zum Diskursmarker weil einige Merkmale, die den klassischen Kriterien der Grammatikalisierung, wie Lehmann (1982) sie diskutiert, geradezu widersprechen: Statt einem Skopusverlust haben wir eine Skopuszunahme, statt einem Verlust an pragmatischem Gewicht haben wir eine Zunahme der pragmatischen Funktion und statt einer syntaktischen Kondensierung und Verdichtung haben wir die Entwicklung zu einem nur lose mit dem Folgesyntagma verknüpften, relativ unabhängigen Diskurselement. (Gohl/ Günthner 1999, S. 63) Erman/ Kotsinas (1993) haben nach ihrer Analyse der Entstehung des englischen Diskursmarkers You Know und des schwedischen ba' eine Alternative vorgeschlagen, namentlich, dass es sich bei diesem Sprachwandelprozess um einen Prozess der Pragmatikalisierung handele, da diese Items noch keine fixierte Position einnehmen - sie können sowohl äußerungsinitial als auch äußerungsfinal stehen - und ihre Funktion primär eine pragmatische ist. Sie schließen jedoch nicht aus, dass diese Elemente noch grammatikalisiert werden könnten und dass es sich bei dem momentanen Status um eine Vorstufe innerhalb des Grammatikalisierungsprozesses handeln könnte. Seither ist ein wissenschaftlicher Disput darüber entstanden, welche Sprachwandelprozesse bei der Entwicklung von Diskursmarkern wirken. Die Analyse dieses Disputs ist, neben der Frage, um welche Sprachwandelprozesse es sich hier handelt, auch sehr hilfreich bei der Beantwortung der Frage danach, ob es sich bei den Diskursmarkern um eine Wortart handelt oder nicht. 1. Handelt es sich um einen Prozess der Pragmatikalisierung, steht am Ende ein rein auf pragmatischer Ebene relevantes Element. 2. Handelt es sich um einen Prozess der Grammatikalisierung, steht am Ende des Prozesses ein grammatisches Element, das sich auf der Ebene der Morphosyntax ansiedelt und somit eine Wortart begründet. Es ist somit verwunderlich, dass sich Imo diesem Problem bei der Argumentation für eine Wortart Diskursmarker nicht angenommen hat. Er benutzt den Begriff Grammatikalisierung in Bezug auf die Entwicklung der Diskursmarker recht unreflektiert (Imo 2012, S. 59; ebenso Auer 1996, 1997; Barden/ Elstermann/ Fiehler 2001 und Duden 2009). <?page no="161"?> Wortarten in der gesprochenen Sprache 161 Dies ist verwunderlich, sind die Positionen zu dieser Frage doch sowohl für die deutsche als auch für die englische Sprache vielfach in der Literatur diskutiert worden. So schloss sich Aijmer (1997) Erman/ Kotsinas (1993) an, während andere argumentierten, dass der Begriff Grammatikalisierung weiter gefasst werden müsste und so Pragmatikalisierung als Subtyp der Grammatikalisierungsprozesse mit einschließe (siehe Günthner 1999; Gohl/ Günthner 1999; Barth-Weingarten/ Couper-Kuhlen 2002; Günthner/ Mutz 2004). Forschungspositionen der jüngeren Forschung stehen dem entgegen. Zunächst jener, die sich einer Entscheidung enthalten, beispielsweise Günthner (2005) und Auer/ Günthner (2005), die deutlich machen, dass es vom Grammatikbegriff abhängt, ob der Prozess als Grammatikalisierung anzusehen ist oder nicht. Weiterhin werden Positionen vertreten, die Grammatikalisierung von Pragmatikalisierung differenzieren und die Entstehung der Diskursmarker eindeutig einem Pragmatikalisierungsprozess zuschreiben, wie dies beispielsweise recht unreflektiert bei Rehbock (2009) der Fall ist. Dabóczi (2010), Heine (2013) und Mroczynski (2013) haben sich jüngst in ihren Aufsätzen allein der Frage gewidmet, wie die Prozesse, die zur Entstehung von Diskursmarkern führen, zu bezeichnen sind. Dabóczi (2010) kommt zu dem Schluss, dass sie den Begriff Pragmatisierung 34 präferiert, da sie ihn für die Beschreibung von Phänomenen der gesprochenen Sprache, deren Funktion vorwiegend eine pragmatische ist, als passender empfindet. Sie hebt jedoch dabei hervor, dass „Pragmatisierung nicht [H. d. V.] als isolierter Prozess gegenüber der Grammatikalisierung oder Lexikalisierung im Lehmannschen Sinne (vgl. 1989 und 1995)“ (ebd., S. 20) zu betrachten sei. Heine (2013) stellt zunächst fest, dass die Diskursmarker-Entstehung einigen Kriterien der Grammatikalisierungstheorie nicht entspricht. Er kommt dann aber zu dem Schluss, dass es durch einen von ihm als cooptation bezeichneten Prozess in einem weiteren Schritt doch zur Grammatikalisierung kommt. Cooptation definiert er als „ubiquitous operation whereby a chunk of SG [sentence grammar, A. d. V.], such as a clause, a phrase, a word, or any other unit is deployed for use as a thetical“ (ebd., S. 1221). Er beschreibt einen allgegenwärtigen Prozess, bei welchem eine verfestigte Wendung auf der Ebene der Satzgrammatik, welche aus einem ganzen Satz, einer Phrase, oder einem Wort bestehen kann, als unabhängige interaktive Einheit reanalysiert wird. Schließlich nennt er den Prozess, in dem eine Kombination aus Cooptation und Grammatikalisierung stattgefunden hat, Pragmatikalisierung (Heine 2013, S. 1239). Man kann daran kritisieren, dass, nur weil ein Prozess von Grammatikalisierung und Cooptation stattgefunden hat, das Element nicht zwangsläufig auch eine weitere pragmatische Funktion erhalten hat. Beispielsweise hat das Wort heutzu- 34 Dabóczi verwendet den Begriff Pragmatisierung. Aus den Zusammenhängen wird jedoch deutlich, dass der Begriff synonym zu dem der Pragmatikalisierung verwendet wird. <?page no="162"?> Theoretische Grundlagen 162 tage sowohl einen Prozess der Cooptation als auch den der Grammatikalisierung durchlaufen, es hat jedoch keine neue pragmatische Funktion erhalten und kann somit auch nicht als Resultat eines Pragmatikalisierungsprozesses bezeichnet werden. Eine klare Trennung der Begrifflichkeiten schließlich nimmt Mroczynski (2013) vor. Er hält an einem engen Grammatikalisierungsbegriff fest und stellt Pragmatikalisierungsparameter auf, um eine klare Abgrenzung zwischen Pragmatikalisierungsprozessen und Grammatikalisierungsprozessen vorzunehmen: Grammatikalisierungsprozesse zeichnet Skopusschrumpfung, Verschmelzung hinsichtlich der Fügungsenge sowie prosodische Integration aus. All diese Aspekte verlaufen in Herausbildungsprozessen der Pragmeme in entgegengesetzter Richtung: Statt Skopusschrumpfung tritt eine Skopusexpansion ein, statt Verschmelzung hinsichtlich der Fügungsenge eine eindeutige Entkopplung, statt prosodischer Integration eine prosodische Emanzipation. (ebd., S. 147 f.) Die Parameter, die Mroczynski aufstellt, um Pragmatikalisierung von Grammatikalisierung abzugrenzen, sind nach seiner eigenen Beschreibung, abgesehen von Ersterem, alle fakultativ. Darüber hinaus lassen sie sich für sein eigenes Beispiel, die Verwendung von ja als Diskursmarker, nicht aufrechterhalten. Beispielsweise könnte man argumentieren, dass ja, wird es als Responsiv genutzt, wesentlich entkoppelter ist als ein ja im Vor-Vorfeld einer Äußerung, auch wenn man es vielleicht nicht als Verschmelzung bezeichnen kann. Auch ist es fraglich, ob es prosodisch emanzipierter als das Responsiv ist. Dass Diskursmarker eine vorwiegend pragmatische Funktion übernehmen - sein wichtigstes Abgrenzungskriterium -, ist die prominenteste Eigenschaft der Diskursmarker. Allerdings muss man in Frage stellen, ob dies als Abgrenzungskriterium dienen kann, weil es nicht die Frage danach beantwortet, ob die Elemente, die pragmatische Funktionen übernehmen, nicht auch grammatische Funktionen übernehmen können. Auch wenn es also zunächst scheint, als könnte seine Analyse eine klare Abgrenzung dieser zwei Prozesse erklären, wird bei näherer Betrachtung deutlich, dass seine Paradigmen nur schwerlich für eine Abgrenzung taugen und seine Analysen im Grunde der Deutung von Diskursmarkern als grammatikalisierte Elemente nicht widersprechen. Zusammenfassend kann man also festhalten, dass alle Analysen einräumen, dass es sich bei Diskursmarkern schließlich um grammatische Elemente handelt, auch wenn ihre Funktion vorwiegend eine pragmatische ist. Diskursmarker sind nicht weniger grammatische Elemente als ihre Homonyme in anderen Wortklassen, sie sind lediglich nach einer Rekategorisierung einer anderen Kategorie zuzuordnen. Auch wenn ihre Funktion vorwiegend diskurspragmatisch ist, so besteht doch eine starke syntaktische Bindung an die Folgeäußerung - die Projektionskraft der Elemente verlangt die Erfüllung der durch sie geöffneten Leerstelle. Auch wenn die Folgeäußerung nicht un- <?page no="163"?> Wortarten in der gesprochenen Sprache 163 grammatisch wird, wenn der Diskursmarker weggelassen wird, kann die Folgeäußerung in einer Diskursmarker-Konstruktion nicht weggelassen werden, ohne dass die gesamte Konstruktion ungrammatisch wird. Entscheidend ist also das Kriterium, dass die Elemente distributionell im Vor- Vorfeld stehen und an dieser Stelle die Erfüllung einer Folgeäußerung fordern. Das häufig zitierte Kriterium, dass bei Grammatikalisierungsprozessen Klitisierungsprozesse stattfinden, ist zwar nicht auf den Diskursmarker und den Rest der Konstruktion anzuwenden, wohl aber innerhalb des Diskursmarkers, wie an Klitisierungen beispielsweise von ich mein oder ich schwör beobachtbar ist. Die Annahme, dass bei der Entstehung eine Skopusausweitung vollzogen wird, im Vergleich zur Kondensierung bei Grammatikalisierungsprozessen, muss ebenfalls in Frage gestellt werden. Es sei dahingestellt, ob ein Diskursmarker tatsächlich einen größeren Skopus hat als beispielsweise eine Tempusmarkierung, die in gesprochener Sprache auch das Tempus mehrerer Folgeäußerungen markieren kann. Schließlich gibt es noch das Argument der prosodischen Isolation der Diskursmarker im Vergleich zur prosodischen Integration grammatischer Elemente. Mroczynski (2013) behauptet dazu: „Je stärker die betreffende Einheit sich prosodisch von den benachbarten Einheiten absetzt, desto tiefgründiger ist sie in dem Pragmatikalisierungsprozess verhaftet“ (ebd., S. 141). Die Rolle der Prosodie für die Definition der Wortart Diskursmarker ist umstritten. Sie wird daher im Folgenden diskutiert. 2.4.8.1.6 Die Rolle der Prosodie Auer (1997) thematisiert die prosodische Markierung von Vor-Vorfeld-Konstruktionen. Bei der Betrachtung verschiedener Vor-Vorfeld-Konstruktionen kommt er zu dem Schluss, dass das Vor-Vorfeld prosodisch abgesetzt sein kann, dies aber nicht zwingend der Fall sein muss: In den spontansprachlichen Daten kommen Pausen zwischen Vor-Vorfeld und Vorfeld recht selten vor. Teils wird jedoch eine Konturgrenze mit Mitteln der Tonhöhenbewegung hergestellt. […] In anderen Fällen erscheint die Vor- Vorfeldkonstituente völlig in die prosodische Folgestruktur integriert. (ebd., S. 61 f.) In Bezug auf die Operator-Skopus-Strukturen legen Barden/ Elstermann/ Fiehler (2001) dar, dass die spezifische Zweigliedrigkeit der Struktur auch durch Prosodie erzeugt werden kann. Prosodische Markierung sei vor allem in den Fällen obligatorisch, wenn die Vor-Vorfeld-Position der Elemente nicht als topologische Markierung ausreicht, um sie von stellungsgleich gebrauchten Homonymen abzugrenzen (ebd., S. 201). Ihren Ausführungen zufolge müssen die Elemente, die beispielsweise Homonyme in der Klasse der koordinierenden Konjunktionen haben - wie und, denn, oder, aber -, prosodisch durch <?page no="164"?> Theoretische Grundlagen 164 eine Pause von ihrer Folgeäußerung abgesetzt werden. Ebenso zählen sie zu dieser Gruppe auch also, das nach ihren Ausführungen durch prosodische Markierung als Diskursmarker klassifiziert werden kann, in Abgrenzung zu seiner Verwendung als Gliederungssignal (ebd., S. 212). Ihren Analysen zufolge muss die prosodische Markierung durch eine Pause erfolgen: Das alleinige Auftreten der final fallenden Tonhöhenbewegung auf dem Operator und die Tonhöhenverminderungen zwischen Operator und Skopus reichen offenbar nicht aus, um Ausdrücke, die obligatorisch prosodisch markiert werden müssen, hervorzuheben. Die Pause wirkt hier als deutlichstes Segmentierungsmerkmal. (ebd., S. 213) Auer/ Günthner (2005) sind in dieser Hinsicht weniger festlegend. Zwar betonen auch sie, dass prosodische Kriterien bei der Abgrenzung von nebenordnenden Konjunktionen zu Diskursmarkern ausschlaggebend sein können, allerdings lassen sie die Art und Weise der prosodischen Markierung, die dafür genutzt werden kann, offen (ebd., S. 339 f.). Auch Imo (2012) problematisiert die Rolle der Prosodie für die Definition der Wortart Diskursmarker. Seines Erachtens ist die These, dass Diskursmarker prosodisch von der Folgeäußerung abgesetzt seien, darauf zurückzuführen, dass sie bei ihrem Gebrauch in der Schriftsprache mit den Mitteln der Interpunktion ebenfalls von der Folgeäußerung abgesetzt seien (ebd., S. 71). Komma, Doppelpunkt oder Semikolon sind häufig verwendete Mittel, um den Zusammenhang des Diskursmarkers mit dem Folgesatz darzustellen und doch gleichzeitig auf die Zweigliedrigkeit der Konstruktion zu verweisen. Imo weist aber auch darauf hin, dass diese These häufig ohne Belege aufgestellt wurde (ebd.). Im Folgenden bezeichnet er die von Barden/ Elstermann/ Fiehler (2001) aufgestellte These, dass nur die Elemente durch Prosodie (Pausen) eindeutig abgegrenzt seien, die stellungsgleich verwendete homonyme Dubletten haben, als vielversprechend, da er einen Hinweis darauf liefert, dass die Kategorie Diskursmarker tatsächlich der sprachlichen Realität entspricht und von den Sprecherlnnen ein entsprechender Aufwand getroffen wird, sie als eigene Kategorie erkennbar zu machen. (Imo 2012, S. 72) Nach einer Analyse einiger Fallbeispiele kommt er allerdings zu dem Schluss, „dass die Grundregel der Betonung von Diskursmarkern mit ‚Verwechslungsgefahr‘ […] lediglich eine Tendenz darstellt“ (ebd., S. 76). Seiner Ansicht nach bedarf es einer prosodischen Analyse, mit Hilfe derer es einfacher sei „einen Diskursmarker sofort zu erkennen“ (ebd.). Des Weiteren hebt er noch eine andere Art der Disambiguierung hervor. Er stellt fest, dass die Verwendung mehrerer Diskursmarker hintereinander ebenso dazu führt, dass sie für die Hörer*innen eindeutig von ihren Dubletten disambiguierbar sind, eine prosodische Markierung in solchen Fällen also nicht von Nöten ist (ebd., S. 77). <?page no="165"?> Wortarten in der gesprochenen Sprache 165 Sein Fazit bezüglich der Rolle der Prosodie für die Definition der Wortart Diskursmarker lautet schließlich folgendermaßen: Was nicht möglich ist, ist eine Festlegung der Art „Diskursmarker als Wortart werden stets prosodisch markiert“. Was dagegen möglich ist, ist eine Aussage wie Diskursmarker werden als Wortart durch die Prosodie, den Kontext, den Kotext und/ oder durch Kombinationen davon desambiguiert. (ebd.) Für ein POS-Tagging von Diskursmarkern ist Eindeutigkeit und Abgrenzbarkeit ein wesentliches Kriterium zur Erkennbarkeit dieser Elemente. Folgt nach einem Diskursmarker, der stellungsgleiche Homonyme beispielsweise bei den Konjunktionen hat, immer (oder vorwiegend) eine Pause oder ein transkribiertes Atmen, so ließen sich diese Diskursmarker stochastisch auch bei einem automatisierten POS-Tagging von form- und stellungsgleich verwendeten Konjunktionen disambiguieren. Eine prosodische Analyse des abers selbst kann jedoch keine Grundlage zur Disambiguierung sein (siehe dazu auch Näheres im Kapitel 2.3 „Kontext und Multimodalität in der Face-to- Face-Interaktion“). Um zu erfassen, ob Diskursmarker, die Homonyme in der Klasse der nebenordnenden Konjunktionen haben, durch Pausen oder transkribiertes Atmen von der Folgeäußerung abgesetzt werden, wurde eine kleine korpuslinguistische Untersuchung an den Transkripten des FOLK- Korpus durchgeführt. Hierzu wurden aus dem FOLK-Korpus zunächst zufällig 200 Instanzen von Äußerungen mit aber mit folgender Verbzweitstellung herausgesucht. Ausgewählt wurden nur Aussagesätze, keine Imperative oder Interrogativsätze. Genauer wurden 100 Instanzen von aber, gefolgt von einer Pause oder einem transkribierten Ein- oder Ausatmen, gefolgt von einer Verbzweit-Konstruktion zur Analyse ausgewählt und 100 Instanzen von aber, dem ohne Pause oder Atmen eine Verbzweit-Konstruktion folgt. Zur Analyse dieser Beispiele wurde zunächst festgelegt, in welchen Fällen aber als Konjunktion und in welchen Fällen aber als Diskursmarker zu codieren ist. Der Differenzierung zwischen diesen zwei Wortarten liegt die Annahme zugrunde, dass es sich bei aber auch in der Tiefenstruktur um zwei verschiedene Wortarten handelt, im Gegensatz zu der Annahme, dass die Konjunktion aber nur die Funktion eines Diskursmarkers annimmt. Während Konjunktionen in der Theorie der topologischen Felder die Nullposition besetzen, befinden sich Diskursmarker im Vor-Vorfeld. Diese Theorie lässt sich dann belegen, wenn an der Oberflächenstruktur deutlich wird, dass beide Positionen durch je eine Konjunktion und einen Diskursmarker besetzt sind. Die Differenzierung wurde anhand folgender Kriterien vorgenommen: Als Konjunktion wurde aber ausschließlich in seiner Funktion als koordinierende Konjunktion, die zwei gleichwertige Propositionen miteinander verbindet, <?page no="166"?> Theoretische Grundlagen 166 codiert. Fand eine Auflockerung des Verweisraums statt, d. h. aber verwies semantisch-pragmatisch über den Vorgängersatz bzw. über den nachfolgenden Teil hinaus (d. h. über den Satz hinaus, in dessen Vor-Vorfeld aber steht), wurde es als Diskursmarker codiert. Dies bedeutet unter anderem, dass aber als Diskursmarker ungleich der koordinierenden Konjunktion nicht zwingend eine vorhergehende Äußerung brauchte. Um die Abgrenzung zwischen Diskursmarker und Konjunktion zu vereinfachen, wurde eine Umstellprobe vorgenommen. Handelte es sich um zwei koordinierte Propositionen, die durch eine nebenordnende Konjunktion verbunden sind, lassen sich die Sätze vor und nach dem aber miteinander vertauschen, ohne dass sich die Bedeutung der Gesamtaussage ändert. Für diese Umstellprobe ist es notwendig, dass dem aber eine vollständige Äußerung, - oder zumindest eine eindeutig rekonstruierbare Äußerung - folgt. Ist dies nicht der Fall, ist nicht zu bestimmen, ob es sich um einen Diskursmarker oder eine Konjunktion handelt, und die Instanz wurde als nicht-bestimmbar codiert. Beispiel 16: Schlichtungsgespräch Stuttgart 21, Transkript FOLK_E_00064_ SE_01_T_02_DF_01, 01: 36: 57-01: 37: 14 35 01 VK die (0.22) bIslang (.) durch überhaupt nichts unterSTÜTZT wird. 02 VK °h des halt ich nicht für seRIÖS. 03 VK °h also (.) wir können des gerne MAchen. 04 VK aber (.) es wird naTÜRlich ,= 05 VK =sie werden ZEIgen, 06 VK dass DANN, 07 VK °h wenn IRgendetwas- 08 VK (.) sich verÄNdert oder wegbricht dass wir UNter eins rutschen.= 09 VK =da sag ich JA.= 10 VK =mach ich_n dicken HAken dran. Ein Beispiel für einen Fall der Kategorie nicht-bestimmbar ist die Äußerung Volker Kauders aus dem Schlichtungsgespräch zu Stuttgart 21 in Zeile 04 des Beispiel 16. Er bricht nach es wird natürlich den Gedankengang ab - ohne ein Verb geäußert zu haben - und setzt mit einem anderen Gedankengang ein. Es ist daher nicht rekonstruierbar, ob das aber hier zur Koordination zweier Sätze diente oder in der Funktion des Diskursmarkers einen neuen Gedankengang einleitete. Aber in der Funktion einer Konjunktion findet sich beispielsweise in der Äußerung MEs in Beispiel 17: 35 http: / / dgd.ids-mannheim.de/ service/ DGD2Web/ ExternalAccessServlet? command=displayTr anscript&id=FOLK_E_00064_SE_01_T_02_DF_01&cID=c637&wID=w6513. <?page no="167"?> Wortarten in der gesprochenen Sprache 167 Beispiel 17: Schichtübergabe, Transkript FOLK_E_00118_SE_01_T_01_ DF_01, 10: 49-11: 26 36 01 ME jetz heute morgen un heut mittag hat se_s SCHLÜCKchenweise genommen aber auch danach hat se dann wieder fUrchtbar hUsten müssen. In diesem Beispiel aus einer Schichtübergabe in einem Krankenhaus nimmt aber die Funktion einer koordinierenden Konjunktion ein, wie durch eine Umstellprobe gezeigt werden kann: Die Sprecherin hätte ebenso, ohne Bedeutungsverschiebung sagen können: danach hat sie dann wieder furchtbar husten müssen aber heut mittag hat sie es schlückchenweise genommen. Eine Umstellprobe muss in folgendem Beispiel, in dem ein Fahrschullehrer das Verhalten seines Fahrschülers kommentiert, fehlschlagen: Beispiel 18: Fahrschulinteraktion, Transkript FOLK_E_00167_SE_01_T_01_ DF_01, 08: 15-08: 29 37 01 RK GA: S weg,= 02 RK =da is schon WIEder rechts vor links, 03 RK (.) A: ber , 04 RK (.) °h ich kann hier ne MENge sehn und ich muss immer auf_m rechten rand sein. Das aber hat hier die Funktion, die Folgeäußerung zu kommentieren; als koordinierende Konjunktion kann es hier keinesfalls gelten. Die je 100 Instanzen mit und ohne Pause oder transkribierter Atmung wurden je von zwei Personen analysiert und nach oben beschriebenem Schema codiert. Ein Inter-Annotator-Agreement sollte sicherstellen, dass die Kriterien zur Differenzierung zwischen der Funktion von aber als koordinierende Konjunktion und der pragmatischen Funktion als Diskursmarker ausreichen. Für die Beantwortung der Frage, inwiefern Diskursmarker im Gegensatz zu Konjunktionen durch eine folgende Pause als solche markiert werden, wurden nur die Codierungen ausgewertet, die von beiden Annotator*innen gleich kategorisiert wurden und somit eindeutig der Kategorie Diskursmarker oder Konjunktion zugeordnet werden konnten. Die Auswertung des Inter-Annotator-Agreements ergab, dass nur 151 Instanzen von 200 (ca. 75,5 Prozent) von beiden Annotator*innen in derselben Art und Weise codiert wurden, was einen äußerst niedrigen Kappa-Wert (Cohen’s 36 http: / / dgd.ids-mannheim.de/ service/ DGD2Web/ ExternalAccessServlet? command=displayTr anscript&id=FOLK_E_00118_SE_01_T_01_DF_01&cID=c267&wID=w2020. 37 http: / / dgd.ids-mannheim.de/ service/ DGD2Web/ ExternalAccessServlet? command=displayTr anscript&id=FOLK_E_00167_SE_01_T_01_DF_01&cID=c390&wID=w1231. <?page no="168"?> Theoretische Grundlagen 168 Kappa) von nur 0.45 ergab. 38 Dies weist darauf hin, dass eine Differenzierung zwischen diesen Wortarten bei aber trotz sehr klarer Differenzierungskriterien bei emprisch erhobenen Daten gesprochener Sprache nur sehr schwer möglich ist. Dies könnte man darauf zurückführen, dass der Grammatikalisierungs- oder Pragmatikalisierungsprozess von aber noch nicht vollständig vollzogen wurde und sich die tatsächliche Verwendung von aber auf einem Kontinuum irgendwo zwischen der eindeutigen Verwendung als Diskursmarker und der eindeutigen Verwendung als koordinierende Konjunktion bewegt. Es war somit der Interpretation der Annotator*innen und somit der Interpretation des Kontexts überlassen, wie sie diese Instanzen einordneten. Uneinig waren sich die Annotator*innen beispielsweise besonders in Fällen, in denen die Vorgänger-Äußerung durch das Adverb zwar modifiziert wurde, oder auch in Fällen, in denen weitere Äußerungen parenthetisch in einen der Äußerungsteile eingebettet waren. Für die Auswertung in Bezug auf die Frage, ob sich Diskursmarker dadurch identifizieren lassen, dass sie durch Pausen oder Atmung von der Folgeäußerung abgegrenzt werden, wurden nur die Instanzen analysiert, in denen sich die Annotator*innen einig waren. Die Auswertung ergab, dass insgesamt deutlich mehr Instanzen den Diskursmarkern zugeordnet wurden als den Konjunktionen: 22,4 Prozent der Instanzen von aber mit Pause wurden als Konjunktionen klassifiziert und 77,6 Prozent als Diskursmarker. Bei den Instanzen von aber ohne Pause sah das Bild ähnlich aus: 25,3 Prozent wurden als Konjunktionen klassifiziert und 74,7 Prozent als Diskursmarker. Diese Auswertung zeigt, dass sich die These, dass Diskursmarker von ihren homonymen Dubletten durch den Gebrauch von Pausen oder Atmen abgegrenzt werden, nicht halten lässt. Dies bedeutet nicht, dass sie sich nicht eventuell durch andere prosodische Merkmale voneinander abgrenzen lassen. Für ein automatisiertes POS-Tagging sind solche Merkmale jedoch nicht verfügbar. Die Studie konnte zeigen, dass die distributionelle Verteilung von Pausen oder transkribierter Atmung nach solchen Elementen demnach nicht als Abgrenzungskriterium dienen können, um Diskursmarker von nebenordnenden Konjunktionen abzugrenzen. 2.4.8.1.7 Fazit Satz externe Elemente Durch einen Prozess der Grammatikalisierung haben Wörter aus verschiedenen grammatischen Kategorien (z. B. Konjunktionaladverbien, Adverbien, Subjunktionen) die Wortartenklasse gewechselt. Der äußerungsinitiale Ge- 38 Genauere Ausführungen zur Berechnung von Inter-Annotator-Agreements und ihrem Nutzen finden sich im Kapitel 3.9 „Inter-Annotator-Agreement zur manuellen Korrektur des Development-Sets“). <?page no="169"?> Wortarten in der gesprochenen Sprache 169 brauch dieser Wörter und die Eigenschaft ein Folgesyntagma zu projizieren, sind die formalen Definitionskriterien für Diskursmarker. Am Rande dieser Definition treten einige dieser Elemente auch im Nachfeld auf. Ihr Status als Diskursmarker ist jedoch nicht abschließend geklärt (Alm 2015; Deppermann 2011; Günthner/ König 2015; Imo 2011, 2012). Auf funktionaler Ebene geben sie eine Verstehensanweisung für die Folgeäußerung(en). Prosodisch können Diskursmarker von der Folgeäußerung abgesetzt werden, dies ist jedoch nicht zwingend der Fall. Diskursmarker gehören zu der Gruppe der Vor-Vorfeld-Elemente. Sie sind eine spezifische Form der Operatoren im Sinne von Barden/ Elstermann/ Fiehler (2001). Wie von Imo (2012) bereits dargestellt, gibt es prototypische Vertreter der Wortart Diskursmarker (weil, obwohl, wobei mit verbzweit-Stellung etc.). Zudem gibt es eine Reihe von Diskursmarker-Konstruktionen, die aus Mehrworteinheiten bestehen (z. B. ich mein, ich glaub, ich sach ma etc.), die funktional äquivalent zu Diskursmarkern gebraucht werden und die in gesprochener Sprache, typisch für Grammatikalisierungsprozesse, klitisiert werden und den Status einer Einheit erlangt haben. Eine Einordnung der Wortart Diskursmarker in ein Tagset für gesprochene Sprache muss diskutiert werden, auch wenn diese Einordnung klarer, operationalisierbarer Kriterien bedarf. Hierfür ist es auch notwendig, sie von den äußerungsfinalen Elementen abzugrenzen, die häufig auch den Diskursmarkern zugeschrieben werden. 2.4.8.2 Äußerungsfinale Elemente Genau wie die Diskursmarker können die hier im Fokus stehenden Rückversicherungssignale bzw. Tag Questions nicht unabhängig von Äußerungen stehen. Zwar haben sie für den Rezipienten eine pragmatische projizierende Kraft, jedoch keine projizierende Kraft auf syntaktischer Ebene. Dennoch sind sie syntaktisch an eine Äußerung gebunden. Ähnlich wie die Diskursmarker fragen sie auf funktionaler Ebene beispielsweise das Verstehen der Äußerungen ab, sei es auch nur im Sinne einer Lenkung der Aufmerksamkeit auf das Gesagte (attention getters) oder sie bewerten die Darstellung des Gesagten als evident. Diese Eigenschaften sind es wohl, die sie in der Literatur immer wieder in die Nähe der Diskursmarker rücken lassen. Wie auch bei der Untersuchung des Begriffs Diskursmarker schon festgestellt wurde, ist die Literatur zu diesen pragmatischen Elementen sehr spärlich, auch wenn in letzter Zeit verschiedene Elemente in Nachfeldposition in der Forschung zur gesprochenen Sprache auf ihre Verwendung als Diskursmarker oder Tag Questions hin untersucht wurden (beispielsweise in Alm 2015; Deppermann 2011; Günthner/ König 2015 oder Proske 2015). Obwohl sie in der Alltagssprache relativ frequent verwendet werden (ca. 3,514 Token <?page no="170"?> Theoretische Grundlagen 170 pMW), 39 werden sie in den Grammatiken teils nicht explizit beschrieben (beispielsweise bei Engel 2004 oder Weinrich 2005). Die Literatur für Tag Questions in der englischen Sprache (Allerton 2009; Axelsson 2011; Matthiessen 2004; Moravcsik 1971; Ultan 1978; Zhang 2010; Mithun 2012; Columbus 2010a, 2010b; Rosen 2012; Gómez-González 2012) ist deutlich umfangreicher als für das Deutsche (Hagemann 2009; Frey 2010; Imo 2011, 2012). Zudem liegt der Fokus auch häufig auf dem Vergleich mit der englischen Sprache (Schleef 2005, 2009), auf bilingualem Spracherwerb (Mills 1981) oder dem DaF-Spracherwerb (Imo 2011; Drake/ Drake 2015). Es ist anzunehmen, dass dies dem Umstand geschuldet ist, dass die meisten englischen Tag Questions wesentlich komplexer in ihrer Bildung sind als die deutschen, da sie in ihrer Konstruktion grammatisch abhängig von der vorausgehenden Äußerung sind. Im Deutschen sind sie auf der Ebene der Morphosyntax meist invariable Partikeln, abgesehen von solchen, die von Verb-Matrix-Sätzen abgeleitet wurden, wie beispielsweise verstehst du? oder verstehen sie? . Viele der invariablen Partikeln haben, ebenso wie die Diskursmarker, teils homonyme Dubletten in anderen Wortartenklassen und können durch ihre Satz-externe, finale Stellung von ihnen unterschieden werden. Auch für diese Elemente gibt es in der deutschen Literatur keine einheitliche Terminologie. In der Duden-Grammatik (2009), wie auch bei Schwitalla (2012) werden sie als Rückversicherungssignale den Gesprächspartikeln untergeordnet (Duden 2009, S. 595; Schwitalla 2012, S. 159). An anderer Stelle bezeichnet die Duden-Grammatik sie als Rückversicherungs- und Reaktionsanforderungssignale und ordnet sie den sprecherseitigen Gliederungspartikeln unter (Duden 2009, S. 1216) und wiederum an anderer Stelle werden die Rückversicherungssignale den assoziierten funktionalen Einheiten untergeordnet, deren Merkmal es ist, im Vergleich zu den potenziell selbstständigen funktionalen Einheiten eine Trägereinheit zu erfordern, der sie assoziiert sind (ebd., S. 1223). Auf der Internetplattform Grammis 2.0 werden sie den Interjektionen zugerechnet, was durch die gewählten Beispiele auf der Webseite deutlich wird, nicht jedoch über eine Definition (Institut für Deutsche Sprache 2013). Die GDS (Zifonun/ Hoffmann/ Strecker 1997, S. 384) zählt sie ebenfalls zu den Interjektionen. Dort werden sie als Interjektion NE und Verwandtes (ODER, GELL) als eine Subkategorie der Interjektionen klassifiziert und als nachgeschaltete Sprechhandlungsaugmente bezeichnet. Ihre funktionale Bestimmung wird folgendermaßen definiert: Ausdrücke der Formklasse NE werden vom Sprecher eingesetzt, um den Diskursfortgang kurzfristig zu sistieren, die Aufmerksamkeit des Hörers auf die 39 Gemessen am FOLK-Korpus, Stand: 7. 12. 2018. <?page no="171"?> Wortarten in der gesprochenen Sprache 171 unmittelbar vorhergehende Äußerung zu lenken und ihn zu einer Konvergenz (präferiert) oder Divergenz (nicht präferiert) herstellenden Reaktion zu veranlassen. (ebd., S. 384) Burkhardt nennt sie Gliederungspartikeln oder gesprächsaktausleitende Partikeln (Burkhardt 1982b, S. 148 f.) und ordnet sie seinen sprecherseitigen Gesprächswörtern unter, definiert sie aber nicht genauer. In den HSK werden sie von Hentschel/ Weydt (2002) als phatische Partikeln bezeichnet, die jedoch „auch in die Klasse der Interjektionen übergehen“ (ebd., S. 650). Auch dort werden sie nicht genauer definiert. Es wird deutlich, dass all diese Bezeichnungen entweder Beschreibungen auf funktionaler Ebene gleichen - z. B. der Funktion sich zu vergewissern, eine Rückversicherung oder Reaktion einzuholen - oder die Positionierung dieser Elemente widerspiegelt, d. h., dass sie äußerungsfinal sind. Des Weiteren bedeutet das, dass sie wie auch die Diskursmarker der Oberkategorie der Gesprächspartikeln zuzuordnen sind. Aus den Bezeichnungen als Tag oder assoziierte Elemente geht auch hervor, dass sie formal abhängig von einer Äußerung sind, d. h. nicht unabhängig stehen können. Allerdings werden in den Handbüchern und Grammatiken weder ihre formalen noch ihre funktionalen Eigenschaften genauer definiert. Es wird daher im Folgenden die Literatur zu diesen Elementen genauer auf mögliche Definitionen hin untersucht. Der Einfachheit halber werden diese Elemente von hier an als Tag Questions bezeichnet. Schon 1969 stellte Ultan im Rahmen seiner Definition von Tag Questions eine sprachübergreifende funktionale Klassifikation derselben auf. Er differenziert zunächst zwischen zwei Klassen (Ultan 1978, S. 224): 1) A request for confirmation of the statement portion of the question, in essence a YNQ [Yes/ No-Question, A. d. V.]; 2) an alternative tag, in which a correlative conjunction or other similarly functioning constituent is tacked onto the statement. Erstere Klasse, von denen er annimmt, dass sie nahezu alle als rhetorische Fragen verwendet werden, teilt er wiederum in vier semantische Kategorien ein, in negative Ausdrücke (z. B. frz. non, engl. no, dt. nich), positive Ausdrücke (z. B. dt. ja, engl. is it? ), Interjektionen (z. B. engl. eh, dt. hm) und miscellaneous, also verschiedene andere Ausdrücke (ebd.). Er definiert Tag Questions als Satz-gebundene Elemente, die entweder aus einem Wort (z. B. engl. eh? ), einer Phrase (z. B. dt. nicht wahr? ) oder einer Satz-Konstruktion bestehen können (z. B. engl. isn’t it? ) (ebd., S. 223). Er hebt dabei hervor, dass der Satz, an den sie gebunden sind, meist ein deklarativer Satz ist, der in der Gesamtkonstruktion mit der äußerungsfinalen Tag Question zu einer Frage konvertiert wird (ebd., S. 224). <?page no="172"?> Theoretische Grundlagen 172 Mills (1981) untersucht das Erlernen von Tag Questions bei einem bilingualen Kind im Sprachvergleich von Deutsch und Englisch. Sie offeriert keine klare Definition dieser Elemente, vergleicht jedoch die Funktion dieser Elemente im Diskurs. Sie stellt fest, dass deutsche Tag Questions zwar immer in Kombination mit einem Deklarativ-Satz auftreten, im Vergleich zum Englischen in ihrer Bildung jedoch syntaktisch nicht von ihm abhängig sind. Weiterhin kommt sie zu dem Schluss, dass Tag Questions nicht nur als Markierung einer Ja- oder Nein-Frage dienen, sondern die Funktion der Aufforderung zu einer Bestätigung des Gesagten (request for confirmation) oder der Sicherung der Aufmerksamkeit (request for attention) einnehmen (ebd., S. 641). Diese Funktionsunterscheidung sei durch eine unterschiedliche prosodische Markierung der Elemente realisiert. Schließlich räumt sie jedoch ein, dass die prosodische Unterscheidung der Funktionen im Deutschen nur relativ sein kann, und sie daher ein sehr vages Merkmal der Unterscheidung ist (ebd., S. 644). Weiterhin behauptet sie, die verschiedenen Tag Questions seien alle von ehemaligen Interrogativ-Sätzen abgeleitet, wie im folgenden zitierten Beispiel (ebd., S. 642): (5) Wir gehen ins Kino, (oder gehen wir) nicht (ins Kino)? (6) Wir gehen ins Kino, (ist es) nicht wahr, (daß wir ins Kino gehen)? (7) Wir gehen ins Kino, gelt(e es, daß wir ins Kino gehen)? (8) Wir gehen ins Kino, oder (gehen wir nicht ins Kino)? Diese Herleitung der Elemente ist zwar teils nachvollziehbar, jedoch auch sehr spekulativ. Erstens postuliert sie damit, dass die Elemente an sich Interrogativsatz-gleichen Status haben und somit syntaktisch und semantisch unabhängig von der Bezugsäußerung sind. Zweitens gibt es im Deutschen Elemente, aus denen man kein Satzkonstrukt machen kann, wie beispielsweise ne? oder wa? . Weiterhin würde dies bedeuten, dass in Fällen von Partikeln wie beispielsweise nicht oder nich die präferierte Rezipienten-Reaktion, namentlich die der Zustimmung, dem Negierten gilt und nicht der Aussage, die gelten soll. Cuenca (1997) diskutiert diese Kontroverse in Bezug auf das Englische. Auch sie weist die Definition der Elemente als satzgleiche Strukturen zurück: As Norrick (1993; 1995, S. 689) has pointed out, the reduction hypothesis could be accepted when applied to tags like okay, right, y ’know, which can be made into full sentences […]. However, the same is not true for tags such as huh, for no corresponding sentence can be developed. (Cuenca 1997, S. 6) Cuenca (1997) definiert die Tag Questions als Teil einer zweigliedrigen Konstruktion: Die Bezugsäußerung in Form eines Deklarativsatzes und die Tag Question, deren syntaktischer Status ungeklärt ist, deren Formulierung das pragmatische Verständnis der Gesamtkonstruktion beeinflusst (ebd., S. 6): <?page no="173"?> Wortarten in der gesprochenen Sprache 173 They result in a question that tends towards affirmation (8) or towards negation (9), depending on the modality (affirmative or negative) of the sentence preceding to the tag. […] As a matter of fact, it is crucial to point out that tag questions are conducive in that the speaker expects either an affirmative or a negative response to his or her question. (ebd., S. 8) Auer/ Günthner (2005) bezeichnen Tag Questions in der Form von oder, nich, ne, gell etc. als äußerungsfinale Diskursmarker und erklären sie als Ergebnis eines Grammatikalisierungsprozesses, analog zu den äußerungsinitialen Diskursmarkern (Auer/ Günthner 2005, S. 349). Wie Imo kommentiert, wird hier „[d]er Ausdruck tag question […] aber nicht als Wortarten-Klassifikation, sondern als reine Funktionsbeschreibung der ‚äußerungsfinalen Diskursmarker‘ verwendet“ (Imo 2012, S. 66). Imo nennt die Elemente Vergewisserungssignale und spricht sich gegen eine Einordnung dieser Elemente unter dem Begriff Diskursmarker aus (ebd., S. 67). Matthiessen (2004) analysiert, durch welche Mittel in diversen Sprachen der Modus einer Äußerung verändert werden kann. Auch er stellt fest, dass sprachübergreifend, unter anderem auch für das Deutsche, Tag Questions sowohl zur pragmatischen Markierung der Satzfunktion von Deklarativaber auch von Ja- oder Nein-Interrogativsätzen verwendet werden. Er nennt diese Elemente mood particles oder mood tags (ebd., S. 621). Auch Hagemann (2009) betont, dass Tag Questions verschiedene Funktionen erfüllen können. Er unterscheidet dabei zwischen redezuginternen Tag Questions und redezugfinalen Tag Questions und postuliert, dass sie unterschiedliche Funktionen innehaben. Es muss an dieser Stelle erwähnt werden, dass er mit Redezug eine Reihung von Äußerungen eines Sprechers bezeichnet, die gemeinsam einen Turn konstituieren. Die Tag Questions, seien sie redezugintern oder redezugfinal, sind dennoch jeweils am Ende einer Äußerung positioniert. Die Unterscheidung zwischen redezuginternen und redezugfinalen Tag Questions ist abhängig davon, ob die Äußerung, an die sie gebunden sind, sich innerhalb oder am Ende eines Turns befindet. Seiner Analyse nach haben redezugfinale Tag Questions die Funktion der Reaktionsaufforderung: Als konstitutives Merkmal wird ohne Ausnahme der Aufforderungscharakter dieser tags angenommen: Im System des Turntaking fungiert die Verwendung solcher tags als Turn-übergebendes oder -zuweisendes Signal. Tags in redezugfinaler Position sind […] Reaktionsaufforderungen, sie haben einen „responseelicitation effect“ (Andersen 1998: 2). (Hagemann 2009, S. 146) Die Funktion redezuginterner Tag Questions hingegen vergleicht er mit der von Modalpartikeln, die seines Erachtens in ihrer Funktion als Evidenzmarker Konsens indizieren oder unterstellen (ebd., S. 170). <?page no="174"?> Theoretische Grundlagen 174 Allerton (2009) vergleicht Tag Questions im amerikanischen und britischen Englisch anhand einer Korpusstudie. Der Fokus seiner Untersuchung liegt somit auf der Verwendung der Elemente im angelsächsischen Sprachgebrauch. Die Definition dessen, was er als „Question-Tags“ bezeichnet, ist jedoch sprachübergreifend ausgerichtet, vor allem mit Blick auf die Funktion, die diese Elemente erfüllen. Allerton stellt eine Typologie der Funktionen dieser Elemente auf, die auch sprachübergreifend gültig ist (ebd.). Nach seinen Ausführungen lassen sich die Tags in folgende Fragen umformulieren: ‚You understand this, don’t you? ‘ or ‚You are listening, aren’t you? ‘ […] ‚This is correct, isn’t it‘ or ‚You agree that this is true, don’t you? ‘ […] ‚You agree to these plans/ arrangements/ orders, don’t you? ‘“. (ebd., S. 313) Des Weiteren stellt er die Vermutung auf, dass von den germanischen Sprachen nur Englisch komplexe Tag Questions hat und führt dies auf den Sprachkontakt mit den keltischen Sprachen zurück, die wie Axelsson (2011) betont, alle solche Konstruktionen aufweisen: „Since English is the only Germanic language with mini-clause tag questions, this phenomenon may be a contact phenomenon derived from the Celtic languages“ (ebd., S. 311). Schleef (2009) analysiert im Vergleich von deutschen und englischen Daten den Gebrauch von Tag Questions aus soziolinguistischer Perspektive anhand einer korpuslinguistischen Studie. Er differenziert zwischen vier Typen von Tag Questions, deren Kategorisierung vornehmlich auf der elizitierten Reaktion der Zuhörer*innen fundiert: „progression checks, modal question tags, facilitative question tags, and common ground question tags“ (ebd., S. 64). Erstere beschreibt er als Elemente, die Backchanneling elizitieren, um sicherzugehen, dass die Zuhörer*innen die vorherige Äußerung verstanden und/ oder akzeptiert haben (ebd.). Die modal question tags elizitieren einen Sprecherwechsel; sie fordern eine explizite Zustimmung oder Information von dem Gegenüber (ebd., S. 65). Facilitative question tags fungieren allein als Aufforderung zur Turnübernahme, ohne jedoch eine spezifische Information oder Zustimmung vom Gegenüber zu erwarten (ebd.). Schließlich erfordern die common ground tags gar keine Reaktion des Gegenübers. Sie entsprechen vielmehr dem, was Hagemann (2009) dem Konzept der Evidenzmarker zuspricht, indem sie an Konsens bzw. an die Solidarität des Gegenübers appellieren (Schleef 2009, S. 66). Wie aus der Durchsicht der angeführten Beispiele deutlich wird, hängt Schleefs Kategorisierung allein von der Reaktion der Zuhörer*innen ab (ebd., S. 64-66). Während die Klassifikation von Jörg Hagemann noch auf distributionellen Faktoren beruht (Turn-intern vs. Turn-final), sind Allertons (2009) und Schleefs (2009) Klassifikationen von der Interpretation der Hörer*innen der Äußerungen abhängig. <?page no="175"?> Wortarten in der gesprochenen Sprache 175 Axelsson (2011) konzentriert sich in ihrer Klassifikation von Tag Questions wiederum auf die Form derselben in Abhängigkeit von der vorhergehenden Äußerung. Ihre Klassifikation ist eine Ausführung dessen, was Ultan (1978) als semantische Klassen bezeichnete. Auf formaler Ebene unterscheidet sie zunächst zwischen invariant und variant question tags. Variant question tags haben die Eigenschaft, grammatisch von der Vorgänger-Äußerung abhängig zu sein. Axelsson nennt sie deshalb grammatically-dependent question tags (GDQTs). Ihre sprachübergreifende Analyse belegt, dass sie in den Sprachen Englisch, Norwegisch, Portugiesisch, Persisch, Finnisch, Bretonisch, Walisisch, Irisch, schottischem Gaelisch, Malayalam und Meitei vorhanden sind (Axelsson 2011, S. 806). Diese Beobachtung scheint einerseits die Annahme Allertons (2009) zu stützen, dass die Konstruktion von den keltischen Sprachen ausgeht und durch Sprachkontakt in das Englische gekommen ist, andererseits widerlegt es seine Aussage, dass das Englische die einzige germanische Sprache ist, die diese Konstruktion aufweist. Invariante Tag Questions scheint es hingegen in fast allen Sprachen zu geben, wie beispielsweise die Formen ja? , ne? , nich? etc. im Deutschen. Indem sie sich an Ultans Klassifikation anlehnt, nimmt auch Axelsson eine Subklassifikation der Tag Questions nach der Form ihrer Abhängigkeit von der vorhergehenden Äußerung vor. So unterscheidet sie bei den invarianten Tag Questions zwischen neutral, polarity-biased und polarity-dependent question tags. Bei den variant question tags zwischen lexicallydependent question tags, marginal grammatically-dependent question tags (marginal GDQTs) und grammatically-dependent question tags (GDQTs) (Axelsson 2011, S. 803). Für die hier vorliegende Analyse ist nur die Klassifikation der invarianten Tag Questions von Interesse, da das Deutsche nur diese aufweist. Mit polarity-biased und polarity-dependent beschreibt sie das Verhältnis der Äußerung zur Tag Question in Bezug auf die Formulierung einer positiven oder negativen Ausdrucksform, beispielsweise ob eine positiv formulierte Äußerung, d. h. ohne Negationsmarker, eine semantisch positive oder negative Tag Question präferiert (biased) oder bedingt (dependent). Auf der Grundlage dieser Kategorisierung müsste man die deutschen Tag Questions allesamt als neutrale invariante Tag Questions einordnen. Man könnte behaupten, ein Bias sei auf der Grundlage vorhanden, dass man ungern zweimal das gleiche Wort kurz hintereinander formuliert und solche Äußerungen wie beispielsweise Das sollte man nicht machen, nich? oder Das kannst du ja dann machen, ja? vielleicht eher vermieden werden. Eine solche Äußerung ist jedoch weder inkorrekt noch unangemessen und je nach Kontext oder Dialekt vielleicht sogar die präferierte Variante. Wie bei Ultan (1978) basiert die Klassifikation auf einer Unterscheidung von positiven und negativen Ausdrücken. Während Ultan sich jedoch auf die Eigenschaft der Tags bezieht, positiv oder negativ zu sein, bezieht sich Axelssons Begriff der Polarität auf die Bezugsäußerung und ihre Auswirkung auf die Form der Tag Question (Axelsson 2011, S. 803 f.). <?page no="176"?> Theoretische Grundlagen 176 Imo (2011) unternimmt eine pragmatische Analyse des Phänomens Tag Questions, d. h. er untersucht, inwiefern welche Tag Questions in ihren verschiedenen Bedeutungen eine Rolle für den Gebrauch der deutschen Sprache spielen, v. a. im Hinblick auf den DaF-Unterricht. In seinen Ausführungen stellt er fest, dass die Tag Questions im Englischen in jeder Grammatik klar definiert werden, im Deutschen jedoch kaum Beachtung finden oder maximal den Gesprächspartikeln zugeordnet werden (siehe oben). Auch Imo zieht den Vergleich zwischen den von beispielsweise Quirk et al. (1985) und Axelsson (2011) beschriebenen invariant tag questions zu den Tag Questions, die wir im Deutschen vorfinden (Imo 2011, S. 133). Da sein Fokus allerdings auf der pragmatischen Verwendung dieser Elemente und auf ihrer Bedeutung für den Sprachgebrauch liegt, bietet er keine formale Definition der Elemente, obwohl er auf die Notwendigkeit der Aufführung dieser Elemente in den Grammatiken hinweist (ebd.). Einen ähnlichen Ansatz verfolgen auch Drake/ Drake (2015). Wie auch Imo (2011) untersuchen sie die Funktionen von Tag Questions für den DaF-Unterricht. Auch bei ihnen liegt der Fokus auf der funktionalen Verwendung von Tag Questions und weniger auf einer grammatischen Klassifizierung derselben (Drake/ Drake 2015). In seinem Aufsatz zur Wortart Diskursmarker definiert Imo (2012) Tag Questions oder „Vergewisserungssignale“, wie er sie nennt, in Abgrenzung zu den Diskursmarkern als eigene Wortklasse: Es wird ersichtlich, dass Diskursmarkern die finale Stellung ebenso wie die Funktion der Einforderung einer Reaktion abgeht, wie umgekehrt Diskursmarker konkrete Verstehensanweisungen für die Nachfolgeäußerung liefern (begründend durch weil, konzessiv durch obwohl, handlungssegmentierend durch ich mein etc.), was wiederum Vergewisserungssignale nicht können. Alle sprachlichen Einheiten, die final positioniert werden und eine Reaktion einfordern können, sollten daher als eigene Klasse - tag question oder Vergewisserungssignal - gefasst werden. (ebd., S. 67) Seinen Ausführungen nach definieren sich Tag Questions über ihre „freie Stellung in Bezug auf Äußerungen“, d. h., dass sie meist final stehen, und dies mit der Funktion einer Reaktionseinforderung, seltener initial mit der Einforderung von Aufmerksamkeit und sehr selten parenthetisch mit der Funktion der Segmentierung von Gesprächsschritten (ebd.). Da diese Definition jedoch lediglich dem Zwecke dient, sie von den Diskursmarkern abzugrenzen, zeigt sich darin implizit auch, in welchen Kriterien sie mit den Diskursmarkern übereinstimmen. Dies ist einerseits deren Bindung an eine syntaktische Struktur, andererseits die Eigenschaft, dass sie kurz und formelhaft sind und in vielen Fällen bei Mehrwort-Einheiten die für Grammatikalisierungsprozesse typische Klitisierung und Erosion aufweisen, wie z. B. y’know? im Englischen oder verstehste? oder nich? im Deutschen. Während bei variant Tag Questions z. B. im Englischen die grammatische Abhängigkeit von der Vorgänger-Äu- <?page no="177"?> Weitere Klassifikationsprobleme 177 ßerung explizit wird, wird bei invarianten Tag Questions allein durch die Semantik - d. h. durch die inhärente Eigenschaft - deutlich, dass sie nicht unabhängig von einer Äußerung stehen können. Wollte man sich nach dieser umfassenden Darlegung des aktuellen Forschungsstands zusammenfassend nun an eine Definition dieser Elemente für das Deutsche wagen, so könnte sie folgendermaßen aussehen: Tag Questions sind Teil einer zweigliedrigen Konstruktion, d. h. sie sind meist final, sehr selten parenthetisch oder initial, an eine Äußerung gebunden. Die Bezugsäußerung ist auf der Ebene der Syntax meist ein Deklarativsatz. Die Tag Question ist der Form nach kurz und formelhaft und an sich syntaktisch unvollständig. Ist sie einer Äußerung angehängt, kann sie den Modus der Äußerung und/ oder die Illokution verändern. Gegenüber der Hörer*in der Konstruktion kann sie folgende Funktionen haben: Erstens, die Funktion der Reaktionsaufforderung: a) als Aufforderung zur Zustimmung zum Gesagten (Bezugsäußerung und/ oder Turn), b) als Abfrage von Verständnis/ Vergewisserung oder c) als explizite Aufforderung zur Turnübernahme. Die zweite Funktionsmöglichkeit ist die der Indizierung von Konsens als Evidenzmarker. Inwiefern diese Definition für die POS-Klassifikation dienlich ist, wird im Kapitel 3.7 „Erste Anpassung des Tagsets und der Guideline“ dargelegt. 2.5 Weitere Klassifikationsprobleme Bei der Auswertung der manuellen Korrektur des Taggings in der Pilotstudie wurde gezeigt, dass zwar ein erheblicher Teil der Fehlerquote typisch gesprochensprachlichen Phänomenen zu verdanken ist, jedoch auch einige Wortformen nicht korrekt getaggt wurden, die keinesfalls als typisch gesprochensprachliche Phänomene einzuordnen sind, wie beispielsweise Pronomen, Verben, Nomen und Eigennamen sowie Konjunktionen. Wie in Tabelle 4 auf der folgenden Seite zu sehen ist, machten die Gesprächspartikeln nach einer ersten Analyse des automatisierten POS-Taggings den größten Teil der Fehlerquote bei der Examensstudie aus. Eine detaillierte Analyse dieser Elemente war notwendig, da es einerseits für sie keine adäquaten Tag-Bezeichnungen gab und andererseits Gesprächspartikeln generell einen großen Teil der Transkripte gesprochener Sprache ausmachen. 40 40 Nach der Annotation des Goldstandards stellte sich heraus, dass 15,6 Prozent der Items im Goldstandard den Gesprächspartikeln zuzuordnen sind. <?page no="178"?> Theoretische Grundlagen 178 Transkript 1 Transkript 2 Transkript 3 Gesamt Ziel-Wortarten-Klasse Korrekturen in % Partikeln/ Interjektionen 55,56 57,84 29,19 51,59 Pronomen 10,17 15,90 13,71 13,43 Verben 11,24 7,90 8,12 9,14 XY Nichtwörter 6,56 2,88 23,86 8,18 Nomen/ Eigennamen 5,76 2,88 5,08 4,33 Konjunktionen 2,54 3,74 6,35 3,80 Adverbien 1,07 3,20 7,61 3,27 Adjektive 4,15 2,56 2,54 3,13 Präpositionen 1,47 0,85 1,52 1,20 Kardinalzahlen 0,13 1,17 0,76 0,72 Artikel 0,80 0,21 1,27 0,63 Fremdsprachliches Material 0,27 0,64 0,00 0,38 Pronominaladverbien 0,27 0,21 0,00 0,19 Tab. 4: Auswertung Examensstudie Nachdem nun die Klasse der Gesprächspartikeln im Detail besprochen wurde, werden an dieser Stelle auch andere Probleme hinsichtlich der Wortartenklassifikation diskutiert. Die Analyse wird jedoch nur an den Stellen tiefgründig geschehen, wo dies für ein Tagging spezifisch gesprochener Sprache relevant wird. Medialitätsübergreifende Probleme sollen im Rahmen dieser Arbeit dargestellt werden, eine tiefergehende Aufarbeitung aller Klassifikationsprobleme würde den Rahmen dieser Arbeit jedoch sprengen. Um das Tagset für das Wortarten-Tagging von Daten gesprochener Sprache anzupassen, ist es notwendig, zu reflektieren, welche Klassifikationsprobleme den Transkripten gesprochener Sprache spezifisch geschuldet sind und welche allgemeinen Abgrenzungsprobleme zwischen Wortklassen bestehen, die ebenso für die geschriebene Sprache gelten. Diese Abgrenzungsprobleme werden beschrieben, jedoch nicht genauer analysiert, da es sich um in den Standardgrammatiken etablierte Wortarten handelt. Sie sind einerseits bereits umfangreich in der Literatur behandelt worden und andererseits sind Kontroversen bezüglich dieser Wortarten dem Feld der Grammatikforschung anzusiedeln. Eine systematische Klärung, was die jeweilige Wortart ist, d. h. eine theoretische Auseinandersetzung mit diesen Kontroversen, kann demnach nicht der Fokus dieser Arbeit sein. Vielmehr werden die Probleme im Hinblick auf die Annotation von Transkripten gesprochener Sprache betrach- <?page no="179"?> Weitere Klassifikationsprobleme 179 tet und anhand von Beispielen verdeutlicht. Die hier dargestellten Probleme beziehen sich auf die Definitionen der Standardgrammatiken und des STTS. Bei der Problemanalyse muss berücksichtigt werden, dass sich das STTS in seiner Originalform an keiner spezifischen Grammatik orientiert hat (Schiller et al. 1999). Die Klassifikation beruht zwar auf grammatischen Begriffen, die den Definitionen der Standard-Grammatiken genügen, die Basis der Klassifikation sind jedoch distributionelle Kriterien innerhalb möglicher grammatischer Definitionen. Wo dies nicht möglich war, wurde aufgrund funktionaler Unterscheidungen und regelbasiert klassifiziert. Dieser pragmatische Ansatz ist hilfreich bei der Abgrenzung von Tag-Kategorien. Auf theoretischer Ebene entstehen dadurch jedoch häufig Widersprüche, aus denen wiederum bei der Anwendung der Tag-Kategorien Abgrenzungsprobleme entstehen. Allerdings ist zu betonen, dass die existierenden Grammatiktheorien, wie sie in verschiedenen Grammatiken beschrieben sind, keineswegs dazu dienlich sind, eine exhaustive, jedoch mutuell exklusive Klassifikation nach Wortarten im Sinne einer Wortartenannotation durchzuführen. Die Widersprüche, die sich bei der Annotation nach den Wortartenklassen des STTS ergeben, sind nur ein Abbild der Widersprüche, die sich ergeben, wenn man versucht, die in den Grammatiken beschriebenen Klassifikationen anzuwenden, abgemildert durch pragmatische Einschränkungen und Regeln der Tagset-Guidelines. Diese mögen dem Leser der Guidelines teils als willkürliche Grenzziehungen zwischen den Wortarten erscheinen, sie sind jedoch die einzige praktikable Methode einer konsistenten Annotation. Die Umsetzung grammatischer Begriffe in Tagset-Kategorien lässt sich am Beispiel der Adpositionen demonstrieren. Beispielsweise beschreiben sowohl die GDS als auch die Duden-Grammatik eine Differenzierung zwischen Prä-, Post- und Zirkumpositionen, haben aber keinen eigenen Begriff für sogenannte Verschmelzungen von Präpositionen und Artikeln (Duden 2009, S. 615) wie z. B. zum, am, beim etc. Das STTS sieht je eine Kategorie für Präpositionen (APPR), Postpositionen (APPO) und Zirkumpositionen (APZR) vor, wobei Letztere nur für den zweiten Teil der Zirkumposition verwendet wird. Des Weiteren hat es eine eigene Kategorie namens APPRART für Verschmelzungen von Präpositionen mit Artikeln eingeführt. Auf diese Weise können auch solche Elemente, die in geschriebener Sprache sehr frequent sind (ebd., S. 615 f.), für die es aber in den Standard-Grammatiken keine eigene Klasse gibt, exhaustiv mit POS-Tags annotiert werden. Als nächstes werden medialitätsübergreifende Abgrenzungsprobleme beschrieben, wobei sich die Analyse auf die häufiger vorkommenden Klassifizierungsprobleme beschränken wird. Daraufhin wird genauer auf die Pro- <?page no="180"?> Theoretische Grundlagen 180 bleme eingegangen werden, die spezifisch im Zusammenhang mit dem POS-Tagging von Transkripten gesprochener Sprache entstehen. Hier bedarf es der Annotation von Wortformen, die sich strenggenommen nicht mit dem Begriff der Wortarten-Klassifikation fassen lassen, für die es in einem exhaustiven POS-Tagging jedoch POS-Kategorien geben muss. 2.5.1 Medialitätsübergreifende Abgrenzungsprobleme Geht man vom allgemeinen Grammatikwissen eines Germanistik-Studenten aus, so scheint es zunächst klar zu sein, was ein Verb, ein Pronomen, ein Nomen oder ein Adjektiv ist. In vielen Fällen sind es die prototypischen Vertreter einer Wortart, die eindeutig und leicht als solche klassifizierbar sind. Bei genauerer Betrachtung muss man jedoch feststellen, dass sich eine eindeutige Klassifikation eben nur bei dem prototypischen und somit eindeutigen Gebrauch von Wortformen dieser Wortarten durchführen lässt. Weicht die Datengrundlage vom prototypischen (Schrift-)Gebrauch dieser Elemente ab, wie es bei Transkripten gesprochener Sprache häufig der Fall ist, ist in vielen Fällen die Bestimmung der Wortarten ungleich schwerer bzw. die Wortart nicht mehr eindeutig bestimmbar. Genau dies sind Fälle, in denen sich Widersprüche und Probleme in den theoretischen Grundannahmen und Definitionen zeigen. Im Folgenden dienen daher Beispiele aus der Annotationspraxis als Ausgangspunkt für eine Diskussion der Klassifikationsprobleme. Im Rahmen dieser Arbeit ist es nicht möglich, Lösungen für alle Klassifikationsprobleme zu erarbeiten. Vielmehr wird sie auf die Probleme und die Diskrepanz zwischen Grammatikschreibung und praktischer Annotation hinweisen und sie beschreiben. Zur Darstellung des Problemfeldes wurden besonders frequente Abgrenzungsschwierigkeiten ausgewählt, eine Aufzählung aller Abgrenzungsprobleme würde den Rahmen dieser Arbeit sprengen und in den Fällen besonders seltener Vorkommen und Formen auch wenig zum wissenschaftlichen Diskurs beitragen. Obwohl die Abgrenzung zwischen Eigennamen und Appellativa in der automatischen Annotation immer wieder problematisch ist, wird auf eine genauere Ausführung dieses Problems an dieser Stelle verzichtet. Es handelt sich bei diesem Problem weniger um ein theoretisches Problem als um ein Problem der Größe des Trainingsdatensatzes und des Lexikons. Ist eine spezifische großgeschriebene Wortform nicht aus dem Lexikon des Taggers bekannt, wird ihr das Tag NE (Eigenname) zugewiesen. Da es sich sowohl bei Appellativa als auch bei Eigennamen um offene Klassen handelt, ist nicht jede Wortform in den Trainingsdaten oder im Lexikon vorhanden. Niedrig-frequente Appellativa werden deshalb häufig fälschlicherweise als Eigennamen getaggt. <?page no="181"?> Weitere Klassifikationsprobleme 181 Im Fokus stehen an dieser Stelle zunächst Pronomen und ihre Abgrenzung zu anderen Wortartenklassen wie beispielsweise Determiner oder Adjektive sowie die Abgrenzung verschiedener Pronomenklassen untereinander. Nachfolgend werden Probleme behandelt, die im Bereich der Wortart der Verben anzusiedeln sind: erstens die Abgrenzungsproblematik zwischen Partizipien und Adjektiven, zweitens die Abgrenzung zwischen Verbpartikeln und Adverbien und drittens ein Erklärungsversuch, warum die Gruppe der Verben im automatisierten POS-Tagging so fehleranfällig ist. Zuletzt wird auf die Klasse der Adverbien im STTS eingegangen, d. h. welche Elemente sie umfasst und wo die Problematik zur Abgrenzung zu anderen Wortarten liegt. Die nachfolgenden Abgrenzungsprobleme zeigten sich in der Annotation auf eine bestimmte Art und Weise prominent und sind daher für eine genauere Untersuchung ausgewählt worden: 1) die Wortarten sind an sich sehr frequent im Gebrauch der deutschen Sprache (siehe Tab. 5) 2) oder bei der manuellen Korrektur des Testsets der Examensstudie und auch des Goldstandards fielen den Annotator*innen diese Abgrenzungsprobleme fallbezogen immer wieder auf und mussten in der Überarbeitung der Guidelines diskutiert werden - die Änderungen, die sich daraus ergaben, werden in Kapitel 3.7.4 „Erste Änderungen am Tagset und den Guidelines“ dargestellt - 3) oder die Annotation dieser Wortarten zeigte beim automatisierten POS- Tagging besonders hohe Fehlerquoten (siehe oben). POS STTS POS STTS 2.0 Beschreibung absolute Häufigkeit relative Häufigkeit - AB Abbruch auf Wortebene 653 0,65 ADJA » Attributives Adjektiv 1.561 1,57 ADJD » Adverbiales oder prädikatives Adjektiv 2.696 2,70 ADJ Adjektive gesamt 4.257 4,27 ADV » Adverbien 9.944 9,97 APPR » Präposition/ Zirkumposition links 4.788 4,80 APPRART » Präposition mit Artikel 1.100 1,10 APPO » Postposition 13 0,01 APZR » Zirkumposition rechts 60 0,06 AP Appositionen gesamt 5.961 5,98 ART » Bestimmter oder unbestimmter Artikel 5.918 5,93 <?page no="182"?> Theoretische Grundlagen 182 POS STTS POS STTS 2.0 Beschreibung absolute Häufigkeit relative Häufigkeit CARD » Kardinalzahlen 1.067 1,07 - ORD Ordinalzahlen 100 0,10 Zahlen Zahlen gesamt 1.167 1,17 FM » Fremdsprachliches Material 106 0,11 TRUNC » Kompositions-Erstglied 29 0,03 KON » Nebenordnende Konjunktion 3.622 3,63 KOUS » Unterordnende Konjunktion 1.593 1,60 KOUI » Unterordnende Konjunktion mit zu und Infinitiv 44 0,04 KOKOM » Vergleichspartikel 199 0,20 KO Konjunktionen gesamt 5.458 5,47 ITJ NGIRR Interjektionen, Rezeptionssignale, Responsive 7.148 7,17 - NGHES Hesitationssignale 2.085 2,09 - NGAKW Aktionswörter 1 0,00 - NGONO Onomatopoetika 13 0,01 NG Satz-unabhängige Elemente gesamt 9.247 9,27 NN » Appellativa 11.047 11,08 NE » Eigennamen 1.274 1,28 N Nomina gesamt 12.321 12,35 PTKA » Partikel bei Adjektiv oder Adverb 69 0,07 PTKNEG » Negationspartikel 1.283 1,29 PTKVZ » Abgetrennter Verbzusatz 706 0,71 PTKZU » zu vor Infinitiv 206 0,21 - PTKIFG Intensitäts-, Fokus- und Gradpartikel 2.814 2,82 - PTKMA Modal- und Abtönungspartikel 2.236 2,24 - PTKMWL Teil eines Mehrwortlexems 820 0,82 PTK Partikeln gesamt 8.134 8,16 PDAT » Attribuierendes Demonstrativpronomen 353 0,35 PDS » Substituierendes Demonstrativpronomen 2.910 2,92 PIAT » Attribuierendes Idefinitpronomen 471 0,47 <?page no="183"?> Weitere Klassifikationsprobleme 183 POS STTS POS STTS 2.0 Beschreibung absolute Häufigkeit relative Häufigkeit PIS » Substituierendes Indefinitpronomen ohne Determiner 1.464 1,47 PIDAT » Attribuierendes Indefinitpronomen mit Determiner 229 0,23 - PIDS Substituierendes Indefinitpronomen mit Determiner 291 0,29 PPER » Irreflexibles Personalpronomen 7.899 7,92 PPOSAT » Attribuierendes Possessivpronomen 454 0,46 PPOSS » Substituierendes Possessivpronomen 19 0,02 PRELAT » Attribuierendes Relativpronomen 2 0,00 PRELS » Substituierendes Relativpronomen 370 0,37 PRF » Reflexives Personalpronomen 513 0,51 PWAT » Attribuierendes Interrogativpronomen 62 0,06 PWS » Substituierendes Interrogativpronomen 590 0,59 PWAV » Adverbiales Interrogativ- oder Reflexivpronomen 699 0,70 P Pronomen gesamt 16.326 16,37 - SEDM Diskursmarker 961 0,96 - SEQU Rückversicherungssignal/ Question-Tag 345 0,35 SE Satz-externe Elemente gesamt 1.306 1,31 - SPELL Buchstabiertes 461 0,46 - UI Uninterpretierbare Äußerung 415 0,42 VAFIN » Finites Verb, Auxiliar 5.474 5,49 VAIMP » Imperativ, Auxiliar 3 0,00 VAINF » Infinitiv, Auxiliar 199 0,20 VAPP » Partizip Perfekt, Auxiliar 132 0,13 VMFIN » Finites Verb, modal 1.580 1,58 VMINF » Infinitiv, modal 31 0,03 VMPP » Partizip Perfekt, modal 3 0,00 VVFIN » Finites Verb, voll 4.905 4,92 VVIMP » Imperativ, voll 340 0,34 <?page no="184"?> Theoretische Grundlagen 184 POS STTS POS STTS 2.0 Beschreibung absolute Häufigkeit relative Häufigkeit VVINF » Infinitiv, voll 1.818 1,82 VVPP » Partizip Perfekt, voll 1.719 1,72 VVIZU » Infinitiv mit zu, voll 53 0,05 V Verben-Gesamt 16.257 16,30 XY » Nichtwort: (Sonderzeichen enthaltend), Stottern, Wort-Bestandteil-Reste 1.767 1,77 Tab. 5: Auswertung der Verteilung der Annotationen aller POS - Kategorien des Goldstandards mit Hervorhebungen der Super - Kategorien und einer Differenzierung, welche Kategorien bereits bestanden und welche neu eingeführt wurden 2.5.1.1 Pronomen Um die Probleme der Klassifikation von Pronomen nachvollziehen zu können, werden zunächst die im STTS beschriebenen Pronomen-Kategorien dargestellt. Die Gruppe der Pronomina wird differenziert in Personal- (PPER), Reflexiv- (PRF), Possessiv- (PPOS), Demonstrativ- (PD), Interrogativ- (PW) und Relativpronomina (PREL), Indefinitpronomen mit (PID) und ohne Determiner (PI), adverbiale Interrogativ-und Relativpronomina 41 (PWAV) und Pronominaladverbien (PAV) (Schiller et al. 1999, S. 35-55). Diese Klassifikation entspricht weitestgehend der Klassifikation der Duden- Grammatik, abgesehen davon, dass die im STTS zusammengefasste Klasse der adverbialen Relativ- und Interrogativpronomina nicht explizit im Duden aufgeführt ist, sondern lediglich Überschneidungen der Klassen der Interrogativ- und Relativpronomina deutlich gemacht werden (Duden 2009, S. 252- 255). Darüber hinaus werden jedoch die Pronominaladverbien in der Duden- Grammatik der Klasse der Adverbien untergeordnet (ebd., S. 579). Die weitere Klassifikation des STTS unterscheidet sich darin, ob sie attribuierend innerhalb einer Nominalphrase oder substituierend anstelle einer Nominalphrase stehen: Possessiv-, Demonstrativ-, Indefinit-, Interrogativ- und Relativpronomina werden nach ihrer Distribution unterschieden. Als attribuierend, -AT, werden Pronomina bezeichnet, die innerhalb einer NP auftreten, substituierend, -S, sind Pronomina, die anstelle einer NP stehen. Die jeweils letzten beiden (bzw. der letzte) Buchstaben geben diese Unterscheidung an. (Schiller et al. 1999, S. 35) 41 Z. B. wieviel, wofür etc. in Wieviel kostet das? Ich wusste nicht, wieviel das kostet. Wofür braucht man das? Ich wusste nicht, wofür man das braucht. <?page no="185"?> Weitere Klassifikationsprobleme 185 Genau an dieser Stelle ergibt sich auch die erste Differenzierungsproblematik. Das STTS bezieht sich in der Klassifikation auf die Oberflächenstruktur dieser Elemente in ihrer Verwendung im Kontext und grenzt nur bestimmte und unbestimmte Artikel von ihnen ab. Diese Differenzierung ist auf theoretischer Ebene durchaus problematisch, wie im Folgenden gezeigt wird. 2.5.1.1.1 Abgrenzung der Pronomen von Determinern 16,37 Prozent der Items des Goldstandards sind der Superkategorie Pronomen zuzuordnen, 5,93 Prozent den Artikeln. Gemeinsam machen diese Elemente also mehr als 22 Prozent des Korpus aus, d. h. ihre Verwendung im gesprochenen Deutsch ist sehr frequent. Um die Problematik der Abgrenzung zwischen Determinern und Pronomen zu verdeutlichen, ist bereits eine Darstellung der Terminologie zu diesen Elementen sehr hilfreich (siehe Tab. 6). Es wird deutlich, dass die Funktionsbeschreibung der Elemente (z. B. Demonstrativ-, Interrogativ-, Possessiv-Elemente) Grammatik-übergreifend relativ einheitlich ist. Ebenfalls deutlich wird, dass die betreffenden Elemente, sofern sie ohne folgendes Element stehen, als Pronomen bezeichnet werden. Weniger einheitlich werden die Elemente in attribuierender Stellung bezeichnet, beispielsweise als Determiner oder Artikel oder auch ohne eine genauere Bezeichnung (Engel 2004). Implizit bedeutet eine Abgrenzung der Artikel oder Determiner von den Pronomen, dass davon ausgegangen wird, dass es sich bei den Pronomen, obwohl sie formgleich sind, um eine andere Wortart handelt und sie nicht als Teil einer Nominalphrasen-Ellipse angesehen werden. Die Duden-Grammatik reflektiert diese Problematik und bezeichnet ihre Kategorisierung als Verlegenheitslösung und fasst Artikel und Pronomen als eine Wortart zusammen: „Die Wortart, um die es in diesem Kapitel geht, trägt eine Doppelbezeichnung: Artikelwörter und Pronomen. Das ist zugegebenermaßen eine Verlegenheitslösung“ (Duden 2009, S. 249). Eine Differenzierung der Begrifflichkeiten kann nur anhand des syntaktischen Gebrauchs im Kontext festgemacht werden: Wenn die lexikalische Wortart gemeint ist, wird die Paarformel Artikelwort und Pronomen verwendet. Wenn der syntaktische Gebrauch im Zentrum des Interesses steht, wird je nachdem von einem Artikelwort oder von einem Pronomen gesprochen. (ebd., S. 250) Weiterhin wird deutlich, dass der Begriff Deixis ebenfalls eine Rolle in der Beschreibung dieser Elemente spielt. Dass Pronomina oder Proterme, wie sie in der GDS genannt werden, deiktische Elemente sind, daran gibt es keinen Zweifel. Dass nun aber Demonstrativ-Artikel dort (GDS) ebenfalls als deikti- <?page no="186"?> Theoretische Grundlagen 186 sche Determinativa bezeichnet werden, zeigt, wie funktional eng verwoben der Gebrauch als Artikel oder als Pronomen ist: DEIKTISCHE DETERMINATIVE (der, derjenig-, derselb-, dies-, jen-, solch-) haben keine selbständige Verweisfunktion wie ihr Pendant, die Objektdeixis; vielmehr ist das deiktische Verfahren zum Zweck der Determination funktionalisiert. Der Gegenstand wird in einem Verweisraum verortet und zusätzlich durch eine nominale oder adjektivische Charakterisierung für den Adressaten klargestellt. (Zifonun/ Hoffmann/ Strecker 1997, S. 37) Auch über die Grammatikschreibung hinaus wird in der Literatur diskutiert, wie solche Elemente, die sowohl als Determiner als auch als Pronomen verwendet werden können, zu klassifizieren und zu beschreiben sind. Vater (1982, 1984, 2000) bezeichnet sie als Determinantien und geht sogar so weit, dass er die Klasse der Pronomen gänzlich den Determinantien unterordnet: Nach der DP-[Determinerphasen, A. d V.]Auffassung gibt es keine Wortklasse Pronomen. Was man traditionell „Pronomen“ nennt, ist eine intransitive Verwendung der Determinantien. So wie ein Verb nicht einer anderen Kategorie zuzurechnen ist, je nachdem, ob es mit oder ohne Objekt vorkommt, ist es auch bei den Determinantien. (Vater 2000, S. 195) Determinantien definieren sich bei ihm wie folgt: Determinantien sind Definitheits-Markierer, die sowohl transitiv als auch intransitiv gebraucht werden können. In ihrem transitiven Gebrauch entsprechen sie der Klasse der Determiner, sind sie intransitiv gebraucht, den Pronomen. Sie werden differenziert von den Quantoren: Zur Lösung des ersten Problems habe ich (in Vater 1982, 1984) vorgeschlagen, die heterogene Klasse der Deterrninantien in zwei Klassen zu teilen: a) echte Determinantien wie der, dieser, jener und b) Quantoren wie all-, einig- und ein. Die beiden Klassen unterscheiden sich nicht nur syntaktisch (in ihrer Position und Verbindbarkeit), sondern auch semantisch: Determinantien haben Referenzfunktion (sie grenzen das Denotat von N als definit ein); Quantoren haben dagegen rein quantifizierende Funktion. (Vater 2000, S. 186) In seinem Artikel aus dem Jahr 2000 bezeichnet er schließlich als Pronomen verwendete Determinantien als „Pronominantien“ (ebd.). Olsens (1989) Ausführungen hingegen widersprechen Vater, indem sie darlegt, dass Possessiva weder als Determinantien noch als Pronominaladjektiva zu bezeichnen seien, sondern sie als Pronomen „eigenständige Nominalphrasen“ (ebd., S. 139) vertreten. Sie postuliert, dass Possessiva, auch in attribuierender Stellung, genitivisch markierte Pronomen sind und klammert sie so explizit aus der Klasse der Determiner aus (ebd., S. 140). <?page no="187"?> Weitere Klassifikationsprobleme 187 Zifonun (2005) verfolgt einen ähnlichen Ansatz wie Vater, wenn auch unter anderen Begrifflichkeiten. Sie bezeichnet sowohl Pronomen als auch Determinative als „nominale Funktionswörter“, die als selbstständige nominale Funktionswörter der Klasse der Pronomen entsprechen, als adnominale nominale Funktionswörter der Klasse der Determinative. Elemente, die beide distributiven Eigenschaften einnehmen können, bezeichnet sie als hinsichtlich der Selbstständigkeit unterspezifiziert (ebd., S. 200). Sowohl Vater als auch Olsen sehen die Determinantien bzw. Pronomen als Kopf einer Determiner-Phrase (DP), zu der ein Komplement in Form einer NP entweder realisiert ist (Determinerfunktion) oder nicht (Pronomenfunktion). Zifonun hingegen sieht sie entweder als Kopf der Nominalphrase (NP-Substituenten, d. h. Pronomenfunktion) oder als NP-Spezifikatoren (Determinerfunktion). Für Olsen wie auch für Vater sind auch Elemente, die sowohl als Determiner als auch als Pronomen gebraucht werden können, Köpfe einer DP. Für Zifonun (2005) sind diese Elemente hinsichtlich ihrer Stellung „unterspezifiziert“. Aus ihren Ausführungen wird nicht klar, ob die Stellung innerhalb der NP ihrer Meinung nach davon abhängt, ob ein Substantiv realisiert ist oder nicht. Es lässt sich schlussfolgern, dass noch immer keine abschließende Lösung für das Problem der Kategorisierung solcher Elemente gefunden wurde, die sowohl als Determiner als auch als Pronomen auftreten können. Zunächst sieht es so aus, als ob in der Literatur an der Oberfläche ein Lösungsansatz gefunden wurde, indem solche Elemente in eine gemeinsame Klasse grammatischer Elemente zusammengefasst werden, bezeichnet als Determinantien, Pronominantien oder nominale Funktionswörter. Die theoretischen Grundannahmen unterscheiden sich jedoch voneinander und heben einander gleichsam auf, ohne eine finale Lösung zu präsentieren: Vaters Konzept der Determinantien wird von Olsens Ausführungen zu Possessiva infrage gestellt; sie gibt keine Erklärung für eine Differenzierung von Pronomen und Determinern. Zifonun nutzt den Begriff der Unterspezifikation, um sich theoretisch nicht festzulegen. Das STTS ist in seiner Begriffswahl sowohl den Ausführungen Vaters als auch Zifonuns ähnlich. Einerseits erinnert die allgemeine Bezeichnung dieser Elemente als Pronomen an seinen Begriff der Pronominantien, gleichsam zeigen die Begrifflichkeiten substituierend und attribuierend, dass es sich auf theoretischer Ebene bei ihnen nicht um den Kopf der Phrase handelt. Diese Annahme gleicht wiederum eher den Ausführungen Zifonuns (2005). Allen gemeinsam ist, dass ihre Klassifikation auf Schriftsprache basiert, d. h. basierend auf einem Modell, in dem der syntaktische Kontext explizit formuliert ist. <?page no="188"?> Theoretische Grundlagen 188 STTS-Tag Tag-Bedeutung GDS DUDEN Engel Grammis 2.0 ART bestimmter oder unbestimmter Artikel Der definite Artikel definiter Artikel definiter Artikel definiter Artikel Der indefinite Artikel indefiniter Artikel indefiniter Artikel indefiniter Artikel - Nullartikel n/ a PPOSAT attribuierendes Possessivpron. Das possessive Determinativ possessives Artikelwort Possessiva Possessiv-Artikel PIAT attribuierendes Indefinitpron. Das quantifizierende Determinativ indefinites Artikelwort Indefinita Quantifikativ-Artikel PWAT attribuierendes Interrogativpron. Das W-Determinativ interrogatives Artikelwort Interrogativa W-Artikel (auch PWAV) PDAT attribuierendes Demonstrativpron. Das deiktische Determinativ demonstratives Artikelwort Demonstrativa Demonstrativ-Artikel - negatives Determinativ PRELAT attribuierendes Relativpron. n/ a relatives Artikelwort n/ a n/ a PRF reflexives Personalpron. Das Reflexivum Reflexivpronomen Reflexivpronomina (nur sich) Reflexiv-Pronomen (nur sich) reziprokes Reflexivum reziprokes Pronomen n/ a n/ a das lexikalisch geforderte Reflexivum n/ a Verbpartikel, kein Pronomen lexikalisch gefordertes PRF - wiederspricht „nur sich“ Regel <?page no="189"?> Weitere Klassifikationsprobleme 189 STTS-Tag Tag-Bedeutung GDS DUDEN Engel Grammis 2.0 PPER irreflexives Personalpron. Proterme: Persondeixis Personalpronomen Partnerpronomina (ich, du) Sprecher- und Hörer-Pronomen Verweispronomina (er, sie, es) Anaphorisches Personalpron. PPOSS substituierendes Possessivpron. Proterme: Possessivum possessives Pronomen Possessivpronomina Possessiv-Pronomen PDS substituierendes Demonstrativpron. Proterme: Objektdeixis demonstrative Pronomen Demonstrativpronomen (nur der/ die/ das) Demonstrativ- Pronomen PWS substituierendes Interrogativpron. Proterme: W-Objektdeixis interrogatives Pronomen Interrogativpronomina W-Pronomen PRELS substituierendes Relativpron. Proterme: Relativum relatives Pronomen Relativpronomen (nur der, die, das) n/ a PWAV adverbiales Interrogativ- oder Relativpron. Proterme: Relativum (wo, wobei) interrogative Adverbien oder Partikeln Adjektive W-Pronomen PIS substituierendes Indefinitpron. Proterme: Indefinitum indefinites Pronomen Indefinitpronomina Indefinit-Pronomen PIS substituierendes Indefinitpron. Proterme: Quantifikativum quantifizierende Adjektive n/ a Quantifikativ- Pronomen Tab. 6: Pronomen und Determiner im Vergleich <?page no="190"?> Theoretische Grundlagen 190 Gerade in Transkripten gesprochener Sprache ist jedoch der Kontext nicht immer eindeutig. Speziell in Hinblick auf die Funktionsweise des Taggers ist zu berücksichtigen, dass der Kontext sich auf den jeweiligen Beitrag beschränkt. Der syntaktische Gebrauch, namentlich, ob es sich um eine substituierende Form handelt oder um eine Ellipse, ist somit für das Tagging nicht klar unterscheidbar. Ebenso ist fraglich, wie solche Elemente in typisch gesprochensprachlichen Strukturen, wie beispielsweise Wiederholungen oder Korrekturen, zu interpretieren sind. Beispiele sollen dies im Folgenden verdeutlichen. Zunächst ein Beispiel für die prototypische Verwendung eines Possessivpronomens in der gesprochenen Sprache. Beispiel 19: Paargespräch, Transkript FOLK_E_00030_SE_01_T_03_DF_01, 08: 21-08: 25 42 01 AM ich hab keine KOPFhörer- 02 (0.21) 03 PB du hast doch MEIne. Beispiel 19 zeigt, wie im Kontext der Redegegenstand zunächst etabliert wird, auf den das Possessivpronomen meine dann deiktisch referiert. Von besonderem Interesse ist hier jedoch, dass der Redegegenstand, namentlich die Kopfhörer, auf die sich das meine bezieht, von einem anderen Sprecher etabliert wird. Der Verweis ist also nicht intertextueller Natur, sondern bezieht sich auf geteiltes Wissen der beiden Sprecher. Dass es sich in diesem Fall um eine Analepse der Nominalphrase meine Kopfhörer und nicht um ein deiktisch referierendes Pronomen handelt, kann nur durch Einbezug des Kontexts über die Beitragsgrenze hinaus bestimmt werden. Die Kategorisierung ist für den menschlichen Betrachter eindeutig, für die automatisierte Annotation hingegen höchst problematisch. Für ein POS-Tagging gesprochener Sprache relevant sind also diejenigen Fälle, in denen nicht klar bestimmt werden kann, ob ein attribuierender oder substituierender Gebrauch vorliegt, vor allem im Hinblick darauf, dass eine Attribuierung einer Nullrealisierung distributionell nicht erfasst werden kann. Ein typisch gesprochensprachliches Phänomen sind Abbrüche. Gerade hier wird eine Bestimmung des syntaktischen Gebrauchs äußerst schwierig, wie die folgenden zwei Beispiele illustrieren. 42 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00030_SE_01_T_03_DF_01&cID=c383&wID=w978&textSize=200&contextSi ze=4. <?page no="191"?> Weitere Klassifikationsprobleme 191 Beispiel 20: Berufsschulinteraktion, Transkript FOLK_E_00005_SE_01_T_02_ DF_01, 47: 56-48: 15 43 01 ML ALso; 02 ML (.) prüfbedingungen hab ich jetz (.) als erschtes SICHTkontrolle, 03 ((Schreibgeräusche an der Tafel, 6.8s)) 04 LB EINverstanden- 05 ML dann die - 06 LB wer hat die SICHTkontrolle von ihnen (.) im fehlersuchplan drin? Beispiel 20 illustriert ein sehr häufig bei der manuellen Annotation aufgetretenes Problem. Aus dem Zusammenhang wird deutlich, dass ML keineswegs seine angefangene Äußerung beendet hat. Vielmehr setzt er an, um eine zweite Prüfbedingung zu nennen, kommt aber nur dazu, den bestimmten Artikel zu äußern. Sein Lehrer fällt ihm an dieser Stelle ins Wort, um gegenüber der Klasse noch einmal auf den zuvor genannten Punkt einzugehen. Allein anhand der Oberflächenstruktur dieser Äußerung lässt sich jedoch nicht erkennen, dass es sich bei dem geäußerten die um einen Artikel handelt. Wenn ein nominales Bezugselement nicht overt nach dem Artikel realisiert ist, kann es nicht von Pronomina unterschieden werden. Zudem könnte es auch der Fall sein, dass der Schüler ML mit einer Zeigegeste auf etwas im Fehlersuchplan verweist. In diesem Falle würde es sich bei dem die in der Tat um ein Demonstrativpronomen handeln und nicht um eine abgebrochene Nominalphrase. Hier stehen also Oberflächenstruktur und Wissen, das man aus dem Kontext ableiten kann, in Diskrepanz. Ähnlich ist es in folgendem Beispiel 21, in dem es sich nicht um einen Abbruch, sondern um Unverständliches handelt. Beispiel 21: Berufsschulinteraktion, Transkript FOLK_E_00005_SE_01_T_01_ DF_01, 16: 56-17: 01 44 01 LB oh 02 (0.5) 03 XM ich könnt des für die - 04 ((Gespräche der Schüler, 2.8s)) 05 LB interpreTIERN se mol des ganze. 43 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00005_SE_01_T_02_DF_01&cID=c92&wID=c92. 44 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00005_SE_01_T_01_DF_01&cID=c714&wID=c714. <?page no="192"?> Theoretische Grundlagen 192 Da nach dem die mehrere Personen gleichzeitig anfangen zu reden, ist nicht mehr verständlich, was XM im Folgenden spricht. Hier hilft auch der Bezug auf den Kontext nicht mehr, um herauszufinden, ob das die als Demonstrativpronomen oder als Artikel zu interpretieren ist. Diese Fälle von ambigen Situationen stellen bei der manuellen Korrektur von POS-Tags ein besonderes Problem dar. Man kann sich hier nicht an der Oberflächenstruktur orientieren nach dem Schema: wenn etwas folgt, ergibt sich ein attribuierender Gebrauch und wenn nicht, ein substituierender Gebrauch. Da zwar etwas folgt, man aber nicht weiß, was es ist, ist eine eindeutige Bestimmung der Wortart unmöglich. Ebenfalls schwierig zu bestimmen sind Elemente, in denen kein versprachlichter Kontext gegeben ist, sondern der Kontext aus der Redesituation erschlossen werden muss, wie im Beispiel 22. Beispiel 22: Schlichtung Stuttgart 21 Transkript FOLK_E_00064_SE_01_T_07_ DF_01, 19: 06-19: 21 45 01 MO DANN is aber wieder viel die rede vom [(0.24) ] projekt ka einundzwanzig, 02 HG [ MEIne - ] 03 HG entSCHUL- 04 MO aber ich glaub das brauch ich jetzt (.) NICHT mehr weiter zu vertiefen und nicht mehr anzusprechen- Der Fernsehmoderator MO kündigt die Themen des folgenden Schlichtungsgesprächs an, während der Moderator des Schlichtungsgesprächs, Heiner Geißler (HG), bereits die Gesprächsteilnehmer begrüßen möchte. Den Hörer*innen ist klar, dass Heiner Geißler sich der Floskel meine Damen und Herren bedienen möchte. Das Transkript zeigt aber nur ein kontextloses meine, das sich weder auf vorhergehende noch auf folgende Äußerungen bezieht und der äußeren Form nach in jeder Hinsicht einem Possessivpronomen entspricht. Syntaktisch ebenfalls schwierig einzuordnen sind Fälle, in denen es sich um eine Selbstkorrektur handelt - entweder in Form der Wiederholung derselben Struktur (Beispiel 24) oder durch eine abgeänderte Form, beispielsweise eine andere Flexion (Beispiel 23). 45 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00064_SE_01_T_07_DF_01&cID=c258&wID=c258. <?page no="193"?> Weitere Klassifikationsprobleme 193 Beispiel 23: Bewerbungstraining, Transkript FOLK_E_00173_SE_01_T_02_ DF_01, 39: 03-39: 18 46 01 TB das WAR jet- 02 TB (.) das is für mich ne ziemlich harte NUMmer mit dieser - 03 (0.3) 04 TB mit diesem OHne job dastehn-= 05 TB =also ich hab_n lückenlosen LEbenslauf-= 06 TB =ich war noch nie in meim leben °hh halt vorher ARbeitslos gewesen. 07 TB des is au psy für die psyche nich sonderlich geSUND diese situatio[n- ] 08 TN [geht][IHnen nich gut ] ne? 09 TB [DES is schon blöd.] Hier ist das dieser in Zeile 02 sehr schwer zu bestimmen. Ob es sich um einen Abbruch der Äußerung dieser Arbeitslosigkeit, um ein lautes Nachdenken zur Findung der korrekten Flexion für die Konstruktion ohne Job dastehn oder um ein Pronomen mit Referenzbezug auf das Thema des Konversationsabschnitts Arbeitslosigkeit handelt, kann nicht ermittelt werden. Auch hier liegt es im Auge des Betrachters, ob man dieser als Pronomen oder Determiner interpretiert. Beispiel 24: Spielinteraktion, Transkript FOLK_E_00012_SE_01_T_01_DF_01, 01: 30-01: 38 47 01 SK °h na gut dann bin ich herr GRUNDeis. 02 VK dann ver[STEH- ] 03 NK [ja aber] SCHAU, 04 NK °h ma darf nich 05 VK und warum [muss ich das diese (.) diese (.) MASke haben? ] 06 NK [hier DRÜberstülpen. ] 07 VK ach [SO.] 08 SK [au.] Beispiel 24 stammt aus einer Spielinteraktion eines Vaters (VK) mit seinen zwei Töchtern (SK und NK), die ihm zunächst den Spielablauf des Spiels „Emil und die Detektive“ erläutern. In Zeile 05 korrigiert sich der Vater gleich zweimal bei einer Frage, die er zum Spiel stellen möchte. Auch hier wird nicht 46 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00173_SE_01_T_02_DF_01&cID=c909&wID=c909. 47 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00012_SE_01_T_01_DF_01&cID=c76&wID=w329&textSize=200&contextSi ze=4. <?page no="194"?> Theoretische Grundlagen 194 klar, ob sich das das auf ein beispielsweise durch eine Zeigegeste unterstütztes Element im Handlungskontext bezieht und es somit ein Demonstrativpronomen ist oder aber ein Abbruch einer Nominalphrase, da dem Vater bewusst wird, dass das nicht der korrekte Artikel zu Maske ist. Je nachdem, wie man dieses erste Element interpretiert, ist auch die Interpretation des ersten diese davon abhängig. Einerseits kann es sich noch immer um den Verweis auf einen im Handlungskontext etablierten Gegenstand handeln (beispielsweise die Maske) und somit um eine Selbstkorrektur in Hinsicht auf die Verwendung des korrekten Pronomens oder aber andererseits um die Suche nach dem korrekten Determiner für den folgenden Nominalphrasenkopf Maske. Dies sind nur einige Beispiele, die exemplarisch verdeutlichen sollen, dass eine Abgrenzung, wie sie in den Grammatiken vorgenommen wird, in vielen Fällen bei der praktischen Annotation von Wortarten an Daten gesprochener Sprache nicht möglich ist. In vielen Fällen erfordert sie eine Interpretation des Kontexts und selbst dann ist dieser häufig nicht deutlich genug, um eine eindeutige Interpretation zuzulassen. Für die manuelle Korrektur des POS-Taggings muss somit allein die distributionelle Stellung im verschriftlichten, d. h. transkribierten, Kontext ausschlaggebend für die Zuordnung der Wortart sein. Doch auch diese Vorgehensweise stellt bei der manuellen Korrektur immer wieder Probleme dar. Erstens ist es den Annotator*innen schwergefallen, Elemente wie in Beispiel 20 oder Beispiel 22 als Pronomen zu taggen, wo intuitiv eine Vervollständigung der Nominalphrase erwartet wird. Dadurch, dass Abbrüche auf der Äußerungsebene im Korpus allerdings nicht annotiert werden, können solche Elemente nicht automatisiert als Teil einer abgebrochenen Struktur erkannt werden. Zweitens stellt sich die Frage, wie man mit echt ambigen Elementen wie aus Beispiel 21 umgehen soll, denen ja etwas folgt und es nur nicht klar ist, was. Ein drittes Problem stellt der Umgang mit Wiederholungen und Korrekturen dar. Im Falle von Korrekturen ist eine folgende Nominalphrase in der Oberflächenstruktur sichtbar, auf die sich diese Elemente beziehen könnten, denen sie aber nicht in der Flexion entsprechen, wie in Beispiel 23. Man könnte ihnen allerdings dennoch eine attribuierende Stellung attestieren. Im Falle von Wiederholungen, wie in Beispiel 24, stellt sich das Problem, dass durch die Doppelung der Wortform diese das erstere als Pronomen interpretiert werden könnte. Da es aber der folgenden Nominalphrase in der Flexion entspricht, ist der Gebrauch als Pronomen unwahrscheinlich. Für all solche Probleme müssen in den Guidelines Lösungen gefunden werden, die einerseits pragmatisch anwendbar sind und andererseits auch immer die spätere automatisierte Annotation, d. h. den Algorithmus des Taggers, im Blick behalten. <?page no="195"?> Weitere Klassifikationsprobleme 195 2.5.1.1.2 Abgrenzungsprobleme zwischen verschiedenen Pronomenklassen Neben der generellen Problematik der Abgrenzung der Pronomen von Determinern fielen bei der manuellen Korrektur der Transkripte auch Abgrenzungsprobleme einzelner Pronomenklassen untereinander auf, beispielsweise bei der Differenzierung zwischen Relativ- und Interrogativpronomen, Demonstrativ- und Personalpronomen sowie Personal- und Reflexivpronomen. Auch hierfür werden nachfolgend einige Beispiele aus der Praxis angeführt. Zunächst jedoch werden jeweils die Definitionen der Duden-Grammatik und der GDS mit den Kategorisierungen im STTS verglichen, um zu illustrieren, inwiefern die Kategorisierungen des STTS von den Definitionen der Standard-Grammatiken abweichen. 2.5.1.1.3 Relativpronomen - Interrogativpronomen Die Duden-Grammatik definiert Relativpronomen folgendermaßen: Relative Artikelwörter und Pronomen leiten eine besondere Art Nebensatz ein, nämlich Relativsätze. Das Relativpronomen bezieht sich dabei auf ein (unter Umständen hinzuzudenkendes) Element im übergeordneten Satz. (Duden 2009, S. 302) Weiterhin beschreibt sie auch für Interrogativpronomen die Funktion, dass sie Nebensätze einleiten können: Interrogative Artikelwörter und Pronomen können Haupt- und Nebensätze einleiten: Fragesätze […] Ausrufesätze […] Fragenebensätze […] Ausrufenebensätze […] Irrelevanzkonditionalsätze. (ebd., S. 304 f.) Das laut Duden unter Umständen hinzuzudenkende Element im übergeordneten Satz ist ein wesentliches Problem bei der Abgrenzung von Relativpronomina zu Interrogativpronomina, da das Hinzudenken von Bezugselementen mit etwas Kreativität bei nahezu jedem Satz möglich ist. Die zu bestimmenden Elemente sind also nicht nur formgleich, sondern auch distributionell gleich verwendet, namentlich in der Funktion, einen Nebensatz einzuleiten. 48 Die GDS umgeht die Abgrenzungsproblematik, indem sie zwar zwischen Interrogativpronomen (Proterme: W-Objektdeixis) und Relativpronomen (Proterme: Relativum) unterscheidet, dann aber wiederum postuliert, dass „einige Formen der W-Objektdeixis (wer, was, wo usw.) oder des W-Determinativs (welch-) […] als Relativum verwendbar“ (Zifonun/ Hoffmann/ Strecker 1997, 48 Natürlich gibt es auch Interrogativpronomina, die eindeutig als solche zu klassifizieren sind, wie beispielsweise wieso oder inwiefern. Diese stellen jedoch für die Annotation kein Problem dar und werden daher an dieser Stelle nicht genauer diskutiert. <?page no="196"?> Theoretische Grundlagen 196 S. 42) sind. Dieser Auffassung nach werden solche Pronomen in diesen Fällen also zum Relativum, das sich wiederum darüber definiert, dass es „in dem Satz, zu dem es gehört, für Verbendstellung“ sorgt und es „selbst syntaktische Funktionen (als Komplement(teil), Supplement(teil), Attribut) in dem Satz, zu dem es gehört“ (ebd.) hat. Letzteres bewirken Interrogativpronomina in indirekten Fragesätzen selbstverständlich genauso. Nach dieser Auffassung jedoch wären alle Interrogativpronomen, die nicht in Interrogativsätzen verwendet werden, als Relativpronomen zu bezeichnen. Das STTS unterscheidet zwischen Relativpronomen (PRELS), Interrogativpronomen (PWS) und adverbialen Interrogativ- oder Relativpronomen (PWAV). Ein Problem entsteht bei der Differenzierung zwischen ersteren beiden Klassen, da die ihnen zugehörigen Elemente teils formgleich sind. So beschreiben die Guidelines: „substituierende Relativpronomina sind der, die, das, (etc.), welch- und was“ (Schiller et al. 1999, S. 49); „PWS sind wer, wessen, wem, wen, was und allein stehendes welch-“ (ebd., S. 51). Ungleich der GDS unterstellt das STTS die Interrogativpronomina, wenn sie Nebensätze einleiten, nicht den Relativpronomina, sondern formuliert sehr vage: „Interrogativpronomina sind [sic! ] kommen in direkten oder indirekten Fragesätzen vor (nach fragen, erkundigen, …), aber auch nach wissen, erklären, …“ (ebd., S. 51). Genauere Ausführungen zur Abgrenzung dieser beiden Klassen gibt es nicht. Beispiel 25: Berufsschulunterricht, Transkript FOLK_E_00007_SE_01_T_01_ DF_01, 37: 45-37: 55 49 01 GS hatten sie schon mal_n EINdruck dass (0.38) lehrer hier reinkommen und nicht wussten was heut im unterricht laufen soll. Beispiel 25 macht deutlich, dass auf Grundlage der Beschreibungen in den STTS-Guidelines nicht klar zu entscheiden ist, ob es sich um ein Relativ- oder Interrogativpronomen handelt. Da der Matrixsatz das finite Verb wissen beinhaltet, liegt eine Klassifikation als Interrogativpronomen nahe, zumal das Bezugselement nicht klar im Matrixsatz formuliert ist. Dennoch fungiert dieser Satz als Relativsatz, der die syntaktische Funktion als Komplement erfüllt und Verbendstellung aufweist. Er ist keinesfalls als indirekter Fragesatz zu bezeichnen. 49 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00007_SE_01_T_01_DF_01&cID=c1222&wID=w3820&textSize=200&contextSi ze=4. <?page no="197"?> Weitere Klassifikationsprobleme 197 Beispiel 26: Berufsschulunterricht, Transkript FOLK_E_00004_SE_01_T_01_ DF_01, 02: 19-02: 25 50 01 TF ja das kommt ja drauf an in was für_nem beTRIEB (.) ma ausbildet- Beispiel 26 ist noch um eine weitere Ebene komplexer, da was mit einer Präposition verwendet wird. Auch hier hat man weder ein klares Bezugselement im Matrixsatz noch handelt es sich bei dem Nebensatz um einen indirekten Fragesatz. Durch die Präposition in wird es zudem erschwert, sich ein Bezugselement hinzuzudenken. In solchen Fällen scheint es Auslegungssache zu sein, welchen vagen Definitionen man folgen will und wie man diese Elemente klassifiziert. Es wird deutlich, dass die STTS-Guidelines in diesem Punkt überarbeitet werden müssen, um solche Zweifelsfälle und somit unvermeidliche Inkonsistenzen bei der manuellen Annotation zu vermeiden. 2.5.1.1.4 Demonstrativpronomen - Personalpronomen Ein weiteres Problem stellt in bestimmten Kontexten die Differenzierung zwischen Personalpronomen und Demonstrativpronomen dar, wo diese formbasiert nicht zu unterscheiden sind. Dies ist ein Phänomen von Transkripten gesprochener Sprache, kommt aber ebenso in Daten internetbasierter Kommunikation vor. Im Speziellen geht es um die Klassifikation der Formen s und des. Erstens geht es um Fälle, in denen sich ein durch Klitisierung angehängtes s sowohl durch die Form es oder aber auch das ersetzen lässt, und zweitens um Fälle des umgangssprachlich gebrauchten des, bei dem es ebenfalls nicht ganz eindeutig ist, ob es sich um eine Vokalerhöhung von das handelt oder aber um ein es mit Anlautkonsonant. Besonders problematisch wird dies in Fällen, in denen ein auf t oder d endendes Wort vorausgeht. Für des gibt es Belege, die zeigen, dass es sowohl substituierend für die Form es (siehe Beispiel 27) als auch für die Form das verwendet wird, sei es in seiner Funktion als Demonstrativpronomen (Beispiel 28) oder auch als Artikel (Beispiel 29). 50 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00004_SE_01_T_01_DF_01&cID=c108&wID=w303&textSize=200&contextSi ze=4. <?page no="198"?> Theoretische Grundlagen 198 Beispiel 27: Alltagsgespräch, Transkript FOLK_E_00066_SE_01_T_03_DF_01, 01: 27: 58-01: 28: 03 51 01 JO [a WA-] 02 PA [zieht][vorBEI- ] 03 JO [ des REGn]et nie.= 04 JO =a WA- Beispiel 28: Paargespräch, Transkript FOLK_E_00027_SE_01_T_01_DF_01, 24: 20.85-24: 28 52 01 PB ja des mach ich für DICH und für mich. Beispiel 29: Alltagsgespräch, Transkript FOLK_E_00143_SE_01_T_05_DF_01, 02: 34: 06-02: 34: 12 53 01 GI des war a LAUT des [ding,] 02 JI [mh- ] Das STTS ordnet die Formen der, die und das den substituierenden Demonstrativpronomen zu (Schiller et al. 1999, S. 40). Die Formen ich, du, er, sie, es, wir, ihr im Nominativ; mich, dich, ihn, sie, es, uns, euch im Akkusativ; mir, dir, ihm, ihr, ihnen im Dativ und meiner, deiner, ihrer, seiner, unser(er), eurer im Genitiv werden der Klasse der Personalpronomen zugeordnet (ebd., S. 35). Einen Hinweis zum Umgang mit klitisierten Formen oder dem umgangssprachlichen des gibt es in den STTS-Guidelines nicht. Ebenso wenig findet man in der Duden-Grammatik und auch in der GDS einen Eintrag zu des oder dem klitisierten s. Um das Problem zu veranschaulichen, folgt jeweils ein Beispiel für Fälle, in denen nicht zu erkennen ist, ob es vorliegt oder ein assimiliertes des. 51 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00066_SE_01_T_03_DF_01&cID=c634&wID=c634. 52 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00027_SE_01_T_01_DF_01&cID=c914&wID=w3581. 53 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00143_SE_01_T_05_DF_01&cID=c762&wID=w3003. <?page no="199"?> Weitere Klassifikationsprobleme 199 Beispiel 30: Berufsschulunterricht, Transkript FOLK_E_00005_SE_01_T_02_ DF_01, 53: 32-53: 40 54 01 LB also ma könnt des RUHISCH so stehen lossen wenn er sacht (.) isch prüf des , 02 (0.39) 03 LB dann isch des auch in ORDnung. Der Berufsschullehrer LB kommt aus dem pfälzischen Sprachraum. Des ist in seinem Sprachgebrauch sehr frequent (ca. 1,8 Prozent relative Häufigkeit in den FOLK-Daten seiner Äußerungen) und zwar nicht nur in der Verwendung als Demonstrativ- oder Personalpronomen, sondern auch als Artikel. Im Vergleich dazu verwendet er die Formen das und es deutlich seltener (0,5 Prozent bzw. 0,7 Prozent relative Häufigkeit). Des scheint also in vielen Fällen seine präferierte Wortwahl zu sein. Dennoch ersetzt er nicht in einem spezifischen Kontext alle das durch des, vielmehr verwendet er das ebenfalls als Demonstrativpronomen und als Artikel. Das Problem, das sich in Beispiel 30 stellt, ist erst an zweiter Stelle eines der Wortarten-Kategorisierung. Primär ist es eines der Transkription und der orthografischen Normalisierung, die man diesen Äußerungen zuschreibt. Seine Aussprache macht es, aufgrund der Endung des Verbs auf t in Zeile 01, sehr schwer zu erkennen, ob er könnt es oder könnt des, also normalisiert könnt das äußert. Ähnlich verhält es sich mit der Äußerung in Zeile 03: Hört man sich den Transkript-Ausschnitt an, zeigt sich, dass er eher ischdes äußert, was die Transkribent*in als isch des tokenisiert hat, genauso gut aber auch zu ischt es hätte tokenisieren können. In solchen Fällen liegt es also in der Hand der Transkribent*innen und weiterhin auch der Normalisierung, inwiefern diese Elemente später als Personalpronomen (PPER) oder Demonstrativpronomen (PDS) getaggt werden. Basierend auf der Annahme, dass des durch den Anlaut-Konsonant näher an das als an es liegt, wurden im FOLK-Korpus nahezu alle Formen von des mit das normalisiert und somit auch an solchen fraglichen Stellen als Demonstrativpronomen getaggt. Dies ist eine praktikable Lösung. Inwiefern sie jedoch theoretisch begründet ist, sei dahingestellt. Ebenso wie bei Beispiel 30 entscheidet sich das Tagging der Wortform s in Beispiel 31 (Zeile 07) auf der Ebene der Normalisierung. Auch hier liegt es in der Hand des Normalisierers zu entscheiden, ob er das klitisierte s zu das oder es normalisiert. 54 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00005_SE_01_T_02_DF_01&cID=c386&wID=w1041&textSize=200&contextSi ze=4. <?page no="200"?> Theoretische Grundlagen 200 Beispiel 31: Besprechung in einer sozialen Einrichtung, Transkript FOLK_E_00024_SE_01_T_01_DF_01, 10: 17-10: 28 55 01 SZ der hatte hier so_n komischen (.) ÜBERbiss.= 02 SZ =also mit einem ZAHN oder so was hat se gemeint-= 03 SZ =ob [des IMmer so isch-]= 04 AW [hat er aber schon ][IMmer.] 05 SZ =[un ich] konnt ich gar net ((lacht)) (.) beURteilen.= 06 SZ =hab ich gsagt ich glaub SCHON, 07 SZ aber (0.2) ich könnt_ s jetz net [mit sicherheit] SAgen. 08 AW [hm_HM- ] In diesem Falle wurde es zu es normalisiert. Das klitisierte s in Zeile 07 bezieht sich auf die Frage ob des immer so isch, es ist also auch darüber nicht zu ergründen, ob das dort verwendete Pronomen klitisiert wiederholt wird, da weder es noch das verwendet wurden und beide für des einsetzbar wären. Solche Formulierungen werden nicht merkwürdig oder grammatikalisch falsch, wenn man das eine oder das andere Pronomen verwendet. Vielmehr zeigen diese Beispiele, dass eine Abgrenzung zwischen Demonstrativpronomen und Personalpronomen generell hinterfragt werden muss, da sie offenbar in solchen Kontexten austauschbar verwendet werden können. Da das POS-Tagging auf der Normalisierungsebene basiert, ist diese Differenzierungsproblematik rein theoretischer Natur. Getaggt wird schließlich die normalisierte Form das oder es, die formbasiert eindeutig zu klassifizieren sind. Das Tagging dieser Elemente ist somit abhängig von der Entscheidung der Normalisierer*in. Für das Tagging schriftsprachlicher Dokumente, die solche umgangssprachlichen Formen nutzen, seien es Diskussionsseiten im Netz oder Chat-Daten, stellt dies jedoch weiterhin ein Problem dar. 2.5.1.1.5 Personalpronomen - Reflexivpronomen Wiederum anders geartet ist das Problem der Abgrenzung zwischen Personalpronomen und Reflexivpronomen. In den STTS-Guidelines „wird unterschieden zwischen reflexiven Formen mich, dich, sich, uns, euch, mir, dir, einander und sonstigen Personalpronomina“ (Schiller et al. 1999, S. 35) (siehe Auflistung oben). Dem wird der Verweis hinzugefügt: „Achtung: Es gibt Überschneidungen bei mir, dir, dich, mich, euch, uns, die sowohl reflexiv als 55 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00024_SE_01_T_01_DF_01&cID=c425&wID=w2307&textSize=300&contextSi ze=8. <?page no="201"?> Weitere Klassifikationsprobleme 201 auch irreflexiv sein können“ (ebd.). Reflexive Formen erhalten das Tag PRF, während sonstige Personalpronomina das Tag PPER erhalten. Eine Klärung, auf welcher Grundlage diese Formen differenziert werden sollen, wird nicht angegeben. Die Duden-Grammatik definiert Reflexivpronomen folgendermaßen: Das Reflexivpronomen bezieht sich auf ein Satzglied innerhalb eines einfachen Satzes oder innerhalb ein und desselben Teilsatzes […] Das Reflexivpronomen hat also die Aufgabe, den Bezug auf einen Ausdruck in seinem Nahbereich sicherzustellen. Das Reflexivpronomen kennt nur eine einzige eindeutige Form, nämlich die 3. Person sich. Es kennt keine Numerus- und Genusunterschiede und kann in Akkusativ- und Dativkontexten stehen. (Duden 2009, S. 271 f.) Sehr ähnlich definiert die GDS das Reflexivum: Das REFLEXIVUM (Refl) ist eine besondere Form der „syntaktisch gebundenen“ Anapher, die den satzinternen Rückbezug auf den mit dem Subjekt, dem Akkusativkomplement oder (selten) dem Dativkomplement ausgedrückten Redegegenstand erlaubt. (Zifonun/ Hoffmann/ Strecker 1997, S. 38) Weiterhin unterscheidet sie noch eine spezielle Form der Reflexiva, namentlich das lexikalisch geforderte Reflexivum: „Das LEXIKALISCH GEFOR- DERTE REFLEXIVUM ist an das Vorkommen bestimmter Verben gebunden (sich merken, sich schämen, sich weigern). Der Kasus wird vom Verb regiert“ (ebd., S. 39). In Bezug auf die Wortartenannotation stellen sich somit zwei Fragen: 1) Entspricht das in den STTS-Guidelines angeführte Reflexivpronomen dem lexikalisch geforderten Reflexivum oder der Kategorie Reflexivum im Allgemeinen? 2) Da jedwede Kategorisierung als Reflexivum kontextabhängig ist, da es einen „satzinternen Rückbezug“ (ebd., S. 38) erfordert, ist fraglich, wie mit solchen Elementen verfahren werden soll, in deren Umgebung ein solcher Kontext zwar denkbar, aber faktisch nicht gegeben ist. Auch hier sollen einige Beispiele die Problematik der Abgrenzung verdeutlichen. Beispiel 32: Fußballmanager, Transkript FOLK_E_00021_SE_01_T_06_DF_01, 01: 52: 13-01: 52: 29 56 01 XM1 BORdon. 02 XM2 ((unverständlich)) 03 JZ HABT er euch - 04 MT ((Lachansatz)) is des; 56 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00021_SE_01_T_06_DF_01&cID=c1377&wID=w3104&textSize=200&contextSi ze=4. <?page no="202"?> Theoretische Grundlagen 202 05 MT ((lacht)) is des ne beSCH[REIbu ][ng für pech? ] 06 SK [vielleicht][dafür (.) bin ich DESw] egen so schlecht gewesen. 07 XM1 ((lacht)) Beispiel 32 illustriert einen Abbruch auf Satzebene. Euch ist nach obigen Beschreibungen als Reflexivum zu bezeichnen, da es einen satzinternen Rückbezug auf das Subjekt er (ihr) herstellt. Da jedoch vom Sprecher noch kein lexikalisches Verb geäußert wurde, kann nicht festgestellt werden, ob es sich um ein lexikalisch gefordertes Reflexivum handelt oder nicht. Beispiel 33: Bibelkreis, Transkript FOLK_E_00193_SE_01_T_01_DF_01, 16: 25-16: 50 57 01 FL dass ich [(0.5)] immer wieder FALle-= 02 VS [hmhm ] 03 FL =immer wieder °h SCHULdig werd- 04 FL (.) am NÄCHSchten,= 05 FL =un an GOTT,= 06 FL =und °h (.) und aber de[sWEgen mich - ] 07 AB [vielleicht auch] an MIR? 08 (0.27) 09 FL JA? 10 (0.58) 11 FL und (.) hm ((schmatzt)) JA, 12 FL (.) aber mich deswegen °h (.) ähm (.) nicht selber verDAMme ablehne oder selbst hasse oder so [was,=] 13 AB [hm ][HM (.) hmhm,] 14 FL [=sondern °h](.) dieses (0.48) ANnehme. Beispiel 33 ist ebenfalls ein Abbruch auf Satzebene. Wie auch in Beispiel 32 ist mich ein Reflexivum bzw. Reflexivpronomen im Sinne der GDS bzw. Duden- Grammatik. Die Sprecherin FL wird von AB unterbrochen in ihrer Äußerung. FL setzt ihre Ausführungen jedoch in Zeile 12 fort. In solchen Fällen ist es fraglich, ob aufgrund dieser Fortsetzung bestimmt werden kann, ob es sich um ein lexikalisch gefordertes Reflexivum handelt oder nicht. Einerseits kann man argumentieren, dass Sprecherin FL die Äußerung wie geplant fortsetzt. Andererseits ist dies höchst spekulativ, da nicht gesagt werden kann, was Sprecherin FL ursprünglich, vor der Unterbrechung durch AB, äußern wollte, und es ist möglich, dass sie im folgenden Beitrag eine ähnliche Konstruktion 57 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00193_SE_01_T_01_DF_01&cID=c706&wID=w2633&textSize=200&contextSi ze=4. <?page no="203"?> Weitere Klassifikationsprobleme 203 für einen anderen Gedankengang verwendet. In diesem Falle ließen sich aus der Äußerung in Zeile 12 keine Rückschlüsse auf die Verwendung von mich in Zeile 06 ziehen. Diese Differenzierung zwischen lexikalisch geforderten Reflexivpronomina und anderen Reflexivpronomina scheint bei oberflächlicher Betrachtung leicht nachvollziehbar. Die Semantik der Verben, die ein Reflexivum fordern können, ist jedoch in vielen Fällen in Bezug auf eine solche Unterscheidung nicht eindeutig. Es gibt Fälle, in denen eine Form der Ausdruck unterschiedlicher semantischer Konzepte bzw. zweier verschiedener Verben sein kann, wie in Beispiel 34: Beispiel 34: Berufsschulunterricht, Transkript FOLK_E_00123_SE_01_T_01_ DF_01, 02: 11-02: 32 58 01 US stellt euch VOR, 02 (0.39) 03 US die pe we O, 04 (0.2) 05 US WILL, 06 (0.56) 07 US zum BEIspiel, Ohne eine Analyse des Kontextes kann es sich hier um die zwei Verben jemanden vorstellen im Sinne von präsentieren oder aber sich etwas vorstellen im Sinne von imaginieren handeln. Aus dem größeren Kontext ist zu schließen, dass es sich um letzteres Verb handelt. Der engere Kontext, namentlich die Transkriptzeile, lässt eine solche Schlussfolgerung hingegen nicht zu. Betrachtet man nur die Äußerung selbst, kann nicht gesagt werden, ob es sich um ein Reflexivpronomen oder ein Personalpronomen handelt, da dies von der Verbbedeutung abhängig ist. Ist das Verb sich etwas vorstellen, handelt es sich um ein lexikalisch gefordertes Reflexivpronomen. Wird das Verb als jemanden vorstellen interpretiert, muss euch die Wortart Personalpronomen zugeordnet werden. Für ein Wortartentagging, dem allein der Kontext auf Äußerungsebene gegeben ist, ist dieses euch nicht klar zu bestimmen. Auch diese Problematik ist eine medialitätsübergreifende in Hinblick auf Korpora internetbasierter Kommunikation. Ein spezifisches Problem von Transkripten gesprochener Sprache ist wiederum aberranter Gebrauch von Verbformen bzw. vom Standard abweichende Grammatik wie dies in Beispiel 35 der Fall ist: 58 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00123_SE_01_T_01_DF_01&cID=c84&wID=w297&textSize=400&contextSi ze=12. <?page no="204"?> Theoretische Grundlagen 204 Beispiel 35: Berufsschulunterricht, Transkript FOLK_E_00001_SE_01_T_02_ DF_01, 43: 11-43: 32 59 01 LB jetzt müsst ihr euch den SCHALTplan betrachten; Sich etwas betrachten ist keine normgrammatische Ausdrucksweise. Hier wird das euch benutzt wie ein lexikalisch gefordertes Reflexivum, ist aber nicht lexikalisch gefordert. Ganz im Gegenteil scheint die Verwendung des Pronomens hier grammatikalisch falsch zu sein, was die Bestimmung, ob es sich um ein Personal- oder Reflexivpronomen handelt, schwer macht. Eine eindeutige Bestimmung ist auch hier nicht möglich. 2.5.1.1.6 Abgrenzung der Indefinitpronomen von Adjektiven Es gibt eine Gruppe von Elementen, die einerseits innerhalb einer Nominalphrase zwischen Determiner und Nomen stehen können und als Modifikator des Nomens fungieren, andererseits auch selbstständig oder mit Determiner eine eigene Phrase bilden können. Diese Elemente haben häufig eine quantifizierende Funktion, weshalb sie in der GDS als Quantifikativa bezeichnet werden: Zu den QUANTIFIKATIVA zählen all-, einig-, etlich-, jed-, jedwed-, manch-, mehrer-, sämtlich-, die ein Pendant bei den quantifizierenden Determinativen aufweisen. Zu den Quantifikativa gehören ferner Ausdrücke, die mancherorts als „Negationspronomina“ bezeichnet werden: kein-, nichts, niemand. Mit der Verwendung von Quantifikativa wird über einen kontextuell gegebenen Denotatbereich quantifiziert. (Zifonun/ Hoffmann/ Strecker 1997, S. 44) Sie werden den Protermen und somit der Klasse der Pronomen untergeordnet. Wie bei der Abgrenzungsproblematik der Determiner von Pronomen stellt sich auch hier die problematische Frage, ob es sich um elliptische oder eigenständige Strukturen handelt. Dass dieses Abgrenzungsproblem in der Literatur bereits diskutiert wird, zeigt sich auch in der Definition der Indefinitpronomen in der Duden-Grammatik (2009): Mit indefiniten Artikelwörtern und Pronomen (kurz: Indefinita) gibt man an, dass etwas nicht näher identifiziert ist. Zum Teil haben diese Wörter zugleich quantifizierende Bedeutung. […] Im Unterschied zu quantifizierenden Adjektiven (unbestimmten Zahladjektiven; können Indefinita nicht nach anderen Artikelwörtern stehen. (ebd., S. 309) 59 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00001_SE_01_T_02_DF_01&cID=c369&wID=w1144&textSize=200&contextSi ze=4. <?page no="205"?> Weitere Klassifikationsprobleme 205 Die Abgrenzung zu den sogenannten Zahladjektiven wird an anderer Stelle noch einmal aufgegriffen: Unbestimmte Zahladjektive und indefinite Artikelwörter/ Pronomen lassen sich mit der Artikelprobe auseinander halten: Nur Zahladjektive können nach dem definiten Artikel stehen […]: andere Vorschläge → die anderen Vorschläge (also Zahladjektiv); manche Vorschläge → *die manchen Vorschläge (also Indefinitum). […] Grenzfälle sind beide, solch, viel, wenig, ein/ einer. (ebd., S. 382) Eben diese genannten Grenzfälle sind für eine Wortartenannotation jedoch äußerst schwierig zu klassifizieren, denn Ausführungen, wie solche Grenzfälle zu klassifizieren sind, bietet die Duden-Grammatik nicht. Auch die Guidelines des STTS gehen auf diesen Punkt zwar ein, bieten jedoch ebenfalls keine Lösung für eine klare Abgrenzung. Sie behelfen sich stattdessen mit Beispielen und Wortformenlisten, deren Inhalte der Definition teilweise widersprechen. Im STTS gibt es drei Kategorien für Indefinitpronomina: Die Indefinitpronomina werden in substituierende (PIS) und attribuierende (PIAT, PIDAT) unterschieden. Bei den attribuierenden gilt das Unterscheidungskriterium, ob das Indefinitpronomen mit Determiner (unbestimmter/ bestimmter Artikel, andere Pronomina davor oder dahinter) auftreten kann oder nicht. Zu den Adjektiven werden nur solche Wortformen gezählt, die sowohl nach definitem als auch nach indefinitem Artikel stehen können (z. b. [sic! ] ander-). (Schiller et al. 1999, S. 41) Die Kategorie PIS entspricht dabei den von der Duden-Grammatik als indefinite Pronomina bezeichneten Elementen und die Kategorien PIAT und PI- DAT dem Konzept der indefiniten Artikelwörter (siehe oben). Zu dieser Definition im STTS werden Listen von möglichen Wortformen der Klassen PIS und PIDAT gereicht. Diese sind jedoch weder vollständig, noch dienen sie zu einer Abgrenzung innerhalb der Kategorien, da einige Formen in beiden Listen vorkommen und schließlich widersprechen sie sogar zum Teil der oben zitierten Definition. Beispielsweise wird wenig als attribuierendes Indefinitpronomen ohne Determiner in den Listen aufgeführt, obwohl es sowohl nach definitem als auch nach indefinitem Artikel stehen kann, wie Beispiel 36 und Beispiel 37 belegen: Beispiel 36: Schlichtungsgespräch Stuttgart 21, Transkript FOLK_E_00068_ SE_01_T_07_DF_01, 09: 36-09: 43 60 01 FL soviel zu dieser °h lapidarn for folie ein WEnig (0.38) ertüchtigung des gleisvorfeldes. 60 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00068_SE_01_T_07_DF_01&cID=c200&wID=w1677. <?page no="206"?> Theoretische Grundlagen 206 Beispiel 37: Bewerbungstraining, Transkript FOLK_E_00174_SE_01_T_01_ DF_01, 00: 20-00: 25 61 01 DO und [(0.3)] (.) die wenige zeit DIE ich dann hab, 02 MZ [hm- ] 03 (0.25) 04 MZ JA na klar. 05 (0.79) 06 DO ich (.) f fahr MOUNtainbike, 07 (0.31) 08 DO ich geh zum FUSSball, Des Weiteren ist die Unterscheidung der Indefinitpronomina in drei Kategorien im STTS zu hinterfragen, da auch einige der unter der Liste der substituierenden Indefinitpronomina (PIS) aufgeführten Formen mit Determiner stehen können, es konsequenter Weise also auch eine Kategorie PIDS geben müsste. Beispiel 38 belegt eine Verwendung der Wortform beiden mit einem Artikel: Beispiel 38: Eltern-Kind-Vorlese-Interaktion, Transkript FOLK_E_00016_ SE_01_T_01_DF_01, 28: 32-28: 39 62 01 CJ °h am liebsten würde er GLEICH wieder verschwinden. 02 CJ ((schnieft)) aber DANN würden die beiden das baumhaus ohne ihn bauen (0.49) und das will_er am allerwenigsten. Auch stellt sich hier die Frage, ob es sich bei beiden um ein Indefinitpronomen oder aber um ein substantiviertes Adjektiv handelt. Anhand der Lexeme wenig- und beidesoll im Folgenden die Abgrenzungsproblematik zwischen sogenannten quantifizierenden Adjektiven, Indefinitpronomina und indefiniten Artikelwörtern noch einmal verdeutlicht werden. Kriterien für die Definition der Wortart Adjektiv sind ihre Flektierbarkeit und ihre Komparierbarkeit (Duden 2009, S. 338; Zifonun/ Hoffmann/ Strecker 1997, S. 46 f.). Beispiel 39 und Beispiel 40 sind Fälle, in denen man die Formen von wenig eher als Adjektiv denn als Indefinitpronomen klassifizieren würde. 61 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00174_SE_01_T_01_DF_01&cID=c21&wID=w4939&textSize=300&contextSi ze=8. 62 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00016_SE_01_T_01_DF_01&cID=c1461&wID=w4251&textSize=200&contextSi ze=4. <?page no="207"?> Weitere Klassifikationsprobleme 207 Beispiel 39: Renovieren, Transkript FOLK_E_00217_SE_01_T_03_DF_01, 49: 44-49: 54 63 01 PZ verstehst du eigentlich waRUM die farbe dicker wird mit der große- 02 PZ also waRUM ma des weniger durchsieht die alte farbe mit der großen rolle? 03 (0.2) 04 TZ mhmh. Beispiel 39, entnommen aus einer Renovierungs-Interaktion, wird weniger im Komparativ verwendet, auch wenn der Vergleichsgegenstand (als mit einer kleinen Rolle aufgetragen) nicht expliziert wird. Komparierbarkeit ist keine Eigenschaft von Indefinitpronomen, sondern von Adjektiven. Somit ist weniger hier als Adjektiv zu klassifizieren. Beispiel 40: Paargespräch, Transkript FOLK_E_00027_SE_01_T_01_DF_01, 31: 07-31: 13 64 01 AM [treibst dich halt zu ] wenig in der (.) in DAmenabteilung rum [ne? ] 02 PB [+++ +++ ] 03 PB [ j]a. In Beispiel 40 steht die Form wenig begleitet von der Adjektivpartikel zu. Auch diese Verwendungsweise ist nicht möglich mit anderen Indefinitpronomina und lässt somit nur eine Klassifikation als Adjektiv zu. Komparierbarkeit ist somit ein klares Abgrenzungsmerkmal. Fraglich ist, inwiefern die Flexion nach Kasus, Numerus und Genus ein Hinweis auf eine Differenzierung sein kann. Grundsätzlich flektieren Indefinitpronomina und indefinite Artikelwörter ebenso wie Adjektive nach Kasus, Numerus und Genus. Dennoch gibt es Fälle, in denen die Verwendung der Elemente von den Flexionsschemata des Kontexts abweichen, wie folgende Beispiele illustrieren sollen: 63 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00217_SE_01_T_03_DF_01&cID=c403&wID=w1412&textSize=200&contextSi ze=4. 64 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00027_SE_01_T_01_DF_01&cID=c1189&wID=w4580&textSize=200&contextSi ze=4. <?page no="208"?> Theoretische Grundlagen 208 Beispiel 41: Podiumsdiskussion, Transkript FOLK_E_00210_SE_01_T_02_ DF_01, 01: 09: 28-01: 09: 38 65 01 PS wie äh RUSsland es mit militärischen mitteln oder ah, 02 HK hm (.) 03 PS provokaTEUren (.) [äh] betreibt. 04 HK [hm] 05 PS °h un da seh ich wenig SPIELräume in der j[etzi]gen situation. 06 HK [hm ] Das wenig in Beispiel 41 ist insofern schwierig zu klassifizieren, da es einerseits das im Plural stehende Nomen Spielräume modifiziert, andererseits aber keine Pluralflexion aufweist. Dies entspricht sowohl für Adjektive als auch für indefinite Pronomina und Artikelwörter nicht dem normgrammatischen Flexionsschema. 66 Weiterhin zeigt sich, wie in Beispiel 42 illustriert wird, dass es verschiedene Fälle gibt, in denen Pronomina ohne Flexionsendung verwendet werden. Es steht zur Diskussion, ob dies eine Art der Abgrenzung vom Gebrauch als Adjektiv sein könnte. Zudem weisen viele Quantifikativa unterschiedliche Flexionsparadigmen auf, wenn sie mit oder ohne Determiner stehen (wenige, die wenigen oder beide, die beiden). Beispiel 42: Fußballmanager, Transkript FOLK_E_00021_SE_01_T_01_DF_01, 07: 47-08: 00 67 01 SK torhüter wird TEUer oder? 02 (0.91) 03 MT (pas) IMmer; 04 (0.51) 05 PL ja da gibt_s ganz WEnige (immer); 06 (0.77) 07 MT ja. [((lacht)) ] 08 NI [so WEnig w]ie noch nie (.) 65 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00210_SE_01_T_02_DF_01&cID=c1011&wID=w3752&textSize=200&contextSi ze=4. 66 Ein ähnliches Problem zeigt sich bei der umgangssprachlichen Verwendung verschiedener Adjektive, z. B. in Konstruktionen wie ein lecker Pils trinken. Für das Tagging sind diese Instanzen jedoch wenig problematisch, da sie sowohl semantisch als auch distributionell eindeutig als Adjektiv zu klassifizieren sind. 67 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00021_SE_01_T_01_DF_01&cID=c599&wID=w1422&textSize=300&contextSi ze=8. <?page no="209"?> Weitere Klassifikationsprobleme 209 Beispiel 42 zeigt verschiedene Verwendungsformen von wenig. Sowohl das wenige in Zeile 05 als auch das wenig in Zeile 08 beziehen sich auf das im Plural stehende Nomen Torhüter. Die Funktion ist bei beiden Elementen dieselbe: Es wird „über einen kontextuell gegebenen Denotatbereich quantifiziert“ (Zifonun/ Hoffmann/ Strecker 1997, S. 44). Sie entsprechen damit beide der Definition der Quantifikativa (Proterme) der GDS. Hier wird also ein und dieselbe Funktion von zwei verschiedenen Elementen erfüllt. Im Gegensatz zum wenig in Zeile 08 steht das wenige in Zeile 05 im Plural und ließe sich auch als Konstituente im Satz verschieben. Hiermit ergeben sich an dieser Stelle gleich zwei Problemstellungen. Das wenige in Zeile 05 entspricht der Definition nach sowohl einem Adjektiv als auch einem Indefinitpronomen, während das wenig in Zeile 08 formal weder der einen, noch der anderen Definition entspricht und nur auf funktionaler Ebene den Quantifikatoren zuzuordnen ist. Auf eine solche Veränderung der Flexionsparadigmen im Sprachgebrauch gehen die Grammatiken nicht ein und geben keine Hilfestellung, wie diese zu klassifizieren sind. Beispiel 43: Meeting in einer sozialen Einrichtung, Transkript FOLK_E_00024_SE_01_T_07_DF_01, 02: 12: 32-02: 12: 43 68 01 SZ a[ber da FÄLLT mir ](1.12) grad au noch was EIN, 02 NG [((räuspert sich))] 03 SZ (.) WIE ähm- 04 SZ °h wollt IHR beide nich auch mal irgendwie berichten was ihr da gemAcht habt in diesem (0.43) diesem spiel, Ein weiteres Problem der Klassifikation stellt sich bei Konstruktionen wie der in Beispiel 43 dargestellten Verwendung von beide in Zeile 04. Hier ist beide einem Personalpronomen nachgestellt und modifiziert es auf diese Weise. Die Äußerung würde ungrammatisch ohne das Personalpronomen: beide kann hier nicht selbst als Pronomen fungieren. Dennoch weist das beide keine Pluralflexion auf, wie dies zu erwarten wäre in einer Verwendung als Adjektiv (vgl. ihr schönen, ihr lieben etc.). 68 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00024_SE_01_T_07_DF_01&cID=c154&wID=w912&textSize=200&contextSi ze=4. <?page no="210"?> Theoretische Grundlagen 210 Beispiel 44: Fußballmanager, Transkript FOLK_E_00021_SE_01_T_16_DF_01, 02: 01: 15-02: 01: 26 69 01 SK welchen KROOS kann ich denn kaufen, 02 SK den von hoffenheim oder den von HAMburg. 03 (2.99) 04 JZ kaufen kannsch BEIde . Wie bereits erwähnt, existieren für die meisten Quantifikatoren alternierende Flexionsschemata je nachdem, ob sie mit oder ohne Determiner stehen, z. B. die beiden Spieler oder beide Spieler. Die Verwendungen von beide in Beispiel 44 und wenige/ wenig in Beispiel 42 ließen sich somit auf unterschiedliche Referenzausdrücke zurückführen. In Beispiel 42 könnte man somit vermuten, dass sich Sprecher PL auf den Ausdruck die wenigen Torhüter bezieht, während NI sich auf die Konstruktion wenig Torhüter bezieht. In Beispiel 44 bezieht sich JZ auf beide Spieler, die Kroos heißen. Selbst wenn jedoch diese Annahmen zutreffen, kann daraus nur durch den Kontext abgeleitet werden, dass es sich um quantifizierende Adjektive in elliptischer Struktur handelt. Allein aus dem Kontext des Beitrags heraus ist es nicht zu bestimmen, ob es sich um ein quantifizierendes Adjektiv oder um Pronomen handelt. Diese Beispiele zeigen eine Problematik der Abgrenzung zweier Wortarten auf, die im Rahmen dieser Arbeit nicht abschließend gelöst werden kann. Mangels einer klaren Abgrenzung auf theoretischer Ebene scheint die Lösung des STTS, eine Abgrenzung auf der Basis von Listen vorzunehmen, daher als die letztlich praktikabelste, wenn es auch eine Notlösung ist und die bisher vorhandenen Listen korrigiert werden müssen. 2.5.1.2 Verben Das STTS unterscheidet zwölf verschiedene Kategorien für Verben. Es wird zunächst zwischen Auxiliar-, Modal- und Vollverben unterschieden. Danach erfolgt eine Distinktion, ob Verben finit, als Partizip oder als Infinitivum gebraucht werden - und dies wiederum zum Teil mit Modus-Unterscheidung, d. h. Imperativformen werden gesondert und teilweise nach ihrer Bildungsweise ausgezeichnet (Infinitiv mit zu). Beim Tagging von Verben stehen zwei Probleme im Vordergrund, die im Folgenden diskutiert werden: 69 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00021_SE_01_T_16_DF_01&cID=c880&wID=w2015&textSize=200&contextSi ze=4. <?page no="211"?> Weitere Klassifikationsprobleme 211 1) Probleme bei der automatisierten Klassifikation von Verben. Dies sind Probleme auf technischer Ebene, die sich durch die Funktionsweise des Taggers begründen lassen, aber auch durch die Eigenheiten von Transkripten gesprochener Sprache. 2) Die Unterscheidung von Adjektiven und Verben im Partizip - ein Problem, das eher theoretischer Natur ist. 2.5.1.2.1 Probleme bei der automatisierten Klassifikation von Verben 20 % of the errors made by the tagger of version 5 result from interchanging a finite verb form and a non-finite verb. (Schmid 1995, S. 7) Schon bei der Dokumentation des TreeTaggers in seiner Applikation fürs Deutsche wurde festgestellt, dass 20 Prozent der Fehlerquote durch die fehlerhafte Annotation von Verbformen entstand. Diese Problematik ist nicht spezifisch für die geschriebene Sprache, sondern entsteht auch beim Taggen von Transkripten gesprochener Sprache. Dies hat mehrere Gründe. Zunächst einmal ist im Deutschen das Flexionsparadigma der Verben im Infinitiv und der finiten Form in der ersten und dritten Person Plural dasselbe. Die Wortformen sind also identisch. Es kommt daher darauf an, ob der Tagger eventuell vorhergehende Auxiliare oder Modalverben erkennt. Da der Abstand zwischen Auxiliar bzw. Modalverb und dem Vollverb im Deutschen sehr groß sein kann, der TreeTagger aber nur mit Trigrammen arbeitet, kann der Zusammenhang häufig nicht erkannt werden. Beispiel 45: Spielinteraktion zwischen Erwachsenen, Transkript FOLK_E_00204_SE_01_T_01_DF_01, 08: 34-08: 42 70 01 TW warte ma ich bin ja noch DRAN- 02 (0.8) 03 TW jetz muss ich ma gucken ob ich hier was MACHen kann, In Beispiel 45 hat der TreeTagger beispielsweise schon bei dem geringen Abstand von zwei Token zwischen dem Modalverb muss und dem Infinitiv gucken diesen nicht als solchen erkannt. In Beispiel 46 wurde drangehen als Infinitiv getaggt. Das Partikelverb drangehen wird in den Trainingsdaten sicher häufiger als Infinitiv denn als finites Verb vorgekommen sein, sodass der Tagger es in der finalen Position im Nebensatz nicht als finites Verb erkennt. 70 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00204_SE_01_T_01_DF_01&cID=c499&wID=w1563&textSize=200&contextSi ze=4. <?page no="212"?> Theoretische Grundlagen 212 Beispiel 46: Berufsschulunterricht, Transkript FOLK_E_00001_SE_01_T_01_ DF_01, 12: 44-12: 58 71 01 LB ja herr scherer find ich gut dass sie DRANgehen - Spezifisch für das Tagging von Transkripten gesprochener Sprache ergeben sich ähnliche Probleme bei der Differenzierung zwischen Infinitiven, finiten Verben und Imperativformen. In der Standardsprache stehen Imperative am Satzbeginn. Ihnen kann maximal ein Adverb vorangestellt werden. Ein prototypischer Fall eines Imperativs wird an Beispiel 47 illustriert: AM weist ihren Freund an, auf der Webseite, die sie sich gemeinsam ansehen, hoch bzw. herunter zu scrollen. Beispiel 47: Paargespräch, Transkript FOLK_E_00030_SE_01_T_02_DF_01, 39: 02-39: 09 72 01 AM geh nom ma RUNter- 02 (0.51) 03 AM äh HOCH- Beispiel 48: Maptask, Transkript FOLK_E_00098_SE_01_T_01_DF_01, 02: 36-02: 45 73 01 LHW1 in d[er MITte des bildes.] 02 LHW2 [und geh denn HOCH. ] 03 (1.01) 04 LHW2 geh HOCH, 05 (0.3) 06 LHW1 und dann gehst du diagoNAL nach rechts hoch. Beispiel 48 illustriert gleich mehrere Probleme, die bei der Verarbeitung von Transkripten gesprochener Sprache entstehen können. Erstens ist es in der Umgangssprache möglich, die Vorfeldposition unbesetzt zu lassen. Das Verb erscheint somit als erste Position in der Äußerung in einer uneigentlichen Verbspitzenstellung (Auer 1993, S. 198). Zweitens ist es in der deutschen Um- 71 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00001_SE_01_T_01_DF_01&cID=c524&wID=w1576&textSize=200&contextSi ze=4. 72 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00030_SE_01_T_02_DF_01&cID=c542&wID=w1426. 73 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00098_SE_01_T_01_DF_01&cID=c146&wID=w360&textSize=200&contextSi ze=4. <?page no="213"?> Weitere Klassifikationsprobleme 213 gangssprache üblich, die Flexionsendung in der ersten Person Singular wegzulassen, d. h. das finale Schwa der Verbform in der ersten Person Singular zu tilgen. Ohne den Kontext wäre es in Beispiel 48 nicht möglich, darauf zu schließen, dass Sprecherin LHW2 in Zeile 04 nicht die Aufforderung an ihr Gegenüber ausspricht, hochzugehen, sondern dass sie nur bestätigt, dass sie in ihrer Zeichnung im Maptask-Experiment den Strich hochzieht, im Sinne von: ich gehe hoch. Sowohl in Zeile 02 als auch in Zeile 04 wäre es dem Tagger nicht möglich, das geh als finite Verbform im Indikativ zu erkennen. Diese Instanzen würden fälschlicherweise als Imperative getaggt. 2.5.1.2.2 Abgrenzung von Adjektiven und Verben im Partizip Ein Problem bei der manuellen Korrektur der POS-Tags ist die Differenzierung zwischen Verbformen im Partizip Perfekt, die mit sein gebildet werden, und Adjektiven, die auf gebeginnen und mit Kopula stehen. Das STTS sieht für erstere das Tag VVPP vor, für Letztere das Tag ADJD. Weniger problematisch sind Fälle, in denen eine Form zwei verschiedene semantische Bedeutungen einnehmen kann: Je nach Kontext kann die Bedeutung als Verb oder als Adjektiv interpretiert werden. In Beispiel 49 und Beispiel 50 ist dies beispielsweise der Fall, wobei die Verbverwendung auch durch die Verwendung des Auxiliars haben angezeigt wird. Schwierig wird eine Differenzierung in solchen Fällen nur, wenn nicht genug Kontext gegeben ist, d. h. der erste Teil der Äußerung unterbrochen oder unverständlich ist und kein Auxiliar geäußert wird. Beispiel 49: Spielinteraktion Erwachsene, Transkript FOLK_E_00204_ SE_01_T_01_DF_01, 00: 00-00: 06 74 01 LM ich bin das geWOHNT ; Beispiel 50: Sprachbiografisches Interview, Transkript FOLK_E_00180_ SE_01_T_01_DF_01, 19: 34-19: 46 75 01 NL (.) hm ach SO, 02 NL und VORher habt ihr (.) dort gew[ohnt -] 03 AAC2 [ja ] DORT vorher wir vorher gewohnt ja. 74 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00204_SE_01_T_01_DF_01&cID=c2&wID=w4. 75 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00180_SE_01_T_01_DF_01&cID=c897&wID=w3111. <?page no="214"?> Theoretische Grundlagen 214 Die Differenzierung zwischen wohnen im Sinne von häuslich leben als Verb auf der einen Seite und gewohnt im Sinne von bereits erfahren als Adjektiv auf der anderen Seite ist schon allein dadurch gekennzeichnet, dass wohnen sein Partizip Perfekt mit dem Auxiliar haben bildet. Gewohnt in Beispiel 49 ist somit klar als Adjektiv zu klassifizieren und in Zeile 02 des Beispiels 50 klar als Verb. In Zeile 03 jedoch artikuliert der Sprecher kein Auxiliar bzw. keine Kopula. Aus dem Kontext wird klar, dass es sich um das Verb handeln muss, da der Sprecher vorher von seinem Umzug erzählte und auf die Frage von NL, die ebenfalls das Verb enthält, antwortet. Für ein automatisiertes POS-Tagging ist jedoch der Kontext irrelevant, zumindest, wenn er über den Beitrag hinausgeht. Eine automatisierte Zuordnung ist hier dementsprechend sehr fehleranfällig. Beispiel 51 demonstriert die Verwendung von gelangweilt als Adjektiv. Jemanden langweilen ist ein transitives Verb. Das Partizip Perfekt wird somit mit dem Auxiliar haben gebildet, z. B. er hat sie gelangweilt, nicht *er ist sie gelangweilt. Für die Differenzierung problematisch sind also intransitive Verben, die ihr Partizip mit sein bilden. Beispiel 51: Englisch-Nachhilfe, Transkript FOLK_E_00203_SE_01_T_02_ DF_01, 01: 02: 37-01: 02: 50 76 01 AB KANNST [du- ] 02 ME [war]n auch so (.) geLANGweilt , Ebenfalls eindeutig ist die Klassifikation in Fällen, in denen das Lexem nur eine semantische Interpretation, entweder als Verb oder als Adjektiv, zulässt - wie in Beispiel 52 - auch wenn es sich um intransitive Verben handelt. Beispiel 52: Meeting in einer sozialen Einrichtung, Transkript FOLK_E_00026_SE_01_T_02_DF_01, 01: 41: 00-01: 41: 15 77 01 AW papa ist zweitausendvier geSTORben an alkoholvergiftung. 02 HM °h (.) also so wie er des erZÄHLT hat war des jetzt glaab ich abber a net wirklich e thema- Beispiel 52 lässt nur die Interpretation als Verb zu, die Form gestorben existiert nicht als Adjektiv: *der gestorbene Mann. Die Verwendung eines Adjektivs wäre in diesem Fall morphologisch als der verstorbene Mann gekennzeichnet. 76 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00203_SE_01_T_02_DF_01&cID=c1399&wID=w3397. 77 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00026_SE_01_T_02_DF_01&cID=c1886&wID=w10459&textSize=200&contextSi ze=4. <?page no="215"?> Weitere Klassifikationsprobleme 215 Beispiel 53: Sprachbiografisches Interview, Transkript FOLK_E_00074_ SE_01_T_01_DF_01, 13: 03-13: 13 78 01 BWS2 i mein i bin dran geWÖHNT , 02 BWS2 DArum kann i jetzt nich genau sagen [wie sehr], 03 MF [JAja- ] 04 BWS2 (.) und °h mein PApa redet, 05 (0.28) 06 BWS2 also mehr SCHWÄbisch. Schwieriger wird es mit der Abgrenzung des Verbs sich gewöhnen zur umgangssprachlichen Verwendung in der Form ich bin es gewöhnt, wie in Beispiel 53. Dem schriftsprachlichen Standard entsprechend müsste es ich habe mich daran gewöhnt heißen, einerseits mit dem Auxiliar haben, andererseits mit dem reflexiv gebrauchten Pronomen mich. 79 Dass gewöhnt hier jedoch kein Adjektiv ist, zeigt sich daran, dass es nicht attributiv verwendet werden und auch nicht flektiert werden kann. Formen wie *die gewöhnte Umgebung sind auch im FOLK-Korpus nicht zu finden. An dieser Stelle ist es schwer zu bestimmen, ob es sich um einen von der Standardsprache abweichenden Gebrauch des Verbs handelt, oder einen von der Standardsprache abweichenden Gebrauch eines Adjektivs. In dem zurzeit 1.609.220 Token großen FOLK-Korpus lassen sich 20 Fälle von gewohnt sein, zwölf Fälle von gewöhnt sein und nur acht Fälle von sich gewöhnt haben finden. Problematisch wird eine Differenzierung auch immer dann, wenn es eine äquivalente Verwendung der Form entweder als prädikativ verwendetes Adjektiv oder als intransitives Verb gibt. Beispiel 54 soll dies veranschaulichen: Beispiel 54: Unterrichtsstunde in der Berufsschule, Transkript FOLK_E_00004_SE_01_T_01_DF_01, 05: 10-05: 15 80 01 GS ja is ni ganz so gut geLUNge , Hier kann es sowohl sein, dass es sich um die Partizip-Verwendung des Verbs gelingen handelt, oder aber um das prädikativ verwendete Adjektiv gelungen. Dieses Problem wird beispielsweise eingehend in der Dissertation von Möller (2015) diskutiert und ist dennoch nicht endgültig gelöst. 78 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00074_SE_01_T_01_DF_01&cID=c523&wID=w1907. 79 Etwas gewöhnt sein entspricht dem Standard im Österreichischen, nicht aber im Deutschen. 80 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00004_SE_01_T_01_DF_01&cID=c211&wID=w586. <?page no="216"?> Theoretische Grundlagen 216 2.5.1.3 Adverbien Adverbien waren bis dato eine Restekategorie im STTS, d. h. eine Kategorie, die verschiedensten Elementen zugeordnet wurde und nicht nur Adverbien im engeren Sinne. Dies führt zu zwei Problemen: Erstens ergeben sich Fehlkategorisierungen bei der automatisierten Annotation, da im Zweifelsfalle meist das Tag Adverb (ADV) vergeben wird. Zweitens erschwert die Zusammenfassung verschiedener Modifikatoren unter der Klasse Adverbien differenzierte Anfragen gesprochensprachlicher Phänomene an eine Datenbank der gesprochenen Sprache. Adverbien sind bei der Annotation deshalb so problematisch, weil sie Homonyme in verschiedenen Wortarten haben und ihre Stellung in Sätzen und Konstruktionen relativ frei ist. Die Abgrenzung von Adverbien zu Fokus-, Intensitäts-, Grad- und Modalpartikeln wurde schon in „Satz-interne Partikeln“ erläutert. Im Folgenden wird thematisiert, wie die Klasse der Adverbien im STTS definiert ist und welche anderen Vorschläge es zur Definition dieser Wortart in Bezug auf das STTS gibt. Dabei wird zum einen eine genaue Ausführung zu der Abgrenzung von Adverbien zu Adjektiven nicht berücksichtigt - detaillierte Ausführungen zu dieser Problematik finden sich in der Dissertation von Telschow (2014). Zum anderen wird auf eine besondere Abgrenzungsproblematik eingegangen, die in der Literatur kaum Beachtung findet: die Abgrenzung von Adverbien zu Verbpartikeln. Sie soll anhand einiger Beispiele veranschaulicht werden. 2.5.1.3.1 Das Adverb im STTS Die Definition der Klasse Adverbien ist im STTS sehr widersprüchlich. Einerseits werden bestimmte Unterarten der Adverbien ausgegliedert (PWAV, PAV) und die Kategorie Adverb sehr genau definiert, andererseits wird aus den Beispielen und Ausführungen deutlich, dass es sich bei der Klasse ADV um eine Rest-Kategorie für verschiedenste Wortarten handelt. Zunächst wird die Adverb-Kategorie folgendermaßen beschrieben: Als Adverbien werden nur reine, nicht von Adjektiven abgeleitete, nicht flektierbare Modifizierer von Verben, Adjektiven, Adverbien und ganzen Sätzen verstanden. Wortformen, die auch als attributive Adjektive auftreten und adverbial verwendet werden, die aber semantisch nichts (mehr) mit dem Adjektiv verbindet, und die meistens auch nicht prädikativ verwendet werden können, werden zu den Adverbien gezählt (z. B. nämlich). (Schiller et al. 1999, S. 56) <?page no="217"?> Weitere Klassifikationsprobleme 217 Mit einbezogen in diese Kategorisierung werden lokale, temporale, modale und kausale Adverbien, jedoch auch Abtönungspartikeln, z. B.: „er ist ja/ ADV schon da“ (ebd., S. 74), Ordinalzahlen, Multiplikativzahlen und abgekürzte Formen wie beispielsweise „z. B.“ (ebd., S. 56). Aus dem Zusammenhang und den Beispielen geht hervor, dass auch andere Partikeln im Mittelfeld, z. B. Fokus- und Intensitätspartikeln als Adverbien getaggt werden sollen. Interessanterweise gibt es eine eigene Klasse für die Kardinalzahlen (CARD), nicht jedoch aber für die Ordinalzahlen, die als Adverbien getaggt werden sollen. Diese sehr weit gefasste Definition der Adverbien macht die Klasse zu einer Art Rest-Kategorie, mit der alle Elemente annotiert werden, die auf irgendeine Weise modifizieren, mit Ausnahme der Adjektive, der Negationspartikel nicht (PTKNEG) und der Pronominaladverbien. Hirschmann (2011) stellte fest, dass sich in Bezug auf die Kategorie ADV im STTS zwei grundlegende Probleme ergeben: a) Syntaktisch gleichwertige Einheiten werden unterschiedlichen Wortartenkategorien zugeordnet. b) Die unterschiedlichen als „ADV“ annotierten Einheiten repräsentieren syntaktisch eine äußerst heterogene Klasse. (ebd., S. 160) Seine Ausführungen bezüglich der Klassifikation und Differenzierung der Modifikatoren im Deutschen ist für diese Arbeit von besonderem Interesse, da er die Wortartenklassifikation speziell im Fokus der Annotation von Korpora behandelt. Er schlägt beispielsweise verschiedene Änderungen an der Definition der Klasse ADV im STTS vor. Zum einen soll die heterogene Klasse ausdifferenziert werden: Hier werden die Klassen „Adverb“, „Partikel“ und „Modalwort“ syntaktisch motiviert. Zum einen werden hierbei Wörter, die syntaktisch-funktional selbstständig, also funktions- oder satzgliedfähig sind, von solchen getrennt, die dies nicht sind. Diese Eigenschaft lässt sich einfach durch Topikalisierung testen (Vorfeldprobe) - sofern das Wort alleine im Vorfeld stehen kann, ist es (nach der Terminologie von Admoni 1982 und Helbig/ Buscha 2001) Adverb oder Modalwort; sofern dies nicht der Fall ist, handelt es sich um eine Partikel. Die Stellungseigenschaft der Partikeln ist, dass sie fest an eine bestimmte Position innerhalb einer Mutterphrase gebunden sind und nur mit dieser gemeinsam permutiert werden können. (Hirschmann 2011, S. 165) Inwiefern diese Ausdifferenzierung in einem STTS für gesprochene Sprache operationalisierbar ist, wird im Kapitel 3.7.4 „Erste Änderungen am Tagset und den Guidelines“ dargelegt. <?page no="218"?> Theoretische Grundlagen 218 Zum anderen spricht er mit Punkt a) die Abgrenzungsproblematik der Adverbien von Adjektiven an. Auch das STTS verweist darauf, dass die Abgrenzung in einigen Fällen problematisch sein kann, „nämlich in den Grenzfällen, bei denen adverbiale und prädikative Lesarten zwar homonym sind, ihre Semantik aber verschiedene Lexikoneinträge rechtfertigt“ (Schiller et al. 1999, S. 57). Im STTS wird diese Entscheidung listenbasiert getroffen. Die genaueren Ausführungen, warum und auf welcher Basis diese Differenzierung entstanden ist, fehlen im STTS. Die Ausführung hierzu ist abgebrochen: Der in den Guidelines angefangene Satz ist unvollständig. Hirschmann (2015) schlägt keine listenbasierte Differenzierung vor, sondern eine grundsätzlich auf Syntax basierende Unterscheidung. Er verwirft dabei eine Differenzierung anhand des Kriteriums Flektierbarkeit. Er zeigt auf, dass sich die Wortformen vielleicht und wahrscheinlich in vielen Verwendungsweisen semantisch und syntaktisch gleich verhalten, und bezeichnet es als problematisch, sie zwei verschiedenen Wortartenklassen zuzuordnen (ebd., S. 58). Im Folgenden schlägt er eine verwendungsbasierte Differenzierung zwischen Wörtern mit adnominalem Bezug und mit adverbialem Bezug vor. Seine Definition ist schließlich wie folgt: Semantisch-funktional sind Adjektive durch die Eigenschaft geprägt, Nomen zu modifizieren. […] Eine syntaktische Definition des Adjektivs kann also lauten: Befindet sich ein Element in der pränominalen oder prädikativen Struktur oder ist in diese ohne semantische Veränderung überführbar, handelt es sich um ein Adjektiv. (ebd., S. 59 f.) Diese Differenzierung findet sich bis dato in keinem Korpus. Rehbein/ Hirschmann konnten jedoch zeigen, dass eine solche Differenzierung - gemeinsam mit einer genaueren Klassifikation der Klasse der Adverbien im STTS in Modalpartikeln, Intensitätspartikeln, Fokuspartikeln, Partikeln eines Mehrwortlexems und Adverbien - dazu beitragen kann, das statistische Parsing zu verbessern (Rehbein/ Hirschmann 2014a). Gegen eine solche Differenzierung spricht, a) dass eine solche Klassifikation ebenso umstritten ist (siehe dazu auch Telschow 2014), b) die Differenzierung zwischen Adjektiv und Adverb dem Tagger bisher keine großen Probleme bereitet und c) die Nutzer des Korpus eine traditionelle Klassifikation dieser Elemente erwarten. Zudem erleichtert sie den Vergleich mit anderen (beispielsweise romanischen) Sprachen, in denen prädikativ und adverbial gebrauchte Adjektive weiterhin flektieren und daher nur als Adjektiv klassifiziert werden können (Eichinger 2007, S. 145). <?page no="219"?> Weitere Klassifikationsprobleme 219 Eine Subkategorie der Adverbien, die jedoch im STTS hierarchisch auf der gleichen Ebene angesiedelt sind wie die Adverbien, sind die Pronominaladverbien (PAV). Im STTS werden Pronominaladverbien nicht nur über ihre Morphologie, sondern auch über ihre Funktion abgegrenzt: Als Pronominaladverbien wird ein Klasse von Adverbien bezeichnet, die sich aus einer Präposition und einem Pronominalstamm zusammensetzen. Sie treten im Satz anstelle einer Präpositionalphrase als Adverbialbestimmung oder Präpositionalobjekt auf. (Schiller et al. 1999, S. 54) Auch hieraus ergeben sich zwei Probleme: Erstens wird nicht genauer darauf eingegangen, wie ein Pronominalstamm zu definieren ist, zweitens lässt sich diese Kategorie nur schwer von Konjunktionaladverbien bzw. Konnektivpartikeln abgrenzen, die wiederum als kausale Adverbien (Duden 2009, S. 576) mit der Klasse Adverb getaggt werden. Der Duden bringt diese Problematik auf den Punkt: Adverbien haben Affinitäten zu anderen Wortarten. So berühren sich Konjunktionaladverbien (z. B. deswegen) mit den Konjunktionen (weil) und mit den Präpositionen (wegen). Viele Adverbien versehen Pro-Funktionen und ähneln damit den Pronomen (z. B. darauf, worauf). Manche haben hinweisenden Charakter und kommen hierin den Demonstrativa nahe („darauf habe ich gewartet“). Sprachgeschichtlich können Adverbien zu Präpositionen, Konjunktionen, Subjunktionen und verschiedenen Partikeln übergehen, was nicht selten zu Abgrenzungsproblemen führt. (ebd., S. 570) Auch auf der Internetplattform Grammis des Instituts für Deutsche Sprache (2017) wird aus den Einträgen des terminologischen Wörterbuchs deutlich, dass der Begriff Pronominaladverb mit den Begriffen Konjunktionaladverb, Präpositionaladverb sowie Adverbkonnektor synonym verwendet wird. Um diese Abgrenzungsproblematik zu verdeutlichen, sollen hier einige Verwendungsbeispiele der Wortform daher aufgeführt werden. Beispiel 55: Schlichtungsgespräch Stuttgart 21, Transkript FOLK_E_00068_ SE_01_T_09_DF_01, 01: 47: 54-01: 48: 21 81 01 FL wir reden hier also von insgesamt NEUN (.) zulaufgleisen die dem d (0.23) betriebskonzept unterstellt sin,= 02 FL =wovon eines aber mit einem neuen tunnel durch den pragsattel zu realisiern is, 03 FL °h (.) mit einem entsprechen auf ausbau der zulaufgleise ÜBER den bahnhof feuerbach und zuffenhausen hinaus. 81 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00068_SE_01_T_09_DF_01&cID=c743&wID=w5121&textSize=200&contextSi ze=4. <?page no="220"?> Theoretische Grundlagen 220 04 FL °h [ daher meine ][FRAge, ] 05 HG WAS[wolle sie, ] 06 HG [WAS (woll)-] 07 HG was wollen sie damit [SAgen.] 08 FL [JA, ] 09 FL meine frage (.) an äh die (.) KRItiker von stuttgart einunzwanzig, 10 FL °h WELche (.) infrastruktur sollen wir nun ihren konzepten zugrunde legen. Beispiel 56: Meeting in einer sozialen Einrichtung, Transkript FOLK_E_00022_ SE_01_T_04_DF_01, 01: 50: 04-01: 50: 08 82 01 NG (nee) umSONST bin ich nich da- 02 NG sagen wir_s mal SO wei[l.] 03 SZ [HM]_hm, 04 HM [HM_hm, ] 05 NG [ DAher- ] 06 (0.25) 07 HM ((schmatzt)) °h 08 NG nee es PASST eigenich ganz gut- Beispiel 55 zeigt die Verwendung von daher als Konjunktionaladverb, d. h. als kausales Adverb, das die Folgeäußerung mit der Vorgängeräußerung verknüpft. In Beispiel 56 ist eine Klassifikation des daher äußerst schwierig, da es parenthetisch zwischen zwei Äußerungen steht und nicht in eine Konstruktion eingebunden ist. Man könnte argumentieren, dass es ein Pronominaladverb ist, da bereits durch weil in Zeile 02 eine Konjunktion gegeben ist. Genauso könnte man jedoch argumentieren, dass es sich bei dem daher um eine Ersetzung der Subjunktion weil mit einem Konjunktionaladverb handelt. Beispiel 57: Tischgespräch Studierende, Transkript FOLK_E_00119_ SE_01_T_02_DF_01, 36: 53-36: 59 83 01 TI KRAS[S-] 02 RW [hm]_hm, 03 TI <<flüstert> ach du (meine) echt > 04 RW ja also von DAher - 05 (0.64) 06 TI na ja- 82 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00022_SE_01_T_04_DF_01&cID=c463&wID=w2517&textSize=200&contextSi ze=4. 83 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00119_SE_01_T_02_DF_01&cID=c672&wID=w2984&textSize=200&contextSi ze=4. <?page no="221"?> Weitere Klassifikationsprobleme 221 100 von 144 Instanzen, d. h. mehr als zwei Drittel von daher im FOLK-Korpus sind begleitet von einem vorangestellten von. Beispiel 57 zeigt ein typisches Beispiel für eine Kookkurrenz dieser zwei Wortformen. Die auffällige Häufigkeit dieser Kookkurrenz zeigt, dass es sich um eine im Sprachgebrauch eingeschliffene Wortverbindung handelt. Der Ausdruck lässt zwei Interpretationen zu. 1) Eine Interpretation im Sinne von von da her als adverbiale Bestimmung eines Ortes und 2) im Sinne von deswegen oder aus diesem Grund als kausaler Konnektor. Die erste Verwendung würde man im deiktischen Gebrauch als Pronominaladverb klassifizieren, 84 Letzteres als Konjunktionaladverb. Da in vielen Fällen nicht eindeutig bestimmbar ist, ob es sich um die eine oder andere Verwendung handelt, ist eine eindeutige Klassifikation nicht möglich. Schon im Vorfeld dieser Arbeit wurde daher beschlossen, Pronominaladverbien als Kategorie aus den Klassen des STTS herauszunehmen und sie stattdessen in ihrer Funktion als Adverbien als ADV zu taggen (Westpfahl/ Schmidt 2013). Im Folgenden wird noch auf eine Abgrenzungsproblematik eingegangen, die in der Annotation immer wieder zu Problemen führt und in der Literatur unterrepräsentiert ist, namentlich die Abgrenzung zwischen Verbpartikeln und Adverbien. 2.5.1.3.2 Verbpartikel oder Adverb Dieses Problem stellt sich sowohl bei der manuellen als auch bei der automatisierten POS-Annotation bei der Differenzierung von abgetrennten Verbzusätzen von Partikelverben, Präpositionen, Adjektiven und Adverbien. Syntaktisch trennbar sind die Partikelverben insofern, als sie in den finiten Formen im Verberstsatz und im Verbzweitsatz die Verbalklammer bilden. […] Wenn man, wie in dieser Grammatik, den Begriff der Verbpartikel sehr weit fasst, nämlich alle betonten Erstglieder komplexer Verben, die mit ihrem Zweitglied nur in bestimmten Vorkommensweisen fest verbunden sind, einschließt, dann gehören folgende Typen einfacher und komplexer Erstglieder dazu ( ↑ 1328-1337): - Verbpartikeln mit homonymen Präpositionen wie an, ab, auf, aus, mit, nach, zu - Verbpartikeln mit homonymen Adverbien wie her, hin, herüber, hinauf, weg, empor - Verbpartikeln mit homonymen Adjektiven wie fest, frei, hoch - Verbpartikeln mit homonymen Substantiven wie preis, stand (Duden 2009, S. 669) 84 Diese Verwendung ist sehr selten, speziell in dieser Schreibweise. Dennoch lassen sich in der DGD Belege finden, in denen die Interpretation von daher als adverbiale Bestimmung des Ortes naheliegend ist, wenn sich auch nicht eine andere Interpretation als Konjunktionaladverbs ausschließen lässt. Solche Fälle sind trotz Einbezug des Kontexts ambig. <?page no="222"?> Theoretische Grundlagen 222 Letztere kommen im FOLK-Korpus nur selten vor, erstere drei Kategorien sind jedoch häufiger vertreten. Im STTS werden solche abgetrennten Verbzusätze als Verbzusatz-Partikel (PTKVZ) klassifiziert. Wie die Definition schon nahelegt, existieren homonyme Formen dieser Verbpartikeln auch in den Klassen der Präpositionen APPR (Präposition; Zirkumposition links), APPO (Postposition) und APZR (Zirkumposition rechts), in der Klasse der Adverbien (ADV) und der adverbialen oder prädikativen Adjektive (ADJD). Darauf weist auch der Guideline-Text bezüglich der PTKVZ hin: Das Tag PTKVZ umfaßt sowohl „echte“ trennbare Verbpräfixe wie an- [kommen], ein-[kaufen], um-[formen] als auch nominale (oder ähnliche) Verbzusätze wie statt[finden], teil[nehmen] oder überhand[nehmen], fehl[schlagen]. Zu den Verbzusätzen werden auch solche Formen, die als Adverb, Adjektiv oder Postposition auftreten können, gerechnet. (Schiller et al. 1999, S. 70) Da Partikelverben immer in einem Wortbildungsprozess entstanden sind, haben die Partikeln in vielen Fällen noch immer die Semantik ihrer Homonyme in anderen Wortklassen. Eine klare Differenzierung beispielsweise zwischen Adverb und Verbpartikel ist in vielen Fällen schwierig. Zunächst ein Beispiel, bei dem die Klassifizierung als Verbpartikel eindeutig ist. Beispiel 58: Berufsschulunterricht, Transkript FOLK_E_00001_SE_01_T_01_ DF_01, 03: 00-03: 13 85 01 LB isch hab ihne des ganze NOCH mal kopiert, isch hab ihne auch schon ne kleine hilfestellung gegeben mit FARbe, 02 (0.29) 03 LB isch hoff_s kommt einischermaßen RAUS , Rauskommen ist in diesem Kontext ganz klar ein lexikalisiertes Partikelverb, dessen Bedeutung als Ganzes als sichtbar werden paraphrasiert werden könnte. Die Verbpartikel in Zeile 03 kann in diesem Kontext nicht mehr als Richtungsadverb gedeutet werden und lässt sich auch nicht wie ein Adverb ins Vorfeld stellen. Beispiel 59: Spielinteraktion zwischen Erwachsenen, Transkript FOLK_E_00021_SE_01_T_03_DF_01, 38: 51-38: 57 86 01 CH (.) JA ja (.) pascal. 02 (0.24) 03 XM1 ((lacht)) 04 CH du bist (.) du bist eh RAUS . 05 MT ((lacht)) 85 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00001_SE_01_T_01_DF_01&cID=c113&wID=w326. 86 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00021_SE_01_T_03_DF_01&cID=c197&wID=w443. <?page no="223"?> Weitere Klassifikationsprobleme 223 In diesem Beispiel würde man raus als Adverb deuten. Raus ist in diesem Kontext als außerhalb des Spiels zu interpretieren. Des Weiteren ist es prinzipiell vorfeldfähig (raus bist du) und entspricht somit den Eigenschaften eines Adverbs. Die Verbpartikel, als Teil eines Verbs, muss in einer Verbzweitkonstruktion in der rechten Klammer realisiert werden und kann nicht im Vorfeld stehen. Besonders schwierig gestaltet sich die Differenzierung in Fällen, in denen sich die fragliche Wortform sowohl als Adverb oder aber als Verbpartikel interpretieren lässt, wie in Beispiel 60: Beispiel 60: Berufsschulunterricht, Transkript FOLK_E_00005_SE_01_T_03_ DF_01, 01: 15: 18-01: 15: 25 87 01 LB ISCH äh: - 02 LB beDANge mich bei ihnen zunächscht emal,= 03 LB =wir gehen jetzt RAUS in die werkstatt- Rausgehen hat einen Lexikoneintrag im Duden und ist ein lexikalisiertes Partikelverb. In diesem Falle kann man raus jedoch auch als Richtungsadverb interpretieren. Es lässt sich ins Vorfeld stellen und ist auch in seiner richtungsweisenden Semantik interpretierbar. Für solche Fälle ist die Klassifikation nicht eindeutig zu bestimmen. Die STTS-Guidelines sind für eine Differenzierung dieser Wortarten nicht sehr hilfreich, denn sie geben keinen Anhaltspunkt für einen Umgang mit Zweifelsfällen. Ein weiteres großes Problem bei der Annotation bereiten vor allem solche Fälle, in denen kein Verb in unmittelbarer Nähe geäußert wird. Aus den Beispielen der Guidelines, z. B. zur Abgrenzung von anderen Kategorien, geht hervor, dass auch Elemente als Verbpartikeln getaggt werden, bei denen kein Verb in der sie umgebenden Struktur vorhanden ist. Ein solches Verfahren hat Implikationen für ein statistisch basiertes Neutraining und für eine automatisierte Annotation. Auf diese Art und Weise wird tendenziell jedem Adverb und jeder Präposition, die ohne ein Verb vorkommt, das Tag PTKVZ anstelle der Tags für Präpositionen oder Adverbien vergeben. In diesem Sinne wäre die Annotation des hoch in Beispiel 61 in Zeile 04 als PTKVZ korrekt, da aus dem Kontext ersichtlich wird, dass es sich um das Verb hochzeichnen handelt. 87 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00005_SE_01_T_03_DF_01&cID=c372&wID=w1003. <?page no="224"?> Theoretische Grundlagen 224 Beispiel 61: Maptask, Transkript FOLK_E_00095_SE_01_T_01_DF_01, 07: 25-07: 31 88 01 SOE4 musst du halt WAAgerecht rüberzeichnen, 02 SOE3 ja HAB ich, 03 (0.48) 04 SOE4 und da wieder senkrecht HOCH- Diese Klassifikation ist in theoretischer Hinsicht insofern schwierig, da sie davon ausgeht, dass immer ein Verb im Hintergrund steht, auch wenn es nicht offen geäußert wird. Es ist fraglich, ob man davon ausgehen kann, dass bei jeder Äußerung ein Verb mitgedacht wird, wie beispielsweise in Beispiel 62. Beispiel 62: Greifvogelschau, Transkript FOLK_E_00262_SE_01_T_01_DF_01, 04: 58-05: 13 89 01 OB boah is DAT ne harte arbeit. 02 (1.42) 03 OB da HIN , 04 (0.29) 05 OB JA, jetz haut er AB. In Zeile 03 des Beispiels 62 äußert der Falkner scheinbar zusammenhanglos ein da hin. Hier wäre es notwendig, den multimodalen Kontext der Äußerung einzubeziehen, da sonst nicht nachvollziehbar ist, was mit dieser Äußerung gemeint ist. Es könnte sein, − dass er dem Gegenüber bedeutet, an eine bestimmte Stelle zu schauen, − dass er dem Vogel einen Befehl gibt, an eine bestimmte Stelle zu fliegen oder aber, − dass er dem Vogel befiehlt, sich an eine bestimmte Stelle zu setzen, zu stellen etc. Man kann nun argumentieren, dass es egal ist, ob hinsetzen, hinschauen, hinfliegen, hingucken etc. gemeint ist, da in jedem Falle ein Verb hinzugedacht werden kann. Andererseits ist es möglich, diese Äußerung im Kontext zu verstehen, ohne dass ein Verb geäußert wird. Hin reicht als deiktisches Adverbial für die Kommunikationshandlung vollkommen aus. Zudem nimmt die Tokenisierung der Transkribent*innen hier Einfluss auf die Interpretation. Hätte er oder sie dahin transkribiert anstelle von da hin, was bei dem Anhören der Au- 88 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00095_SE_01_T_01_DF_01&cID=c417&wID=w1202. 89 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00262_SE_01_T_01_DF_01&cID=c281&wID=w666. <?page no="225"?> Weitere Klassifikationsprobleme 225 dioaufnahme durchaus Sinn ergibt, wäre die Wortform dahin als Pronominaladverb bzw. Präpositionaladverb zu interpretieren. Ein weiteres Problem entsteht auf der Ebene der Rechtschreibung. In vielen Fällen lassen sich keine Lexikoneinträge für die Partikelverben finden, die einem im Korpus begegnen, wie beispielsweise für rumlenken in Beispiel 63. Beispiel 63: Fahrschule, Transkript FOLK_E_00167_SE_01_T_02_DF_01, 28: 42-28: 58 90 01 RK jetz guck_i na LINKS, 02 RK nach RECHTS,= 03 RK =und JETZ lass ich die kupplung kommen und lenke rum . 04 (0.92) 05 RK RUM. Rechtschreibung basiert auf Konventionen. Es ist fraglich, ob solche Elemente anders behandelt werden müssen, nur weil solche Formen im schriftsprachlichen Gebrauch im Vergleich zu etablierten Partikelverben getrennt geschrieben werden. 91 Wortbildungsprozesse auf dieser Ebene sind immer noch produktiv und die Klasse der Partikelverben somit prinzipiell offen. Beispiel 63 zeigt jedoch noch ein weiteres Problem auf. Der Fahrschullehrer RK wiederholt die Verbpartikel rum (Zeile 05). Das rum selbst entspricht der Aufforderung an den Fahrschüler, sofort stärker zu lenken. In gewisser Weise müsste hier also, sollte ein Verb verwendet werden, dieses im Imperativ stehen. Hier wird jedoch nicht lenke rum oder einfach nur lenke geäußert, sondern lediglich die Richtung genannt, in die sich der Fahrschüler begeben soll. Zudem liegt es nahe, es als Wiederholung des in Zeile 03 als Adverb gebrauchten rum zu interpretieren. Nach den Regeln des STTS müsste jedoch dieses zweite rum (in Zeile 05) als Verbpartikel getaggt werden, obwohl es an dieser Stelle die Funktion eines Adverbs hat. Zudem sind die Guidelines in ihren Regeln und Anwendungsbeispielen teils inkonsistent. Ein Beispiel dafür ist die Differenzierungshilfe für Adverbien und Verbpartikeln beim gehäuften Vorkommen mehrerer Partikeln und/ oder Adverbien (Schiller et al. 1999, S. 71). An dieser Stelle wird ausgeführt, dass das ein Element entweder als Verbzusatzpartikel oder als Adverb zu taggen ist - je nachdem ob es mit dem entsprechenden Verb ein Präfixverb ergibt bzw. mit dem entsprechenden Verb nicht lexikalisiert ist. Weiterhin wird ein Test empfohlen: Ist eine Topikalisierung des Elementes möglich, 90 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00167_SE_01_T_02_DF_01&cID=c216&wID=w654. 91 Gespräche über Verbpartikel, Adverbien und Präpositionen mit Hardarik Blühdorn und Swantje Westpfahl im Jahr 2015 am Institut für Deutsche Sprache, Mannheim. <?page no="226"?> Theoretische Grundlagen 226 handele es sich um ein Adverb, ist dies nicht möglich, um einen abgetrennten Verbzusatz. Hier stellen sich gleich mehrere Fragen. Erstens, woran macht man die Lexikalisierung einer solchen Konstruktion fest? Wie oben bereits beschrieben, ist eine Orientierung an der Rechtschreibung nur schwerlich als Kriterium akzeptierbar. Zweitens ist in Fällen wie im oben genannten Beispiel 62 nicht einmal klar, welches das entsprechende Verb ist. Es bleibt offen, wie in solchen Fällen entschieden werden soll. Da es sich um eine elliptische Struktur handelt, ist nicht klar, ob es sich um ein lexikalisiertes Präfixverb handelt oder ob man eine Topikalisierungsprobe anwenden soll. Da Partikelverben immer in einem Wortbildungsprozess entstanden sind, haben die Partikeln in vielen Fällen noch immer die Semantik ihrer Homonyme in anderen Wortklassen. Es konnte gezeigt werden, dass eine klare Differenzierung zwischen Adverb und Verbpartikel in vielen Fällen schwierig ist. Es wird deutlich, dass bei einer Aktualisierung der Guidelines diesem Problem Rechnung getragen werden muss, da die vorliegenden STTS-Guidelines keine klare Hilfestellung zur Abgrenzung bieten. Weiterhin muss eine pragmatische Lösung gefunden werden, da auch auf theoretischer Ebene keine Hilfestellung in Form von Literatur zu diesem Thema zu finden ist. 2.5.2 Probleme beim Taggen spezifisch gesprochensprachlicher Phänomene Ein Tagset muss so konstruiert sein, dass alle Items eines Korpus restlos annotiert werden können. Dies bedeutet, dass nicht nur Wortarten im engeren Sinne annotiert werden, sondern auch alle anderen Elemente eines Korpus. So beinhaltet das STTS beispielsweise Kategorien für Interpunktion, aber auch für fremdsprachliches Material oder Kompositions-Erstglieder. Letztere Kategorien sind auch für das Tagging von gesprochener Sprache relevant, Interpunktion ist im FOLK-Korpus nicht vorhanden und daher irrelevant. Dafür treten andere Phänomene in Erscheinung, die in den STTS-Guidelines nicht oder nur teilweise berücksichtigt sind. Teilweise lassen sie sich in bereits bestehende STTS-Kategorien einordnen, teilweise müssen neue Klassen für sie geschaffen werden. Im Folgenden werden diese Phänomene kurz an Beispielen aus dem Korpus dargelegt. 2.5.2.1 Nichtwörter (XY) Das STTS beinhaltet die Kategorie „XY: Nichtwörter“ (Schiller et al. 1999, S. 74). Sie ist vorgesehen „bei größeren Symbolgruppen, Nichtwörtern sowie Kombinationen aus Ziffern und Zeichen, die sich nicht als CARD oder ADJA einordnen lassen“ (ebd.). Kombinationen aus Ziffern und Zeichen sind im <?page no="227"?> Weitere Klassifikationsprobleme 227 FOLK-Korpus nicht vorhanden, wohl aber Elemente, die sich unter dem Begriff Nichtwort subsumieren lassen. Im STTS bleibt die Definition des Begriffs Nichtwort offen. Auch in der Literatur wird die Frage, wann ein Element der gesprochenen Sprache als Wort bezeichnet werden kann, kaum diskutiert. Es gibt wenige Arbeiten zum Status von Interjektionen (Reber/ Couper-Kuhlen 2010; Gardner 2001) oder zu aberranten Interjektionen (Jefferson 1978). Diese beleuchten jedoch nur Gesprächspartikeln in Hinsicht auf ihren interaktionalen Gehalt. Reber/ Couper-Kuhlen befassen sich mit der Frage, wann Interjektionen den Status von Lexemen erhalten, und plädieren dafür, alle interaktional relevanten Lautobjekte in die Untersuchung von Interjektionen mit einzubeziehen: Interjektionen und erst recht Lautobjekte sind bisher von der Sprachwissenschaft aufgrund ihrer vermeintlich fehlenden Integration ins Sprachsystem eher stiefmütterlich behandelt worden. Mit der vorgelegten Auswahl an Fallstudien sollte verdeutlicht werden, dass dies zu Unrecht geschehen ist: wenn man Lautobjekte auf der Gesprächsebene betrachtet, sind sie in ihrer ganzen Lautlichkeit und Körperlichkeit sehr wohl integriert und zwar in eine Grammatik des Redens im Gespräch. An bestimmten Stellen im Gespräch dürfen solche Lautobjekte nicht fehlen. Somit kann für ein- und allemal mit ihrem Status als „Dazwischengeworfenes“ abgerechnet werden. Sie sind nicht dazwischengeworfen, sondern in ihrer sequenziellen Gesprächsumgebung im hohem Maße systematisch und funktional. (Reber/ Couper-Kuhlen 2010, S. 91) Jefferson (1978) befasst sich mit aberranten Interjektionen und behauptet, dass diese eine sehr bestimmte Funktion im Gespräch haben, namentlich ihre Antwort im Kontext als offensichtlich zu markieren. Aus ihren Fallbeispielen wird jedoch deutlich, dass die Gesprächsteilnehmer diese Antwort als alles andere als offensichtlich einschätzen. Sie befasst sich allein mit solchen aberranten Elementen, die als Antwortpartikeln fungieren. Andere Elemente, die nicht als Lexeme zu identifizieren sind, finden bei ihr keine Betrachtung. Elemente der gesprochenen Sprache, die weder als Lexeme noch in irgendeiner Weise als konventionalisierte Ausdrücke bezeichnet werden können und die nicht die Funktion als Gesprächspartikel einnehmen können, werden aus linguistischer Perspektive nicht betrachtet. Studien der kognitiven Psychologie oder der Psycholinguistik befassen sich mit dem Thema Nichtwörter allein aus geschriebensprachlicher Perspektive. Pseudowörter und Nichtwörter werden vor allem im Kontext der Verarbeitung im Lese-Prozess behandelt (Taylor/ Rastle/ Davis 2013) oder in Hinblick auf Erinnerungsleistung (Stark/ McClelland 2000). Die meisten Studien zu diesem Thema basieren auf Experimenten in Labor-Settings. Die Verarbeitung solcher Elemente, die nicht als Lexeme oder Gesprächspartikeln zu bezeichnen sind, wird dabei nicht thematisiert. <?page no="228"?> Theoretische Grundlagen 228 Es liegt daher nahe, eine Differenzierung von der anderen Seite anzugehen und Elemente zu identifizieren, die sich nicht als Wort im engeren Sinne bezeichnen lassen, d. h. von einer Definition von Wort auszugehen und daran festzumachen, welche Elemente darunterfallen oder nicht. Das Metzler Lexikon Sprache definiert ‚Wort‘ folgendermaßen: Wort (auch: Lex, Lexem, Formativ. Engl. word, frz. mot) Intuitiv gut erfassbare, doch theoret. schwer zu definierende Grundeinheit des Wortschatzes. Die wichtigsten bisher vorgeschlagenen Definitionskriterien sind: (a) orthograph. Kriterien: Als W. gilt eine Buchstabensequenz, die zwischen zwei Leerzeichen (Spatien) auftritt und selbst kein Leerzeichen enthält. Diese Definition kann jedoch nur in verschrifteten Spr. angewendet werden und dort auch nur auf Spr. mit alphabet. Schriftsystem, das Leerzeichen verwendet (in Europa erst seit ca. 1000 n. Chr.). Nach diesem Kriterium wären z. B. im Dt. Hört auf! oder Komm mit! jeweils zwei W. Aufhören! oder Mitkommen! aber jeweils nur ein W. Letztlich wird der Wortstatus hier von veränderbaren Regeln der Getrennt- und Zusammenschreibung abhängig gemacht (b) Morpholog. Kriterien: W. ist eine minimale freie Form, d. h. eine kleinste Einheit die selbständig anstelle eines Satzes auftreten kann, z. B. als Antwort auf eine Frage: Nach diesem Kriterium kann eine Reihe von W. nicht als solche gewertet werden, wie z. B. Konjunktionen und bestimmte Partikeln. Außerdem können W. ihrerseits wieder aus W. zusammengesetzt sein, wie z. B. Fremdsprache oder Hals-Nasen-Ohren-Arzt. (c) Semant. Kriterien: W. sind die kleinsten Einheiten, denen eine Bedeutung zugeordnet werden kann. Dieses Kriterium erfasst jedoch nicht W., sondern Morpheme, genauer gesagt: freie Morpheme als kleinste selbständige bedeutungstragende sprachl. Einheiten. (d) Syntakt. Kriterien: W. sind die kleinsten sprachlichen Einheiten, die innerhalb eines Satzes verschiebbar sind. Häufig können W. innerhalb eines Satzes jedoch nur zusammen verschoben werden, wie etwa Artikel, Adjektiv und Nomen einer Nominalphrase. (Glück (Hg.) 2010, S. 768) Im FOLK-Korpus gibt es verschiedene Elemente, die dieser Definition in verschiedenen Punkten nicht entsprechen. Das POS-Tagging basiert auf den normalisierten Daten des FOLK-Korpus. Bereits in der Normalisierung wird unterschieden zwischen transkribiertem Stottern (Beispiel 64) und nicht-lexikalisierten Lauten (Beispiel 65), die jeweils in der Normalisierung andere Dummys erhalten. Solche Elemente sind mit keinen der oben genannten Kriterien zu erfassen. Im Gegensatz zu Punkt (a) handelt es sich häufig nicht einmal um eine Buchstabensequenz, sondern nur um einzelne geäußerte Laute, die im Transkript als einzelne Buchstaben dargestellt sind und auf der Normalisierungsebene mit einem Dummy versehen wurden. Zudem ist es generell problematisch, ein orthografisches Kriterium auf die Transkription gesprochener Sprache anzuwenden, wie ja auch in der Definition herausgestellt wurde. Transkribiertes Stottern und nicht-lexikalisierte Laute können aber auch nach Kriterium (b) nicht erfragt werden und wichtiger noch, sie scheinen im Sinne von Kriterium (c) keine eigene Bedeutung zu tragen. Wei- <?page no="229"?> Weitere Klassifikationsprobleme 229 terhin sind sie auch nicht im Sinne von Kriterium (d) im Satz verschiebbar - wobei es wiederum problematisch ist, in einem Korpus gesprochener Sprache von Sätzen auszugehen. Beispiel 64: Meeting in sozialer Einrichtung, Transkript FOLK_E_00022_ SE_01_T_03_DF_01, 01: 30: 25-01: 30: 37 92 01 SZ un offiziell WEISS ich des ja nich.= 02 SZ =un die mutter wollt AU net dass ich ihm des jetzt sag,= 03 HM ((atmet ca. 2.15 Sek. aus)) 04 SZ =weil °h ähm sie_s gefühl hatte 05 AW dass er sisch ver[RAten fühlt.] 06 SZ [es es f_f ] _f_f_fällt ihm eh_eh so schwer un des gegenüber der mama hat er_s halt jetz so (0.22) rausgeDRUCKST, Beispiel 65: Schlichtungsgespräche Stuttgart 21, Transkript FOLK_E_00070_ SE_01_T_11_DF_01, 56: 26-57: 17 93 01 HG äh w die frage ob die bahn die (0.25) TUNnelkosten richtig berechnet hat? 02 HG °h oder zu GÜNstig,= 03 HG =ni_wahr infolgedessen eben zu °h (.) äh f äh w ähm äh °h äh beTRÄgen kommt,= 04 HG =nich wahr die °h äh s (.) im krassen widerspruch zu dem stehen °h äh was was sie SAgen.= 05 HG =nich wahr dass es eben im wesentlichen noch wesentlich TEUrer is, 06 HG °h weil die falsch geRECHnet haben. Sowohl Stottern (wie in Beispiel 64) als auch nicht-lexikalisierte Laute (wie in Beispiel 65) sind meist unwillentlich und unwissentlich hervorgebracht. Solche Laute haben keinen semantischen Gehalt und tragen, ungleich den Interjektionen, auch pragmatisch nichts zur Interaktion bei. Es scheint somit gerechtfertigt, sie als Nichtwörter zu bezeichnen. Nicht-lexikalisierte Laute sind nur sehr schwer von Abbrüchen abzugrenzen, da es Interpretationssache ist, ob die Laute allein Planungsschwierigkeiten signalisieren, ähnlich wie Hesitationspartikeln, oder aber Ansätze zur Formulierung von Wörtern sind und demnach Abbrüche. Diese Problematik wird 92 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00022_SE_01_T_03_DF_01&cID=c1181&wID=w5461&textSize=200&contextSi ze=4. 93 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00070_SE_01_T_11_DF_01&cID=c127&wID=w1019&textSize=200&contextSi ze=4. <?page no="230"?> Theoretische Grundlagen 230 allerdings bereits auf der Ebene der Normalisierung entschieden, bei der Transkribent*innen manuell bei jedem Einzelfall entscheiden, ob sie den Doppelkreuz-Dummy „#“ für nicht-lexikalisierte Laute oder den Prozent-Dummy „%“ für Abbrüche vergeben. Für das POS-Tagging stellt diese Differenzierung somit kein Problem dar. Es gibt jedoch auch Elemente, die semantischen Gehalt haben und dennoch als Nichtwörter bezeichnet werden können. Ein für die gesprochene Sprache typisches Phänomen ist es, innerhalb eines Wortes eine Pause zu machen, wie in Beispiel 66 veranschaulicht. Hier ergibt sich eine Diskrepanz zwischen der Semantik und der phonetischen Produktion. Nach Ersterer handelt es sich um das Wort Zeitalter. Im Sinne von Kriterium (c) tragen die Einzelteile jedoch auch Bedeutung. Weiterhin ist dem Kontext zu entnehmen, dass es um die Bedeutung des Kompositums geht, nicht um die der einzelnen Teile. Es handelt sich demnach um zwei Nichtwörter, die gemeinsam die Bedeutung eines Wortes haben. Auch phonetisch sind es zwei durch eine kurze Pause getrennt produzierte Elemente / zeit/ und / alter/ , in der Transkription verschriftlicht mit Spatien und einer Mikropause zwischen den Wörtern. Nach Kriterium (a) müsste es sich also um zwei Wörter handeln. Eine solche Interpretation widerspräche aber den Interpretationen nach den Kriterien (b), (c) und (d) der Definition von Glück (2010). Beispiel 66: Sprachbiografisches Interview, Transkript FOLK_E_00181_ SE_01_T_01_DF_01, 06: 44-07: 05 94 01 MF des ist nicht LEICHT- 02 MF wie macht man des heutzutage im ZEIT (.) alter von internet. In Fällen von unterbrochenen Äußerungen wie in Beispiel 66 wird in der Normalisierung das gesamte Wort auf den ersten Teil gemappt, d. h. es wird vervollständigt, um die Datenbank so nach dem Gesamt-Lexem durchsuchbar zu machen. Der erste Teil zeit würde daher das Lemma Zeitalter sowie das Tag für Appellativa (NN) zugewiesen bekommen. Der zweite Teil alter ist somit schon in der Normalisierung des ersten Teils repräsentiert. Sowohl die Informationen über die Semantik (d. h. der Gesamtausdruck) als auch über die Wortart sind in dem ersten Teil annotiert. Es handelt sich beim zweiten Teil also strenggenommen um den Rest eines Wortes. Aus diesem Grund wird er beim Tagging als Nichtwort mit dem Tag XY bezeichnet. Dies ist in der Regel 94 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00181_SE_01_T_01_DF_01&cID=c264&wID=w1301&textSize=200&contextSi ze=4. <?page no="231"?> Weitere Klassifikationsprobleme 231 wenig problematisch, da schon bei der manuellen Normalisierung solchen Elementen das Und-Zeichen „&“ als Dummy zugewiesen wird. Ähnlich geartet ist die Lage bei Akronymen, deren letztere Teile aufgrund der Normalisierung ebenso zu Resten werden. So sind in der Transkription, wie Beispiel 67 verdeutlicht, die Buchstaben-Äußerungen verschriftlicht. Beispiel 67: Stuttgart 21, Transkript FOLK_E_00064_SE_01_T_07_DF_01, 17: 43-18: 00 95 01 MO °hh das war in der vergangenen sitzung ein großes THEma- 02 (1.35) 03 MO da hat der zuständige wirtschaftsminister ernst PFISter ef de pe - 04 (0.42) 05 MO gesagt er gehe von einer zusätzlichen wertschöpfung von FÜNFhundert millionen euro °h durch den bau des bahnprojekts im jahr aus- In der Normalisierung wird das gesamte Akronym auf die Transkription des ersten Buchstabens gemappt und kann auf der Ebene des POS-Taggings entweder das Tag für Eigennamen (NE) oder für Appellativa (NN) erhalten. Die restlichen verschriftlichten Buchstaben erhalten in der Normalisierung das Und-Zeichen „&“ als Dummy. Auch bei diesem Token handelt es sich um Restbestandteile eines Wortes bzw. eines semantischen Begriffs, das bereits durch das Akronym repräsentiert ist. Folglich wird allen in der Normalisierung mit diesem Dummy ausgezeichneten Token beim POS-Tagging das Tag XY zugewiesen. 2.5.2.2 Unverständliches (UI) In einem Korpus mit Daten gesprochener Sprache sind immer wieder Audioaufnahmen enthalten, die nicht klar genug sind oder bei denen so viele Sprecher*innen gleichzeitig sprechen, dass es für die Transkribent*innen nicht mehr auszumachen ist, was gesagt wurde. Häufig ist noch rekonstruierbar, wie viele Silben geäußert wurden. Nach cGAT wird in diesen Fällen die unverständliche Äußerung pro Silbe mit drei Plus-Zeichen „+++“ transkribiert. Für solche Phänomene gibt es im STTS bisher keine Handhabe. Sie müssen von der Kategorie XY abgegrenzt werden, da sie keine Nichtwörter sind, sondern geäußerte Wörter, die unverständlich sind. Theoretisch könnten ihnen also Wortarten zugewiesen werden, wären sie verständlich. Es ist daher naheliegend, ihnen in Zukunft ein Tag zuzuweisen, das genau dies ausdrückt. 95 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00162_SE_01_T_02_DF_01&cID=c39&wID=w45. <?page no="232"?> Theoretische Grundlagen 232 Ihnen wird das Tag Uninterpretierbar „UI“ zugewiesen werden. Das folgende Beispiel 68 ist aus einer Spielinteraktion entnommen, in der mehrere erwachsene Männer Fußballmanager spielen. Während des Spiels geschehen viele Dinge gleichzeitig. Die Spieler bieten um verschiedene Fußballspieler, kommentieren den Mannschaftsaufbau und die Gebote der Mitspieler, rechnen das noch zur Verfügung stehende Budget der Spieler aus und tragen den Kauf von Fußballspielern in Listen ein. Vieles davon geschieht mehr oder minder simultan. Nebenbei führen die Spieler auch private Unterhaltungen. Es handelt sich um eine Interaktion mit acht Personen, die unterschiedlich weit weg vom Mikrophon sitzen. Beispiel 68: Fußballmanager, Transkript FOLK_E_00021_SE_01_T_15_DF_01, 01: 36: 21-01: 36: 48 96 01 PL [noch FRAgen? ] 02 SK [ +++ ++++++ +++ ++++++ ] 03 PL und °h 04 NI nee? 05 NI (.) [ich hab auch noch_n ivanschitz un_n poLANS]ki drauf.= 06 PL [(( unverständlich, 1.6s )) ] 07 NI =ich hab doch geSAGT die mainzer hol ich zum sch[luss. ] 08 PL (( unverständlich )) 09 SK [ach der] iVANschitsch- 10 NI (.) ich hab doch ge[SAGT die mainzer kommen zum] [schlus ] [s.] 11 XM1 [((lacht)) ] 12 PL [NIEmand,] 13 SK [ja] dann lass_se doch MI[R, ] 14 XM1 [(wieso)] 15 (0.43) 16 NI nee- 17 SK eins SECHS- 18 (0.49) 19 NI ich [hab ja nich gesagt die kommen zum schluss für ANde]re, 20 PL [die größte ++++++ rausgesucht, ] 21 NI die [kommen zum schluss für MICH-] 22 PL [((lacht)) +++ ] 23 SK EINS (.) k[omma(.)] se[chs.] 24 XM1 [g ja ] 25 XM1 [°h ] 26 NI ZWEI. 96 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00021_SE_01_T_15_DF_01&cID=c638&wID=w1220&textSize=500&contextSi ze=16. <?page no="233"?> Weitere Klassifikationsprobleme 233 27 NI mei[n letztes WORT.] 28 PL [JEder wusste. ] 29 PL (.) [DER oder di]e weiß es ganz bestimmt. 30 SK [äh NIMM ihn] 31 XM1 °hh hh° 32 PL äh 33 (0.4) 34 PL isch HAB ih[n- ] 35 JZ [WER war das j]etz? In Beispiel 68 kommt es mehrfach zu Passagen, in denen man die Äußerungen einiger Sprecher, hier PL und SK, nicht verstehen kann. Beispielsweise fragt PL in Zeile 01 laut, ob es noch Fragen gibt, während Sprecher SK vermutlich (Zeile 02) die Namen zweier Fußballspieler nennt, die man allerdings nicht genau versteht. Es könnte sich auch um einen ganz anderen Kommentar handeln. Man kann jedoch deutlich die Silbenanzahl rekonstruieren. Es handelt sich um vier Wörter, die jeweils aus ein bzw. zwei Silben bestehen. Eine Wortart kann nicht bestimmt werden. In Bezug auf die oben genannte Definition von ‚Wort‘ nach Glück (2010) handelt es sich dennoch um Wörter, denn sie bestehen im Sinne von Kriterium (a) definitiv aus einer Sequenz von Lauten, die voneinander abgegrenzt sind. Im Sinne des Kriteriums (c) sind sie bedeutungstragende Einheiten, was auch dadurch deutlich wird, dass die Mitspieler darauf eingehen. Über die Erfüllung der Kriterien (b) und (d) kann keine Aussage gemacht werden. Es ist jedoch wahrscheinlich, dass sie ebenfalls erfüllt wären, könnte man sie verstehen. In der unverständlichen Äußerung von PL in Zeile 20 jedoch sind sie definitiv erfüllt. Beispielsweise ist die unverständliche Äußerung Wen oder was hat er rausgesucht? erfragbar und auch als gesamte Nominalphrase verschiebbar. In diesem spezifischen Fall ist es klar, dass es sich um ein Appellativum oder, wenn auch unwahrscheinlicher, um einen Eigennamen handelt. Es ist in den meisten Fällen, wie auch beispielsweise in der Äußerung PLs in Zeile 22 nicht möglich, die Wortart zu bestimmen. Die Bezeichnung als uninterpretierbare Äußerung ist daher eine Behelfslösung für diese Elemente. 2.5.2.3 Buchstabiertes (SPELL) Ebenfalls von den Nichtwörtern abzugrenzen ist echt Buchstabiertes. Für diese Elemente gibt es weder eine Wortart noch ein POS-Tag im STTS, die ihnen zugeordnet werden könnte. Sie haben aber dennoch ein spezifisches Denotat, namentlich einen Buchstaben. Sie unterscheiden sich darin auch von Akronymen (siehe Beispiel 67 deren Buchstaben nur gemeinsam ein Denotat ergeben). Bei Buchstabiertem steht das jeweilige Wort allein für einen Buchstaben, wie in den folgenden zwei Beispielen gezeigt wird. <?page no="234"?> Theoretische Grundlagen 234 Beispiel 69: Fußballmanager, Transkript FOLK_E_00021_SE_01_T_10_DF_01, 03: 02: 32-03: 02: 36 97 01 NI al[so] 02 DK [is] des is [doch_n typischer BAYer.] 03 NI [ be a er TE (.) es ][ te ] u [ be e . ] 04 SK [ja] 05 JZ [nee (.)] BAD wie [(.) badewann.] 06 SK [ KRIEG ich d]en- Beispiel 69 und Beispiel 70 stammen ebenfalls aus der oben bereits beschriebenen Fußballmanager-Interaktion. In Beispiel 69 diskutieren die Mitspieler, wie der Fußballspieler Badstuber des FC Bayern korrekt geschrieben wird und NI buchstabiert dessen Namen. In diesem Falle lassen sich die einzeln diktierten Buchstaben zwar nicht syntaktisch verschieben - das würde keinen Sinn ergeben - und sie sind, orthografisch gesehen, auch keine Buchstabensequenzen, sondern alleinstehende Buchstaben. Dennoch scheint es nicht gerechtfertigt zu sein, sie als Nichtwörter zu bezeichnen, denn sie sind bedeutungstragende Einheiten und verweisen semantisch auf ein Graphem, namentlich einen spezifischen Buchstaben des Alphabets. Beispiel 70: Fußballmanager, Transkript FOLK_E_00021_SE_01_T_01_DF_01, 09: 34-09: 39 98 01 SK ((lacht)) da kommt_n EL nach_m be gell? 02 JZ is do_n EL . 03 SK JA ja ja. Auch in Beispiel 70 wird deutlich, dass sie in den syntaktischen Aufbau der Frage integriert sind. Sie sind erfragbar und verschiebbar und verhalten sich somit auch syntaktisch wie Wörter. Auch hier scheint es angemessen, für diese Elemente eine eigene POS-Kategorie einzuführen: SPELL. 2.5.2.4 Abbrüche (AB) Abbrüche sind typische Phänomene gesprochener Sprache und für das POS- Tagging in verschiedener Hinsicht problematisch. Einerseits gibt es Abbrüche auf Konstruktions- oder Satzebene und Anakoluthe, die zu Ambiguitäten in 97 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00021_SE_01_T_10_DF_01&cID=c735&wID=w1934. 98 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscript &id=FOLK_E_00021_SE_01_T_01_DF_01&cID=c749&wID=w1702&textSize=200&contextSi ze=4. <?page no="235"?> Weitere Klassifikationsprobleme 235 der Interpretation führen können, wie beispielsweise aus den Beispielen 20 bis 24 im Kapitel 2.5.1.1 „Abgrenzung der Pronomen von Determinern“ hervorgeht. Andererseits gibt es Abbrüche auf der Ebene der Wörter selbst, wie aus den folgenden Beispielen hervorgeht: Beispiel 71: Tischgespräch, Transkript FOLK_E_00143_SE_01_T_01_DF_01, 07: 55-08: 30 99 01 HM °hh im RICHtigen goldhochzeitsalter.= 02 HM =haare sehr LICHT, 03 HM °hh ja ganz VIEle. 04 HM (.) faMIlienstand abgeschlossen abgeschlossen. 05 HM (.) hobby im garten (.) RUMhopp (.) hoppeln, 06 HM ((stöhnt)) °h ach gott HOBby mit nadeln und faden hantieren.= 07 HM =macht die DES? = 08 HM =JA? Im Beispiel 71 produziert Sprecherin HM in Zeile 05 einen Abbruch: rumhopp, den sie nach einer Mikropause sofort korrigiert, indem sie den zweiten Teil des Derivats reformuliert: hoppeln. Aus dem Kontext wird klar, dass sie das Wort rumhoppeln produzieren wollte. Eine andere Interpretation ist nicht möglich. Der Abbruch ist demnach rekonstruierbar und im Sinne eines POS- Taggings als Vollverb im Infinitiv (VVINF) zu bezeichnen. Eine solch klare Zuordnung eines POS-Tags bei Abbrüchen ist jedoch nicht in allen Fällen möglich. Beispiel 72: Prüfungsgespräch, Transkript FOLK_E_00003_SE_01_T_01_ DF_01, 01: 28-01: 46 100 01 DM und (.) ER beschreibt da auch sehr konkret die prozesse von der phonolog (.) phonologischen kodierung? 02 DM °h geht da auch drauf EIN, In Beispiel 72 unterbricht sich die Rednerin DM innerhalb eines Wortes, das mit phonolog beginnt. Es folgt eine Selbstkorrektur zu phonologischen. Da das Wort schon zur Hälfte artikuliert wurde, kann die abgebrochene Form rekonstruiert werden. Allerdings sind mehrere Interpretationen möglich. Einerseits 99 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00143_SE_01_T_01_DF_01&cID=c167&wID=w1157&textSize=200&contextSi ze=4. 100 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00003_SE_01_T_01_DF_01&cID=c47&wID=w245&textSize=200&contextSi ze=4. <?page no="236"?> Theoretische Grundlagen 236 könnte sie Phonologie gemeint haben, welches dann als Appellativum (NN) getaggt würde. Andererseits ist es auch möglich, dass sie phonologischen meinte, welches als attribuierendes Adjektiv (ADJA) getaggt würde. Beispiel 73: Interview, Transkript FOLK_E_00147_SE_01_T_02_DF_01, 28: 28-28: 44 101 01 EH so war_s G[UT-] 02 AK [ja ] 03 RK ((lacht)) 04 AK °h ja (.) ((Sprechansatz)) 05 (1.4) 06 AK da ge äh w w 07 (0.84) 08 AK wie gesagt da geHEIratet- 09 AK zwei KINder ham we- 10 AK junge un MÄDchen- Im Beispiel 73 werden vom Sprecher AK Wortfragmente geäußert, die nicht rekonstruierbar sind. AK unterbricht sich selbst, da er Planungsschwierigkeiten zu haben scheint, was auch durch die Hesitationspartikel äh zum Ausdruck kommt. Erst nach einer längeren Pause spricht er weiter und beginnt eine neue Äußerung. Eine Annahme darüber, was er ausdrücken wollte, wäre sehr spekulativ. Die Zuordnung einer Wortart ist nicht möglich. Abbrüche sind in der gesprochenen Sprache ein häufig auftretendes Phänomen. Sie machen im FOLK-Korpus ca. 0,5 Prozent der Token aus (Stand: 19. 4. 2017). Sie sind in Zeitungskorpora nicht vorhanden und somit gibt es keine Handhabe, wie mit ihnen im Sinne des STTS umzugehen ist. Sie sind weder Nichtwörter noch uninterpretierbar und es würde wenig Sinn ergeben, sie diesen Kategorien zuzuordnen. Es ist jedoch wünschenswert, sie in einer Datenbank des gesprochenen Deutsch auffindbar zu machen. Daher ist es naheliegend, auch für dieses Phänomen eine eigene Tag-Kategorie einzuführen (AB). Abbrüche werden bereits auf der Ebene der Normalisierung gekennzeichnet. Sie werden mit dem Prozentzeichen-Dummy „%“ ausgezeichnet. Dabei wird zwischen zwei Fällen unterschieden: 1) Ist ein Abbruch eindeutig rekonstruierbar, dann wird er in der Normalisierung vervollständigt und zusätzlich mit dem Dummy ausgezeichnet. 101 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00147_SE_01_T_02_DF_01&cID=c267&wID=w1045&textSize=300&contextSi ze=8. <?page no="237"?> Weitere Klassifikationsprobleme 237 2) Ist er nicht eindeutig rekonstruierbar, wie im Beispiel 73, dann wird ihm nur der Dummy zugewiesen. Hintergrund dieser Handhabe ist es, dass man den Nutzer*innen die Möglichkeit geben möchte, sowohl die Information über das Wort und die Wortart abrufen zu können - sofern diese erfassbar ist - als auch die Information darüber, dass es sich um einen Abbruch handelt. 2.5.2.5 Fremdsprachliches Material Bei der Bestimmung fremdsprachlichen Materials gibt es ein wesentliches Problem. Es ist in vielen Fällen schwer zu bestimmen, ob es sich tatsächlich um Fremdwörter handelt - vor allem bei gesprochener Sprache, bei der diese oftmals in den Gebrauch der Alltagssprache übergegangen sind. Weiterhin bereiten die Differenzierung von fremdsprachlichem Material und Eigennamen Probleme sowie der Umgang mit Instanzen von falscher Fremdsprachenverwendung, wie z. B. Denglisch. Diese Probleme werden im Folgenden an Beispielen illustriert. Zunächst wird jedoch dargelegt, wie das STTS den Umgang mit fremdsprachlichem Material vorsieht. Das STTS gibt folgende Klassifikationskriterien: Größere Textstücke, die einer fremden Sprache angehören, und nicht als Eigennamen klassifiziert werden können, werden als fremdsprachliches Material getaggt. […] Auf keinen Fall ist das fremdsprachliche Material auf die deutsche Syntax zu übertragen! ! Was als Eigennamen erkannt wird, ist mit NE zu taggen. […] Lexikalisierte Lehnwörter sind als entsprechende Kategorie zu taggen. […] Komplexe fremdsprachliche Ausdrücke, die eine syntaktische Funktion im Satz erfüllen, sind vom Tokenizer zu bündeln. Sie sollten wie entsprechende deutsche Ausdrücke getaggt werden. Problem i. A.: Tokenizer. […] Als Notlösung können die entsprechenden Einzelteile mit FM getaggt werden. (Schiller et al. 1999, S. 75 f.) Probleme mit dem Tag FM treten in verschiedenen Kontexten auf. Erstens ist es immer wieder schwer zu entscheiden, ob Lehnwörter bereits lexikalisiert sind oder nicht. Dieses Problem wurde in der Literatur vielfach diskutiert und soll daher hier nicht weiter ausgeführt werden. Für einen Problemaufriss diesbezüglich mit Fokus auf Anglizismen im Deutschen siehe Onysko (2007). Zweitens ist die Definition des STTS in gewisser Hinsicht widersprüchlich, da „komplexe fremdsprachliche Ausdrücke, die eine syntaktische Funktion im Satz erfüllen“ (Schiller et al. 1999, S. 75), entsprechend ihrer syntaktischen Funktion getaggt werden sollen, andererseits das fremdsprachliche Material „auf keinen Fall“ auf die deutsche Syntax übertragen werden solle. <?page no="238"?> Theoretische Grundlagen 238 Beispiel 74: Wirtschaftsgymnasium, Transkript FOLK_E_00121_SE_01_T_02_ DF_01, 40: 48-40: 59 102 01 SM es is VÖLlig unlogisch (.) seltsam (.) paradox (.) absurd. 02 (1.91) 03 SM a la KAFka eben. Im Beispiel 74 müsste nun entschieden werden, ob a la bereits ein lexikalisierter Bestandteil der deutschen Sprache ist. À la ist im Online-Duden aufgeführt, jedoch ohne Angabe einer Wortart. Ginge man von lexikalisierten Lehnwörtern aus, könnte man die Wörter dementsprechend als Präposition und Artikel taggen. Nach der Definition des STTS könnte es sich allerdings auch um einen komplexen fremdsprachlichen Ausdruck handeln, der die syntaktische Funktion eines Adverbs einnimmt, somit als ein Wort tokenisiert werden sollte und das Tag ADV erhalten müsste. Schließlich könnte es sich auch um fremdsprachliches Material im eigentlichen Sinne handeln und mit dem Tag FM annotiert werden. Weiterhin sollen laut STTS bei fremdsprachlichen komplexen Eigennamen alle Einzelteile als Eigennamen (NE) getaggt werden, wie am Beispiel „University/ NE of/ NE Michigan/ NE“ (Schiller et al. 1999, S. 75) deutlich wird. Diese Regelung widerspricht jedoch der Regelung für deutsche Eigennamen. Im Abschnitt über Eigennamen heißt es, dass nur der Name das Tag NE bekommt. Die „Freie/ ADJA Universität/ NN Berlin/ NE“ (ebd., S. 15) wird beispielsweise anhand ihrer Distribution getaggt. Darüber hinaus bleibt die Frage ungeklärt, ob, wenn in einer anderen Sprache formulierte Eigennamen mit NE getaggt werden, auch Film-, Song- und Buchtitel als Eigennamen zu behandeln sind. Beispiel 75 zeigt mehrere Probleme bei der Annotation von fremdsprachlichem Material auf, die spezifisch Transkripte gesprochener Sprache mit sich bringen. In der Interaktion sitzen vier Freunde gemeinsam im Garten und unterhalten sich über Musik, die sie in ihrer Jugend gehört haben und zum Teil immer noch hören. Sie listen eine ganze Reihe von Bandnamen und Songtiteln auf und singen teilweise einige Stellen aus den Songs. 102 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00121_SE_01_T_02_DF_01&cID=c234&wID=w705. <?page no="239"?> Weitere Klassifikationsprobleme 239 Beispiel 75: Alltagsgespräch, Transkript FOLK_E_00066_SE_01_T_03_DF_01, 01: 40: 49-01: 42: 01 103 01 PA ich fühle REgen. 02 (2.82) 03 PA auf meiner GLAtze. 04 (0.29) 05 AL <<singend> raindrops keep falling on [my head > ] 06 JO [<<singend> my hea]d down > 07 UD my [ PLAT - ] 08 PA [(DONG)] 09 (0.28) 10 JO °h <<singend> i_m singing in the rain > 11 (0.26) 12 AL i_m [SITting in the rain ((lacht)) ] 13 PA [<<singend> the rain doesn_t ] fall > 14 (0.31) 15 PA ey. 16 (1.69) 17 PA <<singend> the ring of fire 18 (0.25) 19 PA <<singend> the ring of fire > 20 (0.5) 21 AL ((räuspert sich)) i think the window of my CAR is open. 22 (0.53) 23 UD oh- 24 AL i sh[o- ] 25 JO [should a]i SCHTAY or should i go; 26 AL <<lachend> should das sie zu es wird > 27 JO ((lacht)) 28 PA i think the hair on my HEAD is gone. 29 (0.82) 30 AL <<lachend> walking fivehundred miles > 31 ((gemeinsames Lachen)) 32 (4.1) 33 UD oh JE. 34 JO aber es REGnet nich; 35 UD <<singend> lord i_m one 36 (0.27) 37 UD lord i_m two 38 (0.27) 39 UD lord [i_m three and lord i_m four ](.) °h lord i_m fivehundred miles away from home > 40 AL [((summt)) ] 41 JO ((lacht)) 103 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00066_SE_01_T_03_DF_01&cID=c1219&wID=&textSize=800&contextSize=28. <?page no="240"?> Theoretische Grundlagen 240 42 UD des war auch so NIE meine musik. 43 JO nee. 44 UD also oh su IH [da kriegsch gänsehaut- ] 45 AL [ja aber wenn_s heute läuf]t ne? 46 AL dann denksch AU ou man bin ich alt- An dieser Stelle im Gespräch fängt es an zu regnen und die Männer kommentieren den einsetzenden Regen mit Songzeilen (Zeilen 05 bis 09). Problematisch ist, dass diese gesungene Songzeile auch gleichzeitig der Songtitel des Liedes „Raindrops Keep Fallin’ on My Head“ der Manic Street Preachers ist. Hier müsste demnach entschieden werden, ob man dies als Songtitel interpretiert und somit entsprechend der Guidelines als Eigenname (NE) taggt oder aber als fremdsprachliches Material (FM) aufgrund der Tatsache, dass es gesungen ist und sich auf den Songtext und nicht auf den Titel bezieht. Diese Entscheidung ließe sich für die manuelle Korrektur aufgrund der Möglichkeit der Audio-Wiedergabe der Interaktion treffen. Für eine automatisierte Annotation ist dies jedoch nicht möglich, da in den Daten keine prosodischen Annotationen gemacht werden und es keinen Hinweis darauf gibt, dass diese Äußerung gesungen wird. Weiterhin ersetzt UD in Zeile 10 und 11 das my head des Songs durch my plat in Anspielung auf PAs Kommentar, dass er Regen auf seiner Glatze spürt. Er übersetzt dabei das umgangssprachliche Wort für Glatze, „Platte“, mit „plat“. Dieses Wort existiert so allerdings im englischen Sprachgebrauch nicht. Im deutschen allerdings auch nicht. Es handelt sich also strenggenommen nicht um fremdsprachliches Material, allerdings auch nicht um ein deutsches Wort. Wie mit solchen Instanzen von Denglisch umzugehen ist, ist in den Guidelines nicht geregelt. In Zeile 14 wiederum singt JO die bekannteste Zeile des Songs „Singin’ in the Rain“. Dies wiederum ist eindeutig der Songtext, da das I’m nicht Bestandteil des Songtitels ist. Man könnte diese Zeile demnach als fremdsprachliches Material (FM) taggen. Ebenso verhält es sich mit den Zeilen 23 bis 27. Es handelt sich hierbei um die Vertonung des Refrains von „Ring of Fire“ von Johnny Cash, das the ist nicht Bestandteil des Songtitels. In Zeile 29 dann produziert AL einen einfachen englischen Satz, in dem er anmerkt, dass sein Autofenster noch offen ist. Dieser ist als fremdsprachliches Material (FM) einzuordnen. Problematisch ist die Kategorisierung wiederum in der Äußerung von JO in den Zeilen 32 bis 34. Should ai SCHTAY or should i go in Zeile 25 ist eine Referenz auf den Song „Should I Stay or Should I Go“ von The Clash und gleichzeitig ein Kommentar zu ALs Aussage, dass sein Autofenster noch offensteht. Er bezieht sich damit auf die Frage, ob AL sich zum Auto begeben sollte - um <?page no="241"?> Weitere Klassifikationsprobleme 241 das Fenster zu schließen - oder ob er sich nicht fortbewegt und damit riskiert, dass es ins Auto regnet. JO singt diesen Text nicht, sondern spricht ihn, was die Interpretation als Songtitel nahelegt und somit das Tagging als Eigenname (NE). Andererseits ist die Aussprache sehr deutsch und in gegebenem Kontext muss diese Äußerung nicht zwangsläufig als Songtitel interpretiert werden, auch wenn diese Interpretation die naheliegende ist. Die Äußerung JOs könnte auch als Antwort auf ALs Kommentar in Zeile 29 interpretiert werden. Dann wiederum müsste die Äußerung als fremdsprachliches Material (FM) getaggt werden. AL antwortet seinerseits auf die Frage ob er zum Auto gehen solle oder nicht mit dem englischen Satz walking five hundred miles (Zeile 41). Hierbei handelt es sich offensichtlich um eine Anspielung auf den Song „500 Miles“ (schätzungsweise in der Version von The Hooters), denn seine Freunde verstehen die Anspielung sofort und beginnen den Refrain des Lieds zu singen (Zeile 46 ff.). Das Zitat selbst „walking five hundred miles“ existiert jedoch so nicht in dem Song und auch in keiner anderen Version des Liedes. Hier ist die Zuordnung wiederum problematisch. Es handelt sich weder um den korrekten Songtitel, noch um ein Zitat aus dem Song, wird aber von allen Anwesenden als Songtitel-Zitat interpretiert und niemand widerspricht oder korrigiert AL. Es ist also, ähnlich wie bei dem fehlerhaften Englisch bei my plat, nicht klar, ob diese Äußerung als Eigenname (NE) oder fremdsprachliches Material (FM) interpretiert werden muss. An diesem Ausschnitt konnte gezeigt werden, dass die Interpretation der STTS Guidelines im Zusammenhang mit der Annotation von fremdsprachlichem Material vor allem dahingehend problematisch ist, dass Mehrwortkonstruktionen bei Eigennamen anders gehandhabt werden als die sonstige Annotation. Würden die Guidelines eine Handhabe analog zu deutschen Eigennamen vorsehen, würden sich Interpretationen, die stark auf Kontext- und Weltwissen beruhen, vermeiden lassen. Nicht vermieden werden können jedoch Probleme, die durch falsche bzw. ausgedachte Fremdsprache (z. B. Denglisch) entstehen. Im FOLK-Korpus gibt es davon nur sehr wenige Instanzen, sodass eine Fehlkategorisierung dieser Elemente bei der Berechnung der Fehlerquote nicht stark ins Gewicht fällt. Für die Annotation von Lernerkorpora hingegen wäre es notwendig für solche Fälle eine Regelung zu finden. 2.5.2.6 Objektsprachliches Material Ein Problem, das nicht allein eines der gesprochenen Sprache ist, aber dennoch in Korpora gesprochener Sprache eine andere Problematik darstellt als in Schriftkorpora, ist objektsprachliches Material. <?page no="242"?> Theoretische Grundlagen 242 In den Guidelines zum STTS ist keine Angabe zum Umgang mit objektsprachlichem Material zu finden. An nachfolgendem Beispiel soll daher kurz die Problematik verdeutlicht werden. Beispiel 76: Prüfungsgespräch, Transkript FOLK_E_00029_SE_01_T_01_ DF_01, 05: 56-06: 07 104 01 CA äh[m- ] 02 SA [also d]as wie is die konjunktion und das so sie sind schon richtig (.) das IS ne parti[kel.] 03 CA [ja, ] 04 SA (.) gar keine FRAge. 05 SA (.) so wie zuSAMmen. 06 SA [°h ] is aber dann KÖNnen sie als konjunktion sehen. 07 CA [ja? ] 08 SA [hm_HM? ] 09 CA [oKAY? ] Das Beispiel 76 ist einem Prüfungsgespräch über Wortartenbestimmung entnommen. CA soll die Wortarten einiger Wörter in einem Textbeispiel bestimmen. In Zeile 02 kommentiert die Prüferin SA die zögerlichen Antworten der geprüften CA und geht noch einmal auf die Wortartenbestimmung der Wörter so und wie ein. Die Wortartbestimmung im Sinne des POS-Taggings ist für so und wie in Zeile 02 und in Zeile 05 abweichend von der von Sprecherin SA gegebenen Interpretation, da die Wörter hier nicht mehr in ihrem kontextuellen Zusammenhang stehen. Ihre Distribution in der Äußerung steht in einer Diskrepanz zu der mit ihrer Form konnotierten Bedeutung. Rein formbasiert wären sie als Adverb oder Partikel bzw. Konjunktion zu interpretieren. Gerade in Zeile 02 wird durch den vorangestellten Artikel jedoch deutlich, dass sowohl ihre Distribution als auch die Funktion im Kontext abweichend vom Normgebrauch der Wortformen ist. Sie stehen hier vielmehr für spezielle Denotate im Kontext, d. h. für das spezifische Textbeispiel in der Prüfungssituation. Sie sind somit eher als Eigennamen (NE) zu interpretieren denn als Adverb (ADV) oder Partikel (PTK) bzw. Konjunktion (KOKOM). In einer Revision der Guidelines wäre zu überlegen, ob objektsprachliches Material eine eigene POS-Kategorie erhalten oder aber als Eigennamen zu taggen ist. In der Schriftsprache wird objektsprachliches Material durch Anführungszeichen gekennzeichnet und ist somit für die automatisierte Annotation leicht zu identifizieren. In den Transkripten ist dies jedoch nicht der Fall. Die Distribution kann einen Hinweis auf die Verwendung als objektsprachliches Material geben, wie beispielsweise in dem Gebrauch mit Artikel in Zeile 02. In Verwen- 104 http: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscrip t&id=FOLK_E_00029_SE_01_T_01_DF_01&cID=c208&wID=w751. <?page no="243"?> Weitere Klassifikationsprobleme 243 dungsweisen wie in Zeile 05 ist es ohne Kontextwissen nahezu unmöglich, zwischen der Verwendung als objektsprachliches Material und dem Normgebrauch zu differenzieren. 2.5.3 Zwischenfazit In diesem Kapitel wurde gezeigt, welche weiteren Problemfälle es bei der Annotation von Transkripten gesprochener Sprache gibt. Es wurden dabei die häufigsten Problemfälle bei der manuellen Annotation dargestellt und die Ursachen der Probleme beschrieben. Zum einen entstammen die Probleme der Abgrenzung in der Definition von Wortarten und speziell der Definition im STTS. Zum anderen gibt es eine Reihe Elemente in Transkripten gesprochener Sprache, die sich über eine Wortartenkategorisierung nur schwer erfassen lassen, derer es keine Äquivalente in schriftsprachlichen Texten gibt und für die es pragmatischer Regelungen bedarf. <?page no="244"?> Theoretische Grundlagen 244 <?page no="245"?> Zielsetzung der empirischen Arbeit 245 3. EMPIRISCHER TEIL 3.1 Zielsetzung der empirischen Arbeit Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) soll für verschiedenste Nutzer als Datengrundlage ihrer Forschungsfragen dienen. Eine Nutzerstudie aus dem Jahr 2016 zeigte, dass sich zu diesem Zeitpunkt bereits fast 5.000 Nutzer in der DGD registriert hatten und somit auch Zugriff auf die FOLK-Daten haben (Fandrych et al. 2016, S. 280). Die Auswertung der Studie zeigte, dass die Datenbanken für sehr unterschiedliche Zwecke genutzt werden (siehe Abb. 8). Es wird deutlich, dass darunter auch Bereiche sind, für die ein POS-Tagging der Daten von großem Nutzen ist, wie beispielsweise für Fragen bezüglich germanistischer Linguistik im Allgemeinen (59 Prozent), korpuslinguistische Fragestellungen (49 Prozent), kontrastive Linguistik (30 Prozent), computerlinguistische Fragestellungen (22 Prozent) oder Fragestellungen, die sich mit Korpustechnologie befassen (16 Prozent) (ebd., S. 282). Abb. 8: Interessen der Nutzer*innen des FOLK - Korpus (Fandrych et al. 2016, S. 282) Das praktisch erklärte Ziel dieser Arbeit ist es, für das FOLK-Korpus und die DGD ein POS-Tagging zu entwickeln, das akkurat genug ist, sodass es die Nutzer*innen bei der Bearbeitung ihrer Fragestellungen unterstützen kann. Hierbei wird für das automatisierte POS-Tagging ein Wert von 95 Prozent Präzision angestrebt. <?page no="246"?> Empirischer Teil 246 Weiterhin soll sichergestellt sein, dass Phänomene, die typisch für die gesprochene Sprache sind, im POS-Tagging abgebildet sind und für die Nutzer*innen auffindbar gemacht werden. Dies bedeutet, dass gerade im Bereich der Gesprächspartikeln das Tagset verfeinert werden muss, und weiterhin dass Elemente, die in der Schriftsprache kaum oder gar nicht vorkommen, auffindbar gemacht werden. Im Umkehrschluss bedeutet dies die Aufhebung der Reste-Kategorie Adverb, was sich zwar nachteilig auf die Präzision auswirken kann, jedoch spezifischere Anfragen hinsichtlich anderer typisch gesprochensprachlicher Phänomene ermöglicht. 3.2 Überblick über die empirische Vorgehensweise Um genanntes Ziel von 95 Prozent Präzision bei der automatisierten Annotation von POS-Tags auf FOLK-Daten zu erreichen, waren verschiedene Arbeitsschritte notwendig. Zunächst musste eine Auswahl eines POS-Taggers und eines Tagsets getroffen werden, die als Grundlage für eine Anpassung auf Daten gesprochener Sprache dienen können. Weiterhin musste ein Development-Set von Daten erstellt werden, an dessen Annotationen das Tagset und dazugehörige Guidelines verfeinert werden konnten. Diese Änderungen wurden mit Hilfe von Inter-Annotator-Agreements überprüft, um sicherzustellen, dass das veränderte Tagset und die veränderten Guidelines reliabel angewandt werden können und die eingeführten Tag-Kategorien valide sind. Basierend auf den manuellen Annotationen des Development-Sets wurde ein Neutraining des Taggers vorgenommen. Mit dem dadurch entstandenen Parameter-File wurden die restlichen Daten des Goldstandards getaggt, um so eine schnellere manuelle Korrektur zu ermöglichen. Nach der vollständigen Annotation des Goldstandards wurde ein weiteres Neutraining des Taggers vorgenommen und anhand eines Test-Sets evaluiert. Im Folgenden sollen diese Schritte genauer beschrieben und erläutert werden. Zunächst wird in Bezug auf das Kapitel 1.4 „Related Work“ die Auswahl des Taggers und des Tagsets für die Annotation des FOLK-Korpus begründet. Weiterhin werden die Funktionsweise des Taggers erläutert und Möglichkeiten zur Anpassung des Taggers und des Tagsets beschrieben. Anschließend wird die Erstellung des Goldstandards dargestellt und abschließend evaluiert, wie das automatisierte POS-Tagging mit der durch den Goldstandard erstellten Parameter-Datei auf dem Test-Set gelingt. Abbildung 9 stellt die Arbeitsschritte des empirischen Teils noch einmal schematisch dar und soll zur Orientierung für die weiteren Ausführungen dieses Kapitels dienen: <?page no="247"?> Auswahl des Taggers und des Tagsets 247 Abb. 9: Flowchart, Darstellung der Arbeitsschritte zur Erstellung des automatisierten POS - Taggings für Transkripte spontansprachlicher Daten 3.3 Auswahl des Taggers und des Tagsets Möchte man ein automatisiertes Part-of-Speech-Tagging für Transkripte gesprochener Sprache entwickeln, so müssen zunächst grundlegende Entscheidungen getroffen werden: Erstens, ob man einen Tagger und Tagset selbst erstellen oder aber auf bereits bestehende Tagger und Tagsets zurückgreifen möchte. Ersteres ist nicht nur zeit- und arbeitsintensiv, es bedeutet auch, dass man ein komplett eigenes System erschafft, das zwar eventuell hohe Präzision verspricht, jedoch wenig Vergleichbarkeit mit anderen Daten mit sich bringt. Zudem erfordert ein solches Verfahren ebenfalls die Auswahl von passenden Kategorien, für die es wiederum einer theoretischen Grundlage bedarf, deren exhaustive Anwendbarkeit auf tatsächlichen Daten zunächst erprobt werden müsste. Entscheidet man sich für die Verwendung bereits bestehender Tagger, muss man die Entscheidung treffen, welche Art von Tagger und Tagset man auswählt, mit denen sich die vorliegenden Daten möglichst präzise abbilden lassen. <?page no="248"?> Empirischer Teil 248 Wie bereits im Einleitungs-Kapitel 1.1 „Was ist Part-of-Speech-Tagging? “ dargelegt, gibt es verschiedene Tagger, die das automatisierte POS-Tagging ermöglichen. Für unsere Fragestellung relevant sind zunächst Tagger, die auch für das Deutsche entwickelt wurden, und weiterhin solche, in denen man Tagger und Tagset an nicht-standard sprachliche Daten anpassen kann. Eine grundsätzliche Entscheidung ist, ob man einen regelbasierten oder einen auf Stochastik basierten Tagger auswählt. Der de-facto-Standard für das Taggen von Daten deutscher Sprache sind zurzeit der TreeTagger und das Stuttgart-Tübingen-Tagset (STTS) (Zinsmeister/ Heid/ Beck 2014, S. 4097). Es liegt daher nahe, zu überprüfen, ob der TreeTagger auch für unsere Zwecke eine geeignete Wahl ist. Zu der Leistungsfähigkeit des TreeTaggers wurden verschiedene Studien durchgeführt. Volk/ Schneider verglichen 1998 die Leistungsfähigkeit eines regelbasierten Taggers für das Deutsche, dem Brill Tagger for German, mit der des TreeTaggers. Ihre Ergebnisse zeigen, dass der regelbasierte Tagger insgesamt eine um ein Prozent höhere Fehlerrate aufwies als der stochastische (Volk/ Schneider 1998). Die Bevorzugung eines stochastischen Taggers vor einem regelbasierten Tagger wie dem Brill Tagger for German ist nicht nur dadurch motiviert, dass der TreeTagger generell, wenn auch nur gering, bessere Ergebnisse erbrachte als der Brill Tagger, sondern auch in Hinsicht auf unser Vorhaben, Spontansprache zu taggen. Es ist offensichtlich, dass Regeln, die für Spontansprache gelten, - sofern diese ihnen folgt, - von denen der Schriftsprache abweichen. In der alltäglichen Kommunikation wird vieles als nicht fehlerhaft empfunden, was in der Schriftsprache als inkorrekt empfunden wird. Regeln für spontansprachliche Kommunikation zu erstellen, beziehungsweise die dem Tagger zugrunde liegenden Regeln an Spontansprache anzupassen, scheint ein sehr komplexes Unterfangen zu sein. Demgegenüber verspricht ein stochastischer Tagger einen geringeren Zeit- und Arbeitsaufwand. Zudem ist ein stochastischer Tagger erfolgversprechender für ein automatisiertes Tagging des gesamten Korpus, da er die Möglichkeit bietet, mit einer ausreichenden Menge korrekt getaggter Daten ein Neutraining des Taggers vorzunehmen und somit die relativen Häufigkeiten von Phänomenen gesprochener Sprache in den Tagging-Prozess spontansprachlicher Daten zu integrieren. In Bezug auf automatisiertes POS-Tagging von spontansprachlichen Daten haben Pettersson/ Pankow (2006) den TreeTagger mit dem Tagger Morphy verglichen. Morphy ist ebenfalls ein stochastischer Tagger, der an der Universität Paderborn entwickelt wurde und mit dem dazugehörigen kleinen Tagset bei geschriebenen Texten eine Genauigkeit von 96 Prozent erreicht. Um die Tagger zu testen, haben sie zwei Transkripte des Gesprächstyps ‚Interview‘ aus dem <?page no="249"?> Auswahl des Taggers und des Tagsets 249 Freiburger Korpus der Datenbank für Gesprochenes Deutsch (DGD) ausgewählt. In ihrer Auswertung hat der TreeTagger mit einer Genauigkeit von 85,64 Prozent deutlich bessere Leistungen erbracht als Morphy mit 80,3 Prozent (ebd., S. 11). „Vergleichen wir die beiden Programme, ist die Fehlerquote in sämtlichen Annotationsklassen bei TreeTagger niedriger als bei Morphy, mit Ausnahme von infiniten Vollverben und finiten Hilfsverben“ (ebd., S. 14). Dem Leser wird vielleicht auffallen, dass die Tagging-Ergebnisse dieser Studie deutlich besser sind als die in der von der Autorin vorgenommenen Pilotstudie. Dies könnte daran liegen, dass die Transkripte des Freiburger Korpus erstens durch Interpunktion segmentiert sind, zweitens Hesitationspartikeln und andere typisch gesprochensprachliche Phänomene wie Abbrüche auf Wortebene, Stottern etc. nicht verschriftlicht wurden und drittens die ausgewählten Gespräche sehr geregelten Gesprächsstrukturen folgen (Frage-Antwort-Schema) und es zu wenig Überlappungen und gegenseitigen Unterbrechungen kommt. Bei der Analyse der Fehler stellen Petterson/ Pankow fest, dass die Fehlerquote sich stark reduzieren würde, ließe sich das Problem der unbekannten Lexeme verringern (ebd., S. 14 f.). Für das FOLK-Korpus wurde dieses Problem der unbekannten Lexeme auf zwei Weisen behoben: Einerseits werden die Daten im FOLK-Korpus vor dem Tagging orthografisch normalisiert und zweitens lässt sich das Lexikon des TreeTaggers erweitern, wie im Kapitel 3.12.1 „Erstellen des Lexikons“ dargestellt werden soll. Einen weiteren Versuch des POS-Taggens von spontansprachlichen Daten haben Hedeland/ Schmidt anhand der Daten des Hamburg Map Task Corpus (HAMATAC) unternommen, ebenfalls unter Verwendung des TreeTaggers mit dem STTS. Sie konstatieren, ähnlich wie bei den Ergebnissen unserer Pilot-Studie, eine Genauigkeit von etwa 80 Prozent und analysieren, dass die hohe Fehlerrate zu großen Teilen Wortformen, die typisch für Spontansprache sind, und Eigenheiten von Transkripten gesprochener Sprache geschuldet ist. Als Beispiele nennen sie die Hesitationsmarker äh und ähm, aber auch Interjektionen und Abbrüche. Da Erstere sehr häufig, aber sehr limitiert in ihrer Vorkommensform seien, erwarten Hedeland/ Schmidt (2012) eine deutliche Verbesserung des Tagging-Prozesses bei einem Neutraining des Taggers anhand der korrigierten Daten. Den beschriebenen Studien ist zu entnehmen, dass der TreeTagger generell die besseren Ergebnisse lieferte und für das Taggen von Transkripten spontansprachlicher Daten bessere Ergebnisse verspricht, wenn man ihn entsprechend anpasst. Zudem spricht sein Status als Standard-Tagger für deutsche Daten ebenfalls für seine Wahl, da dies bedeutet, dass eine Vergleichbarkeit auf der Ebene des POS-Taggings mit vielen anderen Korpora gegeben ist. <?page no="250"?> Empirischer Teil 250 3.4 Funktionsweise des Taggers Um Möglichkeiten der Anpassung und auch eventuell auftretende Probleme beim Tagging spontansprachlicher Daten verstehen zu können, ist eine kurze Beschreibung der Funktionsweise des TreeTaggers hilfreich. Der TreeTagger ist, wie der Name schon andeutet, ein Algorithmus, der auf Entscheidungsbäumen basiert. Jede Entscheidung repräsentiert dabei einen Knotenpunkt eines Entscheidungsbaumes. Jedes Wort-Token eines Korpus wird beim Tagging zu einem solchen Knotenpunkt. Der TreeTagger ist ein sogenannter Trigram-Algorithmus, er zieht also zur Entscheidung des dritten Knotenpunktes die statistischen Berechnungen der zwei vorhergehenden Knotenpunkte bzw. Items heran. Dem Algorithmus des TreeTaggers stehen verschiedene Tests für die Bestimmung des POS-Tags der Knotenpunkte zur Verfügung, und er wählt für die Bestimmung eines jeden Knotenpunktes den Test, der mit der höchsten statistischen Genauigkeit Informationen über die POS-Klasse des ihm vorliegenden Items enthält. Diese Auswahl geschieht wiederum auf der Grundlage eines binären Entscheidungsbaumes: Er teilt das Set anhand des getesteten Merkmals und bildet sich solange nach dieser Methode weiter, bis alle Items des Unterbaumes derselben Klasse angehören, also eindeutig sind. Der Baum endet an den Stellen, an denen der Test der maximalen statistischen Wahrscheinlichkeiten eine gewisse Grenze unterschreitet. Daraufhin werden alle Äste des Baumes ‚gestutzt‘, bei denen der Informationsgehalt nicht ausreicht, um Ambiguitäten zu vermeiden (Schmid 1994, S. 4). Ein vereinfachtes Beispiel für einen Entscheidungsbaum stellt die Abbildung 10 dar: Abb. 10: Entscheidungsbaum aus Schmid (ebd., S. 3) <?page no="251"?> Funktionsweise des Taggers 251 Für das Taggen deutscher Daten stehen dem TreeTagger verschiedene Tests zur Verfügung: Einerseits der Abgleich mit Wahrscheinlichkeitswerten, die beim Training des Taggers aus den Trigrammen erschlossen wurden, und andererseits Tests, die auf dem Lexikon basieren. Das Lexikon enthält Informationen in vier Kategorien: ein Vollform-Lexikon, ein Präfix-Lexikon, ein Suffix-Lexikon und ein „Default entry“. Es enthält zusätzlich apriori Tag-Wahrscheinlichkeiten für jedes Wort, die wiederum durch die stochastische Auswertung eines Trainings-Sets entstanden sind. Zunächst sucht der Tagger die Vollform des Wortes im Lexikon - wird es dort gefunden, werden die mit ihm verknüpften Wahrscheinlichkeiten an das Programm zurückgegeben. Ist das Wort im Lexikon nicht auffindbar, wird eine weitere Suche gestartet, bei der eventuelle Großbuchstaben des Wortes in Kleinbuchstaben umgewandelt werden. Ist immer noch kein Ergebnis vorhanden, so wird im Präfix- und Suffix-Lexikon nach entsprechenden Einträgen gesucht. Scheitert jeder Versuch, so wird der „Default entry“ an das Programm zurückgegeben und der Ast stirbt ab (Schmid 1994, S. 4). Das Vollform-Lexikon wurde ursprünglich mit Hilfe des Penn Treebank Corpus erstellt - ein englischsprachiges semi-automatisch getaggtes Trainings- Korpus, in dem die Häufigkeiten der Vorkommnisse eines jeden Tag/ Wortpaares gezählt wurden. War die Häufigkeit kleiner als ein Prozent, so wurde es aus dem Lexikon herausgenommen, da es sich meist um Taggingfehler handelte (Schmid 1994). Die Version für das Deutsche wurde anhand des Zeitungskorpus Tüba-D/ Z trainiert und zur Erstellung des Lexikons demselben Verfahren unterzogen (Schmid 1995, S. 7). Abb. 11: Suffix-Lexikon aus Schmid (1994, S. 5) <?page no="252"?> Empirischer Teil 252 Das Suffix-Lexikon ist wiederum als Entscheidungsbaum aufgebaut und die Wahrscheinlichkeiten wurden ebenfalls automatisch mit einem Trainingskorpus erstellt. Ein schematisches Beispiel für den TreeTagger für das Englische ist in Abbildung 11 dargestellt. Der genaue Entscheidungsbaum für das Deutsche ist nicht dokumentiert. Auch hier werden Äste, die eine bestimmte Wahrscheinlichkeit unterschreiten, eliminiert. Sucht nun der Tagger das Suffix, so folgt er dem Pfad in umgekehrter Reihenfolge der Buchstaben des Suffixes, bis er bei dem Endpunkt ankommt und übernimmt die gegebene Wahrscheinlichkeit. Analog dazu verfährt er mit Präfixen. Das Präfix-Lexikon wurde erst für die Verwendung des Taggers für die deutsche Sprache erstellt, da es im Englischen nicht notwendig war (Schmid 1995, S. 6). Generell wurde der Tagger für das Deutsche in verschiedenen Punkten angepasst, da sich beim Taggen von deutschen Daten einige Probleme herausstellten, die beim Englischen nicht gegeben waren. Zunächst war nur ein wesentlich kleineres Trainings-Korpus vorhanden, daher bestand ein größerer Anspruch, die Masse für stochastische Wahrscheinlichkeiten durch gute Technik auszugleichen. Dem dienten beispielsweise die Einführung des Präfix-Lexikons sowie der zusätzliche Schritt des Abgleichs mit dem Vollform- Lexikon mit Kleinschreibung. Dies diente dazu, das Problem der kapitalisierten Satzanfänge zu umgehen, sodass solche Items nicht als Eigennamen getaggt werden (ebd., S. 6 f.). Um den TreeTagger anzuwenden, bedarf es noch eines Tagsets. Das Stuttgart Tübingen Tagset (STTS) wurde gemeinsam mit der Anpassung des TreeTaggers an das Deutsche erstellt und, wie oben bereits beschrieben, mehrfach erprobt. Generell wurden für die Erstellung des STTS bei der Einteilung der Wortarten distributionelle aber auch traditionell-linguistische Kriterien zugrunde gelegt. Eine genauere Beschreibung des Tagsets wird im Kapitel 3.7.5 „Das STTS 2.0“ erfolgen. Eine Auflistung aller 54 Original-Tags des Tagsets lässt sich der „STTS Tag table (1995/ 1998)“ im Anhang entnehmen. 3.5 Möglichkeiten der Anpassung des Taggers und des Tagsets Um einen stochastischen Tagger für die Anpassung an Daten gesprochener Sprache weiterzuentwickeln, braucht es eine gewisse Menge korrekt annotierter Daten, d. h. einen Goldstandard, anhand dessen man dann den Tagger neu trainieren kann. Dies bedeutet, dass der Tagger anhand dieser Daten die statistischen Wahrscheinlichkeiten der POS-Tag-Verteilung neu berechnet und in einem Parameter-File abspeichert. Je mehr Daten dazu verwendet werden, desto präziser kann der Tagger anhand der Parameter-Datei die Wahrscheinlichkeit für die Wortart einer bestimmten Wortform bestimmen. Die <?page no="253"?> Möglichkeiten der Anpassung des Taggers und des Tagsets 253 Beschaffenheit des Goldstandards hat großen Einfluss auf die Erstellung der Parameter-Datei und somit auf die Performance des Taggers an weiteren Daten. Es ist daher notwendig, einen Goldstandard zu erstellen, der ausreichend groß ist und in dem die Annotationen möglichst wenige Fehler aufweisen. Es gibt verschiedene Studien dazu, welchen Einfluss der Goldstandard auf spätere Tagging-Ergebnisse hat: So untersucht beispielsweise Manning (2011) in seinem Aufsatz „Part-of- Speech Tagging from 97 % to 100 %: Is It Time for Some Linguistics? “ Gründe für Fehlannotationen von automatisiert getaggten Daten. Er argumentiert, dass sich das Tagging schriftsprachlicher Daten noch verbessern ließe, würden die Datengrundlagen, auf denen die Tagger trainiert werden, linguistisch besser aufbereitet (ebd., S. 171). Er analysiert hierfür Annotationsfehler und gleicht sie mit dem dazugehörigen Goldstandard ab. Er identifiziert dabei sieben Gründe, aufgrund derer Fehlannotationen verursacht werden können (ebd., S. 176; Übersetzung durch Autorin): (1) Aufgrund einer Lücke im Lexikon, d. h. ein Wort kam im Trainingsset mehrfach vor, allerdings nie mit dem Tag, das ihm in diesem Kontext zugewiesen werden müsste. (2) Aufgrund unbekannter Wörter, d. h. betreffendes Wort kam in den Trainingsdaten nicht vor und muss vom Tagger allein aufgrund des Kontexts erschlossen werden. Der Kontext ist jedoch in vielen Fällen ambig. (3) Aufgrund ambiger Strukturen, d. h. plausiblerweise könnte der Tagger das Tag korrekt bestimmen, allerdings lässt der unmittelbare Kontext Ambiguitäten zu. (4) Aufgrund ambiger Strukturen, die nur durch größeres Kontext- oder Weltwissen bestimmbar wären. (5) Aufgrund einer unterspezifizierten oder unklaren Tag-Kategorie, die Ambiguitäten in bestimmen Kontexten zulässt. (6) Aufgrund eines inkonsistent annotierten Goldstandards oder einer unzureichend spezifischen Tagging-Guideline, d. h. es gäbe ein korrektes POS- Tag, aber die Guideline bietet keine Hilfestellung bei Zweifelsfällen, und so sind die Annotationen der Annotator*innen im Goldstandard inkonsistent. (7) Aufgrund von Fehlannotationen im Goldstandard, d. h. die Annotationen im Goldstandard für eine bestimmte Wortform sind schlichtweg falsch. Bei der Erstellung eines POS-Taggings für das FOLK-Korpus wurde daher besonders darauf geachtet, den Goldstandard möglichst balanciert zusammenzustellen, um Probleme wie in (1) zu vermeiden (darauf wird in Kapitel 3.6 „Erstellen des Goldstandards“ genauer eingegangen werden). Die Transkripte decken ein möglichst großes Spektrum bezüglich der Herkunft der Sprecher*innen und ihres Dialekt-Gebrauchs, der Themen der Interaktionen und der Formalität der Interaktionen (private bis hin zu institutioneller <?page no="254"?> Empirischer Teil 254 Kommunikation) ab. Es ist daher anzunehmen, dass Wörter in verschiedenen Verwendungskontexten erfasst werden können und sie somit im Lexikon in ihren verschiedenen Verwendungsweisen dokumentiert werden. Weiterhin wurde ein zusätzliches Lexikon in das Tagging integriert, um Probleme wie in (1) und (2) zu vermeiden (siehe auch Kapitel 3.12.1 „Erstellen des Lexikons“). Allerdings muss hier bedacht werden, dass gesprochene Sprache viele idiosynkratische Ausdrücke enthält, die durch kein Lexikon abgedeckt werden können. Probleme wie in (3) und (4) entstehen unter anderem im FOLK-Korpus durch die Tatsache, dass die Daten nicht nach syntaktischen Kriterien segmentiert sind. Dieses Problem kann leider erst mittelfristig durch eine Segmentierung des Goldstandards behoben werden. Das IDS-Projekt Segmentation of Oral Corpora (SegCor) wird jedoch in näherer Zukunft die Segmentierung der Daten des FOLK-Korpus ermöglichen. Im Anschluss daran ist ein erneutes Neutraining der Daten vonnöten, das Probleme wie in (3) und (4) vielleicht nicht gänzlich eliminiert, aber doch deutlich verringern sollte. Die Überarbeitung der Tagging-Guidelines und mehrfache Berechnungen von Inter-Annotator-Agreements (genauer beschrieben in den Kapiteln 3.9 und 3.13.1) sollten dazu beitragen, dass Fehler wie in (5) und (6) nicht mehr vorkommen. Für die Annotation des Goldstandards wurde das Tagset so angepasst, dass alle Wort-Token des Korpus exhaustiv getaggt werden konnten. Dies wiederum bedeutete für dieses Korpus von Transkripten gesprochener Sprache die Einführung von POS-Tags, die typisch gesprochensprachliche Phänomene darstellen können. Zinsmeister/ Heid/ Beck (2014) stellen heraus: In terms of POS annotation, one can either assess the possibilities of using an existing tagset on such non-standard data […], or one may explore additions to or modifications of an existing tagset that could better capture the phenomena found in non-standard varieties. (ebd., S. 4098) Für das POS-Tagging des FOLK-Korpus haben wir uns für letztere Option entschieden. Diese Änderungen geschahen in enger Absprache mit Kollegen, die das STTS für Daten internetbasierter Kommunikation (IBK) und auch für andere Korpora gesprochener Sprache erweitert haben (ebd., S. 4100). Eine mehrfache Korrektur der Transkripte von verschiedenen Annotator*innen in verschiedenen Arbeitsschritten (genauer beschrieben in Kapitel 3.6 „Erstellen des Goldstandards“) sollte Fehler wie in (7) vermeiden. Der Forderung Mannings, die Trainingsgrundlage durch linguistisch fundierte Überarbeitung zu verbessern, wurde für das Tagging das FOLK-Korpus daher entsprochen. Was Manning für die Optimierung des Taggings <?page no="255"?> Möglichkeiten der Anpassung des Taggers und des Tagsets 255 schriftsprachlicher Korpora vorschlägt, war für das FOLK-Korpus zwingend notwendig. Den Goldstandard aus linguistischer Perspektive so weit wie möglich zu optimieren, sollte sicherstellen, dass gute Tagging-Ergebnisse erzielt werden konnten, obwohl der Goldstandard, verglichen mit Goldstandards für das Tagging geschriebener Sprache, vergleichsweise klein ist. Wie viele Daten ausreichend für ein Neutraining eines POS-Taggers sind, wird ebenfalls in der Literatur diskutiert. Wie groß muss der Goldstandard also sein, um statistische Berechnungen möglichst reliabel zu machen? Mieskes/ Strube (2006) zeigten an einem Experiment am ICSI Meeting Corpus, dass es 221.000 annotierter Goldstandard-Token bedarf, um einen Tagging-Output zu erzielen, welcher mit dem geschriebener Texte vergleichbar ist: „It turned out, that about 221K tokens are sufficient to get results that are comparable to those reported for the POS taggers applied to text“ (ebd., S. 938). Die Datengrundlage waren hierbei Transkripte von Meetings, - also immer der gleiche Datentyp -, die manuell mit dem Universal Tagset annotiert wurden (ebd., S. 936). Sie verglichen die Leistung von vier verschiedenen Taggern in sechs verschiedenen Setups, wobei das kleinste Setup circa 124.000 Token umfasste und das größte circa 283.000 Token. Jedes nächstgrößere Setup umfasste jeweils Transkripte von je drei weiteren Meetings, die allerdings jeweils nur von einem/ einer Annotator*in annotiert wurden (ebd.). Die meisten Transkripte des ICSI Meeting Corpus wurden jeweils nur von einer Person annotiert. Eine Nachkorrektur durch eine/ n andere/ n Annotator*in wurde nur bei einer kleinen Teilmenge des Korpus vorgenommen. Das Inter-Rater-Agreement war mit einem Kappa von .96 jedoch sehr hoch; daher ist dieser Ansatz vertretbar. Dennoch sind die Forschungsergebnisse in verschiedener Hinsicht problematisch für die Tagging-Ziele des FOLK-Projektes: Zunächst einmal sind die Unterschiede in den Tagging-Ergebnissen zwischen den verschiedenen Setups nicht sehr groß: „In general, one can observe that the gain throughout the setups is about 1 %“ (ebd., S. 937). Dies bezieht sich jedoch vornehmlich auf das große Testset. Im kleinen Testset ist gesamt gesehen keine Veränderung auszumachen (ebd.). Darüber hinaus wird nicht erläutert, wie die großen Unterschiede in den Fehlerraten zwischen dem kleinen Testset 1 (40.000 Token) und dem großen Testset 2 (77.000 Token) zustande kommen. Den Ergebnissen ist zu entnehmen, dass die Fehlerraten im kleinen Testset um ein bis zwei Prozentpunkte niedriger sind als im großen Testset. Zudem wurde das Korpus nur mit einem sehr kleinen Tagset annotiert, dem Universal Tagset, das nur zwölf Kategorien umfasst. Dies erklärt, wie es möglich war, eine so große Menge Daten manuell annotieren zu lassen. Es lässt aber Zweifel daran aufkommen, ob das erreichte Tagging-Ergebnis, selbst <?page no="256"?> Empirischer Teil 256 wenn es Genauigkeitsraten ähnlich denen von Schrifttexten erzielt, für eine Analyse von Transkripten gesprochener Sprache brauchbar ist. Es ist eher naheliegend, dass alle problematischen Fälle, die für die Analyse gesprochener Sprache ja gerade interessant sind, im Tagging das Tag einer Reste-Kategorie erhalten haben. Inwiefern diese Annotation somit Ergebnisse liefert, anhand derer linguistische Analysen möglich sind, sei dahingestellt. Weiterhin ist das getaggte Korpus, genau wie die Dokumentation des Taggings, nicht öffentlich zugänglich (Janin et al. 2003). Die Tagging-Ergebnisse sind demnach nicht nachvollziehbar. Eine Aufschlüsselung, worin die Fehler bestanden, wird nicht gegeben. Von größerer Bedeutung für die POS-Annotation des FOLK-Korpus sind die Studien von Rehbein/ Schalowski/ Wiese (2014). Sie konnten anhand der Daten aus dem KiezDeutsch-Korpus (KiDKo) zeigen, dass bereits kleine Mengen Gold-annotierter Daten (ebenfalls mit einer Erweiterung des STTS) ausreichen, um einen Tagger neu zu trainieren und gute Tagging-Ergebnisse zu erzielen: Our tagger achieves an accuracy of 95.8 % on the normalised transcripts when trained on a small training set with 10,682 tokens, and of 96.9 % when trained on a larger training set (66,043 tokens; 5-fold cross validation). (ebd., S. 3930) In dieser Studie wurde der Output von fünf verschiedenen Taggern miteinander verglichen und eine Mehrheitsentscheidung für die Tag-Annotationen herangezogen. Zur Vergleichbarkeit mit unseren Daten sei gesagt, dass die Daten des KiDKo durch Interpunktion segmentiert sind und im Tagset keine Unterscheidungen zwischen satzinternen Partikeln und Adverbien gemacht werden. Zudem besteht dieses Korpus aus Transkripten sehr gleichartiger Interaktionen und Sprecher*innen (Berliner Jugendsprache) und enthält einen sehr hohen Anteil an Gesprächspartikeln, die einfach und eindeutig zu klassifizieren sind. Die Ergebnisse sind somit sehr gut, jedoch nicht direkt auf die Daten des FOLK-Korpus zu übertragen. Diese Studie zeigt jedoch, dass bereits eine kleine Menge sorgfältig annotierter Daten mit einem angepassten Tagset ausreicht, um sehr gute Tagging-Ergebnisse zu erzielen. Daraus lässt sich schlussfolgern, dass für einen Goldstandard für das FOLK-Korpus zwar mehr Daten als bei KiDKo benötigt werden, um die verschiedenen Interaktionstypen abzudecken (und um Problem (1), wie oben beschrieben, zu vermeiden); generell ist es jedoch durch eine sorgfältige Annotation des Goldstandards möglich, auch bei geringeren Mengen als die von Mieskes/ Strube (2006) ermittelten 221.000 Token gute Ergebnisse zu erzielen. Die Entwicklung des POS-Taggings für das FOLK-Korpus verlief daher in mehreren Schritten: <?page no="257"?> Erstellen des Goldstandards 257 − Zunächst wurde ein Goldstandard von circa 100.000 Token zusammengestellt und aufgeteilt in ein Development-Set, ein Test-Set und weitere Goldstandard-Daten. − Das Development-Set umfasst 24.229 Token, die mit dem Original-Tree- Tagger-Parameter-File getaggt und manuell korrigiert wurden. − Daran wurde ein erstes Neutraining vorgenommen und der Tagging-Output danach ausgewertet und am Test-Set evaluiert. − Das so entstandene Parameter-File wurde genutzt, um den restlichen Goldstandard zu taggen. − Dies vereinfachte die manuelle Korrektur des großen Goldstandards, an dem wiederum der Tagger neu trainiert wurde. − Mit diesem Parameter-File wurde das Test-Set nochmals getaggt und die Ergebnisse ausgewertet und evaluiert. Diese Schritte werden im Folgenden genauer beschrieben und ausgeführt, für eine Einordnung der Schritte im Gesamt-Schema sei noch einmal auf Abbildung 9 verwiesen. 3.6 Erstellen des Goldstandards Wichtige Kriterien bei der Erstellung des Goldstandards waren folgende: − Einerseits musste er groß genug sein, um statistische verwertbare Häufigkeiten für die gesprochene Sprache abzubilden und anhand dessen eine neue Parameter-Datei für den TreeTagger zu erstellen, − andererseits sollte er eine möglichst breite Repräsentation verschiedener Interaktionstypen enthalten, um zu vermeiden, dass es später eine Verzerrung der Annotationen in Bezug auf bestimmte Gesprächstypen gibt. Die Erstellung des Goldstandards ist das Schlüssel-Element der vorliegenden Arbeit für das Gelingen des automatisierten POS-Taggings für Transkripte spontansprachlicher Daten. Die Entwicklung des Goldstandards umfasst viele Schritte, die im Folgenden näher beschrieben werden: Zunächst werden die Auswahl der Transkripte des Goldstandards sowie die Kriterien für deren Auswahl geschildert. Die verschiedenen Transkripttypen werden anhand der Merkmale der Sprecher, des Sprechereignisses und der Sprache genauer dargestellt, da dies für das Tagging relevante Eigenschaften der Transkripte sind. Weiterhin wird dargestellt, welche Transkripte für die Erstellung der Sub-Sets herangezogen wurden, d. h. des Development-Sets und des Test-Sets. Ein wichtiger Schritt für den Erfolg des Taggings waren die Anpassungen des Tagsets und der Guidelines. Diese reflektieren die Unterschiede zwischen dem Tagging schriftsprachlicher Daten und von Transkrip- <?page no="258"?> Empirischer Teil 258 ten spontansprachlicher Daten und werden ebenfalls im Folgenden detailliert beschrieben. Des Weiteren wird ein Einblick in die Vorgehensweise der manuellen Annotation und Korrektur des Taggings gegeben. Dies umfasst einerseits die Darstellung der praktischen Annotation anhand der Illustration der verwendeten Software, andererseits den iterativen Prozess der Überprüfung der Reliabilität und Validität der Änderungen am Tagset und den Guidelines anhand von Inter-Annotator-Agreements. Hinzu kommt die Beschreibung verschiedener Methoden zur Beschleunigung der manuellen Korrektur des POS-Taggings der Transkripte. Dies umfasst beispielsweise die Entwicklung eines Post-Processings zur regelbasierten automatisierten Annotation spezifischer Wortformen oder auch das Erstellen eines Wörterbuchs für die Entwicklung eines neuen Parameter-Files, welches zusätzlich zum Neutraining des Taggers auf dem Development-Set die automatisierte Annotation verbesserte. Die auf diesem Parameter-File basierende automatisierte Annotation ermöglichte eine schnellere manuelle Korrektur des Goldstandards. Um die Reliabilität der Annotationen neuer Annotator*innen auf diesen neu getaggten Transkripten zu überprüfen, wurde erneut ein Inter-Annotator-Agreement berechnet. Auf den Ergebnissen dieser Evaluationen wurde die Endkorrektur des Goldstandards vorgenommen. 3.6.1 Kriterien für die Auswahl der Transkripte des Goldstandards Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) ist ein ständig wachsendes Korpus, das „den ‚kommunikativen Haushalt‘ (Luckmann 1986) der deutschsprachigen mündlichen Kommunikationspraxis in seinen wesentlichen Ausprägungen repräsentieren soll“ (Deppermann/ Hartung 2012, S. 418). Um ein möglichst präzises POS-Tagging zu ermöglichen, muss auch der Goldstandard als Repräsentation der wesentlichen Ausprägungen des FOLK-Korpus fungieren. Genauer bedeutet dies, dass der Goldstandard den Daten des FOLK-Korpus in ihrer Vielfalt möglichst ähnlich ist. Deppermann/ Hartung (2012) schlagen vor, dass das angestrebte Modell der Datenstratifikation des FOLK-Korpus auf drei Klassen von Parametern [beruhen sollte], die systematisch variiert werden, um ein ausgewogenes und damit qualitativ repräsentatives Korpus zusammenzustellen: - Merkmale des Sprechereignisses - Merkmale der Sprecher - Merkmale der Sprache. (ebd., S. 423) Der Goldstandard ist vor allem in Hinblick auf die Merkmale der Sprache zusammengestellt worden, Merkmale der Sprecher*innen und des Sprechereignisses wurden jedoch ebenso berücksichtigt. <?page no="259"?> Erstellen des Goldstandards 259 In der Erstellung des FOLK-Korpus werden verschiedene Metadaten zu den Sprecher*innen und Sprechereignissen erhoben: − Das Alter der Sprecher*innen, − der Aufnahmeort, − das Geschlecht der Sprecher*innen, − der Beruf der Sprecher*innen, − der Bildungsabschluss der Sprecher*innen, − die Anzahl der Sprecher*innen in der Interaktion, − die Art der Interaktion (z. B. ob Alltagsgespräche oder institutionelle Kommunikation etc.) Anhand der Verarbeitung der Transkripte, d. h. durch die Transkription in FOLKER sowie die orthografische Normalisierung können weitere Merkmale der Sprache in den Transkripten erhoben werden. Beispielsweise geben die Normalisierungsraten (ausgenommen Kapitalisierungen) einen Hinweis darauf, wie dialektal bzw. umgangssprachlich oder standardsprachlich die Daten sind. Die Anzahl der Überlappungen von Redebeiträgen, die durch die Text-Ton-Alignierung in FOLKER zugänglich sind, lässt Interpretationen zu, wie interaktiv bzw. diszipliniert ein Gespräch verläuft. Ebenso können die Anzahl der Alternativlautungen (bei denen die Transkribent*innen nicht eindeutig identifizieren können, was gesagt wird) und der markierten Abbrüche in einem Transkript auf den Grad der Formalität oder Interaktivität einer Interaktion hinweisen. Bei geregelten Turnübergaben und klaren Verhältnissen bezüglich des Rederechts kommt es zu deutlich weniger Überlappungen und Abbrüchen als bei stark interaktiven und informellen Gesprächen. Die Auswahl der Transkripte für den Goldstandard erfolgte zunächst nach folgenden Parametern: − Regionale Variation − Standardnähe − Formelle und informelle Gesprächsereignisse − Stark interaktive und disziplinierte Gespräche − Interaktionen mit wenigen und vielen Teilnehmern Die Transkripte wurden zunächst manuell ausgewählt, um die Zusammensetzung der Ereignis-Typen zu sichern. Aus diesen Transkripten wurden dann jeweils zufällig ausgewählte Stichproben von je circa 500 oder 1.000 Token entnommen. (Es besteht eine leichte Varianz, weil der jeweilige Beitrag noch vervollständigt wurde). Im Folgenden wird diese Auswahl genauer illustriert: <?page no="260"?> Empirischer Teil 260 Um die regionale Variation zu gewährleisten, wurden je circa 500 Wörter aus 25 Maptask-Experiment-Interaktionen entnommen und je circa 1.000 Wörter aus 14 verschiedenen sprachbiografischen Interviews. Die Maptask-Experimente sowie die sprachbiografischen Interviews wurden in ganz Deutschland an verschiedenen Standorten erhoben. Um weitestgehend standardsprachliche, formelle und wenig interaktive Daten institutioneller Kommunikation zu repräsentieren, wurden je circa 500 Wörter aus 19 Prüfungsgesprächen an verschiedenen Universitäten entnommen. Um dialektal geprägte, jedoch formelle und wenig interaktive Daten institutioneller Kommunikation zu repräsentieren, die zudem noch an eine breite Öffentlichkeit gerichtet sind, wurden je fünfmal circa 1.000 Token aus zwei verschiedenen Schlichtungsgesprächen zu Stuttgart 21 entnommen. Um dialektal geprägte, informelle und sehr interaktive Interaktionen zu repräsentieren, wurden je zwei oder dreimal circa 500 bis 1.000 Token aus neun Alltagsgesprächen entnommen. Um Gespräche mit einer großen Anzahl von Teilnehmern im Rahmen institutioneller Kommunikation zu repräsentieren, wurden aus sieben Berufsschulinteraktionen und acht Unterrichtsstunden an einem Wirtschaftsgymnasium jeweils circa 500 Token entnommen. Um Gespräche aus dem beruflichen Kontext zu repräsentieren, wurden je circa 1.000 Token aus acht Schichtübergaben, drei Meetings in einer sozialen Einrichtung, neun Trainings in einer Hilfsorganisation und aus einem Lehrer- Lehrer-Feedback-Gespräch zu einer Unterrichtsstunde entnommen. Zudem wurden für die Evaluation noch neunmal je circa 500 Token (1,3 Prozent des Goldstandards) aus Transkripten mit Kindersprache und circa 1.250 Token (3 Prozent des Goldstandards) aus neun sehr kurzen Interaktionen mit Lernersprache entnommen. Insgesamt umfasst der Goldstandard 145 Exzerpte aus 123 Ereignissen des FOLK-Korpus. Insgesamt umfasste dieses erste Sample 102.309 Token. Da durch die zufällige Auswahl einige Transkript-Ausschnitte doppelt gesampelt wurden, mussten diese Dubletten entfernt werden. Alles in allem umfasst der Goldstandard nun 99.247 Token und 10.500 Types. Beim Sampling wurde darauf geachtet, dass der Goldstandard entlang folgender Dimensionen möglichst ausgeglichen zusammengestellt wurde: − umgangssprachlich (und/ oder dialektal) vs. standardsprachlich, − formell vs. informell − und diszipliniert vs. interaktiv. <?page no="261"?> Erstellen des Goldstandards 261 41,6 Prozent der Transkripte (gemessen an der Tokenzahl) lassen sich als eher standardfern bezeichnen, 46,7 Prozent als standardnah und 11,8 Prozent sind keiner dieser zwei Kategorien klar zuzuordnen. Letzteres ist dann der Fall, wenn innerhalb eines Transkripts beispielsweise eine Sprecher*in standardnah spricht und eine andere Sprecher*in sehr dialektal spricht. Weiterhin sind 54,2 Prozent der Token aus eher formellen Interaktionen, wohingegen 45,8 Prozent der Token informellen Sprechereignissen entstammen. Die Verteilung nach diesen Dimensionen kann als ausgeglichen bezeichnet werden. Aufgrund des Bestrebens, Transkripte aus allen Gegenden Deutschlands einzubinden, zeichnet sich in der Stratifikation ein leichter Überhang an eher disziplinierten und eher formellen Interaktionen ab. Die sprachbiografischen Interviews und die Maptasks, die die regionale Stratifikation unterstützen, sind in vielen Fällen als formell und diszipliniert zu bezeichnen. Dies fällt vor allem bei der Verteilung der Token in Bezug auf die Dimension interaktive Interaktionen (40,4 Prozent) gegenüber disziplinierter Interaktionen (59,6 Prozent) ins Gewicht. Die Prüfungsgespräche, Schichtübergaben und Maptasks sind jedoch stellenweise ebenfalls recht interaktiv, was sich beispielsweise an recht hohen Overlap-Raten ablesen lässt, auch wenn der Rahmen eher dem einer disziplinierten Interaktion entspricht. 3.6.2 Darstellung der Transkripte des Goldstandards Für ein präziseres Bild werden im Folgenden die Transkripte des Goldstandards noch einmal genauer in Hinblick auf die Merkmale der Sprechereignisse, der Sprecher*innen und der Sprache hin dargestellt. Weiterhin wird reflektiert, inwiefern der Goldstandard in seinen Ausprägungen mit dem aktuellen Stand des FOLK-Korpus (Release 2.8 vom 6. 4. 2017) vergleichbar ist. Im Hinblick auf die Merkmale der Sprecher*innen lassen sich anhand der in der Datenbank hinterlegten Metadaten Informationen über das Geschlecht, das Alter und den Bildungsabschluss der Sprecher*innen quantifizieren. In Bezug auf die Merkmale des Sprechereignisses können Informationen über die Anzahl der Sprecher*innen und über das Geschlechterverhältnis quantifiziert werden. Darüber hinaus wird der Ort der Aufnahme der Interaktion erfasst und nach Dialektregionen nach Wiesinger (1982) klassifiziert. Diese Information ist einerseits bezogen auf den Aufnahmeort der Interaktion, ist jedoch durch die Einteilung in Dialektregionen auch mit den Merkmalen der Sprache verbunden. <?page no="262"?> Empirischer Teil 262 Weitere Merkmale der Sprache, die hier dargestellt werden, sind: a) Informationen über die Normalisierungsraten, die durch die manuelle orthografische Normalisierung der in literarischer Umlautschrift verfassten Transkripte ermittelt werden können, b) die Anzahl der Abbrüche auf Wortebene und Hesitationen, die ebenfalls in der orthografischen Normalisierung erfasst werden und schließlich c) die Overlap-Raten, die durch die Alignierung der Transkripte mit den Audiodaten bei der Transkription erfasst werden. 3.6.2.1 Merkmale der Sprecher FOLK umfasst Aufnahmen von Sprechern, die Deutsch als Erstsprache oder als Zweitsprache benutzen. Lernervarietäten werden nicht systematisch erfasst. Daten aus früheren Phasen der Sprachentwicklung (vor der Erwachsenensprache) sollen dagegen mit erfasst werden, da eine Erfassung des Sprechens unterschiedlicher Altersgruppen eine wichtige Stratifikationsdimension darstellt und da Interaktionen mit Kindern einen wichtigen Ausschnitt der gesellschaftlichen Kommunikationspraxis bilden. FOLK erfasst Daten von nicht-sprachgestörten Sprechergruppen. (Deppermann/ Hartung 2012, S. 422) Im Folgenden wird der Goldstandard in Bezug auf die Eigenschaften der Sprecher*innen dargestellt und mit denen aus dem FOLK-Gesamtkorpus verglichen. Hierzu werden die Tokenzahlen in Bezug auf die jeweiligen Parameter als Vergleichswert herangezogen. Insgesamt verzeichnet der Goldstandard 267 dokumentierte Sprecher*innen bei 99.247 Token. Im FOLK-Korpus sind es 730 Sprecher*innen bei 1.952.159 Token (Release 2.8 vom 6. 4. 2017). Darüber hinaus enthalten die Daten noch Beiträge von Sprecher*innen, denen keine Identität zugeordnet werden konnte, und die deshalb im Transkript mit XM (für männliche Stimme) und XW (für weibliche Stimme) ausgezeichnet werden. Sie sind zu unterscheiden von den Token, die unter „nicht dokumentiert“ aufgeführt werden. Bei diesen ist der jeweilige Parameter-Wert in den Metadaten nicht dokumentiert, die Token können jedoch eindeutig einer Sprecher-ID zugeordnet werden. Im Goldstandard sind 56,02 Prozent männliche Sprecher, 43,98 Prozent gaben an, weiblich zu sein. Im FOLK-Korpus ergibt sich ein ausgeglicheneres Bild. Dort gaben 48,35 Prozent an, männlich zu sein, 49,99 Prozent weiblich, 0,06 Prozent transgender, für 0,22 Prozent ist das Geschlecht nicht dokumentiert und 1,38 Prozent der Beiträge sind von nicht identifizierten Sprecher*innen (XM oder XW). Der Goldstandard zeigt somit im Gegensatz zum FOLK- Korpus eine leichte Verschiebung hin zu männlichen Sprechern, die jedoch nicht sehr stark ins Gewicht fällt. <?page no="263"?> Erstellen des Goldstandards 263 Aus nachfolgender Tabelle 7 geht hervor, dass die Sprecher*innen des Goldstandards im Schnitt etwas jünger sind als die Sprecher*innen des Gesamt- FOLK-Korpus. Der Anteil an Kindersprache ist jedoch in etwa gleich, ebenso machen die Sprecher*innen im Alter zwischen 15 und 50 Jahren den größten Anteil der Datensätze aus (68,14 Prozent im FOLK-Korpus und 72,91 Prozent im Goldstandard). Die jeweils meisten Sprecher*innen kommen aus der Altersklasse zwischen 21 und 30 Jahren. Alter FOLK Goldstandard k. A. 9,35 % 11,96 % XW/ XM 1,38 % 1,92 % 01-10 1,22 % 1,08 % 11-20 10,03 % 23,30 % 21-30 30,34 % 24,53 % 31-40 13,82 % 9,98 % 41-50 14,40 % 15,83 % 51-60 9,22 % 4,65 % 61-70 4,14 % 1,96 % 71-80 6,00 % 4,80 % 81-90 0,09 % 0,00 % Tab. 7: Verteilung des Alters der Sprecher*innen Höchster Bildungsabschluss FOLK Goldstandard Nicht vorhanden 1,76 % 1,80 % Grundschule 0,01 % 0,00 % Hauptschulabschluss 3,68 % 2,74 % Mittlere Reife 8,64 % 11,16 % Berufskolleg 0,04 % 0,04 % Fachhochschulreife 1,76 % 0,79 % Abitur 25,39 % 22,45 % Fachhochschulabschluss 4,26 % 1,75 % Hochschulabschluss 27,46 % 17,34 % Promotion 7,35 % 6,50 % Habilitation 2,10 % 2,59 % Nicht dokumentiert 16,17 % 30,92 % XM/ XW 1,38 % 1,92 % Tab. 8: Verteilung der Bildungsabschlüsse der Sprecher*innen <?page no="264"?> Empirischer Teil 264 In Bezug auf den Bildungsabschluss der Sprecher*innen lässt sich konstatieren, dass auch hier die Datenlage im FOLK-Korpus und im Goldstandard nicht sehr stark voneinander abweichen, wie Tabelle 8 zu entnehmen ist. Leichte Abweichungen sind vor allem bei den Sprecher*innen mit dem Abschluss der mittleren Reife festzustellen, die im Goldstandard etwas stärker vertreten sind als in FOLK. Sprecher, die einen Hochschulabschluss haben, sind im Goldstandard im Vergleich zum Gesamt-FOLK-Korpus deutlich unterrepräsentiert mit einer Differenz von über zehn Prozent. In Anbetracht der Stratifikationspläne für die Ausweitung des FOLK-Korpus, die eine Ausrichtung weg vom „Akademiker-Korpus“ vorsehen, wird diese Verschiebung auf längere Sicht hin jedoch eventuell aufgehoben bzw. angeglichen. Eine größere Differenz zeigt sich auch für die Sprecher*innen, bei denen der Bildungsabschluss nicht dokumentiert ist. Dies rührt daher, dass im Goldstandard ein nicht unerheblicher Anteil an Daten aus den Maptask-Experimenten stammt, für deren Sprecher*innen keine Dokumentation der Bildungsabschlüsse vorliegt, da sie diesen als Gymnasialschüler noch nicht erreicht haben. Tabelle 8 gibt daher stellenweise ein verzerrtes Bild ab, da sie diese recht große Gruppe von Sprecher*innen im Goldstandard nicht berücksichtigt. 3.6.2.2 Merkmale des Sprechereignisses Insgesamt sind in der DGD 259 Sprechereignisse dokumentiert, der Goldstandard enthält 123 Sprechereignisse. Hinsichtlich der Sprechereignisse im FOLK-Korpus gilt: „Die Stratifikation nach Merkmalen des Sprechereignisses strebt an, die Variation der kommunikativen Handlungspraxis nach kommunikationsbzw. interaktionstheoretischen Kriterien zu erfassen“ (Deppermann/ Hartung 2012, S. 423). Deppermann/ Hartung (ebd.) schlagen für die Systematisierung der Stratifikation des FOLK-Korpus Gattungen folgende Parameter vor (ebd., S. 423- 425): − Gesellschaftlicher Sektor […] − Ort […] − Zeit […] − Zugänglichkeit für Teilnehmer […] − Institutionalität […] − Mediale Realisierung […] − Anzahl der Teilnehmer […] − Publikum […] − Sprecherwechsel […] − Vertrautheit der Teilnehmer […] <?page no="265"?> Erstellen des Goldstandards 265 − Gesprächszweck […] − Soziale Rollen […] − Themenvorgabe […] − Zeitliche Vorgabe […] − Vorbereitung […] − Empraktischer Bezug […] Sie führen dazu noch an: „Nicht jedes dieser Merkmale ist zur Charakterisierung jeder Gattung relevant“ (ebd., S. 423). Auch die Ereignisse im Goldstandard sind hinsichtlich dieser Parameter breit gefächert aufgestellt, wie an den folgenden Beispielen exemplarisch dargestellt wird. So gibt es beispielsweise Sprechereignisse aus verschiedenen gesellschaftlichen Sektoren, wie beispielsweise die Schlichtungsgespräche aus dem Sektor Politik, die Spielinteraktionen und Tischgespräche aus dem Sektor Freizeit, die Trainings in der Hilfsorganisation und die Schichtübergaben aus dem Sektor Medizin, die Unterrichts-Interaktionen aus dem Sektor Bildung und die Gespräche aus dem Polizeirevier aus dem Sektor Recht. Weiterhin sind die Gesprächsereignisse an verschiedene Örtlichkeiten gebunden, so sind die Tischgespräche und Paargespräche in der Wohnung oder im Garten, die Schichtübergaben im Krankenhaus, die Zeugenverhöre auf dem Polizeirevier und der Unterricht in Klassenräumen etc. Darüber hinaus sind im FOLK-Korpus wie auch im Goldstandard Sprechereignisse mit und ohne Publikum enthalten. Ein großes (Fernseh-)Publikum wird beispielsweise bei den Stuttgart 21 Schlichtungsgesprächen angesprochen und ein kleineres Publikum (Trainer und Prüfer) besteht bei den Trainingseinheiten in der Hilfsorganisation. Bei den Alltags-, Familien- und Spielinteraktionen beispielsweise handelt es sich um private Gespräche ohne Publikum. Auch in Hinsicht auf die anderen Parameter ist der Goldstandard hinreichend stratifiziert, eine detaillierte Beschreibung der einzelnen Ausprägungen scheint an dieser Stelle jedoch wenig zielführend. Drei Parameter, die sich quantifizieren lassen, d. h. die Anzahl sowie das Geschlecht der Teilnehmer im Gespräch und der Herkunftsort der Aufnahme, werden im Folgenden mit den Daten des Goldstandards verglichen. In Bezug auf die Anzahl der Sprecher*innen in den Sprechereignissen zeigt sich, dass die Stratifikation sehr ähnlich gelagert ist, wie auch Tabelle 9 zeigt. Das FOLK-Korpus enthält zwar im Gegensatz zum Goldstandard auch monologische Sprechereignisse mit nur einem Sprecher, es handelt <?page no="266"?> Empirischer Teil 266 sich hierbei jedoch nur um zwei Ereignisse, namentlich um Aufnahmen einer Greifvogelschau, die nur 0,37 Prozent der Token im Gesamtkorpus ausmachen. Relative Häufigkeit der Token in Prozent Relative Häufigkeit der Events in Prozent Anzahl der Sprecher*innen FOLK Goldstandard FOLK Goldstandard 1 0,37 0 0,77 0 2 23,31 31,77 41,7 40,65 3 21,57 21 24,32 25,2 4 15,01 15,48 12,36 8,94 5 9,92 8,67 6,56 7,32 6 4,10 5,09 2,32 4,07 3-6 50,60 50,24 45,56 45,53 7 5,95 0 2,7 0 8 1,50 0 0,77 0 11 1,19 0 0,39 0 15 0,52 0 0,39 0 7-15 9,16 0 4,25 0 17 0,28 0,5 0,39 0,81 18 1,11 1,52 1,16 2,44 19 1,57 1,01 1,16 1,63 21 0,76 1,02 0,77 1,63 22 1,03 1,53 1,16 2,44 23 0,28 0,51 0,39 0,81 24 0,58 1,01 0,77 1,63 25 0,36 0,51 0,39 0,81 17-25 5,98 7,61 6,19 12,20 31 2,73 0 0,39 0 34 2,60 0 0,39 0 35 2,60 5,29 0,39 0,81 36 2,66 5,1 0,39 0,81 31-36 10,58 10,39 1,56 1,62 7-36 25,72 18 12 13,82 Tab. 9: Verteilung der Anzahl der Sprecher*innen, Angaben der relativen Häufigkeit nach Verteilung der Token und nach Events <?page no="267"?> Erstellen des Goldstandards 267 Vergleicht man die dyadischen Sprechereignisse, so zeigt sich, dass die relative Häufigkeit dieser Ereignisform in beiden Vergleichsmengen nahezu identisch ist (41,7 Prozent der Events im FOLK-Korpus und 40,65 Prozent der Ereignisse im Goldstandard). Betrachtet man jedoch die Anzahl der Token in diesen Ereignissen, zeigt sich eine Abweichung von über acht Prozent. Diese Abweichung lässt sich durch die Anzahl der Maptasks und sprachbiografischen Interviews im Goldstandard erklären, die zum Ausgleich der Regionalen Varianz in einem vergleichsweise hohen Maß in die Datenauswahl einbezogen wurden und die allesamt dyadische Gesprächsereignisse darstellen. Sehr ähnlich sind die relativen Häufigkeiten der Sprechereignisse mit drei bis sechs Sprecher*innen. Im FOLK-Korpus sind 45,56 Prozent der Ereignisse, im Goldstandard 45,53 Prozent der Ereignisse dieser Kategorie zuzuordnen, was in 50,6 Prozent bzw. 50,24 Prozent der Token resultiert. Im Goldstandard handelt es sich bei diesen Gesprächsereignissen beispielsweise um Familien- und Tischgespräche oder auch Spielinteraktionen. Leichte Abweichungen zeigen sich bei den Ereignissen mit mehr als sechs Sprecher*innen. Bei diesen Sprechereignissen handelt es sich beispielsweise um Unterrichtsstunden in einem Wirtschaftsgymnasium oder einer Berufsschule oder um die Schlichtungsgespräche zu Stuttgart 21. Hier zeigt sich, dass die relative Häufigkeit der Ereignisse im FOLK-Korpus mit 12 Prozent und der des Goldstandards mit 13,82 Prozent zwar vergleichbar hoch sind, jedoch die relativen Häufigkeiten der Token-Zahlen mit 25,72 Prozent bzw. 18 Prozent merklich voneinander abweichen. Dennoch kann davon ausgegangen werden, dass die Gesprächstypen, die unter Beteiligung so vieler Sprecher*innen vorhanden sind, im Goldstandard zu genüge repräsentiert sind. Ein weiteres Merkmal von Sprechereignissen, das von Deppermann/ Hartung (2012) allerdings nicht angesprochen wurde, ist das Geschlecht der Teilnehmer*innen im Gespräch. Tabelle 10 illustriert, ob es sich um eine reinweibliche, reinmännliche oder gemischte Gesprächsrunde handelt. Hier zeigen sich deutliche Abweichungen des Goldstandards im Vergleich zum FOLK- Gesamtkorpus. Es sind vergleichsweise mehr Gespräche mit nur weiblichen oder nur männlichen Teilnehmern im Goldstandard als mit weiblichen und männlichen Teilnehmern. Dies drückt sich auch in den relativen Häufigkeiten der Token-Zahlen aus. Hier zeigt sich, dass vergleichsweise 3,16 Prozent mehr Token aus Gesprächen mit nur männlichen Teilnehmern stammen, 8,29 Prozent mehr Token aus Gesprächen mit nur weiblichen Teilnehmern und dafür 11,45 Prozent weniger Token aus Gesprächen mit Teilnehmern beider Geschlechter. <?page no="268"?> Empirischer Teil 268 Teilnehmer Relative Häufigkeit der Token in Prozent Relative Häufigkeit der Events in Prozent FOLK Goldstandard FOLK Goldstandard Nur männlich 6,8 9,96 5,41 10,57 Nur weiblich 5,99 14,28 9,65 17,89 Weiblich und männlich 87,21 75,76 84,94 71,54 Tab. 10: Verteilung des Geschlechts der Teilnehmer*innen Auch dies lässt sich dadurch erklären, dass der Goldstandard vergleichsweise mehr Token aus dyadischen Sprechereignissen enthält und diese wiederum häufig Teilnehmer nur eines Geschlechts enthalten (z. B. Maptasks oder sprachbiografische Interviews). Wie aus den Balken in Abbildung 12 und Abbildung 13 zu schlussfolgern ist, besteht im FOLK-Korpus ein Ungleichgewicht der Daten in Bezug auf die regionale Herkunft, welches im Verhältnis im Goldstandard noch stärker ausgeprägt ist. Die Einteilung der Dialektgebiete geht auf die Einteilung nach Wiesinger (1982, S. 831) zurück. Generell ist im FOLK-Korpus eine klare Dominanz von Daten aus der rheinfränkischen Sprachregion festzustellen (24,78 Prozent der Token). Diese Dominanz ist im Verhältnis im Abb. 12: Verteilung der Tokens nach Region in FOLK (Einteilung nach Wiesinger 1982) Abb. 13: Verteilung der Tokens nach Region im Goldstandard (Einteilung nach Wiesinger 1982) <?page no="269"?> Erstellen des Goldstandards 269 Goldstandard sogar noch ausgeprägter (35 Prozent der Token), da die breite Varianz der Gesprächstypen im FOLK-Korpus vorwiegend aus dieser Region stammt. Um einen regionalen Ausgleich von Ost und West zu schaffen, wurden im Verhältnis deutlich mehr Transkripte aus der obersächsischen und bairischen Sprachregion im Goldstandard aufgenommen. Zur deskriptiven Beschreibung von Interaktionen wird häufig auch das Nähe/ Distanz-Kontinuum von Koch/ Oesterreicher (1985) herangezogen. Im Folgenden wird daher dargelegt, dass auch in Hinblick auf die dort genannten Parameter der Goldstandard breit gefächert aufgestellt ist. Bei einer Analyse der Transkripte des Goldstandards zeigt sich, dass nahezu alle Bereiche des medial Mündlichen auf dem Nähe/ Distanz-Kontinuum von Koch/ Oesterreicher (ebd.) abgedeckt wurden (zur Darstellung des Modells siehe Kapitel 2.1 „Grammatik der gesprochenen Sprache“). So lässt sich in der Betrachtung der Zusammensetzung des Goldstandards feststellen, dass in Hinblick auf die Kommunikationsbedingungen die jeweiligen Endpunkte des Kontinuums abgedeckt sind: − Privatheit ↔ Öffentlichkeit: Sehr privat sind beispielsweise das Paargespräch oder das Tischgespräch einer Familie, wohingegen die Schlichtungsgespräche von Stuttgart 21 auch durch die Fernseh-Übertragung vor dem Hintergrund einer großen Öffentlichkeit stattfanden. Eher zwischen diesen Polen befinden sich beispielsweise Begegnungen auf dem Polizeirevier. − Vertrautheit ↔ Fremdheit: Auch hier stehen Familien- und Paargespräche an dem einen Ende des Kontinuums, während sich die Gesprächsteilnehmer im Polizeirevier oder bei den sprachbiografischen Interviews zum ersten Mal begegnen. Schulunterricht, Prüfungsgespräche und Treffen im Arbeits-Kontext mit Kollegen (z. B. Schichtübergaben) sind eher in der Mitte dieses Kontinuums anzusiedeln. − Emotionalität ↔ keine Emotionalität: Hoch-Emotional sind beispielsweise ein Streitgespräch unter Studenten in der Mensa oder auch einige Auszüge aus verschiedenen Tischgesprächen, wohingegen die elizitierten Daten aus den Maptask-Experimenten wenig Emotionalität erwarten lassen. − Situations- und Handlungseinbindung ↔ Situations- und Handlungsentbindung: Eine starke Situations- und Handlungseinbindung zeigt sich bei den Spielinteraktionen, bei den Maptask-Experimenten, der Umräum-Interaktion ebenso wie bei den Ersthelfer-Trainings. Im Gegensatz dazu stehen sprachbiografische Interviews oder auch das Meeting in der sozialen Einrichtung, die in einem ruhigen Gesprächs-Setting nur auf Handlungen referieren, jedoch mit wenig aktiven Handlungen verbunden sind. <?page no="270"?> Empirischer Teil 270 − Referenzbezug stark abhängig von der Sprecher*innen-Origo ↔ Referenzbezug maximal unabhängig von der Sprecher*innen-Origo: In der Umräum-Interaktion wie auch in den Ersthelfer-Trainings ist der Referenzbezug stark abhängig von der Sprecher*innen-Origo, während hingegen bei den Prüfungsgesprächen, wie auch in den sprachbiografischen Interviews, der Referenzbezug meist unabhängig von der Sprecher*innen-Origo ist. − Physische Nähe ↔ physische Distanz: Alle Daten unseres Goldstandards sind Face-to-Face-Interaktionen, d. h. eine physische Nähe ist zwingend gegeben. Ausnahmen hierzu sind in gewisser Weise die Maptask-Experimente, da bei ihnen zwischen den Testpersonen eine Sichtschutzwand aufgebaut ist, und auch die Stuttgart 21 Schlichtungsgespräche, in denen sich die Sprecher*innen immer wieder an ein größeres (Fernseh-)Publikum wenden. − Intensive Kooperation ↔ keine Kooperation: Auch in Hinblick auf diese Kommunikationsbedingung ist festzustellen, dass nahezu alle Gespräche des Goldstandards Kooperation der Gesprächsteilnehmer zeigen. Eine Ausnahme hiervon sind wiederum die Ersthelfer-Trainings, in denen der Patient häufig nicht responsiv ist, die Ersthelfer jedoch trotzdem mit ihm sprechen. − Dialogizität ↔ Monologizität: Viele Monologe enthalten die Prüfungsgespräche, in denen die Studenten ausführliche Antworten auf die Prüfungsfragen geben und die Schlichtungsgespräche zu Stuttgart 21, in denen Experten zu bestimmten Themen Vorträge ausgearbeitet haben, sowie auch die sprachbiografischen Interviews, in denen der Interviewte häufig längere Passagen aus seinem Leben erzählt. Im Gegensatz dazu sind die Tischgespräche, seien es die Familie beim Mittagessen oder die Freunde, die im Garten oder in der Mensa zusammensitzen, von starker Dialogizität geprägt. − Spontaneität ↔ Reflektiertheit: Ebendiese Tischgespräche sowie auch die Spielinteraktionen sind sehr spontan, wohingegen die Expertenvorträge in den Stuttgart 21 Schlichtungsgesprächen geplant und vorab eingeübt sind und somit als eher reflektierte Sprache angesehen werden können. − Freie Themenentwicklung ↔ starke Themenfixierung: Eine starke Themenfixierung zeigt sich bei den Schichtübergaben in einer Krankeneinrichtung, bei den Maptask-Experimenten, bei den verschiedenen Unterrichtsstunden, bei dem Lehrer-Lehrer-Feedback zu einer Unterrichtsstunde sowie auch bei den Prüfungsgesprächen. Freie Themenentwicklung ist ein Merkmal aller im Goldstandard vorhandenen Alltagsinteraktionen. <?page no="271"?> Erstellen des Goldstandards 271 Bezug genommen wurde hier auf die Transkripte, die die jeweiligen Enden des Kontinuums repräsentieren. Für alle Variablen der Kommunikationsbedingungen gibt es jedoch auch Transkripte, die eher innerhalb des jeweiligen Kontinuums anzusiedeln sind. Diese Aufstellung sollte deutlich machen, dass der Goldstandard die gesamte Spannweite möglicher Kommunikationsbedingungen abdeckt. Eine Auflistung der einzelnen Transkripte befindet sich im Anhang. 3.6.2.3 Merkmale der Sprache Ein nationales Gesprächskorpus zielt nicht auf eine systematische Erfassung der arealen Variation und des sich zunehmend ausbildenden Dialekt-Standard- Kontinuums ab (vgl. dazu Berend 2005). Die Erfassung der Breite kommunikativer Gattungen und Anlässen [sic! ] führt aber dazu, dass verschiedene Grade der Standardnähe und -ferne im Korpus vorkommen, die für die unterschiedlichen Gattungen und Anlässe (z. B. aufgrund von Formalität und Vertrautheit der Beteiligten) charakteristisch sind. Diese Variation gehört nicht einfach zu den Sprechermerkmalen, denn die meisten Sprecher verfügen über ein Spektrum differenziell, d. h., gattungs- und adressatenspezifisch einzusetzender Varianten. (Deppermann/ Hartung 2012, S. 433) Die Bearbeitung der Transkripte des FOLK-Korpus lässt verschiedene Auswertungen der Daten in Bezug auf die Merkmale der Sprache hinsichtlich der oben genannten Variation zu. Durch die orthografische Normalisierung der in literarischer Umschrift verfassten Transkripte ist es möglich, Rückschlüsse auf die Sprache in Hinblick auf Standardnähe oder -ferne zu ziehen. Schließt man die orthografische Normalisierung von Kapitalisierungen (Großschreibung von Nomen und Eigennamen) aus, erhält man Informationen darüber, wie viele der Token von Umgangssprache oder Dialekt zu standardorthografischen Formen korrigiert wurden. So weist beispielsweise eine Vorlese-Interaktion (Abb. 14) eine äußerst geringe Normalisierungsrate von nur 5,76 Prozent auf, wohingegen ein Tischgespräch aus der gleichen Dialektregion (Abb. 15) eine sehr hohe Normalisierungsrate von 48,81 Prozent aufweist. Zur Veranschaulichung dieser Varianz sind im Folgenden zwei Screenshots von Auszügen genannter Transkripte aus dem Tool OrthoNormal (Schmidt 2014a) angefügt. In diesem Tool werden orthografische Normalisierungen an den Transkripten vorgenommen. Jede Korrektur ist in eckigen Klammern hervorgehoben. Die Screenshots der Abbildungen 14 und 15 zeigen, wie stark die orthografische Normalisierung zwischen standardnahen und standardfernen Transkripten voneinander abweicht. <?page no="272"?> Empirischer Teil 272 Abb. 14: Screenshot Bearbeitung Vorlese - Interaktion in OrthoNormal, Transkript FOLK_E_00017_SE_01_ T_01_DF_01_S_1, 00: 07 - 00: 36 105 Abb. 15: Screenshot Normalisierung im Tischgespräch in OrthoNormal, Transkript FOLK_E_00143_SE_01_ T_05_DF_01, 02: 12: 26 - 02: 12: 55 106 Der Mittelwert der Normalisierungsraten der Transkripte des Goldstandards liegt bei 21,07 Prozent mit einer Standardabweichung von 8,89 Prozent. Der Mittelwert der Normalisierungsrate im FOLK-Gesamtkorpus liegt bei 19,72 Prozent mit einer Standardabweichung von 6,43 Prozent. Bei einer Abweichung des Mittelwertes des Goldstandards von nur 1,35 Prozent kann dieser in Bezug auf das Kriterium Standardnähe oder -ferne als repräsentativ für das Gesamt-FOLK-Korpus angesehen werden. 105 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00017_SE_01_T_01_DF_01&cID=c9&wID=&textSize=300&contextSize=8. 106 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00143_SE_01_T_05_DF_01&cID=c27&wID=&textSize=300&contextSize=8. <?page no="273"?> Erstellen des Goldstandards 273 Ein weiteres Merkmal der Sprache, das ebenfalls über die Normalisierung auswertbar gemacht wird, ist der Disfluency-Wert. Dieser besteht aus einer quantifizierten Auswertung der Hesitationspartikeln und der Abbrüche auf Wortebene, d. h. wie viele Token eines Transkripts bei der Äußerung abgebrochen werden. Gemeinsam lassen sie Rückschlüsse auf den Sprachfluss der Sprecher*innen zu bzw. auf stockende Sprache. Wortinterne Abbrüche werden auf der Ebene der Normalisierung mit dem Dummy „%“ gekennzeichnet und Hesitationspartikeln werden alle zu dem Lexem äh normalisiert. Solche Sprachunflüssigkeiten lassen sich mit der Gesamt-Token-Menge des Transkripts ins Verhältnis setzen und resultieren in dem Disfluency- Wert. Im Goldstandard befinden sich Transkripte, die kaum Abbrüche oder Hesitationen aufweisen, wie beispielsweise oben genannte Vorlese-Interaktion oder aber sehr viele, wie beispielsweise das Prüfungsgespräch (Beispiel 77), in dem 6,73 Prozent der Token aus Hesitationspartikeln oder wortinternen Abbrüchen bestehen. Prüfling CR spricht deutlich stockend, was nicht nur durch die acht Hesitationspartikeln in zwei Sätzen deutlich wird, sondern auch durch Wortwiederholungen (Zeile 14) und durch viele lange Pausen innerhalb der Satzkonstruktionen. Letztere können ohne eine vorangegangene syntaktische Segmentierung der Daten leider nicht in die Berechnung des Disfluency- Wertes eingehen. Beispiel 77: Prüfungsgespräch, Transkript FOLK_E_00031_SE_01_T_01_ DF_01, 14: 58-15: 29 107 01 SA wenn schon DANN (.) ne? 02 CR ja °hh ähm (.) das steht hier in ner- 03 (0.48) 04 CR präpositioNALphrase- 05 (.) das HEISST ähm - 06 (3.91) 07 CR äh (.) es IST äh - 08 (0.84) 09 CR auf jeden fall (.) DEkliniert und an ähm - 10 (0.43) 11 CR MARkenartikel (.) angepasst? 12 (0.26) 13 SA hm_hm 107 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00031_SE_01_T_01_DF_01&cID=c624&wID=&textSize=400&contextSize=12. <?page no="274"?> Empirischer Teil 274 14 CR mit mit der e ENdung? 15 (0.68) 16 CR ähm 17 (0.47) 18 CR es ist aber nicht (.) äh KOMpariert (.) das heißt es steht im (.) äh - 19 (0.95) 20 CR POsitiv? 21 (1.0) 22 SA hm_hm Der Mittelwert der Disfluency-Werte der Transkripte des Goldstandards liegt bei 1,72 Prozent mit einer Standardabweichung von 1,69 Prozent. Eine genauere Auswertung zeigt, dass hauptsächlich die Prüfungsgespräche und auch einige Maptasks sehr hohe Disfluency-Werte aufweisen. Eine Abfrage über das FOLK-Korpus in der DGD zeigt, dass Hesitationspartikeln eine relative Häufigkeit von 2,1 Prozent aufweisen und wortinterne Abbrüche eine relative Häufigkeit von 0,72 Prozent. Über alle Daten verteilt ist also die Sprache des Goldstandards weniger durch Abbrüche und Hesitationen gekennzeichnet als der Durchschnitt der Daten im Gesamt-FOLK. Ein weiteres Merkmal gesprochener Sprache ist Simultaneität von Sprachäußerungen mehrerer Sprecher*innen. Durch die Alignierung der Transkripte mit der Audiodatei bei der Transkription lassen sich Overlap-Raten berechnen, d. h., wie häufig in einem Transkript zwei oder mehr Sprecher*innen gleichzeitig sprechen oder genauer: wie viele Token eines Transkripts aus solchen überlappenden Gesprächssituationen stammen. Solche Überlappungen lassen sich generell in zwei Typen unterteilen: 1) Backchannel- und Rezeptionssignale während der Äußerungen einer anderen Sprecher*in: Diese beeinflussen selten den Redefluss und können als ein Zeichen der Kooperation der Interaktionsteilnehmer gesehen werden. 2) Gleichzeitiges Sprechen: a) Eine Sprecher*in fällt einer anderen Sprecher*in ins Wort, beispielsweise um ihm oder ihr zu wiedersprechen oder auch eine Äußerung in seinem oder ihrem Sinne zu vervollständigen. Dies hat häufig Abbrüche und/ oder Selbst- oder Fremdreparaturen zur Folge und das Rederecht muss in vielen Fällen neu ausgehandelt werden. In Beispiel 78 wird Sprecher LK zweifach von LP unterbrochen, was zu einer Unterbrechung und somit einer Segmentierung seiner Aussage in Zeile 02 und in Zeile 04 führt. <?page no="275"?> Erstellen des Goldstandards 275 Beispiel 78: Gespräch unter Studenten, Transkript FOLK_E_00042_ SE_01_T_02_DF_01, 55: 12-55: 20 108 01 LK du hörst mir gar net immer ganz ZU ne? = 02 LK =du 03 LP doch [ich hör dir SCHON zu. ] 04 LK [f fällst mir immer in den SATZ bevor ich ]überhaupt den satz 05 AM °h 06 LK [zu ende ][gesprochen hab.] 07 LP [ n][ee, ] b) Simultan geführte Konversationen: Zwei Sprecher*innen sprechen gleichzeitig, nehmen aber keinen Bezug aufeinander, da sie sich an andere Gesprächspartner*innen wenden. In Beispiel 79 unterhalten sich die Sprecherinnen LS und AM über das Reiseziel Bangkok, während LK und LP über Veränderungen im Flirtverhalten von Männern und Frauen diskutieren. Beispiel 79: Gespräch unter Studenten, Transkript FOLK_E_00042_ SE_01_T_02_DF_01, 51: 41-51: 54 109 01 LS aber BANGkok is so schö[n ich möcht auch] unbedingt noch mal hin. 02 LK [ähm ] 03 (0.22) 04 LS aber es is halt so TEU[er- ((lacht kurz)) ] 05 LK [auch ANdere frauen aufzureißen] 07 AM [hast du irgendwelche TIPPS? ] 08 (0.24) 09 LK [und dann] is es glaub ich a des is so ne entwicklung [die hat keiner in den letzten zehn JAHren gemacht.] 10 AM [was ] 11 LS [halt den (.) paLAST einfach angucke]n. 12 LS [die ganz][en TEMpel und alles des halt echt schön- ] 13 LK [ja? ] 14 LP [ja aber TROTZdem muss man nich (.) sel- ] 15 LK [dahingegangen dass die mädels dann sagen] des [machen wir] [dann AUCH. ] 16 LP [als- ] 17 AM [des steht a]uf meiner LISte alles. 108 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00042_SE_01_T_02_DF_01&cID=c1147&wID=&textSize=200&contextSize=4. 109 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00042_SE_01_T_02_DF_01&cID=c962&wID=&textSize=300&contextSize=8. <?page no="276"?> Empirischer Teil 276 Im Goldstandard liegt der Mittelwert der Overlap-Raten der Transkripte bei 14,4 Prozent mit einer Standardabweichung von 10,05 Prozent. Besonders niedrige Overlap-Raten weisen die Vorlese-Interaktionen auf (zwischen 0,4 Prozent und 4,79 Prozent) und besonders hohe Overlap-Raten weist das bereits oben zitierte Tischgespräch (Abb. 15) auf (48,81 Prozent). Dieses rein technisch ermittelte Maß umfasst auch Schisming, d. h. die Teilung eines Gesprächs in mehrere, beispielsweise wenn in einer Interaktion von vier oder mehr Teilnehmern parallel zwei oder mehr Gespräche geführt werden. Zusammenfassend ist festzustellen, dass der Goldstandard in Hinblick auf die Merkmale der Sprecher*innen, der Sprechereignisse und der Merkmale der Sprache, soweit diese quantifizierbar sind, stets vergleichbar in ihren Ausprägungen mit denen des FOLK-Gesamt-Korpus ist. Die Entwicklung des POS-Taggings anhand dieser Daten und auch die Evaluation desselben anhand des Goldstandards können also als repräsentativ für das gesamte FOLK- Korpus angesehen werden. 3.6.3 Sub - Sets des Goldstandards 3.6.3.1 Das Development - Set In einem ersten Schritt wurden dem Goldstandard Transkriptausschnitte im Gesamtumfang von circa einem Viertel des gesamten Goldstandards (24.229 Token) entnommen. Diese Daten wurden nach einem Tagging mit dem original TreeTagger-Parameter-File mit Hilfe des Tools OrthoNormal manuell korrigiert (eine genauere Darstellung der Vorgehensweise folgt in Kapitel 3.8.1 „OrthoNormal, das Tool zur manuellen Korrektur des POS-Taggings“). Anhand dieser Daten konnten Änderungen am Tagset und an den Guidelines ausprobiert und diskutiert werden. Das Development-Set ist eine Auswahl von Transkripten, die eine möglichst große Varianz von Gesprächstypen aufweisen. So ist zum Beispiel Kindersprache ebenso wie Lerner- und wie Erwachsenensprache enthalten, es gibt Transkripte institutioneller Kommunikation (z. B. Prüfungsgespräche oder der Unterricht in einer Berufsschule), aber auch privater Kommunikation (z. B. ein Paargespräch, Gespräche unter Studenten oder in der Familie). Darüber hinaus enthält das Development-Set stark interaktive Gespräche (z. B. die Spielinteraktion unter Erwachsenen oder die Tischgespräche) und ebenso Gespräche mit klar geregelter Rederechtsvergabe (z. B. die Stuttgart 21 Schlichtungsgespräche oder die sprachbiografischen Interviews). Auf diese Weise konnten möglichst viele Phänomene und Probleme bereits in der Entwicklungsphase identifiziert werden. Weiterhin wurde das Development-Set genutzt, um daran den Tagger, wenn auch mit geringem Input, neu zu trainie- <?page no="277"?> Erstellen des Goldstandards 277 ren. Daher wurde dieses Set nochmals unterteilt in ein Trainings-Set von 19,696 Token und ein Evaluations-Set von 5.017 Token. Die Ergebnisse dieses Neutrainings werden im Kapitel 3.12.2 „Neutraining mit Development-Set und Lexikon“ dargestellt. Nach der Überarbeitung der Tagging-Guidelines und nach der Einführung neuer Tag-Kategorien (wie im Kapitel 3.7.4 „Erste Änderungen am Tagset und den Guidelines“ beschrieben), wurde an diesem Development-Set auch ein Inter-Annotator Agreement gemessen, um sicherzustellen, dass die Änderungen an Tagset und Guidelines zuverlässig umgesetzt werden können. 3.6.3.2 Test - Sets Um sicherzustellen, dass das Tagging auf verschiedensten Daten des FOLK- Korpus gute Ergebnisse erzielt, wurde manuell ein Test-Set zusammengestellt, an dem das Tagging nach dem Neutraining mit dem restlichen Goldstandard evaluiert werden konnte. Das Test-Set ist somit wiederum ein Sub-Set des Goldstandards, das diesen möglichst in allen Facetten repräsentiert. Insgesamt enthält dieses Test-Set 9.540 Token, was in etwa einem Anteil von zehn Prozent des Goldstandards entspricht. Es enthält Transkripte aus verschiedenen Sprachregionen Deutschlands, von alemannischen Sprecher*innen im Süden Deutschlands bis hin zu nordniederdeutschen Sprecher*innen im Norden Deutschlands, von Sprecher*innen der ripuarischen Sprachregion im Westen Deutschlands bis zu obersächsischen Sprecher*innen im Osten Deutschlands und hessischen Sprecher*innen aus der Mitte Deutschlands. Weiterhin wurde das Test-Set so zusammengestellt, dass es ausgeglichen viele standardsprachliche Daten und Daten dialektaler Sprache enthält. Ebenso enthält es zu in etwa gleichen Teilen Daten formeller und informeller Interaktionen und interaktiver und eher disziplinierter Interaktionen. Im Kapitel 3.15 „Evaluation des POS-Taggings für spontansprachliche Daten“ wird dargestellt, welche Datentypen die größten Probleme bei der automatisierten Annotation darstellen und welche zuverlässig annotiert werden können. Auch im Hinblick auf solche Analysen war es notwendig, ein möglichst ausgeglichenes Test-Set zusammenzustellen. Ein weiteres Test-Set bilden die Transkripte mit Lerner- und Kindersprache. Sie wurden gänzlich aus dem Neutraining herausgenommen, um den Einfluss von Daten nichtkompetenter Sprecher*innen auf die statistischen Werte des Parameter-Files zu vermeiden. Kindersprache und Lerner-Sprache ber- <?page no="278"?> Empirischer Teil 278 gen besondere Schwierigkeiten für die automatisierte Annotation von POS- Tags, wie in der Ergebnisanalyse aufgezeigt wird. Um diese Schwierigkeiten analysieren zu können, wurden diese Transkripte separat als Test-Set zusammengestellt. 3.7 Erste Anpassung des Tagsets und der Guidelines Wie bereits im Kapitel 3.5 „Möglichkeiten der Anpassung des Taggers und des Tagsets“ angesprochen, stellt die Anpassung des Tagsets und der Guidelines an den vorliegenden Datentyp nach Manning (2011) eine gewichtige Möglichkeit der Verbesserung des Taggings dar. In seiner Analyse kommt er zu dem Schluss, dass 12 Prozent der Annotations-Fehler auf mangelhafte, d. h. unterspezifizierte oder unklare Tag-Kategorien zurückzuführen sind und 28 Prozent der Fehler in mangelhaften, d. h. widersprüchlichen oder unklaren Tagging-Guidelines begründet sind. Weitere 15,5 Prozent der Annotationsfehler führt er auf Fehler in der Annotation des Goldstandards zurück. Daraus lässt sich schlussfolgern, dass mit einem optimal angepassten Tagset, optimierten Guidelines und einem fehlerfreien GOLD-Standard die Fehlerquoten auf weniger als die Hälfte reduziert werden können gegenüber einem Verfahren, bei dem es keine dieser Optimierungen gibt. The easiest path for continuing to improve POS tagging seems to be to look at […] where the gold standard data is just wrong or is inconsistent because of the lack of clear tagging guidelines. These classes comprise over 40 % of the data, and, indeed, if some of the cases that I regard as unspecified or unclear (class 5) could be made clear by tightening up the guidelines, then we might be dealing here with over half the remaining errors. The road on this side of the fence is much less traveled, but I believe it now provides the easiest opportunities for tagging performance gains. (ebd., S. 176 f.) Speziell in Hinblick auf Daten, die sich deutlich von Zeitungsartikeln unterscheiden, verspricht die Anpassung des Tagsets und der Guidelines eine deutliche Verbesserung der Tagging-Performance. Allerdings dient diese Anpassung nicht allein der Verbesserung der statistischen Präzision. Sie soll in erster Linie eine Anpassung des Tagsets für die Nutzung von Korpora gesprochener Sprache sein. Das vorderste Ziel ist es, den Nutzern die Möglichkeit zu geben, im FOLK-Korpus typisch gesprochensprachliche Phänomene auch über das POS-Tagging in der Datenbank aufzufinden. Bei der Anpassung des Tagsets galt es daher, verschiedene Interessen zu berücksichtigen und miteinander zu vereinbaren: Das heißt einerseits, dem Wunsch zu entsprechen, möglichst viele interessante Phänomene auffindbar zu machen, andererseits die Klassifikation exhaustiv und zuverlässig <?page no="279"?> Erste Anpassung des Tagsets und der Guidelines 279 zu gestalten, um eine akzeptable Präzision im statistischen automatisierten Tagging zu gewährleisten. Im Folgenden wird zunächst die bisherige Kategorisierung im STTS, d. h. der Aufbau und die Struktur des Tagsets sowie deren Explikation in den Guidelines dargestellt. Anhand dessen werden dann Probleme und Widersprüche im Aufbau des Tagsets herausgestellt und die Probleme bei der Anwendung des Tagsets an Transkripten gesprochener Sprache aufgezeigt. Auf Basis dieser Analysen werden Grundsätze für die Überarbeitung des Tagsets und der Guidelines formuliert. Darauf aufbauend wurden Änderungen im Tagset und an den Guidelines vorgenommen, die dann durch die Ergebnisse der Inter- Annotator-Agreements validiert wurden. 3.7.1 Das STTS - Aufbau des Tagsets und der Guidelines Das STTS ist ein hierarchisch strukturiertes Tagset, d. h. es unterscheidet zwischen Haupt- und Unterwortarten (Schiller et al. 1999, S. 4). Insgesamt umfasst es 48 Wortarten-Tags und sechs zusätzliche Tags: drei für fremdsprachliches Material (FM), Kompositions-Erstglieder (TRUNC) und Nichtwörter (XY) und drei weitere für verschiedene Satzzeichen (ebd., S. 5). Es differenziert zwischen elf Hauptwortarten: − Nomina (N) − Verben (V) − Artikel (ART) − Adjektive (ADJ) − Pronomina (P) − Kardinalzahlen (CARD) − Adverbien (ADV) − Konjunktionen (KO) − Adpositionen (AP) − Interjektionen (ITJ) − Partikeln (PTK) Die Hauptwortarten umfassen, abgesehen von den Artikeln, Adverbien, Interjektionen und Kardinalzahlen, jeweils Unterwortarten. Die Klassifikation in Unterwortarten ist teils durch distributionelle Kriterien, teils durch semantische Eigenschaften und teils durch grammatische Funktionen begründet. Nomina werden aufgrund von semantischen Eigenschaften in Eigennamen (NE) und Appellativa (NN) subklassifiziert. In den Guidelines werden die Appellativa definiert als konkrete und abstrakte Substantive, Maßangaben, <?page no="280"?> Empirischer Teil 280 Titel und Anreden, Produkte, Herkunftsbezeichnungen, substantivierte Adjektive, Partizipien und Infinitive, Determinativkomposita, Monate, Wochentage, Sprachen und in einem bestimmten Umfang auch Fremdwörter. Unter den Eigennamen definieren die Guidelines Vornamen, Familiennamen, Tiernamen, Firmennamen, Ortsnamen, Ländernamen und Gebietsnamen, Gewässer- und Bergsowie Gebirgsnamen, Planetennamen, Namen von Stadtvierteln und fremdsprachliche Namensteile. Distributionelle Kriterien spielen beispielsweise bei der Subklassifikation der Adpositionen und auch einiger Pronomina eine Rolle: Im Falle der Adpositionen wird beispielsweise zwischen Präpositionen (APPR), Postpositionen (APPO) und Zirkumpositionen (APZR) unterschieden. Bei den Pronomina wird, nach einer Klassifikation in verschiedene grammatische Funktionen, noch einmal subklassifiziert in Hinblick auf distributionelle Eigenschaften: So wird bei den meisten Subklassen der Pronomina (Possessiv- (PPOS), Demonstrativ- (PD), Indefinit- (PI), Interrogativ- (PW) und Relativpronomina (PREL)) nochmals in Hinblick darauf unterschieden, ob sie attribuierend (-AT) oder substituierend (-S) verwendet werden, also PPOSAT für attribuierende Possessivpronomina (z. B. mein Käse) und PPOSS für substituierende Possessivpronomina (z. B. das ist meiner). 110 Bei den subordinierenden Konjunktionen wird danach unterschieden, ob sie einen Nebensatz einleiten (KOUS) oder eine Infinitiv-Konstruktion (KOUI). Eine Differenzierung nach grammatischen Funktionen wird beispielsweise bei den Verben vorgenommen: Es wird zwischen Auxiliar- (VA), Modal- (VM) und Vollverben (VV) unterschieden, welche dann wiederum nach Finitheit (Finit (-FIN), Infinitiv (-INF), Partizip (-PP)) und im Falle eines Imperativs nach Modus klassifiziert werden (-IMP), z. B. ich bin (VAFIN) gegangen (VVPP). Diese Differenzierung aufgrund verschiedener Kriterien ist einerseits pragmatisch motiviert, d. h. sie entspricht dem Versuch, möglichst viele interessante Phänomene auffindbar zu machen und ein exhaustives Tagset zu schaffen, andererseits birgt sie auch ein großes Problempotenzial, da es auf diese Weise immer wieder zu Unklarheiten, Überschneidungen und Widersprüchen bei der Annotation kommt. Einige dieser Probleme werden exemplarisch im folgenden Kapitel behandelt. 110 Zur Problematisierung dieser Klassifikation siehe auch Kapitel 2.5.1.1 „Abgrenzung der Pronomen von Determinern“. <?page no="281"?> Erste Anpassung des Tagsets und der Guidelines 281 Generell werden den Guidelines zunächst Spezialfälle und der Umgang mit ihnen voran gestellt. Als Spezialfälle behandelt werden: Mehrwortlexeme, Behandlung von Abkürzungen und Behandlung von Fehlern im Text (Schiller et al. 1999, S. 9 f.). 111 Unter dem Punkt „Behandlung von Fehlern im Text“ wird weiterhin ausgeführt: Vollkommen unverständliche Sätze, fehlende Satzteile, doppelte Satzteile: Wenn die Struktur des Satzes nicht mehr zu erkennen ist, wird der ganze Artikel nicht mehr verwendet. (ebd., S. 10) Aus diesem Absatz geht nochmals deutlich hervor, dass das Tagset für die Annotation von Zeitungsartikeln entwickelt worden ist. Würde man alle Transkripte gesprochener Sprache, die unverständliche Sätze, fehlende oder doppelte Satzteile aufweisen, von der Annotation ausschließen, blieben nicht sehr viele Daten übrig. Nach dieser Einleitung folgt in den STTS-Guidelines eine Beschreibung der einzelnen Tags. Die einzelnen Kategorien werden teils kurz definiert und dann durch Beispiele von anderen Kategorien abgegrenzt. Diese Beispielgeleitete Definition von Kategorien ist größtenteils sinnvoll, da Annotator*innen sich auf diese Weise an Beispielen analog zu ihrer Annotations-Wortform orientieren können. In Fällen, in denen durch Homonymie eine Zuordnung zu mehreren Klassen möglich ist, sind die Guidelines häufig unzureichend, da es in solchen Fällen einer genaueren Explikation der Regeln für die Zuweisung der einen oder anderen Kategorie bedarf. Sind die Annotator*innen genötigt, für die Lösung eines Differenzierungsproblems verschiedene Grammatiken zu konsultieren, die sich im schlimmsten Fall in ihrer Kategorisierung der Problem-Wortform widersprechen, hat dies negative Auswirkung auf die Geschwindigkeit und auch auf die Reliabilität der Annotationen: Die Annotator*innen müssen sich für die Interpretation einer Grammatik entscheiden. Diese Entscheidungen können jedoch individuell voneinander abweichen. Solche Zweifelsfälle galt es bei der Überarbeitung der Guidelines zu minimieren, wie im Folgenden aufgezeigt wird. Hierzu musste jedoch zunächst eine detailliertere Problemanalyse der Anwendung des STTS für Transkripte gesprochener Sprache vorgenommen werden. 111 Auf das Problem des Taggings von Mehrworteinheiten wurde im Kapitel 2.4.3 „Exkurs: Umgang mit Mehrworteinheiten“ ausführlich eingegangen, da es auch für das Tagging gesprochener Sprache eine große Herausforderung darstellt. <?page no="282"?> Empirischer Teil 282 3.7.2 Die Anwendung des STTS für Transkripte gesprochener Sprache - eine Problemanalyse Schon bei der Pilotstudie, d. h. der manuellen Korrektur dreier Transkripte und auch bei der manuellen Annotation des Development-Sets, wurde schnell deutlich, dass die Tags des STTS den Daten der Transkripte gesprochener Sprache nicht gerecht werden. Dies ließ sich auf drei Probleme zurückführen: 1) Für Elemente, die in Transkripten gesprochener Sprache typisch sind, wie beispielsweise uninterpretierbares Material oder nicht rekonstruierbare Abbrüche auf Wortebene, sind im STTS keine Tags vorhanden, 2) für viele Elemente, vorwiegend im Bereich der Gesprächspartikeln, waren die Tag-Kategorien des STTS nur unzureichend und unbefriedigend differenziert und 3) einige Tag-Kategorien führen zu Widersprüchen bei der Annotation. Erstere Gruppe sind Probleme, die sich spezifisch für das Tagging von Transkripten spontansprachlicher Daten ergeben. Es ist jedoch hervorzuheben, dass diese Probleme ganz ähnlich gelagert sind wie für die Annotation von Daten der CMC (Computer Mediated Communication). Für Chatkorpora oder Messenger-Daten, die beispielsweise Adressierungen und Hashtags enthalten, gibt es ebenfalls keine Entsprechungen in den STTS Tag-Kategorien (Beißwenger et al. 2015). Für die unter 2) und 3) beschriebenen Probleme ist zu konstatieren, dass diese nicht exklusiv Probleme der Annotation von Daten gesprochener Sprache sind. Es ist anzunehmen, dass die Lösung dieser Probleme auch Verbesserungen bei der Annotation schriftsprachlicher Texte bringt, seien es Daten der CMC oder Zeitungstexte. In Kapitel 2.4 „Wortarten in der gesprochenen Sprache“ wurde bereits ausführlich auf Problemfälle bei der Klassifikation spontansprachlicher Daten eingegangen. Daher werden in diesem Kapitel die Ergebnisse der theoretischen Analyse nur kurz zusammengefasst und um einige weitere Probleme ergänzt. Diese Analysen dienten dann wiederum als Grundlage für die Neukategorisierung der POS-Tags, die in den folgenden Kapiteln beschrieben wird. Zunächst werden die Probleme dargestellt, die spezifisch für das Tagging spontansprachlicher Daten sind, namentlich Eigenheiten von Transkripten gesprochener Sprache, für die es keine Tag-Kategorien im STTS gibt. <?page no="283"?> Erste Anpassung des Tagsets und der Guidelines 283 Darauf folgend werden ausgewählte Beispiele für medial übergreifende Probleme aufgeführt, die bei der manuellen Korrektur des Development-Sets besonders frequent in Erscheinung getreten sind und für die Lösungen in der Überarbeitung des Tagsets und der Guidelines entwickelt wurden. 3.7.2.1 Spezifische Probleme für Transkripte gesprochener Sprache Betrachtet man Transkripte gesprochener Sprache, die nach cGAT in literarischer Umschrift transkribiert wurden, werden schnell viele Unterschiede zu Daten geschriebener Sprache offensichtlich. Dies sind zunächst einmal Unterschiede in der Schreibweise bestimmter Wörter. Diese werden jedoch im Normalisierungsprozess für das POS-Tagging bereinigt. Doch selbst nach der orthografischen Normalisierung sind noch deutliche Unterschiede zwischen FOLK-Transkripten und beispielsweise Daten von Zeitungskorpora festzustellen, die zu Problemen bei der Annotation dieser Daten mit dem STTS führen. Zunächst einmal ist, wie bereits im Kapitel 2.2 „Segmentierung von Transkripten gesprochener Sprache“ beschrieben, die Segmentierung der Transkript-Beiträge bisweilen stark abweichend von dem Konzept „Satz“, das der schriftsprachlichen Norm zugrunde liegt. Zudem sind die Daten geprägt von vielen Wiederholungen, Abbrüchen und Selbstkorrekturen. Dies führt in vielen Fällen zu Ambiguitäten bei der Zuweisung von Wortarten-Tags. Im Speziellen dann, wenn die Guidelines, wie bereits dargelegt, solche Daten explizit von der Annotation ausnehmen. Ein weiteres Problem solch abgebrochener Strukturen sind wortinterne Abbrüche. Sie sind in mehrfacher Hinsicht problematisch. Es handelt sich bei ihnen unstrittig um Wörter, daher ist die Zuweisung der STTS-Tag-Kategorie XY für „Nichtwort“ nicht zutreffend. Dennoch ist die Wortart dieser abgebrochenen Wörter in vielen Fällen nicht bestimmbar. Strenggenommen kann dem Wort also kein Wortarten-Tag zugewiesen werden. Ausnahmen hiervon bilden wortinterne Abbrüche, bei denen das Wort durch Hinzunahme des Kontextes rekonstruiert werden kann. Aber auch bei diesen muss hinterfragt werden, wie viel Interpretation in der Vervollständigung des Wortes steckt und welche Information schließlich die Interessantere für die Auswertung ist: das vermeintliche Wortartentag oder die Information, dass es sich um einen Abbruch handelt. Uninterpretierbare Wörter sind ein weiteres Phänomen, das allein bei Transkripten von Spontansprache entsteht. In diesen Fällen hat die Transkribent*in zwar vernehmen können, dass eine Sprecher*in etwas sagt, aber nicht, was genau er oder sie sagt. Dies kann durch Störgeräusche in der Aufnahme entstehen, wenn beispielsweise neben dem Mikrofon ein Teller über den Tisch <?page no="284"?> Empirischer Teil 284 geschoben wird oder wenn zu viele Sprecher*innen zugleich sprechen, sodass einzelne Beiträge unverständlich werden. In der Transkription wird, sofern dies möglich ist, jede geäußerte Silbe mit drei Pluszeichen dargestellt, sodass die Silbenstruktur der einzelnen nicht verständlichen Wörter erkennbar ist. Auch hier scheint es verfehlt, diese uninterpretierbaren Wörter als „Nichtwort“ zu taggen. Da das Wort und somit die Wortart jedoch nicht auszumachen ist, kommt auch keine der anderen Tag-Kategorien des STTS für die Annotation in Frage. Weiterhin gibt es im STTS keine Handhabe für Buchstabiertes. Eine buchstabierte Äußerung ist je Buchstabe ein Teilwort, aber kein „Nichtwort“. Würde man allerdings jeden Buchstaben mit dem Tag des Gesamtwortes auszeichnen, würde dies zu einer Verzerrung der Darstellung der relativen Häufigkeiten von Tags im Gesamtkorpus führen. Ein weiteres Merkmal der Transkription gesprochener Sprache ist der Einbezug vokaler Kommunikation und von paraverbalem Verhalten. Erstere meint beispielsweise Lachen, Seufzen, Schnalzen, Stöhnen etc. Mit Letzterem bezeichnet man für die Interaktion relevantes Verhalten wie beispielsweise mit dem Kuli klicken oder auf den Tisch klopfen etc., sofern die Gesprächsteilnehmer darauf Bezug nehmen. Diese Phänomene sind im FOLK-Korpus in der Transkription durch doppelte Klammern ausgezeichnet. Für eine POS- Annotation bergen sie großes Problempotenzial in sich. Es handelt sich bei ihnen um im Transkript vorkommende Wörter, denen auch ein POS-Tag zugewiesen werden könnte (beispielsweise das Tag für finites Vollverb (VV- FIN) bei Formen von ((lacht)) oder ((stöhnt)). Hierbei entstehen jedoch mehrere Probleme. Es handelt sich um Meta-Informationen zur Äußerung eines bestimmten Phänomens. Das POS-Tag würde also der Meta-Information zugewiesen werden und nicht der eigentlichen Äußerung. Dies würde wiederum zu Verzerrungen bei der quantitativen Analyse im Korpus führen. Im Beispiel-Fall wären die Auswertungen in Bezug auf finite Verben nicht korrekt. Würde man versuchen, der eigentlichen Äußerung ein POS-Tag zuzuweisen, ist dies wiederum problematisch. Der Status der eigentlichen Äußerung ist in vielen Fällen nicht geklärt und die Grenzen zwischen paraverbalem Verhalten und seiner Funktion als Interjektion (beispielsweise bei Schnalzen) sind schwer zu bestimmen. Es wurde daher beschlossen, in doppelten Klammern Transkribiertes von der POS-Annotation auszunehmen. Darüber hinaus wurde es ebenfalls von der Normalisierung ausgenommen, was eine Annotation derselben zusätzlich technisch verkompliziert hätte. <?page no="285"?> Erste Anpassung des Tagsets und der Guidelines 285 3.7.2.2 Medialitätsübergreifende Probleme bei der POS - Annotation mit dem STTS Dass das STTS Desiderata zur Annotation verschiedenster Daten offen lässt, zeigte sich auch in den von Zinsmeister/ Heid/ Beck organisierten Workshops „Das STTS-Tagset für Wortartentagging - Stand und Perspektiven“ in den Jahren 2012 und 2013. Bei diesen drei Workshops bildeten sich Arbeitsgruppen zur Überarbeitung des STTS für verschiedene Textsorten, beispielsweise für historische Texte oder Lernertexte. Es wurde beschlossen, eine gemeinsame Arbeitsgruppe für die Anpassung des STTS für Daten gesprochener Sprache und Daten aus der CMC zu bilden. Die im Folgenden dargestellten Probleme sind als medial übergreifende Probleme klassifiziert, da sich Überschneidungen teils mit Daten der CMC, teils auch mit Daten geschriebener Sprache (Zeitungstexte, Prosa, Blogs etc.) feststellen lassen. Auch hier gibt es Probleme, die auf das Fehlen von POS-Kategorien im Tagset zurückzuführen sind. Eines der größten Probleme bei der Annotation von spontansprachlichen Daten ist der Umgang mit Gesprächspartikeln. Das STTS bietet eine Kategorie für Interjektionen (ITJ) und eine Kategorie für Antwortpartikeln (PTKANT). Dass das Spektrum an Gesprächspartikeln in den Transkripten gesprochener Sprache jedoch deutlich größer ist und sich nicht mit diesen zwei Tags abbilden lässt, wurde im Kapitel 2.4 „Wortarten in der gesprochenen Sprache“ ausgearbeitet. Folgt man den STTS Guidelines, wird vieles, was weithin in der Literatur als Gesprächspartikeln bezeichnet wird, als ADV (Adverb) getaggt. Dies führt dazu, dass das POS-Tag ADV als Restkategorie verwendet wurde. Dieses Problem ist in bestimmten Fällen, wie beispielsweise bei Hesitationspartikeln, Onomatopoetika und Rezeptions-Signalen, vorwiegend eines für Transkripte gesprochener Sprache. Generell sind Gesprächspartikeln jedoch auch sehr frequent in Daten der CMC. Weiterhin gibt es keine POS-Tags für Diskursmarker und Question-Tags. Auch diese kommen vermehrt in gesprochener Sprache und der CMC vor, sind jedoch ebenfalls in schriftsprachlichen Texten zu finden. Speziell im Bereich der Modifikatoren ist das bestehende STTS unterspezifiziert. Modal-, Abtönungs-, Grad-, Intensitäts- und Fokuspartikeln werden nach den Guidelines des STTS explizit als Adverbien getaggt. Das Problem im Umgang mit diesen Partikeln besteht jedoch nicht nur in fehlenden POS-Kategorien, um diese auszuzeichnen, sie sind auch, wie bereits im theoretischen Teil dargelegt, schwer voneinander und von Adverbien zu differenzieren. Ein Großteil der Partikeln ist durch Grammatikalisierungs- oder Pragmatikalisierungsprozesse entstanden. Dies erklärt einerseits, warum ihre Beschreibung in den Grammatiken unterrepräsentiert ist und sie bisher in den Tagsets keine <?page no="286"?> Empirischer Teil 286 Tag-Kategorien erhalten haben, andererseits macht es ihre Klassifikation besonders schwierig, da sie Homonyme in mehreren Kategorien haben. Dieser Problematik aus dem Weg zu gehen, indem man solche Zweifelsfälle der Klasse der Adverbien zuordnet, mag zwar ein praktikabler Weg für die Annotation sein, ist aber wenig zielführend, sind doch gerade diese Partikeln für die Untersuchung gesprochener und geschriebener Sprache interessant. Wie bereits erwähnt, basiert die Subklassifikation des STTS auf verschiedenen Ansätzen, d. h. auf der Funktion der Wörter im Kontext oder ihrer Semantik oder ihrer Distribution. Dies führt immer wieder zu Ambiguitäten bei der Zuweisung von POS-Tags, da nicht klar ist, welches Kriterium das übergeordnete ist. Dies ist im Besonderen der Fall bei der POS-Kategorie der Pronominaladverbien (PAV), die über ihre Morphologie und auch über ihre Funktion im Kontext definiert werden. Dies macht ihre Abgrenzung von der Kategorie der (Konjunktional-)Adverbien äußerst schwierig. Auch bei vielen anderen Pronomen-Kategorien gibt es Probleme bei ihrer Abgrenzung voneinander, die dann noch verschärft werden, wenn der für die Klassifikation benötigte Kontext durch Abbrüche, Wiederholungen und Selbstkorrekturen in Transkripten gesprochener Sprache fehlt. An dieser Stelle muss betont werden, dass solche Probleme nicht allein auf die Klassifikation im STTS beschränkt sind. Bei vielen Ambiguitäten handelt es sich um Probleme, die über die Wortartenannotation hinaus in der Literatur diskutiert werden. Eine Reihe dieser Probleme wurde im theoretischen Teil im Kapitel „Medialitätsübergreifende Abgrenzungsprobleme“ dargestellt. Im Gegensatz dazu sind einige Problemfälle bei der Annotation auf Widersprüche in den Guidelines oder inkonsistente Subklassifikationen im STTS zurückzuführen. So zeigte sich beispielsweise im Bereich der Indefinitpronomen, dass einerseits die Subklassifikation, um vollständig zu sein, die Klasse PIDS vermissen lässt (siehe auch Kapitel 2.5.1.1 „Abgrenzung der Indefinitpronomen von Adjektiven“), andererseits die zur Abgrenzung von anderen POS-Klassen verwendeten Wortlisten unvollständig sind. Ein weiterer Widerspruch in den Guidelines zeigt sich bei den Regeln zur Annotation von komplexen Eigennamen. Handelt es sich um einen deutschen komplexen Eigennamen, wird er nach seinen Einzelteilen, gemäß der Regel für Mehrworteinheiten, getaggt. Handelt es sich jedoch um einen komplexen Eigennamen in einer anderen Sprache, z. B. University of Michigan, so werden laut den STTS-Guidelines alle Teile dieses Eigennamens als solche getaggt (NE). Gleichzeitig geht jedoch aus den Beispielen hervor, dass in einem komplexen Filmtitel, der einen Namen enthält, nur dieser als Eigenname getaggt wird, während der Rest als fremdsprachliches Material (FM) ausgezeichnet wird. <?page no="287"?> Erste Anpassung des Tagsets und der Guidelines 287 In einer Überarbeitung des STTS und der Guidelines gilt es, möglichst vielen dieser Probleme Lösungen entgegenzusetzen. Im Folgenden werden daher zunächst die Grundsätze für eine Überarbeitung des Tagsets und der Guidelines diskutiert. Darauf folgend wird eine Zusammenfassung der Änderungen für das STTS 2.0 dargelegt. 3.7.3 Grundsätze für eine Anpassung des STTS und der Guidelines Macht man sich an die Aufgabe, das Tagset und die Guidelines für die Annotation von Transkripten gesprochener Sprache anzupassen, muss zunächst geklärt werden, nach welchen Grundsätzen man dabei vorgeht. Zunächst einmal muss betont werden, dass das STTS ein vielfach erprobtes und gut durchdachtes Tool zur Annotation von schriftsprachlichen Texten ist und durch seine weite Verbreitung ein hohes Maß an Komparabilität verschiedenster Daten zulässt. Zudem erfüllt es viele Kriterien, die ein gutes Tagset ausmachen. Zinsmeister/ Heid/ Beck (2014) stellen in ihrem Artikel „Adapting a part-ofspeech tagset to non-standard text: The case of STTS“ heraus: A tagset must be automatically annotatable; with standard statistical tagging, this implies a certain optimal size of the tagset. In addition, the tags must be distinguishable on the basis of properties that are either found in the local context (windows of two to five words) or that can be provided by means of a lexicon - typically distributional or morphological distinctions. (ebd., S. 4098) Die Klassifikation der POS-Tags im STTS richtet sich, wie bereits ausgeführt, vorwiegend nach der Funktion von Wörtern im Kontext, nach distributionellen und morphologischen Kriterien. Zu berücksichtigen ist, dass eine Klassifikation allein basierend auf semantischen Kriterien wenig hilfreich ist: „It has been shown that semantic distinctions without morphological or distributional correlates tend to lead to tag confusion errors“ (ebd., S. 4098 f.). Eine Überarbeitung des Tagsets soll sich an den Klassifikationskriterien ebenso wie an der Struktur des STTS orientieren. Im genauen bedeutet dies eine Kategorisierung nach Über- und Unterkategorien sowie eine Orientierung an distributionellen Faktoren eher als nach rein semantischen, pragmatischen oder syntaktischen Kriterien, da dies, nähme man es genau, eine Annotation auf verschiedenen Ebenen notwendig machen würde. Folglich kann die Neukategorisierung nicht einer einzigen Grammatik folgen, sondern wird verschiedene Ansätze einbeziehen. Eher noch als eine tiefgehende theoretische Begründung sollen die Grundsätze der Exhaustivität, Praktikabilität und Theorieneutralität im Vordergrund stehen, wenn auch gewisse theoretische Ansätze selbstverständlich eine sinnvolle Begründung ergeben sollen. <?page no="288"?> Empirischer Teil 288 Exhaustivität bezeichnet die Voraussetzung, dass jedem Item im Korpus genau ein Tag zugewiesen wird, d. h. die lückenlose Annotation aller Wort-Token im Korpus. Ein besonderes Anliegen ist es hierbei, keine Rest-Kategorien zu schaffen, die immer dann annotiert werden, wenn kein anderes Tag zu passen scheint. Es ist daher geboten, das Tagset so zu strukturieren, dass eine lückenlose Annotation möglich ist. Ebenso ist darauf zu achten, dass die Tag-Kategorien einander gegenseitig ausschließen, d. h. die Definitionen der Kategorien nicht dazu führen, dass einem Item mehr als eine Kategorie zugewiesen werden müsste. Wie bereits im theoretischen Teil mehrfach ausgeführt, sind Mehrfachannotationen nicht wünschenswert, da dies die Ergebnisse quantitativer Korpusanalysen verzerrt. Praktikabel ist ein Tagset dann, wenn die Kategorien so definiert sind, dass eine mutuell exklusive und exhaustive Annotation möglich ist, gleichzeitig jedoch die Kategorien für Annotator*innen sowie für die Nutzer der Korpora nachvollziehbar und verständlich sind. Eine Orientierung an einer bestimmten Grammatik ist dabei weder hilfreich noch nützlich. Es gibt keine Grammatik, die in ihrem Theorie-Rahmen auf eine praktische Annotation der Kategorien ausgelegt ist. Ein Tagset muss sich, wo es möglich ist, an etablierten Kategorien in den Grammatiken orientieren, um für den Nutzer sinnvoll einsetzbar zu sein. Im Großen und Ganzen sollte jedoch Theorieneutralität gewahrt bleiben, damit Nutzer unvoreingenommen und ohne durch einen theoretischen Rahmen geleitet zu werden, die gewünschten Fragestellungen bearbeiten können. Um den Anforderungen der Exhaustivität und Praktikabilität in der Überarbeitung des Tagsets und der Guidelines gerecht zu werden, können verschiedene Methoden gewählt werden (erstere vier vgl. Zinsmeister/ Heid/ Beck 2014, S. 4099): 1) Die isomorphe Umbenennung von Kategorien, 2) das Entfernen von Subklassifikationen (eventuell weniger spezifische, aber dafür akkuratere Annotation), 3) eine detailliertere Subklassifikation, 4) eine Reklassifikation im Sinne einer Anpassung der Kriterien für die Abgrenzung zwischen zwei Klassen oder 5) die Einführung neuer Tag-Kategorien. Hinzu war zu berücksichtigen, dass die Überarbeitung des Tagsets in Absprache mit der STTS-Workshop-Arbeitsgruppe ebenfalls das Ziel der Annotation von Daten der CMC verfolgte. Das Resultat dieser Anpassung wird daher <?page no="289"?> Erste Anpassung des Tagsets und der Guidelines 289 nicht nur ein Werkzeug für die Annotation von Transkripten gesprochener Sprache sein, sondern ebenso für Daten aus Chat-, Blog-, Messenger- und anderen Korpora nicht-standardsprachlicher Daten. 3.7.4 Erste Änderungen am Tagset und an den Guidelines Obviously, any tagset adaptation requires the creation of detailed guidelines, including examples and guidance for deciding on easily confusable types. (Zinsmeister/ Heid/ Beck 2014, S. 4099) Die im Folgenden beschriebenen Änderungen am Tagset und an den Guidelines wurden den Annotator*innen zunächst als Handreichungen gegeben. Eine vollständige Überarbeitung der Guidelines erfolgte erst in einem weiteren Schritt nach Abschluss der Annotationen des Development-Sets. Diese Änderungen an den Guidelines werden im Kapitel 3.11 „Zweite Anpassung der Guidelines“ dargelegt. Für letzteren Schritt wurden am Tagset selbst keine Änderungen mehr vorgenommen. Abweichend von den Ausführungen im originalen STTS wurde davon abgesehen, den Ausschluss von fehlerhaften oder abgebrochenen Texten für die Annotation zu empfehlen. Stattdessen wurde der Umgang mit diesen für die Transkripte gesprochener Sprache so typischen Strukturen erläutert. Die wesentlichen Regeln hierbei lauteten: 1) Ist ein Verb identifizierbar, so ist die Analyse der Kategorien basierend auf dem Modell der topologischen Feldertheorie vorzunehmen. 2) Ist kein Verb vorhanden und Teile der Äußerung fehlen oder sind erst im nächsten Segment realisiert, so verfahre nach dem Motto: „Was man sieht, ist alles, was man hat.“ Im Hinblick auf die statistische Auswertung zum Erstellen der Parameter- Files und um individuelle Interpretationen einzelner Annotator*innen möglichst gering zu halten, soll und darf kein Material hinzugedacht oder vervollständigt werden. Auch wenn also bei einem Abbruch nach einem der Prosodie und Kontext nahelegen, dass ein/ e Sprecher*in die Vervollständigung einer Nominalphrase intendierte, muss es als substituierendes Demonstrativpronomen (PDS) und nicht als Artikel (ART) klassifiziert werden. Wenn kein sprachliches Material zur Vervollständigung der Nominalphrase vorliegt, so darf sie auch nicht angenommen und interpretiert werden. Über die grundsätzliche Klärung des Umgangs mit unvollständigen Strukturen hinaus wurden neue Tag-Kategorien eingeführt und diese im Falle von Widersprüchen in den Guidelines aufgelöst und Änderungen in den Definitionen der Kategorien vorgenommen. Im Falle unvollständiger Listen wurden diese vervollständigt. Im Falle von Ambiguitäten und schwierigen Wort- <?page no="290"?> Empirischer Teil 290 formen mit Homonymen in verschiedenen Wortartenklassen wurden klare Regeln für die Entscheidungsfindung aufgestellt. Die wichtigsten Änderungen in der Annotationspraxis werden im Folgenden hinsichtlich der Ausführungen der Probleme bei der Kategorisierung im theoretischen Teil diskutiert und dargestellt. Dies sind im Besonderen drei Bereiche: 1) Die Klassifikation von Partikeln, 2) die Überarbeitung der Guidelines in Bezug auf andere Wortarten und 3) die Klassifikation von Items in Transkripten gesprochener Sprache, die nicht in den Bereich Wortarten fallen. 3.7.4.1 Die Klassifikation von Partikeln Wie bereits in den Ausführungen im theoretischen Teil dieser Arbeit deutlich geworden ist, spielen Gesprächspartikeln für die Analyse von Daten gesprochener Sprache eine wichtige Rolle. Es war daher ein Desiderat, so viele wie möglich so genau wie möglich in einer Überarbeitung des Tagsets abzubilden. Die im Original-STTS enthaltenen Kategorien für Gesprächspartikeln wurden auf eine Verwendung für die Annotation von Transkripten gesprochener Sprache hin überprüft und, wo nötig, in ein neues Schema überführt. Rothstein (2012) stellt heraus: „Im Bereich der Syntax erweisen sich drei Aspekte als beschreibungsrelevant für die Wortartermittlung. Dazu zählen Distribution, Selektion und Komplementation“ (ebd., S. 5). Entlang dieser Kriterien und in Anlehnung an die Reflexionen im theoretischen Teil dieser Arbeit werden Gesprächspartikeln nun in Bezug auf ihre Distribution hinsichtlich des Zusammenhangs mit anderen syntaktischen Strukturen kategorisiert. Partikeln, die innerhalb von Syntagmen, namentlich im Mittelfeld syntaktischer Konstruktionen stehen oder als Modifikatoren zu bezeichnen sind, wurden der bereits existierenden Klasse der PTK zugeordnet, beispielsweise Modal- oder Fokuspartikeln. Für Gesprächspartikeln, die unabhängig, das heißt außerhalb grammatischer Strukturen stehen, wurde eine neue Tag-Kategorie erstellt: die der nicht-grammatischen Elemente (NG). Diese wurden wiederum nach funktionalen Gesichtspunkten in vier Unterkategorien unterteilt: Aktionswörter (NGAKW), Onomatopoetika (NGONO), Hesitationspartikeln (NGHES) und Interjektionen, Responsive und Rezeptionssignale (NGIRR). <?page no="291"?> Erste Anpassung des Tagsets und der Guidelines 291 Für Gesprächspartikeln, die pragmatisch an Syntagmen gebunden, jedoch nicht Teil derselben sind, wurde die Tag-Kategorie der Satz-externen Elemente (SE) geschaffen. Sie umfasst wiederum zwei auf funktionalen Kriterien beruhende Spezifikationen: Diskursmarker (SEDM) und Question-Tags (SEQU). 3.7.4.1.1 PTKIFG, PTKMA, PTKMWL - Klassen für die Annotation von Partikeln innerhalb syntaktischer Strukturen Die Klasse der Partikeln im Original-STTS umfasst fünf Kategorien. − Die Partikel zu vor Infinitiven (PTKZU), − die Negationspartikel nicht (PTKNEG), − abgetrennte Verbpartikeln (PTKVZ), − die Partikeln am und zu bei Adjektiven und Adverbien (PTKA) und − Antwortpartikeln (PTKANT). Für Letztere wurde eine Reklassifikation vorgenommen. Als freistehende Responsive wurden sie der Klasse NGIRR (siehe folgendes Kapitel) zugeordnet. Alle anderen Partikeln in dieser Klasse ist gemein, dass sie innerhalb von syntaktischen Strukturen stehen und andere Elemente oder die gesamten Strukturen modifizieren. Wie aus den Darstellungen im theoretischen Teil dieser Arbeit hervorgeht, sind ebendiese Eigenschaften auch Bestandteil der Definitionen von Intensitäts-, Fokus-, Grad-, Modal- und Abtönungspartikeln. Es lag daher nahe, für sie Subkategorien innerhalb der Klasse der Partikeln zu erstellen. Neben der Tatsache, dass die Annotation dieser Partikeln einen Erkenntnisgewinn für die Analyse der Korpora mit Hilfe von POS-Tags bedeutet, konnten Rehbein/ Hirschmann (2014a) zeigen, dass eine Annotation der Modifikatoren auf POS-Ebene auch Vorteile für syntaktisches Parsing bringt: „Last, and most important, we gave proof-of-concept that a more detailed analysis of modifiers on the POS level can indeed support data-driven syntactic parsing“ (ebd., S. 38). Sie waren ebenfalls Teil der STTS-Arbeitsgruppe zur Überarbeitung des Tagsets und testeten an einem kleinen Datensatz den Effekt einer Subklassifikation der Modifikatoren in Fokuspartikeln, Intensitätspartikeln, Modalpartikeln und sogenannte Lexical Particles auf statistisches Parsing (ebd., S. 33). Aus der persönlichen Kommunikation mit Rehbein ging hervor, dass eine solche Differenzierung für das KiezDeutsch-Korpus (KiDKo) nicht vorgenommen wurde, da sich auf diesen Daten die Subkategorisierung bei Inter-Annotator-Agreements als problematisch erwies. Dies bezog sich im Speziellen auf <?page no="292"?> Empirischer Teil 292 die Unterscheidung zwischen Fokus- und Intensitätspartikeln, aber auch auf deren Abgrenzung zu den Adverbien. Für die Annotation des FOLK-Korpus wurde entschieden, dass für sprachwissenschaftliche Untersuchungen die Vorteile der korrekt getaggten Partikeln gegenüber einer potenziell schlechteren Präzision überwiegen. Im Gegensatz zu den Klassifikationen von Rehbein/ Hirschmann (2014a) wurden jedoch die Partikel-Subklassifikationen anders eingeteilt und auch teilweise anders definiert, um auf diese Weise zu einer höheren Präzision zu gelangen. Generell sehen die neuen Guidelinen eine Abgrenzung der Partikeln von der Klasse der Adverbien auf Basis einer Umstellprobe vor, die auf den Analysen in Hirschmanns Dissertation zu Modifikatoren im Deutschen basiert: Somit gibt es eine Lösung für das Problem der Abgrenzung attributiver Adverbien […] gegenüber Partikeln. Für die Unterscheidung von Modifikatoren in attributiver Stellung muss überprüft werden, ob eine Paraphrase existiert, in der sie isolierbar sind. Ist dies nicht der Fall, handelt es sich um Partikeln. Partikeln zeichnen sich also dadurch aus, dass es keine Paraphrase gibt, in der sie syntaktisch isoliert stehen. Für alle übrigen modifizierenden Wortarten existiert eine solche Paraphrase. (Hirschmann 2015, S. 71) Die Subklassifikation im überarbeiteten Tagset für das FOLK-Projekt sieht eine Gruppierung der Intensitäts-, Fokus- und Gradpartikeln unter dem Tag PTKIFG vor, da die Analysen im theoretischen Teil dieser Arbeit gezeigt haben, dass diese distributionell ähnliche Eigenschaften aufweisen und sie überdies funktional und semantisch häufig schwer voneinander abzugrenzen sind. Sie werden in den Guidelines folgendermaßen definiert: Das Tag PTKIFG wird allen Intensitäts-, Fokus- und Gradpartikeln vergeben. Diese Partikeln fungieren als Modifikatoren der ihnen folgenden Phrasen. Partikeln der Tag-Kategorie PTKIFG lassen sich, im Gegensatz zu Adverbien, bei einer Umstellprobe nur mitsamt ihrer Bezugsphrase vor das finite Verb stellen. (Westpfahl et al. 2017, S. 21) Auch die Modal- und Abtönungspartikeln wurden gemeinsam in einer Tag- Kategorie klassifiziert: PTKMA. Für eine Differenzierung dieser zwei Partikelklassen konnte weder theoretisch noch praktisch eine klare Handhabe gefunden werden. In den Guidelines wird ihre Abgrenzung zu den Intensitäts-, Fokus- und Gradpartikeln sowie zu den Adverbien folgendermaßen beschrieben: Mit dem Tag PTKMA werden Abtönungs- und Modalpartikeln bezeichnet. Distributionell lässt sich diese Gruppe von Fokus-, Intensitäts- und Gradpartikeln durch eine Umstellungsprobe abgrenzen: PTKMA können grundsätzlich nicht umgestellt werden. Beispielsweise kann man „das ist halt Pflicht“ weder zu „halt ist das Pflicht“ (wie bei ADVs) noch zu „halt Pflicht ist das“ (wie bei PTKIFGs) umstellen. Die meisten Modal- und Abtönungspartikel haben Ho- <?page no="293"?> Erste Anpassung des Tagsets und der Guidelines 293 monyme in anderen Wortklassen, von denen sich PTKMAs distributionell durch ihre Stellung im Mittelfeld unterscheiden lassen. (ebd.) Bei der manuellen Annotation des Development-Sets stellte sich heraus, dass es neben den bekannten Partikelklassen noch weitere Elemente gibt, die keiner Wortartendefinition in den Grammatiken gerecht werden. Die Klassifikation dieser Elemente stellte sich als äußerst schwierig heraus, da sie weder den Definitionen der oben genannten Partikelklassen entsprachen, wie Umstellproben zeigten, noch den Adverbien zugeordnet werden konnten, obwohl sie homonym in diesen Klassen verwendet werden. Eine ihrer Eigenheiten ist, dass sie immer gemeinsam mit einem anderen Lexem auftreten. Rehbein/ Hirschmann (2014b) bezeichnen diese Elemente, wie bereits erwähnt, als „Lexical Particles“ und definieren sie folgendermaßen: Lexical particles are associated with a lexical head element with which they form a complex lexeme. In (20), for example, the complex lexeme nicht mehr (not any more) is composed of the head nicht and the lexical particle mehr, while in (21), we have a complex lexeme immer noch (still) with noch as the head. The meaning of the complex lexeme can not be derived by a compositional analysis of its individual components. (ebd., S. 35) Unsere Analysen in Zusammenarbeit mit Harderik Blühdorn 112 haben ergeben, dass die Definition dieser Elemente sich noch weiter spezifizieren lässt, namentlich darin, dass diese Elemente in den genannten Konstruktionen Aspekt ausdrücken. Blühdorn nennt sie daher Aspektpartikeln (siehe Fußnote 112). Da der Zusammenhang dieser Partikeln mit der Funktion der Aspektmarkierung noch nicht eingehender erforscht ist, bleiben wir vorerst bei der Bezeichnung „Partikel in einem Mehrwortlexem“: PTKMWL. Die Aspektmarkierung dient jedoch zur näheren Definition dieser Partikelklasse. Auch hier hilft bei ihrer Identifikation eine Umstellprobe, wie aus der Beschreibung dieser Elemente in den Guidelines deutlich wird: Als PTKMWL werden Partikeln bezeichnet, die an andere Lexeme gebunden sind und gemeinsam mit einem anderen Lexem ein Mehrwortlexem bilden und deren Klassifikation in eine andere Wortart schwierig ist. PTKMWL konstituieren gemeinsam mit dem anderen Lexem die Bedeutung des Mehrwortlexems, die oft Aspekt ausdrückt. Hardarik Blühdorn bezeichnet sie daher als Aspektpartikeln (Blühdorn 2014). Lässt man einen Teil des Mehrwortlexems weg, verändert oder verliert es seine Bedeutung. Eine solche Einheit besteht immer aus einem „Kopf“-Lexem und einem Partikellexem (PTKMWL). Das „Kopf“-Lexem kann dabei verschiedene Wortarten haben. Die PTKMWL kann dem Kopf voran- oder nachgestellt sein. Dies lässt sich beispielsweise durch eine Umstellprobe feststellen: in Fällen, in denen der Kopf des Mehrwortlexems konstituentenfähig ist (z. B. ein Adverb) lässt sich bei einer Umstellprobe 112 Persönliche Kommunikation mit Hardarik Blühdorn über Aspektpartikel am Institut für Deutsche Sprache, Mannheim, 16. 7. 2014. <?page no="294"?> Empirischer Teil 294 das gesamte Mehrwortlexem vor das finite Verb stellen, nicht aber nur einzelne Teile davon (während der andere Teil in der Verbklammer bleibt). Handelt es sich um ein Mehrwortlexem, wird der neue Satz entweder ungrammatisch oder verändert seine Bedeutung. Beispielsweise kann man den Satz „Baba ist immer noch brummelig“ weder zu „Noch ist Baba immer brummelig“ noch zu „Immer ist Baba noch brummelig“ umformulieren. „Noch“ ist hier weder ein Adverb, noch hat es die Funktion eines Intensivierers. Vielmehr markiert es Aspekt (hier: dass es andauert) zu dem Adverb „immer“. Solche Mehrwortlexeme können in verschiedenen Kombinationen auftreten. Die häufigsten Kombinationen finden sich im Anhang unter der Liste möglicher PTKMWL-Kandidaten. Die als PTKMWL getaggten Elemente werden dabei kursiv markiert. (Westpfahl et al. 2017, S. 22) Insgesamt wurden dem Tagset also drei Partikelklassen hinzugefügt: PT- KIFG, PTKMA und PTKMWL. Die Klasse der Antwortpartikeln (PTKANT) wurde anderweitig klassifiziert. Inwiefern diese Klassifikation zuverlässig annotiert werden kann und auch im automatisierten POS-Tagging funktioniert, wird in den Kapiteln zum Inter-Annotator-Agreement (3.9.2 und 3.13.1) bzw. zur Analyse der automatisierten Annotation (3.15) dargestellt werden. 3.7.4.1.2 NGHES, NGIRR, NGONO, NGAKW - Klassen für die Annotation Syntax unabhängiger Partikeln Wie bereits im theoretischen Teil ausgeführt wurde, ist die Terminologie, was Satz-unabhängige Gesprächspartikeln betrifft, sehr vielfältig und auch die Definitionskriterien diverser Klassen, die sich darunter fassen lassen, sehr heterogen und teilweise widersprüchlich. Es ist jedoch deutlich geworden, dass es sich um Elemente außerhalb grammatischer Strukturen handelt. Für ihre Abbildung im Tagset wurde daher der Terminus „Nicht-grammatische Elemente“ gewählt. Folglich können diese Elemente nur formbasiert oder über ihre Funktion in weitere Klassen unterteilt werden. Die Erfahrungen bei der manuellen Annotation zeigten, dass eine Differenzierung zwischen Interjektionen, Responsiven und Rezeptionssignalen nicht praktikabel ist. Sehr häufig gab es Zweifelsfälle und Ambiguitäten, die durch verschiedene Interpretationen von Kontext und Prosodie entstanden. Es wurde daher beschlossen, diese Klassen zugunsten einer zuverlässigen Annotation gemeinsam als POS-Tag abzubilden. Das POS-Tag NGIRR steht für Interjektionen, Rezeptionssignale und Responsive. In diesem Sinne werden nun auch Antwortpartikeln, die vormals mit dem Tag PTKANT getaggt wurden, als NGIRR getaggt. Die POS- Kategorie wurde in den Guidelines folgendermaßen definiert: Dieses Tag wird an alle Interjektionen, Rezeptionssignale und Responsive vergeben, mit Ausnahme von Mehrwortkonstruktionen. Die Kategorie umfasst neben klassischen Interjektionen (hm, ach, oh) ebenfalls von Lexemen abgeleitete Interjektionen und Responsive wie beispielsweise gut, klar oder <?page no="295"?> Erste Anpassung des Tagsets und der Guidelines 295 Gott. Bei solchen NGIRRs kann die Alleinstellung bzw. die Bezugslosigkeit zu anderen Token als Hinweis auf eine Bestimmung als NGIRR herangezogen werden. Bitte, danke und nein werden ausschließlich als NGIRR getaggt, sowie meist auch ja, falls es nicht als Modalpartikel vorkommt. (Westpfahl et al. 2017, S. 15) Neben diesem POS-Tag wurden dem überarbeiteten Tagset noch drei weitere POS-Tags in der Klasse der nicht-grammatischen Elemente hinzugefügt. Da es sich um Elemente außerhalb syntaktischer Bezugsrahmen handelt, kann die Abgrenzung von den NGIRRs nur über morphologische und funktionale Kriterien geschehen. Im theoretischen Teil wurde deutlich gemacht, dass es bei bestimmten Phänomenen, namentlich bei Onomatopoetika, Hesitationspartikeln oder Inflektiven, auf die Interpretation der verschiedenen Definitionen ankommt, ob man sie von den Interjektionen abgrenzt oder nicht. Im Sinne einer möglichst detailreichen Annotation, die den Nutzern der Datenbank möglichst verschiedene Anfragen ermöglicht, wurden diesen Klassen eigene POS-Tags zugewiesen: NGONO für Onomatopoetika, NGHES für Hesitationspartikeln und NGAKW für Inflektive. Diese Klassen lassen sich über ihre Morphologie oder ihre Funktion sehr zuverlässig von anderen Interjektionen abgrenzen und sind daher für die POS- Annotation ertragreich. Im Falle der Onomatopoetika ist es die Funktion der Schallimitation: „Dieses Tag wird lautmalerischen Elementen vergeben. Sie sind von Interjektionen im Allgemeinen abzugrenzen, indem sie eine Schall- oder Laut-imitierende Funktion haben“ (ebd., S. 16). Hesitationspartikeln sind im FOLK-Korpus sehr leicht darüber zu identifizieren, dass jegliche Form der Hesitationspartikeln auf der Normalisierungsebene zu der Wortform äh normalisiert wird: „Dieses Tag wird allen Elementen, die als Pausen- oder Hesitationsmarker fungieren und zu ‚äh‘ normalisiert werden, vergeben“ (ebd.). Inflektive spielen vorrangig in Daten der internetbasierten Kommunikation eine Rolle, kommen, wenn auch selten, jedoch auch in Korpora gesprochener Sprache vor. In Absprachen mit Bartz/ Beißwenger/ Storrer (2013), die das Tagset für internetbasierte Kommunikation angepasst haben und in deren Daten diese Elemente eine deutlich größere Rolle spielen, wurde die Kategorie Aktionswörter, NGAKW, genannt. In der Richtlinie für das POS-Tagging von Sprachdaten aus Genres internetbasierter Kommunikation heißt es: Die Kategorie „Aktionswort“ (AKW) umfasst Einheiten wie grins, freu, lach, grübel, lol, rofl, stirnrunzel, malaufschreib, die als selbstständige Einheiten der Interaktion fungieren. Prototypischerweise haben Aktionswörter die Form von einfachen Inflektiven (grins, freu, lach, grübel). Sie treten aber auch in der Form erweiterter Inflektive (stirnrunzel, malaufschreib) oder von Akronymen auf (lol, rofl). Bisweilen fungieren anstelle von Inflektiven auch Vertreter anderer Wort- <?page no="296"?> Empirischer Teil 296 arten (*schock*) oder Verbformen in der 1. Person Singular als Basis (beidirseinwill). (Beißwenger et al. 2015, S. 6) Für die Annotation der FOLK-Daten wurden lediglich die Inflektive, d. h. die Äußerung der Stammform eines Verbs relevant und dies auch nur in sehr wenigen Fällen. Da sie sich aber sowohl funktional als auch morphologisch von anderen Satz-unabhängigen Elementen abgrenzen lassen, wurde für sie im bearbeiteten Tagset die Kategorie NGAKW geschaffen. 3.7.4.1.3 SEDM und SEQU - Klassen für die Annotation von Diskursmarkern und Question - Tags Aus den Ausführungen im theoretischen Teil dieser Arbeit ging hervor, dass es Elemente gibt, die weder innerhalb syntaktischer Strukturen stehen, noch unabhängig von ihnen sind. Für Elemente dieser Art wurde dem Tagset die Klasse der Satz-externen Elemente hinzugefügt (SE). In diese Klasse fallen Wortformen, die in der Literatur beispielsweise als Operatoren, Diskursmarker oder Question-Tags beschrieben werden. Aus Gründen der Praktikabilität werden jedoch nicht alle Elemente, die als Diskursmarker, Operatoren oder Question-Tags definiert werden können, auch als solche getaggt. Im überarbeiteten Tagset wurden zwei Tags für Satz- und Konstruktionsexterne Elemente eingefügt: SEDM für Diskursmarker und SEQU für Question-Tags. Diese orientieren sich in ihren Definitionen an existierenden Definitionen für Diskursmarker von Gohl/ Günthner (1999), Auer/ Günthner (2005), Imo (2012) und Günthner (2015), bzw. für Operatoren an Barden/ Elstermann/ Fiehler (2001). Eine POS-Kategorie Diskursmarker muss sich verschiedenen Problemen stellen. Die Tatsache, dass diese Elemente von anderen Wortarten zu Diskursmarkern pragmatikalisiert sind, bedeutet, dass sie Homonyme in anderen Wortartenklassen haben, die stellungsgleich verwendet werden (Westpfahl 2017, S. 292). Daraus wiederum folgt, dass für das Tagging der Diskursmarker nur solche Formen berücksichtigt werden konnten, die sich in ihrer Stellung von Homonymen in anderen Wortartenklassen abgrenzen. Um dies zu ermöglichen, umfasst die Definition der POS-Kategorie Kriterien, die sicher nicht für alle Diskursmarker zutreffen. Wenn diese Kriterien jedoch erfüllt sind, handelt es sich sicher um die Verwendung als Diskursmarker und die Verwendung in einer anderen syntaktischen oder pragmatischen Funktion ist ausgeschlossen. Die Beschreibung der Kategorie Diskursmarker in den Guidelines lautet dementsprechend folgendermaßen: Dieses Tag wird solchen Elementen vergeben, die im Vor-Vorfeld eines Satzes stehen. Sie haben eine projizierende Funktion inhärent in ihrer Semantik, sodass sie ohne einen nachfolgenden Satz eine anakoluthische Struktur bilden. Diskursmarker „färben“ die folgende Äußerung ein, d. h. sie geben eine Art <?page no="297"?> Erste Anpassung des Tagsets und der Guidelines 297 Verstehensanweisung derselben. Entscheidendes Kriterium zur Abgrenzung der Diskursmarker von Interjektionen, Rezeptionssignalen und Responsiven ist, dass nach diesen der Turn prinzipiell beendet werden könnte, nach Diskursmarkern die Äußerung ohne Fortführung keinen Sinn ergibt. Dies ist unabhängig von der Intonation zu betrachten. Bei der Abgrenzung zu subordinierenden Konjunktionen gibt die Stellung des finiten Verbs Auskunft: Bei Verbzweit-Stellung handelt es sich um einen Diskursmarker, bei finaler Verbstellung um eine Subjunktion. Bei der Abgrenzung zu Adverbien ist es ebenfalls die periphere Stellung, die eine Klassifikation als Diskursmarker bedingt. Bei Verbzweit-Konstruktionen steht der Diskursmarker im Vor-Vorfeld, bei Verberst- oder selbstständigen Verbletzt-Konstruktionen steht der Diskursmarker in der Peripherie, d. h. nicht im Mittelfeld. Mehrworteinheiten und Diskursmarker mit stellungsgleich verwendeten Homonymen in einer anderen Wortklasse sind nicht als solche zu annotieren. (Westpfahl et al. 2017, S. 26 f.) Question-Tags sind deutlich weniger problematisch, da es in dieser Klasse einige Elemente gibt, die nur als solche verwendet werden, wie beispielsweise gell, wa, oder ne. Dennoch gibt es auch hier einige Elemente wie beispielsweise ja oder oder, die nur anhand prosodischer Kriterien (wenn überhaupt) und aufgrund pragmatischer Kontext-Informationen von Interjektionen bzw. Konjunktionen, denen ein Abbruch folgt, differenziert werden können. Die Definition der POS-Kategorie Question-Tags ist somit folgendermaßen: Genau wie die Diskursmarker stehen Rückversicherungssignale bzw. Question-Tags nicht unabhängig von weiteren Syntagmen. Zwar haben sie keine projizierende Kraft, dennoch sind sie an eine Struktur gebunden, da sie das „Verstehen“ derselben abfragen, sei es auch nur im Sinne einer Lenkung der Aufmerksamkeit auf die Äußerung (Attention-getters). Dies gilt auch für Ko- Konstruktionen mehrerer Sprecher. Beispielsweise kann in einer Konversation Sprecher 1 sagen: „Können wir machen, nicht? “ oder er sagt: „Können wir machen“ und Sprecher 2 sagt: „nicht? “. In letzterem Fall ist das „nicht“ keinesfalls eine Negationspartikel (PTKNEG), da sie die Äußerung nicht im Sinne von „Das können wir nicht machen“ negiert, sondern allein durch die „Rückfrage“ Emphase auf die Äußerung legt. Typische Question-Tags wie wa, nich, ne oder woll werden häufig im rechten Außenfeld einer satzwertigen Konstruktion produziert, können jedoch in Scharnierfunktion ebenfalls im Vor-Vorfeld einer satzwertigen Konstruktion stehen, beispielsweise: „Ne? Das können wir so machen.“ Sie behalten dabei ihre Funktion der Lenkung der Aufmerksamkeit auf das Folgende und machen (ungleich den NGIRRs) ohne die folgende Äußerung keinen Sinn, geben aber keine Verstehensanweisung, wie die Diskursmarker. Hier hilft eine Umstellprobe - lassen sich die Elemente auch an das Ende der Äußerung stellen, so handelt es sich um Question-Tags und keine Diskursmarker. Ausnahmen: „Ja“ als rechtes Außenfeld- oder Vor-Vorfeld-Element wird prinzipiell als NGIRR getaggt, da eine Funktion als SEQU nur anhand der Intonation nachgewiesen werden kann. <?page no="298"?> Empirischer Teil 298 „Oder“ im rechten Außenfeld wird als elliptische Äußerung aufgefasst („oder nicht? “) und deshalb auch hier als KON getaggt. (ebd., S. 27) Auch hier wurde entschieden, dass die Annotation eines Großteils dieser Elemente deutlichen Nutzen für Recherchen auf den Daten des FOLK-Korpus bringt. Ebenso wie bei den Partikeln lohnt es sich, diese Kategorie in das Tagset aufzunehmen, auch wenn nicht alle Question-Tags und Diskursmarker im Korpus aufgrund von Ambiguitäten annotiert werden können. Sobald das Korpus durch eine syntaktische Segmentierung überarbeitet wurde, können beispielsweise ja und auch oder im rechten Außenfeld klarer bestimmt werden. Eine automatisierte Nachannotation dieser Elemente ist dann denkbar. 3.7.4.2 Änderungen im Bereich der bestehenden Wortarten - Tags Abgesehen von den Gesprächspartikeln wurden noch einige wenige Änderungen an den Tag-Kategorien für andere Wortarten vorgenommen. Um die in Kapitel 2.5.1.1 „Abgrenzung der Indefinitpronomen von Adjektiven“ erläuterte Inkonsistenz bei der Analyse von Indefinitpronomen auszugleichen, wurde für substituierende Indefinitpronomen mit Determinern eine weitere POS-Kategorie in das überarbeitete Tagset eingefügt: PIDS. Dieses Tag wird vergeben für substituierende Indefinitpronomina, die mit Determiner stehen können. Wie ebenfalls im oben genannten Kapitel beschrieben, fiel bei der manuellen Annotation des Development-Sets immer wieder auf, dass die Abgrenzung der Indefinitpronomina von Adjektiven teils sehr problematisch ist. Dieses Problem wurde in den überarbeiteten Guidelines daher adressiert und ein Absatz eingefügt, der die Differenzierung erleichtern soll: Adjektive beschreiben Objekte anhand ihrer Eigenschaften (z. B. groß, langweilig). Indefinitpronomina bzw. quantitative Adjektive beschreiben Objekte/ Mengen von Objekten über: - Die Größe der Menge (viele, wenige, manche) - Ihre Ähnlichkeit/ Unähnlichkeit zu anderen Objekten (solche, andere) - Ihre Unbestimmtheit ((irgend)einer, (irgend)welche, jemand) Im Zweifel kann man sich nach den Listen im Anhang richten. (Westpfahl et al. 2017, S. 24) Der im Kapitel 2.5.1.2 „Abgrenzung von Adjektiven und Verben im Partizip“ diskutierten Problematik wurde in den überarbeiteten Guidelines durch eine explizit für dieses Problem konzipierte Entscheidungshilfe Rechnung getragen (Abb. 16). Diese wurde im Hinblick auf die konsistente Annotation der Daten als Entscheidungsbaum formuliert und hat sich im Laufe der manuellen Annotationen von Development-Set und Goldstandard bewährt: <?page no="299"?> Erste Anpassung des Tagsets und der Guidelines 299 Annotation als VVPP nein Annotation als ADJD nein Annotation als ADJD nein Abgrenzung zwischen prädikativ, gebrauchtem Adjektiv und Partizip Perfekt mit Kopula ja ja ja Wäre es ein Verb, wäre es dann intransitiv? Wäre es ein transitives Verb oder ein Adjektiv, ist die Form dann komparierbar? Ist Komparierbarkeit semantisch nicht möglich, kann man das Präfix un voranstellen? Annotation als VVPP Abb. 16: Entscheidungsbaum zur Abgrenzung zwischen prädikativ gebrauchtem Adjektiv und Partizip Perfekt mit Kopula (Westpfahl et al. 2017, S. 47) Durch den Entscheidungsbaum werden klare Differenzierungskriterien festgelegt, basierend auf Tests zur Identifikation von Verben und Adjektiven (ebd., S. 47 f.). Um die im Kapitel 2.5.1 „Medialitätsübergreifende Abgrenzungsprobleme“ angesprochene Inkonsistenz in Bezug auf die Annotation von komplexen Eigennamen in fremdsprachlichem Material auszugleichen, wurde auch hier eine Anpassung vorgenommen: Einzelne Wörter, die eindeutig als Eigennamen identifiziert werden können, werden als NE getaggt. Bei Mehrwortkonstruktionen, die Eigennamen darstellen, werden die Wörter einzeln getaggt. Fremdsprachliche Eigennamen verhalten sich genauso wie deutsche Eigennamen. Bei komplexen fremdsprachlichen Eigennamen werden nur die Wörter, die für sich genommen Eigennamen sind, als NE getaggt, die anderen als FM. (ebd., S. 31) Eine weitere Änderung in dem überarbeiten Tagset ist der Ausschluss der Klasse der Pronominaladverbien. Wie Hirschmann schon in seinen Analysen zu den Modifikatoren des Deutschen feststellte, handelt es sich um eine rein <?page no="300"?> Empirischer Teil 300 formbasierte, „jedoch semantisch und syntaktisch höchst heterogene Klasse“ (Hirschmann 2015, S. 59). Gerade diese Heterogenität machte ihre Abgrenzung zu den (Konjunktional-)Adverbien äußerst problematisch, zumal auch die in den Original-Guidelines enthaltenen Listen sowohl unvollständig als auch widersprüchlich sind. Ihre Auszeichnung im Bereich des POS-Taggings bringt wenig Nutzen für eine Analyse in Bezug auf die Funktion der Elemente im Kontext (ebd., S. 55). Darüber hinaus sind sie über ihre Morphologie leicht auch über die Tokensuche im Korpus auffindbar. Die Aussparung dieser Kategorie macht die Annotation also konsistenter und keine relevante Information geht dadurch verloren. Über diese Änderungen hinaus wurden in den überarbeiteten Guidelines an vielen Stellen die Definitionen verbessert und durch Beispiele aus den FOLK- Daten exemplifiziert. 3.7.4.3 Die Klassifikation von typisch gesprochensprachlichen Transkriptbestandteilen Wie bereits in Kapitel 3.7.2 „Die Anwendung des STTS für Transkripte gesprochener Sprache - eine Problemanalyse“ herausgestellt wurde, enthalten Transkripte gesprochener Sprache viele Elemente, die sich nicht als Wortarten im engeren Sinne beschreiben lassen. Um das Korpus dennoch exhaustiv taggen zu können, wurden auch für diese Elemente POS-Tags in der Überarbeitung des Tagsets eingefügt - analog zu den POS-Kategorien für beispielsweise Interpunktion im Original-STTS. Insgesamt wurden drei Tags für solche Elemente im überarbeiteten STTS hinzugefügt: UI für uninterpretierbares Material, SPELL für Buchstabiertes und AB für wortinterne Abbrüche. Die Identifikation uninterpretierbaren Materials ist sehr simpel, da es in der Transkription nach cGAT mit +++ pro Silbe verschriftlicht wird (Westpfahl et al. 2017, S. 32). Eine andere Wortartenannotation wäre in solchen Fällen reine Spekulation. Das Tag SPELL wird zur Annotation einzelner genannter Buchstaben verwendet (ebd., S. 32 f.). Hierbei ist jedoch echt Buchstabiertes von Akronymen abzugrenzen. Akronyme werden über die Normalisierung kenntlich gemacht, indem das gesamte Akronym auf den ersten geäußerten Buchstaben gemappt wird und die weiteren geäußerten Buchstaben den Dummy „&“ erhalten. Der Dummy „&“ wiederum wird ebenso wie nicht-lexikalisierte Laute, die mit dem Dummy „#“ normalisiert werden, nach den Analysen in Kapitel 2.5.2.1 „Nichtwörter (XY)“ als XY getaggt. Die Definition der Nichtwörter in den überarbeiteten Guidelines ist somit folgendermaßen: <?page no="301"?> Erste Anpassung des Tagsets und der Guidelines 301 Bei Akronymen wird in der Normalisierung das Wort auf den jeweiligen ersten Bestandteil in der Transkription gemappt, der Rest mit dem Dummy „&“ gekennzeichnet. Alle Elemente des Korpus, die mit diesem Dummy ausgezeichnet sind, erhalten das Tag XY. Ebenso erhalten alle nicht lexikalisierten, aber verschriftlichten Laute, wie beispielsweise Stottern, die in der Normalisierung mit dem Dummy „#“ gekennzeichnet sind, das Tag XY. (ebd., S. 32) Die Kategorie XY unterscheidet sich damit stark in ihrer Definition von den Original-Guidelines. Dort werden Nichtwörter als größere Symbolgruppen, Nichtwörter sowie Kombinationen aus Ziffern und Zeichen, die sich nicht als CARD oder ADJA einordnen lassen, bezeichnet. Naturgemäß sind Nichtwörter, die in einem Korpus von Transkripten gesprochener Sprache zu finden sind, andere als in schriftsprachlichen Texten. Gesondert ausgezeichnet werden wortinterne Abbrüche. Sie erhalten das Tag AB und sind folgendermaßen definiert: Abbrüche auf Wortebene werden in der Normalisierung durch einen Dummy „%“ markiert. Ist der Abbruch rekonstruierbar, dann wird zusätzlich das Wort vervollständigt. So kann zusätzlich zur Information über die Wortart der Abbruch identifiziert werden. In diesem Fall erhält der Dummy „%“ das Tag AB. (ebd., S. 10) Auf diese Weise kann jede einzelne Tag-Kategorie im Korpus unterspezifiziert werden - namentlich, dass es sich um einen Abbruch einer Wortform dieser Tag-Kategorie handelt, insofern diese rekonstruierbar ist. Diese speziellen Formen erhalten dann ein POS-Tag, das aus zwei Tag-Bezeichnungen besteht. Bei der Tokensuche in der Datenbank werden sie auch nur unter diesem Doppeltag auffindbar, verzerren also nicht die Statistik, wenn man nach einzelnen Tags sucht, es sei denn, man schließt sie willentlich mit ein. In doppelten Klammern transkribiertes Material, wie beispielsweise bestimmte Formen vokaler Kommunikation und paraverbales Verhalten, wird nicht getaggt. Sie werden auch auf Ebene der Normalisierung nicht annotiert und sind im Korpus über die doppelten Klammern in der Transkription immer auffindbar. 3.7.5 Das STTS 2.0 Zusammenfassend kann konstatiert werden, dass das STTS 2.0, wie wir es genannt haben, eine Überarbeitung des Tagsets und der Guidelines enthält, die einerseits den Merkmalen von Transkripten gesprochener Sprache Rechnung trägt und darüber hinaus auch generell Verbesserungen für die Differenzierung zwischen Wortarten für alle Typen von Daten bietet. Hierbei wurden einige Tags hinzugefügt, andere reklassifiziert und wieder andere verworfen. <?page no="302"?> Empirischer Teil 302 Das alte STTS differenziert zwischen elf Hauptwortarten: 1) Nomina (N) 2) Verben (V) 3) Artikel (ART) 4) Adjektive (ADJ) 5) Pronomina (P) 6) Kardinalzahlen (CARD) 7) Adverbien (ADV) 8) Konjunktionen (KO) 9) Adpositionen (AP) 10) Interjektionen (ITJ) 11) Partikeln (PTK) Das STTS 2.0 enthält 12 Hauptwortarten: 1) Adjektive (ADJ) 2) Adpositionen (AP) 3) Adverbien (ADV) 4) Artikel (ART) 5) Konjunktionen (KO) 6) Nicht-grammatische Elemente (NG) 7) Nomina (N) 8) Partikeln (PTK) 9) Pronomina (P) 10) Satzexterne Elemente (SE) 11) Verben (V) 12) Zahlen (CARD und ORD) Insgesamt enthält das STTS 2.0 63 Tags, davon sind sechs nicht als Wortarten zu bezeichnen. Es enthält insgesamt elf neue Tags: NGIRR, NGONO, NGAKW, NGHES, PTKIFG, PTKMA, PTKMWL, UI, SPELL, AB und ORD. Die Tags PAV, PTKANT und ITJ gibt es im überarbeiteten Tagset nicht mehr. Wortformen der letzteren zwei Klassen finden sich jetzt gemeinsam in der Kategorie NGIRR. Die Pronominaladverbien werden in der Mehrzahl als Adverbien (ADV) getaggt. Darüber hinaus umfassen die Anpassungen für das Tagset für Daten internetbasierter Kommunikation noch Tags für Emoticons (EMOASC, EMOIMG), Hashtags (HST), Adressierungen (ADR), URLs (URL) und E-Mail-Adressen (EML) (Beißwenger et al. 2015). <?page no="303"?> Manuelle Korrektur des Development-Sets 303 Mit diesem gemeinsamen Tagset lassen sich alle Daten von Transkripten gesprochener Sprache und internetbasierter Kommunikation exhaustiv und mutuell exklusiv zuverlässig manuell annotieren. Im Folgenden soll dies durch die Darstellung der Ergebnisse des Inter-Annotator-Agreements belegt werden. Um alle Voraussetzungen für das Inter-Annotator-Agreement zu beschreiben, wird jedoch zunächst dargestellt, wie und mit welchen Mitteln die manuelle Korrektur des Development-Sets vorgenommen wurde. 3.8 Manuelle Korrektur des Development - Sets Nach der Anpassung des Tagsets und der Guidelines wurde beides anhand des Development-Sets evaluiert. Das Development-Set umfasste circa ein Viertel der Daten des gesamten Goldstandards und war, wie auch die Daten der Pilot-Studie, vor der manuellen Korrektur mit dem TreeTagger und dem Parameter-File für deutsche Schriftdaten getaggt. Diese Daten wurden dann mit Hilfe der Software OrthoNormal (Schmidt 2014a) manuell korrigiert. Diese Korrektur wurde von zwei verschiedenen Annotator*innen vorgenommen. Auf Basis des Vergleichs dieser korrigierten Transkripte konnte dann ein Inter-Annotator-Agreement berechnet werden. Diese Schritte werden in diesem Kapitel genauer beschrieben. 3.8.1 OrthoNormal, das Tool zur manuellen Korrektur des POS - Taggings Für die manuelle Korrektur der POS-Tags entwickelte Schmidt eine gesonderte Funktion in OrthoNormal (ebd.), welches ein Tool zur orthografischen Normalisierung von Transkripten gesprochener Sprache ist. Diese Funktion ermöglicht es, die Lemmatisierung und POS-Annotationen anzeigen zu lassen und die Lemmata und POS-Tags, wo es notwendig ist, zu korrigieren. Die folgenden Screenshots in den Abbildungen 17, 18 und 19 sollen diesen Prozess veranschaulichen. Abbildung 17 zeigt die Bearbeitungsansicht für die manuelle Korrektur des POS-Taggings in OrthoNormal. Im linken Teilbildschirm befindet sich die Beitragsansicht. Sprecherbeiträge sind nach den cGAT-Richtlinien entweder durch Sprecherwechsel oder durch Sprecherpausen von mehr als 0,2 Sekunden begrenzt. Durch die Alignierung der Transkripte mit der Audiodatei lassen sich alle Beiträge anhören. <?page no="304"?> Empirischer Teil 304 Abb. 17: Screenshot, Transkript Tischgespräch zur POS - Korrektur in OrthoNormal, Transkript FOLK_E_00143_ SE_01_T_05_DF_01, 02: 12: 26 - 02: 12: 55 113 113 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00143_SE_01_T_05_DF_01&cID=c27&wID=&textSize=300&contextSize=8. <?page no="305"?> Manuelle Korrektur des Development-Sets 305 Abb. 18: Screenshot, Korrektur der POS - Tags in OrthoNormal Abb. 19: Screenshot, Filtern der Wortformen eines Transkripts nach Personalpronomen (PPER) in OrthoNormal Im Bearbeitungsfeld, dargestellt in Abbildung 18, erscheint der zur Bearbeitung ausgewählte Beitrag (in Abb. 17 dunkel hinterlegt markiert). Hier werden die Annotationen der Lemmata und POS-Tags angezeigt (in den grauen geschweiften Klammern) und durch einen Klick auf das entsprechende Token lassen sich einzelne Annotationen korrigieren. Zur Korrektur der POS- Tags gibt es für häufig zu korrigierende Tags Schnellwahl-Buttons, z. B. für die Annotation von Interjektionen, Responsiven und Rezeptionssignalen (NGIRR), Hesitationspartikeln (NGHES), Modalpartikeln (PTKMA), Adverbien (ADV) etc. Alternativ gibt es auch ein Drop-Down-Menü aller verfügbaren Tags im Tagset, in dem das gewünschte Tag ausgewählt werden kann. Im rechten Feld befinden sich die Wort- und Annotationslisten. Hier können die einzelnen Token des Transkripts alphabetisch sortiert werden. Ebenso können hier bestimmte Formen jeder Annotationsebene durch die Suche auffindbar gemacht werden. In der Abbildung 19 wurde in der Datei nach dem POS-Tag für Personalpronomen (PPER) gesucht. Ein Doppelklick auf einen Eintrag in der Liste führt dazu, dass entsprechender Beitrag in dem Bearbeitungsfeld angezeigt wird. <?page no="306"?> Empirischer Teil 306 In der finalen Version wird der Goldstandard die in Abbildung 19 vier dargestellten Annotationsebenen enthalten: Transkription, orthografische Normalisierung, Lemmata und POS-Tags. Jede dieser Annotationen wurde einer sorgfältigen Qualitätskontrolle unterzogen. Die Transkripte werden in einem FOLKER/ OrthoNormal XML Format (Schmidt 2012) gespeichert und distribuiert. Dieses Format ist kompatibel mit dem TEI-basierten ISO-Standard „ISO 24624: 2016 - Transcription of spoken language“ (ISO 2016) und kann auf diese Weise leicht in andere Formate für die automatisierte oder manuelle Weiterverarbeitung der Daten exportiert werden. Die Daten werden in ihrem Original-Format (FLN), in einer TEI/ ISO-Version sowie in einem tabellarischen Format veröffentlicht, was für sprachtechnologische Verfahren sowie korpuslinguistische Applikationen üblich ist (Westpfahl/ Schmidt 2016). 3.8.2 Annotator*innen und Annotationsprozess Bei den Annotator*innen des Development-Sets handelt es sich um die Autorin selbst und eine studentische Hilfskraft. Nach einer Einführung in die Handhabung der Software wurde der Hilfskraft ein Probetranskript gegeben, anhand dessen sie sich mit dem STTS und den originalen STTS-Guidelines vertraut machen konnte. Darüber hinaus wurde ihr eine Handreichung für den Umgang mit Gesprächspartikeln gegeben, namentlich eine Übersicht der neu eingeführten Tags für Gesprächspartikeln, Diskursmarker und Satz-interne Partikeln mit Erläuterungen. Ebenso gab es eine gesonderte Handreichung für die neu eingeführten Tags hinsichtlich typisch gesprochensprachlicher Transkriptbestandteile. Auch nach Einarbeitung fanden regelmäßige Treffen zur Diskussion von Problemfällen statt. Die Problemfälle wurden gesammelt, evaluiert und flossen dann in eine weitere Überarbeitung der Guidelines und des Tagsets ein. Die Problemfälle bezogen sich hauptsächlich auf die Abgrenzung zwischen Verbpartikeln und Adverbien, Adverbien und Satz-internen Partikeln und Indefinitpronomen von Adjektiven. Darüber hinaus fand währenddessen ein Austausch mit den Partnern der Arbeitsgruppe der STTS-Workshops statt. So wurden dort beispielsweise die Benennung der neuen Kategorien festgelegt und die Problematik der oben beschriebenen Klasse der Partikeln als Teil eines Mehrwortlexems (PTKMWL) diskutiert. In der Arbeitsgruppe getroffene Entscheidungen wurden wiederum an die Hilfskraft vermittelt und flossen in den Annotationsprozess mit ein. <?page no="307"?> Inter-Annotator-Agreement zur manuellen Korrektur des Development-Sets 307 Da die Guidelines sich auf diese Weise in einem iterativen Prozess noch während des Annotationsprozesses des Development-Sets weiterentwickelten, war eine nochmalige Endkorrektur aller Transkripte vor der abschließenden Evaluation der Übereinstimmungen notwendig. Diese Phase der manuellen Korrektur war notwendig, um verbliebene Inkonsistenzen in den Guidelines zu eliminieren. Ein theoretisch durchdachtes Konzept muss sich in der Praxis an den Daten messen lassen, und da die Daten in Transkripten gesprochener Sprache sehr variabel sind, gibt es immer wieder Wortformen in Kontexten, die Ambiguitäten in der Interpretation zulassen. Diese Ambiguitäten mit Hilfe der Präzisierung der Guidelines aufzulösen, war das Hauptanliegen in dieser Entwicklungsphase. 3.9 Inter - Annotator - Agreement zur manuellen Korrektur des Development - Sets Inter-Annotator-Agreements sind ein wichtiges Werkzeug zur Evaluation manuell annotierter Daten. Auch Zinsmeister/ Heid/ Beck (2014) weisen in ihrem Text zur Adaption des STTS für nicht-standardsprachliche Daten darauf hin, dass „Tests of annotation accuracy“ (ebd., S. 4100) für jegliche Adaption des Tagsets unumgänglich sind. Artstein/ Poesio (2008) befassen sich in ihrem Aufsatz „Inter-Coder Agreement for Computational Linguistics“ ausführlich mit diesem Thema und fassen zusammen: Researchers who wish to use hand-coded data—that is, data in which items are labeled with categories, whether to support an empirical claim or to develop and test a computational model—need to show that such data are reliable. (ebd., S. 556) Die Berechnung eines Inter-Annotator-Agreements liefert wichtige Informationen einerseits über die Qualität der Annotationen und andererseits über die Qualität der Guidelines, d. h. inwiefern sich die gewählten Kategorien intersubjektiv korrekt zuweisen lassen. Die grundlegende Annahme ist hierbei, dass sich die Zuverlässigkeit der Annotationen auf einem Datensatz daran messen lässt, inwiefern mindestens zwei Annotator*innen in ihren Annotationen übereinstimmen. Wenn die Annotator*innen konsistent auf die gleiche Weise annotieren, kann man daraus ableiten, dass sie die Tag-Kategorien und die Guidelines auf die gleiche Weise interpretieren und dass sie auch weitere Daten ebenso zuverlässig annotieren (ebd., S. 556 f.). Inter-Annotator-Agreements lassen Rückschlüsse auf zwei Parameter hinsichtlich der Annotationen zu: Einerseits auf die Reliabilität der Annotationen, d. h. inwiefern auch weitere Daten eines Datensatzes zuverlässig auf die glei- <?page no="308"?> Empirischer Teil 308 che Art und Weise annotiert werden. Darüber hinaus gibt es Hinweise auf die Validität des Tagsets und der Guidelines, d. h. inwiefern das Tagset und die Guidelines die echten Daten unverwechselbar abbilden: Reliability is […] a prerequisite for demonstrating the validity of the coding scheme—that is, to show that the coding scheme captures the „truth“ of the phenomenon being studied, in case this matters: If the annotators are not consistent then either some of them are wrong or else the annotation scheme is inappropriate for the data. (ebd., S. 557) Generell werden also bei einem Inter-Annotator-Agreement die Annotationen zweier oder mehrerer Annotator*innen auf dem gleichen Datensatz verglichen. Zunächst wird die rohe Übereinstimmung der Annotationen berechnet. Darauf aufbauend wird von diesem Wert die statistische Wahrscheinlichkeit, dass diese Übereinstimmungen auf Zufall basieren, herausgerechnet. Hierzu gibt es verschiedene statistische Verfahren, die im Folgenden näher erläutert werden. Durch Carlettas Aufsatz „Assessing agreement on classification tasks: the kappa statistic“ (1996) wurde die Kappa-Statistik zum de facto-Standard als Maß für Inter-Annotator-Agreements im Bereich der Computational Linguistics, auch über den Bereich von Diskurs-Annotationen hinaus (Artstein/ Poesio 2008, S. 556). Carlettas Argumentation bezieht sich generell auf den Einbezug eines statistischen Maßes, das durch die Berechnung von erwarteten Übereinstimmungen zufälligen Übereinstimmungen Rechnung trägt. Die Berechnung dieses Maßes geht dabei auf folgende Formel zurück: The kappa coefficient (K) measures pairwise agreement among a set of coders making category judgments, correcting for expected chance agreement. ê = P(A) - P(E) 1 - P(E) Where P(A) is the proportion of times that the coders agree and P(E) is the proportion of times that we would expect them to agree by chance. (Carletta 1996, S. 252) Sie differenziert dabei nicht zwischen verschiedenen Möglichkeiten der Berechnung zufälliger Übereinstimmungen: There are several variants of the kappa coefficient in the literature, including one, Scott’s pi, which actually has been used at least once in our field, to assess agreement on move boundaries in monologues using action assembly theory (GC86). Krippendorff’s α is more general than Siegel and Castellan’s K in that Krippendorff extends the argument from category data to interval and ratio scales; […] Krippendorff’s α and Siegel and Castellan’s K actually differ slightly when used on category judgments in the assumptions under which expected agreement is calculated. (ebd.) <?page no="309"?> Inter-Annotator-Agreement zur manuellen Korrektur des Development-Sets 309 Artstein/ Poesio (2008) gehen genauer auf die Vor- und Nachteile dieser verschiedenen Berechnungsweisen ein. Die Kappa-Berechnungsmethode von Cohen (1960), Cohen’s κ, berechnet die erwartete Übereinstimmung in Hinblick auf die Verteilung und die Häufigkeit der Annotationen in den bestimmten Kategorien einer jeden Annotator*in. Auf diese Weise reflektiert die Berechnung der zufälligen Übereinstimmungen die Neigungen einer jeden Annotator*in, bestimmte Kategorien häufiger zu vergeben als andere. Die Berechnung des erwarteten Wertes erfolgt demnach über den Einbezug der Proportion, in dem der jeweilige Annotator*in diese Kategorie im gesamten Datensatz vergeben hat, im Vergleich zu anderen Kategorien. Diese Berechnungsmethode eignet sich jedoch nur für zwei Annotator*innen (Artstein/ Poesio 2008, S. 561 f.). Im Gegensatz dazu wird bei der Berechnung von Krippendorffs α oder auch Scotts π die erwartete Übereinstimmung in Hinblick auf die Gesamtverteilung der Annotationsentscheidungen ohne den Einbezug Annotator*innenspezifischer Verteilungen berechnet (ebd., S. 564). Krippendorffs α eignet sich darüber hinaus auch für den Vergleich der Annotationen mehrerer Annotator*innen oder auch für unvollständig annotierte Daten, sowie für den Vergleich von sehr wenigen Daten (Krippendorff 2013). Eine weitere Alternative zu diesen Berechnungen bietet das sogenannte weighted Kappa, das ebenfalls von Cohen (1968) begründet wurde. Dieses Maß lässt eine Gewichtung der Übereinstimmungen oder auch nicht-Übereinstimmungen zu, korrigiert die Werte jedoch weiterhin in Bezug auf die Möglichkeit zufälliger Übereinstimmungen (Cohen 1968; Artstein/ Poesio 2008, S. 567). Artstein/ Poesio (2008) fassen zusammen, dass der Unterschied der genannten Koeffizienten im Wesentlichen auf der unterschiedlichen Interpretation der zufälligen Übereinstimmungen basiert. Krippendorffs α und Scotts π berechnen die Wahrscheinlichkeit der zufälligen Übereinstimmung unabhängig von den Annotator*innen, während κ-Koeffizienten die Annotationen der einzelnen Annotator*innen mit einbeziehen (ebd., S. 571). Für die Interpretation der Reliabilität der Annotationen seien π- und α-Koeffizienten unter Einbezug der Annotationen mehrerer Annotator*innen zu bevorzugen, da diese die Reproduzierbarkeit der Annotationen auf weiteren Daten unabhängig von den spezifischen Annotator*innen darstellen (ebd.). In Bezug auf die Validität der Daten sei die Berechnung der Übereinstimmung mit κ-Koeffizienten zu bevorzugen, da diese wichtige Informationen in Bezug auf die tatsächlichen Annotationen einzelner Annotator*innen liefern: „indi- <?page no="310"?> Empirischer Teil 310 vidual-distribution coefficients like κ provide important information regarding the trustworthiness (validity) of the data on which the annotators agree“ (ebd.). Generell seien in der praktischen Anwendung die Unterschiede zwischen den Berechnungen mit den verschiedenen Koeffizienten häufig sehr gering und noch geringer, je mehr Übereinstimmungen vorhanden sind (ebd., S. 571 f.). Vor dem Hintergrund der Korpuserstellung und -aufbereitung kann die Interpretation eines Inter-Annotator-Agreements von unterschiedlichen Blickwinkeln betrachtet werden. Einerseits lassen sich die Erkenntnisse über die reine Analyse der Performanz der Annotator*innen hinaus auch auf die Nutzer*innen der Daten übertragen. Wenn die Annotator*innen gut übereinstimmen, steigt auch die Wahrscheinlichkeit, dass Nutzer*innen die Tag-Kategorien wie intendiert verstehen und folglich besser mit den Daten arbeiten können. Andererseits zeigt die Berechnung eines Inter-Annotator-Agreements auch die Grenzen der Angemessenheit der Methoden der Korpuserstellung in Hinblick auf die Natur der Daten auf. Gerade in Daten der gesprochenen Sprache gibt es viele sprachliche Formen, die Eigenschaften mehrerer Kategorien aufweisen, sei es durch Prozesse der Grammatikalisierung oder Pragmatikalisierung oder auch durch bewusst gewählte syntaktische und semantische Ambiguität. In solchen speziellen Fällen muss der Grundsatz, dass Reliabilität die Voraussetzung für Validität ist, hinterfragt werden. Diese Fälle können durch die Auswertung eines Inter-Annotator-Agreements nicht abgebildet werden. Sie widersprechen dem Grundsatz, dass die Definitionen der Klassen sich gegenseitig ausschließen müssen und zeigen sich häufig als negative Resultate im berechneten Wert. Diese Diskrepanz zwischen Korpusaufbereitung und der Analyse der Daten lässt sich nicht vermeiden. Deutliche Hinweise in den Guidelines auf solche Spezialfälle können die Nutzer*innen jedoch für diese Problematik sensibilisieren. 3.9.1 Voraussetzungen und Vorgehen Für diese Untersuchung sind nur Datensätze von zwei Annotator*innen vorhanden. Darüber hinaus liegt der Fokus auf der Validität der Daten in Hinblick auf das abgeänderte Tagset. Betrachtet man also die Vor- und Nachteile der verschiedenen Berechnungsmethoden, liegt es nahe, die Berechnung des Inter-Annotator-Agreements mit Hilfe des Kappa-Koeffizienten durchzuführen. Über die Berechnungsmethode hinaus haben verschiedene Faktoren Einfluss auf ein Inter-Annotator-Agreement, die vor der Berechnung bedacht werden sollten. Krippendorff (2004) sowie auch Artstein/ Poesio (2008) explizieren die <?page no="311"?> Inter-Annotator-Agreement zur manuellen Korrektur des Development-Sets 311 Kriterien, die vor der Durchführung eines Inter-Annotator-Agreements beachtet werden sollten: Krippendorff therefore argues that any study using observed agreement as a measure of reproducibility must satisfy the following requirements: - It must employ an exhaustively formulated, clear, and usable coding scheme together with step-by step instructions on how to use it. - It must use clearly specified criteria concerning the choice of coders (so that others may use such criteria to reproduce the data). - It must ensure that the coders that generate the data used to measure reproducibility work independently of each other. (Artstein/ Poesio 2008, S. 574 f., vgl. auch Krippendorff 2004, S. 273) In der vorliegenden Arbeit ist das erste Kriterium durch die überarbeiteten Guidelines gegeben. Dennoch muss bei dem ersten Inter-Annotator-Agreement auf Basis des Development-Sets berücksichtigt werden, dass auch während der Annotation der Transkripte für das Inter-Annotator-Agreement noch kleinere Änderungen an den Guidelines vorgenommen wurden, da sich die Guidelines und das Tagset noch in der Entwicklungsphase befanden. Daraus erschließt sich, dass die Annotator*innen bei diesem ersten Inter-Annotator-Agreement nicht vollkommen unabhängig voneinander gearbeitet haben. In Bezug auf das zweite Kriterium ergab sich bei der Wahl der Annotator*innen aus dem Projektzusammenhang, dass die Autorin dieser Arbeit die Annotationen als Expertin durchführte, da sie die Änderungen an den Guidelines im Vorhinein selbst konzipiert hatte. Dies birgt selbstverständlich das Risiko, dass Annotationsentscheidungen weniger aufgrund der vorliegenden Regeln in den Guidelines getroffen wurden als aufgrund des Expertenwissens. Auch bei der wissenschaftlichen Hilfskraft handelte es sich durch die regelmäßigen Diskussionen schließlich um einen Annotator mit hoher Expertise auf dem Feld der POS-Annotationen. Die Ergebnisse dieses ersten Inter-Annotator-Agreements sind demnach mit Vorsicht zu interpretieren und können nur mit Vorbehalt als zuverlässig eingestuft werden. Dennoch gibt die Auswertung Hinweise auf die Validität des geänderten Tagsets und der angepassten Guidelines. Für die Untersuchung der Reliabilität der Annotationen wurde noch ein weiteres Inter-Annotator-Agreement mit naiven Annotator*innen und einer strengeren Kontrolle der Voraussetzungen vorgenommen, nachdem alle Änderungen am Tagset und an den Guidelines abgeschlossen waren. Dieses wird in dem Kapitel 3.13.1 „Inter-Annotator-Agreement zur manuellen Korrektur des Goldstandard-Sets“ genauer beschrieben. <?page no="312"?> Empirischer Teil 312 Konkret wurden für das erste Inter-Annotator-Agreement jeweils die gleichen zehn Transkriptausschnitte mit insgesamt 9.102 Token von der Autorin und ihrer studentischen Hilfskraft manuell korrigiert. Die Transkripte enthielten inhaltlich: − zwei verschiedene Meetings in einer sozialen Einrichtung, − ein Prüfungsgespräch in einer Hochschule, − eine Spielinteraktion zwischen Erwachsenen, − ein Paargespräch, − ein studentisches Alltagsgespräch, − eine öffentliche Diskussion (Schlichtungsgespräch zu Stuttgart 21), − eine Schichtübergabe in einem Krankenhaus, − eine Unterrichtsstunde im Wirtschaftsgymnasium und − ein Tischgespräch in einer Familie. Auch hier beinhalten die ausgewählten Transkripte verschiedene Gesprächstypen von privater bis öffentlicher Kommunikation und von standardnaher bis standardferner Sprache der Sprecher*innen. Bei der manuellen Korrektur der POS-Tags fielen den Annotator*innen immer wieder Fehler in der Transkription oder auch in der orthografischen Normalisierung auf, auf der das POS-Tagging basierte. Die Software OrthoNormal erlaubt Änderungen auf diesen Ebenen. Solche Änderungen führen jedoch dazu, dass für geänderte Token auf der Transkriptionsebene neue IDs im Markup vergeben wurden und die Transkripte an dieser Stelle für die Auswertung nicht mehr vergleichbar sind. Da dies den Annotator*innen erst im Nachhinein auffiel und insgesamt 14,38 Prozent der Daten so korrigiert wurden, konnten für die Auswertung nur 7.793 Token herangezogen werden, was 84,09 Prozent des Datensatzes entspricht. Die folgenden Auswertungen sind also auf diese 7.793 Token bezogen. Die annotierten Transkripte wurden jeweils automatisiert miteinander verglichen und übereinstimmende und abweichende Annotationen in einer Matrix geordnet nach Tag-Kategorien zusammengefasst. Anhand dieser Matrix konnte ein Kappa-Wert nach dem Berechnungsschema von Cohen’s Kappa berechnet werden. Darüber hinaus wurde für jedes Transkript der rohe Übereinstimmungswert (raw agreement) berechnet sowie die am häufigsten unterschiedlich annotierten Wortformen, korrigierten Tags und unterschiedlich annotierten Tags evaluiert. <?page no="313"?> Inter-Annotator-Agreement zur manuellen Korrektur des Development-Sets 313 3.9.2 Ergebnisse des ersten Inter - Annotator - Agreements Die Auswertungen dieses Verfahrens ergaben einen κ-Wert von 0.98 und auch das raw agreement belief sich auf einen Wert von 98,22 Prozent. Die Interpretation des Kappa-Wertes ist ein viel diskutiertes Problem. Carletta, die wiederum Krippendorff (1980) zitiert, gibt an, dass ein Kappa-Wert größer als 0.8 als gute Reliabilität der Daten interpretiert werden kann und ein Kappa-Wert zwischen 0.67 und 0.8 vorsichtige Rückschlüsse auf gute Reliabilität zulässt (Carletta 1996, S. 252). Die neuere Diskussion um akzeptable Werte aller Reliabilitäts-Koeffizienten fassen Artstein/ Poesio (2008) folgendermaßen zusammen: Recent content analysis practice seems to have settled for even more stringent requirements: A recent textbook, Neuendorf (2002, page 3), analyzing several proposals concerning “acceptable” reliability, concludes that “reliability coefficients of .90 or greater would be acceptable to all, .80 or greater would be acceptable in most situations, and below that, there exists great disagreement.” This is clearly a fundamental issue. Ideally we would want to establish thresholds which are appropriate for the field of CL, but as we will see in the rest of this section, a decade of practical experience hasn’t helped in settling the matter. (Artstein/ Poesio 2008, S. 576) Egal wessen Richtlinien man folgt, der Wert 0.98, der in dieser Arbeit erreicht wurde, ist als außerordentlich positiv zu werten. Dennoch sind die Annotationsunterschiede, die es gab, aufschlussreich für die Interpretation der Validität des Tagsets und der Guidelines. So zeigt eine Confusion Matrix in den Abbildungen 20, wie viele Token von beiden Annotator*innen gleich getaggt wurden (siehe Legende) und welche Unterschiede es in den Annotationen gab. Klassifikationen beider Annotator*innen in derselben Überkategorie und in verschiedenen POS-Klassen sind ebenfalls hervorgehoben (siehe Legende). Auffällig viele Unterschiede gibt es im Bereich der neu eingeführten Partikelklassen (PTKIFG, PTKMWL und PTKMA) in Abgrenzung untereinander und zu den Adverbien. Dies war zu erwarten, da viele Wortformen in diesen Klassen teilweise stellungsgleich verwendete Homonyme in den anderen dieser Klassen haben und bei der manuellen Korrektur als problematisch für die Annotation diskutiert wurden. Insgesamt gab es 1.241 Token, die in diesen Klassen annotiert wurden, was über zehn Prozent des Vergleichs-Sets ausmacht. 126 Token wurden innerhalb dieser vier Kategorien unterschiedlich kategorisiert, sodass immer noch nahezu 90 Prozent der Annotationen dieser Klassen korrekt waren. Insgesamt also überwiegt der Mehrwert dieser detaillierteren Annotationen gegenüber dem Original-Tagset, nach dem alle diese Token als Adverbien klassifiziert würden, gegenüber der Ungenauigkeit der Annotationen. <?page no="314"?> Empirischer Teil 314 AB ADJA ADJD ADV APPR APPRART APZR ART CARD FM KOKOM KON KOUI KOUS NE NGHES NGIRR NN ORD PDAT PDS PIAT PIDAT PIS PPER PPOSAT AB 58 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ADJA 0 118 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 ADJD 0 0 212 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ADV 0 0 0 701 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 APPR 0 0 0 0 298 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 APPRART 0 0 0 0 0 68 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 APZR 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ART 0 0 0 0 0 0 0 453 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 CARD 0 1 0 0 0 0 0 0 104 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 FM 0 0 0 0 0 0 0 0 0 13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 KOKOM 0 0 0 0 0 0 0 0 0 0 16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 KON 0 0 0 0 0 0 0 0 0 0 0 256 0 0 0 0 0 0 0 0 0 0 0 0 0 0 KOUI 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 KOUS 0 0 0 0 0 0 0 0 0 0 0 0 0 119 0 0 0 0 0 0 0 0 0 0 0 0 NE 0 0 0 0 0 0 0 0 0 0 0 0 0 0 197 0 1 1 0 0 0 0 0 0 0 0 NGHES 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 101 1 0 0 0 0 0 0 0 0 0 NGIRR 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 512 1 0 0 0 0 0 0 0 0 NN 1 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 795 0 0 0 0 0 0 0 0 ORD 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 PDAT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 0 0 0 0 0 0 PDS 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 272 0 0 0 0 0 PIAT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 39 1 0 0 0 PIDAT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 19 1 0 0 PIS 0 0 0 1 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 1 134 0 0 PPER 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 673 0 PPOSAT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 37 von beiden Annotator*innen gleich getaggt Klassifikationen beider Annotator*innen in derselben Überkategorie Klassifikationen in verschiedenen POS-Klassen Abb. 20: Kreuztabelle der Auswertung des Inter - Annotator - Agreements (in zwei Teile aufgeteilt) oben <?page no="315"?> Inter-Annotator-Agreement zur manuellen Korrektur des Development-Sets 315 AB ADJA ADJD ADV APPR APPRART APZR ART CARD FM KOKOM KON KOUI KOUS NE NGHES NGIRR NN ORD PDAT PDS PIAT PIDAT PIS PPER PPOSAT AB 58 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ADJA 0 118 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 ADJD 0 0 212 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ADV 0 0 0 701 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 APPR 0 0 0 0 298 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 APPRART 0 0 0 0 0 68 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 APZR 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ART 0 0 0 0 0 0 0 453 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 CARD 0 1 0 0 0 0 0 0 104 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 FM 0 0 0 0 0 0 0 0 0 13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 KOKOM 0 0 0 0 0 0 0 0 0 0 16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 KON 0 0 0 0 0 0 0 0 0 0 0 256 0 0 0 0 0 0 0 0 0 0 0 0 0 0 KOUI 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 KOUS 0 0 0 0 0 0 0 0 0 0 0 0 0 119 0 0 0 0 0 0 0 0 0 0 0 0 NE 0 0 0 0 0 0 0 0 0 0 0 0 0 0 197 0 1 1 0 0 0 0 0 0 0 0 NGHES 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 101 1 0 0 0 0 0 0 0 0 0 NGIRR 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 512 1 0 0 0 0 0 0 0 0 NN 1 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 795 0 0 0 0 0 0 0 0 ORD 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 PDAT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 0 0 0 0 0 0 PDS 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 272 0 0 0 0 0 PIAT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 39 1 0 0 0 PIDAT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 19 1 0 0 PIS 0 0 0 1 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 1 134 0 0 PPER 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 673 0 PPOSAT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 37 von beiden Annotator*innen gleich getaggt Klassifikationen beider Annotator*innen in derselben Überkategorie Klassifikationen in verschiedenen POS-Klassen Abb. 20: Kreuztabelle der Auswertung des Inter - Annotator - Agreements (in zwei Teile aufgeteilt) oben PPOSS PRELAT PRELS PRF PTKA PTKIFG PTKMWL PTKMA PTKNEG PTKVZ PTKZU PWAT PWAV PWS SEDM SEQU SPELL VAFIN VAINF VAPP VMFIN VVFIN VVIMP VVINF VVIZU VVPP XY 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 5 2 1 0 1 0 0 1 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 <?page no="316"?> Empirischer Teil 316 AB ADJA ADJD ADV APPR APPRART APZR ART CARD FM KOKOM KON KOUI KOUS NE NGHES NGIRR NN ORD PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PRELAT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PRELS 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PRF 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 PTKA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PTKIFG 0 0 2 22 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PTKMWL 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PTKMA 0 0 0 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PTKNEG 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PTKVZ 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PTKZU 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PWAT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PWAV 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PWS 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 SEDM 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SEQU 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 SPELL 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VAFIN 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VAINF 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VAPP 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VMFIN 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VVFIN 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 VVIMP 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VVINF 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 VVIZU 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VVPP 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 XY 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Abb. 20: Fortsetzung <?page no="317"?> Inter-Annotator-Agreement zur manuellen Korrektur des Development-Sets 317 AB ADJA ADJD ADV APPR APPRART APZR ART CARD FM KOKOM KON KOUI KOUS NE NGHES NGIRR NN ORD PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PRELAT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PRELS 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PRF 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 PTKA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PTKIFG 0 0 2 22 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PTKMWL 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PTKMA 0 0 0 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PTKNEG 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PTKVZ 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PTKZU 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PWAT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PWAV 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PWS 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 SEDM 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SEQU 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 SPELL 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VAFIN 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VAINF 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VAPP 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VMFIN 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VVFIN 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 VVIMP 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VVINF 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 VVIZU 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 VVPP 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 XY 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Abb. 20: Fortsetzung PPOSS PRELAT PRELS PRF PTKA PTKIFG PTKMWL PTKMA PTKNEG PTKVZ PTKZU PWAT PWAV PWS SEDM SEQU SPELL VAFIN VAINF VAPP VMFIN VVFIN VVIMP VVINF VVIZU VVPP XY 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 31 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 35 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 140 0 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 68 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 206 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 123 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 65 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 22 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 50 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 0 0 45 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 40 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 62 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 42 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 470 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 146 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 395 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 40 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 168 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 168 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 148 <?page no="318"?> Empirischer Teil 318 Bei der Wortform-spezifischen Analyse zeigte sich, dass eine kleine Gruppe von Wortformen auffällig häufig unterschiedlich annotiert wurde: auch, so, noch, mal, nur, wie und bloß. Diese sieben Wortformen machten allein 38,13 Prozent der unterschiedlich klassifizierten Token aus, wobei auch und so dabei die prominentesten Rollen spielen mit 11,51 Prozent bzw. 7,91 Prozent. Abgesehen von wie haben alle diese Wortformen Homonyme sowohl in der Klasse der Adverbien als auch in den oben genannten Partikelklassen. Aus diesen Ergebnissen leitete sich auch Handlungsbedarf für die Beschreibung oben genannter Wortformen und Tag-Kategorien in den Guidelines ab, wie im folgenden Kapitel ausgeführt wird. Ebenfalls berechnet wurde, ob die Annotationsunterschiede spezifisch für den Gesprächstyp der Transkripte sind. Bei einer Berechnung der Signifikanzen für die unterschiedlichen Annotationen zeigte sich, dass allein das Tischgespräch überdurchschnittlich viele Annotationsunterschiede aufwies. Zwischen allen anderen Gesprächstypen zeigten sich keine signifikanten Unterschiede. Bei einer Durchsicht der Annotationsunterschiede zeigte sich, dass an einigen Stellen der starke Dialekt oder auch die häufigen Abbrüche und Wiederholungen zu unterschiedlichen Interpretationen in der POS-Kategorisierung führten. Das Beispiel 80 soll die Problematik verdeutlichen: Beispiel 80: Tischgespräch Transkript FOLK_E_00143_SE_01_T_01_DF_01, 24: 30-24: 38 114 01 JI hmHM, 02 GI [((Lachansatz)) °h] 03 XW [h° ] 04 JI [ isch] war heut MORje doch (bei/ mei) hoar schneide ne? 05 (0.98) 06 JI ((schmatzt)) °h WÄsche? 07 (.) SCHNEIde? 08 (.) UFFgerollt, Die Wortformen in den Zeilen 06 und 07 wurden von den Annotator*innen unterschiedlich interpretiert. Auf der Normalisierungsebene waren die Wortformen zu Wäsche und Schneiden kapitalisiert worden. Einer derAnnotator*innen annotierte beides als Nomen (NN). Der andere korrigierte die Normalisierung zu waschen und schneiden und annotierte beides als Vollverben im Infinitiv. 114 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00143_SE_01_T_01_DF_01&cID=c604&wID=w3635&textSize=200&contextS ize=4. <?page no="319"?> Einführung eines Post-Processings 319 Daraus lässt sich schließen, dass auch die Möglichkeit der Korrektur der Normalisierung zu Annotationsunterschieden führte. In der Folge mussten für die Annotation des Goldstandards solche Änderungen jeweils diskutiert und abgesprochen werden. 3.10 Einführung eines Post - Processings Die Ergebnisse der Pilotstudie, die theoretischen Überlegungen bei der Änderung der Guidelines und die Arbeit am Development-Set dienten auch dazu, Regelmäßigkeiten bei der Annotation von POS-Tags an Transkripten gesprochener Sprache im Unterschied zu schriftsprachlichen Daten festzustellen. Auf diese Weise konnten Regeln zur automatisierten Wortformzuweisung für bestimmte Wortformen aufgestellt werden und in ein automatisiertes Tagging überführt werden, das sogenannte Post-Processing. Mit Hilfe des Post-Processings ließen sich schon während der Arbeit am Development-Set zusätzlich zu dem automatisierten Tagging mit dem original STTS und Tree- Tagger einige POS-Tags korrigieren, die dann nicht mehr manuell korrigiert werden mussten. Dieses Post-Processing diente als Zwischenschritt, da bei einer größeren annotierten Datenmenge diese Regeln durch die statistischen Häufigkeiten bei der Annotation im Trainingsprozess zum Tragen kommen und für die Annotation nicht mehr notwendig sind. Regeln, die auf diese Weise eingeführt wurden, umfassten beispielsweise die Annotationen von Wortformen, die in der Normalisierung mit Dummys gekennzeichnet sind. So erhielten alle mit einem Prozentzeichen gekennzeichneten Wortformen das POS-Tag für Abbrüche (AB), alle mit einem Und-Zeichen versehenen Wortformen das POS-Tag für Nichtwörter (XY) und alle Wortformen, die mit dem Paragrafen-Dummy normalisiert wurden, das POS- Tag für (aberrante) Interjektionen (NGIRR). Darüber hinaus wurden alle als unverständliche Silben im Transkript mit je drei Pluszeichen transkribierten Wörter mit dem Tag für Unverständliches (UI) annotiert. Alle zu äh normalisierten Wortformen, das heißt alle Hesitationspartikeln, erhielten das Tag NGHES. Zudem wurden auch Änderungen am Tagset im Post-Processing nachvollzogen. So wurden alle als PTKANT und ITJ getaggten Antwortpartikeln bzw. Interjektionen in die neue Klasse der NGIRR überführt und alle als Pronominaladverbien (PAV) getaggten Wortformen als Adverbien getaggt (ADV). Auch einige Question-Tags (SEQU) und Modalpartikeln (PTKMA), die keine Homonyme in anderen Wortartenklassen haben, konnten auf diese Weise automatisiert korrigiert werden. <?page no="320"?> Empirischer Teil 320 Das Post-Processing wurde an zehn bereits annotierten Transkripten evaluiert und es zeigte sich, dass auf diese Weise im Durchschnitt bereits 8,61 Prozent der Token korrekt annotiert werden konnten. Insgesamt wurden, je nach Transkripttyp, zwischen 5,23 Prozent und 12,57 Prozent auf diese Weise korrigiert. Abbildung 21 verdeutlicht die Verbesserungen in der Annotation durch das Post-Processing. Die Auswertung zeigte, dass das Post-Processing besonders bei der Annotation von Interjektionen, Responsiven und Rezeptionssignalen (NGIRR) half, die insgesamt 14,6 Prozent aller korrigierten Token ausmachten, sowie bei Hesitationspartikeln, die 5,6 Prozent aller Korrekturen in diesem kleinen Development-Set ausmachten. Für die weitere Annotation der Daten bedeuteten diese automatisierten Korrekturen der POS-Tags einen erheblichen Zeitgewinn. Abb. 21: Evaluation des Post - Processings (Schwarz/ hellstes Grau) Transkripte: 1: Meeting in einer sozialen Einrichtung: Sitzplan (FOLK_E_00022) 2: Meeting in einer sozialen Einrichtung: Eventplanung (FOLK_E_00024) 3: Mündliche Prüfung an einer Universität (Germanistische Linguistik) (FOLK_E_00029) 4: Poker-Interaktion zwischen Erwachsenen (FOLK_E_00040) 5: Paargespräch beim Abendessen (FOLK_E_00043) 6: Gespräch von Studenten in der Mensa (FOLK_E_00046) <?page no="321"?> Zweite Anpassung der Guidelines 321 7: Stuttgart 21 Schlichtungsgespräch: Expertenvorträge (FOLK_E_00064) 8: Schichtübergabe (FOLK_E_00112) 9: Deutschstunde im Wirtschaftsgymnasium (FOLK_E_000124) 10: Tischgespräch Kaffeeklatsch (FOLK_E_000143) 3.11 Zweite Anpassung der Guidelines Unter Berücksichtigung der Analysen des Vergleichs der Annotationen zweier Annotator*innen und auch in Hinblick auf die Veröffentlichung des geänderten Tagsets und der Guidelines, wurden die Guidelines ein weiteres Mal überarbeitet. Zunächst wurden die einzelnen Dokumente, d. h. die originalen STTS-Guidelines und die Handreichungen, in einem Dokument zusammengefasst und geänderte Stellen als solche kenntlich gemacht. Änderungen am Tagset und an den Definitionen der Kategorien im Vergleich mit den originalen STTS-Guidelines wurden mit Spielkarten-Symbolen gekennzeichnet. Dabei wurde die Einführung neuer Kategorien mit Kreuz (♣) gekennzeichnet, Änderungen in der Definition mit Pik (♠) und gleichbleibendes mit Karo (♦). Auf diese Weise ist es dem mit dem STTS vertrauten Nutzer möglich, schnell zu überblicken, an welcher Stelle Änderungen am Tagset und an den Guidelines vorgenommen wurden. Generell wurden, um den Nutzer möglichst nah an die Annotation von Transkripten gesprochener Sprache heranzuführen, alle Beispiele, bei welchen es möglich war, mit Beispielen aus dem FOLK-Korpus ersetzt. Ein Hyperlink ermöglicht das Öffnen des Transkriptausschnitts in der DGD und so auch den Zugriff auf die Audio-Datei und den Kontext des entsprechenden Beispiels. Abbildung 22 illustriert diese Vorgehensweise: Abb. 22: Darstellung der STTS 2.0 Guidelines <?page no="322"?> Empirischer Teil 322 Zudem wurde auch der Einführungstext der Guidelines grundlegend überarbeitet. So wurden zum einen die der Klassifikation zugrundeliegenden Konzepte dargelegt und zum anderen die Handhabung der Guidelines erläutert. Die Tagging-Guidelines, die im Rahmen dieser Arbeit entstanden sind, sind online verfügbar. 115 Inhaltlich wurden die Guidelines in dieser zweiten Überarbeitung um einige Ausführungen zur Differenzierung bestimmter Wortarten erweitert, das Tagset selbst wurde jedoch nicht mehr abgeändert. Die Ausführungen basieren im Wesentlichen auf den Erkenntnissen, die aus dem Vergleich der Annotationen der zwei Annotator*innen und aus den Diskussionen von Problemfällen resultierten. Etienne/ Antoine (2017) 116 stellen verschiedene Möglichkeiten heraus, Guidelines und Tagset zu überarbeiten, im Falle, dass Differenzen in unterschiedlichen Annotationen sichtbar werden: If errors only happen on few categories, improve the definition or the examples or add examples to the misunderstood categories [or] reduce the number of categories or subcategories. (ebd.) Da entschieden wurde, dass die Subklassifikation der Partikeln einen deutlichen Mehrwert für die Interpretation der Daten darstellt, wurde von einer Zusammenfassung dieser Kategorien abgesehen. Stattdessen wurde der Fokus in der Überarbeitung der Guidelines auf die genauere Beschreibung problematischer Elemente gelegt. Demzufolge wurden Entscheidungshilfen für die in der gesprochenen Sprache sehr frequenten und für die Kategorisierung sehr problematischen Wortformen auch, mal, noch, nur bzw. bloß, schon, so und wie eingeführt (Westpfahl et al. 2017, S. 33-46). Wie bereits beschrieben, haben diese Wortformen Homonyme in verschiedenen Wortarten. Um hier zu einer Vereinheitlichung der Annotationen zu kommen, wurden auf Beispielen basierende Entscheidungshilfen konzipiert, zum Teil auch unter Zuhilfenahme von Entscheidungsbäumen. Sie hängen den Guidelines an. Die so beschriebenen Regelungen sind konform mit den in den Guidelines enthaltenen Richtlinien, d. h. es werden keine Ausnahmen von der Regel formuliert. Diese Entscheidungshilfen vereinfachen die Identifikation der Funktion der Wortformen im Kontext und somit die Kategorisierung anhand klarer Regeln. Diese Regeln sind an in der Literatur und in den Grammatiken vorhandenen Konzepten und Abgrenzungsvorschlägen orientiert, bieten aber klare Anweisungen im Falle von strukturellen Ambiguitäten, die sich nicht über vorhandene De- 115 https: / / ids-pub.bsz-bw.de/ files/ 6063/ Westpfahl_Schmidt_Jonietz_Borlinghaus_STTS_2_0_ 2017.pdf. 116 Präsentation von Carole Etienne und Jean-Yves Antoine (2017): Inter-annotator-agreement on the segmentation of transcripts of spoken language. Paris, 10. 7. 2017. <?page no="323"?> Entwicklung eines automatisierten Taggings anhand des Development-Sets 323 finitionen auflösen lassen. Diese Anweisungen wurden wiederum innerhalb der Sonderregelungen kohärent gehandhabt. Um die Annotation der vier POS-Kategorien für Indefinitpronomina zu erleichtern, wurden die Wortform-Listen, die es für drei der Kategorien bereits in den Original-Guidelines gab, erweitert und vervollständigt (Westpfahl et al. 2017, S. 49-51). Mit diesen Listen wird auch den alternativ verwendeten grammatischen Strukturen Rechnung getragen. Bildhauer et al. (2019) konnten belegen, dass es selbst im schriftsprachlichen Gebrauch für die Flexionsparadigmen von Indefinitpronomina und Adjektiven zwei Alternativen gibt, die beide gebräuchlich sind (ebd.). Zu guter Letzt wurde für die Identifikation der neu eingeführten Klasse der Partikeln in Mehrwortlexemen (PTKMWL) eine weitere Liste erstellt, die nicht vollständig ist, aber doch viele dieser Elemente abdeckt und in ihren typischen Wortverbindungen darstellt. Auch diese hängt den Guidelines an. 3.12 Entwicklung eines automatisierten Taggings anhand des Development - Sets Da die manuelle Korrektur ein sehr zeit- und kostenintensiver Prozess ist, wurde nach dem Abschluss der Überarbeitung der Guidelines entschieden, den Tagger neu zu trainieren. Denn auch wenn der Datensatz für ein solch statistisches Verfahren deutlich zu klein ist, war zu erhoffen, dass einige häufig vorkommende typisch gesprochensprachliche Phänomene bereits statistisch relevant sind und sich für die folgenden Annotationen automatisiert erkennen lassen würden. Für das Neutraining wurde das Development-Set aufgeteilt in ein Trainingsset von 19.696 Token und ein Evaluations-Set von 5.017 Token. Um der Problematik von zu wenig lexikalischem Material in den Daten entgegenzuwirken, wurde während des Trainingsprozesses ein Wörterbuch von circa 77.400 Token hinzugefügt. Darüber hinaus wurde das Instrument des Post-Processings ein weiteres Mal angewendet. Im Folgenden werden diese Arbeitsschritte genauer erläutert und die Ergebnisse dieses ersten Neutrainings präsentiert und interpretiert. 3.12.1 Erstellen des Lexikons Schon Pettersson/ Pankow (2006) stellten in ihrer Untersuchung zur Leistung verschiedener Tagger an Transkripten von spontansprachlichen Daten fest, dass eine gute Alternative, um „die Korrektheitsrate zu erhöhen, […] eine Erweiterung des Lexikons der Tagging-Programme durch neue Lexeme [wäre]“ (ebd., S. 16). <?page no="324"?> Empirischer Teil 324 Auch Rehbein/ Schalowski/ Wiese (2014) nutzten für die Entwicklung des Taggings für KiDKo im Trainingsprozess ein zusätzliches Lexikon, welches auf den Daten und Annotationen des Huge German Corpus (HGC) (Fitschen 2004) beruhte (Rehbein/ Schalowski/ Wiese 2014, S. 3929 f.). Gerade bei einem so kleinen Trainingsdatensatz ist es sinnvoll, weiteres lexikalisches Material mit POS-Zuweisungen als Erweiterung hinzuzufügen, um dem sogenannten Out-of-Vocabulary-Problem entgegenzuwirken. Dieses entsteht dann, wenn beim Tagging Lexeme vorkommen, die nicht in den Trainingsdaten vorhanden waren. Hierbei muss der Tagger sich dann bei der Bestimmung der Wortart allein auf die Kontext-Informationen verlassen. War das Lexem hingegen bei den Trainingsdaten vorhanden, hat der Tagger zusätzliche Informationen über mögliche POS-Alternativen. Für unser Training anhand des Development-Sets wurde für die Erweiterung des Lexikons auf Daten aus dem schriftsprachlichen Gebrauch zurückgegriffen. Das Leibniz-Institut für Deutsche Sprache stellt mit dem Deutschen Referenzkorpus (DeReKo) mit 42 Milliarden Wörtern (Institut für Deutsche Sprache 2018, Stand: 3. 2. 2018) das weltweit größte linguistisch motivierte Korpus geschriebener deutscher Sprache zur Verfügung. Von dem mit dem TreeTagger annotierten Korpus wurden die 100.000 häufigsten Wörter inklusive der POS-Tags extrahiert, basierend auf der Annahme, dass die am häufigsten verwendeten Wortformen auch im ursprünglichen Trainingsprozess sicherlich relativ häufig vorkamen und somit besonders reliabel getaggt waren. Darüber hinaus ist auch die Wahrscheinlichkeit sehr hoch, dass diese Wortformen auch im Gesprochenen gehäuft vorkommen. Im Gegensatz zu Rehbein/ Schalowski/ Wiese (2014) entschlossen wir uns, diese Daten zunächst einer Analyse zu unterziehen, die Annotationen dieser Lexeme auf ihre Richtigkeit hin zu überprüfen und das Lexikon schließlich zu überarbeiten. Eine detaillierte Analyse der ersten 25.000 Token dieses Datensatzes zeigte deutlich immer wiederkehrende fehlerhafte Annotationen. Auf Basis dieser Fehleranalyse konnte das Lexikon regelbasiert korrigiert werden. So wurden beispielsweise alle Wortformen, die mit dem Lemma „unknown“ annotiert waren, aus dem Lexikon entfernt, da die Analyse zeigte, dass diese Wortformen besonders häufig falsch getaggt waren. Zudem wurden alle Einträge, die Interpunktion enthielten, aus dem Lexikon entfernt, da diese immer wieder auf Segmentierungsfehlern der Schrifttexte beruhten und ebenfalls häufig fehlerhaft getaggt waren. Darüber hinaus wurden für viele Wortformen im Lexikon die POS-Tags um weitere alternative POS-Kategorien ergänzt. Im Deutschen sind die Verbformen im Infinitiv und in der ersten Person plural identisch. Demnach fügten wir allen als Infinitiv ausgezeichneten Verbformen das POS-Tag für die finite Verbform hinzu, mit Ausnahme von Partikelverben. Auch bezüglich der Pro- <?page no="325"?> Entwicklung eines automatisierten Taggings anhand des Development-Sets 325 nomen konnten wir feststellen, dass nahezu alle Pronomina, die als substituierend getaggt wurden, ebenfalls in der Klasse der attribuierenden Pronomina vorkommen. Daher wurden für alle Einträge, die mit POS-Tags in den Klassen der Pronomina annotiert waren, die POS-Tags für den jeweils anderen Stellungsgebrauch hinzugefügt. Schließlich entwickelten wir Wortformlisten für alle Klassen, die als mehr oder weniger geschlossene Wortartenklassen bezeichnet werden können, und fügten diese dem Lexikon hinzu. Diese Listen umfassten beispielsweise: − Präpositionen (APPR), − Artikel (ART), − Konjunktionen (KON, KOKOM, KOUI), − Subjunktionen (KOUS), − Verbpartikeln (PTKVZ), − verschiedene Klassen der Pronomina (PIAT, PIDAT, PIS, PIDS, PWAV etc.) − Adverbien (ADV), − verschiedene Klassen der Gesprächspartikeln (NGIRR, NGHES, NGONO, NGAKW), − Question-Tags (SEQU) und − Intensitäts-, Fokus- und Gradpartikeln (PTKIFG) Alles in allem enthielt das Lexikon nach der Überarbeitung noch 77.417 Wortformen und die hinzugefügten Listen insgesamt 2.023 Wortformen. 3.12.2 Neutraining mit Development - Set und Lexikon Artstein/ Poesio (2008) weisen in ihrem unten zitierten Text darauf hin, dass ein gutes Inter-Annotator-Agreement zwar etwas über die Validität des Tagsets und die Reliabilität der Annotationen aussagt, dies jedoch nicht zwingend auch eine gute Basis für maschinelles Lernen bedeutet: Agreement coefficients are poor predictors of machine-learning success: Even highly reproducible annotations are difficult to generalize when the disagreements contain patterns that can be learned, whereas highly noisy and unreliable data can be generalized successfully when the disagreements do not contain learnable patterns. […] agreement coefficients should not be used as indicators of the suitability of annotated data for machine learning. (ebd., S. 577) Da sich das original STTS mit dem TreeTagger bisher als gutes Tool für die Annotation von POS-Tags bewiesen hat, bestanden wenige Zweifel, dass die Abänderungen des Tagsets daran etwas ändern würden. Um aber dieses Problem auszuschließen, entschied die Autorin dieser Arbeit, durch ein Neutrai- <?page no="326"?> Empirischer Teil 326 ning anhand der Daten des Development-Sets die Lernbarkeit der vorgenommenen Änderungen zu evaluieren. Trotz der geringen Datenmenge sollte eine Tendenz festgestellt werden, ob sich das Tagging durch das neu eingeführte Tagset und die abgeänderten Guidelines verbessert. Nachdem also das Inter-Annotator-Agreement ein zufriedenstellendes Ergebnis hervorgebracht hat und die Änderungen am Tagset abgeschlossen waren, wurden die 34 Transkripte (24.713 Token) des Development-Sets für ein Neutraining des Taggers und dessen Evaluation herangezogen. Hierbei wurden 29 Transkripte (19.696 Token) für die Erstellung eines neuen Parameter-Files verwendet und dessen Tagging an fünf Transkripten (5.017 Token) evaluiert. Bei den Trainingstranskripten handelte es sich um Eltern- Kind-Vorlese-Interaktionen, Unterrichts-Interaktionen (Berufsschule und Wirtschaftsgymnasium), verschiedene Spielinteraktionen (mit und ohne Kinder), verschiedene Tischgespräche (Paar, Freunde, Familie), Meetings (Schichtübergabe und Aktionsplanung) und Prüfungsgespräche (verschiedene Fächer). Die fünf Transkripte für die Evaluation umfassten eine Poker- Spielinteraktion zwischen Erwachsenen, ein Paar-Gespräch, ein Gespräch von Student*innen in der Mensa, ein Gespräch von Student*innen auf der Urlaubsreise und eine öffentliche und moderierte Interaktion, namentlich ein Schlichtungsgespräch zum Thema Stuttgart 21. Zur Evaluation des Taggings und der einzelnen Änderungen durch Lexikon und Post-Processing wurden während des Trainings bzw. während der Evaluation verschiedene Parameter gesetzt. Zunächst wurden die Evaluationstranskripte mit dem originalen Parameter-File für die geschriebene deutsche Sprache getaggt, das heißt auch mit dem originalen STTS, um eine Baseline zum Vergleich zu erstellen. Um das Post-Processing als solches zu evaluieren, wurden in einem zweiten Schritt dem Tagging mit dem originalen Tree- Tagger-Parameter-File und dem STTS die Post-Processing-Regeln hinzugefügt. In einem dritten Schritt wurde durch ein Neu-Training des Taggers mit oben genannten Daten ein neues Parameter-File erstellt, jedoch ohne das Wörterbuch hinzuzufügen. Im nächsten Schritt wurde ein weiteres Parameter-File erstellt, jedoch unter Hinzunahme des unbearbeiteten Lexikons und schließlich unter Hinzunahme des überarbeiteten Lexikons. Die Evaluationstranskripte wurden jeweils mit den so entstandenen Parameter-Files getaggt. Schließlich wurde dem letzten Datensatz noch ein weiterer hinzugefügt, in dem zusätzlich das Post-Processing berücksichtigt wurde. Die auf diese Weise entstandenen fünf Datensätze der Evaluationstranskripte wurden mit deren Äquivalenten aus dem manuell annotierten Development-Set verglichen. Eine solch kleinschrittige Vorgehensweise ermöglicht es, nachzuvollziehen, ob und in welchem Ausmaß die einzelnen Maßnahmen Verbesserungen erwirken. <?page no="327"?> Entwicklung eines automatisierten Taggings anhand des Development-Sets 327 3.12.3 Auswertung Datenset Transkript Poker Paargespräch Mensa Urlaub Stuttgart 21 Mittelwert Präzision des POS-Taggings nach dem Neutraining in Prozent 01_TreeTagger Original 74,37 74,92 74,17 72,71 83,02 75,84 02_TreeTagger mit Post-Processing 79,3 80,84 77,57 80,58 86,28 80,91 03_Neutraining 91,26 87,03 89,13 88,94 83,81 88,03 04_Neutraining mit DeReWo-Original 91,56 89,12 89,93 91,43 89,34 90,28 05_Neutraining mit DeReWo bearbeitet 91,96 89,32 90,13 92,03 89,04 90,50 06_Neutraining mit DeReWo bearbeitet und Post-Processing 91,96 91,52 89,73 92,23 89,63 91,01 Tab. 11: Auswertungen des Neutrainings mit dem Development - Set Tabelle 11 zeigt die Präzision der POS-Annotationen der verschiedenen Datensätze in Prozent, zunächst für die jeweiligen Transkripte und dann im Durchschnitt. Die Präzision wird jeweils aus dem Vergleich mit dem manuell korrigierten Goldstandard errechnet. Für die Berechnung der Präzision der Annotationen mit dem originalen Tree- Tagger-Parameter-File wurden alle Unterschiede, die auf der Umkategorisierung von POS-Kategorien beruhten (im Speziellen also für Antwortpartikeln (PTKANT), Interjektionen (ITJ) und Pronominaladverbien (PAV)), aus der Berechnung herausgenommen, da diese korrekt annotiert sind und lediglich das alte POS-Tag Verwendung fand. Davon ausgehend zeigt sich, dass die Post-Processing-Regeln für sich genommen und ohne oben genannte Umkategorisierung einzurechnen, eine Verbesserung von insgesamt 5,08 Prozent brachten. Nach dem Neutraining des TreeTaggers anhand der Daten aus dem Development-Set-Trainingsdatensatz wird eine deutliche Verbesserung der Präzision sichtbar. Insgesamt verbesserte sich die Präzision um 12,18 Prozent. Besonders stark zeigt sich der Effekt des Neutrainings an der Poker- und an der Urlaubs-Interaktion, die Verbesserungen von 16,89 Prozent bzw. 16,23 Pro- <?page no="328"?> Empirischer Teil 328 zent aufweisen. Als Ausnahme zeigen sich bei dem Schlichtungsgespräch zu Stuttgart 21 nur sehr geringe Verbesserungen von 0,79 Prozent. Bei Letzterem zeigt sich jedoch durch die Hinzunahme des Lexikons der größte Effekt, namentlich 5,23 Prozent, während bei den anderen Transkripten die Erweiterung des Lexikons nur zwischen 0,7 Prozent (Poker-Spielinteraktion) und 3,09 Prozent Verbesserung brachte. Die Bearbeitung des Lexikons zeigte insgesamt nur einen geringen Effekt von 0,22 Prozent. Insgesamt wurde jedoch durch die Kombination von Neutraining, bearbeitetem Lexikon und Post-Processing-Regeln eine Verbesserung der Annotationen um im Durchschnitt 15,18 Prozent erreicht. Eine besonders große Spanne weist vor allem das Urlaubsgespräch auf, das eine Verbesserung in der POS-Annotation um fast zwanzig Prozent aufweist: Beim Tagging mit dem originalen Parameter-File des TreeTaggers weist es eine besonders geringe, nach allen Änderungen hingegen die höchste Präzision auf. Ähnlich verhält es sich mit der Poker-Interaktion. Beide Interaktionen sind als stark interaktiv zu bezeichnen und weisen eine hohe Zahl aktiv am Gespräch teilnehmender Sprecher*innen auf. Typisch gesprochensprachliche Merkmale wie Abbrüche und Selbstkorrekturen, Interjektionen und andere Gesprächspartikeln sind in diesen Interaktionen besonders häufig. Die Anpassung des Tagging-Prozesses an spontansprachliche Daten greift hier daher besonders stark, da diese Transkripte besonders viele dieser Eigenheiten aufweisen. Im Gegensatz dazu gab es bei dem Stuttgart 21-Schlichtungsgespräch deutlich geringere Verbesserungen von nur circa 6,6 Prozent im POS-Tagging gegenüber den Annotationen mit dem originalen TreeTagger-Parameter-File für das Deutsche. Diese Sonderstellung des Stuttgart 21-Schlichtungsgesprächs lässt sich durch die konzeptionelle Schriftlichkeit dieser Interaktion erklären (Koch/ Oesterreicher 1985). Es handelt sich in dem Transkriptausschnitt um einen Expertenvortrag. Die Sprache des Transkripts ist geprägt durch lange, komplexe Sätze mit wenigen Abbrüchen und Unterbrechungen sowie wenigen Sprecherwechseln. Die Anpassung des Taggings an typisch gesprochensprachliche Phänomene hat hier demnach nur einen geringen Effekt. Umso größer wirkt jedoch der Effekt des hinzugefügten Lexikons, das auf schriftsprachlichen Daten basiert. Die Zuführung des Lexikons macht im Fall des Stuttgart 21-Schlichtungsgesprächs fast 80 Prozent der Verbesserungen aus. Diese Ergebnisse zeigen, dass die Anpassung des Tagsets an spontansprachliche Phänomene in Kombination mit der Hinzunahme eines Lexikons bereits deutliche Verbesserungen in der POS-Annotation von Transkripten gesprochener Sprache mit dem TreeTagger zeigt. <?page no="329"?> Manuelle Korrektur des Goldstandard-Sets 329 Vergleicht man das Tagging des originalen TreeTagger-Parameter-Files mit dem des neutrainierten Taggers, lassen sich auch qualitative Verbesserungen feststellen. Zwischen 24,58 (Poker-Interaktion) und 47,16 Prozent (Mensagespräch) der Items, die vormals als Adverbien getaggt waren, erhalten nun spezifischere Tags. Nach dem Neutraining werden sie beispielsweise unter anderem als Partikeln eines Mehrwortlexems (PTKMWL) oder als Diskursmarker (SEDM) etc. getaggt. Dies beweist, dass die Klasse der Adverbien nach dem Neutraining nunmehr keine Restklasse mehr ist, sondern die Elemente in dieser vormaligen Restklasse nun deutlich spezifischer annotiert werden können. Dieser Vergleich zeigt weiterhin, dass viele typisch gesprochensprachliche Phänomene vormals der Klasse der Appellativa (NN) zugeordnet wurden, wie beispielsweise viele Interjektionen (NGIRR), aber auch Abbrüche (AB) und Nichtwörter (XY). 10,25 Prozent der Änderungen in den Annotationen im Vergleich der beiden Datensätze betreffen die Klasse der Nomina. Auch bei den vormaligen Annotationen der Klasse der adverbialen oder prädikativen Adjektive (ADJD) zeigt sich nach dem Neutraining eine spezifischere Annotation dieser Elemente, beispielsweise als Interjektionen (NGIRR), Hesitationspartikeln (NGHES), als Modal- oder Abtönungspartikeln (PTKMA) oder als Intensitäts-, Fokus- oder Gradpartikeln (PTKIFG) etc. Die Korrekturen in dieser Klasse belaufen sich auf durchschnittlich 8,38 Prozent. Insgesamt zeigen diese Auswertungen, dass sich durch das Neutraining sowohl quantitativ als auch qualitativ positive Entwicklungen in den Annotationen feststellen lassen. Es besteht daher Grund zur Annahme, dass sich diese positiven Tendenzen noch weiter verstärken, wenn mehr Trainingsdaten vorhanden sind. 3.13 Manuelle Korrektur des Goldstandard - Sets Für die manuelle Korrektur der restlichen Transkripte des Goldstandards wurden die Daten mit dem besten verfügbaren Parameter-File inklusive der Post-Processing-Regeln getaggt. Die manuelle Korrektur konnte auf diese Weise deutlich schneller bewerkstelligt werden. Rechnet man die Umkategorisierungen der Antwortpartikeln, Interjektionen und Pronominaladverbien mit ein, dann wurden mit dem neuen Parameter-File circa 17,6 Prozent mehr POS-Tags korrekt vergeben als mit dem original TreeTagger-Parameter-File. Andersherum betrachtet bedeutet diese Verbesserung einen Korrekturaufwand von nunmehr knapp neun Prozent im Vergleich zu mehr als 26 Prozent <?page no="330"?> Empirischer Teil 330 zuvor. Darüber hinaus waren auch die Guidelines zu diesem Punkt gefestigt und Diskussionen um Problemfälle bezogen sich nur noch auf Einzelfälle, in denen sich der Kontext als problematisch zeigte. Für die Annotation der verbleibenden 112 Transkriptausschnitte wurden zwei neue Hilfskräfte eingestellt, beides Bachelor-Student*innen der Germanistik. Bei ihrer Einarbeitung wurde darauf geachtet, dass sie jeweils dieselben Anweisungen und Aufgaben erhielten. Ein zweites Inter-Annotator- Agreement sollte zeigen, inwiefern die vorgenommenen Änderungen am Tagset und an den Guidelines ihren Zweck erfüllten und inwiefern die nachfolgenden Annotationen reliabel waren. Nach der Überprüfung der Annotationen durch das Inter-Annotator-Agreement wurden die verbleibenden Transkripte nur von je einer Annotator*in korrigiert und ein Verfahren zur gegenseitigen Korrektur der Annotationen entwickelt. Beides wird im Folgenden genauer beschrieben. 3.13.1 Inter - Annotator - Agreement zur manuellen Korrektur des Goldstandard - Sets Ein zweites Inter-Annotator-Agreement schien an dieser Stelle der Erstellung des Goldstandards aus mehreren Gründen sinnvoll: 1) Es wurden zwei neue Annotator*innen eingestellt, die noch keinerlei Vorerfahrung mit der Annotation von POS-Tags vorweisen konnten. 2) Die Guidelines wurden nach dem ersten Inter-Annotator-Agreement noch einmal überarbeitet. Da es sich um sogenannte naive Annotator*innen handelte, konnte mit diesem weiteren Inter-Annotator-Agreement auch die pädagogische Funktion der Guidelines überprüft werden, das heißt, wie deutlich die Richtlinien formuliert wurden. 3) Durch die Vorannotation mit einem anderen Parameter-File waren zwar insgesamt weniger, jedoch mitunter andere Annotationen zu korrigieren als zuvor. Mussten beispielsweise bei der Korrektur des Development-Sets alle als Adverbien, Adjektive oder Nomina getaggten Gesprächspartikeln identifiziert werden, so musste nun die korrekte Annotation solcher Gesprächspartikeln überprüft werden. Es war also möglich, dass die Existenz der Entscheidung, zu welcher Partikelklasse das Item gehört, die Zuordnung zu den POS-Klassen durch die Annotator*innen beeinflusst. Eine zweifache Annotation des gesamten Goldstandards schien weder aus Zeitnoch aus Kostengründen sinnvoll. Es wurden daher sechs Transkripte ausgewählt, anhand derer die Annotationen der zwei Annotator*innen verglichen werden sollten: <?page no="331"?> Manuelle Korrektur des Goldstandard-Sets 331 1) Eine Maptask-Interaktion, 2) eine Unterrichtsstunde im Wirtschaftsgymnasium, 3) ein medizinisches Training in einer Hilfsorganisation, 4) ein Feedback-Gespräch, bei dem ein Lehrer Feedback zur Unterrichtsstunde eines anderen Lehrers gibt, 5) ein Tischgespräch beim Kaffeetrinken zwischen Familienmitgliedern und der Nachbarin und 6) ein sprachbiografisches Interview. In Hinblick auf die von Artstein/ Poesio aufgestellten Kriterien (Artstein/ Poesio 2008, S. 574 f.) für eine gute Datengrundlage für Inter-Annotator- Agreements kann für dieses zweite Inter-Annotator-Agreement konstatiert werden, dass alle Kriterien erfüllt sind: − Das Tagset und die Guidelines wurden vor der Annotation durch die gewählten Annotator*innen fertiggestellt und während des Annotationsprozesses nicht mehr verändert, − bei beiden Annotator*innen handelte es sich um neu eingestellte Hilfskräfte ohne Vorkenntnisse im Bereich POS-Tagging und − die Annotator*innen arbeiteten unabhängig voneinander. Für das Inter-Annotator-Agreement wurden insgesamt 4.451 Token verglichen. Die Rohwerte der Übereinstimmungen lagen bei durchschnittlich 97,44 Prozent, wobei die Maptask-Interaktion eine besonders hohe Übereinstimmung von 99,56 Prozent aufwies und das sprachbiografische Interview eine besonders niedrige Übereinstimmung von 94,63 Prozent. Bei der Berechnung von Cohen’s Kappa wurde ein Wert von 0.97 erzielt. Dieser liegt etwas unter dem Wert des ersten Inter-Annotator-Agreements, kann jedoch immer noch als sehr positiv bewertet werden. Die Analysen der Nicht-Übereinstimmung der Annotator*innen dienten als Grundlage für die Endkorrektur des Goldstandards. 3.13.2 Endkorrektur des Goldstandards Für die Endkorrektur des Goldstandards wurden verschiedene Schritte unternommen: 1) Die bereits annotierten Transkripte des Development-Sets wurden noch einmal nachkorrigiert, 2) ein Datenset des Inter-Annotator-Agreements wurde korrigiert und dem Goldstandard wieder hinzugefügt und <?page no="332"?> Empirischer Teil 332 3) die noch nicht korrigierten Transkripte unter den Annotator*innen aufgeteilt, manuell korrigiert und dann jeweils von dem oder der anderen Annotator*in noch einmal nachkorrigiert. Für diese Korrekturen wurde eine Handreichung konzipiert, die eine systematische Korrektur häufig fehlerhaft getaggter Formen zum Ziel hatte. Diese sieht eine Korrektur in drei Schritten vor. Zunächst werden die Annotator*innen angeleitet, sich für jedes Transkript anhand der Suchfunktion im Tool OrthoNormal (Schmidt 2014a) alle Wortformen bestimmter POS-Klassen anzeigen zu lassen und daraufhin alle so annotierten POS-Tags zu überprüfen. Die so zu überprüfenden POS-Klassen umfassen Voll- (VV), Modal- (VM), und Auxiliarverben (VA), alle Pronomen und Partikeln (P), Artikel (ART), vor allem in ihrer Abgrenzung zu Demonstrativ- und Relativpronomen sowie Adverbien (ADV). Abbildung 23 zeigt die Liste aller als Pronomina oder Partikeln getaggter Wortformen des zu bearbeitenden Transkripts (hier die Poker-Interaktion). Durch einen Doppelklick auf ein Item aus der Liste rechts gelangt man zu der jeweiligen Wortform im Transkript und kann diese dann im Kontext überprüfen und, sollte dies notwendig sein, das POS-Tag korrigieren. Im zweiten Schritt wird ähnlich verfahren, nur wird nicht nach POS-Kategorien, sondern nach bestimmten problematischen Wortformen gefiltert, jeweils einmal auf der Wortformebene und einmal auf der Normalisierungsebene. Die so zu bearbeitenden Wortformen sind: was, als, also, wie, wer, nur, aber, schon, noch, auch, mal, doch, so, weil, obwohl, trotzdem, dennoch, sprich, ja, oder, bisschen, meist-, ander-, ganz- und viel-. Abbildung 24 zeigt dieses Vorgehen beispielhaft für die Wortform was. Auch hier wird die Liste Wortform für Wortform durchgegangen und die Annotation der jeweiligen Wortform unter Einbezug des Kontexts überprüft. Im letzten Schritt sieht die Handreichung eine beitragsweise Überprüfung aller darin befindlichen Annotationen vor. Die Annotationen aller Items des Transkripts werden auf diese Weise chronologisch von oben nach unten noch einmal überprüft (siehe Abb. 25). <?page no="333"?> Manuelle Korrektur des Goldstandard-Sets 333 Abb. 23: Screenshot, Filtern nach POS - Tags, die mit P beginnen, in OrthoNormal, Poker - Interaktion, Transkript FOLK_E_00040_SE_01_T_01_DF_01, 07: 25.91 - 07: 34.44 117 117 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00040_SE_01_T_01_DF_01&cID=c422&wID=w1034&textSize=200&contextS ize=4. <?page no="334"?> Empirischer Teil 334 Abb. 24: Screenshot, Filtern nach Wortformen in OrthoNormal, hier nach der Wortform was, Poker - Interaktion, Transkript FOLK_E_00040_SE_01_T_01_DF_01, 08: 00.61 - 08: 13.08 118 118 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00040_SE_01_T_01_DF_01&cID=c458&wID=w1096&textSize=300&contextS ize=8. <?page no="335"?> Manuelle Korrektur des Goldstandard-Sets 335 Abb. 25: Screenshot, beitragsweise Korrektur der POS - Tags in OrthoNormal, Poker - Interaktion, Transkript FOLK_E_00040_SE_01_T_01_DF_01, 08: 23.53 - 08: 39.82 119 119 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00040_SE_01_T_01_DF_01&cID=c485&wID=w1126&textSize=300&contextS ize=8. <?page no="336"?> Empirischer Teil 336 Während all dieser Korrekturen fanden regelmäßige Treffen zur Diskussion von Problemfällen statt. Wo es sich um Einzelfälle handelte, wurden die Lösungen der Problemfälle in Protokollen dokumentiert. Im Falle einiger wiederkehrender Probleme wurden Lösungen hierfür noch zusätzlich in die überarbeiteten Guidelines mit aufgenommen. Für die Nachkorrektur der Transkripte eines anderen Annotators wurde der letzte Schritt noch einmal wiederholt, jedoch mit einem besonderen Fokus auf die Annotationen von Verben, Adverbien und Partikeln. Alles in allem umfasste der Goldstandard schließlich 145 Transkriptausschnitte, die alle der oben beschriebenen umfassenden Prüfung unterzogen wurden. Nach Abzug der versehentlich doppelt gesampelten Dubletten umfasste der Datensatz 99.761 Token. 3.14 Entwicklung eines automatisierten Taggings anhand des Goldstandards Für die Erstellung des Parameter-Files anhand des Goldstandards wurden einerseits verschiedene Parameter einbezogen, die bei der Erstellung des Parameter-Files anhand des Development-Sets noch keine Beachtung gefunden hatten. Es handelt sich hierbei um Experimente mit der Segmentierung der Transkripte und die Auslassung der Formen, die in der Normalisierung durch Dummys gekennzeichnet wurden. Für solche Experimente war die Datengrundlage im Development-Set viel zu klein. Andererseits wurden Vorgehensweisen aus der Development-Phase übernommen. So wurde das überarbeitete Lexikon ein weiteres Mal verwendet. Auch hier galt es, möglichst präzise zu evaluieren, welche Parameter in welchem Umfang Einfluss auf die Präzision des automatisierten POS-Taggings nehmen können. Im Folgenden wird die Aufteilung des Goldstandards für Trainings- und Evaluationszwecke dargestellt und es werden die verschiedenen Parameter, die bei diesem neuerlichen Neutraining zum Tragen kamen, erläutert. Ein Post-Processing wurde nicht mehr verwendet. Die dort abgebildeten Regeln wurden statistisch in der Menge der Trainingsdaten abgebildet und ein Post-Processing wurde dadurch obsolet. 3.14.1 Trainings - Set und Evaluations - Sets Für die Erstellung des Parameter-Files anhand des manuell korrigierten Goldstandards wurde dieser aufgeteilt in ein Trainings-Set und zwei Evaluations- Sets. Das eine Evaluations-Set ist das im Kapitel 3.6.3 „Sub-Sets des Goldstandards“ beschriebene Test-Set, das andere ist die Zusammenstellung aller Transkripte des Goldstandards, die Lernerdaten enthalten, d. h. entweder <?page no="337"?> Entwicklung eines automatisierten Taggings anhand des Goldstandards 337 Kindersprache von Kleinkindern oder von Sprecher*innen mit Deutsch als Fremdsprache, deren Sprachkompetenz im Deutschen nicht dem Standard entspricht. In diesen Transkripten liegen andere Varietäten mit potenziell anderen Regeln vor. Naturgemäß kann ein automatisiertes POS-Tagging auf diesen Daten nicht die gleiche Präzision erreichen wie für den Rest der Transkripte. Solche Transkripte in den Goldstandard aufzunehmen und das automatisierte POS-Tagging an ihnen zu evaluieren, hat zwei Gründe. Zum einen lässt sich so bemessen, wie sich die Varianz in Kinder- und Lernersprache statistisch auf das automatisierte POS-Tagging auswirkt. Zum anderen soll der Goldstandard auch als Ressource für weitere korpus- und computerlinguistische Studien dienen. Da Kinder- und Lernersprache ein wichtiger Bestandteil der Sprache unserer Gesellschaft sind, ist es wichtig, dass diese in den Daten repräsentiert sind. Transkriptausschnitt Standardsprache Formalitätsgrad Interaktivität Sprachregion Berufsschulunterricht dialektal formell diszipliniert Rheinfränkische Sprachregion Gartengespräch standardsprachlich informell interaktiv Alemannische Sprachregion Klausurbesprechung am Wirtschaftsgymnasium dialektal formell diszipliniert Alemannische Sprachregion Maptask standardsprachlich informell diszipliniert Ripuarische Sprachregion Meeting Soziale Einrichtung dialektal formell interaktiv Hessische Sprachregion Paargespräch standardsprachlich informell interaktiv Hessische Sprachregion Pokerspiel dialektal informell interaktiv Rheinfränkische Sprachregion Prüfungsgespräch standardsprachlich formell diszipliniert Obersächsische Sprachregion Schichtübergabe standardsprachlich formell diszipliniert Rheinfränkische Sprachregion Schlichtungsgespräch (Stuttgart 21) dialektal formell diszipliniert Schwäbische Sprachregion Sprachbiografisches Interview standardsprachlich formell interaktiv Nordniederdeutsche Sprachregion Studentengespräch standardsprachlich informell interaktiv Rheinfränkische Sprachregion <?page no="338"?> Empirischer Teil 338 Transkriptausschnitt Standardsprache Formalitätsgrad Interaktivität Sprachregion Tischgespräch dialektal informell interaktiv Rheinfränkische Sprachregion Training in Hilfsorganisation n. a. informell interaktiv Rheinfränkische Sprachregion Unterricht am Wirtschaftsgymnasium standardsprachlich formell diszipliniert Alemannische Sprachregion Urlaubsgespräch standardsprachlich informell interaktiv n. a. Tab. 12: Merkmale des Testsets Tabelle 12 zeigt, dass es sich bei dem Testset um 16 Transkriptausschnitte aus verschiedensten Interaktionstypen aus unterschiedlichen Regionen mit unterschiedlichen sprachlichen Ausprägungen handelt. Bei dem Lerner-Set handelt es sich um sechs Ausschnitte aus Eltern-Kind-Vorlese-Interaktionen von je circa 500 Token und um neun sehr kurze Ausschnitte von Interaktionen auf dem Polizeirevier von jeweils zwischen 44 und 216 Token. Erstere sind für die Repräsentation typisch gesprochener Sprache in zweierlei Hinsicht problematisch. Einerseits enthalten sie Sprachdaten von Kleinkindern, andererseits enthalten sie zu großen Teilen auch Inhalte verlesener Schriftsprache, die wiederum häufig fingierte Mündlichkeit enthält, da in den vorgelesenen Kinderbüchern häufig die Charaktere Dialoge miteinander führen. Das Beispiel 81 enthält einen solchen verlesenen schriftsprachlichen Dialog: Beispiel 81: Vorleseinteraktion, Transkript FOLK_E_00016_SE_01_T_01_ DF_01, 18: 45-19: 02 120 01 CJ ICH muss jetzt nach hAuse- 02 (0.22) 03 CJ sagt der kleine FUCHS- 04 (0.27) 05 CJ halt HALT- 06 (0.22) 07 CJ ruft mama DACHS- 08 (0.5) 09 CJ °h (.) zuErst °h musst du mit dachsi noch AUFräumen. 10 (0.23) 11 CJ das sind ja °h (.) nicht MEIne sachen brummt der kleine fuchs und will an ihr vorbei- 120 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00016_SE_01_T_01_DF_01&cID=c756&wID=w1732&textSize=300&contextS ize=8. <?page no="339"?> Entwicklung eines automatisierten Taggings anhand des Goldstandards 339 In dem Beispiel wird die wörtliche Rede zweier Figuren dargestellt, die durch drei unterschiedliche Verben zitiert wird: sagen, rufen und brummen. Besonders letztere zwei sind unüblich für das zitieren von wörtlicher Rede im spontansprachlichen Gebrauch. Für das Lemma rufen finden sich, abgesehen von den Vorlese-Interaktionen, insgesamt sechs Belege in der DGD, die als Zitat wörtlicher Rede verwendet werden. Hingegen stammen 41 Belege für eine solche Verwendung aus den Vorlese-Interaktionen. Für das Lemma brummen finden sich gar keine Belege, die nicht aus Vorlese-Interaktionen stammen. Beispiel 82: Vorleseinteraktion, Transkript FOLK_E_00014_SE_01_T_01_ DF_01, 17: 04-17: 18 121 01 TJ qua 02 (0.28) 03 CJ °hh (.) theodor ich lese WEIter. 04 CJ (.) okay? 05 TJ okeka (.) ataWA- 06 CJ leo lausemaus möchte sich ALles ganz genau anschauen. 07 CJ (.) die tollen SPIELsach[en-] 08 TJ [is ]da (.) do liegt °hh ein bal[l] 09 CJ [j]a Das Beispiel 82 zeigt die Äußerungen eines in etwa dreijährigen Kindes. Einerseits verwendet es Wörter (qua, okeka, atawa), die als idiosynkratische Wortformen klassifiziert werden können. Andererseits ist die Kindersprache in diesem Transkriptausschnitt, wie auch in anderen, geprägt von besonders vielen unvollständigen syntaktischen Strukturen. Die Interaktionen auf dem Polizeirevier enthalten neben den Polizeibeamt*innen Sprecher*innen mit eingeschränkter Sprachkompetenz im Deutschen. Das Beispiel 83 zeigt einen Ausschnitt aus einer solchen Interaktion. Beispiel 83: Polizeirevier, Transkript FOLK_E_00160_SE_01_T_02_DF_01, 30: 12-30: 21 122 01 KL_a ja das macht NIX- 02 KL_a (.) also [erlauben sie mir (NICHT)] 03 PB_aa [aber sie WÜRden ja k- ] 121 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00014_SE_01_T_01_DF_01&cID=c650&wID=w1922&textSize=200&contextS ize=4. 122 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00160_SE_01_T_02_DF_01&cID=c307&wID=w1171&textSize=200&contextS ize=4. <?page no="340"?> Empirischer Teil 340 04 PB_aa (.) sie können ja gerne mal ru (.) vorBEIkommen- 05 KL_a (.) ja erLAUben sie misch erst mit polizeibeamter_ab spreche ja? 06 (0.34) 07 PB_aa na FREIlich. Die Äußerung von KL_a in Zeile 05 zeigt deutliche Abweichungen von einem standardsprachlichen Satz. Einerseits gibt es für das mich zwei verschiedene Interpretationen: Es könnte als Personalpronomen (PPER) im Akkusativ anstelle des Dativs interpretiert werden, oder aber als fälschlich verwendetes Reflexivpronomen (PRF). Der folgende Teil kann entweder als Infinitivkonstruktion ohne Infinitiv interpretiert werden, da das Verb eine finite Verbform aufweist, die zur restlichen Konstruktion nicht passt, oder aber als Nebensatz mit Verbletztstellung, bei dem jedoch die subordinierende Konjunktion wie auch das Subjekt fehlen. Um zu evaluieren, welchen Effekt solche Daten auf das POS-Tagging haben, wurden sie aus dem Trainings-Set herausgenommen und stattdessen als weiteres Evaluations-Set verwendet. 3.14.2 Segmentierung der Daten anhand von Pausenlänge und Ausschluss von mit Dummys markierten Wortformen Die Daten des Goldstandards weisen, neben den beschriebenen Phänomenen bestimmter Wortartenverwendungen, spezifische Eigenheiten auf, von denen man annehmen kann, dass sie bei der Annotation mit POS-Tags einen Einfluss haben. Dies sind zum einen die Segmentierung der Daten und zum anderen Wortformen, die durch Dummys in der Normalisierung gekennzeichnet werden. Um den Einfluss dieser Phänomene auf das POS-Tagging zu evaluieren, wurden zehn Ausführungen des Goldstandards erstellt, die sich hinsichtlich der Parameter der Segmentierung und des Einbezugs oder des Weglassens von Wortformen, die in der Normalisierung einen Dummy erhalten, unterscheiden. Wie bereits im Theorieteil ausgeführt wurde, ist die fehlende Segmentierung der Daten ein Problem für die automatisierte Annotation und auch für das Training am Goldstandard. Da eine manuelle Segmentierung der Daten zeit- und kostenintensiv ist und zudem die theoretischen Grundsteine für eine solche Segmentierung erst derzeit im Projekt Segmentation of Oral Corpora (SegCor) erarbeitet werden, konnte für die Entwicklung des POS-Taggings nur auf automatisierte Prozesse zur Veränderung der Segmentierung zurückgegriffen werden. Unter der groben Annahme, dass Sprechpausen in Korrelation mit Sinneinheiten stehen, wurden die Daten des Goldstandards für das <?page no="341"?> Entwicklung eines automatisierten Taggings anhand des Goldstandards 341 Training nach spezifischen Pausenlängen neu segmentiert. Das heißt, es wurden alle Segmente zusammengefasst, die nur durch Pausen bis zu einer spezifischen Länge getrennt waren. Die unterschiedlichen Werte der Pausenlängen sind willkürlich gewählt und dienten dazu, zu evaluieren, ob sich eine Tendenz hinsichtlich verschiedener Pausenlängen feststellen lässt. Wortformen, die in der Normalisierung einen Dummy erhalten, sind Abbrüche, aberrante Interjektionen und Nichtwörter. Es ist daher anzunehmen, dass sie außerhalb der Syntax ihres Kontextes stehen oder diese unterbrechen. In letzterem Falle würde dies die Annotation erschweren, da eines der Tags im Trigram-Algorithmus für die Annotation irrelevante Informationen enthält. Im Umkehrschluss bedeutet dies, dass dem Tagger mehr Informationen über die Syntax des Kontextes zur Bestimmung einzelner Wortformen zur Verfügung stehen, wenn die Wortformen, die in der Normalisierung einen Dummy erhalten haben, aus den Daten herausgenommen werden. Schließlich gab es folgende zehn Ausführungen des Goldstandards: − Segmentierung nach Pausen mit mindestens 0,3 Sekunden Länge und inklusive der Wortformen, die in der Normalisierung einen Dummy erhalten − Segmentierung nach Pausen mit mindestens 0,3 Sekunden Länge und exklusive der Wortformen, die in der Normalisierung einen Dummy erhalten − Segmentierung nach Pausen mit mindestens 0,5 Sekunden Länge und inklusive der Wortformen, die in der Normalisierung einen Dummy erhalten − Segmentierung nach Pausen mit mindestens 0,5 Sekunden Länge und exklusive der Wortformen, die in der Normalisierung einen Dummy erhalten − Segmentierung nach Pausen mit mindestens 1,0 Sekunden Länge und inklusive der Wortformen, die in der Normalisierung einen Dummy erhalten − Segmentierung nach Pausen mit mindestens 1,0 Sekunden Länge und exklusive der Wortformen, die in der Normalisierung einen Dummy erhalten − Segmentierung nach Pausen mit mindestens 1,5 Sekunden Länge und inklusive der Wortformen, die in der Normalisierung einen Dummy erhalten − Segmentierung nach Pausen mit mindestens 1,5 Sekunden Länge und exklusive der Wortformen, die in der Normalisierung einen Dummy erhalten <?page no="342"?> Empirischer Teil 342 − Der Original-Goldstandard inklusive der Wortformen, die in der Normalisierung einen Dummy erhalten − Der Original-Goldstandard exklusive der Wortformen, die in der Normalisierung einen Dummy erhalten Für das Training des POS-Taggers und für die Evaluation des POS-Taggings wurden die jeweiligen Datensätze jeweils in ein Trainings- und Evaluations- Set unterteilt, sowie die Lernerdaten separat als Evaluations-Set herausgenommen. Die Evaluation des POS-Taggings vergleicht daher insgesamt 20 verschiedene Datensätze, zehn für das Evaluations-Set und zehn für die Lernerdaten mit den Gold-Annotationen. Für das Training wurde wiederum das in Kapitel 3.12.1 „Erstellen des Lexikons“ beschriebene Lexikon hinzugefügt. Obwohl zu erwarten war, dass die Post-Processing Regeln nunmehr kaum noch Effekt auf die Performanz des POS-Taggings haben, wurde es ein weiteres Mal angewendet. Auf diese Weise sollte die bestmögliche Annotation mit POS-Tags ermittelt werden, die mit automatisierten Methoden anhand dieses Goldstandards und dem TreeTagger zu erreichen ist. 3.15 Evaluation des POS - Taggings für spontansprachliche Daten Ziel dieser Arbeit war es, ein POS-Tagging für spontansprachliche Daten mit einer maximalen Fehlerquote von fünf Prozent zu entwickeln. Die Analyse der Pilotstudie zeigte auf den dort untersuchten Transkripten mit dem originale TreeTagger-Parameter-File für das Deutsche eine durchschnittliche Genauigkeit von circa 81 Prozent, auf den fünf Evaluations-Transkripten des Development-Sets erreichte er nur eine durchschnittliche Genauigkeit von circa 76 Prozent. Durch die Anpassung des Tagsets und das Neutraining des Taggers konnten wir auf dem Test-Set eine durchschnittliche Genauigkeit von 94,96 Prozent erreichen. Auf den Lernerdaten lag der beste durchschnittliche Wert bei 92,12 Prozent. Die Genauigkeit bzw. die Fehler im POS-Tagging wurden durch den Vergleich der Transkripte, die mit den entsprechenden Parameter-Files getaggt wurden, mit den Daten des Goldstandards berechnet. 3.15.1 Ergebnisse der automatisierten Annotationen Die folgenden Darstellungen beruhen auf den errechneten Durchschnittswerten der für das Test-Set 16 Transkriptausschnitte und für das Lerner-Set 15 Transkriptausschnitte. <?page no="343"?> Evaluation des POS-Taggings für spontansprachliche Daten 343 Tabelle 13 zeigt die durchschnittlichen Ergebnisse des POS-Taggings für die verschiedenen Test-Datensets, wie sie im vorigen Kapitel beschrieben wurden: All No Dummy Original 94,96 % 94,89 % Bridge_0_3 94,10 % 94,16 % Bridge_0_5 94,20 % 94,14 % Bridge_1_0 94,07 % 94,20 % Bridge_3_0 93,99 % 94,17 % Tab. 13: Evaluation der Ergebnisse mit variierendem Input in der Segmentierung und dem Einbezug von Dummys Es zeigt sich, dass einerseits das Weglassen der Dummys keinen signifikanten Unterschied macht, und andererseits dass unterschiedliche pausenbasierte Segmentierungen keinen nennenswerten Einfluss auf die Tagging-Präzision haben. Durch diese Veränderungen der Daten ist keine Verbesserung des POS-Taggings zu erreichen. Tabelle 14 zeigt, dass hier der beste Wert aus der Kombination der Segmentierung nach Pausen unter 0,3 Sekunden und dem Weglassen der Dummys zu erreichen ist. Dieser Wert liegt jedoch nur 0,24 Prozent über dem der Ausgangsdaten und eine Berechnung mit dem Chi-Square-Test weist diese Abweichung als nicht signifikant aus. All No Dummy Original 91,88 % 92,09 % Bridge_0_3 91,86 % 92,12 % Bridge_0_5 91,98 % 92,05 % Bridge_1_0 91,98 % 92,07 % Bridge_3_0 91,77 % 92,05 % Tab. 14: Evaluation der Ergebnisse mit variierendem Input in der Segmentierung und dem Einbezug von Dummys auf Lernerdaten Die folgenden Abbildungen zeigen die jeweiligen erreichten Werte für die einzelnen Transkripte. Zudem enthalten sie ebenfalls Informationen über die erreichten Werte für die korrekte Zuordnung der POS-Tags nach der jeweiligen Super-Kategorie, d. h. beispielsweise ob einem Verb das POS-Tag für Verben vergeben wurde und nur die Subklassifikation fehlerhaft ist, z. B. finit statt Infinitiv. Da keine statistische Signifikanz bei den Unterschieden in den <?page no="344"?> Empirischer Teil 344 Tagging-Ergebnissen nach Segmentierung und Dummy-Aussparung ermittelt werden konnte, werden die Ergebnisse nur für das Parameter-File dargestellt, das anhand der originalen Daten erstellt und evaluiert wurde. Abbildung 26 ist zu entnehmen, dass besonders hohe Werte bei der Schichtübergabe, bei der Maptask und bei dem Paargespräch erreicht wurden, besonders niedrige Werte bei dem Gespräch zwischen Studenten, dem Poker- Gespräch und dem Urlaubsgespräch. Im Mittelwert ist die Präzision bei der Zuordnung der Superkategorie (96,96 Prozent) um zwei Prozentpunkte höher als bei der Subklassifikation (94,96 Prozent). Dies fällt vor allem bei den weniger korrekt annotierten Transkripten ins Gewicht. Abb. 26: Evaluation der automatisierten POS - Annotation Abbildung 27 zeigt, dass Lerner- und Kindersprache eine deutliche Herausforderung für das POS-Tagging darstellt. Im Durchschnitt liegt die Präzision bei drei Prozentpunkten unter dem der Daten von kompetenten Sprecher*innen. Insbesondere die Kleinkindsprache ist für das POS-Tagging problematisch, die durchschnittliche Präzision der Transkripte, die Kleinkindsprache enthalten, liegt nur bei 91,12 Prozent, die durchschnittliche Präzision der Transkripte mit Lernern des Deutschen als Fremdsprache liegt bei 93,72 Prozent. Hier ist die Präzision der Superkategorie um fast vier Prozentpunkte höher als die der Subkategorien. Die durchschnittliche Präzision bei der Annotation der Superkategorie liegt bei 95,5 Prozent. <?page no="345"?> Evaluation des POS-Taggings für spontansprachliche Daten 345 Abb. 27: Evaluation des automatisierten POS - Taggings an Lernerdaten 3.15.2 Analyse der Annotationsdifferenzen Bei der Auswertung der Differenzen in den Annotationen zwischen dem Goldstandard und dem hier entwickelten automatisierten Tagging gilt es, die Unterschiede in Hinblick auf die Natur der Daten genauer zu analysieren. Um herauszufinden, ob das Tagging in Bezug auf die Präzision durch bestimmte Faktoren beeinflusst wurde, wurde untersucht, ob die besonders hohen oder niedrigen Fehlerquoten von bestimmten erhobenen Variablen abhängen, wie beispielsweise vom Gesprächsrahmen (formell oder informell), dem Interaktionstyp (diszipliniert oder interaktiv) oder von Faktoren der Sprache (standardnah oder -fern, Sprachregion, Normalisierungsrate, Anzahl der Überlappungen und Anzahl der Hesitationen und wortinternen Abbrüche). Die statistische Berechnung mit Hilfe eines linearen Modells, also einer einfachen Regression mit den jeweiligen Prädiktorvariablen zeigte, dass allein der Interaktionstyp, d. h. ob ein Gespräch eher diszipliniert oder eher interaktiv ist, einen signifikanten Einfluss auf die Präzision beim POS-Tagging hat (p = 0.0374). <?page no="346"?> Empirischer Teil 346 Tabelle 15 zeigt, nach der Häufigkeit der Abweichungen geordnet, die Anzahl der Unterschiede zwischen den Tags im Goldstandard und den Annotationen der automatisierten Annotation, d. h. innerhalb der oben genannten Abweichungen von circa fünf Prozent. Diese Tabelle beinhaltet die Abweichungen des Taggings in den Subkategorien. Sie sind jedoch der Übersichtlichkeit halber nach Wortarten zusammengefasst. Die häufigsten Unterschiede in der Tagzuweisung liegen demnach bei der Annotation von Verben (22,25 Prozent) und Pronomen (17,88 Prozent). Die Gruppe der Partikeln und Adverbien machen gemeinsam mehr als 30 Prozent der Abweichungen aus. Goldstandard POS-Klasse Anzahl abweichender Token Subkategorie in Prozent Verben 107 22,25 Pronomen 86 17,88 Partikeln 74 15,38 Adverbien 73 15,18 Adjektive 28 5,82 Interj. Resp. etc. 27 5,61 Nomina 23 4,78 Konjunktionen 22 4,57 Diskursmarker u. Qu.-Tags 11 2,29 Präpositionen 9 1,87 Artikel 7 1,46 Fremdsprl. Material 7 1,46 Zahlen 3 0,62 Bindestrich-Kompositum 2 0,42 Buchstabiertes 1 0,21 Nichtwort 1 0,21 Tab. 15: Häufigkeit der Korrekturen zu den Subkategorien, nach Wortarten sortiert Der Heatmap-Plot in Abbildung 28 visualisiert die Verteilung der Unterschiede zwischen dem Output des automatisierten Taggings und den Annotationen des Goldstandards. Dabei sind besonders häufige Unterschiede durch eine dunklere Einfärbung hervorgehoben. Durch die Anordnung in der Matrix und den hierarchischen Aufbau des Tagsets zeigen sich Cluster von POS-Tags, die eine besonders hohe Anzahl an unterschiedlichen Annotationen aufzeigen. Das Cluster im unteren Bereich rechts repräsentiert die Abweichungen in der Subklassifikation der Verben. <?page no="347"?> Evaluation des POS-Taggings für spontansprachliche Daten 347 Die Problematik der fehlerhaften Annotation von Verben wurde bereits mehrfach diskutiert und ist auch für die Annotation schriftsprachlicher deutscher Texte ein bekanntes Problem des TreeTaggers. Es handelt sich dabei klar um Fehler in der automatisierten Annotation aufgrund dessen, dass die Flexion vieler Verben in vielen grammatikalischen Kontexten dieselbe ist, beispielsweise im Infinitiv und in der ersten Person Plural. Durch den Trigram-Algorithmus ist es nicht möglich, einen mehrteiligen Verbalkomplex als solchen zu erkennen, wenn zwischen dem finiten Verb und dem Infinitiv oder Partizip mehr als drei Token liegen. Eine besondere Problematik unserer Daten stellt dabei die fehlende syntaktische Segmentierung dar, sodass die Teile des Verbalkomplexes häufig durch eine Segmentgrenze voneinander getrennt sind. Abb. 28: Heatmap, Verteilung der Unterschiede zwischen dem Output des automatisierten Taggings und den Annotationen des Goldstandards Die Cluster links mittig und oben mittig repräsentieren das Problem der Differenzierung der Satz-internen Partikeln von Adverbien. Hier lohnt es sich, die Daten genauer zu untersuchen, da es sich bei den Partikelklassen um neu eingeführte Klassen des Tagsets handelt und eine differenzierte Analyse Aufschluss über Probleme bieten kann, die sich bei der Annotation von Wortformen dieser Gruppe ergeben. Die Heatmap zeigt auch, dass die Abgrenzungsproblematik innerhalb der Klasse der Modifikatoren vor allem zwischen <?page no="348"?> Empirischer Teil 348 Adverbien und den einzelnen Partikelklassen besteht, nicht aber innerhalb der Partikelklassen oder in nur sehr geringem Ausmaß. Die Plots in Abbildung 29 zeigen, dass im automatisierten Tagging als Adverbien (ADV) getaggte Wortformen im Goldstandard besonders häufig als Modalpartikeln annotiert waren, das heißt Modal- und Abtönungspartikeln (PTKMA) nicht als solche erkannt wurden. Andere Partikelklassen sind von dieser Art der Fehlannotation deutlich weniger betroffen. Andersherum sind jedoch Wortformen, die im Goldstandard als Adverbien (ADV) getaggt wurden, im automatisierten Tagging besonders häufig als Intensitäts-, Fokus- und Gradpartikeln (PTKIFG) annotiert worden oder als Partikeln innerhalb eines Mehrwortlexems (PTKMWL). Das automatisierte Tagging neigt folglich dazu, diese Partikelklassen bevorzugt an Wortformen zu annotieren, die im Goldstandard als Adverb annotiert wurden. Abb. 29: Annotationsdifferenzen bezüglich der Kategorie Adverb (ADV) <?page no="349"?> Evaluation des POS-Taggings für spontansprachliche Daten 349 Abb. 30: Annotationsdifferenzen bezüglich der Kategorie Modalpartikel (PTKMA) Die Plots in Abbildung 30 ergänzen die bereits dargestellten Analysen zu den Annotationsdifferenzen um den Faktor, dass im Goldstandard als Interjektionen, Responsive oder Rezeptionssignal (NGIRR) annotierte Wortformen im automatisierten Tagging als Modalpartikeln (PTKMA) getaggt wurden. In der Abbildung 28 fällt diese Abgrenzungsproblematik ebenfalls durch einen besonders dunklen Datenpunkt auf. Dieses Annotationsproblem betrifft besonders häufig die Wortform ja und in geringerem Ausmaß die Wortform eben, da diese entweder als Modalpartikeln im Mittelfeld vorkommen oder aber als Interjektionen verwendet werden. Auch dieses Annotationsproblem ließe sich, bis auf wenige Ausnahmen, in denen die Interjektionen parenthetisch im Mittelfeld stehen, durch eine syntaktische Segmentierung der Daten lösen. 123 Durch die Segmentierung lassen sich alleinstehende Interjektionen von Modifikatoren, die vielleicht auch im elliptischen Kontext stehen, differenzieren. 123 Der Vollständigkeit halber befinden sich alle weiteren Plots der Annotationsdifferenzen im Anhang. <?page no="350"?> Empirischer Teil 350 Zwei weitere Einzelpunkte in der Abbildung 28 stechen noch besonders hervor, namentlich die Abgrenzungsproblematik der Reflexivpronomen (PRF) von den Personalpronomen (PPER) und der Eigennamen (NE) von den Appellativa (NN). Bei Letzteren handelt es sich um ein sogenanntes Out-of-Vocabulary-Problem. Das Problem bei der Annotation von Eigennamen und Appellativa liegt darin, dass sie zwar durch die Kapitalisierung im Deutschen als zu einer dieser zwei Klassen zugehörig erkannt werden können, eine Differenzierung jedoch allein anhand von Lexikoneinträgen vorgenommen werden kann. Bei beiden handelt es sich um offene Wortklassen, die beliebig viele Neubildungen zulassen. Vor allem im Rahmen mündlicher Kommunikation sind ad hoc Bildungen neuer Lexeme in diesen Klassen möglich und üblich. Die geringe Anzahl an Trainingsdaten sowie die Ergänzung durch Lexikoneinträge eines schriftsprachlichen Korpus erklären die Ursache dieser Fehlkategorisierungen. Ein solches Out-of-Vocabulary-Problem lässt sich nur durch die manuelle Annotation vieler weiterer ähnlicher Daten lösen. Die Reflexivpronomen mich, mir, dich, uns, euch etc. werden stellungsgleich mit den gleichlautenden Personalpronomen gebraucht. Allein das Kontextwissen darüber, ob und auf welches vorhergegangene Personalpronomen sich die Reflexivpronomen beziehen, gibt Auskunft über die Klassifikation. Diese Information fehlt dem Tagger jedoch häufig, namentlich dann, wenn sich zwischen dem Personalpronomen, auf das sich das Relativpronomen bezieht, und besagtem Relativpronomen mehr als zwei Token befinden oder beide Pronomen durch eine Segmentgrenze voneinander getrennt sind. Ein Vorschlag zur Lösung dieses Problems läge in einer regelbasierten Nachkorrektur der Annotation benannter Wortformen. Die Regel würde lauten: Wenn im Segment das dazugehörige Personalpronomen irgendwo im linken Kontext vorkommt, also beispielsweise den Wortformen dich oder dir irgendwo im gleichen Segment die Wortform du vorausgeht, dann klassifiziere die Wortformen als Reflexivpronomen (PRF). Eine solche Vorgehensweise setzt allerdings wiederum voraus, dass der Annotation eine syntaktische Segmentierung der Daten zugrunde liegt. Gerade letztere zwei Analysen zeigen, dass sich viele Annotationsdifferenzen innerhalb derselben Superkategorie ergeben. Betrachtet man die abweichenden Annotationen nur in Hinblick auf abweichende Annotationen in der Superkategorie, d. h. die Einordnung in eine andere Wortartenklasse, dann verändert sich das Verhältnis der Häufigkeit der Fehlkategorisierungen stark. <?page no="351"?> Evaluation des POS-Taggings für spontansprachliche Daten 351 Goldstandard POS-Klasse Anzahl abweichender Token Superkategorie in Prozent Adverbien 73 25,70 Partikeln 60 21,13 Pronomen 29 10,21 Adjektive 27 9,51 Interj. Resp. etc. 27 9,51 Konjunktionen 18 6,34 Diskursmarker u. Qu.-Tags 11 3,87 Präpositionen 7 2,46 Artikel 7 2,46 Fremdsprl. Material 7 2,46 Verben 7 2,46 Nomina 4 1,41 Zahlen 3 1,06 Bindestrich-Kompositum 2 0,70 Buchstabiertes 1 0,35 Nichtwort 1 0,35 Tab. 16: Häufigkeit der Korrekturen zu den Superkategorien, nach Wortarten sortiert Aus der Tabelle 16 kann man beispielsweise schlussfolgern, dass Verben meist in ihrer Superkategorie übereinstimmend getaggt werden. Die oben genannten häufigen Abweichungen in dieser Klasse sind also innerhalb der Superkategorie Verben (V). Ebenso sind viele Annotationsunterschiede bei den Pronomen (PRON) innerhalb der Superkategorie. Betrachtet man nur die Abweichungen in den Superkategorien, ist es auffällig, dass es sich bei mehr als einem Viertel der Annotationsdifferenzen um Adverbien im Goldstandard handelte, die im automatisierten Tagging nicht als solche erkannt wurden. Die Zahlen geben folglich an, welche Fälle der Kategorie Adverbien fälschlich einer anderen zugeordnet wurden. Mehr als ein Fünftel der Abweichungen beziehen sich auf im Goldstandard als Partikeln annotierte Token. Abbildung 31 illustriert diese Abweichungen nochmals eindrücklich. Darüber hinaus zeigt die Abbildung 31, dass Annotationsdifferenzen in den Superkategorien vor allem zwischen Partikeln (PTK) und nicht-grammatischen Elementen (NG), Pronomen und Artikeln, Adpositionen (AP) und Konjunktionen (KO) sowie zwischen Adpositionen und Partikeln (PTK) auftreten. <?page no="352"?> Empirischer Teil 352 Erstere beziehen sich auf die Abgrenzungsproblematik zwischen Modal- und Abtönungspartikeln und Interjektionen, Responsiven und Rezeptionssignalen, die bereits oben erläutert wurden. Abb. 31: Heatmap, Verteilung der Unterschiede zwischen dem Output des automatischen POS - Taggings und der Annotationen im Goldstandard In Bezug auf die Abgrenzungsproblematik zwischen Pronomen und Artikeln zeigt sich, dass die im Goldstandard als Pronomen getaggten Wortformen im Tagging häufig als Artikel getaggt wurden. Andersherum besteht dieses Problem jedoch in einem deutlich geringeren Maße. Eine genauere Analyse der Daten ergibt, dass die problematische Abgrenzung zwischen Adpositionen und Konjunktionen maßgeblich auf die Fehlannotation der Wortform um zurückzuführen ist. Auch die Abgrenzung zwischen um als Präposition und um als Konjunktion in einer Infinitivkonstruktion ließe sich in einem Post-Processing regelbasiert vornehmen. Eine Regel müsste folgendermaßen lauten: „Wenn im rechten Kontext der Wortform innerhalb des Segments die Wortform zu gefolgt von einem Verb vorkommt, dann tagge um als unterordnende Konjunktion mit zu und Infinitiv (KOUI).“ <?page no="353"?> Evaluation des POS-Taggings für spontansprachliche Daten 353 Auch diese Regel setzt eine syntaktische Segmentierung der Daten voraus. Die Abgrenzungsproblematik zwischen Partikeln und Adpositionen bezieht sich maßgeblich auf vier Wortformen in unseren Evaluierungsdaten: zu, auf, mit und am. Vor allem bei zu und am handelt es sich um Wortformen, die in besonders vielen POS-Klassen Homonyme haben. Sie können den Klassen der Prä- und teilweise Postpositionen zugehören (APPR, APPO), den abgetrennten Verbzusätzen (PTKVZ), als Partikeln vor Infinitiven und Partizipien Futur (PTKZU) und als Partikeln bei Adjektiv oder Adverb (PTKA) verwendet werden. Für die Abgrenzung von ersteren beiden Klassen ist es wiederum eine syntaktische Segmentierung, die dem Tagger bei der Differenzierung helfen könnte. Verbzusatzpartikeln stehen nach dem topologischen Feldermodell immer in der rechten Klammer, d. h. am Ende einer Verbalphrase und somit potenziell am Ende eines Segments. In Hinblick auf die Abgrenzung zwischen PTKZU und PTKA ließen sich für die Wortformen am und zu weitere Post-Processing-Regeln formulieren: − „Folgt der Wortform zu ein Verb im Infinitiv oder Partizip oder geht ihr die Wortform um voraus, so ist es eine Partikel vor Infinitiven und Partizipien Futur.“ − „Folgt den Wortformen zu oder am direkt ein adverbiales oder prädikatives Adjektiv, so sind sie als Partikeln bei Adjektiv oder Adverb zu taggen.“ Auch diese Regeln können nur dann sinnvoll Anwendung finden, wenn dem Tagging eine syntaktische Segmentierung zugrunde liegt. Weiterhin gilt es zu analysieren, inwiefern die Annotationsdifferenzen in Bezug auf einzelne POS-Klassen abhängig von den unterschiedlichen Transkripttypen sind. Eine transkriptspezifische Auswertung zeigt, dass sich die Annotationsdifferenzen in Bezug auf spezifische Cluster in Abhängigkeit von den Transkripten teils stark unterscheiden. Exemplarisch wird dies an folgenden zwei Heatmap-Plots dargestellt. 124 Abbildung 32 zeigt viele Annotationsdifferenzen in den Klassen der Verben und Pronomen, jedoch jeweils nur einen schwächeren Datenpunkt bei der Abgrenzung von Adverbien zu Partikeln und keine zwischen Nomina und Appellativa. Im Gegensatz zu Abbildung 32 zeigt Abbildung 33 kaum Annotationsdifferenzen im Bereich der Verben und Pronomen, dafür sehr starke bei den Adverbien und Partikeln sowie bei den Eigennamen und Nomina. 124 Im Anhang befinden sich alle Heatmap-Plots für die einzelnen Transkripte. <?page no="354"?> Empirischer Teil 354 Abb. 32: Heatmap, Annotationsdifferenzen zwischen automatisiertem POS-Tagging und den Annotationen des Goldstandards im Transkript 121 (Unterricht im Wirtschaftsgymnasium) Bei dem Transkript 121 handelt es sich um eine Deutschstunde im Wirtschaftsgymnasium und um ein eher formell geführtes und klar diszipliniertes Gespräch mit fachspezifischen Inhalten. Im Gegensatz dazu handelt es sich bei Transkript 066 um ein informelles und interaktives Gespräch unter Freunden. Je länger und komplexer die gesprochenen Sätze werden, desto größer ist die Wahrscheinlichkeit, dass die Annotation der Verben inkorrekt ist und desto mehr besteht die Wahrscheinlichkeit, dass Pronomen genutzt werden, um auf bereits zuvor Gesagtes Bezug zu nehmen. Da in der Unterrichtsstunde sehr lange Ausführungen des Lehrers zum Thema Parabeln enthalten sind, die Gartenkonversation unter Freunden jedoch eher von kürzeren Äußerungen geprägt ist, ist es nicht verwunderlich, dass bei Letzterem die Annotation der Verben und Pronomen ein geringeres Problem darstellt. Im Gegensatz dazu ist in der informellen Kommunikationssituation der Gebrauch von Partikeln und Adverbien häufiger sowie die <?page no="355"?> Evaluation des POS-Taggings für spontansprachliche Daten 355 Verwendung von spezifischen Eigennamen und Appellativa, weshalb Transkript 066 mehr Annotationsdifferenzen in diesen Bereichen aufweist. Abb. 33: Heatmap, Annotationsdifferenzen zwischen automatisiertem POS-Tagging und den Annotationen des Goldstandards im Transkript 066 (Gespräch unter Freunden) Man kann daraus schließen, dass die Annotationsdifferenzen im Evaluationsdatensatz zwar transkriptspezifisch sind, jedoch in einer Weise, die sich weniger auf genau diese Sprecher*innen oder Transkripte beziehen, sondern auf Eigenheiten der Interaktionssituation, die sich auch auf andere Transkripte verallgemeinern lassen. Statistisch gesehen sind also in bestimmten Gesprächstypen die Wahrscheinlichkeiten höher, dass bestimmte Annotationsdifferenzen auftreten können, weil die Verwendung der schwierig zu kategorisierenden Wortformen in diesen Gesprächstypen häufiger oder weniger häufig zu erwarten ist. Durch das ausgewogene Sampling des Trainings- und Evaluationsdatensets können die Gesamtauswertungen der Analysen des Evaluationssets demnach als repräsentativ gelten. <?page no="356"?> Empirischer Teil 356 3.15.3 Ambiguitäten Ein weiterer Analyseschritt, der im Folgenden ausgeführt wird, ist die Klärung der Frage, inwiefern es sich bei den Annotationsdifferenzen tatsächlich um Fehler bei der automatisierten Annotation handelt oder ob es sich um Fälle von Ambiguitäten handelt. Nach einer tokenbasierten Analyse der Abweichungen des automatisierten Taggings vom Goldstandard lässt sich feststellen, dass 103 der insgesamt 482 Abweichungen Fälle sind, in denen beide Annotationen als korrekt gelten können, d. h. in ihrer Annotation ambig sind. Dies resultiert in 21,37 Prozent der abweichenden Annotationen, was 1,08 Prozent des gesamten Test-Sets (9.540 Token) ausmacht. Solche Ambiguitäten wiederum sind der Natur der Daten geschuldet und unterscheiden sich in a) echte Ambiguitäten, b) solche, die sich durch Kontextwissen eine*r kompetenten Sprecher*in lösen lassen, und c) solche, die auf fehlender syntaktischer Segmentierung der Daten beruhen. Für einen Tagger, dessen Annotationen auf der syntaktischen Struktur der Daten basieren, können alle diese Fälle als Ambiguitäten bezeichnet werden. Fälle, die zu a) gezählt werden können, sind einerseits echte syntaktische Ambiguitäten und andererseits Token, denen beispielsweise uninterpretierbares Material folgt, nach denen Sprecher*innen die Äußerung nicht fortführen. Beispiel 84: Tischgespräch, Transkript FOLK_E_00143_SE_01_T_06_DF_01, 02: 40: 58-02: 41: 07 125 01 GI bei dir nee 02 (0.9) 03 JI nee die +++ net. 04 JI °h [(vun der) ah des kann soi de +++ ja- ] 05 HM [nee vun de vum +++ GLAB isch ja ja ja- ] 06 GI [ah de +++ ja ja. ] Beispiel 84 illustriert diese Problematik. Im Falle von die, der und de, kann nicht geklärt werden, ob es sich um Artikel (ART) oder Demonstrativpronomen (PDS) handelt, da dem Token im ersten und letzten Fall unverständliches Material folgt und beim zweiten die Sprecherin ihre ohnehin akustisch schwer verständliche Äußerung abbricht und neu ansetzt. Zudem 125 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00143_SE_01_T_06_DF_01&cID=c66&wID=w336&textSize=200&contextSi ze=4. <?page no="357"?> Evaluation des POS-Taggings für spontansprachliche Daten 357 sprechen an dieser Stelle verschiedene Sprecher*innen gleichzeitig und nennen auch Namen, weshalb ein Teil der Äußerungen verrauscht ist, d. h. auch die Audioaufnahme kann nicht zur Disambiguierung herangezogen werden. In diesem Fall wurde im Goldstandard von der Annotator*in bei allen drei Instanzen das POS-Tag für Demonstrativpronomen gewählt, wohingegen diese Token beim automatisierten Tagging mit dem Tag für Artikel annotiert wurden. Beispiel 85: Schlichtungsgespräch Stuttgart 21, Transkript FOLK_E_00069_ SE_01_T_06_DF_01, 01: 10: 45-01: 11: 19 126 01 BP auf die fildern (.) geSPERRT werden muss für bauarbeiten funktioniert ihr bahnhof faktisch nicht mehr.= 02 BP =is nur noch n NOTfall. 03 (0.29) 04 BP fahrplan möglich weil (.) DA ja die magistrale liegt. 05 BP (.) °h und wir (.) wollen (.) mit dieser diskussion eigentlich nUr der frage nachgehen °h is es UNmöglich . 06 BP ((schmatzt)) wie herr KIRCHberg gesagt hat, 07 BP °hh dass wir (.) reparaturmaßnahmen ((Tonstörung)) in relativ kurzen abständen im TUNnel brauchen, 08 BP °h und is es (.) UNmöglich (.) °h dass des mineralwasser gefährdet wird. Beispiel 85 zeigt einen Fall, in dem die Wortart des Tokens unmöglich nicht final bestimmt werden kann. Unmöglich hat im Duden sowohl einen Eintrag als Adverb als auch als Adjektiv, die keine Aufschlüsse über Disambiguierungskriterien für den vorliegenden Fall bereitstellen. In diesem Fall wurde unmöglich im Goldstandard als Adjektiv (ADJD) getaggt, beim automatisierten Tagging hingegen als Adverb (ADV). In einigen Fällen lassen sich syntaktische Ambiguitäten im POS-Tagging durch pragmatisches und prosodisches Kontextwissen lösen (b). Die Abweichungen vom automatisierten POS-Tagging zum Goldstandard lassen sich in diesen Fällen also dadurch erklären, dass dem POS-Tagger solche Informationen nicht vorliegen, die Annotator*innen des Goldstandards diese jedoch als Entscheidungshilfe hinzugezogen haben. 126 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00069_SE_01_T_06_DF_01&cID=c333&wID=w3663&textSize=200&contextS ize=4. <?page no="358"?> Empirischer Teil 358 Beispiel 86: Ersthelfer-Training, Transkript FOLK_E_00137_SE_01_T_01_ DF_01, 01: 27-01: 32 127 01 NH6 s [ o G]AN[Z ruhisch atmen.] 02 XM [h° ] 03 NH3 [hhh° ] Im Beispiel 86 wurde das so beim automatisierten Tagging als Fokuspartikel (PTKIFG), von der Annotator*in des Goldstandards jedoch als Interjektion (NGIRR) getaggt. Solche Ambiguitäten sind weiterhin ebenfalls der fehlenden Segmentierung (c) der Daten geschuldet. Wäre das so in diesem Fall als eigenes Segment von der folgenden Äußerung abgetrennt, so wäre die Wortart eindeutig als Interjektion (NGIRR) zu bestimmen. Die fehlende syntaktische Segmentierung führt also einerseits zu Ambiguitäten in der Annotation in den Fällen, in denen wie im Beispiel 86 verschiedene syntaktische Einheiten als eine Contribution vorliegen, und andererseits in Fällen, in denen eine syntaktische Einheit über zwei Contributions verteilt ist, wie im Beispiel 87. Beispiel 87: Gespräch unter Freunden, Transkript FOLK_E_00066_ SE_01_T_04_DF_01, 02: 11: 44-02: 11: 56 128 01 UD die sin dann WEGgezogen aus südtirol (oder)- 02 JO ((schmatzt)) GEnau. 03 JO weil es ging halt um den um die ABsprache sozusagen-= 04 JO =oKAY, 05 JO des land geht halt irgend an iTAlien un bla und alle °h 06 UD aber [des war doch ]im ERSten äh [welt- ] 07 JO [ deutschen - ] 08 JO [nee- ] 09 UD nach em ERSten weltkrieg schon italienisch. 10 UD (.) SÜDtirol. Da die Annotator*innen des Goldstandards sich an dem Kontext orientierten, dem automatisierten Tagging aber eben nur die vorliegende Contribution als Kontext zur Verfügung stand, wurde das alle unterschiedlich annotiert. Im Goldstandard ist es als attribuierendes Indefinitpronomen getaggt (PIAT) 127 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00137_SE_01_T_01_DF_01&cID=c123&wID=w204&textSize=200&contextSi ze=4. 128 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTranscri pt&id=FOLK_E_00066_SE_01_T_04_DF_01&cID=c905&wID=w4847&textSize=200&contextS ize=4. <?page no="359"?> Fazit 359 und in der automatisierten Annotation als substituierendes Indefinitpronomen (PIS). Es ist zu hoffen, dass Fehler wie im letzten Beispiel in der automatisierten Annotation durch eine syntaktische Segmentierung der Daten zu vermeiden sind. 3.16 Fazit Zinsmeister/ Heid/ Beck (2014) formulieren drei Schritte zur Anpassung eines Tagsets und zur Entwicklung eines Taggings für spezifische Daten (ebd., S. 4100): 1. Identification of relevant language phenomena that must be captured, e. g., on the basis of error analyses; 2. Subclassification of the phenomena from (1) in terms of properties that may be used as tag distinction criteria; proposal of appropriate tags; 3. Tests of annotation accuracy, both manual (via measurements of inter-annotator agreement) and automatic (via intrinsic or extrinsic evaluation, i. e., in terms of measurements of tagging accuracy against a gold standard or by means of a task-based evaluation assessing the quality of applications that depend on POS input such as parsing) Der erste Punkt wurde ausführlich im theoretischen Teil dieser Untersuchung ausgeführt. Eine Zusammenfassung und Klassifikation dieser Probleme im Kapitel 3.7.2 „Die Anwendung des STTS für Transkripte gesprochener Sprache - eine Problemanalyse“ diente als Grundlage für die Darstellung der Überarbeitung der POS-Kategorien hinsichtlich der Annotation von Transkripten gesprochener Sprache. Die Darstellungen im empirischen Teil dieser Arbeit zeigen, dass es gelungen ist, durch die Einführung neuer POS-Kategorien und Abänderung der Guidelines den Eigenheiten der Transkripte gesprochener Sprache gerecht zu werden. Sie ermöglichen es, nach Einführung des Taggings in der DGD, Suchanfragen über das POS-Tagging spezifisch für typisch gesprochensprachliche Phänomene durchzuführen. So kann man nun beispielsweise nach abgebrochenen Wörtern suchen oder nach bestimmten Gesprächspartikeln wie beispielsweise Interjektionen oder Diskursmarkern. Die Auswertungen der Inter-Annotator-Agreements wie auch des Tagging- Outputs im Vergleich mit dem Goldstandard hat gezeigt, dass die Klassifikation der neu eingeführten POS-Tags valide ist. Die Darstellungen im empirischen Teil dieses Buches entsprechen dem dritten Punkt der von Zinsmeister/ Heid/ Beck (2014) geforderten Voraussetzungen für eine Anpassung des Taggings auf spezifische Daten. Das Ergebnis der empirischen Untersuchung ist, dass die Präzision des POS-Taggings für die Annotation von Transkripten gesprochener Sprache von ursprünglich durchschnittlich circa 76 Prozent auf circa 91 Prozent nach dem Neutraining mit <?page no="360"?> Empirischer Teil 360 dem Development-Set auf nun insgesamt circa 95 Prozent angehoben werden konnte. Die Zielsetzung dieser Arbeit wurde somit erfüllt. Dieser Wert liegt zwar noch immer circa drei Prozentpunkte unter der angegebenen Präzision des originalen TreeTaggers mit dem STTS auf Zeitungsdaten. Jedoch ist erstens zu beachten, dass das angepasste Tagset mit insgesamt 63 Tags über insgesamt neun Tags mehr verfügt als das originale STTS, d. h. die Annotationen deutlich feinkörniger sind. Zweitens zählte bei der Auswertung der Präzision der Annotationen an den Zeitungskorpora auch die korrekte Annotation von Interpunktion hinein, welche mit einer sehr hohen Frequenz in den Texten vorkommen und nahezu fehlerfrei annotiert werden kann. Drittens sind die Daten des FOLK-Korpus in ihren Ausprägungen deutlich variantenreicher in Bezug auf sprachliche Eigenheiten als reine Zeitungsartikel. Die Anpassung muss viele verschiedene Interaktionstypen und Gattungen berücksichtigen. Um diesem Umstand gerecht zu werden, wurden sowohl die Trainingsdaten als auch die Evaluationsdaten sorgfältig zusammengestellt, sodass zu erwarten ist, dass der Tagger diese Präzision auch an weiteren Gesprächstypen der Datenbank aufrechterhält. Darüber hinaus zeigten die Analysen der Annotationsdifferenzen zwischen automatisiertem Tagging und Goldstandard, dass es sich genaugenommen nur um eine Fehlerquote von etwa vier Prozent handelt, da ein Prozent der Fehler als echte Ambiguitäten bei der Annotation zu betrachten sind. Weiterhin wurde herausgestellt, dass eine syntaktische Segmentierung der Daten, wie es sie in Zukunft im FOLK-Korpus geben soll, viele Fälle von Ambiguitäten und Fehlannotationen vermeiden könnte. Darauf aufbauend ließe sich ebenfalls noch ein weiteres Post-Processing vornehmen, mit dessen Hilfe man regelbasiert Fehlannotationen einzelner Wortformen und eine Differenzierung zwischen bestimmten POS-Klassen vornehmen kann. <?page no="361"?> 361 Abschließende Diskussion und Ausblick 4. ABSCHLIE ẞ ENDE DISKUSSION UND AUSBLICK Die Dissertation leistete eine theoretisch begründete und empirisch validierte Entwicklung einer automatisierten Wortartenannotation (Part-of-Speech- Tagging) für Transkripte spontansprachlicher Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), das über die Datenbank für Gesprochenes Deutsch (DGD) der Forschungsgemeinschaft öffentlich zugänglich ist. Der Fokus dieser Untersuchung lag auf der kritischen Reflexion der Wortartentheorien im Spannungsfeld zwischen Theorie und datengeleiteter Studien. Es wurde deutlich, dass sich die in den Transkripten gesprochener Sprache vorgefundenen Probleme bei der Wortarten-Annotation nicht durch in der Grammatikschreibung beschriebene Kategorisierungen abbilden lassen. Gleichzeitig hat sie jedoch gezeigt, dass die Entwicklung einer an Transkripte der Spontansprache angepassten Wortarten-Annotation möglich ist. Ziele dieser Arbeit waren die bestmögliche Abbildung typisch gesprochensprachlicher Phänomene, die Nachvollziehbarkeit des POS-Kategoriensystems für Nutzer*innen des FOLK-Korpus, die exhaustive Annotation der Transkripte des FOLK-Korpus, die Gewährleistung der Vergleichbarkeit der Annotationen mit denen anderer Korpora und schließlich der deutlichen Anhebung der Präzision in der Annotation. Hierbei galt es, diese verschiedenen Ziele gegeneinander abzuwägen. Die empirischen Studien belegen, dass das automatisierte POS-Tagging mit dem TreeTagger und mit dem hier spezifisch hierzu entwickelten Parameter-File die Transkripte gesprochener Sprache mit einer durchschnittlichen Präzision von 95 Prozent annotiert. Gleichzeitig wurde die bestmögliche Balance zwischen der Erfüllung der verschiedenen Ziele gefunden. Es wurde eine Vielzahl von Tag-Kategorien eingeführt, die die Eigenheiten der gesprochenen Sprache abbilden und die dennoch praktikabel waren in Hinblick auf die manuelle Annotation und Automatisierbarkeit der Daten. Ebenso ist eine Abbildbarkeit des Tagsets auf die Tagsets anderer Korpora, basierend auf dem STTS, gewährleistet. Das Parameter-File sowie der annotierte Goldstandard und die Guidelines wurden der Wissenschaftsöffentlichkeit zur Verfügung gestellt. 129 Das gesamte FOLK-Korpus, der deutsche Teil des Gesprächskorpus Wissenschaft Kontrastiv (GeWiss) und auch noch andere, kleinere Korpora in der Datenbank für Gesprochenes Deutsch (DGD) sind mit dem hier entwickelten Parameter-File getaggt worden. Über eine Benutzeroberfläche in der DGD lassen sich die Wortartenannotationen nun 129 http: / / agd.ids-mannheim.de/ folk-gold.shtml. <?page no="362"?> 362 Abschließende Diskussion und Ausblick neben Kontext-Suchen, Positionsbestimmungen und Metadaten in der struktursensitiven Suche zum Auffinden bestimmter Konstruktionen verwenden. Abb. 34: Durchsuchbarkeit des FOLK anhand von POS - Tags Beispielsweise ist es nun möglich, die Daten des FOLK-Korpus nach ja als Modalpartikel zu durchsuchen, wie es in der Abbildung 34 dargestellt ist. Das POS-Tagging erlaubt somit sehr viel genauere Analysen der Daten mit einem deutlich geringeren Zeitaufwand. Die Arbeit an der Wortartenannotation von Transkripten gesprochener Sprache ist eine Arbeit, die verschiedene Ansätze in Einklang bringen musste. Auf der einen Seite bediente sie sich der Wortartenkategorien, die bereits für sprachtechnologische Prozesse für die Verarbeitung von Zeitungstexten entwickelt wurden. Auf der anderen Seite stand die konzeptionelle Mündlichkeit der Daten, der es auch für diesen sprachtechnologischen Prozess gerecht zu werden galt. Dazu bedurfte es a) der theoretischen Aufarbeitung der Eigenschaften der gesprochenen Sprache, insbesondere in Hinblick auf die Anwendbarkeit von Wortarten-Kategorien, b) ihrer Abgrenzung hin zur geschriebenen Sprache und c) der Reflexion, inwiefern sich die theoretischen Ansätze zur Beschreibung der Eigenheiten der gesprochenen Sprache empirisch im Verfahren der exhaustiven Wortartenannotation anwenden ließen. Dies erforderte die wechselseitige Diskussion von theoretischen Ansätzen und empirischer Anwendung, die praktisch in dem iterativen Prozess der Guidelines-Erstellung und Evaluation Ausdruck fand. Gleichzeitig bedingte dieser Prozess jedoch auch die Hinterfragung grammatischer Kategorien in der Theorieschreibung und zeigte auf, wo diese noch deutliche Defizite aufweist, wenn sie denn auch Daten nicht-lektorierter Texte gerecht werden will. Vor einem Hintergrund eines zunehmend diversen Gebrauchs geschriebener Sprache über den redigierten Text hinaus, wie beispielsweise im Chat oder in <?page no="363"?> 363 Abschließende Diskussion und Ausblick Internet-Foren, sind die Erkenntnisse dieser Arbeit nicht nur für Daten gesprochener Sprache relevant sondern verweisen vielmehr auf ein Generelles Defizit in der Grammatikschreibung. Die vorliegende Arbeit hat gezeigt, dass es zur vollständigen Annotation der Daten zusätzlicher Wortartenkategorien bedarf, die vorwiegend die Funktion bestimmter Wortformen im Kontext genauer beschreiben. Damit wird die Kategorisierung in gewisser Hinsicht den Forderungen der interaktionalen Linguistik gerecht, auch in der Grammatikschreibung - in diesem Falle besser gesagt Grammatik-Anwendung - dem funktionalen Gebrauch von Wortformen im Kontext der Interaktion Rechnung zu tragen. So wurde gerade im Bereich der Gesprächspartikeln die Klassifikation in Hinblick auf deren Funktion in der Interaktion vorgenommen. Eine Kategorie, die noch eingehendere Untersuchungen fordert, ist die Klasse der Partikeln in einem Mehrwortlexem (PTKMWL). Dass sie in der Interaktion die Funktion haben, Aspekt zu markieren, wurde bisher nur in wenigen Vorträgen von Blühdorn (z. B. Gesprächsforschungstagung 2016, http: / / gespraechsforschung.de/ tagungsarchiv/ heft2016.pdf) beschrieben. Eine genauere Untersuchung dieser Wortformen könnte zutage bringen, dass das Deutsche, ebenso wie das Englische, die Markierung von Aspekt durch den Gebrauch spezifischer Partikeln möglich macht. Die praktische Anwendung theoretischer Wortartenmodelle bei der Annotation beinhaltete gleichermaßen den Zwang zur Operationalisierung und Anpassung theoretischer Modelle. Auf diese Weise leistet diese Arbeit einen wichtigen Beitrag zur Theoriereflexion. Gerade solche Wortformen, die gerade offensichtlich Sprachwandelprozessen unterworfen sind, insbesondere Diskursmarker, zeigen, dass es eine gewisse Unschärfe in den Definitionen verschiedener Wortartenkategorien gibt und es einer kritischen Reflexion des Spannungsverhältnisses zwischen grammatischer Bezeichnung und pragmatischer Funktion bedarf. Da nach dem Neutraining eine Wortartenannotation mit einer Präzision von 95 Prozent erreicht wurde, aber nur etwa 50 Prozent der Äußerungen einem traditionellen Satzkonzept entsprechen, kann davon ausgegangen werden, dass durch die vollständige Annotation des Goldstandards typisch gesprochensprachliche Konstruktionen statistisch erkannt und in der automatisierten Annotation abgebildet werden konnten. Diese Erkenntnis unterstützt implizit auch die Bestrebungen der Grammatikschreibung eines Gebrauchsstandards der gesprochenen Sprache. Es konnte gezeigt werden, dass es spezifische Konstruktionen der gesprochenen Sprache gibt, die sich nicht im Gebrauchsstandard des geschriebenen Deutsch finden und dennoch so rekurrent sind, dass sie über statistische Verfahren abgebildet werden können. <?page no="364"?> 364 Abschließende Diskussion und Ausblick Im Gegenzug soll nun die Wortartenannotation in der DGD dazu dienen, es Sprachwissenschaftlern aller Disziplinen zu ermöglichen, solche spezifischen Konstruktionen der gesprochenen Sprache aufzufinden und sie zu untersuchen. In Hinblick auf die grammatikalische Beschreibung des Gebrauchsstandards in der gesprochenen Sprache konstatiert Schneider (2016): Es gibt mittlerweile das deutliche Bemühen, Korpora heranzuziehen, um den heutigen, realen Sprachgebrauch und das implizite Sprachwissen kompetenter Sprecher mit den Kodizes in Einklang zu bringen und „realistische“ Gebrauchsnormen zu rekonstruieren. (ebd., S. 273) Ein solches Unterfangen kann jedoch nur gelingen, wenn den Nutzer*innen dieser Korpora die richtigen Hilfsmittel zur Seite gestellt werden. Diese Arbeit versteht sich daher insbesondere als Wegbereiter solcher Unternehmungen, da das Auffinden spezifischer Konstruktionen in Korpora durch eine gute POS-Annotation um ein Vielfaches erleichtert wird. Eine weitere Verbesserung des POS-Taggings wäre selbstverständlich noch erstrebenswert, ist aber im Rahmen dieser Arbeit nicht mehr möglich. Ansätze hierfür sind: a) die manuelle Annotation weiterer Daten. Forschung aus dem Bereich der Wortartenannotation mit einem sehr groben Tagset haben gezeigt, dass die Präzision deutlich steigt ab einer Masse von Trainingsdaten von über 200.000 Token. (Mieskes/ Strube 2006), b) die Segmentierung der Daten auf Basis einer weitestgehend syntaktischen Segmentierung, wie sie momentan im Projekt SegCor erarbeitet wird (Westpfahl/ Gorisch 2018), c) Trainieren und evaluieren anderer verfügbarer Tagger, z. B. den MATE- Tagger (Björkelund et al. 2010, Brill-Tagger (Brill 1992), Stanford-Tagger (Toutanova/ Manning 2000), HunPos-Tagger (Halácsy/ Kornai/ Oravecz 2007) oder auch einen CRF-basierten Tagger (Lafferty/ McCallum/ Pereira 2001), d) die parallele Nutzung verschiedener Tagger und darauf basierend POS- Kategorisierungen basierend auf einem Mehrheitsvotum, die Nutzung eines Stacking-Prozesses oder die Erkennung möglicher Tagging-Fehler (Rehbein/ Schalowski 2013; Rehbein/ Schalowski/ Wiese 2014; Rehbein/ Ruppenhofer 2017) und e) die Nutzung neuerer computerlinguistischer Technologien wie beispielsweise neuronaler Netzwerke und Embeddings (Yu/ Falenska/ Thang Vu 2017; Meftah/ Semmar/ Sadat 2018) (wofür es wiederum deutlich mehr annotierter Daten bedarf). <?page no="365"?> 365 Abschließende Diskussion und Ausblick Darüber hinaus sammelt die Verfasserin Rückmeldungen von Nutzern des FOLK, um Fehler in der Annotation zu analysieren und daraus, wo möglich, Regeln abzuleiten, die die Annotation bestimmter Wortformen in spezifischen Kontexten korrigieren können. Eine weitere Anpassung, die vorgenommen werden könnte, wäre es, ein Trainingsset zu kreieren, das auch Interpunktion erhält. Das so trainierte Parameter-File ließe sich dann auch für verschiedene Arten von Daten anwenden, die Interpunktion enthalten. Dies gilt im Besonderen für Transkripte von Spontansprache, die nach einem anderen Transkriptionssystem erstellt wurden, oder auch für schriftsprachliche Daten. Beispielsweise wurde von der Verfasserin in Zusammenarbeit mit Wolfgang Imo der Versuch unternommen, Daten aus den Dramen von Andreas Gryphius mit dem in dieser Arbeit erstellten Parameter-File für gesprochenes Deutsch zu taggen. Die Dramen von Andreas Gryphius (Frühneuhochdeutsch) sind zwar im Versmaß Alexandriner verfasst, dennoch weisen sie viele Instanzen fingierter Mündlichkeit auf und somit im gewissen Rahmen auch Eigenheiten der gesprochenen Sprache. Die Verfasserin konnte zeigen, dass die Präzision des POS-Taggings mit dem hier erstellten Parameter-File genauso hoch war wie die mit dem originalen TreeTagger Parameter-File für das Deutsche. Darüber hinaus wurden durch das Parameter-File für gesprochenes Deutsch viele Eigenheiten der fingierten Mündlichkeit erkannt und präzise getaggt. Da das STTS 2.0 mehr Kategorien als das originale STTS enthält, konnten insgesamt mehr Informationen verfügbar gemacht werden als mit dem originalen STTS und TreeTagger Parameter-File. Es ist daher denkbar, dass das hier entwickelte Tagset und Parameter-File auch prinzipiell einen Mehrwert für andere schriftsprachliche Daten bietet - im Speziellen dann, wenn der Fokus der Analyse auch Partikeln und Diskursmarker mit einbezieht oder es sich um Daten handelt, die zwar medial schriftlich, jedoch konzeptionell mündlich als Sprache der Nähe zu bezeichnen sind. Eine Adaption des hier erarbeiteten Tagsets wurde bereits für die Annotation von Chat-Korpora verwendet (Beißwenger et al. 2015). Das hier erarbeitete Tagset (mit einer Erweiterung für Interpunktion) könnte auch für die Annotation von Standardtexten der medial schriftlichen Kommunikation wie beispielsweise Zeitungstexte oder Romane zu Verbesserungen der POS-Annotation führen. Die Differenzierung zwischen satz-internen Partikeln und Adverbien ist nicht nur eine Frage der mündlichen Kommunikation, sondern auch in schriftsprachlichen Texten ein häufig verwendetes Stilmittel. Die hier vorgeschlagenen Änderungen bieten eine differenziertere Analyse der Modifikatoren des Deutschen als sie bisher über das STTS vorgenommen wurde. <?page no="366"?> 366 Abschließende Diskussion und Ausblick <?page no="367"?> 367 Literatur 5. LITERATUR Aijmer, Karin (1997): I think - an English modal particle. In: Swan, Toril/ Westvik, Olaf Jansen (Hg.): Modality in Germanic languages. Historical and comparative perspectives. (= Trends in Linguistics. Studies and Monographs 99). Berlin/ New York: De Gruyter, S. 1-48. Ágel, Vilmos/ Hennig, Mathilde (Hg.) (2007): Zugänge zur Grammatik der gesprochenen Sprache. (= Germanistische Linguistik 269). Tübingen: Niemeyer. Allerton, David J. (2009): Tag Questions. In: Rohdenburg, Günther/ Schlüter, Julia (Hg.): One language, two grammars? Differences between British and American English. (= Studies in English language). Cambridge: Cambridge University Press, S. 306-323. Allwood, Jens/ Grönqvist, Leif/ Björnberg, Maria/ Ahlsen, Elisabeth/ Ottesjö, Cajsa (2000): The spoken language corpus at the linguistics department, Göteborg University. In: Forum: Qualitative Social Research/ Sozialforschung 1, 3. (Online: http: / / nbn-resolving.de/ urn: nbn: de: 0114-fqs000391, Stand: 1. 12. 2018). Alm, Maria (2015): ALSO als finale Partikel im Deutschen. In: Vinckel-Roisin (Hg.), S. 319-341. Altmann, Hans (2007): Gradpartikel. In: Hoffmann (Hg.), S. 357-385. Altmann, Hans/ Hofmann, Ute (2008): Topologie fürs Examen. Verbstellung, Klammerstruktur, Stellungsfelder, Satzglied- und Wortstellung. (= Linguistik fürs Examen 4). 2., überarb. u. erg. Aufl. Göttingen: Vandenhoeck & Ruprecht. American National Corpus Project (Hg.) (2002-2010): American national corpus. Comitted to OPEN DATA for language research and education. (Online: www.anc.org/ SecondRelease/ bugs.html, Stand: 3. 2. 2016). Apresjan, Juri/ Boguslavsky, Igor/ Iomdin, Boris/ Iomdin, Leonid/ Sannikov, Andrei/ Sizov, Victor (2006): A syntactically and semantically tagged corpus of Russian: State of the art and prospects. In: Proceedings of the fifth international conference on language resources and evaluation (LREC 2006). Genua: European Language Resources Association, S. 1378-1381. Artstein, Ron/ Poesio, Massimo (2008): Inter-coder agreement for computational linguistics. In: Computational linguistics 34, 4, S. 555-596. Auer, Peter (1991): Vom Ende deutscher Sätze. In: Zeitschrift für germanistische Linguistik 19, S. 139-157. Auer, Peter (1993): Zur Verbspitzenstellung im gesprochenen Deutsch. In: Deutsche Sprache 21, S. 193-222. Auer, Peter (1996): The pre-front field position in spoken German and its relevance as a grammaticalization position. In: Pragmatics 6, 3, S. 295-322. Auer, Peter (1997): Formen und Funktionen der Vor-Vorfeldbesetzung im gesprochenen Deutsch. In: Schlobinski (Hg.), S. 55-91. <?page no="368"?> Literatur 368 Auer, Peter (2000): On line-Syntax - Oder: was es bedeuten könnte, die Zeitlichkeit der mündlichen Sprache ernst zu nehmen. In: Sprache und Literatur 31, 1, S. 43-56. Auer, Peter (2006): Increments and more. Anmerkungen zur augenblicklichen Diskussion über die Erweiterbarkeit von Turnkonstruktionseinheiten. In: Deppermann/ Fiehler/ Spranz-Fogasy (Hg.), S. 279-294. Auer, Peter (2007): Syntax als Prozess. In: Hausendorf, Heiko (Hg.): Gespräch als Prozess. Linguistische Aspekte der Zeitlichkeit verbaler Interaktion. (= Studien zur Deutschen Sprache 37). Tübingen: Narr, S. 95-124. Auer, Peter (2010): Zum Segmentierungsproblem in der gesprochenen Sprache. In: InLiSt - Interaction and Linguistic Structures 49, S. 1-19. (Online: www.inlist.unibayreuth.de/ issues/ 49/ InList49.pdf, Stand: 1. 9. 2015). Auer, Peter/ Günthner, Susanne (2003): Die Entstehung von Diskursmarkern im Deutschen - ein Fall von Grammatikalisierung? In: InLiSt - Interaction and Linguistic Structures 38, S. 1-30. (Online: www.inlist.uni-bayreuth.de/ issues/ 38/ Inlist38.pdf, Stand: 19. 9. 2019). Auer, Peter/ Günthner, Susanne (2005): Die Entstehung von Diskursmarkern im Deutschen - ein Fall von Grammatikalisierung? In: Leuschner, Torsten/ Mortelmans, Tanja/ De Groodt, Sarah (Hg.): Grammatikalisierung im Deutschen. (= Linguistik - Impulse & Tendenzen 9). Berlin/ New York: De Gruyter, S. 335-362. Axelsson, Karin (2011): A cross-linguistic study of grammatically-dependent question Tags: Data and theoretical implications. In: Studies in Language 35, 4, S. 793-851. Bańko, Mirosław/ Górski, Rafał L./ Lewandowska-Tomaszczyk, Barbara/ Łaziński, Marek/ Pęzik, Piotr/ Przepiórkowski, Adam/ Wójtowicz, Beata (2012): National Corpus of Polish. (Online: http: / / nkjp.pl/ index.php? page=0&lang=1, Stand: 7. 1. 2016). Barden, Birgit/ Elstermann, Mechthild/ Fiehler, Reinhard (2001): Operator-Skopus- Strukturen in gesprochener Sprache. In: Liedtke/ Hundsnurscher (Hg.), S. 197-234. Barth-Weingarten, Dagmar (2016): Intonation units revisited. Cesuras in talk-in-interaction. (= Studies in language and social interaction 29). Amsterdam/ Philadelphia: Benjamins. Barth-Weingarten, Dagmar/ Couper-Kuhlen, Elizabeth (2002): On the development of final though: A case of grammaticalization? In: Wischer, Ilse/ Diewald, Gabriele (Hg.): New reflections on grammaticalization. (= Typological Studies in Language 49). Amsterdam/ Philadelphia: Benjamins, S. 345-361. Bartz, Thomas/ Beißwenger, Michael/ Storrer, Angelika (2013): Optimierung des Stuttgart-Tübingen-Tagset für die linguistische Annotation von Korpora zur internetbasierten Kommunikation: Phänomene, Herausforderungen, Erweiterungsvorschläge. In: Journal for Language Technology and Computational Linguistics (JLCL) 28, 1, S. 157-198. (Online: http: / / jlcl.org/ content/ 5-allissues/ 8-Heft1-2013/ 7Bartz. pdf, Stand: 5 .12. 2018). Bayer, Josef/ Obenauer, Hans-Georg (2011): Discourse particles, clause structure, and question types. In: The Linguistic Review 28, 4 (Sonderausgabe zu Partikeln), S. 449-491. Beck, Kathrin/ Hinrichs, Erhardt/ Telljohann, Heike/ Versley, Yannick (2012): Wortartentagging der Tübinger Ressourcen nach STTS. Erfahrungen mit verschiedenen <?page no="369"?> 369 Literatur Textgenres. STTS-Workshop Stuttgart, 24. 9. 2012. Stuttgart: Universität Tübingen. (Online: www.ims.uni-stuttgart.de/ events/ STTS-Workshop/ pdfs/ Telljohann_ STTS_ws_2012_0920.pdf, Stand: 10. 2. 2016). Beißwenger, Michael (2010): Chattern unter die Finger geschaut: Formulieren und Revidieren bei der schriftlichen Verbalisierung in synchroner internetbasierter Kommunikation. In: Ágel, Vilmos/ Hennig, Mathilde (Hg.): Nähe und Distanz im Kontext variationslinguistischer Forschung. (= Linguistik - Impulse & Tendenzen 35). Berlin/ New York: De Gruyter, S. 247-294. Beißwenger, Michael/ Bartz, Thomas/ Storrer, Angelika/ Westpfahl, Swantje (2015): Tagset und Richtlinie für das Part-of-Speech-Tagging von Sprachdaten aus Genres internetbasierter Kommunikation. Shared Task des Empirikom-Netzwerks zur automatischen linguistischen Annotation deutschsprachiger internetbasierter Kommunikation (EmpiriST 2015), S. 1-21. (Online: https: / / docs. google.com/ viewer? a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFpbnxlbXBpc mlzdDIwMTV8Z3g6OWQ0YWNmZWE5OTUzMjE, zul. aktual. am 13. 9. 2015, Stand: 4. 2. 2016). Benzitoun, Christophe/ Sabio, Frédéric/ Pietrandrea, Paola/ Kahane, Sylvain (2012): Protocole de codage macrosyntaxique. Rhapsodie - corpus prosodique de référance en francais parlé. Berlin-Brandenburgische Akademie der Wissenschaften (Hg.) (2013): Interjektion. DWDS. Das Digitale Wörterbuch der deutschen Sprache. (Online: www.dwds. de/ ? qu=interjektion, Stand: 21. 1. 2014). Beugher, Stijn De/ Brône, Geert/ Goedemé, Toon (2018): A semi-automatic annotation tool for unobtrusive gesture analysis. In: Language Resources and Evaluation 52, 2, S. 433-460. Biber, Doug (1993): Tag descriptions. (Online: www.anc.org/ SecondRelease/ Bibertags.txt, zuletzt aktualisiert am 15. 6. 1993, Stand: 16. 2. 2016). Bildhauer, Felix/ Fuß, Eric/ Hansen-Morath, Sandra/ Münzberg, Franziska (2019): Starke und schwache Adjektivflexion in neuem korpuslinguistischen Licht. In: Eichinger, Ludwig M./ Plewnia, Albrecht (Hg.): Neues vom heutigen Deutsch: Empirisch - methodisch - theoretisch. (= Jahrbuch des Instituts für Deutsche Sprache 2018). Berlin/ Boston: De Gruyter, S. 293-312. Blühdorn, Hardarik (2016): Diskursmarker: Pragmatische Funktion und syntaktischer Status. 19. Arbeitstagung zur Gesprächsforschung. Mannheim: Institut für Deutsche Sprache (IDS). (Online: http: / / gespraechsforschung.de/ tagungsarchiv/ heft2016.pdf, Stand: 10. 1. 2020). Björkelund, Anders/ Bohnet, Bernd/ Hafdell, Love/ Nugues, Pierre (2010): A high-performance syntactic and semantic dependency parser. In: COLING 2010: Demonstrations. Proceedings of the 23rd international conference on Computational Linguistics. Peking, 23.-27. 8. 2010, S. 33-36. Brants, Thorsten (2000): TnT - A statistical part-of-speech tagger. In: Proceedings of the 6th applied natural language processing conference (ANLP 2000). Seattle, 29. 4.-3. 5. 2000. Stroudsburg: Association for Computational Linguistics, S. 224-231. Breindl, Eva (2007): Intensitätspartikel. In: Hoffmann (Hg.), S. 397-422. <?page no="370"?> Literatur 370 Breindl, Eva/ Donalies, Elke (2010): Konnektivpartikel. In: Grammis 2.0. Das grammatische Informationssystem des Instituts für Deutsche Sprache (IDS). (Online: http: / / hypermedia.ids-mannheim.de/ call/ public/ termwb.anzeige? v_app=g&v_fenster =ja&v_id=101, zuletzt aktualisiert am 16. 7. 2010, Stand: 8. 10. 2013). Breindl, Eva/ Donalies, Elke (2011a): Abtönungspartikel. In: Grammis 2.0. Das grammatische Informationssystem des Instituts für Deutsche Sprache (IDS). (Online: http: / / hypermedia.ids-mannheim.de/ call/ public/ sysgram.ansicht? v_typ=d&v_ id=392, zuletzt aktualisiert am 5. 5. 2011, Stand: 11. 9. 2013). Breindl, Eva/ Donalies, Elke (2011b): Fokuspartikel. In: Grammis 2.0. Das grammatische Informationssystem des Instituts für Deutsche Sprache (IDS). (Online: http: / / hypermedia.ids-mannheim.de/ call/ public/ sysgram.ansicht? v_typ=d&v_id=408, zuletzt aktualisiert am 5. 5. 2011, Stand: 20. 8. 2013). Breindl, Eva/ Donalies, Elke (2011c): Funktionale Mischklassen. In: Grammis 2.0. Das grammatische Informationssystem des Instituts für Deutsche Sprache (IDS). (Online: http: / / hypermedia.ids-mannheim.de/ call/ public/ sysgram.ansicht? v_typ=d& v_id=282, zuletzt aktualisiert am 5. 5. 2011, Stand: 4. 11. 2013). Breindl, Eva/ Donalies, Elke (2012a): Intensitätspartikel. In: Grammis 2.0. Das grammatische Informationssystem des Instituts für Deutsche Sprache (IDS). (Online: http: / / hypermedia.ids-mannheim.de/ call/ public/ sysgram.ansicht? v_typ=d&v_id=391, zuletzt aktualisiert am 12. 1. 2012, Stand: 20. 8. 2013). Breindl, Eva/ Donalies, Elke (2012b): Negationspartikel. In: Grammis 2.0. Das grammatische Informationssystem des Instituts für Deutsche Sprache (IDS). (Online: http: / / hypermedia.ids-mannheim.de/ call/ public/ sysgram.ansicht? v_typ=d&v_id=563, zuletzt aktualisiert am 16. 2. 2012, Stand: 27. 10. 2013). Brill, Eric (1992): A simple rule-based part of speech tagger. In: Proceedings of the third conference on applied natural language processing (ANLC 1992). Trient, 31. 3.-3. 4. 1992. Stroudsburg: Association for Computational Linguistics, S. 152-155. Brinker, Klaus/ Sager, Sven F. (2010): Linguistische Gesprächsanalyse. Eine Einführung. 5., neu bearb. Aufl. (= Grundlagen der Germanistik 30). Berlin: Schmidt. Brinker, Klaus/ Antos, Gerd/ Heinemann, Wolfgang/ Sager, Sven F. (Hg.) (2000): Text- und Gesprächslinguistik: Ein internationales Handbuch zeitgenössischer Forschung. (= Handbücher zur Sprach- und Kommunikationswissenschaft 16). Berlin/ New York: De Gruyter. Brinton, Laurel J. (1996): Pragmatic markers in English: Grammaticalization and discourse functions. (= Topics in English Linguistics 19). Berlin/ New York: De Gruyter. Burkhardt, Armin (1982a): Abtönungspartikeln als Mittel des Vollzugs präsuppositionaler Akte. Zu Dittmanns und Rombout’s Untersuchungen über die Abtönungsfunktion von auch, denn und doch. In: Zeitschrift für Germanistische Linguistik 10, 1, S. 85-112. Burkhardt, Armin (1982b): Gesprächswörter. Ihre lexikologische Bestimmung und lexikographische Beschreibung. In: Mentrup, Wolfgang (Hg.): Konzepte zur Lexikographie. Studien zur Bedeutungserklärung in einsprachigen Wörterbüchern. (= Reihe Germanistische Linguistik 38). Tübingen: Niemeyer, S. 138-171. <?page no="371"?> 371 Literatur Burkhardt, Armin (1985): Der Gebrauch der Partikeln im gesprochenen Deutsch und im gesprochenen Italienisch. In: Holtus, Günter/ Radtke, Edgar (Hg.): Gesprochenes Italienisch in Geschichte und Gegenwart. (= Tübinger Beiträge zur Linguistik 252). Tübingen: Narr, S. 236-273. Bußmann, Hadumod (Hg.) (2008): Lexikon der Sprachwissenschaft. 4., durchges. u. bibl. erg. Aufl. Stuttgart: Kröner. Carletta, Jean (1996): Assessing agreement on classification tasks: The kappa statistics. In: Computational Linguistics 22, 2, S. 249-254. Centro de Linguistica da Universidade de Lisboa (2012): Reference corpus of contemporary Portuguese (CRPC), Version 2.3. (Online: www.clul.ul.pt/ resources/ 183-reference-corpus-of-contemporary-portuguese-crpc, zuletzt aktualisiert am 28. 4. 2015, Stand: 7. 1. 2016). Chafe, Wallace L. (1994): Discourse, consciousness and time: The flow and displacement of conscious experience in speaking and writing. Chicago: University of Chicago Press. Cohen, Jacob (1960): A coefficient of agreement for nominal scales. In: Educational and Psychological Measurement 20, 1, S. 37-46. Cohen, Jacob (1968): Weighted kappa: Nominal scale agreement provision for scaled disagreement or partial credit. In: Psychological Bulletin 70, 4, S. 213-220. Columbus, Georgie (2010a): A comparative analysis of invariant tags in three varieties of English. In: EWW 31, 3, S. 288-310. Columbus, Georgie (2010b): ‚Ah lovely stuff, eh? ‘: Invariant tag meanings and usage across three varieties of English. In: Gries, Stefan/ Wulff, Stefanie/ Davies, Mark (Hg.): Corpus-linguistic applications: Current studies, new directions. (= Language and Computers: Studies in Practical Linguistics (L&Comp) 71). Amsterdam: Rodopi, S. 85-102. Coniglio, Marco (2012): Modal particles, speaker-hearer links, and illocutionary force. In: Abraham, Werner/ Leiss, Elisabeth (Hg.): Modality and theory of mind elements across languages. (= Trends in Linguistics: Studies and Monographs 243). Berlin/ Boston: De Gruyter, S. 253-296. C-ORAL-ROM (2005): Integrated reference corpora for spoken romance languages. Multimedia edition; tools of analysis; standard linguistic measures for validation in HLT. (Online: http: / / lablita.dit.unifi.it/ coralrom/ index.html, zuletzt aktualisiert am 11. 7. 2005, Stand: 7. 1. 2016). Couper-Kuhlen, Elizabeth/ Ono, Tsuyoshi (2007): Increments in cross-linguistic perspective. Introductory remarks. In: Pragmatics 17, 4 (Sonderheft: Turn continuation in cross-linguistic perspective), S. 505-512. Couper-Kuhlen, Elizabeth/ Selting, Margret (2018): Interactional linguistics: Studying language in social interaction. Cambridge: Cambridge University Press. Cresti, Emanuela/ Moneglia, Massimo (2003): Il progetto C-ORAL-ROM. Integrated reference corpora for spoken romance languages. Multimedia edition; tools of analysis; standard linguistic measurements for validation in HLT. In: Maraschio, Nicoletta/ Poggi-Salani, Teresa (Hg.): Italia linguistica anno Mille. Italia linguistica <?page no="372"?> Literatur 372 anno Duemila. Atti del XXXIV congresso internazionale di studi, Florenz 19.- 21. 10. 2000. (= Societá di linguistica italiana 45). Rom: Bulzoni. Croft, William (2001): Radical construction grammar. Syntactic theory in typological perspective. Oxford: Oxford University Press. Cruttenden, Alan (1997): Intonation. 2. Aufl. Cambridge: Cambridge University Press. Cuenca, Maria Josep (1997): Form-Use Mappings for Tag Questions. In: Liebert, Wolf- Andreas (Hg.): Discourse and perspective in cognitive linguistics. selected rev. papers read at the 4th bi-annual International Cognitive Linguistics Conference held in Albuquerque at the University of New Mexico, July 16-21, 1995. International Cognitive Linguistics Conference 4. Albuquerque, NM, 1995. (= Amsterdam studies in the theory and history of linguistic science: Series 4, Current issues in linguistic theory 151). Amsterdam/ Philadelphia: Benjamins, S. 3-20. Dabóczi, Viktória (2010): Die Entstehung der Diskursmarker - ein Fall der Grammatikalisierung, Lexikalisierung oder Pragmatisierung? In: Studia Linguistica - Acta Universitatis Wratislaviensis 29, S. 7-22. Davies, Mark (2009): The 385+ million word corpus of contemporary American English (1990-2008+). Design, architecture, and linguistic insights. In: International Journal of Corpus Linguistics 14, 2, S. 159-190. Deppermann, Arnulf (2002): Konstitution von Wortbedeutung im Gespräch. Eine Studie am Beispiel des jugendsprachlichen Bewertungsadjektivs assi. In: Deppermann, Arnulf/ Spranz-Fogasy, Thomas (Hg.): Be-deuten. Wie Bedeutung im Gespräch entsteht. (= Stauffenburg Linguistik 27). Tübingen: Stauffenburg, S. 158-164. Deppermann, Arnulf (2006): Construction grammar - eine Grammatik für die Interaktion? In: Deppermann/ Fiehler/ Spranz-Fogasy (Hg.), S. 43-65. Deppermann, Arnulf (2011): Constructions vs. lexical items as sources of complex meanings. A comparative study of constructions with German verstehen. In: Auer, Peter/ Pfänder, Stefan (Hg.): Constructions: Emerging and emergent. (= Linguae & Litterae 6). Berlin/ New York: De Gruyter , S. 88-126. Deppermann, Arnulf (2018): Sprache in der multimodalen Interaktion. In: Deppermann/ Reineke (Hg.), S. 51-86. Deppermann, Arnulf/ Hartung, Martin (2012): Was gehört in ein nationales Gesprächskorpus? Kriterien, Probleme und Prioritäten der Stratifikation des „Forschungs- und Lehrkorpus Gesprochenes Deutsch“ (FOLK) am Institut für Deutsche Sprache (Mannheim). In: Felder, Ekkehard/ Müller, Marcus/ Vogel, Friedemann (Hg.): Korpuspragmatik: Thematische Korpora als Basis diskurslinguistischer Analysen. (= Linguistik - Impulse & Tendenzen 44). Berlin/ Boston: De Gruyter, S. 415-450. Deppermann, Arnulf/ Proske, Nadine (2015): Grundeinheiten der Sprache und des Sprechens. In: Dürscheid/ Schneider (Hg.): Handbuch Satz, Äußerung, Schema. (= Handbücher Sprachwissen 4). Berlin/ Boston: De Gruyter, S. 17-47. Deppermann, Arnulf/ Reineke, Silke (Hg.) (2018): Sprache im kommunikativen, interaktiven und kulturellen Kontext. (= Germanistische Sprachwissenschaft um 2020 3). Berlin/ Boston: De Gruyter. <?page no="373"?> 373 Literatur Deppermann, Arnulf/ Feilke, Helmuth/ Linke, Angelika (Hg.) (2016): Sprachliche und kommunikative Praktiken. Berlin/ Boston: De Gruyter. Deppermann, Arnulf/ Fiehler, Reinhard/ Spranz-Fogasy, Thomas (2006): Zur Einführung: Grammatik und Interaktion. In: Deppermann/ Fiehler/ Spranz-Fogasy (Hg.), S. 5-10. Deppermann, Arnulf/ Fiehler, Reinhard/ Spranz-Fogasy, Thomas (Hg.) (2006): Grammatik und Interaktion. Untersuchungen zum Zusammenhang von grammatischen Strukturen und Gesprächsprozessen. Radolfzell: Verlag für Gesprächsforschung. Diewald, Gabriele (2006): Discourse particles and modal particles as grammatical elements. In: Fischer, Kerstin (Hg.): Approaches to discourse particles. (= Studies in Pragmatics 1). Amsterdam/ Heidelberg: Elsevier, S. 403-425. Drake, Derek/ Drake, Veronika (2015): ‚Tags are easy, ne? ‘: How to teach the use of tags in the German language classroom. In: UP 48, 1, S. 146-161. Duden (2005): Der Duden in zwölf Bänden. Bd. 4: Die Grammatik: Unentbehrlich für richtiges Deutsch. 7., völlig neu erarb. und erw. Aufl. Mannheim u. a.: Dudenverlag. Duden (2009): Der Duden in zwölf Bänden. Bd. 4: Die Grammatik: Unentbehrlich für richtiges Deutsch. 8., überarb. Aufl. Mannheim u. a.: Dudenverlag. Dürscheid, Christa (2003): Medienkommunikation im Kontinuum von Mündlichkeit und Schriftlichkeit. Theoretische und empirische Probleme. In: Zeitschrift für angewandte Linguistik 38, S. 37-56. Dürscheid, Christa (2016): Nähe, Distanz und neue Medien. In: Feilke, Helmuth/ Hennig, Mathilde (Hg.): Zur Karriere von ‚Nähe und Distanz‘. Rezeption und Diskussion des Koch-Oesterreicher-Modells. (= Reihe Germanistische Linguistik 306). Berlin/ Boston: De Gruyter, S. 357-386. Dürscheid, Christa/ Schneider, Jan Georg (Hg.) (2015): Handbuch Satz, Äußerung, Schema. (= Handbücher Sprachwissen 4). Berlin/ Boston: De Gruyter. Dutch Language Union (2004): Het Corpus Gespoken Nederlands. The spoken dutch corpus project. (Online: http: / / lands.let.ru.nl/ cgn/ ehome.htm, zuletzt aktualisiert am 1. 4. 2004, Stand: 9. 2. 2016). Eggs, Frederike (2006): Die Grammatik von als und wie. (= Tübinger Beiträge zur Linguistik 496). Tübingen: Narr. Ehlich, Konrad (2007): Interjektion und Responsiv. In: Hoffmann (Hg.), S. 423-444. Eichinger, Ludwig M. (2007): Adjektiv (und Adkopula). In: Hoffmann (Hg.), S. 143-187. Engel, Ulrich (2004): Deutsche Grammatik. Neubearbeitung. München: Iudicium. Erjavec, Tomaz/ Fišer, Darja/ Krek, Simon/ Ledinek, Nina (2010): The JOS linguistically tagged corpus of Slovene. In: Calzolari, Nicoletta/ Choukri, Khalid/ Maegaard, Bente/ Mariani Joseph/ Odijk, Jan/ Piperidis, Stelios/ Rosner, Mike/ Tapias, Daniel (Hg.): Proceedings of the seventh international conference on international language resources and evaluation (LREC 2010). Malta: European Language Resources Asso- <?page no="374"?> Literatur 374 ciation, S. 1806-1809. (Online: www.lrec-conf.org/ proceedings/ lrec2010/ pdf/ 139_ Paper.pdf, Stand: 2. 3. 2016). Erjavec, Tomaz/ Krek, Simon (2008): The JOS morphosyntactically tagged corpus of Slovene. In: Proceedings of the sixth international conference on language resources and evaluation (LREC 2008). Marrakesch: European Language Resources Association, S. 322-326. (Online: www.lrec-conf.org/ proceedings/ lrec2008/ pdf/ 89_paper.pdf, Stand: 2. 3. 2016). Erman, Britt/ Kotsinas, Ulla-Britt (1993): Pragmaticalization: The case of ba’ and you know. In: Studier i modern sprakvetenskap 10, S. 76-93. Faculty of Arts, Charles University in Prague (2015): Institute of the Czech National Corpus. Available Corpora. Praha.(Online: http: / / ucnk.ff.cuni.cz/ english/ struk tura.php, Stand: 7. 1.2016). Fandrych, Christian/ Frick, Elena/ Hedeland, Hanna/ Iliash, Anna/ Jettka, Daniel/ Meißner, Cordula/ Schmidt, Thomas/ Wallner, Franziska/ Weigert, Kathrin/ Westpfahl, Swantje (2016): User, who art thou? User profiling for oral corpus platforms. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Goggi, Sara/ Grobelnik, Marko/ Maegaard, Bente et al. (Hg.): Proceedings of the tenth international conference on language resources and evaluation (LREC 2016). Portorož, Slowenien: European Language Resources Association (ELRA), S. 280-287. (Online: http: / / nbn-resolving.de/ urn/ resolver.pl? urn: nbn: de: bsz: mh39-50774, Stand: 16. 4. 2017). Fiehler, Reinhard (2007): Thesen zur Struktur einer Grammatik der gesprochenen Sprache. In: Ágel/ Hennig (Hg.), S. 297-314. Fiehler, Reinhard (2015): Syntaktische Phänomene in der gesprochenen Sprache. In: Dürscheid/ Schneider (Hg.), S. 370-395. Fiehler, Reinhard/ Barden, Birgit/ Elstermann, Mechthild/ Kraft, Barbara (2004): Eigenschaften gesprochener Sprache. (= Studien zur deutschen Sprache 30). Tübingen: Narr. Fitschen, Arne (2004): Ein computerlinguistisches Lexikon als komplexes System. Dissertation. Universität Stuttgart. Stuttgart: Institut für maschinelle Sprachverarbeitung. (Online: www.ims.uni-stuttgart.de/ forschung/ ressourcen/ lexika/ IMSLex/ fitschendiss.pdf, Stand: 11. 2. 2016). Ford, Cecilia E./ Fox, Barbara A./ Thompson, Sandra A. (2002): Constituency and the grammar of turn increments. In: Ford, Cecilia E./ Fox, Barbara A./ Thompson, Sandra A. (Hg.): The language of turn and sequence. Oxford/ New York: Oxford University Press, S. 14-38. Ford, Cecilia E./ Thompson, Sandra A. (1996): Interactional units in conversation: syntactic, intonational, and pragmatic resources for the management of turns. In: Ochs, Elinor/ Schegloff, Emanuel A./ Thompson, Sandra (Hg.): Interaction and grammar. Cambridge: Cambridge University Press, S. 134-184. Fraser, Bruce (1990): An approach to discourse markers. In: Journal of Pragmatics 14, 3, S. 383-395. Fraser, Bruce (1996): Pragmatic markers. In: Pragmatics 6, 2, S. 167-190. <?page no="375"?> 375 Literatur Frey, Natascha (2010): Frage-tags im Schweizerdeutschen: Alles klar, oder? In: Christen, Helen/ Germann, Sibylle/ Haas, Walter/ Montefiori, Nadia/ Ruef, Hans (Hg.): Alemannische Dialektologie: Wege in die Zukunft. Beiträge zur 16. Arbeitstagung für alemannische Dialektologie in Freiburg/ Fribourg vom 7.-10. 9. 2008 (= Zeitschrift für Dialektologie und Linguistik: Beihefte (ZDLB) 141). Stuttgart: Steiner, S. 85-96. Fries, Norbert (2002): Die Wortart ‚Interjektionen‘. In: Cruse, David A. (Hg.): Lexikologie/ Lexicology. (= Handbücher zur Sprach- und Kommunikationswissenschaft (HSK) 21.1). Berlin/ New York: De Gruyter, S. 654-657. Gardner, Rod (2001): When listeners talk. Response tokens and listener stance. (= Pragmatics & Beyond: New Series 92). Amsterdam/ Philadelphia: Benjamins. Garside, Roger/ Smith, Nicholas (1997): A hybrid grammatical tagger: CLAWS4. In: Garside, Roger/ Leech, Geoffrey/ McEnery, Anthony Mark (Hg.): Corpus annotation: Linguistic information from computer text corpora. London: Longman, S. 102-121. Glück, Helmut (Hg.) (2010): Metzler-Lexikon Sprache. 4., akt. u. überarb. Aufl. Stuttgart/ Weimar: Metzler. Gohl, Christine/ Günthner, Susanne (1999): Grammatikalisierung von weil als Diskursmarker in der gesprochenen Sprache. In: Zeitschrift für Sprachwissenschaft 18, 1, S. 39-75. Goldberg, Adele (1996): Construction grammar. In: Brown, Keith/ Miller, Jim (Hg.): Concise encyclopedia of syntactic theories. Oxford: Pergamon/ Elsevier Science, S. 68-70. Gómez-González, Maria de los Angeles (2012): The question of tag questions in English and Spanish. In: Moskowich, Isabel/ Crespo, Begona (Hg.): Encoding the past, decoding the future: Corpora in the 21st century. Newcastle upon Tyne/ England: Cambridge Scholars, S. 59-95. Göteborg University (Hg.) (2016): Göteborg Spoken Language Corpus (GSLC). Corpora at the Department of Linguistics. (Online: www.ling.gu.se/ projekt/ tal/ index. cgi? PAGE=3, Stand: 12. 1. 2016). Grice, Herbert Paul (1975): Logic and conversation. In: Cole, Peter/ Morgan, Jerry L. (Hg.): Speech Acts. (= Syntax and Semantics 3). New York: Academic Press, S. 41-58. Grice, Martine/ Baumann, Stefan (2002): Deutsche Intonation und GToBI. In: Linguistische Berichte 191, S. 267-298. Günthner, Susanne (1999): Entwickelt sich der Konzessivkonnektor obwohl zum Diskursmarker? Grammatikalisierungstendenzen im gesprochenen Deutsch. In: Linguistische Berichte 180, S. 409-446. Günthner, Susanne (2002): Konnektoren im gesprochenen Deutsch - Normverstoß oder funktionale Differenzierung? In: Deutsch als Fremdsprache 39, 2, S. 67-74. Günthner, Susanne (2005): Grammatikalisierungs-/ Pragmatikalisierungserscheinungen im alltäglichen Sprachgebrauch. Vom Diskurs zum Standard? In: Eichinger, Ludwig M./ Kallmeyer, Werner (Hg.): Standardvariation. Wie viel Variation ver- <?page no="376"?> Literatur 376 trägt die deutsche Sprache? (= Jahrbuch des Instituts für Deutsche Sprache 2004). Berlin/ New York: De Gruyter, S. 41-62. Günthner, Susanne (2015): Diskursmarker in der Interaktion - zum Einbezug alltagssprachlicher Phänomene in den DaF-Unterricht. In: Imo, Wolfgang/ Moraldo, Sandro (Hg.): Interaktionale Sprache und ihre Didaktisierung im DaF-Unterricht. (= Deutschdidaktik 4). Tübingen: Stauffenburg, S. 135-164. Günthner, Susanne/ König, Katharina (2015): Temporalität und Dialogizität als interaktive Faktoren der Nachfeldpositionierung - irgendwie im gesprochenen Deutsch. In: Vinckel-Roisin (Hg.), S. 255-278. Günthner, Susanne/ Mutz, Katrin (2004): Grammaticalization vs. pragmaticalization? The development of pragmatic markers in German and Italian. In: Bisang, Walter/ Himmelmann, Nikolaus P./ Wiemer, Björn (Hg.): What makes grammaticalization? A look from its fringes and its components. (= Trends in Linguistics: Studies and Monographs 158). Berlin: De Gruyter, S. 77-107. Hagemann, Jörg (2009): Tag questions als Evidenzmarker. Formulierungsdynamik, sequentielle Struktur und Funktionen redezuginterner tags. In: Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion 10, S. 145-176. Hagemann, Jörg/ Rolf, Eckart (2000): Die Bedeutung der Sprechakttheorie für die Gesprächsforschung. In: Brinker/ Antos/ Heinemann/ Sager (Hg.), S. 885-896. Halácsy, Péter/ Kornai, András/ Oravecz, Csaba (2007): HunPos - an open source trigram tagger. In: Proceedings of the ACL 2007 demo and poster sessions. Prag: Association for Computational Liguistics, S. 209-212. Halford, Brigitte K. (1996): Talk units. The structure of spoken Canadian English. (= ScriptOralia 87). Tübingen: Narr. Halliday, Michael Alexander Kirkwood (1967): Intonation and grammar in British English. (= Janua Linguarum. Series Practica 48). Den Haag/ Paris: De Gruyter. Hamaker, Jonathan/ Zeng, Yu/ Picone, Joseph (1998): Rules and guidelines for transcription and segmentation of the SWITCHBOARD large vocabulary conversational speech recognition corpus. Version 7.1. Institute for Signal and Information Processing. Starkville, MS: Mississippi State University, S. 1-11. Hedeland, Hanna/ Schmidt, Thomas (2012): Technological and methodological challenges in creating, annotating and sharing a learner corpus of spoken German. In: Schmidt, Thomas/ Wörner, Kai (Hg.): Multilingual corpora and multilingual corpus analysis. (= Hamburg Studies on Multilingualism 14). Amsterdam/ Philadelphia: Benjamins, S. 25-46. Heine, Bernd (2013): On discourse markers: Grammaticalization, pragmaticalization, or something else. In: Linguistics 51, 6, S. 1205-1247. Helbig, Gerhard/ Buscha, Joachim (2011): Deutsche Grammatik. Ein Handbuch für den Ausländerunterricht. Berlin/ München: Langenscheidt. Henne, Helmut/ Rehbock, Helmut (1995): Einführung in die Gesprächsanalyse. 3., durchges. u. erw. Aufl. Berlin/ New York: De Gruyter. Hennig, Mathilde (2006): Grammatik der gesprochenen Sprache in Theorie und Praxis. Kassel: Kassel University Press. <?page no="377"?> 377 Literatur Hentschel, Elke/ Weydt, Harald (2002): Die Wortart „Partikel“. In: Cruse, David Alan/ Hundsnurscher, Franz/ Job, Michael/ Lutzeier, Peter Rolf (Hg.): Lexikologie/ Lexicology. Ein internationales Handbuch zur Natur und Struktur von Wörtern und Wortschätzen/ An international handbook on the nature and structure of words and vocabularies. 1. Halbbd. (= Handbücher zur Sprach- und Kommunikationswissenschaft (HSK) 21.2). Berlin/ New York: De Gruyter, S. 646-653. Hirschmann, Hagen (2011): Eine für Korpora relevante Subklassifikation adverbieller Wortarten. In: Konopka, Marek/ Kubczak, Jacqueline/ Mair, Christian/ Šticha, František/ Waßner, Ulrich H. (Hg.): Grammatik und Korpora 2009. Dritte Internationale Konferenz. Mannheim 22.-24. 9. 2009. (= Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 1). Tübingen: Narr, S. 157-180. Hirschmann, Hagen (2015): Modifikatoren im Deutschen. Ihre Klassifizierung und varietätenspezifische Verwendung. (= Studien zur deutschen Grammatik 89). Tübingen: Stauffenburg. Hoffmann, Ludger (2007): Einleitung: Wortarten. In: Hoffmann (Hg.), S. 1-20. Hoffmann, Ludger (Hg.) (2007): Handbuch der deutschen Wortarten. Berlin/ New York: De Gruyter. Hoffmann, Ludger (2013): Deutsche Grammatik: Grundlagen für Lehrerausbildung, Schule, Deutsch als Zweitsprache und Deutsch als Fremdsprache. Berlin: Schmidt. Hoffmann, Ludger (2018): Grammatik und Gesprochene Sprache im Diskurs. In: Deppermann/ Reineke (Hg.), S. 5-28. Hopper, Paul J./ Traugott, Elizabeth Closs (1993): Grammaticalization. 1. Aufl. Cambridge: Cambridge University Press. Hopper, Paul J./ Traugott, Elizabeth Closs (2009): Grammaticalization. (= Cambridge Textbooks in Linguistics). 2. Aufl, 5. Druckausg. Cambridge/ New York: Cambridge University Press. HZSK (Hg.) (2010): HAMATAC: The Hamburg MapTask Corpus. Version 0.3. Veröff. am 16. 9. 2010. In: Hamburger Zentrum für Sprachkorpora. (Online: http: / / hdl. handle.net/ 11022/ 0000-0000-6330-A, zuletzt aktualisiert am 12. 9. 2011, Stand: 21. 2. 2016). Ide, Nancy/ Suderman, Keith (2004): The American National Corpus first release. In: Lino, Maria Teresa/ Xavier, Maria Francisca/ Ferreira, Fátima/ Costa, Rute/ Silva, Raquel (Hg.): Proceedings of the fourth international conference on language resources and evaluation (LREC 2004). Lissabon: European Language Resources Association (ELRA), S. 1681-1684. Imo, Wolfgang (2011): Jetzt gehn wir einen trinken, gell? . Vergewisserungssignale (‚tag questions‘) und ihre Relevanz für den DaF-Unterricht. In: Moraldo, Sandro M./ Soffritti, Marcello (Hg.): Deutsch aktuell: Einführung in die Tendenzen der deutschen Gegenwartssprache. 1. Aufl., Bd. 2. (= Lingue e Letterature Carocci 128). Rom: Carocci, S. 127-150. Imo, Wolfgang (2012): Wortart Diskursmarker? In: Rothstein (Hg.), S. 48-88. Imo, Wolfgang (2013): Sprache in Interaktion. Analysemethoden und Untersuchungsfelder. (= Linguistik - Impulse & Tendenzen 49). Berlin/ Boston: De Gruyter. <?page no="378"?> Literatur 378 Institut für Deutsche Sprache (2010a): Linkes Außenfeld. Grammis 2.0. Das grammatische Informationssystem des Instituts für Deutsche Sprache (IDS). (Online: http: / / hypermedia.ids-mannheim.de/ call/ public/ termwb.ansicht? v_app=g&v_id=203, zuletzt aktualisiert am 15. 12. 2010, Stand: 25. 8. 2015). Institut für Deutsche Sprache (2010b): Rechtes Außenfeld. Grammis 2.0. Das grammatische Informationssystem des Instituts für Deutsche Sprache (IDS). (Online: http: / / hypermedia.ids-mannheim.de/ call/ public/ termwb.ansicht? v_app=g&v_id=206, zuletzt aktualisiert am 20. 12. 2010, Stand: 25. 8. 2015). Institut für Deutsche Sprache (2013): Grammis 2.0. Das grammatische Informationssystem des Instituts für Deutsche Sprache (IDS). Unter Mitarbeit von Marek Konopka, Jacqueline Kubczak, Roman Schneider, Bruno Strecker, Eva Breindl-Hiller, Elke Donalies et al. (Online: http: / / hypermedia.ids-mannheim.de/ index.html, Stand: 17. 7. 2013). Institut für Deutsche Sprache (2015a): Korpusbeschreibung FOLK. (Online: http: / / dgd. ids-mannheim.de: 8080/ dgd/ pragdb.dgd_extern.corpora? v_session_id=3559D03A 8A0B530D6EBA71537007EE80&v_doctype=c&v_corpus=FOLK, Stand: 12. 1. 2016). Institut für Deutsche Sprache (2015b): FOLK. Forschungs- und Lehrkorpus Gesprochenes Deutsch. (Online: http: / / agd.ids-mannheim.de/ folk.shtml, zuletzt aktualisiert am 4. 12. 2015, Stand: 12. 1. 2016). Institut für Deutsche Sprache (2017): Terminologisches Wörterbuch. Grammis - das grammatische informationssystem des Instituts für Deutsche Sprache (IDS). (Online: http: / / hypermedia.ids-mannheim.de/ call/ public/ termwb.ansicht? v_app=%20g, Stand: 19. 5. 2017). Institut für Deutsche Sprache (2018): Das Deutsche Referenzkorpus DeReKo. (Online: www.ids-mannheim.de/ kl/ projekte/ korpora, Stand: 3. 2. 2018). Institute of the Czech National Corpus (2010): Czech National Corpus. Prag: Karls- Universität. (Online: www.korpus.cz, Stand: 11. 2. 2016). ISO 24624: 2016 = International Organization for Standardization (2016): Language resource management - Transcription of spoken language. Genf. (Online: www.iso. org/ obp/ ui/ #iso: std: iso: 24624: ed-1: v1: en, Stand: 10. 9. 2018). Janin, Adam/ Baron, Don/ Edwards, J./ Ellis, Daniel/ Gelbart, David/ Morgan, Nelson/ Peskin, Barbara/ Pfau, T./ Shriberg, Elizabeth/ Stolcke, Andreas/ Wooters, Charles (2003): Speech-P1.7: The ICSI Meeting Corpus. In: 2003 IEEE international conference on acoustics, speech, and signal processing. Proceedings Bd. 1. 6.-10. 4. 2003, Hong Kong Exhibition and Convention Centre. Hong Kong, S. 364-367. Jefferson, Gail (1978): What’s in a ‚nyem‘? In: Sociology: The journal of the British Sociological Association 12, 1, S. 135-139. Jürgens, Frank (1999): Auf dem Weg zu einer pragmatischen Syntax: Eine vergleichende Fallstudie zu Präferenzen in gesprochen und geschrieben realisierten Textsorten. (= Reihe Germanistische Linguistik 207). Tübingen: Niemeyer. Jürgens, Frank (2001): Ziele und Prinzipien einer pragmatischen Syntax. In: Liedtke/ Hundsnurscher (Hg.), S. 53-72. Kahane, Sylvain/ Gerdes, Kim/ Pietrandrea, Paola/ Benzitoun, Christophe (2013): Protocol for micro-syntactic coding. In: Projet Rhapsodie - corpus prosodique de ré- <?page no="379"?> 379 Literatur férance en francais parlé. (Online: www.projet-rhapsodie.fr/ plus/ presentation/ annotation-micro.html, Stand: 9. 2. 2016). Kehrein, Roland/ Rabanus, Stefan (2001): Ein Modell zur funktionalen Beschreibung von Diskurspartikeln. In: Schmidt, Jürgen Erich (Hg.): Neue Wege der Intonationsforschung. (= Germanistische Linguistik 157/ 158). Hildesheim: Olms, S. 33-50. Keseling, Gisbert (1989): Die Partikel ÄH. Ein paraverbales Element im Sprachsystem? In: Weydt, Harald (Hg.): Sprechen mit Partikeln. Berlin/ New York: De Gruyter, S. 575-591. Kindt, Walter (1994): Satzbegriff und gesprochene Sprache. In: Lingua 94, 1, S. 25-48. Kipp, Michael/ Neff, Michael/ Albrecht, Irene (2007): An annotation scheme for conversational gestures: How to economically capture timing and form. In: Computers and the Humanities 41, 3-4, S. 325-339. Koch, Peter/ Oesterreicher, Wulf (1985): Sprache der Nähe - Sprache der Distanz: Mündlichkeit und Schriftlichkeit im Spannungsfeld von Sprachtheorie und Sprachgeschichte. In: Jacob, Daniel/ Kablitz, Andreas/ Koch, Peter/ König, Bernhard/ Kruse, Margot/ Küpper, Joachim/ Schmitt, Christian (Hg.): Romanistisches Jahrbuch, Bd. 36. Berlin/ New York: De Gruyter, S. 15-43. Koch, Peter/ Oesterreicher, Wulf (2008): Mündlichkeit und Schriftlichkeit von Texten. In: Janich, Nina (Hg.): Textlinguistik. 15 Einführungen. Tübingen: Narr, S. 199-215. König, Katharina/ Stoltenburg, Benjamin (2013): „oder so“, „und so“, „und so was“, „und so weiter“ etc. - Eine interaktionale Perspektive auf Etcetera-Formeln. In: gidi-Arbeitspapiere 48, S. 1-35. Korth, Manuela (2018): Das Syntax/ Prosodie-Interface. Die Entwicklung der Forschung an der Schnittstelle zwischen Syntax und Prosodie. (= Stauffenburg Einführungen 33). Tübingen: Stauffenburg. Krippendorff, Klaus (1980): Content analysis. An introduction to its methodology. (= Commtext Series 5). Newbury Park, CA: Sage. Krippendorff, Klaus (2004): Content analysis. An introduction to its methodology. 2. Aufl. Thousand Oaks: Sage. Krippendorff, Klaus (2013): Content analysis. An introduction to its methodology. 3. Aufl. Los Angeles: Sage. Laboratoire ICAR (2014): CLAPI. corpus de langues parlées en interaction. Unter Mitarbeit von: Bruxelles, Sylvie/ Etienne, Carole/ Jouin-Chardon, Emilie/ Lascar, Justine/ Teston-Bonnard, Sandra/ Traverso, Véronique et al. Lyon. (Online: http: / / clapi. ish-lyon.cnrs.fr/ V3_Accueil.php? interface_langue=EN, Stand: 7. 1. 2016). Lacheret-Dujour, Anne/ Sourie, Alexandre/ Tchobanov, Atanas (2015): TREEBANK RHAPSODIE. In: Projet Rhapsodie - corpus de français parlé annoté pour la prosodie et la syntaxe. (Online: www.projet-rhapsodie.fr, zuletzt aktualisiert am 7. 1. 2015, Stand: 7. 1. 2016). Lafferty, John D./ McCallum, Andrew/ Pereira, Fernando C. N. (2001): Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In: Proceedings of the 18th international conference on machine learning (ICML <?page no="380"?> Literatur 380 2001). 28. 6.-1. 7. 2001: Williamstown, MA. Burlington, MA: Morgan Kaufmann, S. 282-289. Landesbildungsserver - Landesinstitut für Schulentwicklung (LS) (2018): Die Interjektion. Stuttgart: Institut für Bildungsanalysen (IBBW). (Online: www.schule-bw.de/ faecher-und-schularten/ sprachen-und-literatur/ deutsch/ sprache/ grammatik/ wortarten/ interjektion.htm, Stand: 15. 12. 2018). Leech, Geoffrey/ Smith, Nicholas (2000): POS-tagging error rates. BNC2 POS-tagging manual. Lancaster: UCREL. (Online: http: / / ucrel.lancs.ac.uk/ bnc2/ bnc2error.htm, zuletzt aktualisiert am 17. 3. 2000, Stand: 11. 2. 2016). Lehmann, Christian (2002): Thoughts on grammaticalization. 2., überarb. Aufl. (= Arbeitspapiere des Seminars für Sprachwissenschaft der Universität Erfurt 9). Erfurt: Seminar für Sprachwissenschaften. (Online: www.christianlehmann.eu/ publ/ ASSidUE09.pdf, Stand: 22. 3. 2016). Lehmann, Christian (2009): Grammatikalisierung. (Online: www.christianlehmann. eu/ ling/ ling_theo/ grammatikalisierung.php, zuletzt aktualisiert am 24. 9. 2009, Stand: 29. 3. 2016). Leibniz, Gottfried Wilhelm (1967): Ermahnung an die Deutschen. Von deutscher Sprachpflege. Sonderausgabe. Unveränd. reprograf. Nachdr. d. Ausg. Leipzig 1916. (= Libelli 216). Darmstadt: Wissenschaftliche Buchgesellschaft. Lenk, Uta (1998): Marking discourse coherence. Functions of discourse markers in spoken English. (= Language in Performance 15). Tübingen: Narr. Levinson, Stephen C. (1983): Pragmatics. Cambridge: Cambridge University Press. Lewandowski, Theodor (1985): Linguistisches Wörterbuch. 4., neu bearb. Aufl. Heidelberg: Quelle & Meyer. Liedtke, Frank/ Hundsnurscher, Franz (Hg.) (2001): Pragmatische Syntax. (= Beiträge zur Dialogforschung 23). Tübingen: Niemeyer. Love, Robbie/ Dembry, Claire/ Hardie, Andrew/ Brezina, Vaclav/ McEnery, Tony (2017): The Spoken BNC2014: Designing and building a spoken corpus of everyday conversations. In: International Journal of Corpus Linguistics 22, 3 (Sonderheft: Compiling and analysing the spoken British National Corpus 2014), S. 319-344. Luckmann, Thomas (1986): Grundformen der gesellschaftlichen Vermittlung des Wissens. Kommunikative Gattungen. In: Kölner Zeitschrift für Soziologie und Sozialpsychologie (Sonderheft) 27, S. 191-211. Manning, Christopher D. (2011): Part-of-Speech Tagging from 97 % to 100 %: Is it time for some linguistics? In: Gelbukh, Alexander F. (Hg.): Computational linguistics and intelligent text processing. 12th International Conference (CICLing 2011). 20.- 26. 2. 2011, Tokyo, Japan. Proceedings Teil I. Berlin/ Heidelberg: Springer, S. 171- 189. (Online: http: / / dx.doi.org/ 10.1007/ 978-3-642-19400-9_14). Matthiessen, Christian (2004): Descriptive motifs and generalizations. In: Caffarel, Alice/ Martin, J.R./ Matthiessen, Christian (Hg.): Language typology: A functional perspective. (= Current Issues in Linguistic Theory 253). Amsterdam/ Philadelphia: Benjamins , S. 537-673. <?page no="381"?> 381 Literatur Meftah, Sara/ Semmar, Nasredine/ Sadat, Fatiha (2018): A Neural Network model for Part-Of-Speech Tagging of social media texts. In: Calzolari, Nicoletta/ Choukri Khalid/ Cieri, Christopher/ Declerck, Thierry/ Goggi, Sara/ Hasida, Koiti/ Isahara, Hitoshi/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios/ Tokunaga, Takenobu (Hg.): Proceedings of the eleventh international conference on language resources and evaluation (LREC 2018). Miyazaki, Japan: European Language Resources Association, S. 2821-2828. Mieskes, Margot/ Strube, Michael (2006): Part-of-speech tagging of transcribed speech. In: Proceedings of the fifth international conference on language resources and evaluation (LREC 2006). Genua: European Language Resources Association, S. 935-938. (Online: www.lrec-conf.org/ proceedings/ lrec2006, Stand: 20. 1. 2015). Mills, Anne E. (1981): It’s easier in German, isn’t it? The acquisition of tag questions in a bilingual child. In: Journal of child language 8, 3, S. 641-647. Mithun, Marianne (2012): Tags: Cross-linguistic diversity and commonality. In: Journal of Pragmatics 44, 15, S. 2165-2182. Mondada, Lorenza (2014): Conventions for multimodal transcription. Version 3.0.1. Originalversion: 2001. (Online: https: / / franz.unibas.ch/ fileadmin/ franz/ user_upload/ redaktion/ Mondada_conv_multimodality.pdf, Stand: 14. 12. 2018). Möller, Max (2015): Das Partizip II von Experiencer-Objekt-Verben. Eine korpuslinguistische Untersuchung. (= Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 6). Tübingen: Narr. Moravcsik, Edith (1971): Some cross-linguistic generalizations about yes-no questions and their answers. Working papers on language universals, No. 7. Dissertation. Stanford: Stanford University. (Online: https: / / files.eric.ed.gov/ fulltext/ ED091942. pdf, Stand: 29. 12. 2019). Mroczynski, Robert (2013): Zur Herausbildung des Diskursmarker ja: Grammatikalisierung oder Pragmatikalisierung? In: Zeitschrift für germanistische Linguistik 41, 1, S. 127-152. Nelson, Gerald (2005): The ICE tagging manual. Revised version. (Online: http: / / icecorpora.net/ ICE/ manuals.htm, Stand: 21. 1. 2016). Nivre, Joakim/ Grönqvist, Leif (2001): Tagging a corpus of spoken Swedish. In: International Journal of Corpus Linguistics 6, 1, S. 47-78. Nübling, Damaris (2004): Die prototypische Interjektion: Ein Definitionsvorschlag. In: Semiotik 26, 1-2, S. 11-46. (Online: www.germanistik.uni-mainz.de/ files/ 2015/ 03/ Nuebling_2005b.pdf, Stand: 17. 6. 2015). Olsen, Susan (1989): Das Possessivum: Pronomen, Determinans oder Adjektiv? In: Linguistische Berichte 120, S. 133-153. Onysko, Alexander (2007): Anglicisms in German: borrowing, lexical productivity, and written codeswitching. (= Linguistik - Impulse & Tendenzen 23). Berlin/ New York: De Gruyter. Oostdijk, Nelleke (2000): The Spoken Dutch Corpus. Overview and first Evaluation. In: Proceedings of the second language resources and evaluation Conference (LREC 2000). Athen: European Language Resources Association, S. 887-893. <?page no="382"?> Literatur 382 Oostdijk, Nelleke (2013): Part of speech tagging. (Online: http: / / lands.let.ru.nl/ cgn/ doc_English/ topics/ version_1.0/ annot/ pos_tagging/ info.htm, zuletzt aktualisiert am 27. 3. 2013, Stand: 14. 4. 2015). ORFEO (2016): Outils et Recherches sur le Francais Ecrit et Oral: Corpus d’Etude pour le Français Contemporain (CEFC) (Online: www.projet-orfeo.fr, Stand: 29. 2. 2016). Pankow, Christiane/ Pettersson, Helena (2006): Auswertung der Leistung von zwei frei zugänglichen POS-Taggern für die Annotation von Korpora des gesprochenen Deutsch. In: Göteborger Arbeitspapiere zur Sprachwissenschaft 2, S. 1-46. (Online: https: / / gupea.ub.gu.se/ bitstream/ 2077/ 52521/ 1/ gupea_2077_52521_1.pdf, Stand: 18. 12. 18). Petrov, Slav/ Das, Dipanjan/ McDonald, Ryan (2012): A universal Part-of-Speech Tagset. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Doğan, Mehmet Uğur/ Maegaard, Bente/ Mariani, Joseph/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the eight international conference on language resources and evaluation (LREC 2012). Istanbul: European Language Resources Association, S. 2089-2096. (Online: www.lrec-conf.org/ proceedings/ lrec2012/ pdf/ 274_Paper.pdf, Stand: 2. 2. 2016). Pfeiffer, Martin (2015): Selbstreparaturen im Deutschen. Syntaktische und interaktionale Analysen. Berlin/ Boston: De Gruyter. Pittner, Karin/ Berman, Judith (2013): Deutsche Syntax. Ein Arbeitsbuch. 5., durchges. Aufl. Tübingen: Narr. Proske, Nadine (2015): Die Rolle komplexer Nachfeldbesetzungen bei der Einheitenbildung im gesprochenen Deutsch. In: Vinckel-Roisin (Hg.), S. 279-298. Quasthoff, Uta (1979): Verzögerungsphänomene, Verknüpfungs- und Gliederungssignale in Alltagsargumentationen und Alltagserzählungen. In: Weydt, Harald (Hg.): Die Partikeln der deutschen Sprache. Berlin/ New York: De Gruyter, S. 39-57. Quirk, Randolph/ Greenbaum, Sidney/ Leech, Geoffrey/ Svartvik, Jan (1985): A comprehensive grammar of the English language. London: Longman. Rabanus, Stefan (2001): Intonatorische Verfahren im Deutschen und Italienischen: Gesprächsanalyse und autosegmentale Phonologie. (= Linguistische Arbeiten 439). Tübingen: Niemeyer. Rath, Rainer (1976): Gesprochenes Deutsch und seine Gliederung. In: Krafft von Dellmensingen, Monika (Hg.): Beiträge zu den Fortbildungskursen des Goethe-Instituts für Ausländische Deutschlehrer an Schulen und Hochschulen. München: Goethe-Institut zur Pflege Deutscher Sprache und Kultur im Ausland, S. 63-76. Rath, Rainer (1985): Geschriebene und gesprochene Form der heutigen Standardsprache. In: Besch, Werner/ Reichmann, Oskar/ Sonderegger, Stefan/ Wiegand, Herbert Ernst (Hg.): Sprachgeschichte: ein Handbuch zur Geschichte der deutschen Sprache und ihrer Erforschung. (= Handbücher zur Sprach- und Kommunikationswissenschaft (HSK) 2.2). Berlin/ New York: De Gruyter, S. 1651-1663. Rath, Rainer (1990): „Satz“ und „Äußerungseinheit“. Syntaktische und interaktive Struktur in der Sprache? In: Leupold, Eynar/ Petter, Yvonne (Hg.): Interdisziplinäre Sprachforschung und Sprachlehre. Festschrift für Albert Raasch zum 60. Geburtstag. (= Tübinger Beiträge zur Linguistik 353). Tübingen: Narr, S. 197-216. <?page no="383"?> 383 Literatur Rath, Rainer (1997): „Äußerungseinheit“ oder „möglicher Satz“? In: Deutsche Sprache 25, S. 1-20. Rath, Rainer (2000): Gesprächsschritt und Höreraktivitäten. In: Brinker/ Antos/ Heinemann/ Sager (Hg.), S. 1213-1226. Reber, Elisabeth/ Couper-Kuhlen, Elizabeth (2010): Interjektionen zwischen Lexikon und Vokalität: Lexem oder Lautobjekt? In: Deppermann, Arnulf/ Linke, Angelika (Hg.): Sprache intermedial: Stimme und Schrift, Bild und Ton. (= Jahrbuch des Instituts für Deutsche Sprache 2009). Berlin/ New York: De Gruyter, S. 69-96. Redder, Angelika (1994): „Bergungsunternehmen“ - Prozeduren des Malfeldes beim Erzählen. In: Brünner, Gisela/ Graefen, Gabriele (Hg.): Texte und Diskurse. Methoden und Forschungsergebnisse der Funktionalen Pragmatik. Wiesbaden: Verlag für Sozialwissenschaften, S. 238-264. Rehbein, Ines (2014): Wortartenannotation im Kiezdeutschkorpus (KiDKo 1.0) - Draft. (Online: www.kiezdeutschkorpus.de/ files/ kidko/ downloads/ POS-KiDKo.pdf, Stand: 1. 10. 2019). Rehbein, Ines/ Hirschmann, Hagen (2014a): POS tagset refinement for linguistic analysis and the impact on statistical parsing. In: Henrich, Verena/ Hinrichs, Erhard/ de Kok, Daniël/ Osenova, Petya/ Przepiórkowski, Adam (Hg.): Proceedings of the thirteenth international workshop on treebanks and linguistic theories (TLT13). 12.-13.12.2014, Tübingen, S. 172-183. Rehbein, Ines/ Hirschmann, Hagen (2014b): Towards a syntactically motivated analysis of modifiers in German. In: Proceedings of the 12th conference on natural language processing (KONVENS 2014). 8.-10. 10. 2013, Hildesheim, S. 30-39. Rehbein, Ines/ Ruppenhofer, Josef (2017): Detecting annotation noise in automatically labelled data. In: Proceedings of the 55th annual meeting of the Association for Computational Linguistics, 30. 7.-4. 8. 2017, Vancouver, S. 1160-1170. (Online: https: / / doi.org/ 10.18653/ v1/ P17-1107, Stand: 12. 2. 2018). Rehbein, Ines/ Schalowski, Sören (2013): STTS goes Kiez - Experiments on annotating and tagging urban youth language. In: Journal for Language Technology and Computational Linguistics (JLCL) 28, 1, S. 199-227. (Online: www.jlcl.org/ 2013_ Heft1/ 8Rehbein.pdf, Stand: 5. 11. 2014). Rehbein, Ines/ Schalowski, Sören/ Wiese, Heike (2014): The KiezDeutsch Korpus (KiDKo) Release 1.0. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Loftsson, Hrafn/ Maegaard, Bente/ Mariani, Joseph/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the ninth international conference on language resources and evaluation (LREC 2014). Reykjavik: European Language Resources Association, S. 3927-3934. (Online: www.lrec-conf.org/ proceedings/ lrec2014/ index.html, Stand: 25. 2. 2016). Rehbein, Jochen (1999): Zum Modus von Äußerungen. In: Redder, Angelika/ Rehbein, Jochen (Hg.): Grammatik und mentale Prozesse. (= Stauffenburg Linguistik 7). Tübingen: Stauffenburg, S. 91-139. Rehbein, Jochen/ Schmidt, Thomas/ Meyer, Bernd/ Watzke, Franziska/ Herkenrath, Annette (2004): Handbuch für das computergestützte Transkribieren nach HIAT. Arbeiten zur Mehrsprachigkeit - Folge B, Sonderforschungsbereich 538. (= Arbeiten <?page no="384"?> Literatur 384 zur Mehrsprachigkeit/ Working Papers in Mulilingualism 56). Hamburg: Universität Hamburg. Rehbock, Helmut (2009): „… ohne jetzt nun gleich aggressiv zu werden.“ Ein Zeitadverb als Diskursmarker. In: Zeitschrift für germanistische Linguistik 37, 2, S. 236-265. Romih, Miro/ Krek, Simon/ Kosem, Iztok (2013): GOS - SPOKEN CORPUS. (Online: http: / / eng.slovenscina.eu/ korpusi/ gos#download, Stand: 7. 1. 2016). Rosen, Anna (2012): ‚That’s a real jersey one, eh? ‘: Discourse marker eh in channel Island English. In: Tizan-Couto, David/ Tizan-Couto, Beatriz/ Pastor-Gomez, Iria/ Rodriguez-Puente, Paula (Hg.): New trends and methodologies in applied English language research, II: Studies in language variation, meaning and learning. (= Linguistic Insights: Studies in Language and Communication 145). Bern: Lang, S. 143-181. Rothstein, Björn (2012): Nicht-flektierbare und nicht-flektierte Wortarten: Zum Geleit. In: Rothstein (Hg.), S. 1-13. Rothstein, Björn (Hg.) (2012): Nicht-flektierende Wortarten. (= Linguistik, Impulse & Tendenzen 47). Berlin/ Boston: De Gruyter. Russian National Corpus (2003-2016): www.ruscorpora.ru/ en/ index.html (Stand: 7. 1. 2016). Sacks, Harvey/ Schegloff, Emanuel A./ Jefferson, Gail (1978): A simplest systematics for the organization of turn taking for conversation. In: Schenkein, Jim (Hg.): Studies in the organization of conversational interaction. New York: Academic Press, S. 7-50. Sampson, Geoffrey (1995): English for the computer. The SUSANNE corpus and analytic scheme. Oxford/ New York: Clarendon Press. Sampson, Geoffrey (2004): CHRISTINE Corpus: Documentation. Veröff. am 18. 8. 2000. Sussex: University of Sussex. (Online: www.grsampson.net/ ChrisDoc.html, Stand: 7. 5. 2014). Sauer, Simon (Hg.) (2015): BeMaTaC. Ein tief annotiertes multimodales Map-Task- Korpus gesprochener Lerner- und Muttersprache. Berlin: Humboldt-Universität. (Online: http: / / u.hu-berlin.de/ bematac, zuletzt aktualisiert am 6. 10. 2015, Stand: 8. 10. 2015). Schegloff, Emanuel A. (1996): Turn organization. One intersection of grammar and interaction. In: Ochs, Elinor/ Schegloff, Emanuel A./ Thompson, Sandra A. (Hg.): Interaction and grammar. (= Studies in Interactional Sociolinguistics 13). Cambridge: Cambridge University Press, S. 52-133. Schegloff, Emanuel A. (2010): Some other „uh(m)“s. In: Discourse processes 47, 2, S. 130-174. Scheutz, Hannes (1998): weil-Sätze im gesprochenen Deutsch. In: Hutterer, Claus Jürgen (Hg.): Beiträge zur Dialektologie des ostoberdeutschen Raumes. Referate der 6. Arbeitstagung für bayerisch-österreichische Dialektologie, 20.-24. 9. 1995 in Graz. (= Göppinger Arbeiten zur Germanistik 636). Göppingen: Kümmerle, S. 85-112. <?page no="385"?> 385 Literatur Schiffrin, Deborah (1987): Discourse markers. (= Studies in Interactional Sociolinguistics 5). Cambridge: Cambridge University Press. Schiller, Anne/ Teufel, Simone/ Stöckert, Christine/ Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS. (Kleines und großes Tagset). Universität Stuttgart: Institut für maschinelle Sprachverarbeitung/ Universität Tübingen: Seminar für Sprachwissenschaft. (Online: www.sfs.uni-tuebingen.de/ resour ces/ stts-1999.pdf, Stand: 26. 2. 2014). Schleef, Erik (2005): Navigating joint activities in English and German academic discourse: Form, function, and sociolinguistic distribution of discourse markers and question tags. Ann Arbor (MI): University of Michigan. Schleef, Erik (2009): A cross-cultural comparison of the functions and sociolinguistic distribution of English and German tag questions and discourse markers in academic speech. In: Suomela-Salmi, Eija/ Dervin, Fred (Hg.): Cross-Linguistic and Cross-Cultural Perspectives on Academic Discourse. (= Pragmatics & Beyond: New Series (P&B) 193). Amsterdam: Benjamins, S. 61-79. Schlobinski, Peter (1997): Zur Analyse syntaktischer Strukturen in der gesprochenen Sprache. In: Schlobinski (Hg.), S. 9-26. Schlobinski, Peter (Hg.) (1997): Syntax des gesprochenen Deutsch. Opladen: Westdeutscher Verlag. Schmid, Helmut (1994): Probabilistic part-of-speech tagging using decision trees. Universität Stuttgart: Institut für maschinelle Sprachverarbeitung. (Online: www. cis.uni-muenchen.de/ ~schmid/ tools/ TreeTagger/ data/ tree-tagger1.pdf, Stand: 19. 7. 2018). Schmid, Helmut (1995): Improvements in oart-of-speech tagging with an application to German. Universität Stuttgart: Institut für maschinelle Sprachverarbeitung. (Online: www.cis.uni-muenchen.de/ ~schmid/ tools/ TreeTagger/ data/ tree-tagger2. pdf, Stand: 26. 2. 2014). Schmidt, Thomas (2012): EXMARaLDA and the FOLK tools - two toolsets for transcribing and annotating spoken language. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Doğan, Mehmet Uğur/ Maegaard, Bente/ Mariani, Joseph/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the eight international conference on language resources and evaluation (LREC 2012). Istanbul: European Language Resources Association, S. 236-240. (Online: www.lrec-conf.org/ proceedings/ lrec2012/ pdf/ 529_Paper.pdf, Stand: 31. 7. 2019). Schmidt, Thomas (2014a): OrthoNormal. Orthographie-Normalisierer für FOLKER. Version 0.6. (Online: https: / / exmaralda.org/ de/ orthonormal-de, Stand: 8. 10. 2019). Schmidt, Thomas (2014b): The database for spoken German - DGD2. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Loftsson, Hrafn/ Maegaard, Bente/ Mariani, Joseph/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the ninth international conference on language resources and evaluation (LREC 2014). Reykjavik: European Language Resources Association, S. 1451-1457. (Online: www.lrec-conf.org/ proceedings/ lrec2014/ pdf/ 171_Paper. pdf, Stand: 18. 12. 2018). <?page no="386"?> Literatur 386 Schmidt, Thomas (2014c): The research and teaching corpus of spoken German - FOLK In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Loftsson, Hrafn/ Maegaard, Bente/ Mariani, Joseph/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the ninth international conference on language resources and evaluation (LREC 2014). Reykjavik: European Language Resources Association, S. 383-387. (Online: www.lrec-conf.org/ proceedings/ lrec2014/ index.html, Stand: 25. 2. 2016). Schmidt, Thomas/ Schütte, Wilfried (2010): FOLKER. An annotation tool for efficient transcription of natural, multi-party interaction. In: Calzolari, Nicoletta/ Choukri, Khalid/ Maegaard, Bente/ Mariani Joseph/ Odijk, Jan/ Piperidis, Stelios/ Rosner, Mike/ Tapias, Daniel (Hg.): Proceedings of the seventh international conference on language resources and evaluation (LREC 2010). Malta: European Language Resources Association, S. 2091-2096. (Online: www.lrec-conf.org/ proceedings/ lrec2010/ pdf/ 18_Paper.pdf, Stand: 18. 12. 2018). Schmidt, Thomas/ Schütte, Wilfried/ Winterscheid, Jenny (2015): cGAT. Konventionen für das computergestützte Transkribieren in Anlehnung an das Gesprächsanalytische Transkriptionssystem 2 (GAT2). Version 1.0, November 2015. Mannheim: Institut für Deutsche Sprache. (Online: http: / / nbn-resolving.de/ urn/ resolver.pl? urn: nbn: de: bsz: mh39-46169, Stand: 18. 12. 2018). Schneider, Jan Georg (2011): Hat die gesprochene Sprache eine eigene Grammatik? Grundsätzliche Überlegungen zum Status gesprochensprachlicher Konstruktionen und zur Kategorie ‚gesprochenes Standarddeutsch‘. In: Zeitschrift für germanistische Linguistik 39, 2, S. 165-187. Schneider, Jan Georg (2016): Syntax der gesprochenen Sprache und Kodifizierung. In: Klein, Wolf Peter/ Staffeldt, Sven (Hg.): Die Kodifizierung der Sprache. Strukturen, Funktionen, Konsequenzen. (= Würzburger Elektronische Sprachwissenschaftliche Arbeiten 17). Würzburg: Universitätsbibliothek Würzburg, S. 272-284. Schwitalla, Johannes (2012): Gesprochenes Deutsch. Eine Einführung. 4., neu bearb. u. erw. Aufl. (= Grundlagen der Germanistik 33). Berlin: Erich Schmidt. Searle, John R. (2006): Social ontology: Some basic principles. In: Anthropological theory 6, 1, S. 12-29. Selting, Margret (2000): The construction of units in conversational talk. In: Language in Society 29, 4, S. 477-517. Selting, Margret (2005): Syntax and prosody as methods for the construction and identification of turn-constructional units in conversation. In: Hakulinen, Auli/ Selting, Margret (Hg.): Syntax and lexis in conversation: Studies on the use of linguistic resources in talk-in-interaction. (= Studies in Discourse and Grammar 17). Amsterdam/ Philadelphia: Benjamins, S. 17-44. Selting, Margret (2007): ‚Grammatik des gesprochenen Deutsch‘ im Rahmen der Interaktionalen Linguistik. In: Ágel/ Hennig (Hg.), S. 99-136. Selting, Margret (2015): Sentences and clauses - from the perspective of interactional linguistics. In: Dürscheid/ Schneider (Hg.), S. 180-204. Selting, Margret/ Couper-Kuhlen, Elizabeth (2000): Argumente für die Entwicklung einer interaktionalen Linguistik. In: Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion 1, S. 76-95. <?page no="387"?> 387 Literatur Selting, Margret/ Auer, Peter/ Barth-Weingarten, Dagmar/ Bergmann, Jörg/ Bergmann, Pia/ Birkner, Karin/ Couper-Kuhlen, Elizabeth/ Deppermann, Arnulf/ Gilles, Peter/ Günthner, Susanne/ Hartung, Martin/ Kern, Friederike/ Mertzlufft, Christine/ Meyer, Christian/ Morek, Miriam/ Oberzaucher, Frank/ Peters, Jörg/ Quasthoff, Uta/ Schütte, Wilfried/ Stukenbrock, Anja/ Uhmann, Susanne (2009): Gesprächsanalytisches Transkriptionssystem 2 (GAT 2). In: Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion 10, S. 353-402. (Online: www.gespraechsforschung-ozs. de/ fileadmin/ dateien/ heft2009/ px-gat2.pdf, Stand: 17. 6. 2015). Söll, Ludwig (1968): Der Doppelpunkt als Stilphänomen und Übersetzungsproblem: Bemerkungen zu Les Mots von Jean-Paul Sartre. In: Germanisch-Romanische Monatsschrift 18, S. 422-431. Spiro, Ian/ Taylor, Graham/ Williams, George/ Bregler, Christoph (2010): Hands by hand: Crowd-sourced motion tracking for gesture annotation. In: 2010 IEEE Computer society conference on computer vision and pattern recognition - Workshops. San Francisco: IEEE, S. 17-24. Staffeldt, Sven (2014): Sprechakttheoretisch analysieren. In: Staffeldt/ Hagemann (Hg.), S. 105-148. Staffeldt, Sven/ Hagemann, Jörg (2014): Pragmatische Analyseperspektiven - eine kurze Einleitung. In: Staffeldt/ Hagemann (Hg.), S. 7-18. Staffeldt, Sven/ Hagemann, Jörg (Hg.) (2014): Pragmatiktheorien. Analysen im Vergleich. Bd. 1. (= Stauffenburg Einführungen 27). Tübingen: Stauffenburg. Stark, Craig E. L./ Mcclelland, James L. (2000): Repetition priming of words, pseudowords, and nonwords. In: Journal of Experimental Psychology: Learning, Memory, and Cognition 26, 4, S. 945-972. Stock, Eberhard (1996): Text und Intonation. In: Sprachwissenschaft 21, S. 211-240. Streeck, Jürgen (2016): Gestische Praxis und sprachliche Form. In: Deppermann/ Feilke/ Linke (Hg.), S. 57-79. Stukenbrock, Anja (2015): Deixis in der face-to-face-Interaktion. (= Linguae & Litterae 47). Berlin/ Boston: De Gruyter. Stukenbrock, Anja (2016): Deiktische Praktiken: Zwischen Interaktion und Grammatik. In: Deppermann/ Feilke/ Linke (Hg.), S. 81-126. Taylor, J. S. H./ Rastle, Kathleen/ Davis, Matthew H. (2013): Can cognitive models explain brain activation during word and pseudoword reading? A meta-analysis of 36 neuroimaging studies. In: Psychological Bulletin 139, 4, S. 766-791. Telschow, Claudia (2014): Die Adjektiv-Adverb-Abgrenzung im Deutschen. Zu grundlegenden Problemen der Wortartenforschung. (= Reihe Germanistische Linguistik 299). Berlin/ Boston: De Gruyter. The British National Corpus (2007): Distributed by Oxford University computing services on behalf of the BNC consortium. (Online: www.natcorp.ox.ac.uk, Stand: 11. 2. 2016). Thim-Mabrey, Christiane (1988): Satzadverbialia und andere Ausdrücke im Vorfeld. In: Deutsche Sprache 16, S. 52-67. Toutanova, Kristina/ Manning, Christopher D. (2000): Enriching the knowledge sources used in a maximum entropy part-of-speech tagger. In: Proceedings of the 2000 <?page no="388"?> Literatur 388 Joint SIGDAT CSIGDAT conference on empirical methods in natural language processing and very large corpora - held in conjunction with the 38th annual meeting of the Association for Computational Linguistics, Vol. 13, S. 63-70. Ultan, Russel (1978): Some General Characteristics of Interrogative Systems. In: Greenberg, Joseph H. (Hg.): Universals of human language. 4. Syntax. Stanford (CA): Stanford University Press, S. 211-248. Universität Tübingen, Seminar für Sprachwissenschaft (2014): Die Baumbank TüBa-D/ S. (Online: www.sfs.uni-tuebingen.de/ ascl/ ressourcen/ corpora/ tueba-ds.html, zuletzt aktualisiert am 27. 6. 2014, Stand: 10. 10. 2015). van Eynde, Frank/ Zavrel, Jakub/ Daelemans, Walter (2000): Part of speech tagging and lemmatisation for the Spoken Dutch Corpus. In: Proceedings of the second international conference on language resources and evaluation (LREC 2000). Athen: European Language Resources Association, S. 1427-1434. (Online: www.cnts.ua.ac.be/ papers/ 2000/ vzd00.pdf, Stand: 6. 5. 2014). Vater, Heinz (1982): Der unbestimmte Artikel als Quantor. In: Wollmann, Alfred/ Welte, Werner (Hg.): Sprachtheorie und angewandte Linguistik. Festschrift für Alfred Wollmann zum 60. Geburtstag. (= Tübinger Beiträge zur Linguistik 195). Tübingen: Narr, S. 67-74. Vater, Heinz (1984): Determinantien und Quantoren im Deutschen. In: Zeitschrift für Sprachwissenschaft 3.1, S. 19-42. Vater, Heinz (2000): „Pronominantien“ - oder: Pronomina sind Determinantien. In: Thieroff, Rolf/ Tamrat, Matthias/ Fuhrhop, Nanna (Hg.): Deutsche Grammatik in Theorie und Praxis. Tübingen: Niemeyer, S. 185-200. Verdonik, Darinka/ Zwitter Vitez, Ana/ Tivadar, Hotimir (2011): Slovenski govorni korpus Gos. (= Zbirka Sporazumevanje). Ljubljana: Trojina. Vinckel-Roisin, Hélène (Hg.) (2015): Das Nachfeld im Deutschen: Theorie und Empirie. (= Reihe Germanistische Linguistik 303). Berlin/ Boston: De Gruyter. Volk, Martin/ Schneider, Gerold (1998): Comparing a statistical and a rule-based tagger for German. In: Proceedings of the 4th conference on natural language processing (KONVENS 1998). 5.-7. 10. 1998, Bonn, S. 125-132. (Online: https: / / files.ifi.uzh.ch/ cl/ PAPERS/ Konvens98_Tagging. pdf, Stand: 19. 7. 2018). Vorreiter, Susanne (2003): Turn continuations. Towards a cross-linguistic classification. (= InLiSt - Interaction and Linguistic Structures 39). Potsdam: Universität Konstanz. Wahlster, Wolfgang (2000): VERBMOBIL. Erkennung, Analyse, Transfer, Generierung und Synthese von Spontansprache. Saarbrücken: Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI GmbH). (Online: http: / / verbmobil.dfki.de/ Vm. Info.Phase2.html, zuletzt aktualisiert am 24. 3. 2000, Stand: 31. 7. 2019). Wegener Knudsen, Marlene/ García-Martin, Judit/ Machuca Ayuso, María Jesús/ Bernsen, Niels Ole/ Carletta, Jean/ Kita, Sotaro/ Heid, Ulrich/ Llisterri, Joaquim/ Pelachaud, Catherine/ Poggi, Isabella/ Reithinger, Norbert/ Van Elswijk, Gijs/ Wittenburg, Peter (2002): Survey of multimodal annotation schemes and best practice. In: ISLE Natural Interactivity and Multimodality Working Group (Hg.): Final report. (Online: http: / / www.nislab.dk/ Publications/ ISLE-D9.1-7.3.02-F.pdf, Stand: 29. 1. 2020). <?page no="389"?> 389 Literatur Weinrich, Harald (2005): Textgrammatik der deutschen Sprache. 3., revid. Aufl. Hildesheim: Olms. Westpfahl, Swantje (2017): Diskursmarker aus korpuslinguistischer Sicht. POS-Annotation von Diskursmarkern in FOLK. In: Blühdorn, Hardarik/ Deppermann, Arnulf/ Helmer, Henrike/ Spranz-Fogasy, Thomas (Hg.): Diskursmarker im Deutschen. Reflexionen und Analysen. Göttingen: Verlag für Gesprächsforschung, S. 285-310. (Online: http: / / verlag-gespraechsforschung.de/ 2017/ pdf/ diskursmarker.pdf, Stand: 15. 2. 2018). Westpfahl, Swantje (2013): Problemanalyse des POS-Taggings für spontansprachliche Daten anhand des Forschungs- und Lehrkorpus Gesprochenes Deutsch. Wissenschaftliche Abschlussarbeit im Fach Germanistik. Betreuer: Prof. Dr. Arnulf Deppermann. Universität Mannheim. Westpfahl, Swantje/ Gorisch, Jan (2018): A syntax-based scheme for the annotation and segmentation of German spoken language interactions. In: Proceedings of the joint workshop on linguistic annotation, multiword expressions and constructions (LAW-MWE-CxG@COLING 2018). Santa Fe: COLING 2018, S. 109-120. (Online: https: / / aclanthology.info/ papers/ W18-4913/ w18-4913, Stand: 17. 9. 2018). Westpfahl, Swantje/ Schmidt, Thomas (2013): POS für(s) FOLK - Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch. In: Journal for Language Technology and Computational Linguistics 28, 1, S. 139-153. (Online: www. jlcl.org/ 2013_Heft1/ 6Westpfahl.pdf, Stand: 16. 4. 2014). Westpfahl, Swantje/ Schmidt, Thomas (2016): FOLK-Gold - A GOLD standard for partof-speech-tagging of spoken German. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Goggi, Sara/ Grobelnik, Marko/ Maegaard, Bente et al. (Hg.): Proceedings of the tenth international conference on language resources and evaluation (LREC 2016). Portorož, Slowenien: European Language Resources Association, S. 1493-1499. Westpfahl, Swantje/ Schmidt, Thomas/ Jonietz, Jasmin/ Borlinghaus, Anton (2017): STTS 2.0. Guidelines für die Annotation von POS -Tags für Transkripte gesprochener Sprache in Anlehnung an das Stuttgart Tübingen Tagset (STTS). Version 1.1, März 2017. Mannheim: Leibniz-Institut für Deutsche Sprache. (Online: http: / / nbnresolving.de/ urn/ resolver.pl? urn: nbn: de: bsz: mh39-60634, Stand: 31. 7. 2019). Weydt, Harald (1969): Abtönungspartikel: Die deutschen Modalwörter und ihre französischen Entsprechungen. (= Linguistica et Litteraria 4). Bad Homburg: Gehlen. Wiesinger, Peter (1982): Die Einteilung der deutschen Dialekte. In: Besch, Werner (Hg.): Dialektologie: Ein Handbuch zur deutschen und allgemeinen Dialektforschung. 2. Halbbd. (= Handbücher zur Sprach- und Kommunikationswissenschaft (HSK) 1.2). Berlin/ New York: De Gruyter, S. 807-900. Wischer, Ilse/ Diewald, Gabriele (Hg.) (2002): New reflections on grammaticalization. (= Typological Studies in Language 49). Amsterdam/ Philadelphia: Benjamins. Wöllstein, Angelika (2014): Topologisches Satzmodell. In: Hagemann, Jörg/ Staffeldt, Sven (Hg.): Syntaxtheorien: Analysen im Vergleich. (= Stauffenburg Einführungen 28). Tübingen: Stauffenburg, S. 143-164. <?page no="390"?> Literatur 390 Yu, Xiang/ Falenska, Agnieszka/ Thang Vu, Ngoc (2017): A general-purpose tagger with convolutional neural networks. In: Faruqui, Manaal/ Schuetze, Hinrich/ Trancoso, Isabel/ Yaghoobzadeh, Yadollah (Hg.): Proceedings of the first workshop on subword and character level models in NLP. Kopenhagen: Association for Computational Linguistics, S. 124-129. Zalizniak, Andrei Anatoljewitsch (1977): Grammatical dictionary of the Russian language. Firebird Publications, Incorporated. Zavrel, Jakub/ Daelemans, Walter (2000): Bootstrapping a tagged corpus through combination of existing heterogeneous taggers. In: Proceedings of the second international conference on language resources and evaluation (LREC 2000). Athen: European Language Resources Association. (Online: http: / / aclweb.org/ anthology/ L00-1113. Zhang, Qiyun (2010): Study of Chinese Learning of English Tag Questions. In: Journal of Language Teaching and Research 1, 5, S. 578-582. Zifonun, Gisela/ Hoffmann, Ludger/ Strecker, Bruno (1997): Grammatik der deutschen Sprache. 3 Bände. (= Schriften des Instituts für Deutsche Sprache 7). Berlin/ New York: De Gruyter. Zifonun, Gisela (2005): Sowohl Determinativ als auch Pronomen? Sprachvergleichende Beobachtungen zu dieser, aller und Konsorten. In: Deutsche Sprache 33, S. 195-219. Zima, Elisabeth (2014): Gibt es multimodale Konstruktionen? Eine Studie zu [V(motion) in circles] und [all the way from X PREP Y]. In: Gesprächsforschung 15, S. 1-48. Zinsmeister, Heike/ Heid, Ulrich/ Beck, Kathrin (2014): Adapting a part-of-speech tagset to non-standard text: The case of STTS. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Loftsson, Hrafn/ Maegaard, Bente/ Mariani, Joseph/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the ninth international conference on language resources and evaluation (LREC 2014). Reykjavik: European Language Resources Association, S. 4097-4104. (Online: www.lrec-conf.org/ proceedings/ lrec2014/ pdf/ 721_Paper.pdf, Stand: 5. 11. 2014). <?page no="391"?> Fazit 391 6. ANHANG 6.1 Transkriptionskonventionen 6.1.1 Transkriptionskonventionen nach GAT 2 (Selting et al. 2009) Sequenzielle Struktur/ Verlaufsstruktur [ ] [ ] Überlappungen und Simultansprechen = schneller, unmittelbarer Anschluss neuer Sprecherbeiträge oder Segmente (latching) Ein- und Ausatmen °h / h° Einbzw. Ausatmen von ca. 0.2-0.5 Sek. Dauer °hh / hh° Einbzw. Ausatmen von ca. 0.5-0.8 Sek. Dauer °hhh / hhh° Einbzw. Ausatmen von ca. 0.8-1.0 Sek. Dauer Pausen (.) Mikropause, geschätzt, bis ca. 0.2 Sek. Dauer (-) kurze geschätzte Pause von ca. 0.2-0.5 Sek. Dauer (0.5) gemessene Pausen von ca. 0.5 Dauer Sonstige segmentale Konventionen und_äh Verschleifungen innerhalb von Einheiten äh öh äm Verzögerungssignale, sog. „gefüllte Pausen“ : Dehnung, Längung, um ca. 0.2-0.5 Sek. : : Dehnung, Längung, um ca. 0.5-0.8 Sek. : : : Dehnung, Längung, um ca. 0.8-1.0 Sek. ʔ Abbruch durch Glottalverschluss Akzentuierung akZENT Fokusakzent akzEnt Nebenakzent ak! ZENT! extra starker Akzent Tonhöhenbewegung am Ende von Intonationsphrasen ? hoch steigend , mittel steigend gleichbleibend ; mittel fallend . tief fallend Verändertes Tonhöhenregister <<h> > hohes Tonhöhenregister <?page no="392"?> Anhang 392 Lachen und Weinen haha hehe hihi silbisches Lachen ((lacht)) ((weint)) Beschreibung des Lachens << > SOO> „smile voice“ Rezeptionssignale hm ja nein nee einsilbige Signale hm_hm ja_a nei_ein nee_e zweisilbige Signale Sonstige Konventionen ((hustet)) para- und außersprachliche Handlungen und Ereignisse (xxx), (xxx xxx) ein bzw. zwei unverständliche Silben (solche) vermuteter Wortlaut (also/ alo) (solche/ welche) mögliche Alternativen […] Auslassung im Transkript Lautstärke- und Sprechgeschwindigkeitsveränderungen, mit Extensionen <<f> > forte, laut <<p> > piano, leise <<all> > allegro, schnell <<dim> > diminuendo, leiser werdend <<acc> > accelerando, schneller werdend 6.1.2 Multimodale Konventionen (Kurzversion) Zitiert aus Mondada (2014) * * Gestures and descriptions of embodied actions are delimited between + + two identical symbols (one symbol per participant) Δ Δ and are synchronized with correspondent stretches of talk. *---> The action described continues across subsequent lines ---->* until the same symbol is reached. >> The action described begins before the excerpt’s beginning. --->> The action described continues after the excerpt’s end. ..... Action’s preparation. ---- Action’s apex is reached and maintained. " Action’s retraction. ric Participant doing the embodied action is identified when (s)he is not the speaker. Abb. The exact moment at which a screen shot has been taken # is indicated with a specific sign showing its position within turn at talk. <?page no="393"?> STTS Tag table (1995/ 1998) 393 6.2 STTS Tag table (1995/ 1998) POS DESCRIPTION EXAMPLES ADJA attributives Adjektiv [das] große [Haus] ADJD adverbiales oder prädikatives Adjektiv [er fährt] schnell, [er ist] schnell ADV Adverb schon, bald, doch APPR Präposition; Zirkumposition links in [der Stadt], ohne [mich] APPRART Präposition mit Artikel im [Haus], zur [Sache] APPO Postposition [ihm] zufolge, [der Sache] wegen APZR Zirkumposition rechts [von jetzt] an ART bestimmter oder unbestimmter Artikel der, die, das, ein, eine CARD Kardinalzahl zwei [Männer], [im Jahre] 1994 FM Fremdsprachliches Material [Er hat das mit ``] A big fish [‘’ übersetzt] ITJ Interjektion mhm, ach, tja KOUI unterordnende Konjunktion mit „zu“ und Infinitiv um [zu leben], anstatt [zu fragen] KOUS unterordnende Konjunktion mit Satz weil, dass, damit, wenn, ob KON nebenordnende Konjunktion und, oder, aber KOKOM Vergleichskonjunktion als, wie NN normales Nomen Tisch, Herr, [das] Reisen NE Eigennamen Hans, Hamburg, HSV PDS substituierendes Demonstrativpronomen dieser, jener PDAT attribuierendes Demonstrativpronomen jener [Mensch] PIS substituierendes Indefinitpronomen keiner, viele, man, niemand PIAT attribuierendes Indefinitpronomen ohne Determiner kein [Mensch], irgendein [Glas] PIDAT attribuierendes Indefinitpronomen mit Determiner [ein] wenig [Wasser], [die] beiden [Brüder] PPER irreflexives Personalpronomen ich, er, ihm, mich, dir PPOSS substituierendes Possessivpronomen meins, deiner PPOSAT attribuierendes Possessivpronomen mein [Buch], deine [Mutter] PRELS substituierendes Relativpronomen [der Hund ,] der PRELAT attribuierendes Relativpronomen [der Mann ,] dessen [Hund] PRF reflexives Personalpronomen sich, einander, dich, mir PWS substituierendes Interrogativpronomen wer, was <?page no="394"?> Anhang 394 PWAT attribuierendes Interrogativpronomen welche[Farbe], wessen [Hut] PWAV adverbiales Interrogativ- oder Relativpronomen warum, wo, wann, worüber, wobei PAV Pronominaladverb dafür, dabei, deswegen, trotzdem PTKZU „zu“ vor Infinitiv zu [gehen] PTKNEG Negationspartikel nicht PTKVZ abgetrennter Verbzusatz [er kommt] an, [er fährt] rad PTKANT Antwortpartikel ja, nein, danke, bitte PTKA Partikel bei Adjektiv oder Adverb am [schönsten], zu [schnell] TRUNC Kompositions-Erstglied An- [und Abreise] VVFIN finites Verb, voll [du] gehst, [wir] kommen [an] VVIMP Imperativ, voll komm [! ] VVINF Infinitiv, voll gehen, ankommen VVIZU Infinitiv mit „zu“, voll anzukommen, loszulassen VVPP Partizip Perfekt, voll gegangen, angekommen VAFIN finites Verb, aux [du] bist, [wir] werden VAIMP Imperativ, aux sei [ruhig ! ] VAINF Infinitiv, aux werden, sein VAPP Partizip Perfekt, aux gewesen VMFIN finites Verb, modal dürfen VMINF Infinitiv, modal wollen VMPP Partizip Perfekt, modal gekonnt, [er hat gehen] können XY Nichtwort, Sonderzeichen enthaltend 3: 7, H2O, D2XW3 $, Komma , $. Satzbeendende Interpunktion . ? ! ; : $( sonstige Satzzeichen; satzintern - [,]() <?page no="395"?> Transkripte des Goldstandards 395 6.3 Transkripte des Goldstandards Transkriptausschnitt Kennung DGD Inhalt dialektal vs. Standardsprachlich formell vs. informell diszipliniert vs. interaktiv Anzahl Token Ort d. Aufnahme Normalisierungsrate in % Overlaprate in % Alternativ-Transkription in % Disfluencies % Trainings- und Evaluationsset FOLK_E_00001_ SE_01_T_01_DF_01_S_1 Berufsschule (Mechatronik) dialektal formell diszipliniert 505 Rheinfränkische Sprachregion 19,64 5,36 0,00 0,79 train FOLK_E_00002_ SE_01_T_01_DF_01_S_1 Eltern-Kind-Vorleseinteraktion standardsprachlich informell interaktiv 504 Rheinfränkische Sprachregion 27,20 11,00 0,00 1,40 eval_lerner FOLK_E_00003_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 522 Obersächsische Sprachregion 18,81 25,53 0,00 1,73 train FOLK_E_00004_ SE_01_T_01_DF_01_S_1 Berufsschule (berufspädagogik) dialektal formell diszipliniert 504 Rheinfränkische Sprachregion 18,16 4,79 0,00 2,40 eval FOLK_E_00005_ SE_01_T_02_DF_01_S_1 Berufsschule (Mechatronik) dialektal formell diszipliniert 513 Rheinfränkische Sprachregion 30,26 8,06 0,20 0,39 train FOLK_E_00006_ SE_01_T_01_DF_01_S_1 Berufsschule (Mechatronik) dialektal formell diszipliniert 506 Rheinfränkische Sprachregion 18,40 0,80 0,80 0,20 train FOLK_E_00007_ SE_01_T_01_DF_01_S_1 Berufsschule (berufspädagogik) dialektal formell diszipliniert 510 Rheinfränkische Sprachregion 18,66 5,30 0,59 0,39 train FOLK_E_00008_ SE_01_T_02_DF_01_S_1 Berufsschule (Mechatronik) dialektal formell diszipliniert 508 Rheinfränkische Sprachregion 40,11 20,68 0,30 0,46 train FOLK_E_00009_ SE_01_T_01_DF_01_S_1 Berufsschule (Mechatronik) dialektal formell diszipliniert 508 Rheinfränkische Sprachregion 27,40 2,40 0,00 0,40 train FOLK_E_00010_ SE_01_T_02_DF_01_S_1 Eltern-Kind-Spieleinteraktion (Zooloretto) standardsprachlich informell interaktiv 500 Bairische Sprachregion 29,35 22,69 0,00 0,80 train FOLK_E_00011_ SE_01_T_04_DF_01_S_1 Eltern-Kind-Spieleinteraktion (Monopoly) standardsprachlich informell interaktiv 515 Bairische Sprachregion 20,97 25,44 0,00 2,33 train FOLK_E_00012_ SE_01_T_01_DF_01_S_1 Eltern-Kind-Spieleinteraktion (Emil) standardsprachlich informell interaktiv 502 Bairische Sprachregion 30,56 41,88 0,19 0,68 train FOLK_E_00013_ SE_01_T_01_DF_01_S_1 Eltern-Kind-Vorleseinteraktion standardsprachlich informell interaktiv 500 Rheinfränkische Sprachregion 6,00 1,40 0,00 0,40 eval_lerner <?page no="396"?> Anhang 396 Transkriptausschnitt Kennung DGD Inhalt dialektal vs. Standardsprachlich formell vs. informell diszipliniert vs. interaktiv Anzahl Token Ort d. Aufnahme Normalisierungsrate in % Overlaprate in % Alternativ-Transkription in % Disfluencies % Trainings- und Evaluationsset FOLK_E_00014_ SE_01_T_01_DF_01_S_1 Eltern-Kind-Vorleseinteraktion standardsprachlich informell interaktiv 501 Rheinfränkische Sprachregion 16,20 7,40 0,00 5,60 eval_lerner FOLK_E_00015_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 500 Obersächsische Sprachregion 19,00 9,80 0,00 6,60 train FOLK_E_00016_ SE_01_T_01_DF_01_S_1 Eltern-Kind-Vorleseinteraktion standardsprachlich informell interaktiv 502 Rheinfränkische Sprachregion 15,88 9,41 0,00 4,12 eval_lerner FOLK_E_00017_ SE_01_T_01_DF_01_S_1 Eltern-Kind-Vorleseinteraktion standardsprachlich informell interaktiv 521 Rheinfränkische Sprachregion 5,76 3,84 0,00 0,00 eval_lerner FOLK_E_00020_ SE_01_T_01_DF_01_S_1 Tischgespräch dialektal informell interaktiv 1.009 Rheinfränkische Sprachregion 22,38 24,95 0,00 6,73 train FOLK_E_00020_ SE_01_T_01_DF_01_S_2 Tischgespräch dialektal informell interaktiv 1.059 Rheinfränkische Sprachregion 40,11 20,68 0,30 0,46 train FOLK_E_00020_ SE_01_T_02_DF_01_S_3 Tischgespräch dialektal informell interaktiv 1.005 Rheinfränkische Sprachregion 40,11 20,68 0,30 0,46 train FOLK_E_00022_ SE_01_T_01_DF_01_S_1 Meeting-Sitzplan/ Ausflug soz. Einrichtung dialektal formell interaktiv 1.010 Hessische Sprachregion 22,14 17,90 0,00 5,90 train FOLK_E_00024_ SE_01_T_03_DF_01_S_1 Meeting-Sitzplan/ Ausflug soz. Einrichtung dialektal formell interaktiv 1.044 Hessische Sprachregion 13,09 8,79 0,00 4,10 eval FOLK_E_00026_ SE_01_T_01_DF_01_S_1 Meeting-Sitzplan/ Ausflug soz. Einrichtung dialektal formell interaktiv 1.010 Hessische Sprachregion 34,60 18,40 0,10 0,30 train FOLK_E_00028_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 500 Obersächsische Sprachregion 13,00 9,40 0,00 4,20 train FOLK_E_00029_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 512 Obersächsische Sprachregion 42,32 19,78 0,47 0,34 train <?page no="397"?> Transkripte des Goldstandards 397 Transkriptausschnitt Kennung DGD Inhalt dialektal vs. Standardsprachlich formell vs. informell diszipliniert vs. interaktiv Anzahl Token Ort d. Aufnahme Normalisierungsrate in % Overlaprate in % Alternativ-Transkription in % Disfluencies % Trainings- und Evaluationsset FOLK_E_00031_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 505 Obersächsische Sprachregion 42,32 19,78 0,47 0,34 train FOLK_E_00032_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 518 Obersächsische Sprachregion 9,46 7,92 0,00 3,47 eval FOLK_E_00033_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 543 Obersächsische Sprachregion 42,32 19,78 0,47 0,34 train FOLK_E_00034_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 522 Obersächsische Sprachregion 14,01 12,09 0,00 3,84 train FOLK_E_00035_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 513 Obersächsische Sprachregion 19,86 11,87 0,11 0,37 train FOLK_E_00036_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 501 Obersächsische Sprachregion 17,76 3,99 0,00 4,99 train FOLK_E_00037_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 500 Obersächsische Sprachregion 19,86 11,87 0,11 0,37 train FOLK_E_00038_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 515 Obersächsische Sprachregion 16,80 13,67 0,00 4,10 train FOLK_E_00040_ SE_01_T_01_DF_01_S_2 Spielinteraktion Erwachsene (Poker) dialektal informell interaktiv 1.004 Rheinfränkische Sprachregion 19,42 31,61 0,04 1,08 train FOLK_E_00040_ SE_01_T_01_DF_01_S_3 Spielinteraktion Erwachsene (Poker) dialektal informell interaktiv 327 Rheinfränkische Sprachregion 10,74 2,78 0,20 0,00 eval FOLK_E_00040_ SE_01_T_03_DF_01_S_1 Spielinteraktion Erwachsene (Poker) dialektal informell interaktiv 1.005 Rheinfränkische Sprachregion 19,42 31,61 0,04 1,08 train FOLK_E_00043_ SE_01_T_01_DF_01_S_1 Paargespräch standardsprachlich informell interaktiv 1.010 Hessische Sprachregion 28,00 6,40 1,60 0,40 train <?page no="398"?> Anhang 398 Transkriptausschnitt Kennung DGD Inhalt dialektal vs. Standardsprachlich formell vs. informell diszipliniert vs. interaktiv Anzahl Token Ort d. Aufnahme Normalisierungsrate in % Overlaprate in % Alternativ-Transkription in % Disfluencies % Trainings- und Evaluationsset FOLK_E_00043_ SE_01_T_01_DF_01_S_2 Paargespräch standardsprachlich informell interaktiv 439 Hessische Sprachregion 19,42 31,61 0,04 1,08 train FOLK_E_00043_ SE_01_T_01_DF_01_S_3 Paargespräch standardsprachlich informell interaktiv 446 Hessische Sprachregion 19,86 11,87 0,11 0,37 eval FOLK_E_00046_ SE_01_T_01_DF_01_S_2 Studentengespräch Mensa standardsprachlich informell interaktiv 1.007 Rheinfränkische Sprachregion 17,81 23,31 0,10 0,99 train FOLK_E_00046_ SE_01_T_01_DF_01_S_3 Studentengespräch Mensa standardsprachlich informell interaktiv 772 Rheinfränkische Sprachregion 28,29 10,36 0,00 0,20 eval FOLK_E_00046_ SE_01_T_02_DF_01_S_1 Studentengespräch Mensa standardsprachlich informell interaktiv 1.004 Rheinfränkische Sprachregion 17,91 11,22 0,00 3,94 train FOLK_E_00053_ SE_01_T_01_DF_01_S_1 Gespräch auf der Urlaubsreise standardsprachlich informell interaktiv 1.009 n. a. 17,81 23,31 0,10 0,99 train FOLK_E_00053_ SE_01_T_01_DF_01_S_2 Gespräch auf der Urlaubsreise standardsprachlich informell interaktiv 80 n. a. 26,79 4,96 0,00 1,19 eval FOLK_E_00053_ SE_01_T_01_DF_01_S_3 Gespräch auf der Urlaubsreise standardsprachlich informell interaktiv 848 n. a. 17,81 23,31 0,10 0,99 train FOLK_E_00056_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 508 Obersächsische Sprachregion 16,97 17,17 0,00 0,80 train FOLK_E_00057_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 502 Obersächsische Sprachregion 12,55 16,33 0,20 2,99 train FOLK_E_00058_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 502 Obersächsische Sprachregion 20,08 28,07 0,00 3,51 train FOLK_E_00059_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 512 Obersächsische Sprachregion 14,93 6,48 0,00 2,36 train FOLK_E_00060_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 513 Obersächsische Sprachregion 13,49 13,69 0,60 3,77 train FOLK_E_00061_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 534 Obersächsische Sprachregion 16,10 4,87 0,00 5,24 train <?page no="399"?> Transkripte des Goldstandards 399 Transkriptausschnitt Kennung DGD Inhalt dialektal vs. Standardsprachlich formell vs. informell diszipliniert vs. interaktiv Anzahl Token Ort d. Aufnahme Normalisierungsrate in % Overlaprate in % Alternativ-Transkription in % Disfluencies % Trainings- und Evaluationsset FOLK_E_00062_ SE_01_T_01_DF_01_S_1 Prüfungsgespräch standardsprachlich formell diszipliniert 507 Obersächsische Sprachregion 11,08 3,85 0,00 0,67 train FOLK_E_00064_ SE_01_T_01_DF_01_S_4 Stuttgart 21 Schlichtungsgespräch dialektal formell diszipliniert 1.036 Schwäbische Sprachregion 11,08 3,85 0,00 0,67 train FOLK_E_00064_ SE_01_T_02_DF_01_S_5 Stuttgart 21 Schlichtungsgespräch dialektal formell diszipliniert 1.015 Schwäbische Sprachregion 18,40 14,40 0,00 0,00 train FOLK_E_00064_ SE_01_T_06_DF_01_S_1 Stuttgart 21 Schlichtungsgespräch dialektal formell diszipliniert 1.013 Schwäbische Sprachregion 11,08 3,85 0,00 0,67 train FOLK_E_00064_ SE_01_T_07_DF_01_S_2 Stuttgart 21 Schlichtungsgespräch dialektal formell diszipliniert 1.009 Schwäbische Sprachregion 11,08 3,85 0,00 0,67 train FOLK_E_00064_ SE_01_T_09_DF_01_S_3 Stuttgart 21 Schlichtungsgespräch dialektal formell diszipliniert 1.001 Schwäbische Sprachregion 11,08 3,85 0,00 0,67 train FOLK_E_00066_ SE_01_T_01_DF_01_S_2 Alltags-Interaktion (Gartengespräch) standardsprachlich informell interaktiv 533 Alemannische Sprachregion 22,58 20,16 0,00 0,97 train FOLK_E_00066_ SE_01_T_04_DF_01_S_1 Alltags-Interaktion (Gartengespräch) standardsprachlich informell interaktiv 502 Alemannische Sprachregion 22,58 20,16 0,00 0,97 eval FOLK_E_00069_ SE_01_T_04_DF_01_S_1 Stuttgart 21 Schlichtungsgespräch dialektal formell diszipliniert 1.057 Schwäbische Sprachregion 11,04 6,10 0,08 1,18 train FOLK_E_00069_ SE_01_T_05_DF_01_S_2 Stuttgart 21 Schlichtungsgespräch dialektal formell diszipliniert 1.050 Schwäbische Sprachregion 11,04 6,10 0,08 1,18 train FOLK_E_00069_ SE_01_T_06_DF_01_S_3 Stuttgart 21 Schlichtungsgespräch dialektal formell diszipliniert 1.011 Schwäbische Sprachregion 11,04 6,10 0,08 1,18 eval FOLK_E_00069_ SE_01_T_07_DF_01_S_4 Stuttgart 21 Schlichtungsgespräch dialektal formell diszipliniert 1.057 Schwäbische Sprachregion 11,04 6,10 0,08 1,18 train FOLK_E_00069_ SE_01_T_08_DF_01_S_5 Stuttgart 21 Schlichtungsgespräch dialektal formell diszipliniert 1.085 Schwäbische Sprachregion 11,04 6,10 0,08 1,18 train FOLK_E_00076_ SE_01_T_01_DF_01_S_1 Eltern-Kind-Vorleseinteraktion standardsprachlich informell diszipliniert 501 Rheinfränkische Sprachregion 13,57 0,40 0,20 0,60 eval_lerner <?page no="400"?> Anhang 400 Transkriptausschnitt Kennung DGD Inhalt dialektal vs. Standardsprachlich formell vs. informell diszipliniert vs. interaktiv Anzahl Token Ort d. Aufnahme Normalisierungsrate in % Overlaprate in % Alternativ-Transkription in % Disfluencies % Trainings- und Evaluationsset FOLK_E_00086_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 507 Ripuarische Sprachregion 17,50 6,76 0,20 0,60 eval FOLK_E_00087_ SE_01_T_01_DF_01_S_1 Maptask dialektal informell diszipliniert 503 Ostfränkische Sprachregion 24,50 9,36 0,00 1,39 train FOLK_E_00089_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 518 Hessische Sprachregion 14,04 10,72 0,00 1,17 train FOLK_E_00090_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 527 Ostfälische Sprachregion 16,44 11,28 0,00 2,87 train FOLK_E_00091_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 515 Brandenburgische Sprachregion 19,56 7,78 0,40 1,40 train FOLK_E_00093_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 511 Alemannische Sprachregion 22,64 11,22 0,20 3,15 train FOLK_E_00094_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 507 Brandenburgische Sprachregion 17,30 6,76 0,00 0,80 train FOLK_E_00095_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 503 Nordniederdeutsche Sprachregion 13,55 8,76 0,00 2,59 train FOLK_E_00096_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 500 Ripuarische Sprachregion 8,40 2,00 0,00 2,20 train FOLK_E_00097_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 509 Bairische Sprachregion 14,26 24,95 0,00 1,39 train FOLK_E_00098_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 503 Mecklenburg-Vorpommersche Sprachregion 6,97 8,76 0,00 0,00 train FOLK_E_00099_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 507 Nordniederdeutsche Sprachregion 15,84 9,90 0,40 0,79 train FOLK_E_00100_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 505 Nordniederdeutsche Sprachregion 18,22 13,27 0,00 1,19 train <?page no="401"?> Transkripte des Goldstandards 401 Transkriptausschnitt Kennung DGD Inhalt dialektal vs. Standardsprachlich formell vs. informell diszipliniert vs. interaktiv Anzahl Token Ort d. Aufnahme Normalisierungsrate in % Overlaprate in % Alternativ-Transkription in % Disfluencies % Trainings- und Evaluationsset FOLK_E_00101_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 515 Ostfälische Sprachregion 15,40 15,79 0,00 2,92 train FOLK_E_00102_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 505 Ripuarische Sprachregion 16,03 3,61 1,00 0,20 train FOLK_E_00103_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 504 Hessische Sprachregion 15,51 16,50 0,00 2,98 train FOLK_E_00104_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 505 Ripuarische Sprachregion 32,80 10,14 0,20 3,58 train FOLK_E_00105_ SE_01_T_01_DF_01_S_1 Maptask dialektal informell diszipliniert 506 Obersächsische Sprachregion 20,12 17,13 0,20 1,99 train FOLK_E_00106_ SE_01_T_01_DF_01_S_1 Maptask dialektal informell diszipliniert 502 Ostfränkische Sprachregion 21,80 11,80 0,20 3,40 train FOLK_E_00107_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 508 Nordniederdeutsche Sprachregion 10,50 8,71 0,40 1,19 train FOLK_E_00108_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 513 Brandenburgische Sprachregion 10,98 16,86 0,00 2,35 train FOLK_E_00109_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 500 Westfälische Sprachregion 13,80 5,60 0,00 3,20 train FOLK_E_00110_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 503 Ripuarische Sprachregion 21,20 8,80 0,00 3,40 train FOLK_E_00111_ SE_01_T_01_DF_01_S_1 Schichtübergabe standardsprachlich formell diszipliniert 1.007 Rheinfränkische Sprachregion 17,71 17,51 0,10 1,09 train FOLK_E_00112_ SE_01_T_01_DF_01_S_1 Schichtübergabe dialektal formell diszipliniert 1.037 Rheinfränkische Sprachregion 32,10 9,95 0,59 0,68 train FOLK_E_00113_ SE_01_T_01_DF_01_S_1 Schichtübergabe standardsprachlich formell diszipliniert 1.023 Rheinfränkische Sprachregion 19,71 7,16 0,29 1,18 train FOLK_E_00114_ SE_01_T_02_DF_01_S_1 Schichtübergabe standardsprachlich formell diszipliniert 1.036 Rheinfränkische Sprachregion 26,62 20,91 0,00 2,52 train <?page no="402"?> Anhang 402 Transkriptausschnitt Kennung DGD Inhalt dialektal vs. Standardsprachlich formell vs. informell diszipliniert vs. interaktiv Anzahl Token Ort d. Aufnahme Normalisierungsrate in % Overlaprate in % Alternativ-Transkription in % Disfluencies % Trainings- und Evaluationsset FOLK_E_00115_ SE_01_T_01_DF_01_S_1 Schichtübergabe standardsprachlich formell diszipliniert 1.022 Rheinfränkische Sprachregion 19,27 16,91 0,00 1,08 train FOLK_E_00116_ SE_01_T_01_DF_01_S_1 Schichtübergabe standardsprachlich formell diszipliniert 514 Rheinfränkische Sprachregion 24,56 14,04 0,00 1,95 eval FOLK_E_00117_ SE_01_T_01_DF_01_S_1 Schichtübergabe dialektal formell diszipliniert 1.033 Rheinfränkische Sprachregion 25,22 2,62 0,00 0,68 train FOLK_E_00118_ SE_01_T_01_DF_01_S_1 Schichtübergabe standardsprachlich formell diszipliniert 1.040 Rheinfränkische Sprachregion 21,46 8,57 0,10 0,87 train FOLK_E_00120_ SE_01_T_01_DF_01_S_1 Kafka (Deutsch) Wirt.Gym. standardsprachlich formell diszipliniert 504 Schwäbische Sprachregion 9,56 5,18 0,00 0,40 train FOLK_E_00121_ SE_01_T_01_DF_01_S_1 Parabeln (Deutsch) Wirt.Gym. standardsprachlich formell diszipliniert 505 Alemannische Sprachregion 13,77 6,99 0,40 0,20 eval FOLK_E_00123_ SE_01_T_01_DF_01_S_1 Jahresabschluss (BWL) Wirt.Gym. standardsprachlich formell diszipliniert 504 Alemannische Sprachregion 22,02 9,13 0,00 0,40 train FOLK_E_00124_ SE_01_T_02_DF_01_S_1 Benn (Deutsch) Wirt.Gym. standardsprachlich formell diszipliniert 509 Alemannische Sprachregion 14,37 11,81 0,59 0,39 train FOLK_E_00125_ SE_01_T_03_DF_01_S_1 DDR (Geschichte) Wirt.Gym. standardsprachlich formell diszipliniert 503 Alemannische Sprachregion 16,53 2,39 0,00 0,80 train FOLK_E_00127_ SE_01_T_01_DF_01_S_1 Expressionismus (Deutsch) Wirt. Gym. standardsprachlich formell diszipliniert 505 Alemannische Sprachregion 21,58 9,31 0,00 2,18 train FOLK_E_00128_ SE_01_T_02_DF_01_S_1 Abi-Vorbereitung & Bilanzen (BWL) Wirt.Gym. standardsprachlich formell diszipliniert 502 Alemannische Sprachregion 22,36 1,00 0,00 1,20 train FOLK_E_00129_ SE_01_T_02_DF_01_S_1 Sprachbiografisches Interview dialektal formell diszipliniert 1.017 Obersächsische Sprachregion 20,02 19,53 0,00 1,78 train FOLK_E_00130_ SE_01_T_01_DF_01_S_1 Sprachbiografisches Interview standardsprachlich formell diszipliniert 1.010 Thüringische Sprachregion 14,38 3,57 0,00 2,28 train <?page no="403"?> Transkripte des Goldstandards 403 Transkriptausschnitt Kennung DGD Inhalt dialektal vs. Standardsprachlich formell vs. informell diszipliniert vs. interaktiv Anzahl Token Ort d. Aufnahme Normalisierungsrate in % Overlaprate in % Alternativ-Transkription in % Disfluencies % Trainings- und Evaluationsset FOLK_E_00133_ SE_01_T_01_DF_01_S_1 Gespräch beim Umräumen dialektal informell interaktiv 1.024 Schwäbische Sprachregion 26,77 33,33 0,70 0,20 train FOLK_E_00134_ SE_01_T_01_DF_01_S_1 Training in Hilfsorganisation ? informell interaktiv 1.012 Rheinfränkische Sprachregion 25,10 23,31 0,40 0,70 train FOLK_E_00135_ SE_01_T_01_DF_01_S_1 Training in Hilfsorganisation ? informell interaktiv 1.008 Rheinfränkische Sprachregion 23,46 33,70 0,50 1,09 train FOLK_E_00136_ SE_01_T_01_DF_01_S_1 Training in Hilfsorganisation ? informell interaktiv 1.007 Rheinfränkische Sprachregion 27,29 21,61 1,20 0,50 train FOLK_E_00137_ SE_01_T_01_DF_01_S_1 Training in Hilfsorganisation ? informell interaktiv 599 Rheinfränkische Sprachregion 30,72 32,55 0,50 0,50 eval FOLK_E_00138_ SE_01_T_01_DF_01_S_1 Training in Hilfsorganisation ? informell interaktiv 1.004 Rheinfränkische Sprachregion 25,77 18,78 0,30 1,00 train FOLK_E_00139_ SE_01_T_01_DF_01_S_1 Training in Hilfsorganisation ? informell interaktiv 1.001 Rheinfränkische Sprachregion 37,60 34,90 0,10 0,30 train FOLK_E_00140_ SE_01_T_01_DF_01_S_1 Training in Hilfsorganisation ? informell interaktiv 1.006 Rheinfränkische Sprachregion 26,62 16,25 0,00 1,69 train FOLK_E_00141_ SE_01_T_01_DF_01_S_1 Training in Hilfsorganisation ? informell interaktiv 1.008 Rheinfränkische Sprachregion 35,53 36,83 0,90 0,80 train FOLK_E_00142_ SE_01_T_01_DF_01_S_1 Training in Hilfsorganisation ? informell interaktiv 1.037 Rheinfränkische Sprachregion 29,57 19,42 0,00 0,77 train FOLK_E_00143_ SE_01_T_01_DF_01_S_3 Tischgespräch dialektal informell interaktiv 1.041 Rheinfränkische Sprachregion 48,81 47,67 0,29 0,55 train FOLK_E_00143_ SE_01_T_05_DF_01_S_1 Tischgespräch dialektal informell interaktiv 1.023 Rheinfränkische Sprachregion 48,81 47,67 0,29 0,55 train FOLK_E_00143_ SE_01_T_06_DF_01_S_2 Tischgespräch dialektal informell interaktiv 703 Rheinfränkische Sprachregion 48,81 47,67 0,29 0,55 eval FOLK_E_00144_ SE_01_T_01_DF_01_S_1 Lehrer-Lehrer- Feedback standardsprachlich informell interaktiv 1.013 Rheinfränkische Sprachregion 38,70 16,30 0,00 1,80 train <?page no="404"?> Anhang 404 Transkriptausschnitt Kennung DGD Inhalt dialektal vs. Standardsprachlich formell vs. informell diszipliniert vs. interaktiv Anzahl Token Ort d. Aufnahme Normalisierungsrate in % Overlaprate in % Alternativ-Transkription in % Disfluencies % Trainings- und Evaluationsset FOLK_E_00152_ SE_01_T_01_DF_01_S_1 Polizeirevier ? formell diszipliniert 206 Ostfränkische Sprachregion 29,76 29,27 0,00 6,83 eval_lerner FOLK_E_00153_ SE_01_T_01_DF_01_S_1 Polizeirevier ? formell diszipliniert 48 Ostfränkische Sprachregion 22,92 29,17 0,00 0,00 eval_lerner FOLK_E_00154_ SE_01_T_01_DF_01_S_1 Polizeirevier ? formell diszipliniert 44 Ostfränkische Sprachregion 13,64 11,36 0,00 0,00 eval_lerner FOLK_E_00155_ SE_01_T_01_DF_01_S_1 Polizeirevier ? formell diszipliniert 62 Ostfränkische Sprachregion 33,87 4,84 0,00 3,23 eval_lerner FOLK_E_00156_ SE_01_T_01_DF_01_S_1 Polizeirevier ? formell diszipliniert 210 Ostfränkische Sprachregion 20,19 8,17 0,96 0,00 eval_lerner FOLK_E_00157_ SE_01_T_01_DF_01_S_1 Polizeirevier ? formell diszipliniert 210 Ostfränkische Sprachregion 15,31 10,53 0,00 5,74 eval_lerner FOLK_E_00158_ SE_01_T_01_DF_01_S_1 Polizeirevier ? formell diszipliniert 203 Ostfränkische Sprachregion 17,00 7,50 0,00 3,00 eval_lerner FOLK_E_00159_ SE_01_T_01_DF_01_S_1 Polizeirevier ? formell diszipliniert 59 Ostfränkische Sprachregion 28,81 11,86 0,00 10,17 eval_lerner FOLK_E_00160_ SE_01_T_02_DF_01_S_1 Polizeirevier ? formell diszipliniert 216 Ostfränkische Sprachregion 12,56 18,60 0,47 0,93 eval_lerner FOLK_E_00161_ SE_01_T_02_DF_01_S_1 Alltags-Interaktion (Plattdeutsch) dialektal informell interaktiv 1.006 Nordniederdeutsche Sprachregion 24,91 21,38 0,25 0,60 train FOLK_E_00161_ SE_01_T_04_DF_01_S_2 Alltags-Interaktion (Plattdeutsch) dialektal informell interaktiv 1.013 Nordniederdeutsche Sprachregion 24,91 21,38 0,25 0,60 train FOLK_E_00166_ SE_01_T_02_DF_01_S_1 Klausurbesprechung (BWL) Wirt. Gym. dialektal formell diszipliniert 506 Alemannische Sprachregion 34,40 4,60 0,00 0,40 eval FOLK_E_00176_ SE_01_T_01_DF_01_S_1 Sprachbiografisches Interview dialektal formell diszipliniert 1.016 Obersächsische Sprachregion 22,09 8,26 0,00 1,39 train <?page no="405"?> Transkripte des Goldstandards 405 Transkriptausschnitt Kennung DGD Inhalt dialektal vs. Standardsprachlich formell vs. informell diszipliniert vs. interaktiv Anzahl Token Ort d. Aufnahme Normalisierungsrate in % Overlaprate in % Alternativ-Transkription in % Disfluencies % Trainings- und Evaluationsset FOLK_E_00177_ SE_01_T_01_DF_01_S_1 Sprachbiografisches Interview standardsprachlich formell diszipliniert 1.013 Thüringische Sprachregion 20,30 6,07 0,00 2,49 train FOLK_E_00178_ SE_01_T_02_DF_01_S_1 Sprachbiografisches Interview dialektal formell diszipliniert 1.007 Bairische Sprachregion 18,88 13,49 0,00 2,50 train FOLK_E_00179_ SE_01_T_02_DF_01_S_1 Sprachbiografisches Interview dialektal formell diszipliniert 1.064 Obersächsische Sprachregion 24,74 13,92 0,09 1,79 train FOLK_E_00180_ SE_01_T_01_DF_01_S_1 Sprachbiografisches Interview standardsprachlich formell diszipliniert 1.030 Ripuarische Sprachregion 16,83 7,05 0,00 2,94 train FOLK_E_00181_ SE_01_T_01_DF_01_S_1 Sprachbiografisches Interview standardsprachlich formell interaktiv 1.001 Nordniederdeutsche Sprachregion 15,00 25,60 0,00 0,70 eval FOLK_E_00182_ SE_01_T_02_DF_01_S_1 Sprachbiografisches Interview standardsprachlich formell interaktiv 1.005 Moselfränkische Sprachregion 21,88 28,77 0,00 1,30 train FOLK_E_00183_ SE_01_T_01_DF_01_S_1 Sprachbiografisches Interview dialektal formell interaktiv 1.013 Bairische Sprachregion 29,55 16,12 0,00 0,90 train FOLK_E_00184_ SE_01_T_02_DF_01_S_1 Sprachbiografisches Interview standardsprachlich formell interaktiv 1.031 Nordniederdeutsche Sprachregion 22,66 25,49 0,00 3,22 train FOLK_E_00185_ SE_01_T_02_DF_01_S_1 Sprachbiografisches Interview standardsprachlich formell interaktiv 1.025 Alemannische Sprachregion 16,70 16,70 0,00 2,54 train FOLK_E_00186_ SE_01_T_02_DF_01_S_1 Sprachbiografisches Interview standardsprachlich formell diszipliniert 1.004 Bairische Sprachregion 18,36 5,49 0,00 2,30 train FOLK_E_00187_ SE_01_T_02_DF_01_S_1 Sprachbiografisches Interview standardsprachlich formell interaktiv 1.030 Ripuarische Sprachregion 12,34 17,98 0,00 1,65 train FOLK_E_00188_ SE_01_T_01_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 511 Ripuarische Sprachregion 20,16 11,98 0,00 3,59 train FOLK_E_00189_ SE_01_T_02_DF_01_S_1 Maptask standardsprachlich informell diszipliniert 509 Nordniederdeutsche Sprachregion 18,29 18,29 0,00 3,38 train <?page no="406"?> Anhang 406 6.4 Heatmap - Plots der Annotationsdifferenzen Transkript FOLK_E_00004_SE_01_T_01_DF_01_S_1 FOLK_E_00024_SE_01_T_03_DF_01_S_1 <?page no="407"?> Heatmap-Plots der Annotationsdifferenzen 407 FOLK_E_00032_SE_01_T_01_DF_01_S_1 FOLK_E_00040_SE_01_T_01_DF_01_S_3 <?page no="408"?> Anhang 408 FOLK_E_00043_SE_01_T_01_DF_01_S_3 FOLK_E_00046_SE_01_T_01_DF_01_S_3 <?page no="409"?> Heatmap-Plots der Annotationsdifferenzen 409 FOLK_E_00053_SE_01_T_01_DF_01_S_2 FOLK_E_00066_SE_01_T_04_DF_01_S_1 <?page no="410"?> Anhang 410 FOLK_E_00069_SE_01_T_06_DF_01_S_3 FOLK_E_00086_SE_01_T_01_DF_01_S_1 <?page no="411"?> Heatmap-Plots der Annotationsdifferenzen 411 FOLK_E_00116_SE_01_T_01_DF_01_S_1 FOLK_E_00121_SE_01_T_01_DF_01_S_1 <?page no="412"?> Anhang 412 FOLK_E_00137_SE_01_T_01_DF_01_S_1 FOLK_E_00143_SE_01_T_06_DF_01_S_2 <?page no="413"?> Heatmap-Plots der Annotationsdifferenzen 413 FOLK_E_00166_SE_01_T_02_DF_01_S_1 FOLK_E_00181_SE_01_T_01_DF_01_S_1 <?page no="414"?> Anhang 414 6.5 Plots für Annotationsunterschiede einzelner Tags <?page no="415"?> Plots für Annotationsunterschiede einzelner Tags 415 <?page no="416"?> Anhang 416 <?page no="417"?> Plots für Annotationsunterschiede einzelner Tags 417 <?page no="418"?> Studien zur Deutschen Sprache Forschungen des Instituts für Deutsche Sprache herausgegeben von Arnulf Deppermann, Stefan Engelberg, Andreas Witt und Angelika Wöllstein Aktuelle Bände: Frühere Bände finden Sie unter: http: / / www.narr-shop.de/ reihen/ s/ studien-zurdeutschen-sprache.html 52 Arnulf Deppermann / Ulrich Reitemeier / Reinhold Schmitt / Thomas Spranz-Fogasy Verstehen in professionellen Handlungsfeldern 2010, 392 Seiten €[D] 88,- ISBN 978-3-8233-6519-8 53 Gisella Ferraresi Konnektoren im Deutschen und im Sprachvergleich Beschreibung und grammatische Analyse 2011, 350 Seiten €[D] 78,- ISBN 978-3-8233-6558-7 54 Anna Volodina Konditionalität und Kausalität im Deutschen Eine korpuslinguistische Studie zum Einfluss von Syntax und Prosodie auf die Interpretation komplexer Äußerungen 2011, 288 Seiten €[D] 78,- ISBN 978-3-8233-6559-4 55 Annette Klosa (Hrsg.) elexiko Erfahrungsberichte aus der lexikografischen Praxis eines Internetwörterbuchs 2011, 211 Seiten €[D] 72,- ISBN 978-3-8233-6599-0 56 Antje Töpel Der Definitionswortschatz im einsprachigen Lernerwörterbuch des Deutschen Anspruch und Wirklichkeit 2011, 432 Seiten €[D] 98,- ISBN 978-3-8233-6631-7 57 Ludwig M. Eichinger / Albrecht Plewnia / Melanie Steinle (Hrsg.) Sprache und Integration Über Mehrsprachigkeit und Migration 2011, 253 Seiten €[D] 72,- ISBN 978-3-8233-6632-4 58 Inken Keim / Necmiye Ceylan / Sibel Ocak / Emran Sirim Heirat und Migration aus der Türkei Biografische Erzählungen junger Frauen 2012, 343 Seiten €[D] 49,- ISBN 978-3-8233-6633-1 59 Magdalena Witwicka-Iwanowska Artikelgebrauch im Deutschen Eine Analyse aus der Perspektive des Polnischen 2012, 230 Seiten 72,- ISBN 978-3-8233-6703-1 60 Kathrin Steyer (Hrsg.) Sprichwörter multilingual Theoretische, empirische und angewandte Aspekte der modernen Parömiologie 2012, 470 Seiten €[D] 98,- ISBN 978-3-8233-6704-8 <?page no="419"?> 61 Ludwig M. Eichinger / Albrecht Plewnia / Christiane Schoel / Dagmar Stahlberg (Hrsg.) Sprache und Einstellungen Spracheinstellungen aus sprachwissenschaftlicher und sozialpsychologischer Perspektive. Mit einer Sprachstandserhebung zum Deutschen von Gerhard Stickel 2012, 370 Seiten €[D] 88,- ISBN 978-3-8233-6705-5 62 Heiko Hausendorf / Lorenza Mondada / Reinhold Schmitt (Hrsg.) Raum als interaktive Ressource 2012, 400 Seiten €[D] 88,- ISBN 978-3-8233-6706-2 63 Annette Klosa (Hrsg.) Wortbildung im elektronischen Wörterbuch 2013, 279 Seiten €[D] 78,- ISBN 978-3-8233-6737-6 64 Reinhold Schmitt Körperlich-räumliche Aspekte der Interaktion 2013, II, 334 Seiten €[D] 88,- ISBN 978-3-8233-6738-3 65 Kathrin Steyer Usuelle Wortverbindungen Zentrale Muster des Sprachgebrauchs aus korpusanalytischer Sicht 2014, II, 390 Seiten €[D] 88,- ISBN 978-3-8233-6806-9 66 Iva Kratochvílová / Norbert Richard Wolf (Hrsg.) Grundlagen einer sprachwissenschaftlichen Quellenkunde 2013, 384 Seiten €[D] 88,- ISBN 978-3-8233-6836-6 67 Katrin Hein Phrasenkomposita im Deutschen Empirische Untersuchung und konstruktionsgrammatische Modellierung 2015, 510 Seiten €[D] 98,- ISBN 978-3-8233-6921-9 68 Stefan Engelberg / Meike Meliss / Kristel Proost / Edeltraud Winkler (Hrsg.) Argumentstruktur zwischen Valenz und Konstruktion 2015, 497 Seiten €[D] 128,- ISBN 978-3-8233-6960-8 69 Nofiza Vohidova Lexikalisch-semantische Graduonymie Eine empirisch basierte Arbeit zur lexikalischen Semantik 2016, ca. 340 Seiten €[D] ca. 88,- ISBN 978-3-8233-6959-2 70 Marek Konopka / Eric Fuß Genitiv im Korpus Untersuchungen zur starken Flexion des Nomens im Deutschen 2016, 283 Seiten €[D] 108,- ISBN 978-3-8233-8024-5 71 Eva-Maria Putzier Wissen - Sprache - Raum Zur Multimodalität der Interaktion im Chemieunterricht 2016, 282 Seiten €[D] 108,- ISBN 978-3-8233-8032-0 72 Heiko Hausendorf / Reinhold Schmitt / Wolfgang Kesselheim Interaktionsarchitektur, Sozialtopographie und Interaktionsraum 2016, 452 Seiten €[D] 138,- ISBN 978-3-8233-8070-2 <?page no="420"?> 73 Irmtraud Behr / Anja Kern / Albrecht Plewnia / Jürgen Ritte (Hrsg.) Wirtschaft erzählen Narrative Formatierungen von Ökonomie 2017, 278 Seiten €[D] 108,- ISBN 978-3-8233-8072-6 74 Arnulf Deppermann / Nadine Proske / Arne Zeschel (Hrsg.) Verben im interaktiven Kontext Bewegungsverben und mentale Verben im gesprochenen Deutsch 2017, 494 Seiten €[D] 128,- ISBN 978-3-8233-8105-1 75 Nadine Schimmel-Fijalkowytsch Diskurse zur Normierung und Reform der deutschen Rechtschreibung Eine Analyse von Diskursen zur Rechtschreibreform unter soziolinguistischer und textlinguistischer Perspektive 2017, 404 Seiten €[D] 128,- ISBN 978-3-8233-8106-8 76 Eric Fuß / Angelika Wöllstein (Hrsg.) Grammatiktheorie und Grammatikographie 2018, 265 Seiten €[D] 108,- ISBN 978-3-8233-8107-5 77 Jarochna D ą browska-Burkhardt / Ludwig M. Eichinger / Uta Itakura (Hrsg.) Deutsch: lokal - regional - global 2017, 474 Seiten €[D] 138,- ISBN 978-3-8233-8132-7 78 Karoline Kreß Das Verb machen im gesprochenen Deutsch Bedeutungskonstitution und interaktionale Funktionen 2017, 396 Seiten €[D] 128,- ISBN 978-3-8233-8153-2 79 Kathrin Steyer (Hrsg.) Sprachliche Verfestigung Wortverbindungen, Muster, Phrasem- Konstruktionen. 2018, 350 Seiten €[D] 118,- ISBN 978-3-8233-8216-4 80 Eric Fuß / Marek Konopka Grammatik im Korpus Korpuslinguistisch-statistische Analysen morphosyntaktischer Variationsphänomene 2019, 357 Seiten €[D] 128,- ISBN 978-3-8233-8257-7 81 Patrick Brandt Discomposition Redressed Hidden Change, Modality, and Comparison in German 2019, 304 Seiten €[D] 118,- ISBN 978-3-8233-8243-0 82 Christian Lang, Roman Schneider, Horst Schwinn, Karolina Suchowolec, Angelika Wöllstein (Hrsg.) Grammatik und Terminologie Beiträge zur ars grammatica 2017 2020, 264 Seiten €[D] 108,- ISBN 978-3-8233-8293-5 83 Swantje Westpfahl POS-Tagging für Transkripte gesprochener Sprache Entwicklung einer automatisierten Wortarten- Annotation am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) 2020, 418 Seiten €[D] 118,- ISBN 978-3-8233-8361-1 <?page no="421"?> ISBN 978-3-8233-8361-1 Der Band leistet eine theoretisch begründete und empirisch validierte Entwicklung einer automatisierten Wortartenannotation (Part-of-Speech-Tagging) für Transkripte spontansprachlicher Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), das über die Datenbank für Gesprochenes Deutsch der Forschungsgemeinschaft öffentlich zugänglich ist. Dabei setzt er zwei Schwerpunkte: erstens die theoretische Aufarbeitung von Unterschieden von Transkripten gesprochener Sprache zu schriftsprachlichen Daten in Hinblick auf die Entwicklung eines Tagsets für das gesprochene Deutsch; zweitens die Darstellung der empirischen Arbeitsschritte zur Erstellung des automatisierten Part-of-Speech-Taggings, d. h. die Implementierung und Evaluierung für die Annotation des FOLK-Korpus. Der Band ist eine kritische Reflexion der Wortartentheorien im Spannungsfeld zwischen Theorie und datengeleiteter Arbeit. Er gibt Einblicke über die Korpusaufbereitung von Transkripten gesprochener Sprache und stellt diese in Bezug zu Theorien über die Eigenheiten gesprochener Sprache. Die Autorin hat für ihre Arbeit 2020 den Peter-Roschy-Preis des Vereins der Freunde des Leibniz-Instituts für Deutsche Sprache erhalten. Swantje Westpfahl POS-Tagging für Transkripte gesprochener Sprache 83 STUDIEN ZUR DEUTSCHEN SPRACHE FORSCHUNGEN DES INSTITUTS FÜR DEUTSCHE SPRACHE Entwicklung einer automatisierten Wortarten-Annotation am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) POS-Tagging für Transkripte gesprochener Sprache Swantje Westpfahl 18361_Umschlag.indd Alle Seiten 18361_Umschlag.indd Alle Seiten 18.02.2020 08: 53: 26 18.02.2020 08: 53: 26