Grundlagen einer sprachwissenschaftlichen Quellenkunde
1002
2013
978-3-8233-7836-5
978-3-8233-6836-6
Gunter Narr Verlag
Prof. Dr. Iva Kratochvílová
Prof. Dr. Norbert Richard Wolf
Jedes sprachwissenschaftliche Projekt braucht als Grundlage sprachliche Daten - dies dürfte unstrittig sein. Die entscheidende Frage aber ist, wie man zu sprachlichen Daten kommt. Im Gegensatz etwa zur Geschichtswissenschaft hat die Sprachwissenschaft ihre Quellen für die zu interpretierenden Daten bislang nur ansatzweise reflektiert; eine "sprachwissenschaftliche Quellenkunde" steckt ebenfalls in den Kinderschuhen.
Im Oktober 2011 sind deutsche und tschechische Sprachwissenschaftler/innen zur II. Internationalen Konferenz "Korpuslinguistik Deutsch-Tschechisch kontrastiv" zusammengekommen, um genau diese Frage zu diskutieren. Das Ergebnis ist ein neues Kompendium, das die unterschiedlichen Möglichkeiten der Datengewinnung darstellt und ausprobiert. Dabei werden theoretische, technische und praktische Fragen der Datenanalyse erörtert und Lösungswege gezeigt. Im Zentrum nahezu aller Beiträge stehen authentische Texte sowie Analyse und Interpretation der aus den Texten gewonnenen Daten.
<?page no="0"?> Iva Kratochvílová / Norbert Richard Wolf (Hrsg.) Grundlagen einer sprachwissenschaftlichen Quellenkunde Studien zur Deutschen Sprache F O R S C H U N G E N D E S I N S T I T U T S F Ü R D E U T S C H E S P R A C H E <?page no="1"?> S T U D I E N Z U R D E U T S C H E N S P R A C H E 6 6 <?page no="2"?> Studien zur Deutschen Sprache F O R S C H U N G E N D E S I N S T I T U T S F Ü R D E U T S C H E S P R A C H E Herausgegeben von Arnulf Deppermann, Stefan Engelberg und Ulrich Hermann Waßner Band 66 <?page no="3"?> Iva Kratochvílová / Norbert Richard Wolf (Hrsg.) Grundlagen einer sprachwissenschaftlichen Quellenkunde <?page no="4"?> Redaktion: Dr. Sabine Krome Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. © 2013 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Gedruckt auf säurefreiem und alterungsbeständigem Werkdruckpapier. Internet: http: / / www.narr.de E-Mail: info@narr.de Layout: Roman Bold & Black, Köln Druck und Bindung: Hubert & Co., Göttingen Printed in Germany ISSN 0949-409X ISBN 978-3-8233-6836-6 <?page no="5"?> Dem Andenken an Hans Wellmann (3.6.1936 - 1.3.2012), den Freund und Kollegen <?page no="7"?> Inhalt Vorwort ....................................................................................................... 11 Zur Einleitung Iva Kratochvílová DeuCze: Von der Struktur und der Benutzbarkeit eines kleinen zweisprachigen Korpus .............................................................................. 15 Marc Kupietz/ Elena Frick Korpusanalyseplattform der nächsten Generation ...................................... 27 (Meta-)Lexikographie Annette Klosa Primäre, sekundäre und tertiäre Quellen in der Lexikographie .................. 37 Sabine Krome Digitale Datenflut: Chancen und Tücken eines Textkorpus zur deutschen Gegenwartssprache. Anforderungsprofil, Methoden und Instrumentarien zur Beobachtung des aktuellen Sprach- und Schreibgebrauchs ................. 49 Hans Wellmann Muster der Adjektivderivation in alten und neuen Korpora - und ihre Reflexe im Wörterbuch ................................................................ 67 Hana Bergerová Phraseographie im Lichte sprachwissenschaftlicher Quellenkunde. Oder: Aus welchen Quellen kann ein zweisprachiges phraseologisches Lernerwörterbuch gespeist werden? ........................................................... 85 Helge Goldhahn Grundlagen für das Deutsch-tschechische Wörterbuch der Phraseologismen und festgeprägten Wendungen ....................................... 99 Agnes Goldhahn Korpusgeleitete Lexikographie: Das Häufigkeitswörterbuch der deutschen Gegenwartssprache ........................................................... 103 <?page no="8"?> 8 Inhalt Gesprochene Sprache Ilka Mindt Gesprochene Korpora des Englischen und ihre Anwendung in der Grammatikforschung ...................................................................... 111 Wilfried Schütte Metadaten für Gesprächsdatenbanken: ein Überblick und ihre Verwaltung in der IDS-Datenbank Gesprochenes Deutsch (DGD) ......... 121 Johannes Schwitalla Tonband und Videokamera als Erkenntnisinstrumente zur Untersuchung mündlicher Kommunikation ....................................... 135 Historische Sprachwissenschaft Hans Ulrich Schmid Korpus und Korpuskel. Diachrone Onomasiologie am Beispiel von Modalverben ...................................................................................... 145 Überlegungen zum Erstellen von Korpora spätmittelalterlicher und frühneuzeitlicher Fachsprachen ......................................................... 159 Vlastimil Brom Zur Quellenkunde in der Geschichtswissenschaft und Linguistik. Historiographische Werke als philologische Quellen ............................... 173 Kleine und große Korpora - Spezialkorpora für Spezialfragen Gabriela Rykalová Kleine Korpora, große Korpora und Textsammlungen. Versuch einer korpustypologischen Zusammenschau .............................. 185 Sven Staffeldt Entschuldigungsmails - oder: Wie und wo findet man einen pragmatischen Standard? .......................................................................... 199 Jana Kusová Variation im Bereich der schwachen Substantive. Wege zur Korpuszusammenstellung und -auswertung ............................................. 219 Jana Valdrová Das unregelmäßige Verb und seine Bildungen im Definitionskorpus des Langenscheidt-Wörterbuchs .............................................................. 247 <?page no="9"?> 9 Inhalt Vít Dovalil Zur Normativität als Problembereich der quantitativen und qualitativen Methodologie ........................................................................ 259 ‘Liebe auf den ersten Blick’ oder ‘Wechselbad der Gefühle’? Phraseologismen in publizistischen (und literarischen) Texten korpusgestützt analysiert .......................................................................... 271 Korpuslinguistische Wege der Untersuchung von Emotionen im Deutschen und Tschechischen ............................................................. 283 Martin Mostýn Zur Rolle von Kleinkorpora in der linguistischen Forschung .................. 299 Thomas Schneider Grundlosigkeit: Anmerkungen zum Problem der Quellen in der Literaturwissenschaft ..................................................................... 317 Korpuslinguistik und/ oder Datenbanklinguistik? Wolf Peter Klein Datenbanklinguistik. Eine Weiterentwicklung der Korpuslinguistik? ..... 333 Dominik Banhold / Claudia Blidschun Die Datenbank ZweiDat: Sprachliche Zweifelsfälle in historischer Perspektive ............................................................................................... 343 Peter Stahl / Ralf Zimmermann Die Datenbank Digitale Volltexte zur Geschichte der deutschen Fach- und Wissenschaftssprache. Eine bibliographische Sammlung digitalisierter deutscher Fachtexte vom Mittelalter bis zur frühen Neuzeit .................... 359 Die Probe auf’s Exempel Norbert Richard Wolf Text(e) lesen und (danach) Korpora analysieren: Grundlagen einer verstehenden sprachwissenschaftlichen Textanalyse ............................... 369 Register ..................................................................................................... 379 <?page no="11"?> Vorwort Das Kompendium Korpuslinguistik 1 hat zum ersten Mal einen Überblick über Forschungsmethoden und aktuelle, vor allem deutsch-tschechische Projekte geboten. In den theoretischen Beiträgen zu diesem Band (vor allem Kratochvílová/ Wolf und Eichinger) wurde ein spezielles Problem allen sprachwissenschaftlichen Arbeitens angesprochen: Jedes Projekt braucht als Grundlage Daten; dies dürfte unstrittig sein. Die entscheidende Frage aber ist die, wie man zu sprachlichen Daten kommt. Im Gegensatz etwa zur Geschichtswissenschaft hat die Sprachwissenschaft ihre Quellen für die zu interpretierenden Daten bislang nur ansatzweise reflektiert; eine ‘sprachwissenschaftliche Quellenkunde’ steckt allenfalls in den Kinderschuhen. Dennoch hat sich mittlerweile eine ‘Korpuslinguistik’ etabliert, die bestrebt ist, einerseits auf ‘Korpora’ als einen Typus möglicher Datenquellen aufmerksam zu machen, ‘Korpora’ als Datenquellen zu definieren; andererseits arbeitet ein Teil der ‘Korpuslinguisten(-innen)’ daran, große Textkorpora mit allem, was dazu gehört, zusammen- und der wissenschaftlichen Gemeinschaft zur Verfügung zu stellen. So gesehen, wird unter einem ‘Korpus’ eine feste Sammlung von - häufig zahlreichen - Texten verstanden, die maschinenlesbar zur Verfügung steht und mit Annotationen und Meta-Daten versehen ist. Die Technik erlaubt es, die gewonnenen Daten ‘exhaustiv’, ‘frequenzorientiert’ und ‘kontextsensitiv’ zu analysieren und zu interpretieren. Ein Problem taucht bei jedem korpuslinguistischen Arbeiten auf: Es wird nur das analysiert und beschrieben, was sich im Korpus findet. Unter Umständen theoretisch hochinteressante Phänomene, die in einer Belegsammlung wie dem alten Zettelkasten als Lesefrüchte gespeichert waren, können im Korpus nicht auftauchen. Zudem hat Hans Wellmann im Kompendium gezeigt, dass ein Wörterbuchmacher ein Stichwort oder eine Bedeutungsvariante nicht in ein (Lerner-)Wörterbuch aufzunehmen hat, selbst wenn es in einem Korpus häufig belegt ist. Mit anderen Worten, die Belegfrequenz kann nicht das einzige Kriterium für eine bestimmte Interpretation oder Hypothese sein. Glücklicherweise ist der sprachwissenschaftliche Sachverstand (noch? ) nicht ersetzt - und wird es unserer Meinung nach zukünftig auch nicht werden. 1 Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.) (2010): Kompendium Korpuslinguistik. Eine Bestandsaufnahme aus deutsch-tschechischer Perspektive. (= Germanistische Bibliothek 38). Heidelberg . <?page no="12"?> 12 Vorwort Es hat sich gezeigt oder bestätigt, dass für jede Untersuchung ein eigenes, ein spezielles Korpus zugrunde gelegt werden muss. Selbst wenn man auf eines der großen öffentlichen Korpora zurückgreift, muss dies gerechtfertigt werden. Andererseits ist auch immer zu prüfen, welche Texte in welcher Form in ein Korpus aufgenommen werden. Immer wieder muss geprüft werden, ob ‘Große’ und ‘Kleine Korpora’ als Korpora brauchbar sind und auch kombiniert werden können/ müssen. Beim derzeitigen rasanten technischen Fortschritt stellt sich stets aufs Neue die Frage, mit welchen technischen Mitteln die Daten gespeichert und welche Meta- Daten und Annotationen angebracht werden sollen. Auch die Frage ‘korpusbasiert’ vs. ‘korpusgeleitet’ muss immer wieder zur Sprache kommen. Bereits im Kompendium aber finden wir Ansätze zu einem erweiterten Korpus- Verständnis: Sowohl Sprach-/ Dialektatlanten als auch Datenbanken sind unter bestimmten Bedingungen als Datenquellen für korpuslinguistisches Arbeiten geeignet. Es ist dies ein Ansatz, der jetzt von Wolf Peter Klein in verstärktem Maße im Sinn einer ‘Datenbanklinguistik’ aufgegriffen wird. Mit anderen Worten: Auch wenn das Kompendium bereits viele Fragen beantwortet, es wirkt in erster Linie doch anregend und nicht erschöpfend. Deshalb haben sich zum zweiten Mal zahlreiche Sprachwissenschaftler(-innen) aus der Tschechischen Republik und aus Deutschland vom 25. bis 27. Oktober 2011 zur ‘II. Internationalen Konferenz „Korpuslinguistik Deutsch-Tschechisch kontrastiv“’ im Bildungshaus Sambachshof und an der Julius-Maximilians- Universität Würzburg zusammengefunden, um gemeinsam Antworten auf die grundsätzliche Frage nach den ‘Grundlagen einer sprachwissenschaftlichen Quellenkunde’ zu erarbeiten. Die Antworten sind so vielfältig wie die zugrundeliegenden Projekte und Forschungsaufgaben. Ermöglicht wurden diese Zusammenkunft und die gemeinsame Arbeit durch die Gemeinnützige Hermann-Niermann-Stiftung, Düsseldorf, ohne deren Munifizenz so vieles nicht möglich geworden wäre. Die spezielle Atmosphäre im Bildungszentrum Sambachshof (bei Bad Königshofen) schafft überdies die Grundlage für gedeihliches Arbeiten und kollegiale Gespräche. Dem Institut für Deutsche Sprache in Mannheim, das in der Korpuslinguistik eine wichtige Rolle spielt, danken wir für die Aufnahme dieses Bandes in die renommierten Schriften zur deutschen Sprache und für vielerlei Hilfe. An beiden deutsch-tschechischen korpuslinguistischen Konferenzen hat Hans Wellmann teilgenommen und sie nicht nur durch seine fachliche Kompetenz, <?page no="13"?> 13 Vorwort sondern viel mehr noch durch seine einzigartige Fähigkeit, auf jeden Menschen kollegial und freundschaftlich zuzugehen, und durch seinen feinen Humor ganz wesentlich geprägt. Am 1. März 2012 ist Hans Wellmann verstorben. Er hinterlässt eine Lücke, die wohl kaum zu füllen sein wird. Aus vielen Gründen werden wir ihn nicht vergessen; für den vorliegenden Band hat uns Jana Valdrová, Hans Wellmanns Frau, das Manuskript seines Vortrags zur Verfügung gestellt. Dieser Beitrag ist Hans Wellmanns letzter Beitrag für unser Fach; er hat, nicht nur für uns, den Charakter eines Vermächtnisses. Es ist uns eine Ehre und eine Verpflichtung, dass wir diesen Beitrag veröffentlichen dürfen. Der vorliegende Band sei dem Andenken an Hans Wellmann gewidmet, den keiner von uns vergessen wird. Würzburg und Opava Iva Kratochvílová im April 2013 Norbert Richard Wolf <?page no="15"?> Iva Kratochvílová DeuCze: Von der Struktur und der Benutzbarkeit eines kleinen zweisprachigen Korpus 1. Einleitung Überlegungen über Datenquellen und Datenstrukturierung aus der Sicht der Korpuslinguistik stützen sich trotz ihrer aktuellen Variationsbreite nach wie vor auf zwei Prinzipien: 1. „Alles, was man wissen muss, um eine Sprache zu gewinnen, zu verstehen und zu vermitteln, steckt in der Sprache selbst.“ (Perkuhn/ Belica 2006, S. 7) 2. „Die Sprache sieht etwas anders aus, wenn man sich viel von ihr auf einmal ansieht.“ (Sinclair 1991, S. 100) Aus diesen beiden Zitaten ist zu folgern: 1) Für unsere sprachwissenschaftliche Tätigkeit benötigen wir authentische Daten, die wir dann zu analysieren und zu interpretieren haben. 2) Wir dürfen uns nicht nur auf Einzelfälle berufen, sondern wir müssen immer zahlreiche Daten und ihre Kontexte heranziehen. Wenn wir nun von authentischen Daten in größerer Zahl sprechen, dann verbietet sich als Erstes der Rückgriff auf die Intuition des Sprachwissenschaftlers; wir müssen viel mehr an Belegsammlungen/ wie der alte Zettelkasten oder/ und Textkorpora denken. Unsere Konferenz vor zwei Jahren hat deutlich und eindeutig gezeigt, dass zahlreiche Felder sprachwissenschaftlicher Tätigkeit ohne Korpora nicht denkbar sind. So gesehen definiert sich die Korpuslinguistik als: Beschreibung von Äußerungen natürlicher Sprachen, ihrer Elemente und Strukturen und die darauf aufbauende Theoriebildung auf der Grundlage von Analysen authentischer Texte, die in Korpora zusammengefasst sind. (Lemnitzer/ Zinsmeister 2006, S. 9) Die Korpuslinguistik ist, so gesehen, keine Teildisziplin der Sprachwissenschaft, sondern: 1) eine Technik der Datengewinnung und 2) ein methodischer Ansatz zum Umgang mit Daten. <?page no="16"?> 16 Zur Einleitung Das bedeutet auch, dass die Erstellung von Korpora kein Selbstzweck sein soll, sondern dass sie primär dienende Funktion hat; die eigentliche sprachwissenschaftliche Arbeit beginnt erst danach. Da sich die Sprachwissenschaft, wie jede andere moderne Wissenschaft auch, durch überaus differenzierte Fragestellungen definiert, bedarf es zahlreicher Korpora; etwas überspitzt formuliert kann man sagen, dass jede Fragestellung ihr eigenes Korpus nach sich zieht. Natürlich gibt es heute schon zahlreiche große und gut aufbereitete Korpora. Die technischen Voraussetzungen dafür sind vielfältig und wirkungsvoll. Als Grundvoraussetzung für korpuslinguistisches Arbeiten nennt man die Begriffe ‘exhaustiv’ und ‘frequenzorientiert’, so Joybrato Mukherjee in seiner Einführung in die anglistische Korpuslinguistik (Mukherjee 2009). Ein Problem ist hier aber die statistische Repräsentativität, weil es bei Kulturgegenständen prinzipiell schwierig ist, eine Repräsentativität im mathematischen Sinne festzustellen. Bei unseren, den sprachwissenschaftlichen Gegenständen, ist auf alle Fälle eine philologische und historische Repräsentativität von Relevanz. Für das DeuCze-Projekt, um das es ja hier geht, sind die beiden genannten Merkmale - die philologische und historische Repräsentativität besonders wichtig. An dieser Stelle können wir festhalten: Die moderne Technik ermöglicht einfache und schnelle Zahlenergebnisse. Es ist aber unerlässlich, dass sämtliche Daten - ganz gleich wie viele erhoben worden sind - einer qualitativen Tiefanalyse unterzogen werden, die immer auch den Kontext berücksichtigt, das heißt, dass sie textbezogen vorgehen muss. Nur auf diese Weise ist eine komplexe Analyse, d.h. Ermittlung, Klassifizierung, Einordnung und Interpretation der untersuchten Phänomene möglich. 1 Große Korpora, wie etwa das British National Corpus oder das COSMAS- Korpus des IDS, führen zu großen Datenmengen. Für eine Reihe von Fragestellungen etwa zur Semantik von Einzelwörtern, zu textlinguistischen Fragen überhaupt, können mehrere tausend Belege aber zu viel sein, so dass wir in solchen Fällen besser auf kleinere Korpora zurückgreifen. Dies waren die Überlegungen, die wir anstellten, als wir das Projekt DeuCze planten. Es sind jetzt ziemlich genau zehn Jahre her, dass wir ins Auge fassten, ein deutsch-tschechisches Korpus zu erstellen und daran zu arbeiten. Dieses Datum ist deswegen ein willkommener Anlass, Bilanz zu ziehen, weil in der Bilanz und mit ihr sowohl unsere Intentionen als auch das tatsächlich Geleistete und das noch zu Leistende sichtbar werden. 1 Vgl. Scherer (2006), S. 36. <?page no="17"?> 17 DeuCze: Struktur und Benutzbarkeit eines kleinen zweisprachigen Korpus 2. DeuCze: Bereiche und Teilprojekte, Rückblick in die Geschichte, Darstellung der bisherigen Leistung, Perspektiven Das DeuCze-Korpus entstand aus der intensiven Kooperation zwischen dem Lehrstuhl für deutsche Sprachwissenschaft der Universität Würzburg und der Germanistik am Institut für Fremdsprachen der Schlesischen Universität Opava. Am Anfang des gemeinsamen Projektes, dessen Ziel ist, verwandte, in der Gegenwart aber typologisch unterschiedliche Sprachen (Deutsch und Tschechisch) sprachwissenschaftlich zu vergleichen, standen zahlreiche sprachwissenschaftliche Fragestellungen. Im Anschluss an diese Diskussion wurde die Frage erörtert, wie die notwendigen Daten für diese speziellen Fragen gewonnen werden. Auf diese Weise ist die Idee eines ‘kleinen’ Übersetzungskorpus und eines ‘kleinen’ vergleichbaren Kontrastkorpus als Quelle authentischer Texte entstanden. Damit das Übersetzungsmodul nicht durch idiolektale Elemente, die von Autoren oder Übersetzern stammen, dominiert wird, gelten für uns folgende fundamentale Anforderungen an die Auswahl von Texten: 1) Es müssen beide Übersetzungsrichtungen gleichermaßen vertreten sein. 2) Ein Autor und ein Übersetzer dürfen jeweils nur mit einem Text aufgenommen werden. 3) Die Texte sollen frühestens in den 1990er Jahren entstanden sein. 4) Es werden nur Ganztexte ins Korpus aufgenommen. Das DeuCze-Übersetzungkorpus ist bidirektional angelegt, enthält im ausgeglichenen Verhältnis deutsche und tschechische Quellentexte und ihre jeweiligen Übersetzungen in die andere Sprache. Es umfasst knapp eine Million Wortformen. Seine Textpaare sind nach syntaktischen Gesichtspunkten synoptisiert. Es wurden bewusst belletristische Texte höherer Qualität gewählt, weil in diesem Bereich die meisten Übersetzungen zu erwarten sind. Zudem sind wir der Überzeugung, dass gute Literatur die sprachlichen Möglichkeiten extensiver und intensiver nutzt. Es wurden bewusst Originale beider Sprachen und deren Übersetzungen in die jeweils andere Sprache gewählt. Das Ziel unserer Arbeit ist jedoch nicht die Übersetzungskritik, sondern die Beschreibung von Phänomenen einer Sprache und deren Entsprechungen in der anderen Sprache. Wichtig ist dabei, dass die Korpustexte sowohl von unterschiedlichen Autoren <?page no="18"?> 18 Zur Einleitung als auch von unterschiedlichen Übersetzern stammen. Das Ziel ist, einige wenige Texte detailliert und präzise aufzubereiten und gesamthaft zu untersuchen. 2 Das zweite Modul ist in seiner Ausrichtung und Zusammenstellung ein Parallelkorpus, das aus Zeitungstexten in beiden Sprachen zum selben Ereignis besteht. Vom Übersetzungskorpus unterscheidet sich das Parallelkorpus vor allem dadurch, dass die Texte beider Sprachen ihren Ausgang in Meldungen der internationalen Presseagenturen haben. Aus typologischer Sicht ist es ein wichtiger Repräsentant der Spezialkorpora. Es dient der Untersuchung des aktuellen spezialisierten Lexikons aber auch der Untersuchung sozialsprachlicher Phänomene und sprachkultureller Stereotype (vgl. Teubert 1998, S. 128f.). Ein solches Korpus kann in seiner Ausrichtung sehr gut auch den domänenspezifischen Sprachgebrauch erfassen. Ein wichiger Parameter dabei ist die intertextuelle Affinität, die durch thematische oder semantische Bezüge hergestellt wird. Das Prinzip dieses korpusanalytischen Ansatzes ist, dass im Text bzw. im Diskurs, der von Texten gebildet wird, essentielle Schlüsselwörter und ihnen affine lexikalische Einheiten existieren. Diese diskursstiftenden Schlüsselwörter können in bestimmten Fällen Mehrwortcharakter haben. Bei diesem Konzept geht es vor allem darum, dass konkrete textbezogene Bedeutungen als mehr oder weniger monosemierte Lesartbedeutungen und Referenzträger in diskursiven Kollokationen vorkommen, die in bestimmten Kombinationen, in Adjektiv-Substantiv-Komplexen z.B. oder in Kombinationen im nominalen Bereich überhaupt, ihre Inhalte präzisieren. Deshalb ist die kontextgebundene Betrachtung des Lexikons ein wesentliches Mittel zur inhaltlichen Bestimmung der text- und diskursbezogenen Lexik. Ich möchte das bisher Gesagte an einem Beispiel illustrieren: Das Parallelmodul von DeuCze besteht aus Texten zum Irak-Krieg 2003. In diesen Texten wollte ich Kollokationen in beiden Sprachen und deren textuelle Bedingtheit feststellen. Ich bin dabei in mehreren Schritten vorgegangen: 1) Feststellen von ausdruckseitig definierten Wortverbindungen (Bigrammen). 2) Feststellen von Kollokationen als festen oder zumindest erwartbaren Mehrwortverbindungen. 2 Siehe Präsentation auf der Projekt-Leitseite ( www.DeuCze.germanistik.uni-wuerzburg.de ). <?page no="19"?> 19 DeuCze: Struktur und Benutzbarkeit eines kleinen zweisprachigen Korpus 3) Vergleich zwischen den beiden Sprachen. 4) Kontextuelle und diskursive Bedingtheit der Kollokationen. Dies sei mit folgenden Beispielen verdeutlicht: 3 Die häufigste kollokationelle Rekurrenz belegen die Basen Krieg (300) bzw. Irakkrieg (89) und válka (383) mit verbalen Kollokatoren wie válka + rechtfertigen, befürworten, unterstützen, verteidigen, billigen, legitimieren, verhindern, riskieren, abwenden, vermeiden, verzögern, ziehen. Im Falle der tschechischen Texte kollokiert válka mit Verben, die inhaltlich den deutschen Kollokatoren weitgehend entsprechen: vovat, zahájit, legitimizovat, ospravedlnit, odvrátit, hnát, vzdát se, oddálit, vypuknout, . Anders gesagt, die kollokationellen Reihen in beiden Sprachen reflektieren die polarisierte Diskussion über den Krieg im Irak. Aus translatorischer bzw. lexikographischer Sicht ist jedoch die Verbform befürworten in Verbindung mit Krieg auffällig: Das Präsidium beschloss, Krieg als letztes Mittel zur Durchsetzung der UN- Resolutionen zu befürworten. SZ 18. Februar 2003 Nr. 40, Seite 1: „CDU fordert Regierung auf, Erkenntnisse über Terror-Bedrohung offen zu legen/ SPD warnt vor ‘Panikmache’.“ Der erste Treffer bei der tschechisch-deutschen Übersetzungsrichtung wäre mit Sicherheit die Verbform unterstützen, da befürworten Merkmale wie ‘ wohlwollend ’ oder ‘ empfehlend ’ aufweist, wie wir im Wörterbuch Deutsch als Fremdsprache erfahren. Das Wörterbuch wurde deswegen herangezogen, da es explizit Kollokationen verzeichnet. Zu befürworten finden wir als prototypische Basen folgende Substantive: Antrag, Vorschlag, Gesuch, Bitte. Die Verbform befürworten wird definiert als ‘etw., das man für gut hält durch Empfehlung unterstützen, damit es z.B. durch ein Amt realisiert, genehmigt wird’. 4 Ähnliches kollokationelles Verhalten wurde mit Basen wie Einsatz, Truppenentsendung, Militäraktion belegt, z.B. in: Straw sagte der BBC, ‘natürlich ist es für eine Regierung einfacher, mit ihrem Land in den Krieg zu gehen, wenn sie die Öffentlichkeit eindeutig hinter sich hat’. Er glaube aber, dass die Mehrheit der Briten eine Militäraktion befürworten würde, wenn diese von den UN unterstützt werde. SZ 18. Februar 2003, Nr. 40/ S. 7: Straw beeindruckt: Wir müssen die öffentliche Meinung berücksichtigen. Die tschechische Basis operace z.B. wurde mit 98 Belegen registriert, im deutschen Segment befinden sich wesentlich weniger Belege (15). Präferiert 3 Siehe Kratochvílová (2011), S. 266-273. 4 Vgl. Kempcke et al. (2000), S. 115. <?page no="20"?> 20 Zur Einleitung werden Verbindungen mit (-) Aktion, z.B. militärische Aktion und Militäraktion, Kommando-Aktion, Märtyrer-Aktion, terroristische Aktion. Auf distributionelle Disparitäten in den Vergleichssprachen ist auch bei kollokationellen Verbindungen mit Feuer aufmerksam zu machen. Die tschechischen Belege in den Textpaaren verweisen öfters auf den zeitlichen Verlauf der Handlung, z.B. bei + krátká ‘kurz’. Kreuz-, Flugabwehr-, Bus-, Gewehr-, massiv, gegnerisch Feuer eröffnen, (unter) geraten, erwidern, stoppen ! " strhnout se, nastat, odehrát se, trvat " kulometná palba snést se, ozývat se, utichnout Tab. 1: Kollokationsbasis ‘Feuer’ im deutschen und tschechischen Subkorpus Wie die Beispiele aus dem Spezialkorpus zeigen, sind solche Mehrwortverbindungen dann nicht mehr zufällige Kontextualisierungen, sondern sie manifestieren usuellen, frequenziell relevanten Sprachgebrauch und realisieren wesenhafte semantische Beziehungen. 5 Wichtig ist hierbei, dass solche textbezogene Kollokationen durch ihr rekurrentes Vorhandensein in zusammenhängenden Textkomplexen die Inhalte des untersuchten Diskurses ausdrucksseitig mitgestalten. Diese Aspekte werden in Zeitungstexten in erheblichem Maße genutzt, da die stabilitätsichernde Vorhersagbarkeit sich vor allem als kontextuell bedingter Katalysator der Textrezeption auswirkt. Nicht alle belegten Verbindungen, seien es Adjektiv-Substantiv-Verbindungen oder kollokationelle Fügungen im breiteren Sinne, werden daher zu systemischen Kollokationen. Die Systemisierung ist vor allem bei Einheiten mit Terminologisierungskapazität zu erwarten. Das Projekt der korpusbasierten Kollokationsanalyse versuchte plausible Antworten und Erklärungen zu folgenden Fragen zu finden: 1) Können analoge, d.h. referentiell verbundene Texte in mehreren Sprachen korpuslinguistisch untersucht werden? 5 Usuelle Wortverbindungen weisen auf Kontextualisierungs- und Interpretationsmuster hin, indem sie Indikatoren für Äußerungsbedeutungen, für konzeptgebundenes Wissen und für Relationen zu übergeordneten Wissens-Schemata enthalten. (Fraas 2001, S. 18) <?page no="21"?> 21 DeuCze: Struktur und Benutzbarkeit eines kleinen zweisprachigen Korpus 2) Ist es möglich, Kollokationen aus vorgeschlagenen Spezialkorpora automatisch zu extrahieren? Welche Typen von kollokationellen Relationen können mit der automatischen Extrahierung effizient identifiziert werden? 3) Können eventuelle Textsortencharakteristika bei kollokationeller Aktivität festgestellt werden? 4) Wie etablieren sich vor allem ‘ diskursive Kollokationen’ und welche Funktion haben sie als Strukturen der Textorganisation? 5) Können mit Hilfe von Parallelkorpora die jeweiligen sprachsystemischen Unterschiede im Kollokationsverhalten der diskursdominanten Basen festgestellt werden? (vgl. Kratochvílová 2011) Das Suchmodul II des Parallelkorpus DeuCze, das in einem Top-down-Verfahren das Vergleichen von scheinbar Verschiedenem ermöglichte, zeigte sich für diese Fragestellung als ein effektives Mittel der korpusbasierten Kontrastierung der diskursiv gebundenen Texten. Die Erfahrung aus der textbzw. kontextgebundenen Analyse hat unsere Forschungsgruppe zu weiteren textbezogenen Fragen gebracht. Es hat sich nämlich gezeigt, dass die korpusgestützte Sammlung authentischer Daten für die komplexere Textanalyse von Nutzen ist. Es ist für die Korpuslinguistik daher notwendig, Korpora so anzulegen, dass sie in ihrer Zweckhaftigkeit auch bei textlinguistischen bzw. textanalytischen Parameter gut anwendbar werden. Dieser Aufgabe hat sich unsere Forschungsgruppe angenommen und im Rahmen des DeuCze-Projekts eine Reihe textanalytischer Studien veröffentlicht, u.a. im Kompendium Korpuslinguistik, zu dessen Erfolg sie beigetragen haben, oder weitere Studien im textanalytischen Band der Troppauer Schule der sprachwissenschaftlichen Textanalyse ( . Noch eine andere Publikation aus dem DeuCze-Team verdient hier Aufmerksamkeit: Das DeuCze-Projekt hat bekanntlich seine Publikationsplattform, 6 und da erschien die Dissertation von unserem Projektmitglied Josef Molnár unter dem Titel Studien zur Aufbereitung und Auswertung von Korpustexten. 7 Warum ist dies hier explizit zu nennen? Diese Arbeit vereinigt, ähnlich wie die vorhergenannte Kollokationsanalyse, Korpustechnologie und textlinguistische Analyse. Der korpustechnische Teil bereitet ein Textpaar auf, der textlinguistische Teil nutzt die Möglichkeit Topikrelationen und Motivketten in einem um- 6 Schriftenreihe: DeuCze. Korpuslinguistik Deutsch-Tschechisch kontrastiv. http: / / opus.bibliothek. uni-wuerzburg.de/ schriftenreihen_ebene2.php? sr_id=7 (Stand: Juli 2012). 7 Ebd. <?page no="22"?> 22 Zur Einleitung fangreichen Ganztext zu beschreiben; dieser zweite Teil stellt die Entwicklung von Textthemen und Teilthemen dar. Auf diese Weise dokumentiert diese Studie überzeugend die Plausibilität des korpusbasierten textanalytischen Verfahrens. Die zuletzt erwähnten Arbeiten basieren, wie Sie sicher schon gemerkt haben, auf dem Übersetzungsmodul, ebenso die von unserem Forschungsteam in Angriff genommenen Untersuchungen, von denen folgende Forschungsvorhaben zu nennen sind: ! " # $ des Infinitivs im Deutschen und Tschechischen, Gabriela Rykalová die Textfunktionen von Partizipkonstruktionen. Norbert Richard Wolf und ich bearbeiten die semantisch definierten Bereiche der Raum- und der Zeitlinguistik. Diese beiden Bereiche der Zeit- und Raumlinguistik nutzen ein wichtiges Charakteristikum unseres Übersetzungsmoduls: Es besteht aus narrativen Texten. Narration hat als ein Definiens die Zeitreferenz der Vergangenheit. Die Texte müssen also dem Leser die Möglichkeit bieten, die zeitliche Sukzession des erzählten Geschehens zu erkennen und zu rekonstruieren. In diesem Zusammenhang spielen Konnektoren eine wesentliche Rolle. Für die Beschreibung der Konnektoren sind maschinenlesbare Texte besonders nützlich, weil die Konnektoren ‘exhaustiv’ in ihren Kontexten, das heißt auch in ihrer Kooperation mit anderen sprachlichen Zeichen, aufgesucht und interpretiert werden können. Wir sehen hier einen wichtigen Punkt, dass eine korpuslinguistische Textanalyse zunächst semasiologisch - zeichentheoretisch - vorgeht. Weitere Fragen, die sich aus dem Kontext ergeben, wie etwa handlungstheoretische, können und sollen danach gestellt werden. Zur Veranschaulichung nehmen wir als Beispiel ‘temporale Konnektoren’. Konnektoren sind Funktionszeichen, die im Text in der Regel die Aufgabe haben, zwei Textsätze aneinanderzuknüpfen. Sie signalisieren propositionale Relationen zwischen den beiden Sätzen (vgl. Wolf 1981, S. 209f.). In der Regel gehören die Konnektoren der Wortklassen der Konjunktionen oder der Adverbien. Temporale Konnektoren verweisen auf zeitliche bzw. situative Relationen (vgl. ebd.), in unserem Fall auf temporale Konnexrelationen. Als Beispiel wähle ich zunächst die Partikel da. Beginnen wir mit einigen Beispielen aus dem Roman Das kürzere Ende der Sonnenallee von Thomas Brussig, einem Bestandteil des DeuCze-Korpus. (1) Da meldete sich der Kulissenschieber zu Wort. ‘Brecht oder Heiner Müller würden da dialektisch rangehen. Die würden, wenn sie Pollenallergiker wären, eine Eingabe machen und einen Pollen Telefondienst fordern - selbst wenn sie <?page no="23"?> 23 DeuCze: Struktur und Benutzbarkeit eines kleinen zweisprachigen Korpus kein Telefon haben.’ ‘Na und? ’ fragte Herr Kuppisch mißmutig. ‘Was hätte Brecht davon? Dann gäb's einen Telefonservice, aber er hätte immer noch kein Telefon. Dann hat sich's mit der Dialektik.’ ‘Nicht ganz! ’ sagte der Kulissenschieber triumphierend. ‘Wenn es den Pollenservice gibt, würde Brecht noch eine Eingabe schreiben: Weil es jetzt einen Pollenservice gibt, muß er jetzt ein Telefon bekommen! ’ ‘Wieso? ’ ‘Na, was soll der Telefonservice, wenn die Pollenallergiker kein Telefon haben! ’ Was der Kulissenschieber da vorschlug, war so bestechend, daß keiner widersprechen konnte. (Brussig D 66: 7) $ % & ‘( "% ) * + )0 1 - " 02 3 0)0 ! 0 4 )0 5 6 56 5 - 7 5 )0 4 0 8 0)0 ! ! 7 2’ ‘No a? ’ otázal se pan Kuppisch nevrle. ‘ )0 6 % ( "% ! 9 ; )0 7 5 ) )0 ! 7 2 < 1 2’ ‘Ne tak docela! ’ prohlásil ! 7 2 ‘= )0 6 7 5 0 ) )0 ( "% >5 5& @ 0 5 ; 1 0 ) ! 5 Q 7 X’ ‘Jak to? ’ ‘< " )0 )0 7 5 0)0 4 " ! 7 9’ To, " % )0 Y 6! % 2 (Brussig Cz 46: 30) In diesem Kontext kann das sprachliche Zeichen da mit der Präpositionalphrase in dieser Situation paraphrasiert werden. Es verweist sowohl auf einen Zeitpunkt, als auch auf den Teilaspekt der Tätigkeitssituation. Etwa in diesem Gespräch oder in dieser Diskussion. In diesem Beispiel also ist da weniger ein Konnektor als vielmehr ein Prozeichen, dass situationsdeiktische Funktion hat. Den Konnektoren kann man hier höchstens Kontextdeixis zusprechen. Der nächste Beleg für da in diesem Text findet sich einige Seiten später: (2) Als Micha wieder Herr seiner Sinne war, lief er auf die Straße und rief ihr hinterher: ‘Nein, wenn's am schönsten ist, kann man auch weitermachen! ’ Aber da fuhr sie schon, den AWO-Fahrer fest umschlungen, davon. Wegen ihres langen Abendkleides saß sie im Damensitz. (Brussig D 71: 12) > ! )0 ! 2 3 0 6 ! 0) % ulici a zavolal za ní: ‘< 1 >5! ! X’ ! 02 @ ! %Y 5 > 0 ! Y! 6 + ) 2 (Brussig Cz 49: 27) Hier knüpft da den Nachfolgersatz an den vorausgehenden Textsatz an und signalisiert im Sinne einer semantischen Progression die unmittelbare zeitliche Sukzession des Geschehens. Hinzu kommt, dass in diesem Fall vor dem Konnektor da (als Adverb) der Konnektor aber (Konjunktion) gesetzt wird. <?page no="24"?> 24 Zur Einleitung Konnektoren müssen natürlich nicht gesetzt werden, die semantische Progression wird auch ohne Konnektoren erkennbar (wir bezeichnen diese Fälle als Nullkonnektoren). Sie werden dann gesetzt, dies zeigt unser Beispiel sehr deutlich, wenn die semantische Relation zweier Sätze explizit und, wie in unserem Falle, ‘unerwartet’ ausgedrückt werden soll. Diese zwei Funktionsbestimmungen spiegeln sich in der tschechischen Übersetzung wieder. Im ersten Fall wird der Charakter von da als Prozeichen explizit formuliert, während das to im zweiten Beispiel ein Konnektor ist. Die nächsten Schritte einer solchen Textanalyse wären: Aufsuchen von allen Vorkommensfällen von da in mehreren Texten und Erforschen von weiteren Ausdrucksmöglichkeiten für die unmittelbare zeitliche Sukzession bzw. für die zeitliche Orientierung im Text. 3. Zusammenfassung Für die Forschungsoptik dieses korpuslingustischen Projektes in aller Vielfalt seiner Teilbereiche sind die beiden genannten Typen der Sprachkorpora von Relevanz, d.h. sowohl die Parallelkorpora als auch die Kontrastkorpora. Eine Pluralität von methodologischen Sichtweisen und Ansätzen ist allgemein immer wünschenswert - sowohl in der Sprachwissenschaft im Allgemeinen als auch innerhalb der Korpuslinguistik. Der hier vertretene Ansatz der auf textanalytischem Vorgehen basierenden qualitativen Korpuslinguistik tritt hier deswegen nicht mit dem Ziel an, andere Ansätze zu verdrängen, sondern als eine begründbare Stütze und Untersuchungsbasis, die ihren speziellen textrelevanten Aufgaben und Zielsetzungen gut nachkommen kann. Wie diese Stichprobenanalyse zeigte, sind derartige Untersuchungen auch von hochfrequenten sprachlichen Zeichen, wie angedeutet, eigentlich nur mit ‘kleinen Parallelkorpora’ möglich, und zwar auch dadurch, dass wir Übersetzungen aus dem Tschechischen ebenfalls als Realisierungen des deutschen Sprachsystems behandeln und möglicherweise auch auf unterschiedlichen Zeichengebrauch in Originalexten und Übersetzungen stoßen. <?page no="25"?> 25 DeuCze: Struktur und Benutzbarkeit eines kleinen zweisprachigen Korpus Literatur Quellen/ Korpustexte Das DeuCze Korpus: http: / / www.DeuCze.germanistik.uni-wuerzburg.de . Wissenschaftliche Literatur Biber, Douglas/ Conrad, Susan/ Reppen, Randi (2006): Corpus linguistics. Investigating language structure and use. 5. Aufl. Cambridge. Fraas, Claudia (2001): Usuelle Wortverbindungen als sprachliche Manifestation von Bedeutungswissen. Theoretische Begründung, methodischer Ansatz und empirische Befunde. In: Nikula, Henrik/ Drescher, Robert (Hg.): Lexikon und Text. Vaasa, S. 41-66. Kempcke, Günther et al. (2000): Wörterbuch Deutsch als Fremdsprache. Berlin/ New York. Kratochvílová, Iva (2011): Kollokationen im Lexikon und im Text. Mehrwortverbindungen im Deutschen und Tschechischen. Berlin/ Münster. Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.) (2010): Kompendium Korpuslinguistik. Eine Bestandaufnahme aus deutsch-tschechischer Perspektive. Heidelberg. % ! % & ' * < " > $ @ Tübingen. Molnár, Josef (2011): Studien zur Aufbereitung und Auswertung von Korpustexten. Würzburg. http: / / opus.bibliothek.uni-wuerzburg.de/ volltexte/ 2011/ 5697/ (Stand: Juli 2012) Lemnitzer, Lothar/ Zinsmeister, Heike (2006): Korpuslinguistik: Eine Einführung. Tübingen. Lüdeling, Anke (2007): Das Zusammenspiel von qualitativen und quantitativen Methoden in der Korpuslinguistik. In: Zifonun, Gisela/ Kallmeyer, Werner (Hg.): Sprachkorpora, Datenmengen und Erkenntnisfortschritt. Jahrbuch 2006 des Instituts für Deutsche Sprache. Berlin/ New York, S. 28-48. McEnery, Tony/ Xiao, Richard/ Yukio, Tono (2006): Corpus-based language studies. London/ New York. Mukherjee, Joybrato (2009): Anglistische Korpuslinguistik. Berlin. Perkuhn, Rainer/ Belica, Cyril (2006): Korpuslinguistik - Das unbekannte Wesen oder Mythen über Korpora und Korpuslinguistik. In: Sprachreport 1, S. 2ff. Scherer, Carmen (2006): Korpuslinguistik. Heidelberg. Sinclair, John (1991): Corpus, concordance, collocation. Oxford. Teubert, Wolfgang (1998): Korpus und Neologie. In: Teubert, Wolfgang (Hg.): Neologie und Korpus. Tübingen, S. 129-170. <?page no="26"?> 26 Zur Einleitung Wolf, Norbert Richard (1981): Am Beispiel Elias Canettis. Überlegungen zur Textsyntax und zur Texttypologie. In: Studien zur Literatur des 19. und 20. Jahrhunderts in Österreich. Festschrift für Alfred Doppler. Innsbruck, S. 205-218. Wolf, Norbert Richard (2008): Textsyntax und/ oder Textstilistik. In: Fritz, Thomas A./ Koch, Günter/ Trost, Igor (Hg.): Literaturstil - sprachwissenschaftlich. Festschrift für Hans-Werner Eroms zum 70. Geburtstag. Heidelberg, S. 57-69. Zifonun, Gisela/ Kallmeyer, Werner (Hg.) (2007): Sprachkorpora, Datenmengen und Erkenntnisfortschritt. Berlin/ New York. <?page no="27"?> Marc Kupietz / Elena Frick Korpusanalyseplattform der nächsten Generation 1. Hintergrund Mit dem Deutschen Referenzkorpus (DeReKo) (Kupietz/ Keibel 2009) ist am Institut für Deutsche Sprache (IDS) in Mannheim das weltweit größte Korpus der geschriebenen deutschen Gegenwartssprache beheimatet. Bereits 1964 wurde in Form des Mannheimer Korpus I mit der Sammlung von Texten begonnen. Die erste Veröffentlichung des elektronischen IDS-Textkorpus im Jahr 1967 umfasste ca. 2,2 Millionen Wörter. Mittlerweile hat DeReKo einen Umfang von über 5,4 Milliarden Wortvorkommnissen erreicht und enthält eine sehr breite Palette unterschiedlichster Textarten, welche die Zeitperiode beginnend von 1956 bis zur Gegenwart abdecken und zusätzlich durch drei konkurrierende morphosyntaktische Annotationen erweitert wurden (siehe Belica et al. 2011). Das dem IDS-Korpus zugrundeliegende Ur-Stichproben- Design ermöglicht eine benutzerdefinierte Auswahl von Textdokumenten, die je nach zu untersuchender Grundgesamtheit und abhängig von der Fragestellung zu Korpora kombiniert werden können. Für den Zugriff auf die IDS-Korpora wurde Anfang der 1990er Jahre am IDS das Korpusrecherche- und -analysesystem COSMAS (Corpus Search, Management and Analysis System) (al-Wadi 1994) entwickelt, welches sich bereits in seiner ersten seit 1991 bis 2003 im Betrieb befindlichen Version - COSMAS I - in der Praxis bewährt hatte. Unter den zahlreichen Funktionalitäten waren u.a. ‘virtuelle’ Korpuskomposition, statistische Kookkurrenzanalyse und morphologischer Suchassistent besonders innovativ. 2003 wurde COSMAS I durch die neuere Version COSMAS II (Bodmer 2005) ersetzt, welche vor allem für den Umgang mit Mehrfachannotationen entworfen wurde. Die Datenbasis von COSMAS II speist sich heute aus verschiedenen Quellen: Neben DeReKo sind ebenso historische und einige Projektkorpora mittels COSMAS II für die öffentliche Recherche und Analyse zugänglich gemacht worden. Derzeit hat COSMAS II weltweit ca. 19.000 registrierte Nutzer, die auf die angebotenen Ressourcen zugreifen können. Da COSMAS II jedoch bereits Anfang der 1990er Jahre konzipiert wurde und der Arbeitsaufwand, derartige Software zu erweitern, mit steigender Lebensdauer und Komplexität überproportional steigt, wird es zunehmend schwieri- <?page no="28"?> 28 Zur Einleitung ger, die Software an die sich rasch wandelnden Bedarfe anzupassen. Indes haben sich sowohl die technischen als auch die wissenschaftlichen Rahmenbedingungen derart stark verändert, dass es sinnvoll erschien, ein neuartiges Analyse-Tool zu entwickeln, welches neuen Anforderungen und Herausforderungen gerecht wird. 2. Neue Herausforderungen Qualitative Herausforderungen ergeben sich aus dem immensen Wachstum von Korpora im Allgemeinen und DeReKo im Besonderen. Während das datengetriebene Analyseparadigma bis vor einiger Zeit im Wesentlichen nur für die Lexikologie relevant war, können heute auf der Grundlage sehr großer Stichproben komplexere sprachliche Muster und Strukturen aufgedeckt und auch in Abhängigkeit anderer Faktoren (z.B. Zeit, Herkunft) analysiert werden (siehe Keibel/ Kupietz/ Belica 2008). Dies zeigt sich zurzeit nicht nur in aktuellen Tendenzen in der Grammatikforschung, die z.B. in der neuen Konferenzreihe Grammar and Corpora (Štícha/ Fried (Hg.) 2008 und Konopka et al. (Hg.) 2011) vorgestellt werden, sondern auch in der linguistischen Theoriebildung insgesamt, etwa durch neue Zeitschriften wie Corpus Linguistics and Linguistic Theory. Aufgrund des Wachstums der IDS-Textkorpora ist auch immer häufiger eine Vorstrukturierung von Daten notwendig, da z.B. selbst Belegmengen als Ergebnisse von typischen Suchanfragen nun meist zu groß für eine direkte linguistische Interpretation sind, und vielfach erst eine systematische Vorverarbeitung einen sinnvollen, d.h. Fehlinterpretationen vermeidenden Einblick in die Daten ermöglicht. Die verwendeten automatischen Analysemethoden sollen dabei auch die wissenschaftlich zuverlässige Unterstützung neuer Forschungsmethoden garantieren. Hierunter fallen neben neuen datengeleiteten Methoden auch hybride Ansätze, die verschiedene Datentypen miteinander kombinieren und sowohl datengeleitet als auch hypothesenbasiert oder in gleicher Weise mit Primärdaten und mit interpretativen Sekundärdaten, wie automatisch erzeugten linguistischen Annotationen, arbeiten (siehe z.B. Müller 2007, Kubczak/ Konopka 2008). Auch die zu beobachtende Veränderung der Arbeitsweise in der heutigen sprachwissenschaftlichen Forschung bringt neue Herausforderungen mit sich. Mit der zunehmenden Verbreitung von e-Science innerhalb der Geisteswissenschaften (‘e-Humanities’) ist eine verstärkte Empirisierung oder ‘Verwissenschaftlichung’ einhergegangen. Das heißt, es ist nicht nur eine wachsende <?page no="29"?> 29 Korpusanalyseplattform der nächsten Generation Bedeutung von Forschungsdaten zu beobachten, vielmehr spielen auch Handhabbarkeit und Anwendbarkeit von wissenschaftlichen Maximen wie Nachvollziehbarkeit und Replizierbarkeit von Forschungsergebnissen eine immer größere Rolle, woraus sich insbesondere vor dem Hintergrund wachsender, dynamischer und virtualisierter Korpora große Herausforderungen für die Analysesoftware ergeben. Der nun auch in den Geisteswissenschaften aufkommende Bedarf, Daten kollaborativ bearbeiten und die zur Bearbeitung herangezogene Software standortunabhängig einsetzen zu können, manifestiert sich zurzeit in der Entstehung verteilter Forschungsinfrastrukturen wie z.B. CLARIN (Váradi et al. 2008) und virtueller Forschungsumgebungen, wie z.B. TextGrid (Rapp 2007). Für ein modernes Korpusrecherchesystem bedeutet dies insbesondere, dass es Schnittstellen für solche verteilten Infrastrukturen bereitstellen muss, auf Grundlage derer u.a. eine föderierte Suche und Analyse, die nachnutzbare Definition von distribuierten virtuellen Korpora und Such- und Analyseschemata sowie etwa eine Rückeinspeisung von benutzerdefinierten Annotationen realisiert werden kann. Große Web-Suchmaschinen wie Google oder Bing können dabei aufgrund fundamentaler Anforderungsunterschiede - vor dem Hintergrund der oben genannten Herausforderungen - nicht als technischer Machbarkeitsbeleg für den Umgang mit riesigen Datenmengen dienen. So müssen Such- und Analyseergebnisse, um wissenschaftlichen Anforderungen zu genügen, natürlich stets exakt und reproduzierbar und alle getroffenen Annahmen transparent sein (vgl. Kilgarriff 2007). Speziell im Hinblick auf die Sprachwissenschaft haben scheinbar kleine Zusatzanforderungen z. T. erhebliche technische Konsequenzen, wie etwa, dass häufige Wörter oder Wörter mit ausschließlich grammatischer Funktion nicht ignoriert werden können. Weiterhin muss die Suchanfrage komplexere Datenstrukturen und Beziehungen, etwa mehrere Metriken und Ebenen, sowie anspruchsvolle Anforderungen an die zugrunde gelegte Anfrage (z.B. Relationen, Quantoren, reguläre Ausdrücke) zu bewältigen in der Lage sein. Schließlich muss auch die Reihenfolge der ausgegebenen Suchergebnisse kontrollierbar sein, um etwa Zufallsstichproben aus diesen zu ermöglichen und damit Fehlinterpretationen, die durch opportunistische Reihenfolgen nahegelegt werden könnten, vermeidbar zu machen. Aus dieser vemeintlichen Nähe zum Information Retrieval ergeben sich jedoch Unwägbarkeiten bzw. strategische Herausforderungen, da, obwohl Web- und Buch-Suchmaschinen derzeit nicht für sprachwissenschaftliche Zwecke geeignet sind, die Situation sich äußerst schnell ändern kann, wenn z.B. Google Book Search beschließt, entsprechende Schnittstellen anzubieten. <?page no="30"?> 30 Zur Einleitung Abgesehen von den bereits genannten technisch-methodischen Herausforderungen ist Korpuslinguistiksoftware auch mit der Anforderung konfrontiert, mit Sprachdaten unterschiedlicher Modalität umgehen zu können. Multimodale Ressourcen, wie etwa digitale Aufzeichnungen gesprochener Sprache und deren Transkriptionen, bedürfen ebenfalls Möglichkeiten zur systematischen Einbeziehung. Ein anderer wichtiger Aspekt, aus dem sich ebenso neue Herausforderungen für die Entwicklung eines Korpusanalysesystems ergeben, betrifft die generelle Problematik, dass die Forschungsdaten der Sprachwissenschaft fast immer von Rechten Dritter betroffen sind (Urheberrechte, Leistungsschutzrechte und allgemeine Persönlichkeitsrechte). Da die Problematik wegen der zugrundeliegenden Grundrechtskollisionen nicht grundsätzlich auflösbar ist (siehe auch D- SPIN-Konsortium i. Ersch., Abschnitt 7), können Textkorpora aller Voraussicht nach auch in Zukunft nur auf Lizenzbasis verfügbar gemacht werden. Solche Nutzungslizenzen sind aus Kostengründen typischerweise sehr stark eingeschränkt - insbesondere hinsichtlich ihrer Übertragbarkeit auf die Endnutzerschaft. Die schwierige Aufgabe bei der Softwareentwicklung besteht also im Wesentlichen darin, einerseits die Daten dem Endnutzer so gut und umfangreich wie möglich zugänglich zu machen, dabei aber andererseits die Lizenzbedingungen und Interessen der Rechteinhaber zu wahren und Missbrauch so weit möglich technisch auszuschließen. 1 Aufgrund divergierender, veränderlicher Lizenzbedingungen und unterschiedlicher Klassen von Nutzern und Nutzungsarten müssen also zum einen anpassbare Sicherheitskonzepte entwickelt und implementiert werden, um unterschiedlichen Nutzergruppen verschiedene Rechte und unterschiedlichen Ressourcen verschiedene Restriktionen zuweisen zu können. Zum anderen müssen zur Maximierung der Verwendbarkeit der Daten auch - zumindest für die Linguistik - neue Wege gegangen werden, wie z.B. dass, wenn die Daten durch Lizenzverträge an Standorte gebunden sind, Wege geschaffen werden sollten, die es erlauben, Analyse- und Annotationsprogramme - frei nach Jim Grays (2003, S. 6) inzwischen berühmter Forderung ‘put the computation near the data’ - zu den Daten kommen zu lassen. Wie der Kontext von Grays Forderung schon nahelegt, scheint eine solche Strategie natürlich nicht nur für die Lösung rechtlicher Probleme, sondern auch aus informatischer Perspektive betrachtet für datenintensive Probleme im Allgemeinen und außerdem auch im Hinblick auf die oben genannten Aspekte verteilter Forschung geeignet. 1 Da die empirisch arbeitende Linguistik von Textgebern und Informanten abhängig ist, können die Erwägungen nicht rein rechtlicher Natur sein, sondern müssen deren Interessen insgesamt berücksichtigen. <?page no="31"?> 31 Korpusanalyseplattform der nächsten Generation 3. Ziele des Projekts Mit dem Ziel, eine neuartige Korpusanalyseplattform zu entwickeln, die den oben genannten Herausforderungen gerecht wird und als Nachfolger von COSMAS II in Betrieb genommen werden kann, startete im Juli 2011 am IDS das Projekt Korpusanalyseplattform der nächsten Generation (KorAP). Das Projekt wird im Rahmen des Wettbewerbsverfahrens der Leibniz-Gemeinschaft in der Sparte „Besonders innovative und risikoreiche Vorhaben“ gefördert. Oberste Maxime des Projekts ist, ein wissenschaftliches Werkzeug zu entwickeln, welches einen möglichst unverzerrten Blick auf die sprachlichen Primärdaten erlaubt und in den nächsten 15-20 Jahren den Anforderungen der linguistischen Forschung gerecht wird. Es soll für Korpusarchive in der Größenordnung von 50 Milliarden Wörtern bzw. Primär- und Sekundärdatenmengen im Petabyte-Bereich skalierbar sein. Der weitaus größte Teil der Entwicklungsarbeiten wird in die Realisierung dieser Maximen eingehen. Die im Folgenden dargestellten Illustrationen geplanter Neuerungen sind daher gewissermaßen als die sichtbare Spitze eines Eisbergs zu verstehen. Bei der Entwicklung der neuen Plattform werden die Erfahrungen mit COSMAS und die Rückmeldungen aus der wissenschaftlichen Community einfließen. KorAP soll die Funktionalitäten seines Vorgängers weiterhin unterstützen, wobei aber zugrundeliegende Konzepte überarbeitet und durch Erweiterungen verbessert werden sollen. So sind z.B. im Bereich der virtuellen Korpuskomposition folgende Neuerungen geplant: - Möglichkeit, standortübergreifende virtuelle Korpora zu definieren, - Gewährleistung der Persistenz von benutzerdefinierten virtuellen Korpora, - Versionskontrolle für Daten, Metadaten und Annotationen, - Sicherstellung der langfristigen Referenzierbarkeit durch Vergabe von persistenten Identifiern (PIDs) nach ISO 24619. Die langfristige Speicherung wird in der neuen Korpusanalyseplattform nicht nur für die benutzerdefinierten virtuellen Korpora, sondern auch für die gestellten Suchanfragen gewährleistet. Mit einer automatischen Historie und einer benutzerdefinierten Query-Datenbank soll das Konzept der extensionalen sowie intensionalen Anfragenabspeicherung umgesetzt werden. Die Abfragesprache selbst soll für die neue Plattform teilweise neu entwickelt werden. Sie soll im Gegensatz zu der in COSMAS II verwendeten Abfragesprache eine intuitivere Syntax anbieten, reguläre Ausdrücke besser unterstützen und Abfragen über mehrere Annotationsschichten erlauben. Um COSMAS-II- <?page no="32"?> 32 Zur Einleitung Nutzern den Wechsel zu erleichtern, ist auch ein Modul zur Übersetzung von Anfrageausdrücken geplant, mit dessen Hilfe eine Abwärtskompatibilität zu COSMAS II realisiert werden soll. Darüber hinaus soll sich die Entwicklung der KorAP-Abfragesprache an den von der ISO TC37/ SC4 durchgeführten Arbeiten im Rahmen der vorgeschlagenen Corpus Query Lingua Franca '[ \ Witt 2011) orientieren. Bezüglich der Annotationen soll KorAP das bereits in COSMAS I eingeführte Konzept der multiplen Tokenisierung von Texten wieder aufgreifen. Die Nutzer werden die Möglichkeit haben, zwischen einer konservativen (White- Space-Tokenisierung) und einer Greedy-Tokenisierungsmethode auszuwählen. Hinzu kommen die durch die einzelnen Wortart-Tagger annotierten Tokenisierungen. Da die Anzahl der DeReKo-Annotationen im Prinzip unbegrenzt ist und Entwickler von Annotationswerkzeugen eingeladen sind, diese für die Anwendung auf DeReKo zur Verfügung zu stellen, soll die neue Korpusanalyseplattform mit einer beliebigen Anzahl von Annotationsschichten umgehen können. Ein besonderer Schwerpunkt wird dabei auf der Implementation einer flexiblen Suchfunktionalität liegen, welche die Abfragen sowohl annotationsübergreifend als auch in einer oder mehreren konkreten Annotationsschichten erlaubt. Für den Benutzer bedeutet dies z.B. die Möglichkeit, bei der Recherche in den Annotationen optional zwischen den Ergebnissen verschiedener Wortart-Tagger und syntaktischer Parser auswählen und sie miteinander kombinieren zu können. Unter Berücksichtigung der Tatsache, dass die bereits vorhandenen morphologischen Annotationen der DeReKo-Texte demnächst durch syntaktische Annotationen ergänzt werden, wobei sowohl Konstituentenals auch die Dependenzstrukturannotationen geplant sind, wird für KorAP ein Modul entwickelt, das komplexe syntaktische Suchanfragen effizient ausführt und die Suchergebnisse dem Benutzer inklusive einer Visualisierung der annotierten Strukturen darstellt. Stark erweitert werden sollen auch die Funktionalitäten zur Darstellung von Treffermengen. Geplant sind z.B.: - unterschiedliche vom Benutzer einstellbare Sortier- und Gruppierungsmöglichkeiten, - Filter zur Einschränkung der Ergebnismenge, - optionale Hinweise auf Auffälligkeiten bei der Trefferverteilung, durch asynchron arbeitende ‘Agenten’, <?page no="33"?> 33 Korpusanalyseplattform der nächsten Generation - simultane Darstellung mehrerer Ergebnisansichten (z.B. paralleles Anzeigen des KWIC- und Volltextansichts). Geplant ist auch eine von Grund auf neue Konzeption der Nutzeroberfläche, die den neusten Erkenntnissen der Nutzerforschung entspricht und außerdem durch den Nutzer selbst möglichst vollständig adaptierbar ist. Softwaretechnisch soll sich KorAP durch verschiedene Schnittstellen für externe Analysemodule auszeichnen. Da aufgrund der oben angesprochenen Lizenzrestriktionen typischerweise keine Volltexte aus DeReKo-Archiven zur Nutzung außerhalb der Korpusanalyseplattform freigegeben werden dürfen, soll die neue Plattform den Nutzern mit besonderen Forschungsvorhaben, die mithilfe der in KorAP integrierten Methoden nicht realisierbar sind (wie z.B. komplexe statistische Auswertungen mit einem benutzerdefinierten Output), die Möglichkeit zur Anwendung eigener Analysewerkzeuge bereitstellen. Über ein Web-Service-API sowie über eine domänenspezifische Skript-Sprache soll der Zugang zu dem KorAP-System erfolgen, der es Benutzern erlaubt, in begrenztem Umfang Programme auf der Plattform auszuführen. Hierbei wird keine vollständige Neuentwicklung angestrebt. Vielmehr sollen Bibliotheken, z.B. zur statistischen Programmiersprache R, entwickelt und eingebunden werden, deren Verwendung sich in der Linguistik mehr und mehr etabliert (siehe Baayen 2008 und Gries 2008). 4. Projektstand In der Anfangsphase des Projekts wurden die Ziel-Eigenschaften der zukünftigen Korpusanalyseplattform festgelegt. Dafür wurden Arbeiten in zwei Bereichen geführt: Einerseits wurde eine ganze Reihe existierender Korpusrecherche- und Korpusanalysesoftware (u.a. Corpus Workbench/ CQP, Poliqarp, TIGERSearch, ANNIS, SketchEngine, plain XQuery, Oracle SQL, die TXM Plattform) getestet und auf ihre Vor- und Nachteile in der praktischen Nutzung untersucht. Dabei wurde eine Liste all jener Funktionalitäten und Eigenschaften zusammengestellt, die implementiert werden sollen und darüber hinaus auch weitere Erfahrungen gesammelt, die die Entwicklung von KorAP beeinflussen werden. Andererseits wurden in der Zusammenarbeit mit anderen IDS-Abteilungen und auf Grundlage der Erfahrungen mit COSMAS I und II die wichtigsten Benutzerwünsche an KorAP erfasst, die anschließend mit Hilfe von Anwendungsfalldiagrammen (Use-Case-Diagramme) zu konkreten Funktionalitäten und Anforderungen an das System überarbeitet wurden. Die visuelle Darstel- <?page no="34"?> 34 Zur Einleitung lung der Anwendungsfälle und die darauf folgende partielle Modellierung des Systemverhaltens mit Hilfe von Aktivitätsdiagrammen haben gezeigt, wo besondere Herausforderungen der Implementierung liegen werden und wo erst noch neue Strategien und Konzepte entwickelt werden müssen. Parallel zu den genannten Aktivitäten wurde die Arbeit zur Vorbereitung eines Testdatensatzes aufgenommen, welcher später für das Experimentieren mit KorAP eingesetzt werden soll. Zu diesen Zwecken wurde bereits eine Datenbank mit 250 Suchanfragen erstellt, die das Spektrum linguistisch motivierter Suchen möglichst gut abdecken sollen, angefangen mit einfachen Anfragen nach einzelnen Wörtern bzw. Wortsequenzen bis hin zu den komplexen annotationsschichtenübergreifenden Anfragen nach grammatischen und lexikalischen Strukturen unter Angabe der Distanz, Position und Länge der gesuchten Segmente sowie mit dem Einsatz regulärer und boolescher Ausdrücke. Die erstellte Datenbank mit Testanfragen wird ständig weiter gepflegt und zu einem späteren Zeitpunkt durch eine Benutzerumfrage erweitert. Was die Entwicklung der Abfragesprache für KorAP angeht, so wurden in diese Richtung bereits ebenso spezielle Forschungsarbeiten vorgenommen. Es wurden exemplarisch drei mächtige und sehr unterschiedliche Abfragesprachen gewählt und empirisch auf ihre Eignung als Abfragesprache der zukünftigen Korpusanalyseplattform getestet. Die getesteten Abfragesprachen, die von weit verbreiteten Open-Source-Suchsystemen stammen, sind: - die Abfragesprache von COSMAS II, - die Abfragesprache von ANNIS (Rosenfeld 2010), - die Abfragesprache von Poliqarp (als Vertreter der CQP-Sprachfamilie, vgl. Janus/ Przepiórkowski 2007). Die Untersuchung der genannten Abfragesprachen fand auf der Grundlage der Testanfragen aus der für KorAP erstellten Datenbank statt. Die Testanfragen wurden, wenn möglich, in der jeweiligen Abfragesprache formuliert und in dem entsprechenden System auf einem deutschen Wikipedia-Korpus ausgeführt. Die Stärken-Schwächen-Analyse hat gezeigt, dass keine der drei Abfragesprachen die gestellten Anforderungen erfüllt und ohne Veränderungen als Abfragesprache für KorAP übernommen werden kann. Vielmehr soll eine der zur Verfügung stehenden Abfragesprachen als Basis ausgewählt und durch die Funktionalitäten der anderen Sprachen erweitert werden. Aktuell arbeitet das KorAP-Team intensiv an der Konzeption des Datenmodells zur Erfassung der Korpusdaten mit Mehrebenenannotationen. Zugleich <?page no="35"?> 35 Korpusanalyseplattform der nächsten Generation werden technische Tests mit Lucene, der Open-Source Programmbibliothek zur Volltextsuche, durchgeführt. Geprüft werden dabei ihre Verlässlichkeit und Effizienz im Umfang mit sehr großen Dokumentenkollektionen, mit denen KorAP es in 15-20 Jahren voraussichtlich zu tun haben wird. Literatur al-Wadi, Doris (1994): COSMAS - Ein Computersystem für den Zugriff auf Textkorpora. Version R.1.3-1. Benutzerhandbuch. Mannheim. Baayen, R. Harald (2008): Analyzing linguistic data. A practical introduction to statistics using R. Cambridge. [ \ % < ] % ^ " ' * _ ` " { ` | } Presentation given at the ISO TC37 meeting in Seoul, South Korea, on 13 June 2011. Belica, Cyril/ Kupietz, Marc/ Lüngen, Harald/ Witt, Andreas (2011): The morphosyntactic annotation of DeReKo. Interpretation, opportunities and pitfalls. In: Konopka et al. (Hg.), S. 451-471. Bodmer, Franck (2005): COSMAS II. Recherchieren in den Korpora des IDS. In: Sprachreport 3, S. 2-5. D-SPIN-Konsortium (i.Ersch.): Schlussbericht des BMBF-Verbundprojekts D-SPIN (öffentliche Fassung). Gray, Jim (2003): Distributed Computing Economics. Technical report, Microsoft Research. MSR-TR-2003-24. Gries, Stefan Th. (2008): Statistik für Sprachwissenschaftler. (= Studienbuch zur Linguistik 13). Göttingen. Janus, Daniel/ Przepiórkowski, Adam Poliqarp (2007): An open source corpus indexer and search engine with syntactic extensions. In: Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. Association for Computational Linguistics, S. 85-88. Keibel, Holger/ Kupietz, Marc/ Belica, Cyril (2008): Approaching grammar. Inferring operational constituents of language use from large corpora. In: Štícha/ Fried (Hg.), S. 235-242. Kilgarriff, Adam (2007): Googleology is bad science. In: Computational Linguistics 33, 1, S. 147-151. Konopka, Marek/ Kubczak, Jacqueline/ Mair, Christian/ Šticha, František/ Waßner, Ulrich Hermann (Hg.) (2011): Grammatik und Korpora. Dritte Internationale Konferenz. Mannheim, 22.-24.9.2009. (= Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 1). Tübingen. <?page no="36"?> 36 Zur Einleitung Kubczak, Jacqueline/ Konopka, Marek (2008): Grammatical variation in near-standard German. A corpus-based project at the Institute for the German Language (IDS) in Mannheim. In: Štícha/ Fried (Hg.), S. 251-260. Kupietz, Marc/ Keibel, Holger (2009): The Mannheim German Reference Corpus (DEREKO) as a basis for empirical linguistic research. In: Minegishi, Makoto/ Kawaguchi, Yuji (Hg.): Working papers in corpus-based linguistics and language education. No. 3. Tokyo University of Foreign Studies (TUFS), Tokyo, S. 53-59. http: / / cblle.tufs.ac.jp/ assets/ files/ publications/ working_papers_03/ section/ 053-059. pdf (Stand: Juli 2013). Müller, Stefan (2007): Qualitative Korpusanalyse für die Grammatiktheorie: Introspektion vs. Korpus. In: Zifonun, Gisela/ Kallmeyer, Werner (Hg.): Sprachkorpora - Datenmengen und Erkenntnisfortschritt. Berlin, S. 70-90. Rapp, Andrea (2007): Das Projekt „TextGrid. Modulare Plattform für verteilte und kooperative wissenschaftliche Textdatenverarbeitung - ein Community-Grid für die Geisteswissenschaften“. In: Jahrbuch der historischen Forschung in der Bundesrepublik Deutschland: Berichtsjahr 2006. München, S. 61-68. Rosenfeld, Viktor (2010): An Implementation Of The Annis 2 Query Language. http: / / www.informatik.huberlin.de/ forschung/ gebiete/ wbi/ teaching/ studienDiplomArbeiten/ finished/ 2010/ rosenfeld_studienarbeit.pdf (Stand: Februar 2012). Štícha, František/ Fried, Mirjam (Hg.) (2008): Grammar & Corpora 2007. Selected contributions from the conference Grammar and Corpora, Sept. 25-27, 2007, Liblice, Czech Republic. Prague. Váradi, Tamás/ Krauwer, Steven/ Wittenburg, Peter/ Wynne, Martin/ Koskenniemi, Kimmo (2008): CLARIN. Common language resources and technology infrastructure. In: Proceedings of LREC 2008, Marrakech (Morocco), S. 1244-1248. www.lrecconf. org/ proceedings/ lrec2008/ pdf/ 317_paper.pdf (Stand: Februar 2012). <?page no="37"?> Annette Klosa Primäre, sekundäre und tertiäre Quellen in der Lexikographie Dieser Beitrag behandelt primäre, sekundäre und tertiäre Quellen in der Lexikographie und beschreibt insbesondere ihre Nutzung für die Erarbeitung des deutschsprachigen Online-Wörterbuches elexiko. Anhand verschiedener Beispiele wird die lexikographische Praxis im Umgang mit sehr unterschiedlichen Quellen in diesem Projekt deutlich. Zugleich wird über die unterschiedlichen Definitionen von ‘Quelle’ in der Sprachwissenschaft wie in den Geschichtswissenschaften nachgedacht. 1. Definitionen von ‘Quelle’ In ihrer Einleitung zum Kompendium Korpuslinguistik schreiben Kratochvílová/ Wolf (2010, S. 9), dass Quellen im sprachwissenschaftlichen Verständnis „ganz allgemein formuliert, die Orte bzw. Verfahrensweisen [sind], an oder mit denen wir sprachliche Daten für sprachwissenschaftliche Zwecke gewinnen können“. Interessant an dieser Formulierung ist, dass hier auch Verfahrensweisen als Quelle bezeichnet werden, da mit ihnen Daten gewonnen werden können. Ob aber nicht nur die Daten selbst Quellen für eine - im Falle des Projektes elexiko - lexikographische Darstellung sein können, ist zu überlegen. Als Quellen werden in der Geschichtswissenschaft „alle Texte, Gegenstände oder Tatsachen, aus denen Kenntnis der Vergangenheit gewonnen werden kann“ (Kirn, zitiert nach Bayer/ Wende 1995, S. 453) verstanden. Quellen sind auch „die Summe aller wissenschaftlich brauchbaren Überlieferung, aus deren methodischen Auswertung wir geschichtliche Kenntnis schöpfen können“ (Jacob, zitiert nach Fuchs/ Raab 1977, S. 656). Weiter werden Quellen in ‘Überreste’ und ‘Tradition’ unterteilt. Unter Überresten versteht man alle Quellen, die unmittelbar von einer Begebenheit übrig geblieben sind und die unabsichtlich und objektiv etwas über ein vergangenes Ereignis berichten. Demgegenüber sind Traditionen das, was absichtlich von einer Begebenheit übrig geblieben ist, wo eine Person als Mittler über ein bestimmtes Ereignis subjektiv geprägt berichtet. Quellen werden in der Geschichtswissenschaft daneben in primäre und sekundäre Quellen unterteilt. ‘Primärquellen’ sind diejenigen Zeugnisse, die aus erster Hand stammen. Das können Überreste, die unmittelbar von einer Begebenheit herrühren, sein, oder Traditionen, die auf Augenzeugenberichten beruhen. ‘Sekundärquellen’ sind demgegenüber „Zeugnisse <?page no="38"?> 38 (Meta-)Lexikographie aus zweiter Hand“ (Bayer/ Wende 1995, S. 444). In der Geschichtswissenschaft werden also unter Quellen nur die Zeugnisse selbst, nicht aber die Methodik ihrer Interpretation verstanden. Ganz ähnlich gilt dies für lexikographische Quellen. ‘Quelle’ wird hier als „Textzeugnis, an dem sich ein bestimmter Sprachgebrauch beobachten läßt [sic! ]“, definiert (Schlaefer 2002, S. 190). Viele Quellen zusammen bilden die Erarbeitungsgrundlage für ein Wörterbuch, die sogenannte Wörterbuchbasis. Dabei soll „eine deskriptive lexikographische Materialbasis ein zuverlässiges Abbild des Lexembestands und Lexemgebrauchs der Objektsprache bilden und zugleich so gestaltet sein, daß [sic! ] sie auch den Belangen praktischer Wörterbucharbeit genügt“ (ebd., S. 103). Bei den lexikographischen Quellen ist weiter zu unterscheiden: Unter einer Wörterbuchbasis verstehe ich das gesamte sprachliche Ausgangsmaterial für einen lexikographischen Prozeß, also die Menge aller primären, sekundären und tertiären sowie gegebenenfalls weiteren Quellen. Hinzu kommen bei einigen Wörterbuchtypen die Sprachkompetenzen der prozeßzugehörigen Lexikographen sowie gegebenenfalls die von Informanten und Muttersprachlern, [...]. (Wiegand 1998, S. 139f.) Unter ‘primären lexikographischen Quellen’ versteht Wiegand „vor allem (aber nicht nur) Texte, welche aus natürlichen oder quasi-natürlichen Kommunikationssituationen stammen, oder größere Ausschnitte aus solchen“ (ebd., S. 140). Primäre Quellen sind also Korpustexte als Ganzes oder auch aus einem Korpus exzerpierte Belege in lexikographischen Belegsammlungen. Ein lexikographisches Korpus ist damit immer ein Textkorpus. Mit Primärquellen in der Geschichtswissenschaft haben primäre lexikographische Quellen gemein, dass sie Zeugnisse aus erster Hand sind, und zwar genauer Zeugnisse über den Sprachgebrauch. Zu den sekundären Quellen gehören alle Wörterbücher, die nach dem Instruktionsbuch entweder obligatorisch oder fakultativ konsultiert werden sollen, und zu den tertiären Quellen gehören alle sonstigen Sprachmaterialien, die benutzt werden, wie z.B. linguistische Monographien und Grammatiken. (ebd.) Da Wörterbücher und Grammatiken kein direktes Zeugnis über den Sprachgebrauch ablegen, sondern Beschreibungen des Sprachgebrauchs sind, die (im besten Fall) auf der Analyse und Interpretation primärer Quellen beruhen, sind sie - ähnlich wie die historischen Sekundärquellen - sozusagen Zeugnisse aus zweiter Hand. Lehnt man als Korpuslinguist den Einbezug von sekundären und tertiären Quellen vielleicht generell ab, bauen viele Wörterbücher jedoch bewusst darauf, „bei der Abfassung eines Wörterbuchs <?page no="39"?> 39 Primäre, sekundäre und tertiäre Quellen in der Lexikographie [...] bereits verfügbare Beschreibungen der betreffenden Sprache zu berücksichtigen“ (Bergenholtz/ Mugdan 1989, S. 1612). In den seltensten Fällen allerdings wird in den Wörterbuchumtexten eine Aussage dazu gemacht, „für welchen Zweck und nach welchen Richtlinien frühere Wörterbücher ausgewertet werden“ (ebd.). Ebenso bleibt häufig unklar, welche Rolle tertiäre Quellen wie Grammatiken oder linguistische Monographien bei der Wörterbucharbeit (gehabt) haben. Die mangelnde Transparenz gegenüber den Wörterbuchbenutzern und dem lexikographischen Fachpublikum ist nur eines der Probleme, auf die Bergenholtz/ Mugdan hinweisen. Weitere Probleme sind (vgl. ebd.): Die Aussagen in sekundären und tertiären Quellen beruhen häufig auf nicht genau spezifizerten Daten, also auf primären Quellen, über deren Zusammensetzung unter Umständen weder die Lexikographen, die das Wörterbuch erarbeiten, noch die Wörterbuchbenutzer Bescheid wissen. Es ist daneben damit zu rechnen, dass sekundäre und tertiäre Quellen nicht immer zuverlässig sind und Fehlinterpretationen oder sachliche Fehler enthalten können. Intensive Arbeit mit sekundären und tertiären Quellen kann zu urheberrechtlichen und wissenschaftsethischen Problemen führen. Häufig fehlen schließlich in Wörterbuchprojekten klare Instruktionen dazu, wann welche sekundären und tertiären Quellen in welchem Umfang benutzt werden sollen. Geregelt werden müsste beispielsweise: Welche Wörterbücher sollen für welche Fragestellungen in jedem Fall herangezogen werden? [...] In welchen Fällen sind weitere Quellen zu berücksichtigen? [...] Unter welchen Voraussetzungen werden Angaben aus anderen Quellen übernommen? [...] Wie soll verfahren werden, wenn die Quellen einander widersprechen? (ebd., S. 1613) Im Folgenden wird der Umgang mit lexikographischen Quellen im Online- Wörterbuch elexiko geschildert, in dem verschiedene korpuslinguistische Verfahrensweisen eingesetzt werden, um ganz unterschiedliche Daten (z.B. KWIC-Zeilen, Kookkurrenzlisten, near collocations profiles) zu gewinnen, deren Interpretation in die Wortartikel einfließt. 2. elexiko elexiko 1 ist ein umfangreiches einsprachiges Online-Wörterbuch des Gegenwartsdeutschen, dessen Stichwortliste ca. 300.000 Einträge umfasst. In elexiko werden Bedeutung und Verwendung, Grammatik, Rechtschreibung und Wortbildung der einzelnen Wörter korpusgestützt beschrieben. 1 Vgl. www.elexiko.de. Zur lexikographischen Konzeption von elexiko vgl. die Beiträge in Haß (Hg.) (2005). <?page no="40"?> 40 (Meta-)Lexikographie 2.1 Primärquelle: elexiko-Korpus Die Primärquelle, aus der alle Angaben gewonnen werden, ist das elexiko- Korpus (vgl. Storjohann 2005) mit über 2,8 Milliarden einzelnen Wortformen aus Zeitungs- und Zeitschriftentexten. Es ist ein virtuelles Korpus aus dem Deutschen Referenzkorpus des Instituts für Deutsche Sprache Mannheim (IDS), 2 das regelmäßig ergänzt und aktualisiert wird. Zur Auswertung wird die am IDS entwickelte automatische Recherche- und Analysesoftware COSMAS II verwendet. 3 Einen besonderen Stellenwert für die lexikographische Arbeit in elexiko hat daneben das statistische Verfahren der Kookkurrenzanalyse. 4 Auf dem Korpus basiert auch die elexiko-Stichwortliste (vgl. Schnörch 2005), die bis zu einem gewissen Grad dynamisch und offen ist. Geplant ist darüber hinaus, das Stichwort aus elexiko heraus direkt im elexiko-Korpus nachschlagen zu können. Für die Bearbeitung der einzelnen Stichwörter werden zwei Methoden kombiniert: Zum einen können z. T. automatisch erzeugte, auf Breite angelegte Informationen über die gesamte Stichwortstrecke hinzugefügt werden. Dies sind z.B. die Angaben zur Rechtschreibung. Zum anderen können innerhalb eingegrenzter Wortschatzbereiche detaillierte, komplexe und in die Tiefe gehende Informationen hinzugefügt werden. Die konsequente Fundierung auf einem sehr umfangreichen Korpus spiegelt sich in den lexikographisch bearbeiteten Wortartikeln in einer Fülle verschiedener, den aktuellen Sprachgebrauch beschreibender Angaben in den Wortartikeln wider, vor allem in der genauen Bedeutungs- und Verwendungsbeschreibung eines Wortes. 5 Bei der lexikographischen Beschreibung der Stichwörter ist das Prinzip der Korpusbasiertheit entscheidend, d.h. eine starke Orientierung an den Ergebnissen der Analyse der elektronischen Textsammlung: Das wohl wichtigste methodische Prinzip in elexiko ist die Korpusbasiertheit. Es bedeutet, dass in elexiko keine einzige Angaben enthalten ist, die allein aus der individuellen Sprecherkompetenz der LexikografInnen [sic! ] abgeleitet wurde. Die Angaben in elexiko werden strikt aus dem [...] elexiko-Korpus gewonnen. (Haß 2005, S. 7) Das Korpus wird zum einen als Belegsammlung im klassischen Sinne benutzt, indem darin nach besonders aussagekräftigen Beispielen für ein Stichwort ge- 2 Vgl. www.ids-mannheim.de/ kl/ projekte/ korpora/ . 3 Vgl. https: / / cosmas2.ids-mannheim.de/ cosmas2-web/ . 4 Vgl. www.ids-mannheim.de/ kl/ projekte/ methoden/ ka.html . Vgl. auch Belica (1995). 5 Für zahlreiche Beispiele zu allen lexikographischen Angaben in elexiko vgl. die Beiträge in Klosa (Hg.) (2011). <?page no="41"?> 41 Primäre, sekundäre und tertiäre Quellen in der Lexikographie sucht wird. Das Korpus wird aber vor allem (und immer im ersten Schritt) mithilfe bestimmter korpuslinguistischer Anwendungen analysiert. Aus den Analyseergebnissen wird z.B. das Spektrum an Lesarten eines Stichwortes deutlich und bestimmte typische Verwendungsmuster treten hervor. Solche Erkenntnisse fließen in den Wortartikel ein und werden in einem zweiten Schritt, wo nötig, durch gezieltes Suchen im elexiko-Korpus gestützt und ergänzt. Beispielsweise werden durch den Einsatz der statistischen Kookkurrenzanalyse erste Kandidatenwörter für paradigmatische Relationen gewonnen. Da es mithilfe dieses Ansatzes aber nicht immer zu einer umfassenden Beschreibung sinnverwandter Wörter kommt, werden in einem zweiten Schritt sekundäre Quellen, z.B. Synonymwörterbücher, konsultiert, in denen weitere Kandidatenwörter zu finden sind. Diese werden dann gezielt im Korpus gesucht, das damit nicht Ausgangspunkt der lexikographischen Beschreibung ist, sondern der Rückprüfung dient (vgl. hierzu genauer Klosa 2010). 2.2 Sekundäre und tertiäre Quellen in elexiko Bei der lexikographischen Arbeit werden also generell auch sekundäre Quellen konsultiert. So kann die Rückprüfung an Wörterbüchern zu sinn- und sachverwandten Wörtern zur (unkommentierten) Aufnahme weiterer paradigmatischer Partnerwörter in den elexiko-Wortartikeln führen. Wenn die Rückprüfung im elexiko-Korpus aber nicht bestätigt, dass ein Stichwort und ein anderes Wort synonym verwendet werden, dann wird dies im Wortartikel erläutert (vgl. den entsprechenden Hinweis im Wortartikel anlässlich, Lesart ‘aufgrund’ in Abb. 1). Abb. 1: Verwendungshinweis zu den Synonymen im elexiko-Wortartikel anlässlich, Lesart ‘aufgrund’ <?page no="42"?> 42 (Meta-)Lexikographie Besonders wichtig ist die Rückprüfung in Sekundärquellen auch bei der Gewinnung der Lesarten, also Einzelbedeutungen. Grundsätzlich gilt, dass nur solche Lesarten aufgenommen und beschrieben werden, die hinreichend im elexiko- Korpus belegt sind (d.h., die nicht nur in ein oder zwei Belegen aufscheinen, sondern in einer größeren Menge von Belegen aus verschiedenen Quellen und aus verschiedenen Jahrgängen). Da das elexiko-Korpus aber ausschließlich aus Zeitungs- und Zeitschriftentexten besteht, können vor allem fachsprachliche, regionale und veraltende Lesarten in ihm unterrepräsentiert sein. Ein Blick in andere gegenwartssprachliche Wörterbücher gibt deshalb einen wichtigen Hinweis auf eine Lesart, die im Korpus gezielt gesucht werden muss. Wird eine ausreichende Menge von Belegen gefunden, wird die Lesart erarbeitet. Wird keine ausreichende Menge von Belegen gefunden (was sehr selten der Fall ist), wird unterhalb der Übersicht zu allen Lesarten eines Stichwortes auf der ersten Bildschirmseite in der Online-Artikelansicht zu diesem Wort vermerkt, dass sich eine bestimmte Lesart nicht im elexiko-Korpus findet (vgl. Beispiel Abend in Abb. 2). Wesentlich häufiger gibt es den umgekehrten Fall, nämlich, dass aus dem elexiko-Korpus Lesarten ermittelt werden können, die so nicht in anderen Wörterbüchern gebucht sind. Dies zeigt sich etwa beim Stichwort Mobilität, das beispielsweise in DUDEN - Das große Wörterbuch der deutschen Sprache eine (bildungssprachliche) Lesart ‘geistige Beweglichkeit’, eine soziologische Lesart ‘Beweglichkeit (in Bezug auf den Beruf, die soziale Stellung, den Wohnsitz)’ und eine seltene militärsprachliche Lesart ‘mobiler Zustand, Kriegsbereitschaft’ hat. Im elexiko-Wortartikel Mobilität werden demgegenüber die folgenden Lesarten disambiguiert, was vor allem durch die genaue Analyse der Kollokationen und der paradigmatischen Partnerwörter gelingt: ‘Motorisiertheit’, ‘berufliche Flexibilität’, ‘Erreichbarkeit’, ‘körperliche Beweglichkeit’, ‘geistige Beweglichkeit’. Über Verweise auf Sekundärquellen mit Bezug auf das Spektrum der Lesarten hinaus können in elexiko überall da, wo zu einer Angabe ein Angabezusatz gemacht werden kann, weitere Hinweise auf Sekundärquellen erfolgen. So gibt es etwa Hinweise bei den Angaben zur Gebildetheit des Stichwortes (z.B. im Wortartikel Bundestag) oder bei den Erläuterungen zum Zusammenhang der Lesarten (z.B. im Wortartikel Amerikaner). Häufig wird bei der Angabe dazu, dass das Stichwort auch als Name im elexiko-Korpus belegt ist, auf namenkundliche Wörterbücher verwiesen (z.B. im Wortartikel Herbst). Solche im Grunde etymologischen Hinweise kommen auch im Angabebereich ‘Herkunft und Wandel’ vor, wo konsequent unter den Überschriften ‘Bedeutungsgeschichte’, ‘Formgeschichte’ und ‘Wortverwandtschaft’ vermerkt wird, in wel- <?page no="43"?> 43 Primäre, sekundäre und tertiäre Quellen in der Lexikographie chen historischen Bedeutungswörterbüchern oder in welchen etymologischen Wörterbüchern zum Deutschen das entsprechende Stichwort gebucht ist. Wenn möglich, wird auf eine Online-Fassung des genannten Wörterbuches verlinkt (z.B. im Wortartikel Herbst). Für die Arbeit an elexiko wird also eine Vielzahl verschiedener Sekundärquellen benutzt. An vielen Stellen in den elexiko- Wortartikeln werden Bezüge zu diesen Sekundärquellen für die Wörterbuchbenutzer hergestellt, häufig auch mit Rückbezug auf die Primärquelle, das elexiko-Korpus. Abb. 2: Übersicht über die Lesarten im elexiko-Wortartikel Abend <?page no="44"?> 44 (Meta-)Lexikographie Ähnliches gilt für die Benutzung von Tertiärquellen in elexiko. Als Beispiel hierfür soll der Umgang mit grammatischen Schwankungsphänomen dienen, für den es einen im Redaktionshandbuch geregelten Ablauf gibt, der von den Korpusbefunden ausgeht, ausdrücklich aber die Rückprüfung in sekundären und tertiären Quellen vorsieht. Im ersten Schritt wird im elexiko-Korpus bemerkt, dass Schwankungen z.B. beim Genus eines Substantivs vorliegen. Beide Genera des nominalen Stichwortes werden im nächsten Schritt im Wortartikel festgehalten. Im dritten Schritt wird geprüft, ob diese Schwankung als Normproblem bekannt ist, indem in einem festgelegten Kanon von (sekundären und) tertiären Quellen nachgeschlagen wird. Im letzten Schritt wird daraufhin ein sogenannter sprachreflexiver Hinweis formuliert, Korpusbelege, welche die Schwankung illustrieren, werden in den Wortartikel eingebracht und es wird auf die konsultierte Literatur verwiesen. Als Beispiel für die sehr differenzierte lexikographische Beschreibung, die mithilfe dieses Vorgehens erarbeitet werden kann, dient ein sprachreflexiver Hinweis aus den grammatischen Angaben im Wortartikel Service in der Lesart ‘das Bedienen’ in Abb. 3. Ziel solcher Angaben in elexiko ist es generell, auf der einen Seite den aktuellen Sprachgebrauch, wie er sich im Korpus zeigt, zu beschreiben, auf der anderen Seite aber auch den Interessen solcher Benutzer gerecht zu werden, die nachschlagen, um bei Normunsicherheiten Klarheit zu erlangen (vgl. Klosa 2005). Abweichungen von geltenden Normen und Gebrauchsrestriktionen, die im Korpus zu finden sind, werden deshalb in den elexiko-Wortartikeln transparent gemacht und kommentiert. Bei den tertiären Quellen werden die Bezüge für die Benutzer in elexiko immer offen hergestellt, sodass diese erfahren können, in welchen anderen Lexika, linguistischen Abhandlungen, Grammatiken usw. weitere Informationen zu einem Stichwort bzw. zu einzelnen Angaben zu einem Stichwort zu finden sind. Dies kann beispielsweise auch bei der Bedeutungserläuterung der Fall sein, von wo gegebenenfalls ein Hyperlink zur Wörterbuchgrammatik von elexiko, nämlich grammis, dem grammatischen Informationssystem des IDS, führt (etwa im Wortartikel dieser). Unter ‘Wörterbuchgrammatik’ versteht man nach Bergenholtz/ Mugdan (1984) diejenige grammatische Darstellung, die einem Wörterbuch beigegeben ist (z.B. in Form eines Anhangs) und auf die sich die grammatische Angaben in den Wortartikeln beziehen. Für lexikographisch bearbeitete Stichwörter in elexiko übernimmt die dreibändige Grammatik der deutschen Sprache (1997), die am IDS erarbeitet wurde, bzw. grammis, das hierauf beruht, die Funktion der Wörterbuchgrammatik. Für Stichwörter, die noch nicht lexikographisch bearbeitet sind, sondern die vor- <?page no="45"?> 45 Primäre, sekundäre und tertiäre Quellen in der Lexikographie erst nur mit automatisch generierten Informationen versehen werden, übernimmt diese Funktion die Online-Wortgrammatik Canoo.net. 6 Mithilfe einer Verlinkung zu Canoo.net (z.B. im Wortartikel Rabatt) schafft elexiko einen Zugang zu (nicht korpusbasierten und extern zu verantwortenden) grammatischen Informationen, um die Wörterbuchbenutzer bei grammatischen Fragen zu noch nicht bearbeiteten Stichwörtern nicht im Stich zu lassen. Es wird allerdings auf ein externes Informationsangebot verlinkt, das selbst nicht als tertiäre Quelle für elexiko dient. Abb. 3: Sprachreflexiver Hinweis im Wortartikel Service, Lesart ‘das Bedienen’ 6 Vgl. www.canoo.net . <?page no="46"?> 46 (Meta-)Lexikographie 3. Schlussgedanken Ausgehend von der mit Bezug auf elexiko geschilderten Praxis kann abschließend überdacht werden, ob die von Wiegand (1998) vorgeschlagene Klassifikation lexikographischer Quellen ausreicht oder ob sie gegebenenfalls präzisiert und ergänzt werden muss. Dies zu überlegen scheint vor allem für die korpusgestützte Online-Lexikographie (Beispiel elexiko) angebracht. Das Medium Internet bietet nämlich mit seinem (zumindest theoretisch) unbegrenzten Platzangebot die Möglichkeit, die Arbeit mit allen Arten von lexikographischen Quellen für die Wörterbuchbenutzer transparenter zu machen, indem aus ihnen zitiert wird oder indem zumindest auf sie verwiesen wird. Zum anderen bietet das Medium die Möglichkeit, intensiv zu anderen Online- Angeboten, z.B. lexikographischen und grammatischen, zu verlinken. Aufgrund der Erfahrungen der Arbeit an elexiko ist festzuhalten, dass die Unterscheidung in primäre, sekundäre und tertiäre Quellen, die gemeinsam die Wörterbuchbasis bilden, Bestand haben kann. Es ist aber zu bedenken, dass sekundäre und tertiäre Quellen der Lexikographen, ja sogar das Wörterbuchkorpus als Primärquelle, wenn man einen direkten Zugang zu ihm ermöglicht, auch zu unmittelbaren Informationsquellen für die Wörterbuchbenutzer werden. Mithilfe von Zitaten aus dem Wörterbuchkorpus bzw. der Möglichkeit, vom Wörterbuch aus direkt in das Korpus zu verlinken, wird die Arbeit mit dem Wörterbuchkorpus für den Benutzer transparent und nachvollziehbar. Gleiches gilt für Zitate aus oder Hinweise auf die Darstellung in sekundären und tertiären Quellen, also anderen Wörterbüchern oder beispielsweise Grammatiken. Schließlich können weitere Informationsquellen hinzutreten, die selbst nicht Quellen eines Wörterbuchs sind, auf die aber verlinkt wird. Der Verweis auf sekundäre und tertiäre Quellen geschieht in elexiko vor allem vor dem Hintergrund der Tatsache, dass die Verwendungskontexte eines Stichwortes im Wörterbuchkorpus häufig nicht mit der Verwendungs- und Bedeutungsbeschreibung in älteren Wörterbüchern übereinstimmen. Dass die lexikographischen Angaben in elexiko häufig in Beziehung zum Korpus wie zu Angaben in anderen Wörterbüchern oder weiteren Quellen gesetzt werden, ist ein lexikographisches Novum, das aber im Sinne einer Qualitätssteigerung wissenschaftlicher Wörterbücher hoffentlich anregend wirken wird, auch wenn dieses Vorgehen sowohl auf lexikographischer Seite wie bei der Wörterbuchbenutzung einen höheren Zeitaufwand erfordert. <?page no="47"?> 47 Primäre, sekundäre und tertiäre Quellen in der Lexikographie Literatur Quellen/ Korpustexte COSMAS II: http: / / www.ids-mannheim.de/ cosmas2/ und https: / / cosmas2.idsmannheim.de/ cosmas2-web/ (Stand: Januar 2012). Deutsches Referenzkorpus DeReKo: http: / / www.ids-mannheim.de/ kl/ projekte/ korpora/ (Stand: Januar 2012) Statistische Kookkurrenzanalyse: http: / / www.ids-mannheim.de/ kl/ projekte/ methoden/ ka.html (Stand: Januar 2012). Wissenschaftliche Literatur Belica, Cyril (1995): Statistische Kollokationsanalyse und Clustering. COSMAS- Korpusanalysemodul. Mannheim. Bergenholtz, Henning/ Mugdan, Joachim (1984): Grammatik im Wörterbuch: von ja bis Jux. In: Wiegand, Herbert Ernst (Hg.): Studien zur neuhochdeutschen Lexikographie V. Hildesheim u.a., S. 47-102. Bergenholtz, Henning/ Mugdan, Joachim (1989): Formen und Probleme der Datenerhebung II: Gegenwartsbezogene synchrone Wörterbücher. In: Hausmann, Franz Josef/ Reichmann, Oskar/ Wiegand, Herbert Ernst/ Zgusta, Ladislav (Hg.): Wörterbücher. Ein internationales Handbuch zur Lexikographie. 1. Teilband. Berlin/ New York, S. 1611-1625. Haß, Ulrike (Hg.) (2005): Grundfragen der elektronischen Lexikografie. elexiko - das Online-Informationssystem zum deutschen Wortschatz. (= Schriften des Instituts für Deutsche Sprache 12). Berlin/ New York. Klosa, Annette (2005): Sprachkritik und Sprachreflexion. In: Haß (Hg.), S. 299-314. Klosa, Annette (2010): Chancen und Probleme korpusgestützter Lexikografie am Beispiel deutschsprachiger Online-Wörterbücher. In: Kratochvílová/ Wolf (Hg.), S. 103-115. Klosa, Annette (Hg.) (2011): elexiko. Erfahrungsberichte aus der lexikographischen Praxis eines Internetwörterbuchs. (= Studien zur Deutschen Sprache 55). Tübingen. Schlaefer, Michael (2002): Lexikologie und Lexikographie. Eine Einführung am Beispiel deutscher Wörterbücher. 2. Aufl. Berlin. Schnörch, Ulrich (2005): Die elexiko-Stichwortliste. In: Haß (Hg.), S. 71-90. Storjohann, Petra (2005): Das elexiko-Korpus: Aufbau und Zusammensetzung. In: Haß (Hg.), S. 55-70. Wiegand, Herbert Ernst (1998): Wörterbuchforschung. Untersuchungen zur Wörterbuchbenutzung, zur Theorie, Geschichte, Kritik und Automatisierung der Lexikographie. 1. Teilbd. Berlin/ New York. <?page no="48"?> 48 (Meta-)Lexikographie Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.) (2010): Kompendium Korpuslinguistik. Eine Bestandsaufnahme aus deutsch-tschechischer Perspektive. Heidelberg. Wörterbücher und Grammatiken Bayer, Erich/ Wende, Frank (1995): Wörterbuch zur Geschichte. Begriffe und Fachausdrücke. 5. Aufl. Stuttgart. canoo.net: http: / / www.canoo.net (Stand: Januar 2012). Duden (1999): DUDEN. Das große Wörterbuch der deutschen Sprache in zehn Bänden. 3. Aufl. Hrsg. vom Wissenschaftlichen Rat der Dudenredaktion. Mannheim u.a. elexiko, in: OWID - Online Wortschatz-Informationssystem Deutsch. Hrsg. vom Institut für Deutsche Sprache, Mannheim. http: / / www.owid.de/ elexiko_/ index.html (Stand: Januar 2012). Fuchs, Konrad/ Raab, Heribert (1977): dtv-Wörterbuch zur Geschichte. 3. Aufl. München. Zifonun, Gisela/ Hoffmann, Ludger/ Strecker, Bruno (1997): Grammatik der deutschen Sprache. 3 Bde. (= Schriften des Instituts für Deutsche Sprache 7). Berlin/ New York. <?page no="49"?> Sabine Krome Digitale Datenflut: Chancen und Tücken eines Textkorpus zur deutschen Gegenwartssprache Anforderungsprofil, Methoden und Instrumentarien zur Beobachtung des aktuellen Sprach- und Schreibgebrauchs ‘Korpusbasiert’ oder ‘korpusgeleitet’ - das Pro und Contra dieser beiden Analyseansätze ist im wissenschaftlichen Diskurs inzwischen intensiv beleuchtet worden, allerdings keinesfalls mit eindeutigen Ergebnissen. 1 Wie auch immer man die beiden Ansätze bewerten mag 2 - generell richtet sich die Frage, welche Vorzüge welche Methode gegenüber welcher anderen hat, ganz wesentlich nach Art und Beschaffenheit des analysierten Korpus sowie nach dem spezifischen Untersuchungskontext und den Zielen, die mit der Analyse verfolgt werden. Die Erarbeitung und Bearbeitung von Wörterbüchern zur deutschen Gegenwartssprache erfolgt heute (in Kombination beider Methoden) vorrangig ‘korpusbasiert’ - das Korpus ist also in erster Linie Instanz zur Prüfung, zur Verifizierung oder Falsifizierung bestimmter vorgegebener Fragestellungen. Während in der Lexikographie zunächst frequenzorientierte Analysen das wichtigste Paradigma zur Bewertung darstellten, jedenfalls bei der Erstellung von Wörterbüchern, ist eine solche Methodik heute für qualifizierte Auswertungen längst nicht mehr ausreichend. Es geht nicht mehr vorrangig darum, immer mehr Daten zu sammeln und vorweisen zu können. Vielmehr stellt es mittlerweile eine Herausforderung dar, der digitalen Datenflut mit intelligenten Mitteln zu begegnen bzw. Auswertungskriterien zu entwickeln, die den Strom kanalisieren können. Die Einbeziehung sekundärer und tertiärer Quellen ist dabei unabdingbar. 3 Dies gilt umso mehr, als bei der spezifischen Verwendung eines Korpus in der Wörterbucharbeit immer auch ein Abgleich mit großen bereits vorhandenen Wörterbuch-Substanzen, also anderen ‘Korpora’, den wichtigsten ‘sekundären Quellen’, erfolgt. Wie muss ein digitales Korpus beschaffen sein, das hier eine sinnvolle Orientierungsnorm bietet? 1 Vgl. z.B. Klosa (2007), Lemnitzer/ Zinsmeister (2010, S. 32-38), Lüdeling (2007) zu den verschiedenen korpusanalytischen Ansätzen und Methoden in der Lexikographie. 2 Dazu etwa die gegenteiligen Positionen von Wolf (2010, S. 20) und Mindt (2010). 3 Vgl. dazu im Detail Klosa (2007, 2010). Zudem „sind die Korpora [egal in welcher Größe] doch auf jeden Fall endlich, und das heißt, im Hinblick auf das zu Modellierende in zufälliger Weise unvollständig“ (Eichinger 2010, S. 27). <?page no="50"?> 50 (Meta-)Lexikographie Drei Aspekte sind bei heutiger lexikographischer Arbeit an allgemeinsprachlichen Wörterbüchern von zentraler Bedeutung: 1) die Erweiterung der Stichwortsubstanz durch Neologismen, 2) die Aktualisierung der vorhandenen Substanz sowie 3) die Schreibbeobachtung vor dem Hintergrund der Arbeit des Rates für deutsche Rechtschreibung. Vor diesem Hintergrund soll es im vorliegenden Beitrag um Faktoren gehen, die beim Aufbau des WAHRIG Textkorpus digital eine Rolle spielten und die bei der Korpuspflege wesentlich sind, um die textlichen Grundlagen des Korpus sowie um die Methoden und Instrumentarien, die für die Aktualisierung und Weiterentwicklung von Wörterbüchern und für eine qualifizierte Beobachtung des Schreibusus in Zukunft entwickelt werden sollten. Dies impliziert die Frage, was ein solches Korpus, das zum großen Teil Zeitungskorpus ist, leisten kann und was nicht. Und das führt schließlich zu der Überlegung, wie das Korpus mittel- und langfristig weiter ausgebaut werden könnte. 1. Ein Korpus zur deutschen Gegenwartssprache Die digitale Datenflut ist in Online-Wörterbüchern kein so schwerwiegendes Problem. 4 Print-Wörterbücher mit dem gebotenen Umfang zwingen jedoch dazu, Prioritäten zu setzen und in besonderer Weise auf die Ausgewogenheit des Korpus zu achten. Das Ziel und der spezifische Nutzen von allgemeinsprachlichen Wörterbüchern ist es, die deutsche Gegenwartssprache authentisch widerzuspiegeln. Dass ein Korpus dazu einen angemessenen Umfang haben sollte, liegt auf der Hand, es sollte zumindest eine ‘relative Vollständigkeit’ des Wortschatzes erreicht sein. Damit verbunden ist, dass es so repräsentativ wie möglich aufbereitet sein sollte. Dies betrifft sowohl den Wortschatz im Gesamtzusammenhang wie auch die repräsentativen ‘Zielgruppen’ eines Wörterbuchs. 5 Im Idealfall sollte jeder Benutzer jeder relevanten Zielgruppe das finden, was er nachschlägt. Das dritte wichtige Kriterium ist das der Aktualität, denn nur so kann die Gegenwartssprache angemessen beschrieben werden. Das Korpus sollte nur in geringem, möglichst repräsentativem Umfang historische Texte enthalten und unbedingt bis in die Gegenwart reichen. 4 Zur Entwicklung von Online-Wörterbüchern mit Hilfe korpusanalytischer Methoden vgl. Bubenhofer in URL 1. 5 Vgl. dazu ausführlich Krome (2010). <?page no="51"?> 51 Digitale Datenflut: Chancen und Tücken Mit einem Umfang von mittlerweile mehr als 2 Milliarden Wortbelegen ist gewährleistet, dass alle wichtigen Wörter und Wendungen des deutschen Wortschatzes im WAHRIG Textkorpus vertreten sind. 6 Wichtig für den Lexikographen ist, dass ein Korpus, welches den dargestellten Anforderungen entspricht, gut strukturiert, leicht zugänglich und textsortenspezifisch aufbereitet ist, also speziell entwickelt für allgemeinsprachliche Wörterbücher mit ihren Subgenres, z.B. Fremdwörtern, Synonymen etc. Spezialwortschätze sollte es in angemessenem Umfang als Sub- und Teilkorpora darstellen können, z.B. den der gehobenen Stilebene. Und es sollte sich auf Bereiche konzentrieren, die allgemeinsprachlich interessant sind, den Wortschatz von gruppenspezifischen Sprachteilnehmern, etwa Jugendlichen, aber ‘repräsentativ’ als Jugendsprache abbilden. Dies erfordert eine einheitliche Strukturierung der Daten und eine differenzierte Kodierung der Metadaten - nach Wortart, Ressort, Stilebene, regionalem Vorkommen und anderen Kriterien. Die technische und strukturelle Aufbereitung ist essentiell, wie aber werden die genannten Kriterien vom Text- und Wortmaterial und von der Sortierung her im WAHRIG Textkorpus umgesetzt? Abb. 1: WAHRIG Textkorpus digital : Aufbau und Funktionen 6 Das WAHRIG Textkorpus digital wurde in Kooperation mit der Universität des Saarlandes, Saarbrücken, gezielt für die Arbeit an allgemeinsprachlichen Wörterbüchern entwickelt. Es umfasst Wortbelege u.a. aus folgenden Medien: Berliner Zeitung, Süddeutsche Zeitung, Der SPIEGEL, Neue Zürcher Zeitung, Der Standard, Spektrum der Wissenschaft, FÜR SIE, BRAVO. <?page no="52"?> 52 (Meta-)Lexikographie 2. Themen- und Sachbereiche, Auswertungskriterien und Instrumentarien Warum ist ein Zeitungskorpus so interessant? Zeitungen und Zeitschriften sind die auflagenstärksten Publikationen überhaupt. In der überregionalen Ausrichtung großer Zeitungen wird ein breites Publikum erreicht und über die deutsche Standardsprache angesprochen. In ihrer weiten Verbreitung über verschiedenste Ziel- und Altersgruppen decken sie annähernd alle Themenbereiche ab. Dies spiegelt das WAHRIG Textkorpus wider: Hier sind alle wesentlichen Themenbereiche, Sachgebiete und Zielgruppen erfasst. Genau dies sind auch die zentralen Bereiche, auf die der Wortschatz der deutschen Gegenwartssprache gegründet ist. Das Thema Politik/ Zeitgeschehen spielt im Korpus die größte Rolle, dicht gefolgt vom Bereich Wissenschaft/ Technik. Dies sind auch beim Entstehen von Neologismen die produktivsten Bereiche, sie sind damit wichtig für die Aktualisierung des Wortschatzes im Wörterbuch. Das Korpus kann sowohl nach Sachgebieten wie nach Zeitschriften und Jahrgängen durchsucht werden, dabei ist sehr genau festzustellen, welche Information aus welcher Quelle stammt. Abb. 2: Sachbereiche im Korpus Diese Differenzierungsmöglichkeiten machen einmal mehr deutlich, dass eine mechanisch-statistische Frequenzanalyse nicht gewährleistet, dass der deutsche Wortschatz authentisch und damit im weitesten Sinne repräsentativ widerge- <?page no="53"?> 53 Digitale Datenflut: Chancen und Tücken spiegelt wird. 7 Zur Bestimmung der Aktualität allerdings sind Frequenzen essentiell. Neben der absoluten Frequenz über den Gesamtzeitraum der Erfassung hinweg, die häufig sehr problematisch ist und Ergebnisse verfälschen kann, 8 ist die Frequenz im Vergleich der einzelnen Jahrgänge ein zentrales Bewertungskriterium. 3. Aktualität und Neologismen Zur Widerspiegelung aktueller Tatbestände und Entwicklungen sind Zeitungstexte geradezu prädestiniert. Sie beleuchten tagesaktuell alle wichtigen Themen und Ereignisse, die die Sprachteilnehmer zum gegenwärtigen Zeitpunkt bewegen. Keine andere Textsorte könnte diese Voraussetzungen erfüllen, die sonst nur die gesprochene Sprache und zum Teil die Kommunikation in Internet, z.B. über Blogs und Kommunikationsforen, bietet. Die Daten haben in diesem Rahmen wichtige Funktionen: 1) Im Vergleich verschiedener Jahrgänge sind interessante Neologismen aufzuspüren. 2) Im Gegenzug ist ebenfalls nachweisbar, dass bestimmte Lemmata weniger frequent sind und (allmählich) gar nicht mehr vorkommen (veraltende/ veraltete Wörter). 3) Die Anwendungsbeispiele sind empirisch belegt und authentisch. Dadurch wird ein ‘Wiedererkennungseffekt’ beim Wörterbuchbenutzer ausgelöst. Dies zeigt sich im Kontext einer der wichtigsten Aufgaben der Lexikographie - der Neologismenarbeit. Nach Herberg/ Kinne/ Steffens (2004) spricht man von Neologismen, wenn etwas Neues entsteht und eine Benennung braucht oder wenn ein Sachverhalt sich neu konstituiert oder darstellt (‘Neulexem’). Ein Neologismus kann ebenso eine Wortneubildung sein, die ältere Begrifflichkeiten ersetzt oder ergänzt. Ein bereits vorhandenes Lexem kann aber auch eine neue Bedeutung erhalten (‘Neubedeutung’). 9 7 Wie etwa im methodischen Zugriff bei Quasthoff (2007, S. 9) suggeriert. Vgl. dagegen Scherer (2006, S. 49). 8 Dies ist zu einem großen Teil die Ursache für die Unzulänglichkeit von Ergebnissen, die die Suche über eine öffentlich zugängliche Suchmaschine wie Google in einem „opportunistischen Korpus“ (Meger 2010, S. 102), dem Internet, häufig zur Folge hat. 9 Vgl. Herberg et al. (2004, S. XI). Zum Terminus ‘Neologismus’ und dem Begriff der ‘Usualität’ vgl. auch Meger (2010, S. 13-25), Quasthoff (2007, S. 7-9), Elsen (2011, bes. S. 19-22), Elsen/ Dzikowicz (2005, S. 80). Die Definition von ‘Neologismus’ ist in der Forschung nicht klar fixiert. Vgl. dazu Wolf-Bleiß (2009, S. 85f.). <?page no="54"?> 54 (Meta-)Lexikographie 3.1 Flashmob und Schweinegrippe: Neologismen versus Okkasionalismen Ein solches ‘Neulexem’, das einen neuen Sachverhalt beschreibt, bezeichnet Flashmob. Der Begriff umschreibt eine „spontane Ansammlung von Menschen, die gemeinsam eine überraschende Aktion durchführen, die vorab im Internet verabredet wurde“. 10 Das Wort ist erst seit 2003 im Korpus belegt, es braucht eine gewisse Anlaufzeit, bis es in der Öffentlichkeit registriert wird, und erlebt eine Bedeutungsspezifizierung hin zum Bereich Politik. Eine solche Form der politischen Aktion haben erst die modernen elektronischen Kommunikationsmedien möglich gemacht, das iPhone und das Internet. Entsprechend steigt die Frequenz des Wortes von 2008 bis 2010 um ein Vielfaches. Abb. 3: Neologismen: Korpusanalyse zu Flashmob Die gegenteilige Entwicklung ist bei einem anderen vor allem im Jahr 2009 hochfrequenten Lemma zu beobachten, der Schweinegrippe. Ausgehend von 0,2% vor dem Jahr 2009 steigt die Frequenz des Wortes 2009 auf 87,4% des Gesamtvorkommens, um dann bereits 2010 mit dem erfolgreichen Bekämpfen der Seuche wieder auf nur 12,4% zu fallen. Es handelt sich also bei diesem Neologismus bzw. der früher bereits vorhandenen Bezeichnung für eine Krankheit um eine Eintagsfliege. 11 In anderen Textsorten als aktuellen Zei- 10 Brockhaus WAHRIG Deutsches Wörterbuch (2011). 11 Lemnitzer/ Zinsmeister fassen den Begriff ‘Okkasionalismus’ sehr eng als Gelegenheitsbildung, die nicht lexikalisiert ist (vgl. Lemnitzer/ Zinsmeister 2010, S. 147), breiter im Vergleich Elsen (2011, S. 21). In ein aktuelles allgemeinsprachliches Wörterbuch würden solche Lemmata - analog etwa Elchtest - aufgenommen, dann aber ggf. wieder gestrichen werden. <?page no="55"?> 55 Digitale Datenflut: Chancen und Tücken tungen und Zeitschriften würden Wörter wie Schweinegrippe, aber auch Flashmob, vermutlich nie entdeckt werden, jedenfalls nicht in hoher Frequenz. Innovative korpusanalytische Verfahren ermöglichen es, solche Wörter ‘zeitnah’ zu ermitteln und ihre Entwicklung zu verfolgen, etwa dadurch, dass Entstehungsprozesse von Neologismen mit bestimmten Suchalgorithmen gezielt aufgespürt werden (z.B. in den Phrasen unter ... versteht man, dies bedeutet ...). Bei diesen Neologismen wird deutlich sichtbar, wie Worthäufigkeit und das Vorkommen eines Wortes im Korpus gesellschaftliche oder auch technische Entwicklungen widerspiegeln. 3.2 Gigaliner - die Entstehung eines Neologismus Mit Hilfe eines Korpus kann auch verfolgt werden, wie ein Neologismus entsteht, zum Beispiel der Gigaliner. Im Jahr 2006, als die Idee des Mammutfahrzeugs in Deutschland aufkam, stehen verschiedene Begriffe in Konkurrenz zueinander: Riesen-Lkw, Eurocombi, Monstertruck, XXL-Brummi und Gigaliner. Im Korpus zeigen Metasignale an, dass das Wort noch nicht fest etabliert ist: der Zusatz sogenannt (z.B. sog. Gigaliner), Anführungszeichen, sonstige Auszeichnungen. Das Ausbleiben von Metasignalen - plus eine stabile Frequenz - ist dann ein Anzeichen dafür, dass sich der Neologismus etabliert hat. Abb. 4: Die Entstehung eines Neologismus am Beispiel von Gigaliner <?page no="56"?> 56 (Meta-)Lexikographie 3.3 Rettungsschirm: Semantische Modifikation und Entstehen einer neuen Bedeutung Es wurde gezeigt, wie ein Neologismus entsteht und wie man ihn anhand eines geeigneten Korpus erkennen und seine Entwicklung verfolgen kann. Mit Hilfe vor allem der Anwendungsbeispiele im Korpus sind auch Bedeutungsveränderungen und -erweiterungen aufspürbar. Dies belegt das Wort Rettungsschirm. Bis 2007 taucht das Wort lediglich in der Bedeutung ‘Fallschirm’ auf. Bereits 2008 bis 2009 wird der Begriff häufiger im Sinne von ‘finanzielle Hilfe’ gebraucht. Mit den verschiedenen ‘Rettungspaketen’ für verschuldete EU- Staaten ist dann fast ausschließlich die figurative Bedeutung vorherrschend. Abb. 5: Semantische Modifikation und Entstehen einer neuen Bedeutung: Rettungsschirm Abschließend soll auf einen der produktivsten Bereiche für Neologismen eingegangen werden, aber auch einen der schnelllebigsten. Dies verdeutlicht eine Korpusanalyse mit Momentaufnahmen aus 70 Jahren. <?page no="57"?> 57 Digitale Datenflut: Chancen und Tücken Abb. 6: Neologismen und Jugendsprache 3.4 Neologismen in der Jugendsprache Im Jahr 2010 zeigt das Korpus elf Begriffe für sehr gut: knorke, dufte, prima, klasse, toll, super, cool, geil, megageil, endgeil, kultig. Um ihren ‘Werdegang’ zu verfolgen, wurde ein begrenztes literarisches Korpus des 20. Jahrhunderts ausgewertet. 12 Auf der Jahresmarke 1940 kristallisieren sich drei frequente jugendsprachliche Begriffe für sehr gut heraus: knorke, prima und dufte, prima als das frequenteste. 30 Jahre später, im Jahr 1970, sind zwei der Begriffe von 1930 immer noch nachzuweisen: prima und dufte, allerdings mit verminderter Frequenz, knorke ist praktisch verschwunden. Hinzugekommen sind toll und klasse, die beide ihren Platz über die nächsten 40 Jahre behaupten. Im Jahr 1995 mit dem Anfang des systematischen digitalen Korpusaufbaus ist dufte verschwunden bzw. nur noch irrelevant in Bezug auf Berliner Varietäten nachzuweisen, hinzugekommen sind cool, super und kultig. Auffällig beim Sprung zum Jahr 2010 ist, dass cool sich längst als stabiler Neologismus der Jugendsprache etabliert hat, das zeigt die hohe Zahl der Belege (31.189). Aber toll läuft ihm immer noch den Rang ab. Doch auch die ‘relativ alten’ Begriffe 12 Dieses Korpus enthält z.B. Bücher und andere literarische/ publizistische Dokumente der 1930er und 1940er Jahre (Zeitschriften zum Bereich Kabarett und zu Schriftstellern und Zeichnern wie Döblin oder Zille). Aufgrund juristischer Auflagen darf es aber nicht vollständig genutzt und ausgewertet werden. <?page no="58"?> 58 (Meta-)Lexikographie prima, super, klasse haben eine gleichbleibend hohe Frequenz. Will man also wirkliche Neologismen eines Zeitraums ermitteln, kann nur eine erweiterte Suche helfen: Kookkurrenzanalysen unter Einbeziehung von Umgebungswörtern, hier eines anderen - vor allem in der gesprochenen Sprache - nachzuweisenden Neologismus, nämlich: voll als graduierendes, adverbial gebrauchtes Adjektiv, wie in voll kultig, voll cool, voll geil, neben voll krass und voll ätzend. Hier zeigen sich noch erhebliche Desiderate in der gegenwärtigen Korpusarbeit, auch werden die Grenzen eines Zeitungskorpus aus Texten ‘professioneller Schreiber’ deutlich - jugendsprachliche Wortschatzentwicklung ist nur ansatzweise ablesbar, da nicht verschriftlicht. 13 4. Schreibbeobachtung im Rat für deutsche Rechtschreibung Stand bis hierher vorwiegend die Sprachentwicklung im Vordergrund der Betrachtung, so soll es nun um die Beobachtung der Schreibentwicklung im Rat für deutsche Rechtschreibung gehen. Diese Aufgabe nimmt mit Hilfe korpusanalytischer Methoden und Instrumentarien die AG Korpus wahr - auf der Basis der Korpora von DUDEN, IDS und WAHRIG, den drei größten Korpora zur deutschen Gegenwartssprache. Für die 2. Amtsperiode des Rates bis 2016 hat die AG ein Konzept entwickelt, wie Schreibbeobachtung langfristig und systematisch betrieben werden kann. Im Mittelpunkt der Beobachtung und Auswertung steht auch hier die Zielgruppe ‘professionelle Schreiber’. Mit Bezug auf die bereits 2006 entwickelte Methodik soll sich die Analyse im Wesentlichen an zwei Fragestellungen orientieren: 1) Akzeptanz der geltenden Rechtschreibregelung und 2) Präferenz bei Variantenschreibungen. Kernkriterien für eine systematische Analyse sind auch hier wie für die Wörterbucharbeit: 1) Repräsentativität und relative Vollständigkeit der Untersuchungsgegenstände: Die Analyse sollte alle relevanten Bereiche und Komplexe des amtlichen Regelwerks und alle wichtigen Fälle des amtlichen Wörterverzeichnisses abdecken. 2) Repräsentatives Vorkommen im deutschen Wortschatz: Zumindest mittlere Frequenz muss gegeben sein, da der ‘Usus’ analysiert werden soll. 13 Zur Problematik der Analyse von Soziolekten, vor allem der Jugendsprache, vgl. Elsen (2002, bes. S. 138). <?page no="59"?> 59 Digitale Datenflut: Chancen und Tücken 3) Die Ausgewogenheit der Auswahl von allgemeinsprachlichem Wortschatz und einschlägigem Fachwortschatz sollte gewährleistet sein. 4) Die Realisierbarkeit im Rahmen korpusanalytischer Instrumentarien ist im Auge zu behalten. Als perspektivisches Ziel der Untersuchungen wird angestrebt: - die Anpassung einer Regel an den beobachteten Gebrauch mit Präzisierung oder Neufassung einer Regel, - die Neuzuordnung einzelner Lexeme von einer vorhandenen Regel zu einer anderen, - die Streichung von Einzelschreibungen, die nicht dem Schreibgebrauch entsprechen, bzw. die Neuzulassung von Varianten, - ggf. die Vereinheitlichung von Schreibungen in den Wörterbüchern im Sinne der Einheitlichkeit der Rechtschreibung im deutschen Sprachraum, - die Entwicklung von Paradigmen und Pilotuntersuchungen zu orthografischen Fehlerschwerpunkten für den Bereich Schule. 4.1 Die Auswahl der Untersuchungsgegenstände Hier spielt eine große Rolle, ob die Rechtschreibphänomene für eine Korpusanalyse auf gegenwärtigem Stand systematisch untersucht werden können. Dies ist von den sechs Bereichen des amtlichen Regelwerks bei der Laut-Buchstaben-Zuordnung (LBZ) einschließlich Fremdwörtern, der Getrennt- und Zusammenschreibung (GZS) einschließlich der Schreibung mit Bindestrich und der Groß- und Kleinschreibung (GKS) der Fall. Die LBZ ist in allen Bereichen am besten ‘flächendeckend’ zu analysieren. Zum einen ist die Regelung in allen Bereichen der LBZ seit 1996 konstant geblieben, was zuverlässige Ergebnisse verspricht. Vor allem aber weist die LBZ lediglich orthografische Variation, keine semantisch begründete auf. Als Beispiel dafür, wie offizielle Regeln und tatsächlicher Schreibgebrauch auseinanderdriften können, kann eine Analyse zu den Kategorien Regelakzeptanz und Präferenz von Varianten dienen. 4.2 Varianten bei Fremdwörtern: Diskrepanz zwischen Norm und Usus Nach amtlichem Regelwerk von 1996 war die fremdsprachige Schreibung Buffet nur noch in Österreich und der Schweiz zugelassen. Die Wörterbücher führten sie z.T. trotzdem auf, weil sie schon damals gängiger war als die inte- <?page no="60"?> 60 (Meta-)Lexikographie grierte Form. Ab 1995 steigend bis 2010 weist sie, nicht nur in den österreichischen Quelltexten, durchgängig die höheren Belegraten auf (obere gestrichelte Linie). Die seit 1996 allein zugelassene integrierte Schreibung Büfett (gepunktete Linie) dagegen bewegt sich langfristig fast auf dem gleichen niedrigen Niveau der seit 1996 auch für Österreich nicht mehr zugelassenen Variante Büffet. Dies zeigt, dass bei Schreibweisen, die der Logik, z.B. der gängigen Aussprache im Deutschen, widersprechen, die Nachvollziehbarkeit und damit die Akzeptanz von integrierten Schreibungen bei den Schreibenden offenbar gering ist. Konsequenz wäre, die fremdsprachige Schreibung im gesamten deutschen Sprachraum zuzulassen. 14 Abb. 7: Variantenschreibungen - Diskrepanz zwischen Norm und Usus: Büfett vs. Buffet 4.3 Akzeptanz der geltenden Regelung: Getrennt- und Zusammenschreibung Schwieriger stellt sich die Situation bei der GZS dar. Hier konnten in der 1. Amtsperiode des Rats nur eingeschränkt Analysen gemacht werden, da mit der Neufassung von 2006 zahlreiche Schreibungen neu geregelt wurden. 14 Ein ähnlicher Fall liegt bei den integrierten Variantenschreibungen Kreme oder Butike vor, die 2010 vom Rechtschreibrat gestrichen wurden. Das entgegengesetzte Ergebnis, also dass integrierte Schreibungen mehrheitlich gut angenommen werden, zeigt sich bei Lemmata mit den Bestandteilen phon, phot und graph, bei denen die Variante mit f seit 1996 regelhaft zugelassen ist. Das Nebeneinander der beiden Formen hier entspricht offenbar dem normalen Prozess der Fremdwortintegration. Dazu ausführlich Krome (2011). <?page no="61"?> 61 Digitale Datenflut: Chancen und Tücken Größtes Problem ist, dass semantische Aspekte häufig eine wichtige Rolle spielen, dieser Punkt ist in der Neuregelung noch gestärkt worden. Dazu sollen die Beispiele schwerfallen und leichtfallen - Verbindungen von Adjektiv und Verb - untersucht werden, beide in übertragener Bedeutung. Abb. 8: Schreibbeobachtung zur Getrennt- und Zusammenschreibung: schwerfallen vs. schwer fallen Bei schwerfallen ist das Ergebnis eindeutig: die Wiedereinführung der Zusammenschreibung greift. Auch vor der Reform wurde zu rund 80% richtig zusammengeschrieben. Ab 1998 zeigt die Reform dann Wirkung. Die Gebräuchlichkeit der neu eingeführten Getrenntschreibung verdrängt die alte Zusammenschreibung fast vollständig, aber in der Öffentlichkeit gibt es starke Kritik an der bedeutungsfernen Getrenntschreibung. Seit 2006 ist ein deutlicher Anstieg der Zusammenschreibung nach ihrer Wiederzulassung festzustellen, 2009 fast wieder auf Vorreformniveau. Dieser Fall wird weiter beobachtet werden, z.B. um das neue Regelkriterium der Idiomatisierung zu prüfen. Bei leichtfallen ist das Ergebnis nicht analog, hier zeigt sich auch 2010 noch eine deutliche Bevorzugung der Getrenntschreibung. Dies könnte daran liegen, dass das Verb auch in konkreter Bedeutung gebraucht werden kann, woraufhin alle Belege eigens geprüft werden müssen. Aber schon die bloße Tatsache, dass ein Wort konkret oder übertragen gebraucht werden kann, kann die ‘Intuition der Schreibenden’ offenbar beeinflussen. Hier wären sprachtechnologisch bessere Möglichkeiten zu kontextsensitiven - syntaktischen und semantischen - Analysen sehr von Nutzen. Dies trifft auch auf einige Komplexe der Groß- und Kleinschreibung zu. <?page no="62"?> 62 (Meta-)Lexikographie Abb. 9: Schreibbeobachtung zur Getrennt- und Zusammenschreibung: leichtfallen vs. leicht fallen 4.4 Akzeptanz der geltenden Regelung: Groß- und Kleinschreibung Die Korpusanalyse zeigt, dass in der GKS die formalen Kriterien der Rechtschreibreform 1996 in vielen Fällen offenbar greifen. So wird die Neuregelung z.B. bei Fügungen aus Präposition, Artikel und substantiviertem Partizip nahezu zu 100% akzeptiert und besser angenommen als die Vorreformregelung nach Bedeutungskriterien (wie etwa bei dem Fallbeispiel auf dem Laufenden sein). Schwieriger liegt der Fall bei den sog. Nominationsstereotypen, z.B. bei Schwarzes Brett oder Rote Karte. Hier muss der Schreibende in jedem Einzelfall entscheiden, ob eine konkrete oder eine übertragene Bedeutung vorliegt oder ob der Begriff zur Fachsprache gehört. Es ist daher mit den gegenwärtig zur Verfügung stehenden Mitteln nur schwer auszumachen, ob die geltende Regelung der Bedeutungsdifferenzierung angenommen wird oder nicht. 5. Die Chancen ‘zeitungskorpusbasierter’ Lexikographie Sowohl die Schreibwie auch die Wortschatzbeobachtung vor allem in der Neologismenarbeit zeigt, welch große Chancen das Korpus, ein Zeitungskorpus, für die moderne Lexikographie bietet. Denn hier werden Sprache und Rechtschreibung ständig reflektiert. Neue Ausdrücke müssen eingeführt werden, da sie beim Leser nicht immer als bekannt vorausgesetzt werden können. So können bei der Sprachbeobachtung im Rahmen von Wortschatzanalysen fehlende <?page no="63"?> 63 Digitale Datenflut: Chancen und Tücken Wörter ermittelt und zeitnah neue Wörter aufgespürt werden. Veraltete Wörter können im Gegenzug so gekennzeichnet oder gestrichen werden. Im Jahrgangsvergleich können Neologismen im Hinblick auf Vorkommen, Bedeutung und Schreibung beobachtet werden, auch im Umfeld von weiteren Neologismen. Durch Ermittlung von Kollokatoren kann ferner der Bedeutungswandel von Wörtern und Wendungen verfolgt werden. Und im Zuge der Schreibbeobachtung im Rat für Rechtschreibung schließlich kann eine Prüfung von Schreibweisen und dadurch von orthografischen und grammatischen Regularitäten vorgenommen werden. All dies ermöglicht differenzierte Aufschlüsse zu authentischem Sprachgebrauch. Die Methoden der reinen Frequenzanalyse sind inzwischen deutlich verbessert und modifiziert worden. Es bleiben aber klare Defizite im Bereich der Kollokations- und Kontextanalyse. Die gezeigten Beispiele haben deutlich gemacht, dass viele Fragen, bei denen semantische Bezüge eine Rolle spielen, mit Hilfe derzeit zur Verfügung stehender Methoden nicht oder nur unter großem Aufwand geklärt werden können. Wie also könnte das Korpus mittel- und langfristig weiterentwickelt werden? 6. Korpusanalyse - Desiderate und Perspektiven 1) Textliche Grundlagen a) Im Hinblick auf Fehleranalysen sind die bisher zugrundeliegenden Korpora defizitär: Ein Korpus, das vorwiegend aus Texten ‘professioneller Schreiber’ besteht, spiegelt nur begrenzt Fehlschreibungen, da es zum großen Teil auf Korrekturprogrammen aufsetzt. Eine Lösungsmöglichkeit wäre der Aufbau eines Subkorpus aus Internettexten wie Blogs und E-Mails. b) Bei Wortschatzanalysen kann etablierter oder veralteter Wortschatz durch Frequenzbeobachtungen häufig nicht als wichtig, veraltet, überarbeitungsbedürftig erkannt werden. Hier wäre es möglich, eine Auswahl an historischen Texten einzuspeisen: Zeitungstexte, aber auch Literatur. c) Im Hinblick auf Stilanalysen ist die Umgangssprache unterrepräsentiert. Jugendwortschatz etwa kann nur in Ansätzen reflektiert werden. Denkbar wäre der Aufbau eines Korpus gesprochener Sprache, ggf. auch auf der Basis anderer Medien wie Radio und Fernsehen. Internettexte könnten ebenfalls eine gute Grundlage sein, ebenso wie ein Teilkorpus repräsentativer Jugendliteratur. <?page no="64"?> 64 (Meta-)Lexikographie 2) Ausgereifte Methoden der Kontext- und Kollokationsanalyse In diesem Bereich besteht der größte Optimierungsbedarf: Die sprachtechnologischen Instrumentarien sind unzulänglich im Hinblick auf eine syntaktische und semantische Auswertung, etwa hinsichtlich der Wortartenbestimmung. So ist auch die Zeichensetzung bisher nicht korpusanalytisch zu untersuchen. Was ist hier zu tun? Die grundlegenden Desiderate, die beim jetzigen Stand empirischer korpusanalytischer Forschung noch vorhanden sind, sowie der hohe finanzielle, technische und personelle Aufwand, den eine grundlegende Optimierung der Methoden und Instrumentarien erforderlich macht, andererseits aber auch die hoffnungsvollen Ansätze und Ergebnisse der Kooperation verschiedener ‘Korpuspartner’ im Rat für deutsche Rechtschreibung legen eine übergreifende Zusammenarbeit nahe. Ziel einer solchen Kooperation von Partnern, die ähnlich gelagerte Korpora aufgebaut haben, wäre eine umfassende Dokumentation des Schreibgebrauchs mit Hilfe innovativer computerlinguistischer und sprachtechnologischer Werkzeuge und Methoden für die Korpusbearbeitung und für vergleichende Analysen in einer neuen, übergreifenden Forschungsinfrastruktur. Zu erhoffen wären entscheidende Synergie-Effekte, um viele der oben angesprochenen Probleme zu lösen, so dass die einzelnen Korpora noch effektiver und gewinnbringender ausgewertet werden könnten. Darüber hinaus könnte eine Zusammenarbeit mit Institutionen, die andersgeartete Korpora entwickelt haben, sinnvoll sein, so dass wertvolles Auswertungsmaterial zumindest teilweise auch weiteren Nutzergruppen zur Verfügung gestellt werden könnte 15 - für wissenschaftliche Folgeprojekte beispielsweise zur Fremdwort- oder Neologismenforschung und damit zu einer noch präziseren und umfassenderen Beobachtung des Sprach- und Schreibgebrauchs. Literatur Quellen/ Korpustexte Brockhaus WAHRIG Deutsches Wörterbuch. Hrsg. von Renate Wahrig-Burfeind. Gütersloh/ München 2011. Brockhaus WAHRIG Die deutsche Rechtschreibung. Hrsg. von der WAHRIG-Redaktion. Gütersloh/ München 2011. 15 Dieses Desiderat zeigen die meisten vorliegenden korpusanalytischen Studien: Auf ein zielgerichtet aufgebautes Gesamtkorpus kann häufig nicht zurückgegriffen werden. Auch besteht noch zu wenig Verbindung zwischen universitär-wissenschaftlichem und empirisch arbeitendem Bereich. <?page no="65"?> 65 Digitale Datenflut: Chancen und Tücken COSMAS II: http: / / www.ids-mannheim.de/ cosmas2 (Stand: 16.02.2012). Lemnitzer, Lothar: Die Wortwarte. Wörter von heute und morgen. Eine Sammlung von Neologismen: http: / / www.wortwarte.de (Stand: 16.02.2012). WAHRIG Textkorpus digital : http: / / ww.brockhaus.de/ wahrig (Stand: 18.02.2012). Wortschatz Universität Leipzig: http: / / wortschatz.uni-leipzig.de (Stand: 16.02.2012). Wissenschaftliche Literatur Eichinger, Ludwig M. (2010): Der durchschnittliche Linguist und die Daten. Eine Annäherung. In: Kratochvílová/ Wolf (Hg.), S. 27-51. Elsen, Hilke (2011): Neologismen. Formen und Funktionen neuer Wörter in verschiedenen Varietäten des Deutschen. 2. Aufl. (= Tübinger Beiträge zur Linguistik 477). Tübingen. Elsen, Hilke (2002): Neologismen in der Jugendsprache. In: Muttersprache 112, 2, S. 136-154. Elsen, Hilke/ Dzikowicz, Edyta (2005): Neologismen in der Zeitungssprache. In: Deutsch als Fremdsprache 42, 2, S. 80-85. Herberg, Dieter/ Kinne, Michael/ Steffens, Doris (2004): Neuer Wortschatz. Neologismen der 90er Jahre im Deutschen. Berlin/ New York. Kallmeyer, Werner/ Zifonun, Gisela (Hg.) (2007): Sprachkorpora - Datenmengen und Erkenntnisfortschritt. Jahrbuch 2006 des Instituts für Deutsche Sprache. Berlin/ New York. Klosa, Annette (2007): Korpusgestützte Lexikographie: besser, schneller, umfangreicher? In: Kallmeyer/ Zifonun (Hg.), S. 105-122. Klosa, Annette (2010): Chancen und Probleme korpusgestützter Lexikografie. Am Beispiel deutschsprachiger Online-Wörterbücher. In: Kratochvílová/ Wolf (Hg.), S. 103-115. Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.) (2010): Kompendium Korpuslinguistik. Eine Bestandsaufnahme aus deutsch-tschechischer Perspektive. Heidelberg. Krome, Sabine (2010): Die deutsche Gegenwartssprache im Fokus korpusbasierter Lexikographie. Korpora als Grundlage moderner allgemeinsprachlicher Wörterbücher am Beispiel des WAHRIG Textkorpus digital . In: Kratochvílová/ Wolf (Hg.), S. 117-134. Krome, Sabine (2011): Variantenschreibungen bei Fremdwörtern: Darstellung und Begründung. Empirische Schreibbeobachtung auf der Grundlage korpusbasierter Lexikographie. In: Mitteilungen des Deutschen Germanistenverbandes. Rechtschreibung 58, 1, 2011, S. 36-50. Lemnitzer, Lothar/ Zinsmeister, Heike (2010): Korpuslinguistik. Eine Einführung. 2. Aufl. Tübingen. <?page no="66"?> 66 (Meta-)Lexikographie Lüdeling, Anke (2007): Das Zusammenspiel von qualitativen und quantitativen Methoden in der Korpuslinguistik. In: Kallmeyer/ Zifonun (Hg.), S. 28-48. Meger, Andreas W. (2010): Makro- und mediostrukturelle Aspekte in Neologismenwörterbüchern. Ein Beitrag zur Theorie und Praxis der Neografie des Polnischen, Russischen, Tschechischen und Deutschen. Univ. Diss. Mannheim. Mindt, Ilka (2010): Methoden der Korpuslinguistik: Der korpus-basierte und der korpusgeleitete Ansatz. In: Kratochvílová/ Wolf (Hg.), S. 53-65. Scherer, Carmen (2006): Korpuslinguistik. (= Kurze Einführungen in die germanistische Linguistik 2). Heidelberg. Quasthoff, Uwe (2007): Deutsches Neologismenwörterbuch. Neue Wörter und Wortbedeutungen in der Gegenwartssprache. Berlin/ New York. URL 1: Bubenhofer, Noah: Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge (2006-2012). http: / / www.bubenhofer.com/ korpuslinguistik (Stand: Februar 2012). Wolf, Norbert Richard (2010): Korpora in der Korpuslinguistik. In: Kratochvílová/ Wolf (Hg.), S. 17-25. Wolf-Bleiß, Birgit (2009): Neologismen - Sprachwandel im Bereich der Lexik. In: Siehr, Karl-Heinz/ Berner, Elisabeth (Hg.): Sprachwandel und Entwicklungstendenzen als Themen im Deutschunterricht: fachliche Grundlagen - Unterrichtsanregungen - Unterrichtsmaterialien. Potsdam, S. 83-101. <?page no="67"?> Hans Wellmann Muster der Adjektivderivation in alten und neuen Korpora - und ihre Reflexe im Wörterbuch 1. Einleitende Überlegungen Im Mittelpunkt dieser Konferenz stehen Recherchen zur deutschen Sprache und zum Sprachgebrauch in Korpora aller Art und, damit verbunden, Untersuchungen zu ihren Voraussetzungen, zu den Quellen wie zu ihrer Interpretation, Bewertung und Einordnung ihrer Ergebnisse. Das passt zu den Arbeiten, die ich bisher zur Wortbildung vorgelegt habe. Ein Segment aus diesem Bereich möchte ich hier aus Sicht der Korpuslinguistik behandeln. Die Merkmale von Korpora sind viel und auch kontrovers diskutiert worden. Was sich davon in Handbüchern und Einzeluntersuchungen als zentrale Bedeutung eines linguistischen Korpus heraushebt, ist dies: - Das Korpus ist „eine Sammlung von schriftlich oder mündlich konstituierten Texten“, die „annotiert“ sind und „als repräsentativ für den Sprachgebrauch [...] angesehen werden“ (Wolf 2010, S. 17). - Korpora, mit denen linguistische Aufgaben zu lösen sind, sollen - per se - nach den gegebenen Möglichkeiten unter „sprachwissenschaftlichen Gesichtspunkten ausgewählt“ sein (Scherer 2006, S. 5). - Die Untersuchungen sind von Anfang an „prinzipiell zweckgebunden“. Das Ziel der Analysen besteht darin, ihre Ergebnisse zu prüfen und zu vergleichen und vergleichend einzuordnen (Töpel 2009). Sie dienen dazu, eigene Annahmen und den augenblicklichen Kenntnisstand („korpusbasiert“) zu bestätigen oder zu revidieren, ihn zu korrigieren oder zu komplettieren. Ihr Zweck bestimmt die Auswahl der Korpustexte. Aus Korpusanalysen können auch ganz neue Forschungsfragen entwickelt werden („korpusgeleitet“; Bubenhofer 2009, Mindt 2010). - Korpora, die so analysiert werden, sollen es ermöglichen, Forschungsfragen ‘exhaustiv’ und ‘intersubjektiv überprüfbar’ zu beantworten. - Nackte Zahlen, Frequenzwerte, sind noch keine Befunde. Sie müssen sich im Kontext zeigen und einordnen lassen, „frequenzorientiert und kontextsensitiv“ (Mukherjee 2009, S. 20), um interpretiert und in ihrer Signifikanz (z.B. durch Prozentangaben) bestimmt werden zu können. <?page no="68"?> 68 (Meta-)Lexikographie - Solche Korpora bestehen aus authentischen Materialien von vielfältiger Gestalt. Es kommt auf ihre Repräsentativität an. Gesamtkorpora sind durch die Überlieferung definiert. Zum Korpus der gotischen Sprache gehören z.B. so unterschiedliche Texte wie die ganze Wulfila-Bibel (4. Jh.), Skereins (4. Jh.) und Busbeks Aufzeichnungen von 68 Wörtern der krimgotischen Alltagssprache (18. Jh.). Auswahlkorpora können aus Lesefunden (Belegen) zusammengestellt und in Karteien erfasst sein, aus elektronischen Druckskripten bestehen, als Konkordanzen und Glossare veröffentlicht sein, in einem Datenchaos (Google) vorliegen oder als systematisch angelegte Datenbanken (der Forscher, Verlage, Institute, Medienanstalten usw.) zur Verfügung stehen. Im 21. Jahrhundert liegen viele Korpora - Lemnitzer/ Zinsmeister (2009, S. 7), Mukherje (2009, S. 20) u.a. sagen „typischerweise“ - schon digitalisiert vor, elektronisch abruf-, sortier- und analysierbar. Die Wirklichkeit der Korpusanalysen reicht aber weit darüber hinaus: „Die wichtigste empirische Methode der historischen Sprachwissenschaft ist zweifellos die Korpusanalyse. Sie besteht in der Sichtung, der Analyse und dem Vergleich von Texten und Sprachzeugnissen aus unterschiedlichsten Epochen, Gattungen, Registern und Sprechsituationen.“ (Kaiser 2005, S. 72) Vom Unfang eines Korpus her unterscheidet man Kleinkorpora (siehe Hans Ulrich Schmid und Jana Valdrová in diesem Band), mittlere (DeuCze, dazu Gabriela Rykalová in diesem Band) und umfassende Großkorpora (COSMAS II, siehe Klosa i. d. Bd.; Intercorp) dazu. Von ihrer Zusammensetzung her reichen sie von den eigenen Belegsammlungen, Belegkonkordanzen und Glossaren bis zu Wort- und Stellenindices und anderen Registern, von transkribierten digitalisierten Sprachaufnahmen bis zu Textsammlungen, Werkausgaben, Zeitungskorpora usw. und großen Datenbanken. Als Antwort auf die Handbuchdefinitionen von Lemnitzer/ Zinsmeister (2006), Bubenhofer (2009) u.a. sollen hier folgende Merkmale herausgehoben werden: - implizite oder a posteriori installierte Vergleichbarkeit. Wie sie aussehen kann und welche Tore die Vergleichsanalysen dann öffnen, wird hier am Beispiel der Korpusanalysen zur Adjektivderivation dargestellt. Dabei werden die Ergebnisse von Untersuchungen zu kleinen, mittleren und großen, philologisch oder elektronisch organisierten Korpora aufeinander bezogen. - Die Zweckorientierung ermöglicht einen flexiblen Umgang mit verschiedenen Korpora, je nachdem, ob übereinstimmenden Züge der untersuchten <?page no="69"?> 69 Muster der Adjektivderivation in alten und neuen Korpora Sprache herausgearbeitet werden sollen, oder ob es ihre Varianz und Vielfalt ist, die zu ermitteln ist (z.B. nach Parametern der Areallinguistik in der ‘Variationslinguistik’). Die Parameter richten sich danach, - ob Formen oder Prozesse der Sprachgeschichte (diachron), alte oder Bewegungen im aktuellen Sprachgebrauch erforscht werden oder - ob gleichzeitige Zusammenhänge zu beschreiben sind (synchron), konkatenative (z.B. syntagmatische) oder substitutive (z.B. paradigmatische) Beziehungen (z.B. der Grammatik), feste Muster (Patterns) oder die freie Kombinatorik von Lexemen nach ihren Funktionen (z.B. Referenz oder Konnotation) in Rede und Text oder - ob größere sprachliche Einheiten (Texte) in ihrem Aufbau (ihrer Konstitution), in dem Zusammenspiel ihrer Elemente (je nach dem stilistischen Zweck) oder auch in ihrer unterschiedlichen Wahrnehmung (Rezeption) untersucht werden. All das muss bei der Entscheidung für ein bestimmtes Korpus eine Rolle spielen. 2. Korpusanalysen zur Wortbildung Untersucht werden Bereiche der deutschen Wortbildung, zu denen ich keine eigenen Korpusanalysen vorgelegt habe: Für die Verbbildung die Präfigierung und für die Adjektivbildung die Suffigierung. Die Suffixderivation wird dabei in ihrem Zusammenspiel mit anderen Wortbildungsmitteln beschrieben. 2.1 Zur Adjektivderivation Den Anlass dazu, für diese Studie zunächst die Ableitung mit -haft auszuwählen, bietet die Arbeit von Igor Trost über Das deutsche Adjektiv (2006). Dort wird -haft gar nicht behandelt, obwohl die Suffixe -isch, -lich und 0 verglichen und aufeinander bezogen werden und das systematische Zusammenspiel schon beobachtet worden ist: - mit -isch bei Konkurrenzen wie ikonisch ikonenhaft, herrisch herrenhaft, dilettantisch dilettantenhaft, sektiererisch sektiererhaft; daneben gibt es auch entsprechende Konvergenzen (heroisch - heldenhaft, dilettantisch - stümperhaft); - mit -lich Konkurrenzen wie schulmeisterlich schulmeisterhaft, kindlich kindhaft, fraulich frauenhaft; <?page no="70"?> 70 (Meta-)Lexikographie - mit -ig die Konkurrenzen riesig riesenhaft, zickig zickenhaft (DW III, S. 342f.). Trost verweist auf Eichinger (2000): „Das Suffix -isch unterscheidet sich wie das Suffix -lich von dem Suffix -ig dadurch, dass es ‘die Eigenschaftsbestimmung über eine im Einzelnen unterschiedliche Art der Zuordnung’ leistet“ (Trost 2006, S. 220). -isch diene „noch stärker als das Suffix -ig zur desubstantivischen Adjektivbildung“ (95% aller Suffigierungen auf -isch haben eine substantivische Ableitungsbasis“; mit Verweis auf Wellmann 1998, S. 546). Die Suffixe werden hier als Elemente eines morpho-semantischen Feldes beschrieben, die in ihrer Funktion zusammenspielen und -wirken. Dass -haft dort nicht mit -ig, -lich und -isch verglichen wird, wird auch sprachgeschichtliche Gründe haben. Dazu unten mehr. Außerdem kommt es darauf an, ob eine Darstellung aus der Binnenperspektive der Eigensprache oder aus der Außenperspektive des Sprachenvergleichs und -unterrichts erfolgt. Beide orientieren sich an unterschiedlichen Voraussetzungen bei ungleichen Zielen. Dann werden auch unterschiedliche Schwerpunkte gesetzt, etwa auf der einen Seite bei der Wortbildung als Prozess im Satz- und Textrahmen, auf der anderen Seite die Wortbildungen als Bausteine des mentalen und sprachlichen Lexikons, die Gewichtung der ‘okkasionellen’ Bildungen gegenüber den ‘usuellen’, der Makrobereich der ‘Konkurrenz’ und ‘Konvergenz’ zwischen Bildungsmustern einerseits und der Mikrobereich feinkörniger Analyse andererseits; einerseits der diachrone, andererseits der synchrone Sprach(en)vergleich. Der diachrone Sprachvergleich hat für die Bildungen mit -haft folgende Werte ergeben: - im 20. Jahrhundert 429 Types (WB III), - im 18. Jahrhundert 127 Types (WB III), - im Mhd. 12 Types (Klein/ Solms/ Wegera 2009). Die Zahlen zeigen eine starke Zunahme dieser Derivation vom mittelalterlichen Deutsch bis zur Gegenwartssprache. Die Frage ist: Wie wurde aus dem alten Muster der Komposition mit einem Adjektiv haft(s) dann das neuhochdeutsche Derivationsmuster? Ähnlich, wie heute bei der Adjektivbildung mit -mäßig (korpusmäßig) oder eher wie bei -artig (katzenartig)? Ein Vergleich mit Korpora älterer Texte kann darüber Aufschluss geben. <?page no="71"?> 71 Muster der Adjektivderivation in alten und neuen Korpora 2.2 Aspekte der synchronen Sprachanalyse des Mittelhochdeutschen Bei einem Querschnitt durch das Mittelhochdeutsche, gelegt durch ein anderes, ebenfalls breit gestreutes Korpus, ergeben sich die Schwerpunkte der Adjektivbildung mit -haft. Sie liegen bei der Derivation aus Personenbezeichnungen zu „Vergleichs- und Gleichsetzungsadjektiven“ wie kindisch/ kindhaft (Klein/ Solms/ Wegera 2009, S. 221). Danach lässt sich ermitteln, welche Kookkurrenzen und Konkurrenzen es gibt, die - darüber hinaus - eine strukturelle Konvergenz im lexikalischen System der Sprache bei den „prototypischen Anwendungsbereichen“ (Bons 2009, S. 394) bezeugen. Wie im Mittelhochdeutschen so verbinden sich beide Suffixe auch in der Gegenwartssprache leicht mit Personenbezeichnungen (dilettantisch/ dilettantenhaft), darüber hinaus oft mit nichtpersonalen Lehn-Substantiven. quadratisch, rhombisch, formelhaft, kometenhaft usw. Und dann lassen sich Divergenzen im Gebrauch wie die folgenden feststellen. Nach Auskunft der Korpora kommt es einfach nicht zur Bildung von *quadrathaft und *kometisch, nicht zu *lehrerisch neben lehrerhaft und *meisterisch neben meisterhaft. Aber es ist gut möglich, noch Beispiele dafür zu finden. D.h., die Korpusanalyse erlaubt es, Schwerpunkte des Usus, des durchschnittlichen Gebrauchs zu bestimmen, aber nicht Grenzen einer kreativen Wortbildung, die dem heutigen Deutsch sehr entfernt sind. 2.3 Möglichkeiten der Korpusanalyse Die Frage ist nun, wie und wieweit kommt man durch elektronisch kodierte Korpora wie COSMAS II darüber hinaus? Die Kookkurrenzanalyse ergibt neue Befunde, allerdings Werte, die sich von Wort zu Wort ändern. Jede Ableitung hat ihr eigenes Gebrauchsprofil. Bei kometenhaft sind es z.B. die folgenden paradigmatischen und syntagmatischen Verbindungen, die sich in 323 Belegen aus öffentlichen Texten spiegeln. Den größten Aufschlusswert haben hier die verbalen und deverbalen Kollokationen der Adjektivableitung kometenhaft: 81-mal aufsteigen (oft auf (ge)stiegen), 40-mal Aufstieg, 6-mal aufgegangen. Für damenhaft lautet das Ergebnis: 75 Belege werden als „unspezifisch“ eingestuft (COSMAS II ). Als „spezifisch“ gelten dagegen graduierende Partikeln als Attribute: <sehr, gar, ganz, nicht damenhaft>, koordinierte Adjektive: elegant, klassisch, schön, verspielt, sportlich, die Verben bei adverbialer Verwendung: <wirken, sich bewegen>, Substantive in einer benachbarten („thematischen“) Nominalgruppe: Tattoos (nicht damenhaft), Haar (damenhaft gewelltes Haar) usw. <?page no="72"?> 72 (Meta-)Lexikographie Weiter ermöglicht es die elektronische Korpusanalyse dann, die Unterscheidung zwischen usuellen und okkasionellen (in DW III durch einen kleinen Kreis gekennzeichnet) zu differenzieren und eine breite Skala der Usualität einzuführen. Dabei ergeben sie zuerst drei Arten von okkasionellen Bildungen: - Ein Teil von ihnen erweist sich, wie comichaft, in dieser Korpusanalyse sie als kontextuelle Ad-hoc-Produkte: Sie erscheinen in der Statistik als Einmalbelege (‘Hapax Legomenon’). In DW III werden sie graphisch abgehoben (z.B.: comic-haft). Im Korpus COSMAS II ist comichaft z.B. nicht bezeugt. Das bestätigt die Heraushebung als Ad-hoc-Bildung. - Eine andere elektronische Analyse fördert Worterfindungen zu Tage. Dazu gehören Wörter, die nicht im Satzverband stehen, sondern syntaktisch isoliert sind. Sie wurden z.B. ‘ad usum delphini’ geschaffen - mustergerecht. Entstanden sind sie am Reißbrett von Theoretikern, die mit erfundenen Beispielen arbeiten, oder von lexikographischen Praktikern bei der Bedeutungscharakteristik. Zu diesen gehört etwa parvenühaft, das über Google in der Translationssoftware zu finden war. - Eine andere Gruppe stellen Bildungen, die in der Literatur als okkasionell eingestuft werden, sich aber in verschiedenen Korpora nachweisen lassen. Sie erscheinen noch als weitgehend kontextabhängig, wie dienerhaft, und werden deshalb nicht in einem Wörterbuch der Standardsprache lemmatisiert. Das Vorkommen ‘okkasioneller’ Bildungen richtet sich nach speziellen Gebrauchssituationen. Mit Karl Bühlers ‘Organonmodell’ kann man sie so einordnen: a) Sie entspringen entweder einem besonderen Ausdruckswillen des Schreibers, wie die poetischen Bildungen mondhaft und wolkenhaft. b) Ihre Bildung wird durch einen besonderen Adressatenbezug mitbestimmt, wie bei der Translationssoftware (katzenhaft für engl. catty bzw. cattish). c) Sie werden durch den Transfer aus einem anderen Text als Referenz geprägt, nach Art einer Zitation, oder sind durch eine andere ikonische Funktion mitbestimmt. Von den Gebrauchswerten her, die Korpusanalysen ergeben, sind auch drei Arten von ‘usuellen’ Bildungen zu unterscheiden, die - je nach Frequenz und Bezeichnungsfunktion - mehr zum Zentrum oder mehr zu Peripherie der Standardsprache gehören. Die DaF-Lexikographie berücksichtigt darüber hinaus die Bedingungen ihres Gebrauchs, die Bedeutungsunterschiede implizieren. Dann ergeben sich folgende Typen: <?page no="73"?> 73 Muster der Adjektivderivation in alten und neuen Korpora a) volltransparente Ableitungen: formelhaft, lasterhaft usw.; b) transparente, aber idiomatisierte Bildungen mit prototypischem Kontext, wie märchenhaft (märchenhaft reich); c) semantisierte, gar nicht oder nur zum Teil transparente Bildungen wie sesshaft und lebhaft, die in der Sekundärliteratur auch als „lexikalisiert“ bezeichnet werden, keiner ‘Transformation mit dem Basislexem’ (‘Wortbildungsparaphrase’) äquivalent und lexikalisch nach ihrem Stellenwert in einem paradigmatisch-syntagmatischen Feld bestimmt sind. Ihr Verstehen ist nicht mehr primär durch das Wortbildungsmuster, sondern durch diese lexikalischen Beziehungen motiviert. Wie gehen Handbücher zur Wortbildung mit diesen Befunden um? In ihnen kommt es darauf an, Korpusbefunde leserfreundlich einzuarbeiten, soweit sie aussagekräftig sind. Das zeigt folgendes Zitat aus Fleischer/ Barz (2007, S. 55f.): 1) Subst. Basis, „vorwiegend Personen- und Tierbezeichnungen“ WB ‘komparativ, in der Art von’: laienhaft, grillenhaft, bildhaft usw. 2) „Nichtpersonenbezeichnungen“ WB „ornativ“: fieberhaft, krampfhaft ..., stilhafte Nachrichten (G. Lerchner); syn.: -voll, -reich, antonym.: -los, -leer, -frei. 3) „Verbale Basis ist seltener; WB: ‘zu der durch das Verb bezeichneten Handlung geneigt’, vgl. flunker-, nasch-, schwatzhaft ...“ 4) „Adjektivische Basis ist noch seltener; vgl. ..., krank-, wahrhaft; WB ‘zu der durch das Adjektiv bezeichneten Handlung geneigt’.“ Diese Darstellung verweist, wie diejenige von Wellmann (1998), Erben (2006) und Lohde (2006), auf Werte aus WB III. Andere Handbücher als die bisher herangezogenen fokussieren weitere Aspekte, so ‘Morphologie und Syntax’, auf das systematische Zusammenspiel von Mustern der Wortbildung (also Konkurrenzen und Konvergenzen), den Textbezug (okkasionelle Bildungen; Quellen) und die ‘funktionale Belastung’ (relative Frequenz). - Das sieht, angewandt auf die Darstellung von Eichinger (2000, S. 213) so aus: Die -haft-Bildungen „setzen ein deutliches Signal für Eigenschaftsbezeichnungen aus einem Vergleich, als das die funktional durchaus vergleichbaren Bildungen mit -ig tun“. <?page no="74"?> 74 (Meta-)Lexikographie - Und bei Motsch (2004, S. 158-317, 181): [SM; PFn-haft], d.h. semantisches Muster; Derivation (Nomen): „Das Basiswort bezeichnet vorwiegend eine Eigenschaft des Sozialverhaltens von Menschen: ehrenhaft, gewissenhaft, lasterhaft, schamhaft, skrupelhaft, sündhaft, tugendhaft“. „Aktivität: ... gierhaft, zornhaft (Th. Mann), geizhaft (Th. Mann)“ (ebd., S. 182). „In der großen Mehrzahl bezeichnen die Basisverben Verhaltenseigenschaften von Personen: flunkerhaft, naschhaft, schwatzhaft, wehrhaft, zaghaft“ (ebd., S. 190). „Vergleich“; „Wie“ (ebd., S. 200). „Das Basiswort bezeichnet Personen, die nach Rollen, Fähigkeiten, körperlichen oder Verhaltenseigenschaften bewertet sind: akrobatenhaft, herrenhaft, laienhaft, spezialistenhaft, banausenhaft ...“, „fiktive Personen“: nixenhaft, feenhaft, engelhaft …“, „Tiere“: tigerhaft ... usw.“ (ebd., S. 202). „Das Basiswort bezeichnet ein Ordnungssystem oder ein Vorbild“: klischeehafter Vortrag, regelhafte Wiederkehr, routinehafte Versammlung (ebd., S. 214). „Folge von Geschehen oder Zuständen“: „Das Basiswort bezeichnet psychische oder physische Zustände von Lebewesen, am häufigsten von Personen“. „Das Bezugswort bezeichnet die Ursache: ekelhafter Geruch: Geruch, der Ekel zur Folge hat.“; „grauenhafte Entdeckung, schmerzhafte Mitteilung, schauderhafte Kleidung“ (ebd., S. 260). - Bei Lohde (2006, S. 181f.): „Substantive stellen mit Abstand die meisten Basen“. „Ihr Anteil beträgt 96% (vgl. Wellmann 1995, S. 530)“; „komparativ“‚ „‘in der Art von jmdm./ etw.’, ‘wie die Art von jmdm./ etw.’; „ornativ“: „fehlerhaft‚ mit Fehlern“. „Verben als Basen: eine geringe Zahl: naschhaft, wechselhaft“; „Neigung zu der durch das Verb bezeichneten Handlung“. Adjektive als Basen: „nur vereinzelt“: krankhaft (‘Neigung’). 2.4 Auswertung des Vergleichs Die Darstellungen unterscheiden sich, wenn es um die einzelnen Morpheme (wie -haft) und ihre WB-Muster geht, terminologisch und bei der Klassifizierung der Basen nach Wortarten kaum voneinander, umso mehr in der Erfassung von: Morphologie/ Syntax; Semantik; Systematizität (Konkurrenzen und Konvergenzen), Text-/ Quellenbezug und Gebrauchswert (okkasionell/ usuell; Frequenzen). Monographien zu einzelnen Wortbildungsmustern und <?page no="75"?> 75 Muster der Adjektivderivation in alten und neuen Korpora -morphemen (Schläfer 1977, Eichinger 2000, Trost 2006) heben sich in dieser Gewichtung, abhängig von ihren Ausgangspunkten, viel weiter voneinander ab. Korpusbefunde zur Frequenz und Konkurrenz: Anteile (DW III) Konkurrenzen (im IDS/ COSMAS II-Korpus) Beim WB-Typ ‘vergleichend’ 29,9% -haft dilettanten-, sektierer-, herren-haft (4/ 4/ 5) 24,6% -isch dilettant-, sektierer-, herr-isch (1731/ 110/ 361) 19,1% -ig ries-, zick-, sonn-ig (21772/ 705/ 7217) 5,8% -lich Minimalpaare: "% ^ % 7 , ! _ "% ^ ! % 7 2.5 Der diachrone Aspekt: Korpusanalysen zum Mittelhochdeutschen Die aktuelle Untersuchung von Klein/ Solms/ Wegera (2009) ist korpusgestützt. Im Abstand von 50 Jahren sind Querschnitte der Zeit von 1050 bis 1350 erfasst. Die Texte verteilen sich repräsentativ auf sechs Sprachgebiete vom Bairischen und Alemannischen zum West- und Ostmitteldeutschen. In der Adjektiv-Derivation dominieren -ig und -lich mit je einem guten Drittel (35,8%, 36,8%). -isch hat einen Anteil von 9,6%, -haft nur 3,2%. Das Suffix -bære ist viel schwächer als im heutigen Deutsch vertreten (2,6%), -sam und -în häufiger (4,5% bzw. 4,2%). An Adjektiven auf -haft buchen Klein/ Solms/ Wegera (2009) insgesamt 274 Bildungen aus dem mittelhochdeutschen Wörterbuch, aus ihrem Korpus 52 Bildungen (52 Types, 247 Tokens). Davon haben 70% eine possessiv-ornative Bedeutung (eiterhaft, schadehaft usw.), nur 1% (2 Types; manhaft) eine komparative. Sie dominiert im heutigen Deutsch aber (mit über 80% ) und drängt die possessiv-ornative Gruppe ganz zurück. Bei -isch haben nur drei (von 60) eine komparative Funktion (kindisch), und eine ornative Gruppe ist noch gar nicht vertreten (im Neuhochdeutschen aber wohl, vgl. launisch, asthmatisch usw.). 2.6 Korpusanalysen unter diastratischem und diaphasischem Aspekt Die gesprochene Sprache ändert sich mit den Sprachlandschaften. Diese erste vergleichende Korpuserhebung zur Wortbildung in gesprochener Sprache <?page no="76"?> 76 (Meta-)Lexikographie (Gersbach/ Graf 1985) stützt sich auf Erhebungen im Südwesten des deutschen Sprachgebietes. Die Arbeit ist so angelegt, dass sie den Vergleich zur Schriftsprache einbaut. Als Unterschiede zwischen der Adjektivbildung (mit -haft) in gesprochener und geschriebener Sprache treten z.B. hervor: Gruppe nach DW III Musterwörter Paraphrase 2 dauerhaftes Material Material, das Dauer hat 1 rätselhafter Vorgang Vorgang, der ein Rätsel ist 4 schauderhaftes Erlebnis Erlebnis, das Schauder erregt 7 boshafte Person Person, die zum Bösesein neigt Rest wohnhafte Person Inwieweit die beschriebenen Unterschiede ‘gesprochen/ geschrieben’ als repräsentativ für andere Sprachlandschaften gelten können, werden erst entsprechend ausgedehnte Untersuchungen zu anderen Gebieten ergeben. Zwischen den Mustern der Wortbildung und Syntagmen, die Vergleiche ausdrücken, lässt sich eine große Variationsbreite erkennen. Neben dem Kernbereich usueller Ableitungen mit -haft, -isch, -lich und ihren Konkurrenzformen (mit -ähnlich, -artig) gibt es eine oszillierende Peripherie von okkasionellen Bildungen, die die Produktivität dieser Muster bezeugen. Im Korpus der DW III finden sich Okkasionalismen, die nicht im IDS-Korpus zu finden waren, und umgekehrt. Die Grenzen auch der umfassendsten Korpora sind nicht die Grenzen der sprachlichen Kreativität. Sie reicht viel weiter. Und das ist auch im Sprachunterricht zu betonen (vgl. Jana Valdrovás Kreativitätsdidaktik 2010). 3. Fazit 3.1 Zusammenfassung Die besprochenen Korpusanalysen sind auf formulierte Forschungsziele abgestimmt. Sie dienen der Distributionsanalyse und Frequenzbestimmung zu einzelnen Wörtern (in der umfangreichen Arbeit von Bons (2009), sind es die vier Adjektive hart, weich, sanft, grob), der Kontrolle von publizierten Forschungsbefunden durch Stichproben (zu pagodenhaft, märchenhaft usw.; siehe unten) im Internet bei Google und im IDS-Korpus (COSMAS II) und vor allem der Rekonstruktion von Querschnitten durch den schriftlichen und <?page no="77"?> 77 Muster der Adjektivderivation in alten und neuen Korpora mündlichen Sprachgebrauch einer Zeit, die bisher nur auf der Basis nichtelektronischer Korpora erfolgt ist. Diese Querschnitte tragen dem Postulat der heutigen Korpuslinguistik Rechnung, dass unter einem Korpus ein sehr umfangreiches Konvolut von gesprochenen oder geschriebenen Texten zu verstehen ist, „ die als repräsentativ für den Sprachgebrauch insgesamt [...] angesehen werden“ (nach Mukherjee 2009, S. 20f.). Hier lautet heute das große Thema der Korpuslinguistik, soweit sie sich auf die deutsche Sprache im Ganzen bezieht, die Variation der ‘Durchschnittshochsprache’ mit der Frage nach ihren Schnittmengen und ihren Besonderungen. Sie folgt vier Parametern: - dem diatopischen, insbesondere mit dem Blick auf landschaftliche Umgangssprachen und Dialekte, - dem diastratischen, bei dem heute die Gegensätze zwischen gesprochener und geschriebener Sprache fokussiert werden, - dem diachronischen als Grundlage für die Einordnung sprachgeschichtlicher Veränderungen und Innovationen, - und dem diaphasischen mit dem Schwerpunkt ‘Textsorten’ und ‘Funktionalstilistik’. Die Sprachgeographie und damit die diatopische Variation der Schriftsprache berücksichtigt die Anlage der mittelhochdeutschen Korpora nach dem Vorbild der frühneuhochdeutschen Grammatik-Korpora. So wurde eine sehr hohe Repräsentativität erreicht. Wenn Klein/ Solms/ Wegera (2009) bei der Auswertung ihrer Daten keine signifikante diatopische Varianz hervorheben, so deckt sich dieses Bild auch mit den Befunden zur geschriebenen Gegenwartssprache in DW III, anders als in den Befunden zur gesprochenen Sprache der Tübinger Arbeitsstelle. Die Unterschiede zwischen Schichten der gesprochenen und der geschriebenen Sprache und damit die diastratisch bedingten Unterschiede der Wortbildung werden von Gersbach/ Graf (1985) bei der Darstellung ihrer Befunde zur gesprochenen Sprache in der Tübinger Arbeitstelle systematisch durch den Vergleich mit denen der Innsbrucker Arbeitsstelle angesprochen: Während sich in dem Korpus geschriebener Sprache der DW III 64% der Bildungen auf die historisch starken drei i-Suffixe (-lich, -ig, -isch) entfallen, sind es hier, in der gesprochenen Sprache, 81% der Types. Die gesprochene Sprache zeigt auch darin einen Zug zur Ökonomie (Gersbach/ Graf 1985, S. 563), die geschriebene eine Tendenz zur Spezifizierung. Diese Spezifizierung erweist sich als korpusbedingt. <?page no="78"?> 78 (Meta-)Lexikographie Das schriftsprachliche Korpus ist viel breiter gestreut. Es reicht von der Lyrik Paul Celans und der Romanprosa von Günter Grass über die Zeitungssprache der Welt bis zur Wissenschaftssprache (‘Studium Generale’; nach DW III). Nun zum diachronischen Parameter der sprachlichen Veränderung: Er wird an den Verschiebungen zwischen den verschiedenen Mustern, und zwar höchst genau dargestellt. Diese Versuchsanordnung, die Anlage der Korpusanalysen auf Vergleiche hin, ermöglicht es, durch die Kontraste zwischen dem Alt- und Mittelhochdeutschen einerseits, dem Deutsch des 18. Jahrhunderts und des 20. Jahrhunderts andererseits sprachgeschichtliche Perspektiven aufzuzeigen: Danach sind die Anteile von -lich (auf 27%) z.B. zurückgegangen, und die von -isch haben deutlich zugenommen (auf 17,66%). Der Anteil von -haft am gesamt der Adjektivderivation ist immer noch gering, wenn auch stetig angestiegen ( 2,4%), ebenso wie der Anteil der Lehnsuffixe (von -al/ -ell auf 3,4%). Die diaphasische, insbesondere stilistische Variation wird in einzelnen Stilistiken, z.B. bei Fleischer/ Michel/ Starke (1996), funktionell spezifiziert. Sie wird sonst in Standardwerken kaum beachtet. Angedeutet wird sie manchmal aber, und zwar durch Quellenangaben wie „mumienhaft (Mann)“, die für sich sprechen. Mehr dazu findet sich in der Wortbildung der Innsbrucker Arbeitstelle (WB III). Zu dem Suffix -haft heißt da es etwa, soweit um das Muster ‘Ableitung aus einer Vergleichsgröße’ (= -haft¹) geht, dass es „vor allem in der Dichtersprache“ (mit Beispielen aus Texten Benns, Bergengruens, Schnurres, Brochs), und „besonders häufig in der Literaturwissenschafts- und Feuilletonsprache produktiv“ ist (WB III, S. 332). In der Außenperspektive des Sprachenvergleichs heben sich heraus: - Die typologische Einordnung der Lexembildung durch Agglutination und Inkorporation nach den Mustern inkorporierender und flektierender Sprachen (z.B. Komposition, auch mit Infixen; Affigierung; mit morphologisch ausdifferenzierter Ableitung durch Suffixe im Tschechischen wie im Deutschen); der (syntaktischen) Konversion (nach dem Vorbild isolierender Sprachen, in der Adjektiv-Bildung durch Partizipien im Tschechischen wie im Deutschen). - Die kontrastive, korpusgestützte Gegenüberstellung der aktiven und produktiven Typen und Muster (z.B. der kombinatorischen Ableitung bei Negationsaffixen in Fällen wie un-wiederbring-lich) in der deutschen und <?page no="79"?> 79 Muster der Adjektivderivation in alten und neuen Korpora der tschechischen Lexik, angeregt durch kontrastive Grammatiken (von Štícha u.a.). - Der translatorische Textvergleich, z.B. auf der Basis des DeuCze-Korpus, in " ` & ' " ! ková (2010). - Der Vergleich zwischen dem Sprachverstehen der Autoren (Textproduzenten) und ihrem Publikum, den Rezipienten (Lernenden), besonders im Hinblick auf didaktische Rückschlüsse, z.B. in den Übungsgrammatiken (Helbig/ Buscha 2008) und in der Lexikographie (von Lernerwörterbüchern beim Definitionswortschatz; siehe unten). Dieser Aspekt soll abschließend genauer unter die Lupe genommen werden. 3.2 Wortbildung im Wörterbuch Ein Vergleich zwischen Lernerwörterbüchern für DaF am Beispiel der Adjektivbildung mit -haft ergibt: Im GWDaF (2010) wird die Polysemie angezeigt: „1. drückt aus, dass etw. so ist wie das im ersten Wortteil genannte Substantiv. albtraumhaft < ein Erlebnis>,automatenhaft <j-s Bewegungen>. 2. nach Art des im ersten Wortteil genannten Substantivs: heldenhaft <j-s Mut>, rüpelhaft <j-s Benehmen>. 3. mit e-r Neigung zu etw.: lasterhaft, schwatzhaft.“ Im WAHRIG Großwörterbuch Deutsch als Fremdsprache (2008) wird das Suffix monosem dargestellt: „<Nachsilbe; zur Bildung von Adj.> …artig, …ähnlich, wie ein …, verursachend, eine bestimmte Eigenschaft aufweisend, z.B. romanhaft, schalkhaft, grauenhaft, ekelhaft, tugendhaft.“ Im Pons Großwörterbuch Deutsch als Fremdsprache (2004) wird das Suffix nicht lemmatisiert. Nur die usuellen Bildungen mit -haft werden alphabetisch eingereiht: „romanhaft: Adj. in der Art der Handlung von Romanen“ usw. Seltenere Bildungen, die die Produktivität des Morphems anzeigen können wie albtraumhaft, automatenhaft u.a., fehlen. <?page no="80"?> 80 (Meta-)Lexikographie Ein abschließender kurzer Vergleich des Deutschen mit dem Tschechischen ergibt: dt. -haft tschech. -ný, -(v)ý lebhaft { damenhaft, ladylike Ø (jako dáma) ernst, ernsthaft { glückhaft, glücklich št’ astný sonnenhaft { smaragdhaft smaragdový Eine Recherche im COSMAS II-Korpus - gesucht wurden in den öffentlichen Texten die Grundformen - informiert uns darüber, welche deutschen Ausdrücke als okkasionell anzusehen sind: damenhaft 180 lebhaft 9495 ernsthaft 39717 glückhaft 359 sonnenhaft 13 smaragdhaft 0 Die Untersuchungen der Wortbildung mit -haft ergibt das facettenreiche Bild einer produktiven Adjektivableitung, bei der die usuellen Bildungen durch viele okkasionelle Bildungen ergänzt werden, die drei verschiedenen Quellen entspringen. Jede Korpusanalyse hat andere Neubildungen zu Tage gefördert. Das beweist, wie kontextabhängig die Bildungsweise ist; und damit auch: wie offen die Grenzen der Wortbildung gegenüber der Satz- und Textbildung des Vergleichens sind. Deshalb liegt es auf der Hand, dass es ein fruchtbarer Ansatz ist, trotz der heute verfügbaren großen elektronischen Korpora die Befunde vergleichend einzubeziehen, die auf andere Korpusanalysen zurückgehen. Allerdings, die Systemerprobung mit generierten Formen funktioniert in der hier wegen der Bandbreiten zwischen verschiedenen Stufen von Okkasionalität und Usualität nicht so wie bei der Syntax. Aus der Binnenperspektive betrachtet, erscheint diese historisch stabile, im Kernbereich morphologisch (soweit desubstantivisch) und semantisch (bei vergleichender und gleichsetzender Funktion) einheitliche Ableitungsweise als ein kleineres Segment neben mehreren - älteren - Suffixen (wie -isch, -ig, ansatzweise auch mit -lich) und - neueren - Mustern der Adjektivbildung mit Halbsuffixen und Kompositions- <?page no="81"?> 81 Muster der Adjektivderivation in alten und neuen Korpora gliedern (wie -artig, -ähnlich). In der Außenperspektive des Sprachenvergleichs und -unterrichts (DaF) entsprechen ihr parallele, noch homogener geprägte Ableitungsmuster im Tschechischen (und auch Russischen). Literatur Barz, Irmhild (2005): Die Wortbildung. In: DUDEN. Die Grammatik. 7. Aufl. Mannheim u.a, S. 641-772. Bons, Iris (2009): Polysemie und Distribution: Zur Theorie und Methode einer korpusbasierten Semantik. Gießen. http: / / geb.uni-giessen.de/ geb/ volltexte/ 2009/ 7356/ pdf/ BonsIris_2008_03_12.pdf (Stand: Juli 2013). Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als der Diskurs- und Kulturanalyse. Berlin u.a. Coseriu, Eugenio (1973): Einführung in die strukturelle Betrachtung des Wortschatzes. 2. Aufl. Tübingen. DW III: Kühnhold, Ingeburg/ Putzer, Oskar/ Wellmann, Hans (1978): Deutsche Wortbildung. Typen und Tendenzen in der Gegenwartssprache. Dritter Hauptteil. Düsseldorf. Eichinger, Ludwig M. (2000): Deutsche Wortbildung. Eine Einführung. Tübingen. Erben, Johannes (2006): Einführung in die deutsche Wortbildungslehre. 5. Aufl. Berlin. Fleischer, Wolfgang/ Michel, Georg/ Starke, Günter (1996): Stilistik der deutschen Gegenwartssprache. 3. Aufl. Leipzig. Fleischer, Wolfgang/ Barz, Irmhild/ Schröder, Marianne (2007): Wortbildung der deutschen Gegenwartssprache. 3. Aufl. Tübingen. GWDaF (2008): Großwörterbuch Deutsch als Fremdsprache. Haensch, Günther/ Götz, Dieter/ Wellmann, Hans (Hg.). München u.a. Heid, Ulrich (2008): Corpus linguistics and lexikography. In: Lüdeling/ Kyto (Hg.), Bd. 1, S. 131-153. Helbig, Gerhard/ Buscha, Joachim (2008): Übungsgrammatik Deutsch. 5. Aufl. München u.a. Heringer, Hans Jürgen (2009): Morphologie. Paderborn. Hundt, Markus (2005): Grammatikalität - Akzeptabilität - Sprachnorm. Zum Verhältnis von Korpuslinguistik und Grammatikalitätsurteilen. In: Lenz, Friedrich/ Schierholz, Stefan (Hg.). Corpuslinguistik in Lexik und Grammatik. Tübingen, S. 15-40. Kaeding, Friedrich Wilhelm (1898): Häufigkeitswörterbuch der deutschen Sprache. Berlin. <?page no="82"?> 82 (Meta-)Lexikographie Kaiser, Georg A. (2005): Bibelübersetzungen als Grundlage für empirische Sprachwandeluntersuchungen. In: Pusch, Claus D./ Kabatek, Johannes/ Raible, Wolfgang (Hg.): Romanistische Korpuslinguistik/ Romance Corpus Linguistics. Bd. 2: Korpora und diachrone Sprachwissenschaft. Tübingen, S. 71-83. % > ' * ] " `@ " > ` @ [ @ Klein, Thomas/ Solms, Hans-Joachim/ Wegera, Klaus-Peter (2009): Mittelhochdeutsche Grammatik Teil III: Wortbildung. Berlin/ New York. % ! ' * ] < erfahren? Zur Kausativität im Deutschen und Tschechischen. In: Kratochvílová/ Wolf (Hg.), S. 161-169. Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.) (2010): Kompendium Korpuslinguistik. Eine Bestandsaufnahme aus deutsch-tschechischer Perspektive. Heidelberg. Kulakov, Sergey (2007): Modale Adjektive auf „-fähig“ im Frühneuhochdeutschen, Neuhochdeutschen und Gegenwartsdeutschen“. Marburg. Lemnitzer, Lothar/ Zinsmeister, Heike (2006): Korpuslinguistik. Eine Einführung. Tübingen. Lenz, Friedrich/ Schierholz, Stefan J. (Hg.) (2005): Corpuslinguistik in Lexik und Grammatik. Tübingen. Lohde, Michael (2006): Wortbildung des modernen Deutschen. Ein Lehr- und Übungsbuch. Tübingen. Lüdeling, Anke/ Kyto, Merja (Hg.) (2008/ 2009): Corpus Linguistics. An International Handbook. 2 Bde. Berlin u.a. Meier, Helmut (1978): Deutsche Sprachstatistik. Bd. 1. 2. Aufl. Hildesheim/ New York. Mindt, Ilka (2010): Methoden der Korpuslinguistik. Der korpus-basierte und der korpusgeleitete Ansatz. In: Kratochvílová/ Wolf (Hg.), S. 53-65. Motsch, Wolfgang (2004): Deutsche Wortbildung in Grundzügen. 2. Aufl. Berlin u.a. Mukherjee, Joybrato (2009): Anglistische Korpuslinguistik. Eine Einführung. Berlin. Olsen, Susan (1986): Wortbildung im Deutschen. Eine Einführung in die Theorie der Wortstruktur. Stuttgart. Paul, Hermann (1920): Deutsche Grammatik. Bd. 5, Teil IV: Wortbildungslehre. Halle (Saale). Pavlov, Vladimir (2009): Deutsche Wortbildung im Spannungsfeld zwischen Lexikon und Syntax. Synchronie und Diachronie. Frankfurt a.M. u.a. Polenz, Peter von (1999): Deutsche Sprachgeschichte. Vom Spätmittelalter bis zur Gegenwart. Bd. III: 19. und 20. Jahrhundert. Berlin u.a. Rykalová, Gabriela (2010): Komposita mit Partizip als zweiter Kostituente. Eine korpusgestützte Analyse. In: Kratochvílová/ Wolf (Hg.), S. 179-186. <?page no="83"?> 83 Muster der Adjektivderivation in alten und neuen Korpora Scherer, Carmen (2006): Korpuslinguistik. Heidelberg. Schläfer, Michael (1977): Die Adjektive auf -isch in der deutschen Gegenwartssprache. Heidelberg. Schottelius, Justus Georg (1663): Ausführliche Arbeit von der Teutschen Haubt- Sprache. Tübingen 1995. # % _@ @ @ ' * - $ ` " " & ` ¡ sprache. 2. Aufl. Moskau. Töpel, Antje (2009): Der Definitionswortschatz im einsprachigen Lernerwörterbuch des Deutschen - Anspruch und Wirklichkeit. Univ. Diss. Leipzig. Trost, Igor (2006): Das deutsche Adjektiv. Untersuchungen zur Semantik, Komparation, Wortbildung und Syntax. Hamburg. Vachková, Marie (2000): Übungen in deutscher Wortbildung für Germanisten. Praha. Valdrová, Jana (2010). Wortbildung rezeptiv und produktiv. http: / / www.valdrova.cz (Stand: Juli 2013). Wellmann, Hans (Hg.) (1993): Synchrone und diachrone Aspekte der Wortbildung im Deutschen. Heidelberg. Wellmann, Hans (1998): Die Wortbildung. In: Duden. Grammatik der deutschen Gegenwartssprache. 6. Aufl. Mannheim u.a., S. 408-557. Wellmann, Hans (2010): Korpuskontrollierte Lexikographie. Erhebungen zum Lernerwörterbuch. In: Kratochvílová/ Wolf (2010), S. 87-102. Wolf, Norbert Richard (2010): Korpora in der Korpuslinguistik. In: Kratochvílová/ Wolf (2010), S. 17-25. Online-Datenbanken http: / / www.ids-mannheim.de/ zdv/ cosmas2 http: / / wortschatz.informatik.uni-leipzig.de http: / / www.elexiko.de http: / / www.dwds.de/ textbasis/ Kernkorpus http: / / wortschatz.uni-leipzig.de http: / / dev.eurac.edu: 8081/ MaKeEldit1/ Eldit.hmtl http: / / ucnk.ff.cuni.Cz http: / / www.natcorp.ox.ac.uk <?page no="85"?> Hana Bergerová Phraseographie im Lichte sprachwissenschaftlicher Quellenkunde Oder: Aus welchen Quellen kann ein zweisprachiges phraseologisches Lernerwörterbuch gespeist werden? In diesem Beitrag wird auf die Quellenlage eingegangen, mit der man konfrontiert wird, wenn man sich der Lernerphraseographie als Forschungsfeld zuwendet. Zunächst wird kurz erklärt, was unter einem phraseologischen Lernerwörterbuch zu verstehen ist, an welche Adressaten es sich richtet und welche Funktionen es zu erfüllen hat. Anschließend wird die Aufmerksamkeit auf die gegenwärtige Quellenlage gerichtet. Diese wird unter einem ausgewählten Aspekt - den Auswahlkriterien am Beispiel von Idiomen und Kollokationen - näher beleuchtet. In der abschließenden Fallstudie wird der Frage nachgegangen, mit welchen Methoden signifikante Kollokationen für die Belange eines zweisprachigen phraseologischen Lernerwörterbuchs ermittelt werden können. 1. Allgemeine Charakteristika eines phraseologischen Lernerwörterbuchs Nach der Wörterbuchtypologie von Engelberg/ Lemnitzer (2008, S. 21) handelt es sich bei einem phraseologischen Lernerwörterbuch um ein Spezialwörterbuch mit den Attributen benutzergruppenorientiert (weil es für bestimmte Benutzer maßgeschneidert ist), syntagmatisch (weil sein Gegenstand Mehrwortlexeme - Phraseologismen sind) und inhaltsparadigmatisch (weil das Sprachmaterial darin nach ausgewählten (Schlüssel-/ Leit-/ Ober-)Begriffen geordnet ist). Hessky/ Ettinger fassen das Anliegen eines phraseologischen Lernerwörterbuchs wie folgt zusammen: Ein phraseologisches Lernwörterbuch hat die grundlegende Aufgabe, eine ausgewählte, von der Frequenz her nicht unwichtige Teilmenge der Redewendungen lernfördernd zu präsentieren, ihre Gebrauchsbedingungen präziser als traditionelle Wörterbücher anzugeben und mit Hilfe von Übungen ihr Erlernen zu erleichtern. (Hessky/ Ettinger 1997, S. XVI) Dem ist lediglich hinzuzufügen, dass ich in meinen Ausführungen nicht nur die so genannten Redewendungen (in der fachsprachlichen Terminologie ‘Idiome’) ins Auge fasse, sondern den Terminus ‘phraseologisch’ bewusst in seiner weiten Auslegung verwende. Zweifelsohne werden die Idiome immer <?page no="86"?> 86 (Meta-)Lexikographie das Gros eines phraseologischen Lernerwörterbuchs ausmachen, andererseits halte ich das Einbeziehen insbesondere von Kollokationen und Routineformeln für ausgesprochen notwendig und nützlich, wenn man bedenkt, welche vielfältigen später noch zu spezifizierenden Benutzerbedürfnisse dieser Wörterbuchtyp befriedigen soll. Mit den vielfältigen Benutzerbedürfnissen hängt ferner zusammen, dass ein solches Wörterbuch kombiniert onomasiologischsemasiologisch geordnet sein sollte, um die Vorteile beider Vorgehen zu verbinden und deren Nachteile zu minimalisieren. Primäre Benutzer eines solchen Wörterbuchs sind fortgeschrittene Fremdsprachenlernende sowie deren Lehrende. Zum Benutzerkreis gehören ferner Übersetzer mit besonderem Interesse an der gegenwartssprachlichen Phraseologie und schließlich Sprachwissenschaftler, Wörterbuchautoren oder Wörterbuchforscher (vgl. Jesenšek 2005, S. 96). Ein phraseologisches Lernerwörterbuch hat vielfältige Bedürfnisse seines primären Benutzerkreises zu befriedigen (vgl. Wotjak 2005, S. 371, Jesenšek 2003, S. 95). Es soll nämlich sowohl in kommunikationsbezogenen als auch in wissensbezogenen Situationen herangezogen werden können (vgl. Bergenholtz/ Tarp 2005, S. 16f.). In der eingangs zitierten Definition eines phraseologischen Lernerwörterbuchs wurde betont, dass dieses einen repräsentativen Ausschnitt aus dem phraseologischen Wortschatz einer gegebenen Sprache umfassen soll, der unter dem Gesichtspunkt der Bekanntheit und Gebräuchlichkeit ausgewählt wird. Diese programmatische Einschränkung ist nicht nur aufgrund der geforderten Präzision der Angaben, die nur durch zeitaufwendige Korpusrecherchen ermittelbar sind, verständlich. Sie ist auch unter didaktischem Gesichtspunkt nachvollziehbar, denn die Lernenden sollen von der Fülle phraseologischer Ausdrücke nicht erschlagen und folglich demotiviert werden. Die aus praktischen und pragmatischen Gründen notwendige Reduktion stellt allerdings auch einen Nachteil dieses Wörterbuchtyps im Vergleich mit anderen konkurrierenden Wörterbüchern dar, insbesondere in Bezug auf dessen Hilfeleistung bei gestörter Textrezeption in der Fremdsprache und bei Übersetzungsschwierigkeiten aus der Fremdsprache in die Muttersprache. In solchen Situationen stößt ein phraseologisches Lernerwörterbuch schnell an seine quantitativen Grenzen und befindet sich gegenüber gängigen zwei- und vor allem einsprachigen Wörterbüchern im klaren Nachteil, denn diese verzeichnen bedeutend mehr Phraseologismen, weil sie nicht nur das in der Gegenwartssprache gebräuchliche und bekannte Sprachmaterial programmatisch fokussieren. Man vergleiche beispielsweise den Umfang des Deutsch-tschechischen Wörterbuchs der Phraseologismen und festgeprägten Wendungen ¢ [ £ <?page no="87"?> 87 Phraseographie im Lichte sprachwissenschaftlicher Quellenkunde Goldhahn et al. (2009), das laut Einband mehr als 24 000 Lemmata umfasst, oder des DUDEN 11 (2008, mehr als 10 000 Einträge laut Einband) mit dem Umfang des Wörter- und Arbeitsbuchs zur deutschen Phraseologie von Hessky/ Ettinger (1997). Dieses beinhaltet laut Einband ca. 1 200, laut Vorwort ca. 1 400 Einträge. Über den Umfang anderer mehrheitlich in den 1990er Jahren veröffentlichter Übungs- und Wörterbücher kann man bei Hallsteinsdóttir et al. (2006, S. 121) nachlesen - das von Hessky/ Ettinger ist jedenfalls das umfangreichste von ihnen. 2. Phraseologische Lernerwörterbücher und ihre Quellen 2.1 Vorüberlegungen Jedes Wörterbuch basiert auf Daten, die aus verschiedenen Quellen gewonnen werden. Wiegand et al. (2010, S. 12) unterscheiden primäre, sekundäre und tertiäre Wörterbuchquellen. Unter primären Quellen verstehen sie „in erster Linie schriftliche Texte oder größere Textausschnitte aus natürlichen oder quasi-natürlichen Kommunikationssituationen“, seltener auf Tonträgern konservierte mündliche Äußerungen. Als sekundäre Quellen werden bereits existierende Wörterbücher betrachtet, zu tertiären Quellen gehören dann alle anderen sprachlichen Materialien, von denen relevante Aussagen über den Wörterbuchgegenstand erwartet werden können, bspw. einschlägige Monographien und Aufsätze, Grammatiken u.Ä. Darauf aufbauend möchte ich als Quellen eines (zweisprachigen) phraseologischen Lernerwörterbuchs alle Texte bezeichnen, aus denen Erkenntnisse über die Frequenz, Geläufigkeit, Bedeutung und den Gebrauch von Phraseologismen der jeweiligen Gegenwartssprache(n) gewonnen werden können. Im Falle eines zweisprachig angelegten Wörterbuchs fallen darunter ferner solche Texte, die über Äquivalenzbeziehungen zwischen Phraseologismen der involvierten Sprachen Auskunft geben. Da ein phraseologisches Lernerwörterbuch ebenfalls mit einem gut durchdachten und für die Bedürfnisse der Lernenden maßgeschneiderten Aufgaben- und Übungsteil aufwarten sollte, sind demzufolge auch solche Texte zu seinen Quellen zu rechnen, die schwerpunktmäßig fremdsprachendidaktische Fragestellungen im Allgemeinen und phraseodidaktische im Besonderen behandeln. Für das Sprachenpaar Deutsch und Tschechisch gibt es gegenwärtig auf dem Büchermarkt kein Werk, das den oben genannten Anforderungen an ein phraseologisches Lernerwörterbuch gerecht werden würde. Ich möchte mir deshalb im Folgenden die Frage stellen, welche Quellenlage ein potentielles Autoren- <?page no="88"?> 88 (Meta-)Lexikographie team, das sich die Aufgabe stellte, diese Marktlücke zu schließen, derzeit im In- und Ausland vorfinden würde. Aus Platzgründen möchte ich mich nur einem Aspekt widmen, und zwar den Auswahlkriterien am Beispiel von Idiomen und Kollokationen. 2.2 Die Qual der Phraseologismen(aus)wahl Wie bereits erwähnt, dreht sich die Auswahl um das Kriterium der Frequenz und der Bekanntheit. 1996 traf Peter Kühn in einer seiner Faustregeln zur Vermittlung von Redewendungen im DaF-Unterricht folgende für alle an der Lernerphraseographie Interessierten unerfreuliche Aussage: Glauben Sie nicht an das Märchen vom Grundbestand häufiger Redewendungen: Es gibt bisher keine wissenschaftlich abgesicherten Erkenntnisse über die Frequenz von Redewendungen. (Kühn 1996, S. 16) Welche Auswege aus dieser komplizierten Lage ergeben sich für ein potentielles Autorenteam rund 15 Jahre später? Es bietet sich an, bereits vorhandene phraseologische Wörterbücher und andere (digitalisierte) Sammlungen von Phraseologismen zu befragen. Der DUDEN 11 verzeichnet - wie im Vorwort der Redaktion nachzulesen ist - „die heute geläufigen und überregional bekannten Redewendungen, Redensarten und Sprichwörter der deutschen Sprache“. Er umfasst jedoch, wie wir oben erfahren haben, bedeutend mehr phraseologische Ausdrücke, als ein phraseologisches Lernerwörterbuch realistischerweise erfassen kann. Aus diesem Grund sind andere Quellen dringend notwendig, die dabei helfen können, den phraseologischen Grundbestand der deutschen Gegenwartssprache zu ermitteln. Erfreulicherweise haben sich in den vergangenen 15 Jahren mehrere Wissenschaftler an diese kontroverse Aufgabe herangewagt, sodass erste Schritte in diese Richtung zu verzeichnen sind. Damit wird unserem potentiellen Autorenteam die Qual der Wahl zwar nicht abgenommen, zumindest aber wird sie gelindert, auch wenn Dobrovol’skij (1997, S. 154) zweifelsohne Recht hat mit seiner Behauptung, dass eine endgültige, von allen Muttersprachlern akzeptierte Liste geläufiger Idiome - das Gleiche gilt freilich auch für andere phraseologische Subgruppen - im Prinzip nicht möglich ist. Welche Quellen kann man also anzapfen, wenn man wissen möchte, welche Einheiten zu einem auf der Grundlage empirisch gewonnener und mit verschiedenen Methoden (Informantenbefragungen, Korpusanalysen, Introspektion, assoziative Experimente, teilnehmende Beobachtung; Näheres zu Methoden der Datenerhebung bspw. in Dobrovol’skij 1997, S. 128-155, und Hallsteinsdóttir/ Šajánková/ Quasthoff 2006, S. 118) verifizierter Erkenntnisse ermittel- <?page no="89"?> 89 Phraseographie im Lichte sprachwissenschaftlicher Quellenkunde ten Grundbestand deutscher Phraseologismen gehören? Welche Studien bzw. Projekte können mit in hohem Maße zuverlässigen, weil empirisch abgesicherten Ergebnissen aufwarten? 2.2.1 Quellenlage im Bereich der Frequenz- und Bekanntheitsuntersuchungen zu Idiomen Eine herausragende Stellung nimmt die Arbeit von Hallsteinsdóttir/ Šajánková/ Quasthoff (2006) zum phraseologischen Optimum für Deutsch als Fremdsprache ein. Ihre Ergebnisse basieren auf zwei unabhängig voneinander durchgeführten Untersuchungen, die nachfolgend verglichen und zueinander in Beziehung gesetzt wurden: Es handelt sich zum einen um eine Untersuchung zur Frequenz deutscher Idiome im Korpus „Deutscher Wortschatz“ (siehe URL 1). Zum anderen fußen die Ergebnisse auf einer Untersuchung zur Geläufigkeit deutscher Idiome bei Muttersprachlern des Deutschen (1 112 Idiome wurden 101 Probanden vorgelegt). Hallsteinsdóttir/ Šajánková/ Quasthoff (2006, S. 127f.) ermitteln neun Gruppen von Phraseologismen, von denen drei zum (offenen) Kernbereich des phraseologischen Optimums gerechnet werden (insgesamt 624 Idiome), und zwar aufgrund der von den Autoren festgestellten Korrelation zwischen Geläufigkeit und Frequenz. Ein Großteil der Phraseologismen, die im Korpus eine hohe oder mittlere Frequenz haben, wird auch von vielen Probanden aktiv verwendet (ebd., S. 125). Eine herausragende Position nehmen 143 Idiome mit sowohl hoher Frequenz als auch hoher Geläufigkeit ein, die deshalb von den Autoren als zum Grundwortschatz gehörig eingestuft werden. Während diese Studie Ettinger (2008, S. 106) überaus lobende Worte entlockt, reagiert Schmale (2009, S. 152f., 174f.) mit (nicht unbedingt auf nachvollziehbaren Argumenten fußender) Kritik und mit Zweifeln an der Repräsentativität und Validität der Ergebnisse (Gegenreaktion auf die kritischen Ausführungen findet sich in Hallsteinsdóttir 2011, S. 9-11). Dies zeigt anschaulich die objektiven Schwierigkeiten eines solchen Unterfangens. Potentielle Angriffsflächen, die jene, die sich an diese Aufgabe heranwagen, ihren Kritikern naturgemäß bieten, sind groß. DaF-Lernende und -Lehrende dürften jedoch für jede Initiative dankbar sein, die darauf zielt, ein wenig Licht auf den beschwerlichen Weg durch das phraseologische Dickicht der deutschen Sprache zu werfen. Auch die Verfasser eines phraseologischen Lernerwörterbuchs haben auf der Grundlage einer solchen Studie eindeutig eine bessere Ausgangsposition als ohne sie. Ein anderer Versuch, einen intersubjektiv gültigen Kernbereich der deutschen Idiome zu ermitteln, ist die Datenbank deutscher Idiome von Dobrovol’skij <?page no="90"?> 90 (Meta-)Lexikographie (1997). Diese enthält etwa 1 500 Idiome, die der Autor anhand der ihm zur Verfügung stehenden Informationen für modern, geläufig und für die Sprachkompetenz relevant hält (ebd., S. 156). 2.2.2 Quellenlage im Bereich der Kollokationen Die Beherrschung von Kollokationen ist eine unabdingbare Bedingung für eine gute produktive Beherrschung einer Sprache. Kollokationen werden hier im Sinne von schwach oder nicht-idiomatischen festen Wortverbindungen verstanden, deren Miteinandervorkommen präferiert ist, sodass von der Norm abweichende Bildungen als unpassend empfunden werden, obgleich sie prinzipiell denkbar, aber eben nicht usuell sind. Man vergleiche die auch im Deutschen vorstellbaren, aber im Unterschied zu anderen Sprachen eben nicht usuellen Wortverbindungen: Zähne reinigen, Zähne waschen oder Zähne bürsten. Das erste Wörterbuch der Kollokationen im Deutschen ist das 2010 erschienene, mithilfe des Leipziger Sprachkorpus erstellte und von Uwe Quasthoff verfasste gleichnamige Werk. Zu jedem der 3 253 Grundwörter (davon 72% substantivisch, 19% verbal und 9% adjektivisch) werden alle im Deutschen möglichen Kollokatoren verzeichnet (insgesamt 192 000, vgl. Quasthoff 2010, S. X). Dieses innovative Werk stellt somit eine verlässliche Quelle für potentielle Verfasser eines phraseologischen Lernerwörterbuchs, die Qual der (Aus-)Wahl nimmt es ihnen freilich nicht ab. Diese wird einerseits durch die onomasiologische Gliederung des Wörterbuches gelenkt: Es werden eben nur solche Basiswörter ausgewählt, die den anvisierten Leitbegriffen zugeordnet werden können. Andererseits muss die Auswahl der Kollokationen in einem zweisprachig angelegten Wörterbuch logischerweise auf sprachkontrastiven Überlegungen fußen. Welche Kollokationen aufzunehmen und welche wegzulassen sind, ist nur sprachenpaarspezifisch zu entscheiden. Es ist Reder (2011, S. 137) zuzustimmen, dass besonders jene fremdsprachlichen Kollokationen enorm interferenzgefährdet sind, die keine total äquivalenten Entsprechungen in der Muttersprache der Lerner aufweisen. Solche sollten in ein zweisprachiges phraseologisches Lernerwörterbuch deshalb unbedingt Eingang finden. 3. Fallstudie: Kollokationen und Emotionswortschatz, korpusbasiert und sprachvergleichend Ich möchte im Folgenden exemplarisch der Frage nachgehen, wie typische Kollokationen zum Emotionswortschatz für die Belange eines zweisprachigen (deutsch-tschechischen) phraseologischen Wörterbuches zu ermitteln sind. <?page no="91"?> 91 Phraseographie im Lichte sprachwissenschaftlicher Quellenkunde Eine manuelle Durchsicht des oben vorgestellten Kollokationswörterbuchs von Quasthoff führte zu 48 Basen, die man m.E. als zum Emotionswortschatz zugehörig betrachten könnte. Die Mehrheit bilden erwartungsgemäß Substantive wie Angst und Ärger, Empörung und Erleichterung, Freude und Furcht, Leid und Liebe oder Unmut und Unruhe. Unter den Basiswörtern sind ferner acht Emotionsverben (bspw. fürchten, genießen, leiden, lieben) sowie neun Adjektive (bspw. entspannt, froh, glücklich, stolz, verliebt) zu finden. Stark vertreten sind substantivische Ausdrücke, die sich auf die Basisemotion Ärger beziehen - neben Ärger, Wut und Zorn sind auch Empörung und Unmut in diesem Wörterbuch verzeichnet. Schaut man sich den Eintrag zu Wut an, entdeckt man 44 adjektivische Kollokatoren (bspw. blank, blind, brodelnd, geballt, nackt), ferner zehn verbale Kollokatoren des Kollokationstyps Substantiv (als Subjekt) + Verb (beispielsweise die Wut verraucht) und schließlich 19 verbale Kollokatoren des Kollokationstyps Substantiv (als Objekt) + Verb. Das Objekt Wut kann dabei entweder im reinen Akkusativ (bspw. Wut empfinden, rauslassen, abladen) oder in einem Präpositionalkasus (bspw. vor Wut kochen oder schäumen, in Wut geraten oder umschlagen) stehen. Welche der in Quasthoff aufgelisteten Kollokationen besonders geeignete Kandidaten für die Aufnahme in ein deutsch-tschechisches phraseologisches Lernerwörterbuch darstellen, kann letztendlich nur sprachkontrastiv ermittelt werden. Es gilt nämlich: Als Kollokationen einer Sprache können im sprachkontrastiven Sinne all diejenigen Kombinationen von Wörtern gesehen werden, bei denen die Gefahr einer falschen Übertragung besteht, da zumindest einer der Kombinationspartner im Kontext der Wendung anders übersetzt werden muss, als dies von den Benutzern typischerweise erwartet wird. (Herbst/ Klotz 2003, S. 138) Das zu bewältigende Problem heißt eingeschränkte Kombinierbarkeit, und diese ist sprachspezifisch (vgl. hierzu bspw. Reder 2011, S. 137f.). Aus Platzgründen soll hier nur auf die Verbindungen der substantivischen Basis Wut mit einem adjektivischen Kollokator eingegangen werden. Es versteht sich von selbst, dass es nicht im Interesse der Benutzer wäre, ein Lernerwörterbuch mit zu vielen Kollokationen zu beladen. Aus diesem Grund muss aus den 44 adjektivischen Kollokationen mit Wut ausgewählt werden. In einem ersten Schritt habe ich mich entschieden, die Quasthoff'sche Liste mit den Ergebnissen der Kookkurrenzanalyse anhand des Deutschen Referenzkorpus (DeReKo) des IDS Mannheim zu vergleichen. Diese Analyse zeigte, dass unter den knapp 500 Kombinationspartnern von Wut der signifikanteste adjektivische Partner ohnmächtig auf Rang 14 ist, gefolgt von gehörig, aufgestaut, blind, blank, angestaut, unbändig, rasend, geballt, hilflos und un- <?page no="92"?> 92 (Meta-)Lexikographie terdrückt, die es alle unter die ersten hundert Partner geschafft haben. Die Ergebnisse der Kookkurrenzanalyse zu all diesen Adjektiven in Bezug auf deren signifikante Partner aus dem substantivischen Emotionswortschatz sind in der nachstehenden Tabelle zusammengefasst. Bei mehr als 250 Partnern wurde nur das erste Quartil betrachtet. Wurde das entsprechende Lemma in mehreren Formen gelistet (beispielsweise im Singular und Plural), berücksichtigt die Tabelle nur die ranghöchste Form. Adjektiv Anzahl der signifikanten Partner Signifikante substantivische Partner aus dem Emotionswortschatz (in Klammern wird der jeweilige Rang angegeben) ohnmächtig 96 Wut (1), Zorn (4) gehörig 478 Schrecken (5), Schreck (9), Glück (11), Wut (12), Aufregung (51), Lampenfieber (69), Wehmut (97), Frust (99), Unruhe (148) aufgestaut 63 Frust (1), Wut (3), Ärger (5), Emotionen (6), Hass (9), Unmut (11), Zorn (13), Frustrationen (15), Gefühle (20), Spannung (23), Groll (39), Anspannung (45), Unzufriedenheit (48), angestaut 46 Frust (1), Wut (3), Ärger (5), Unmut (6), Spannung (13), Emotionen (18), Frustration (20), Hass (24), Gefühle (28), Unzufriedenheit (46) blind 888 Wut (30), Hass (49), Eifersucht (205) blank 712 Entsetzen (2), Horror (15), Hass (24), Wut (47) unbändig 159 Lust (4), Freude (6), Wut (15), Leidenschaft (21), Hass (29), Zorn (31), Verlangen (39), Liebe (40), Fröhlichkeit (48), Sehnsucht (64), Stolz (91), rasend 213 Eifersucht (4), Wut (10, meist jedoch nicht im attributiven Gebrauch, sondern in der Verbindung rasend vor Wut), Zorn (56, meist jedoch ebenfalls in rasend vor Zorn) geballt 213 Zorn (14), Unmut (20), Wut (28), Frust (51), Emotion (80), Fröhlichkeit (90), Frohsinn (177), Ärger (192) hilflos 399 Wut (41), Verzweiflung (188) unterdrückt 165 Gefühle (4), Wut (8), Zorn (19), Sehnsüchte (25), Emotionen (28), Ärger (42), Leidenschaften (100), Hass (112), Trauer (122) Tab. 1: Ausgewählte Adjektive mit Emotionssubstantiven als ihre signifikanten Partner. Quelle: Belica, Cyril (1995): Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode. Mannheim. http: / / corpora.ids-mannheim.de (Stand: Juli 2013). <?page no="93"?> 93 Phraseographie im Lichte sprachwissenschaftlicher Quellenkunde Ferner wollte ich feststellen, welche deutsche Kollokationen für einen tschechischen Muttersprachler unerwartet bzw. welche von ihnen anhand des Vergleichs mit dem Tschechischen als besonders interferenzgefährdet einzustufen sind. Dies setzt eine Gegenüberstellung mit präferierten tschechischen Kollokationen dieses Typs voraus. In Ermangelung eines entsprechenden Kollokationswörterbuchs des Tschechischen führt der Weg zu typischen Kollokationen des tschechischen Äquivalentes des untersuchten Wortes Wut (tsch. vztek) notwendigerweise über das Tschechische Nationalkorpus (weiter nur }<3, die Untersuchung wurde am 17.1.2012 am Teilkorpus syn durchgeführt). Mit Hilfe der Suche nach Konkordanzen zum Lemma vztek konnten mehrere hundert adjektivische linke Nachbarn dieses Substantivs ermittelt werden, jedoch nur 31 von ihnen weisen mehr als zehn Belege auf. Diese Adjektive sollen im Folgenden näher betrachtet werden. An der Spitze rangieren mit großem Vorsprung die Kollokatoren skrývaný (dt. versteckt, 287 Belege), bezmocný (dt. ohnmächtig, 246 Belege) und velký (dt. groß, 135 Belege). In einem nächsten Schritt bin ich der Frage nachgegangen, auf welche Kollokationen aus tschechisch-deutscher Sicht verzichtet werden könnte. Für verzichtbar halte ich solche Wortkombinationen, die bei der Übertragung aus dem Tschechischen ins Deutsche keine Probleme bereiten, weil zwischen den untersuchten Sprachen totale Äquivalenz vorliegt und der konkrete deutsche Kollokator keinen Einschränkungen im Hinblick auf seine Kombinierbarkeit mit der Basis Wut unterliegt. Es handelt sich insbesondere um zahlreiche Intensivierungsadjektive wie hrozný, {, obrovský, 5> {, strašlivý, šílený, velký. Schaut man unter den genannten adjektivischen Lemmata in einem tschechisch-deutschen Wörterbuch nach (dies wurde von mir am elektronischen Wörterbuch Lingea Lexicon 5 überprüft), findet man deutsche Äquivalente, die mit Wut ebenfalls kombinierbar sind, bspw. schrecklich, furchtbar, unglaublich, riesig, ungeheuerlich, unheimlich, wahnsinnig, groß. Das Gleiche trifft auch für die meisten anderen adjektivischen Kollokatoren zu, die sowohl im }<3 zu den frequentesten gehören als auch bei Quasthoff gelistet sind: nepopsatelný - unbeschreiblich (vgl. nepopsatelný vztek - unbeschreibliche Wut), { bzw. { (im Lingea Lexicon 5 ist nur das erste Adjektiv verzeichnet, das zweite drückt die Iterativität der Handlung aus) - unterdrückt, bezmezný - grenzenlos, slepý - blind, zdravý - gesund, { - berechtigt, pochopitelný - begreiflich bzw. verständlich, divoký - wild, skrývaný (im Lingea Lexicon 5 nicht verzeichnet, das Verb skrývat wird als verbergen übersetzt) - versteckt bzw. verborgen, zoufalý - verzweifelt, kontrolovatelný - kontrollierbar, ovládaný - beherrscht, bezuzdný - zügellos, nezkrotný - unbändig, unbezähmbar. <?page no="94"?> 94 (Meta-)Lexikographie In einem weiteren Schritt habe ich diejenigen signifikanten Kollokatoren unter die Lupe genommen, die ich zunächst nur aufgrund meiner eigenen Sprachkompetenz als fehlerträchtig bewertet habe. Diese sollen im Folgenden diskutiert werden. Zu den signifikanten Kollokatoren im Tschechischen gehört {. Bei diesem Lemma werden im Lingea-Lexicon 5 vier Bedeutungen verzeichnet. Zu der Basis vztek/ Wut passt die dritte, die mit ‘groß’ umschrieben und durch folgende deutsche Entsprechungen wiedergegeben wird: ordentlich, gründlich, rechtschaffen, tüchtig, gehörig und anständig. Unter den Beispielen erscheint keines mit Bezug auf Emotionales. Die Praxis zeigt, dass die Benutzer dazu tendieren, das erste Äquivalent zu nehmen, in unserem Falle also ordentlich. Die gute Nachricht ist, dass sie mit der Verbindung ordentliche Wut nicht gegen die Kombinationsregeln im Deutschen verstießen. Die weniger gute Nachricht ist, dass sich wohl kaum ein Benutzer zu der im Deutschen viel typischeren Kombination gehörige Wut durchkämpfen würde. Die schlechte Nachricht schließlich lautet, dass auf die Benutzer Fallen in Form von im Deutschen zumindest merkwürdig bis unakzeptabel lautenden Kombinationen lauern: *gründliche Wut, *rechtschaffene Wut, ? tüchtige Wut. Ein weiterer signifikanter tschechischer Kollokator ist 6 {. Das Adjektiv wird im Lingea-Lexicon 5 mit drei Lesarten versehen, die zweite wird als ‘intensiv’ erklärt und durch wütend, rasend, glühend auf Deutsch wiedergegeben. Die unter dieser Lesart angeführten Beispiele lauten: rasende Schlacht und glühende Leidenschaft. Somit haben wir es beim zweiten Beispiel mit dem Bezug auf Emotionales zu tun, der den Benutzer zu der zwar akzeptablen, jedoch nicht besonders typischen Kombination glühende Wut veranlassen könnte. Es ist fraglich, ob der Benutzer die Verbindung wütende Wut als merkwürdig lautend ablehnen und folglich zu der im Deutschen am ehesten erwarteten rasenden Wut vorstoßen würde. Des Weiteren soll noch der tschechische Kollokator % ! { diskutiert werden. Im Lingea Lexicon 5 ist er nicht verzeichnet, das Verb nahromadit bzw. hromadit wird als (an)häufen, ansammeln übersetzt. Davon könnte der Benutzer die korrekte Wortkombination angesammelte Wut oder die nicht akzeptable Verbindung *angehäufte Wut ableiten. Es sei an dieser Stelle ergänzt, dass die Kookkurrenzanalyse zum Lemma angesammelt 53 signifikante Partner ergab, aus dem Emotionswortschatz ist lediglich Frust auf Rang 9 vertreten. Zu den bevorzugten Partnern von angehäuft gehören Schulden, Vermögen oder Reichtum, jedoch kein Emotionssubstantiv. Es ist davon auszugehen, dass ein tschechischer Muttersprachler auf diesem Wege nicht zu der im Deutschen präferierten Kombination geballte oder angestaute/ <?page no="95"?> 95 Phraseographie im Lichte sprachwissenschaftlicher Quellenkunde aufgestaute Wut gelangen kann. Dabei wird im deutsch-tschechischen Teil des Lingea Lexicons 5 unter dem Stichwort anstauen sowie aufstauen explizit auf Wut verwiesen: Die Beispiele angestaute Wut bzw. Wut staut sich in ihm auf machen deutlich, das gerade Wut ein präferierter Partner dieser Verben ist. Dies bestätigt im Übrigen auch die Kookkurrenzanalyse zum Lemma anstauen: Zu den signifikanten substantivischen Partnern gehören neben Wasser und Aggressionen nur noch Emotionssubstantive wie Frust bzw. Frustrationen, Ärger, Unmut und Wut. Ähnlich sieht es auch bei aufstauen aus: Wut rangiert auf Rang zwei hinter Wasser, dicht gefolgt von Unmut, Frust, Ärger, Aggressionen und Hass. Was geballt betrifft, belegt die Kookkurrenzanalyse zwar viele andere substantivische Partner, die die Emotionssubstantive auf die Plätze verweisen (bspw. Ladung, Faust/ Fäuste, Macht, Energie, Kompetenz, Wissen, Erfahrung u.a.), dennoch zeigt die obige Tabelle überzeugend, dass insbesondere zwischen Substantiven aus dem Umfeld der Emotion Ärger und dem Adjektiv geballt eine unübersehbare Anziehungskraft besteht. Fragt man sich, welche der deutschen Kollokationen bestehend aus einem Adjektiv und der Basis Wut einem tschechischen Muttersprachler unerwartet vorkommen und somit einen Stolperstein darstellen dürfte, stößt man auf blanke und nackte Wut, denn beide Wortverbindungen haben im Tschechischen keine total äquivalente Entsprechung. Deshalb sollen auch noch diese zwei Kollokationen näher betrachtet werden. Das Langenscheidt e-Großwörterbuch Deutsch als Fremdsprache (2008) verzeichnet vier Lesarten zu blank. [ " " ¥ ` " * % " '¦ § % % Neid, Unsinn›. Konsultiert man das Lingea Lexicon 5, findet man bei blank fünf Lesarten. Bei der letzten wird als tschechisches Äquivalent holý, { (závist ap.) angeführt, womit der Bezug auf Emotionales explizit genannt wird. Unter den adjektivischen Kollokatoren von vztek in }<3-syn tauchen { und { auf, jedoch in jeweils nur vier Belegen. Von meinen tschechischen Gewährspersonen wurden beide Kombinationen als recht unüblich bezeichnet. Die Verbindung des Adjektivs holý mit vztek wurde im }<3-syn nicht gefunden, von den Gewährspersonen wurde sie als nicht akzeptabel bewertet. 4. Fazit Aufgrund der obigen Ausführungen möchte ich folgende Schlussfolgerungen ziehen: 1) Aufgrund der notwendigen Reduktion des aufzunehmenden Sprachmaterials kann auf diejenigen Kollokationen verzichtet werden, die in der Aus- <?page no="96"?> 96 (Meta-)Lexikographie gangs- und Zielsprache total äquivalent sind, bspw. slepý vztek - blinde Wut, velký vztek - große Wut, und folglich weder bei der Textrezeption noch bei der Textproduktion Probleme darstellen. 2) Als geeignete Kandidaten für die Aufnahme in ein deutsch-tschechisches phraseologisches Lernerwörterbuch betrachte ich hingegen diejenigen Kollokationen, die im Deutschen häufig vorkommen, für den tschechischen Muttersprachler jedoch nicht erwartbar sind, weil sie im Tschechischen keine total äquivalenten Entsprechungen haben. Dies trifft für blanke und nackte Wut zu. 3) Für geeignete Kandidaten halte ich ferner die Kollokationen gehörige, an-/ aufgestaute und geballte Wut: zum einen aufgrund ihres durch die Kookkurrenzanalyse belegten präferierten Vorkommens, zum anderen aufgrund des Umstandes, dass bei der Übertragung aus dem Tschechischen ins Deutsche diese typischen Wortkombinationen von einem tschechischen Muttersprachler vermutlich nicht gewählt werden würden. Es ist anzunehmen, dass er sich unter dem Einfluss des Tschechischen für andere Kombinationen entscheiden würde, obwohl diese im Deutschen nicht so präferiert bzw. gar nicht usuell sind. 4) Das Substantiv Wut und seine tschechische Entsprechung vztek kann mit einer Reihe von Intensivierungsadjektiven auftreten. Das frequenteste im Deutschen ist laut der Kookkurrenzanalyse gehörig. Ausgerechnet dieses Adjektiv birgt jedoch im tschechisch-deutschen Vergleich gewisse Gefahren. Deswegen möchte ich auch für seine Aufnahme plädieren. 5) Die Kollokationen ohnmächtige, hilflose und unterdrückte Wut verdienen m.E. aufgrund ihrer Frequenz und ihres offensichtlich präferierten Miteinandervorkommens, in ein deutsch-tschechisches phraseologisches Lernerwörterbuch aufgenommen zu werden, obwohl sie im Tschechischen totale Äquivalente haben und folglich nicht interferenzgefährdet sind. 5. Zum Abschluss Zugegebenermaßen konnte die im Titel des Beitrags gestellte Frage nur rudimentär beantwortet werden, denn manche Quellen wurden nur gestreift, viele gar nicht erst genannt. Ich hoffe dennoch, dass aus diesem kurzen Einblick eines hervorging: Die Quellenlage für die zweisprachige (Lerner-)Phraseographie mit Deutsch im Allgemeinen und die deutsch-tschechische im Besonderen bessert sich. Trotz dieser Fortschritte wäre die Lage derjenigen, die sich das Ziel stellten, ein Lernerwörterbuch zur deutschen Phraseologie für tschechi- <?page no="97"?> 97 Phraseographie im Lichte sprachwissenschaftlicher Quellenkunde sche Muttersprachler zu erstellen, immer noch schwer genug: angefangen mit der Frage nach einer sinnvollen und für die Benutzer gut nachvollziehbaren onomasiologischen Gliederung über die hier etwas näher beleuchtete Frage nach den Kriterien für eine gut begründete Auswahl der aufzunehmenden Phraseologismen bis hin zu den in diesem Aufsatz gar nicht angesprochenen Problemen bei der Äquivalentfindung oder Fragen der didaktischen Aufbereitung des ausgewählten Sprachmaterials im Aufgaben- und Übungsteil des Wörterbuchs. Es ist ein weites Aufgabenfeld, das hier noch beackert werden muss. Erfreulich ist, dass es inzwischen aus mehreren aus- und inländischen Quellen bewässert werden kann. Literatur Quellen/ Korpustexte DUDEN 11 (2008): DUDEN. Bd. 11: Redewendungen und sprichwörtliche Redensarten. 3. Aufl. Mannheim. ¢ % [ £ % © & " % ` @ ' * _ - ]ª " < ` " | ` ` ] " ` @ «- - ® ¯ | ° ` ® ¯@ < @ Hessky, Regina/ Ettinger, Stefan (1997): Deutsche Redewendungen: Ein Wörter- und Arbeitsbuch für Fortgeschrittene. Tübingen. Langenscheidt e-Großwörterbuch Deutsch als Fremdsprache (2008): Langenscheidt e-Großwörterbuch Deutsch als Fremdsprache 5.0. Hrsg. von Dieter Götz, Günter Haensch und Hans Wellmann. Berlin. [CD-ROM]. - ` - $ ' * ! ® ¯ - - ® - - ®@ [ @ Quasthoff, Uwe (2010): Wörterbuch der Kollokationen im Deutschen. Berlin/ New York. URL 1: www.wortschatz.uni-leipzig.de Wissenschaftliche Literatur Bergenholtz, Henning/ Tarp, Sven (2005): Wörterbuchfunktionen. In: Barz, Irmhild/ Bergenholtz, Henning/ Korhonen, Jarmo (Hg.): Schreiben, Verstehen, Übersetzen, Lernen. Zu ein- und zweisprachigen Wörterbüchern mit Deutsch. Frankfurt a.M., S. 11-25. Dobrovol’skij, Dmitrij (1997): Idiome im mentalen Lexikon: Ziele und Methoden der kognitivbasierten Phraseologieforschung. Trier. Engelberg, Stefan/ Lemnitzer, Lothar (2008): Lexikographie und Wörterbuchbenutzung. 3. Aufl. Tübingen. <?page no="98"?> 98 (Meta-)Lexikographie Ettinger, Stefan (2008): Alcanses e límites de la fraseodidáctica. Dez preguntas clave sobre o estado actual da investigación. In: Cadernos de fraseoloxía galega 10, S. 95-127. Hallsteinsdóttir, Erla (2011): Aktuelle Forschungsfragen der deutschsprachigen Phraseodidaktik. In: Linguistik online 47, 3, S. 3-31. Hallsteinsdóttir, Erla/ Šajánková, Monika/ Quasthoff, Uwe (2006): Phraseologisches Optimum für Deutsch als Fremdsprache: Ein Vorschlag auf der Basis von Frequenz- und Geläufigkeitsuntersuchungen. In: Linguistik online 27, 2, S. 117-132. Herbst, Thomas/ Klotz, Michael (2003): Lexikografie. Paderborn u.a. Jesenšek, Vida (2003): Zum Benutzer und zur Benutzung eines mehrsprachigen phraseologischen Lernerwörterbuches: Überlegungen am Konzept eines phraseographischen Projekts. In: Igla, Birgit/ Petkov, Pavel/ Wiegand, Herbert Ernst (Hg.): Kontrastive Lexikologie und zweisprachige Lexikographie. Hildesheim/ New York, S. 91-101. Kühn, Peter (1996): Redewendungen - nur im Kontext! Kritische Anmerkungen zu Redewendungen in Lehrwerken. In: Wotjak, Barbara (Hg.): Fremdsprache Deutsch 15, S. 10-16. Reder, Anna (2011): Kommen Kollokationen in Mode? Kollokationskonzepte und ihre mögliche Umsetzung in der Didaktik. In: Linguistik online 47, 3, S. 131-140. Schmale, Günter (2009): Phraseologische Ausdrücke als Bestandteil des Fremdsprachenerwerbs. Überlegungen zur Phraseodidaktik auf der Grundlage einer korpusbasierten Analyse deutscher Talkshows. In: Beiträge zur Fremdsprachenvermittlung, Sonderheft 15, S. 149-179. Wiegand, Herbert Ernst et al.: Systematische Einführung. In: Beißwenger, Michael/ Gozws, Rufus H./ Kammerer, Matthias et al. (Hg.) (2010): Wörterbuch zur Lexikographie und Wörterbuchforschung. Dictionary of Lexicography and Dictionary Research. Bd. 1. Berlin/ New York, S. 1-105. Wotjak, Barbara (2005): Routineformeln im Lernerwörterbuch. In: Barz, Irmhild/ Bergenholtz, Henning/ Korhonen, Jarmo (Hg.): Schreiben, Verstehen, Übersetzen, Lernen. Zu ein- und zweisprachigen Wörterbüchern mit Deutsch. Frankfurt a.M., S. 371-387. _ [ ` " ¥ ` &^ ± ¦ " &^ '# Foundation) der Tschechischen Republik entstanden. <?page no="99"?> Helge Goldhahn Grundlagen für das Deutsch-tschechische Wörterbuch der Phraseologismen und festgeprägten Wendungen 1. Einleitung Das Deutsch-tschechische Wörterbuch der Phraseologismen und festgeprägten Wendungen (WPh) für das Sprachenpaar Deutsch-Tschechisch ist eines der umfangreichsten zweisprachigen phraseologischen Wörterbücher und wurde im Jahr seines Erscheinens 2010 vom Verein der Dolmetscher und Übersetzer in Prag mit dem Preis „Wörterbuch des Jahres“ ausgezeichnet. Ziel des Wörterbuchs ist es, ein möglichst wirklichkeitsgetreues Abbild des Bestands der Phraseologismen, festen Vergleiche und verbonominalen Wendungen der deutschen Gegenwartssprache darzustellen. Seine Nutzer sollen durch die deutschen Erklärungen und tschechischen Entsprechungen sowie die kontextuelle Einbettung in Beispielsätze in die Lage versetzt werden, die deutschsprachigen Phraseologismen umfassend zu verstehen und sie darüber hinaus auch situationsgerecht und authentisch zu verwenden. Das Wörterbuch möchte damit „einen kleinen Beitrag zur Vervollkommnung der Kommunikation zwischen tschechischen und deutschen Muttersprachlern leisten und der allgemeinen Verständigung dienen“ (S. XVI). Das Wörterbuch umfasst 24 400 Stichwörter und richtet sich an die breite Öffentlichkeit, also neben Übersetzern, Dolmetschern, Studierenden, Lehrern, Journalisten, Redakteuren an all jene, die mit Sprache arbeiten. Obwohl es in erster Linie für die Sprachrichtung Deutsch-Tschechisch erstellt wurde, kann es dank des umfangreichen tschechischen Stichwort-Registers am Ende des Wörterbuchs auch in der Sprachrichtung Tschechisch-Deutsch verwendet werden. Die Arbeit am Wörterbuch dauerte 17 Jahre und begann 1992, also zu einer Zeit, in der die Korpuslinguistik in Deutschland noch ganz am Anfang stand. Ausgangssprache für das Wörterbuch bildet die deutsche Gegenwartssprache. Demzufolge wurden die Phraseologismen in der deutschsprachigen Presse und Literatur gesucht. Im Verlauf der Arbeit wurde das Internet zunehmend zu Recherchezwecken und Überprüfungen herangezogen. Darüber hinaus wurden deutschsprachige phraseologische Wörterbücher für die Arbeit genutzt. Bei der Aufnahme ins Wörterbuch waren neben den klassischen <?page no="100"?> 100 (Meta-)Lexikographie phraseologischen Merkmalen wie ein hoher Grad an Idiomatizität und Stabilität auch kollokative Aspekte ausschlaggebend, soweit sie für die Autoren eine erhöhte Relevanz bei der Sprachmittlung darstellten. Aus diesem Grunde wurden u.a. auch Vergleiche, feste verbonominale Verbindungen und kommunikative Formeln aufgenommen. Der sprachlichen Einfachheit halber werden alle diese sprachlichen Erscheinungen im vorliegenden Artikel unter Phraseologismen subsumiert. 2. Datengrundlage Bei der Zusammenstellung der Datengrundlage lag den Autoren daran, einen möglichst breiten Umfang abzudecken. Außerdem sollten die Phraseologismen vorwiegend aus der deutschen Gegenwartssprache stammen. Deshalb wurden neben schöngeistiger Literatur, die nicht älter als 40 Jahre war, auch Presse- und Fachtexte ab 1992 sowie einsprachige phraseologische Wörterbücher exzerpiert. Innerhalb der einzelnen Bereiche wurde versucht, eine stilistisch und geografisch große Bandbreite abzudecken. So wurden in der schöngeistigen Literatur Kriminalromane und andere Romane, bei den Pressetexten Focus und Spiegel, aber auch TV Spielfilm und Bild am Sonntag sowie die österreichische News, bei den Fachtexten juristische und kunsthistorische Texte, bei den Wörterbüchern der DUDEN 11 (Redewendungen), das Wörterbuch der deutschen Gegenwartssprache exzerpiert. Die Datengrundlage war dabei nicht eine einmalig zusammengestellte Materialbasis, sondern wurde im Verlauf der Arbeit ständig erweitert. Mit dem Anwachsen der im Internet verfügbaren Materialien wurden diese zunehmend in die Arbeit einbezogen. Hier ist insbesondere das deutsche Internetlexikon der Redensarten ( www.redensarten-index.de ) zu nennen. 3. Von der Datengrundlage zur Datenbank Die im vorstehenden Abschnitt beschriebene Datengrundlage wurde manuell exzerpiert. Auf eine maschinelle Auswertung wurde verzichtet, da die meisten Texte nur in gedruckter Form vorlagen und zudem eine sichere Erfassung aller Phraseologismen als feste Wortverbindungen durch eine maschinelle Auswertung nicht gesichert war. Die aufgefundenen Phraseologismen wurden anhand der bei der Arbeit zugrunde gelegten Definition eines Phraseologismus, durch Konsultation einsprachiger Wörterbücher und ein Korrekturlesen durch deutsche, österreichische und Schweizer Muttersprachler mit philologischer Ausbildung geprüft. <?page no="101"?> 101 Grundlagen für das Deutsch-tschechische Wörterbuch der Phraseologismen Zweifelsfälle wurden zudem im Autorenkollektiv besprochen und im Korpus des IDS Mannheim recherchiert, anhand ihrer Übersetzungsrelevanz bewertet und gegebenenfalls aus der Datenbank gestrichen. Für die Zwecke des Wörterbuchs spielte die Frequenz des Auftretens der Phraseologismen in den untersuchten Texten eine untergeordnete Rolle. Vielmehr sollte ein möglichst umfassender Phraseologismenbestand des Deutschen dargestellt werden. Die typischen und geläufigen Phraseologismen sollten selbstverständlich nicht fehlen, aber auch seltenere und unter Umständen auch veraltete wurden aufgenommen, sofern eine sprachkontrastive bzw. sprachmittlerische Relevanz gegeben war. Durch die Anpassung und teilweise vollständige Bildung der Kontextbeispiele durch Muttersprachler floss auch die gesprochene Sprache implizit in die Datenbankeinträge ein. 3.1 Konkreter Eintrag Im Folgenden soll anhand eines konkreten Eintrags ein Beispiel für den Aufbau des Wörterbuchs gegeben werden. Dazu soll der Eintrag Nr. G1329 auf Seite 781 dienen: GRAS über etw. wächst Gras/ ist Gras gewachsen Stil.: geh. etw. Peinliches/ Unangenehmes / ... ist in Vergessenheit geraten - " " - ²«*³ " ° - ´ ²«*³ - ° ´ ²«*³ - £ " ° ° ´ ²«*³ - £ - Ich glaube, dass über diese dumme Geschichte längst Gras gewachsen ist. Natürlich wünschen sich die beteiligten Regierungsmitglieder, dass über diesen Skandal so schnell wie möglich Gras wächst. Jeder Eintrag besteht aus der Nennung des deutschen Phraseologismus, der Angabe zu seiner Stilebene, einer deutschen Definition, tschechischen Entsprechungen mit Stilebenenkennzeichnung und deutschen Kontextbeispielen. Die Einträge wurden innerhalb der Buchstaben durchnummeriert. Von den 1 620 Einträgen innerhalb des Buchstabens G ist der genannte also die Nummer 1 329. Die Einträge wurden nach den Schlüsselwörtern in alphabetischer Reihenfolge geordnet. Als Schlüsselwörter galten prinzipiell Substantive. Wenn keine im Phraseologismus vorkamen, wurden die folgenden Wortarten in der Reihenfolge Adverb, Zahlwort, Verb, Pronomen, Präposition zum Schlüsselwort. <?page no="102"?> 102 (Meta-)Lexikographie 4. Zusammenfassung Das Deutsch-tschechische Wörterbuch der Phraseologismen und festgeprägten Wendungen ist mit seinen 24 400 Einträgen eines der umfangreichsten zweisprachigen phraseologischen Wörterbücher. Ziel des Wörterbuchs ist eine möglichst umfassende Darstellung des phraseologischen Bestands der deutschen Gegenwartssprache. Dazu wurden Texte aus der schöngeistigen Literatur, Presse- und Fachtexte und phraseologische Wörterbücher aus Deutschland, Österreich und der Schweiz manuell exzerpiert. Bei der Auswahl der Datengrundlage wurde auf eine große Bandbreite in Bezug auf die Herkunft und die Stilebenen der Texte Wert gelegt. Die aufgefundenen Phraseologismen wurden von deutschen Muttersprachlern überprüft. Literatur ¢ % [ £ % © & " % ` ' * _ ]ª " < ` " | ` ` ] " ` µ «- - ® ¯ | ° ` ® ¯@ < @ <?page no="103"?> Agnes Goldhahn Korpusgeleitete Lexikographie: Das Häufigkeitswörterbuch der deutschen Gegenwartssprache 1. Einleitung Kaum ein modernes Wörterbuch, das heute ohne Korpus im Hintergrund erscheint. Alle großen Wörterbuchverlage nutzen heute mehr oder weniger intensiv Korpora zur Erstellung ihrer Wörterbücher, sei es zur Bereitstellung authentischer Beispielsätze, zur Kontrolle der Bedeutungsvarianten bzw. deren grammatischer Eigenschaften oder zur Entscheidung darüber, ob ein Lemma ins Wörterbuch aufgenommen wird oder nicht. Bei diesen Verfahren spricht man von korpusgestütztem Vorgehen. 1 Das Korpus dient als Stütze für die Lexikographen, die ihre Einträge mithilfe des Korpus optimieren. Während korpusgestützte Lexikographie heute also Standard ist, sind korpusgeleitet erarbeitete Wörterbücher - zumindest für das Deutsche - noch eine Seltenheit. Das Frequency dictionary of German von Randall L. Jones und Erwin Tschirner (2006) folgt genau diesem Ansatz. Über die Aufnahme ins Wörterbuch, das die häufigsten 4.000 Wörter des Deutschen enthält, entschied allein die Häufigkeit des Auftretens im Herder-BYU-Korpus. Das Korpus ist ein Gemeinschaftsprojekt des Leipziger Herder-Instituts und der Brigham Young University in Utah/ USA. Es wurde für die Entwicklung des Häufigkeitswörterbuchs angelegt, kann aber natürlich auch für andere Fragestellungen genutzt werden. Da es aufgrund des Urheberrechts nicht öffentlich zugänglich ist, muss man sich bei Interesse mit den Wörterbuchautoren in Verbindung setzen. Im Folgenden sollen der Aufbau des Herder-BYU-Korpus, die korpusgeleitete Vorgehensweise bei der Erstellung des Häufigkeitswörterbuchs und damit einhergehende Schwierigkeiten vorgestellt werden. 2. Das Herder-BYU-Korpus Angesichts der Tatsache, dass die Ergebnisse einer korpusgeleiteten Arbeit bestenfalls so gut sind wie das zugrundeliegende Korpus, 2 wurden an die Zusammenstellung desselben höchste Ansprüche gestellt. Das Korpus ent- 1 Zum Unterschied von korpusgeleitetem und korpusgestütztem Vorgehen vgl. Mindt (2010, S. 53f.). 2 Vgl. Kratochvílová/ Wolf (2010, S. 10) und Goldhahn (2010, S. 229). <?page no="104"?> 104 (Meta-)Lexikographie hält 4,2 Mio. laufende Wörter sowohl aus der geschriebenen als auch der gesprochenen Sprache. Es ist ausgewogen im Hinblick auf Genre, Register, Textsorte sowie Herkunft und Alter der Sprecher/ Schreiber. Da es die Gegenwartssprache repräsentiert, enthält es nur moderne Texte. Es setzt sich zusammen aus je einer Million Wörtern gesprochener Sprache, Literatur, journalistischen und akademischen Texten sowie 200 000 Wörtern aus Gebrauchstexten. In allen Subkorpora sind deutsche, österreichische und Schweizer Texte im Verhältnis 70: 20: 10 vertreten. - Gesprochene Sprache Im Subkorpus der gesprochenen Sprache finden sich 700.000 Wörter Konversation aus Interviews, die zwischen 1989 und 1993 in Deutschland, Österreich und der Schweiz durchgeführt wurden. Die restlichen 300.000 Wörter setzen sich aus transkribierten Fernsehsendungen zusammen: Vorabendserien, Talkshows und Reportagen, von denen die meisten nach dem Jahr 2000 ausgestrahlt wurden. - Belletristik Im Subkorpus der Literatur wurde nach Herkunft der Texte (Deutschland, Österreich, Schweiz) und literarischem Genre differenziert. Je 10.000 Wörter entstammen 100 verschiedenen Werken aus den Kategorien Hohe Literatur, Jugendliteratur, Bestseller, Humor, Reiseliteratur, Gesellschaftsroman und Abenteuer/ Krimi. Mit einer Ausnahme sind alle Werke zwischen 1990 und 2000 erschienen. - Journalistische Texte Das Subkorpus der journalistischen Texte enthält komplette Artikel aus 50 lokalen und überregionalen Zeitungen Deutschlands, Österreichs und der Schweiz. Die Texte entstammen den Rubriken Politik, Wirtschaft, Kultur, Sport und Kommentar und sind alle zwischen September 2001 und Februar 2002 erschienen. - Akademische Texte Auch in diesem Subkorpus sind Texte aus dem gesamten deutschsprachigen Raum vertreten. Sie untergliedern sich in Lehrbücher für Gymnasien und Hochschulen, populärwissenschaftliche Texte und Fachtexte und repräsentieren die unterschiedlichsten Fachbereiche wie Natur- und Sozialwissenschaften, Technik, Medizin, Recht usw. - Gebrauchstexte Die 200 000 Wörter aus Gebrauchstexten entstammen Anleitungen, Anzeigen, Ratgebern und Kundeninformationen. <?page no="105"?> 105 Das Häufigkeitswörterbuch der deutschen Gegenwartssprache Das Herder-BYU-Korpus unterscheidet sich von Korpora anderer Wörterbuchprojekte vor allem durch seinen strukturierten, ausgewogenen Aufbau. Zeitungstexte machen nur knapp ein Viertel der Textbasis aus, anstatt wie oft üblich den größten Teil des Korpus zu bilden. Ein weiterer Vorteil des Korpus ist, dass alle Texte mehrfach durch Muttersprachler Korrektur gelesen wurden, was die Zuverlässigkeit der Textbasis und damit auch der Ergebnisse erhöht. 3. Vom Korpus zur Häufigkeitsliste Über mehrere Zwischenschritte entstand nach der Zusammenstellung des Korpus die dem Häufigkeitswörterbuch zugrundeliegende Wortliste. Zunächst wurden alle Texte mithilfe einer Taggingsoftware annotiert. Es wurde dabei Der Stuttgart Tree-Tagger (Schmid 1995) mit dem Stuttgart-Tübingen Tag-Set (STTS) benutzt. Durch diese Annotation wurde jeder Wortform in den Texten eine Wortart zugeordnet, was die spätere Lemmatisierung erheblich erleichterte. Der automatische Tagger kann allerdings nicht alle Wortformen zweifelsfrei einer Wortart zuordnen, so dass später einige Wortformen noch manuell disambiguiert werden mussten. Dem Tagging folgte die Erstellung einer ersten Wortliste mit dem Programm WordSmith Tools (Scott 1999). Sie zeigt die im Korpus vorkommenden Wortformen mit dem zugeordneten Wortart-Tag und ihrer absoluten Häufigkeit im Korpus in der Reihenfolge ihrer Häufigkeit. 1 DIE[ARTI 119 126 2 UND[KONJ 119 100 3 DER[ARTI 113 709 4 IN[APPR 70 216 5 ICH[PPER 46 937 6 DEN[ARTI 44 923 7 IST[AVER 42 962 8 SIE[PPER 42 932 9 NICHT[PTNG 40 251 10 MIT[APPR 36 714 Diese erste Liste der nach Häufigkeit geordneten Wortformen wurde nun weiter bearbeitet, um zu einer Liste der häufigsten Wörter zu kommen. Dazu wurden Wortformen, die zu einem Lemma gehören, zusammengefasst, also lemmatisiert. <?page no="106"?> 106 (Meta-)Lexikographie Alle Flexionsformen des Personalpronomens ich wurden im Lemma ich zusammengefasst, ebenso alle Flexionsformen des Verbs sein zum Lemma sein. An diesem Beispiel lässt sich die Bedeutung der Wortartbestimmung verdeutlichen: Die Wortform sein kann nicht nur als eine Form des Verbs sein in Texten vorkommen, sondern ebenfalls als Possessivpronomen (sein Buch). Aufgrund der Wortart-Tags war hier eine eindeutige Zuordnung leicht möglich. Die Verbform SEIN[VAINF wurde vom Tagger zuverlässig von der Form des Possessivpronomens SEIN[PPOSAT unterschieden. Schwieriger war es, wenn der Tagger keine eindeutige Wortartzuordnung vornehmen konnte. In diesem Fall war der Tag mit einem Asterisk markiert. Solche Wortformen wurden während der Lemmatisierung per Hand disambiguiert, indem sie Satz für Satz bestimmt wurden und so mit hoher Präzision dem passenden Lemma zugeordnet werden konnten. Ähnlich akribisch wurde bei der Zuordnung abgetrennter Präfixe von trennbaren Verben vorgegangen. Ab und zu musste auch entschieden werden, ob tatsächlich alle Flexionsformen in einem einzigen Lemma zusammengefasst werden sollten. In der Phrase für den gezielten Muskelaufbau findet sich das adjektivisch gebrauchte Partizip gezielt. Die Herkunft vom Verb zielen ist leicht erkennbar, doch wurden solche Partizipien mit ihren Deklinationsformen als eigene Lemmata getrennt vom Infinitiv erfasst, wenn sie mehr als 20% der verbalen Flexionsformen stellten und als eigener Eintrag eine Frequenz im Korpus von mindestens 16 pro Million erreichten (Untergrenze für die Aufnahme ins Wörterbuch). So erklärt sich, dass das Verb zielen auf Rang 3 821 im Wörterbuch gelistet ist, das Partizip gezielt aber schon auf Rang 2 187. 4. Von der Häufigkeitsliste zum Häufigkeitswörterbuch Der erste und umfassendste Teil des Häufigkeitswörterbuchs besteht aus einer Liste der 4 034 häufigsten Wörter des Deutschen in der Rangfolge ihrer Häufigkeit, ergänzt um weitere Informationen. Ein Eintrag setzt sich aus folgenden Teilen zusammen: - Häufigkeitsrang, - Grundform, - Wortart, - englische Übersetzung, - Beispielsatz, <?page no="107"?> 107 Das Häufigkeitswörterbuch der deutschen Gegenwartssprache - Häufigkeit pro Million Wörter (relative Häufigkeit), - Information zur Streubreite in den Subkorpora (nicht bei allen Einträgen), - Mehrworteinheiten mit dem Grundwort oder dominante Wortformen. 1037 russisch 1 adj Russian ¶ Die russische Sprache hat sechs Fälle. 2 Russisch das Russian ¶ Sein Russisch konnte er während eines Auslandsaufenthaltes in Moskau verbessern. 83 Das als Beispiel ausgewählte Adjektiv russisch ist das 1 037. Wort in der Häufigkeitsliste. Die englische Übersetzung ist ‘russian’, und es gibt einen Beispielsatz für die adjektivische Verwendung als Attribut. Da es häufig in der substantivierten Form auftritt, ist diese dominante Wortform mit einem eigenen Beispielsatz aufgeführt. Die Wortart ‘Substantiv’ wird hier durch den bestimmten Artikel angezeigt, der zugleich das Genus bestimmt. Ganz unten findet sich die relative Häufigkeit: Alle Flexionsformen von russisch zusammen haben im Korpus eine relative Häufigkeit von 83 Vorkommen pro Million laufender Wörter. Da dieses Wort relativ gleichmäßig verteilt in allen fünf Subkorpora vorkommt, gibt es keine Information zur Streubreite. Ist ein Wort jedoch sehr häufig bzw. sehr selten in einem Subkorpus vertreten, wird diese Tatsache in der untersten Zeile vermerkt, beispielsweise mit einem -L für „im Subkorpus der literarischen Texte unterrepräsentiert“ oder +A für „besonders häufig im Subkorpus der akademischen Texte“. Zusätzlich finden sich im ersten Teil zahlreiche Infokästen zu speziellen Themen, beispielsweise zu den Flexionsformen des Verbs sein mit ihren einzelnen Häufigkeiten oder zu Farbadjektiven. Diese Infokästen sind immer dort angeordnet, wo das häufigste der genannten Wörter in der Liste auftaucht. Bei den Farben ist es rot (Rang 381). Im Anschluss an die Häufigkeitsliste finden sich weitere Listen im Buch, die für unterschiedliche Interessen den Zugang erleichtern: <?page no="108"?> 108 (Meta-)Lexikographie In einer alphabetischen Liste finden sich die Wörter der Frequenzliste mit Angabe der Wortart, der englischen Übersetzung und dem Rang, unter dem man das Wort in der Frequenzliste findet. Wer sich über die häufigsten Wörter bestimmter Wortarten informieren möchte, um beispielsweise die häufigsten deutschen Verben zu lernen, wird bei den Listen der häufigsten 100 Substantive, Verben, Adjektive und Adverbien fündig. Drei weitere Listen beinhalten alle Präpositionen, Konjunktionen und Abkürzungen, die sich unter den häufigsten 4 000 Wörtern finden. Auch für die häufigsten 100 Eigennamen, die häufigsten 100 unregelmäßigen Verben, die Hilfs- und Modalverben sowie häufige Kollokationen gibt es extra Listen im Buch. 5. Schlusswort Das Häufigkeitswörterbuch ist in korpusgeleiteter Arbeit entstanden. Ausschlaggebend für die Aufnahme eines Wortes ins Wörterverzeichnis war allein die Häufigkeit seines Auftretens. Allerdings ist offensichtlich, dass auch bei so einem korpusgeleiteten Vorgehen nicht auf linguistische Theorie im Hintergrund verzichtet werden kann, oder wie es Wolf (2010, S. 20) in Anlehnung an Bubenhofer so schön formuliert: „Ich halte es weder für sinnvoll noch für sinnvoll, ‘theorielos die Daten zu analysieren’.“ Bereits bei der Zusammenstellung des Korpus war nicht nur korpuslinguistische Theorie gefordert, um eine möglichst große Ausgewogenheit der Subkorpora zu erreichen. Es war auch textlinguistisches Wissen erforderlich, um innerhalb der Subkorpora ausreichend Rücksicht auf eine möglichst große Vielfalt verschiedener Textsorten, Genre und Register zu nehmen. Bei der anschließenden Analyse der Daten wurde mit der Tagging-Software auf morphologisch-syntaktische Theorien zurückgegriffen, die dann im Zuge der Lemmatisierung noch einmal an Bedeutung gewannen. Ohne diese qualitativen Verfahren wäre eine sinnvolle quantitative Analyse der Daten nicht möglich gewesen. Sie waren jedoch nur Mittel zum Zweck, um aus den Daten zuverlässige Ergebnisse zu erhalten, exhaustiv und ohne Vorannahmen. Dieses korpusgeleitete Vorgehen, das in einem ersten Schritt zum Häufigkeitswörterbuch führte, zieht inzwischen weitere Neuerungen, besonders im Fach Deutsch als Fremdsprache, nach sich. 3 Ausgehend vom Häufigkeitswörter- 3 Mindt (2010, S. 61f.) weist ausdrücklich auf das Innovationspotenzial des korpusgeleiteten Ansatzes hin. <?page no="109"?> 109 Das Häufigkeitswörterbuch der deutschen Gegenwartssprache buch wurde ein neuer Grund- und Aufbauwortschatz entwickelt (Tschirner 2008), der sich ganz erheblich von nicht empirisch erstellten Wortschatzlisten unterscheidet. Sprachlerner haben bei der Nutzung häufigkeitsbasierter Wortlisten den Vorteil, dass sie schneller und mit weniger Lernaufwand Texte verstehen können, weil durch die Kenntnis der häufigen Wörter schneller ein höherer Grad an Textdeckung und damit Textverständnis erreicht werden kann. Und welcher Fremdsprachenlerner würde sich das nicht wünschen, schnell und effektiv zum Verständnis der fremden Sprache zu kommen? Literatur Goldhahn, Agnes (2010): Wissenschaftstexte kontrastiv: Korpusdesign. In: Kratochvílová/ Wolf (Hg.), S. 229-234. Jones, Randall L./ Tschirner, Erwin (2006): Frequency dictionary of German. Core vocabulary for learners. London. Kratochvílová, Iva/ Wolf, Norbert Richard (2010): Statt eines Vorworts: Ansätze zu einer sprachwissenschaftlichen Quellenkunde. In: Kratochvílová/ Wolf (Hg.), S. 9-15. Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.) (2010): Kompendium Korpuslinguistik. Heidelberg. Mindt, Ilka (2010): Methoden der Korpuslinguistik. Der korpus-basierte und der korpus-geleitete Ansatz. In: Kratochvílová/ Wolf (Hg.), S. 53-65. Schmid, Helmut (1995): Improvements in Part-of-speech Tagging with an Application to German. In: Proceedings of the ACL SIGDAT-Workshop. Dublin. Scott, Michael (1999): WordSmith Tools version 3. Oxford. Tschirner, Erwin (2008): Grund- und Aufbauwortschatz Deutsch als Fremdsprache nach Themen. Berlin. Wolf, Norbert Richard (2010): Korpora in der Korpuslinguistik. In: Kratochvílová/ Wolf (Hg.), S. 17-25. <?page no="111"?> Ilka Mindt Gesprochene Korpora des Englischen und ihre Anwendung in der Grammatikforschung 1. Einleitung Dieser Beitrag beschäftigt sich mit einigen Aspekten der Quellenkunde von gesprochenen Korpora des Englischen, welche im zweiten Abschnitt genauer betrachtet werden. Die Unterteilung in primäre und sekundäre Quellen, die Klosa (i.d.Bd.) für die Lexikographie darstellt, wird in diesem Aufsatz auf gesprochene Daten angewandt. Das Ziel der im dritten Kapitel beschriebenen Fallstudie ist es, die Möglichkeiten darzustellen, welche sich durch die Analyse der gesprochenen Sprache für die Grammatikforschung ergeben. Die Fallstudie bezieht sich auf Daten aus einem ausgewählten Korpus des gesprochenen Englisch. Nach einer kurzen Zusammenfassung wird im fünften Abschnitt dargelegt, wieso für diese Fallstudie das Vorliegen bestimmter Datenquellen unentbehrlich ist. 2. Gesprochene Korpora des Englischen als Quellen Für das Englische gibt es eine Vielzahl von Korpora der gesprochenen Sprache. Zusammenstellungen von vorhandenen Korpora finden sich z.B. in TalkBank (URL 1) oder auch in der Corpus Resource Database (CoRD) (URL 2), die eine Datenbank von vorhandenen Korpora ist. Dort ergibt eine Suchanfrage im Januar 2012, dass zwölf Korpora des gesprochenen Englisch in der Datenbank geführt werden. Bei der Verwendung der Korpora für die linguistische Analyse sind drei Aspekte besonders wichtig: Erstens kommt es darauf an, ob die Primärquelle vorhanden und für den Forschenden abrufbar ist. Zweitens ist der Kompilationszweck des Korpus zu beachten und drittens ist die Qualität der Primärquelle wichtig. Bei Forschungen über die gesprochene Sprache ist es unabdingbar, dass die primäre Quelle der Daten - also die gesprochene Sprache - zur Verfügung steht. Insgesamt bieten sieben dieser zwölf Korpora die Möglichkeit, die primäre Quelle anzuhören. Die anderen fünf Korpora enthalten Transkripte der gesprochenen Sprache. Bei Verwendung dieser Quelle für Forschungsarbeiten muss unbedingt beachtet werden, nach welchen Kriterien die Transkription erfolgte, welche Informationen in welcher Detailtiefe wie kodiert sind und <?page no="112"?> 112 Gesprochene Sprache wer bzw. wie viele Transkriptoren am Verschriftlichungsprozess beteiligt waren. Da es sich bei der Untersuchung eines transkribierten Textes immer um eine sekundäre Quelle (vgl. Klosa i.d.Bd.) handelt, ist bei der Auswertung der Daten aus der sekundären Quelle zu beachten, dass eine solche unter Vorbehalt steht. Nur eine Untersuchung der Primärquelle gewährleistet methodisch und wissenschaftlich eindeutige Forschungsergebnisse. Gründe dafür, dass die primäre Quelle nicht zur Verfügung steht, gibt es viele. Rechtliche Argumente des Copyright stellen dabei meist die größte Hürde dar. Korpora als Quelle müssen auch unter dem Gesichtspunkt des Kompilationszwecks betrachtet werden. Dieser ursprüngliche Zweck der Korpuserstellung bedingt häufig methodische und datenspezifische Entscheidungen, die für die angestrebte Untersuchung unbedingt beachtet werden müssen. Drei Beispiele werden im Folgenden erläutert. Das Korpus English as a Lingua Franca in Academic Settings (ELFA) enthält sowohl gesprochene als auch transkribierte Texte von Sprechern, die nicht das Englische als Muttersprache haben. Ein solches Korpus ist in erster Linie nicht für die Untersuchung von muttersprachlichem authentischem Englisch geeignet. Erst ein Vergleich von englischen Muttersprachlern mit den Sprechern im Korpus kann konstatieren, in welchen Bereichen Gemeinsamkeiten und Unterschiede vorhanden sind. Das Korpus Scottish Corpus of Texts & Speech (SCOTS) beinhaltet u.a. gesprochene Daten von schottischen Sprechern. Bei einer Nutzung dieser Daten ist immer zu beachten, dass die Varietät - also das schottische Englisch - eine Einschränkung der Nutzung der Daten haben kann. Wenn allerdings eine Untersuchung des schottischen Englisch gewünscht ist, so sind die hier vorhandenen Daten wahrscheinlich die besten ihrer Art. Das Korpus Michigan Corpus of Spoken Academic Spoken English (MICA- SE) (Simpson et al. 2002) enthält unterschiedliche sprachliche Äußerungsformen, wie sie im akademischen Bereich zu finden sind. Sie reichen von informellen Gesprächen zwischen Studenten über Unterhaltungen in Sprechstunden bis hin zu Vorträgen mit anschließender Diskussion. Auch hier gilt, dass nicht nur für das gesamte Korpus als Quelle sondern auch für jedes einzelne Sprechereignis vor einer Verwendung erörtert werden muss, ob die Quelle für den Untersuchungszweck adäquat ist. Die Daten wurden im Zeitraum von 1997 bis 2001 gesammelt. Auf das gesamte Korpus kann über das Internet zugegriffen werden. Allerdings bezieht sich diese Suchanfrage auf die transkribierten Daten, also auf sekundäre Quellen. Die primären Quellen, <?page no="113"?> 113 Gesprochene Korpora des Englischen und ihre Anwendung die gesprochenen Daten, können teilweise durch zu erwerbende DVDs abgerufen werden, teilweise stehen sie auch über das Internet (URL 3) zur Verfügung. Leider sind, vermutlich aus Copyright-Gründen, nicht alle Primärquellen für den Nutzer anhörbar. Ein häufig anzutreffendes Problem bei gesprochenen Daten ist die Qualität der Aufnahme. In MICASE kommt es teilweise vor, dass die Aufnahmequalität durch Hintergrundgeräusche oder die ungünstige Position des Mikrofons so schlecht ist, dass eine genaue auditive bzw. akustische Analyse der primären Datenquelle unmöglich ist. 3. Gesprochene Korpora in der Grammatikforschung In der im Folgenden dargestellten Untersuchung geht es um die Frage, inwiefern die gesprochene Sprache für die Grammatikforschung angewendet werden kann. Dieser Forschungsbereich ist bisher weitgehend unbeachtet geblieben. Dies ist umso bedauerlicher, als Veränderungen zuerst in der gesprochenen Sprache auftreten und einen immensen Einfluss auf die Sprache, nicht zuletzt die Grammatik, haben können. Die Kodierung der gesprochenen Sprache in schriftlicher Form gibt in der Regel erst viel später Änderungstendenzen wieder. Die Annahme bei dieser Untersuchung ist die, dass Unterschiede in der Funktion durch phonetische Merkmale gekennzeichnet sind. In dieser Untersuchung liegt der Fokus auf einem exemplarisch ausgewählten Bereich, nämlich der englischen Verbphrase. Es werden Verbphrasen wie in (1) untersucht, in denen das Verb COME in allen seinen Flexionsformen 1 von der Form to und einem weiteren Verb gefolgt wird. Letzteres steht im Infinitiv. (1) the authorities come to question him (MICASE LEL140SU074) 2 Für die Untersuchung wurde das bereits unter 2. vorgestellte Korpus MICASE verwendet. Die Suche im gesamten MICASE ergab 84 Vorkommen dieser Konstruktion. Als Primärquelle - und damit ausschließlich für die Untersuchung von Interesse - liegen 36 Fälle vor. Bei allen anderen Fällen gab es keine Audiodatei zu den transkribierten Daten. Vier der 36 Fälle können aufgrund der schlechten Tonqualität nicht untersucht werden. Es bleiben 32 Fälle für die Untersuchung. Davon sind wiederum fünf Fälle vorhanden, in denen sich 1 Wenn auf Verben und deren mögliche Flexionsformen verwiesen wird, so wird das im Folgenden durch das Verb in der Grundform dargestellt, die in Kapitälchen gesetzt ist. 2 Die gegebene Abfolge von Buchstaben und Ziffern gibt den Dateinamen laut MICASE wieder. <?page no="114"?> 114 Gesprochene Sprache Nicht-Muttersprachler äußern. Diese Fälle werden ebenfalls nicht in die Untersuchung mit einbezogen. Aus methodischen Gründen sollen nur Äußerungen von Muttersprachlern des Englischen herangezogen werden. Somit können 27 Fälle untersucht werden. Die akustische Analyse wurde mithilfe der Software PRAAT (Boersma/ Weenink URL 4) durchgeführt. Bei der Analyse der 27 Datensätze kommen Fälle wie in (2) und (3) vor. (2) he's no good he's only fit to be a scholar or a priest. uh so, they turn him in, and the authorities come to question him and he tells them, what he knows and they say okay we'll go search the mansion. (LEL140SU074) (3) Mei Lanfang who was influenced by what he saw in Shanghai once said when women first started going to see plays they were naturally rather unsophisticated or waihang, and what they came to see was spectacle, renao. (COL140MX114) Sowohl in (2) als auch in (3) liegt eine Form von COME (come in (2) und came in (3)) vor, der to und ein weiteres Verb (question in (2) und see in (3)) folgt. Wie aus Abbildung 1 zu erkennen ist, ist das formale Muster - also COME + to + Verb - in beiden Beispielen identisch. Allerdings haben die Verbphrasen in (2) und (3) nicht die gleiche Funktion. In (2) liegen zwei Vollverben und damit zwei eigenständige Verbphrasen vor. Das Wort to muss als Konjunktion angesehen werden. Es hat eine vergleichbare Funktion wie die Konjunktion in order to, die einen Zweck ausdrückt. Eine andere semantische Analyse von (2) wäre, der Konjunktion to eine additive Bedeutung zuzuschreiben, die mit der Konjunktion and vergleichbar ist. Somit werden die beiden Vollverben come und question durch die Konjunktion to verbunden. Diese Funktion wird im Folgenden als ZWECK/ ADDITIV bezeichnet. Es kommen zehn Fälle dieser Funktion in den untersuchten Daten vor. Abb. 1: Form und Funktion <?page no="115"?> 115 Gesprochene Korpora des Englischen und ihre Anwendung In (3) ist das Wort to als so genannter infinitive marker zu bezeichnen. Anstatt von zwei Verbphrasen muss hier von einer Verbphrase im Englischen gesprochen werden. Dem Verb came, welches in diesem Fall als katenatives Verb bezeichnet werden muss (vgl. Mindt 2000, S. 289 oder Quirk et al. 1985, S. 146f.), folgt der to-infinitive marker und das sich anschließende infinite Vollverb see. Das Verb COME hat in diesem Beispiel eine delexikalisierte Bedeutung, da nicht mehr die Aktivität des tatsächlichen Ankommens im Vordergrund steht. Stattdessen ist damit die Funktion verbunden, die einen Anfang oder den Beginn einer Situation aufzeigt, der oder die durch das Vollverb ausgedrückt wird. Diese Funktion wird im Folgenden als KATENATIVE VP bezeichnet. In den untersuchten Fällen kommen 17 Fälle von KATENATIVER VP vor. Aufbauend auf diesen semantisch-syntaktischen Beobachtungen sollen nun alle 27 Fälle untersucht werden. Dabei werden alle drei Elemente - COME , to und das Vollverb - anhand von verschiedenen akustischen Parametern betrachtet. COME . Im ersten Verb, COME , wird zum einen die Länge des Wortes gemessen, zum anderen die Länge des betonten Vokals im Verb. Die Annahme dabei ist, dass Sprecher durch die Segmentierung in der gesprochenen Sprache (vgl. Wells 2006) anzeigen, ob diese Konstruktion eher die Funktion des Zwecks bzw. der Addition erfüllt, oder aber ob es sich um das katenative Verb COME , gefolgt von to und dem Infinitiv, handelt. Zu vermuten ist, dass das Verb COME und damit auch der betonte Vokal eine längere Dauer in der Funktion ZWECK/ ADDITIV hat und eine kürzere Dauer in der Funktion KATENATIVE VP . Der Mittelwert aller zehn Vorkommen von COME in der Funktion ZWECK/ ADDITIV liegt bei 0,3 Sekunden, während der Mittelwert der Dauer von COME in der KATENATIVEN VP bei 0,26 Sekunden liegt. Der Mittelwert der Länge des betonten Vokals liegt in der Funktion ZWECK/ ADDITIV bei 0,14 Sekunden, bei der KATENATIVEN VP bei 0,11 Sekunden. Die Messungen der Länge bestätigen also die Annahme, dass das Vollverb eine leicht längere Dauer hat als das katenative Verb. Es muss hierbei beachtet werden, dass der betonte Vokal im Englischen im Präsens sowie im past participle bei come ein Monophthong ist, während die past tense Form einen Diphthong enthält. Es kann vermutet werden, dass der Diphthong an sich schon eine längere Dauer hat. Anzumerken ist, dass in der Funktion ZWECK/ ADDITIV sieben Vorkommen des Monophthongs / / drei Vorkommen des Diphthongs / / gegenüberstehen, während bei der KATENATIVE VP zwölf Vorkommen des Monophthongs und fünf Diphthonge vorliegen. Die höhere Anzahl von Diphthongen bei der Funktion KATENATIVE VP hätte erwarten lassen können, dass sich dies sowohl bei der Länge des Wortes COME als auch bei der Länge des Vokals findet. Das Gegenteil ist allerdings der Fall. <?page no="116"?> 116 Gesprochene Sprache To. Das Wort to wird ebenfalls in Bezug auf die Länge des Vokals untersucht. Darüber hinaus erfolgt eine Analyse der Vokalqualität. To kann als Konjunktion oder als infinitive marker vorkommen. In beiden Fällen ist es ein Funktionswort und gehört zur Gruppe von Wörtern, die sowohl in einer sogenannten strong form als auch in einer sogenannten weak form vorkommen. Bei der strong form liegt eine volle Vokalqualität vor, die in diesem Fall mit dem Phonem / / ausgedrückt wird. Die reduzierte Vokalqualität kennzeichnet die weak form " " ^ " - · " ² ³ ° > ` (zur Umschrift siehe Wells 2008). Der Schwa-Laut ist dann zu erwarten, wenn das folgende Wort mit einem Konsonanten beginnt, während das unbetonte [u], welches (noch) keinen Phonemstatus im Englischen hat, vor einem Vokal erwartet wird. In den Fällen mit der Funktion ZWECK/ ADDITIV kommen neun Verben vor, die mit einem Konsonanten beginnen, während ein Verb einen Vokal als ersten Laut hat. Bei der Funktion KATENATIVE VP folgt dem toinfinitive marker in zwei Fällen ein Vokal und in 15 beginnt das Hauptverb mit einem Konsonanten. Die Hypothese hierbei ist, dass der Vokal in to bei der Funktion ZWECK/ AD- DITIV eine Vokalqualität aufweist, die ähnlich dem / / und somit auch länger ist. Es wird vermutet, dass die Funktion als Konjunktion auch akustisch-artikulatorisch gekennzeichnet ist. Demgegenüber ist zu erwarten, dass der toinfinitive marker mit deutlich reduzierter Vokalqualität und entsprechend kürzerer Dauer ausgesprochen wird. Was die Länge des Vokals angeht, so bestätigen die akustischen Messungen die Hypothese. Der Vokal in to ist im Mittelwert bei der Funktion ZWECK/ ADDITIV 0,24 Sekunden lang, während die Länge des Vokals in der KATENA- TIVEN VP mit 0,13 Sekunden im Mittelwert deutlich kürzer ist. Die Vokalqualität wurde durch Formantenmessungen erstellt. Dafür wurde der Vokal in PRAAT annotiert. Die Messwerte der Formanten stammen aus den Mittelwertangaben des ersten und zweiten Formanten für jeden Sprecher, die PRAAT liefert. Diese Mittelwerte der Formanten wurden wiederum für beide Funktionen gemittelt. Es muss hinzugefügt werden, dass weder Unterschiede in Bezug auf das Geschlecht der Sprecher einbezogen wurden noch eine vorherige Normalisierung der Formanten erfolgte. Dieses methodische Vorgehen kann zu Verschiebungen der Ergebnisse führen. Bei der Funktion ZWECK/ ADDITIV beträgt der Mittelwert der Messungen des ersten Formanten 464 Hz, der Mittelwert des zweiten Formanten liegt bei 1 957 Hz. Für die <?page no="117"?> 117 Gesprochene Korpora des Englischen und ihre Anwendung Funktion KATENATIVE VP wurden 428 Hz für den ersten und 1 874 Hz für den zweiten Formanten gemessen. Prinzipiell liegen die Frequenzen für die Formanten sehr nah beieinander. Je niedriger der erste Formant ist, desto höher ist der Vokal. Somit deutet der Mittelwert des ersten Formanten für den Vokal in der Funktion KATENATIVE VP auf eine leicht höhere Vokalqualität hin. Die Differenz zwischen dem zweiten und dem ersten Formanten kann Aufschluss über die Hinterzungigkeit des Vokals geben. Bei vorderzungigen Vokalen ist die Differenz größer als bei hinterzungigen. Die Differenz ist mit 1 446 Hz bei der Funktion KATENATIVE VP leicht niedriger als mit 1 493 Hz bei der Funktion ZWECK/ ADDITIV . In Bezug auf die Ausgangshypothese bedeutet dies, dass die Messungen keinen genauen Unterschied zeigen. Wenn überhaupt, dann widerlegen die Daten die Hypothese, da die Vokalqualität bei der Funktion KATENATIVE VP eher auf ein [u] deutet, während diese bei der Funktion ZWECK/ ADDITIV ` · ¡ @ PITCH. Bei der akustischen Untersuchung wird davon ausgegangen, dass die unterschiedliche Funktion in den beiden Konstruktionen durch andere Intonationsmuster gekennzeichnet ist. Die Hypothese dabei ist, dass bei der Funktion ZWECK/ ADDITIV zwei Verbphrasen vorhanden sind (vgl. hierzu Abb. 1). Jedes Vollverb, also COME sowie das der Konjunktion to folgende Verb, erhält somit einen pitch accent. Ferner wird angenommen, dass der pitch accent beim zweiten Vollverb höher ist, da dieses den Zweck ausdrückt. Bei der Funktion KATENATIVE VP handelt es sich um eine Verbphrase. Somit wird nur ein pitch accent erwartet, der auf dem Vollverb, also dem letzten Verb in der Verbphrase, liegt. Gemessen wurden die von PRAAT angegebenen Mittelwerte der Grundfrequenz (F0), die sich im betonten Vokal zeigen. Dieser Vokal wurde für jedes der beiden Verben ( COME sowie das dem Wort to folgende Verb) manuell abgegrenzt. Bei der Auswertung ist keine Normalisierung zwischen den Sprechern vorgenommen worden. Stattdessen werden die für jeden Sprecher gemessenen Werte hier präsentiert. Für die Funktion ZWECK/ ADDITIV lässt sich das Ergebnis der Messung aus Abbildung 2 ersehen. Sowohl bei der Funktion ZWECK/ ADDITIV als auch bei der KATENATIVE VP zeigt sich keine allgemeine Tendenz, die für alle Sprecher gleichermaßen gilt. Bei einigen Sprechern ist der pitch accent bei COME niedriger als beim Vollverb, bei anderen ist es umgekehrt. Betrachtet man die Mittelwerte der Messungen in Abbildung 3, so ergibt sich ein anderes Bild. <?page no="118"?> 118 Gesprochene Sprache Abb. 2: Pitch Abb. 3: Pitch - Mittelwerte Der gemittelte pitch accent bei der Funktion ZWECK/ ADDITIV liegt auf dem Vollverb COME tiefer als bei dem Vollverb nach der Konjunktion to. In der Funktion KATENATIVE VP ist der pitch accent auf dem katenativen Verb COME höher als auf dem Vollverb. Die Hypothese für die Funktion ZWECK/ ADDITIV hat sich durch die Messungen bestätigt, wohingegen die Hypothese für die Funktion KATENATIVE VP durch die Messungen widerlegt wurde. Gründe für den niedrigeren pitch accent im Vollverb der KATENATIVEN VP gibt es viele. Es können sprecherspezifische Ursachen vorliegen oder auch kontext-gebundene Gründe sein, die hier eine solche Struktur zeigen. Es muss auch in Erwägung gezogen werden, dass die Annahme in der Hypothese falsch ist. Dies würde eine induktive Analyse befürworten, die von den Daten ausgeht und auf der Basis der gemessenen Werte Schlussfolgerungen zulässt. Die hier durchgeführte Untersuchung ist eine deduktive Vorgehensweise, die von der Hypothese ausgeht und diese anhand der Datenlage überprüft. Außerdem ist zu bedenken, dass die Datenmenge ausgesprochen klein ist und somit keine repräsentativen Schlussfolgerungen zulässt. <?page no="119"?> 119 Gesprochene Korpora des Englischen und ihre Anwendung 4. Zusammenfassung Die wichtigsten Ergebnisse der Fallstudie sind in Tabelle 1 zusammengefasst. Daraus geht hervor, dass - unabhängig davon, ob die Hypothesen bestätigt wurden oder nicht - Unterschiede der beiden Funktionen in Bezug auf die akustischen Realisierungen vorhanden sind. Die Länge des Verbs COME und auch die Länge des Vokals in COME sind im Mittelwert in der Funktion ZWECK/ ADDITIV länger als in der KATENATIVEN VP . Gleiches gilt für die Länge des Vokals in to. Die Vokalqualität in to ist leicht unterschiedlich. Die Analyse der Grundfrequenz zeigte ebenfalls unterschiedliche Strukturen in Bezug auf die beiden Funktionen. ZWECK/ ADDITIV KATENATIVE VP Länge von COME 0,3 s 0,26 s Vokal in COME 0,14 s 0,11 s Vokal in to 0,24 s 0,13 s Vokalqualität in to ähnlich / / ähnlich [u] pitch accent to V höher to V tiefer Tab. 1: Ergebnisse Weitere Untersuchungen könnten zeigen, ob und inwiefern diese Unterschiede signifikant sind. Wenn dies der Fall ist, so kann in der Tat nachgewiesen werden, dass sich Unterschiede in der Funktion durch die gesprochene Sprache manifestieren, die damit Auswirkungen auf die Strukturierung der Sprache und somit auf ihre Grammatik haben. 5. Ausblick Die hier dargestellte Fallstudie wäre auf der Basis von Sekundärquellen, also von transkribierten Texten, nicht möglich gewesen. Der Zugang zur Primärquelle ist insbesondere für gesprochene Daten unverzichtbar, um detaillierte Untersuchungen zu ermöglichen. In Bezug auf die gesprochene Sprache ist es ein großes Desiderat, dass nicht alle Korpora, die gesprochene Daten enthalten, auch einen Zugang zu den Primärquellen ermöglichen. Ferner fehlt ein Standardkorpus oder Referenzkorpus des gesprochenen Englisch. Die Probleme der unterschiedlichen Anno- <?page no="120"?> 120 Gesprochene Sprache tationspraktiken bei gesprochenen Korpora machen eine Vergleichbarkeit fast unmöglich. Eine Wunschliste zur Korpuszusammensetzung, zu Formaten, Annotationen etc. wäre in diesem Bereich sicherlich sehr lang. Die Untersuchung der gesprochenen Sprache in Bezug auf die Grammatikforschung steckt erst in den Kinderschuhen, wie die hier vorgestellte Fallstudie gezeigt hat. Unbestritten ist, dass die Segmentierung eine grammatische Funktion hat. Es gilt nun herauszufinden, welche akustischen Parameter neben einer semantischen Analyse diese funktionale Segmentierung unterstützen. Die Untersuchung der gesprochenen Sprache ist sehr aufwendig. Automatische Verfahren sind schwer auf die primäre Datenquelle anzuwenden. Die meisten Daten werden in detaillierter und zeitintensiver manueller Analyse gewonnen. Die Fallstudie hat auch gezeigt, dass die Interpretation der Ergebnisse nicht immer leicht ist und auch hier großer Forschungsbedarf besteht. Literatur Quellen/ Korpustexte Simpson, Rita C./ Briggs, Sarah L./ Ovens, Janine/ Swales, John M. (2002): The Michigan Corpus of Academic Spoken English. Ann Arbor, MI. URL 1: http: / / www.talkbank.org (Stand: Oktober 2011). Wissenschaftliche Literatur Klosa, Annette (i.d.Bd.): Primäre, sekundäre und tertiäre Quellen in der Lexikographie. Mindt, Dieter (2000): An empirical grammar of the English verb system. Quirk, Randolph/ Greenbaum, Sidney/ Leech, Geoffrey/ Svartvik, Jan (1985): A comprehensive grammar of the English language. London. URL 2: http: / / www.helsinki.fi/ varieng/ CoRD (Stand: Januar 2012). URL 3: http: / / www.quod.lib.umich.edu/ m/ micase/ (Stand: Oktober 2011). URL 4: Boersma, Paul/ Weenink, David: Praat: doing phonetics by computer. Version 5.1.32. http: / / www.praat.org/ (Stand: Oktober 2011). Wells, John C. (2006): English intonation. An introduction. Cambridge. Wells, John C. (2008): Longman Pronunciation Dictionary. Harlow. <?page no="121"?> Wilfried Schütte Metadaten für Gesprächsdatenbanken: ein Überblick und ihre Verwaltung in der IDS-Datenbank Gesprochenes Deutsch (DGD) Jede Datenbank zu Text-Korpora benötigt Metadaten, ist ohne sie nur eine amorphe Sammlung sprachlicher Daten. Im Folgenden beschäftige ich mich mit Metadaten zu Gesprächsdatenbanken, also zu recherchierbaren Archiven aus Korpora natürlicher mündlicher Interaktion. 1 Was sind Metadaten? Diese ‘Daten über Daten’ sind in erster Linie soziodemografische Daten zu Sprechereignissen und Sprechern. Im Sinne der Korpusverwaltung umfassen sie aber auch Angaben zum Speicherort und -medium von Gesprächsaufnahmen, Angaben zu technischen Aufnahmeparametern, Angaben zur Datenaufbereitung (Transkription) und Zusatzmaterialien. Das können Kommunikationsverläufe, von den Gesprächsteilnehmern benutzte Texte oder andere Medien sein. Zu vielen Feldaufnahmen existieren ethnografische Dokumente, also Memoschreiben, Feldtagebücher und andere Felddokumente wie Fotos oder Publikationen. Wozu werden diese Metadaten benötigt? Um dem Arbeitsprozess in Korpusprojekten zu folgen: Sie dienen zunächst der Verwaltung von Dokumentationsdaten während der Korpuserstellung, sind also Werkzeuge für ein Projektmanagement und ein Steuerungsmittel für die Felderschließung. Später sind sie unabdingbar für die Recherche in Gesprächskorpora und -datenbanken: Metadaten dienen zum einen der Vorauswahl, in welchen Korpora bzw. welchen Transkripten gesucht werden soll. In einem weiteren Sinne haben sie aber auch eine ‘Filter’- Funktion: Aus der Gesamtheit der Aufnahme werden für Rechercheanfragen nur bestimmte ausgewählt. Man kann so auch virtuelle Korpora zu Recherchezwecken bestimmen - z.B. nur Aufnahmen aus Mannheim nehmen und die Verteilung sprachlicher Phänomene in diesen Aufnahmen und Transkripten mit der Verteilung in der Grundgesamtheit vergleichen. Metadaten ermöglichen so eine strukturierte Recherche, also kombinierte Suchanfragen zu Transkriptionstext und soziodemografischen Daten. Eine solche Anfrage könnte z.B. das Vorkommen des Worts aber im Gesprächstyp ‘Talkshow’ betreffen. 2 1 Ich danke Sylvia Dickgießer und Joachim Gasch für wichtige Hinweise hierzu. 2 Merkel/ Schmidt (2009) listen auf, welche Typen von Metadaten in online verfügbaren Korpora gesprochener Sprache erfasst werden und bei welchen dieser Angebote auch in den Metadaten recherchiert werden kann. <?page no="122"?> 122 Gesprochene Sprache Es gibt eine Reihe von Metadatenschemata außerhalb des IDS: - Dublin Core Metadata Initiative, vgl. http: / / dublincore.org/ - Open Language Archives (OLAC), vgl. http: / / www.language-archives.org/ - Text Encoding Initiative (TEI), vgl. http: / / www.tei-c.org/ - MPEG 7, vgl. http: / / www.chiariglione.org/ mpeg/ standards/ mpeg-7/ mpeg-7.htm - ISLE Meta Data Initiative (IMDI), vgl. http: / / www.mpi.nl/ IMDI/ In IMDI werden Metadaten für multimodale Korpora spezifiziert; diese Metadaten werden sowohl zur Katalogisierung als auch zur Information des Nutzers benutzt. Mit dem zugehörigen IMDI-BC-Browser lässt sich eine Hierarchie von Korpora und Subkorpora durchforsten. Die Basisstruktur eines IMDI- Metadaten-Satzes wird von Brugman/ Broeder/ Senft so beschrieben (Brugman/ Broeder/ Senft in URL 1): „- General metadata: Name and Title of the session together with a specification where it was recorded (Location). Information on the Project and the Collector etc. - Content part: information on what the session is about; fine-grained linguistic categorisation system for this. - Participants part: information about the consultants whose linguistic performance is the subject of the session. - Resources part (annotations, media files): information about the format and place of these files.“ Was sind die Vor- und Nachteile dieser konkurrierenden Metadatenschemata? Ich referiere dazu eine vergleichende Bewertung (Trippel/ Baumann in URL 2, S. 21): „Für die Archivierung von Ressourcen sind verschiedene Standards definiert und betrachtet worden: - Dublin Core: kleinster gemeinsamer Nenner von Metadaten [...], wobei der Schwerpunkt auf der Katalogisierung von Ressourcen liegt. - OLAC: DC Erweiterung für mehrsprachige und vor allem auch in anderen Medien vorliegenden Ressourcen. - TEI: Struktur für Metadaten für gedruckte und textuelle Medien [...], wobei weder Mehrsprachigkeit noch andere Medien vorgesehen sind. <?page no="123"?> 123 Metadaten für Gesprächsdatenbanken - IMDI: geeignetster Standard, da er die anderen Standards konzeptuell einschließt und gleichzeitig Probleme mehrsprachiger Ressourcen und verschiedener Medien berücksichtigt. Einzig die fehlenden Datenkategorien auf Annotationsebene stellen ein Problem dar, wobei aber auch in anderen Standards hierfür keine Kategorien bekannt sind.“ Im Institut für Deutsche Sprache ist in den vergangenen Jahren eine neue Version der Datenbank für Gesprochenes Deutsch (DGD 2.0) entwickelt worden. Bei der Frage, welches Metadatenschema dafür verwendet werden solle, ergab sich bei der Prüfung von IMDI eine kritische Einschätzung: Zum einen enthält das IMDI-Schema, um eine Vergleichbarkeit der Daten gewährleisten und zugleich sehr heterogenen Datenbeständen gerecht werden zu können, nur eine relativ kleine Anzahl verbindlicher Informationselemente. Daneben sind in allen Abschnitten optionale ‘description elements’, in denen unstrukturierte Texte abgelegt werden können, sowie optionale ‘keys’ vorgesehen, die es verschiedenen Forschungsgruppen ermöglichen, gruppenspezifische Strukturen in das Schema zu integrieren. Dadurch wird eine große Flexibilität gewährleistet, aber auch eine Beliebigkeit gefördert, die für die Zwecke der DGD 2.0 nicht sinnvoll ist. Zum anderen bezieht sich das Session-Konzept auf ‘linguistic events’ und speichert alle Daten über die sozialen Kontexte (‘circumstances and conditions’) dieser ‘linguistic events’ sowie alle Daten für die an einer ‘Session’ Beteiligten (‘actors’), in einem Schema. Das führt zu Redundanzen in der Datenbasis, wenn mehrere ‘linguistic events’ in einem sozialen Kontext zu beschreiben sind und wenn einzelne Personen an mehreren dieser ‘linguistic events’ beteiligt waren. Ich möchte nun darstellen, wie Metadaten in der DGD 2.0 des IDS erfasst und verwaltet werden, und stütze mich dabei auf Dickgießer/ Gasch (Dickgießer/ Gasch in URL 3). Die Metadatenkomponente beruht auf einem neuen Modell für die Dokumentation von Korpora der gesprochenen Sprache und umfasst 4 (XML-)Schemata. Richtlinien dabei waren: - Unabhängigkeit von spezifischen Forschungsansätzen, - Vermittlung zwischen projektübergreifenden und projektspezifischen Anforderungen, - detaillierte Datenstruktur, - kalkulierte Redundanz, - validierbare Datenerfassung, <?page no="124"?> 124 Gesprochene Sprache - konsistente zentrale Datenspeicherung, - variable benutzerfreundliche Darstellung, - effektives korpusübergreifendes Retrieval, - datenschutz- und datensicherheitsgerechte Benutzerverwaltung. Das Datenmodell für die Dokumentation von Korpora der gesprochenen Sprache sieht vier Bereiche vor, die mithilfe von (XML-)Schemata strukturiert werden: für Ereignisdaten, für ereignisübergreifende allgemeine Sprecherdaten, für Informationen über Zusatzmaterialien auf Korpusebene (z.B. Transkriptionskonventionen oder Texte, die von allen Informanten vorgelesen wurden) und für eine Korpusbeschreibung. Abb. 1: IDS-Datenmodell für die Dokumentation von Korpora der gesprochenen Sprache (Dickgießer/ Gasch 2011, S. 6) Unterschiede zwischen dem IDS-Metadatenschema für die DGD 2.0 und IMDI betreffen zum einen die Unterscheidung zwischen Ereignis und Sprechereignis. Zum anderen werden Sprecherdaten in zwei Bereichen abgelegt: ereignis- und sprechereignisspezifische Sprecherdaten im Sprechereigniskomplex des Bereichs Ereignisdaten, sprechereignis- und ereignisübergreifende Sprecherdaten im separaten Bereich für allgemeine Sprecherdaten. Die Vorteile sind ein geringes Maß an Redundanz in der Datenbasis, wenn mehrere Sprechereignisse pro Ereignis zu dokumentieren sind und Sprecher zu dokumentieren sind, die an mehreren Sprechereignissen beteiligt waren. Bei der Metadatenverwaltung für die Korpora gesprochener Sprache im IDS wird zwischen generischen Schemata und projekt-spezifischen Subschemata <?page no="125"?> 125 Metadaten für Gesprächsdatenbanken unterschieden. Generische Schemata setzen Standards; sie enthalten obligatorische (‘mandatory’) und fakultative Komponenten, Felddefinitionen und Standardwerte; sie bilden so die Grundlage für projektspezifische Subschemata. Projekt-spezifische Subschemata übernehmen alle obligatorischen Komponenten, ergänzen sie durch eine Auswahl fakultativer Komponenten, die für das auswählende Projekt verbindlich werden. Einzelne, in den generischen Schemata vorgegebene Werte können an Projektbedürfnisse angepasst werden, indem projektspezifische Muster spezifiziert werden, mit denen die eingegebenen Werte schon bei der Erfassung verglichen werden, und indem Felder mit projektspezifischen Werten vorbelegt werden, u.a. in Form von Auswahllisten, wobei die Vorgaben verschiedener Projekte koordiniert werden sollten. Abb. 2: Generische Schemata und projektspezifische Subschemata (Dickgießer/ Gasch 2011, S. 6) Zur Unterscheidung zwischen ‘Ereignis’ und ‘Sprechereignis’: Als ‘Ereignis’ wird eine Phase des sozialen Geschehens verstanden, die von Beteiligten bzw. Korpusproduzenten als abgrenzbare Einheit wahrgenommen und aufgezeichnet wird. Beispielsweise gelten im Korpusprojekt Deutsch heute (DH ) mehrstündige Aufnahmesitzungen in Schulen und Volkshochschulen, die von Projektmitarbeitern geleitet wurden, als zu dokumentierende Ereignisse. Das IDS-Korpus Stadtsprache Mannheim enthält u.a. Aufzeichnungen von Treffen sozialer Gruppen in bestimmten Stadtteilen. Jedes dieser Gruppentreffen kann als Ereignis dokumentiert werden. Ein im IDS-Korpus <?page no="126"?> 126 Gesprochene Sprache Biographische und Reiseerzählungen aufgezeichnetes Ereignis wurde folgendermaßen beschrieben: Gemeinsames Kaffeetrinken während einer Seminarpause. Das Treffen zwischen Studentinnen und Dozentinnen wurde organisiert, um Reiseerzählungen aufzuzeichnen. Demgegenüber ist ein ‘Sprechereignis’ der aufgezeichnete kommunikative Gehalt eines Ereignisses bzw. umfasst es Segmente dieses Gehalts. So gilt im Korpusprojekt Deutsch heute jede Aufgabe, die im Rahmen einer mehrstündigen Aufnahmesitzung bearbeitet wurde, als Sprechereignis. Zu diesen Aufgaben gehören u.a. Bildbenennung, Verlesen einer Wortliste, Übersetzung und Interview. Im IDS-Korpus Stadtsprache: Mannheim sind Aufnahmen von Gruppentreffen enthalten, bei denen z.B. Witze erzählt, Klatsch ausgetauscht und gemeinsame Unternehmungen geplant wurden. Solche kommunikativen Sequenzen können als einzelne Sprechereignisse dokumentiert werden. Das IDS-Korpus Elizitierte Konfliktgespräche enthält Aufzeichnungen von Settings, in denen jeweils eine Mutter-Tochter-Dyade zwei Konfliktgespräche führte. Das Thema des ersten Gesprächs wurde von der Mutter eingebracht, das Thema des zweiten von der Tochter. Jedes dieser Gespräche gilt als ein Sprechereignis. Im Datenmodell fungiert ‘Ereignis’ als Startknoten eines generischen (XML-) Schemas für unterschiedliche Angaben - über Aufzeichnungsobjekte (Ereignis, Sprechereignis, Sprecher), über Korpusbestandteile (Audioaufnahmen, Videoaufnahmen, Transkripte, Zusatzmaterialien auf Ereignis- und Sprechereignisebene) und für die Dokumentationsgeschichte. Obligatorische Komponenten sind in allen projektspezifischen Subschemata zu berücksichtigen. Fakultative Komponenten: stehen zur Wahl - wenn sie verwendet werden, müssen alle Kennungsfelder und alle Felder die ein Fragezeichen-Symbol enthalten bearbeitet werden. Eingaben für fehlende Daten in Feldern mit Fragezeichen sind standardisiert. ‘Nicht dokumentiert’ heißt: Es kann ein Datum geben, das bei der Datenerfassung jedoch nicht bekannt ist. ‘Nicht vorhanden’ heißt: Es gibt kein Datum. Einige Komponenten des Schemas sind iterativ, sie können bei der Datenerfassung vervielfältigt werden. Wichtig ist auch eine Dokumentation der Quellaufnahmen. Darunter werden Rohdaten verstanden, als Originalaufnahmen von Ereignissen oder Aufnahmen, die für die dokumentierende Stelle Originalcharakter haben. Dazu gibt es unterschiedliche Typen: Audioaufnahme, Videoaufnahme oder Tonkopie von Videoaufnahmen. Das Feld ‘Schutzbedürftige_Daten’ wird belegt, wenn die Quellaufnahme Daten enthält, die nach dem Willen der Urheber und aus <?page no="127"?> 127 Metadaten für Gesprächsdatenbanken datenschutzrechtlichen Gründen Außenstehenden nicht kenntlich werden dürfen, wie z.B. persönliche Sprecherdaten. Hier wird auch notiert, ob eine vollständige oder eine unvollständige Aufnahme eines Ereignisses dokumentiert wird. Als ‘Zusatzmaterial’ verzeichnet werden Dokumente, die zusätzlich zu Quellaufnahmen vorhanden sein können, z.B. Reiseberichte der Aufnahmeleiter, Protokolle von Aufnahmesitzungen, Fotos von Aufnahmeorten oder Notizen zu einer Sitzordnung. Dieser Komplex ist fakultativ und iterativ (für den Fall, dass mehrere Dokumente zu einem Ereignis zu beschreiben sind). Die Basisdaten eines Sprechereignisses umfassen einen linguistisch unspezifischen Feldnamen ‘Art’, der hier verwendet wird anstelle von Kategorien wie ‘Textsorte’, ‘Texttyp’, ‘Interaktionstyp’, ‘Gesprächstyp’, ‘Diskurstyp’, ‘Genre’, ‘Gattung’, die aus verschiedenen Forschungsansätzen stammen, um Daten aus allen Bereichen aufnehmen zu können. Angaben können hier ‘Erzählung’, ‘Rede’, ‘Anleitung’, ‘Beschreibung’, ‘Benennung’, ‘Übersetzung’, ‘Interview’, ‘Beratung’, ‘Diskussion’, ‘Begrüßung’ etc. sein, evtl. mehrfach. Im nächsten Schritt wird die Anzahl der Sprecher notiert, wobei verbal beteiligte Forscher/ Aufnahmeleiter mitgezählt werden sollten, was man dann im Feld ‘Forscherbeteiligung’ verdeutlichen kann. Dort sind die Werte ‘Verbal beteiligt’, ‘Nicht verbal beteiligt’ und ‘Nicht vorhanden’ (für ‘Forscher nicht anwesend’) vorgesehen. ‘Elizitierung’ ist eine Technik zur Erhebung sprachlicher Daten, bei der die Informanten systematisch zu Äußerungen veranlasst werden. Vorgesehen sind hier die Werte ‘Elizitiert’ und ‘Nicht elizitiert’. ‘Mediale_Realisierung’ steht für den jeweiligen Kommunikationskanal (wie z.B. ‘Face to Face’, ‘Telefon’, ‘Hörfunk’). Für das Feld ‘Öffentlichkeitsgrad’ werden die Werte ‘Öffentlich’ und ‘Nicht öffentlich’ bereitgestellt. Über Instruktionen und ggf. auch über Materialien, die den Sprechern zur Lösung bestimmter Aufgaben vorgelegt wurden, kann man im Feld ‘Vorgaben’ informieren. Die Position eines Sprechereignisses im Ereignis kann relevant sein, wenn Segmente des aufgezeichneten kommunikativen Gehalts eines Ereignisses betrachtet werden. In solchen Fällen kann man hier die Zusammenhänge beschreiben. Eine mögliche Positionsbeschreibung wäre: ‘Beginnt unmittelbar nach der Begrüßung der Beteiligten und endet vor der ersten längeren Pause’. Im Feld ‘Sprachen’ sind die im Sprechereignis verwendeten Sprachen zu verzeichnen. Die Basisdaten zur Transkription und Annotation betreffen u.a. die ‘Spezifikation’ als Charakterisierung der Annotation (Gegenstand, Umschrift, Reichweite), die ‘Konventionen’ (z.B. ‘projektspezifisch’, ‘DIDA, Version vom Januar 2001’, ‘GAT-2’) und das ‘Zeicheninventar’ (z.B. IPA, spezifische Alphabete). Das Alignment von Transkripten betrifft die ‘Text-Ton-Synchronisation’, <?page no="128"?> 128 Gesprochene Sprache also die Koppelung von Aufnahmen und Transkripten auf Phon-, Phonem-, Wort- oder Phrasenbasis. Dabei werden Zeitmarken Transkriptsegmenten zugeordnet. Das kann manuell oder nach einem automatischen Alignment-Verfahren geschehen und wird entsprechend im Feld ‘Verfahren_Instrumente’ notiert, gegebenenfalls unter Angabe der verwendeten Software. Sprecherdaten werden u.a. ereignis- und sprechereignisübergreifend dokumentiert. Dazu dient im Datenmodell (siehe Abb. 1) die Kategorie ‘Sprecher’ als Startknoten eines (XML-)Schemas mit Informationen zu Angaben über den jeweiligen Sprecher (Basisdaten, Ortsdaten, Sprachdaten), über Beziehungen dieses Sprechers zu anderen Sprechern und sonstige Bezugspersonen des Sprechers, über Vereinbarungen zu Datenschutz und Nutzungsrechten und über Zusatzmaterial auf Sprecherebene sowie eine Dokumentationsgeschichte. Wichtig ist dabei die Rechteverwaltung: Welche rechtlichen Aspekte der Datenerhebung sowie rechtsrelevante Vereinbarungen mit Sprechern und ggf. auch Bezugspersonen über Schutz und Verwendung ihrer Daten sind für die Speicherung und Weiterverarbeitung der Daten zu beachten? Aus welchen Quellen stammen die erhobenen personenbezogenen Daten? Stammen sie von den Sprechern, aus einer Befragung von Bezugspersonen oder aus einer Auswertung schriftlicher Quellen? Sind nur besondere Arten oder alle personenbezogenen Daten zu schützen? Unter ‘Datenschutzvereinbarungen’ wird notiert, welche Vereinbarungen mit Sprechern und Bezugspersonen über den Schutz der Daten getroffen wurden. Solche Vereinbarungen können vorsehen, dass diese Daten nur im Rahmen des erhebenden Projekts verwendet und danach gelöscht werden oder auf bestimmten Wegen für bestimmte Zwecke an Dritte weitergegeben werden dürfen. Die Zustimmung der Sprecher zu den Aufnahmen ist wesentliche Voraussetzung für die Verwendung von Aufnahmen und Transkripten; daher muss festgehalten werden, ob die Sprecher über den Zweck der Aufnahmen informiert wurden, wenn ja wann. In welcher Form - schriftlich oder (aus welchen Gründen? ) mündlich - haben sie den Aufnahmen zugestimmt? Nutzungsrechte an Korpusbestandteilen betreffen u.a. die wissenschaftliche Auswertung im Daten erhebenden Projekt oder eine Veröffentlichung im Internet. Das generische Schema für die Dokumentation von Zusatzmaterial auf der Korpusebene bezieht sich auf Dokumente, die zusätzlich zu Aufnahmen, Transkripten und Zusatzmaterialien auf Ereignis-, Sprechereignis- und Sprecherebene vorhanden sein können, z.B. Transkriptionskonventionen, Interviewleitfaden, Wortlisten, verschiedene Varianten der Wenkersätze, gegebenenfalls <?page no="129"?> 129 Metadaten für Gesprächsdatenbanken auch Spezifikationen für die Validierung von Korpusdaten und Dokumente, die die Ergebnisse solcher Qualitätsprüfungen enthalten. Das generische Schema für die Korpusbeschreibung soll einen systematischen Überblick über die Erstellung, die Zusammensetzung (‘Aufzeichnungsobjekte’), den Bearbeitungsstand und die Verwaltung eines Korpus ermöglichen. Das ‘Erstellungsprojekt’ ist das Projekt, das ein Korpus aufgebaut hat. ‘Korpusbestandteile’ sind Quellaufnahmen von Ereignissen, sprechereignisspezifische Aufnahmen, Transkripte und Zusatzmaterial auf Ereignis-, Sprechereignis-, Sprecher- und Korpusebene. Für das IDS-Projekt Forschungs- und Lehrkorpus gesprochenes Deutsch (FOLK, http: / / agd.ids-mannheim.de/ folk.shtml ) wurden die Vorgaben des generischen Dokumentationsschemas nach spezifischen Projektbedürfnissen kondensiert und ausgewählt. Bei dieser Dokumentation musste zwischen forschungsethischen Aspekten, insbesondere dem Informantenschutz (Zusicherung von Anonymität und Nicht-Identifizierbarkeit als Einzelperson) und Forschungsinteressen, insbesondere dem dialektologischen Interesse an einer präzisen Dokumentation der Sprachbiografie, abgewogen werden. Der Datenschutz erfordert, dass Metadaten für die gesprächsanalytische Nutzung stärker gefiltert bzw. ausgedünnt werden als etwa für eine dialektologische Nutzung, die präzise Angaben zur Sprachbiografie von Sprechern verlangt. Die Daten in FOLK werden generell so maskiert, dass eine Ermittlung personenbezogener Daten weitestgehend unmöglich wird. Das heißt, Personennamen und Ortsnamen werden in den Audiodaten verrauscht und in den Transkripten durch Pseudonyme ersetzt. Personenbezogene Angaben in den Metadaten für Sprecher und Kommunikationen werden nur so präzise festgehalten, wie es für eine Verwendung der Daten in einem gesprächsanalytischen Kontext notwendig ist. Das heißt insbesondere, dass Geburtsdaten nur auf das Jahr genau, Ortsdaten nur (sprach)regionengenau (z.B. ‘obersächsischer Sprachraum’) festgehalten werden. Zudem ist die FOLK-Dokumentation für die projektinterne Nutzung und für die externe Datenbankrecherche unterschiedlich umfangreich; in der externen Ansicht der Datenbank werden nur Ausschnitte aus den korpusspezifischen Dokumenten angezeigt. <?page no="130"?> 130 Gesprochene Sprache Abb. 3: Metadateneingabe im FOLK-Projekt Das Bildschirmfoto zeigt einen Teil der Erfassung der Sprecherdokumentation. Eingetragen werden u.a. das Pseudonym der Sprecherin, das auch in den Transkriten verwendet wird, und ihr Geschlecht mit einer Ausklappliste. Die Metadaten zu den IDS-Korpora werden u.a. in der Datenbank für Gesprochenes Deutsch (DGD), Version 2.0, publiziert. Für die DGD ist seit Februar 2012 eine Testversion online unter http: / / dgd.ids-mannheim.de verfügbar. Sie enthält detaillierte Beschreibungen der Korpora (Korpusmetadaten) unter ‘Korpora > Korpusbeschreibungen’. Man kann in den Ereignis- oder Sprecherdokumentationen, Transkripten und Zusatzmaterialien browsen und Ereignis- oder Sprecherdokumentationen sowie Transkripte über die entsprechenden Unterpunkte im Menü ‘Recherche > Volltext’ durchsuchen. Als Beispiel für eine DGD-Korpusbeschreibung zeigt dieses Bildschirmfoto den Anfang der Beschreibung zum Korpus FOLK in der Kompakt-Ansicht. <?page no="131"?> 131 Metadaten für Gesprächsdatenbanken Abb. 4: DGD-Korpusbeschreibung Abb. 5: DGD-Ereignisdokumentation <?page no="132"?> 132 Gesprochene Sprache Als Beispiel für eine DGD-Ereignisdokumentation zeigt dieses Bildschirmfoto die Metadaten zu einem Prüfungsgespräch in der Hochschule (Kennung ‘FOLK_E_00003’), wiederum in der Kompakt-Ansicht. Für die Volltext-Suche in Metadaten und Transkripten stehen einige Suchoptionen und -Operatoren zur Verfügung. Einfache Suchoperatoren sind ‘Wildcards’, ‘ AND ’, ‘ OR ’ und ‘ NOT ’. Komplexe Suchoperatoren sind: - ‘ FUZZY ’ für eine Erweiterung der Suche um ähnlich geschriebene Wörter (womit auch Belege mit Tippfehlern erfasst können), - ‘ NEAR ’ für eine Wortabstandssuche, - ‘ SOUNDEX ’ (experimentell) nach ähnlich ausgesprochenen Wörtern, - ‘ STEM ’, der Abfrageergebnisse mit den gleichen linguistischen Wurzeln wie der Suchausdruck liefert (Lemma-Suche), und - ‘ THRESHOLD ’ für eine Suche nach Dokumenten, in denen die Gesamtzahl der Vorkommen des Suchausdrucks einen angegebenen Schwellenwert überschreitet. Abb. 6: Suche in Sprecherdokumentationen Dieses Bildschirmfoto zeigt beispielhaft für die Verwendung des AND -Operators das Ergebnis einer Suche nach Sprecherinnen in Mannheim (‘Mannheim&Weiblich’) in den 8 457 Sprecherdokumentationen aller derzeit verfügbaren Korpora. Der Suchausdruck wurde in 16 Dokumenten gefunden. <?page no="133"?> 133 Metadaten für Gesprächsdatenbanken Abb. 7: FUZZY -Suche in Ereignisdokumentationen Abschließend zeigt dieses Bildschirmfoto eine Recherche mit dem komplexen FUZZY -Operator nach ähnlich bzw. abweichend geschriebenen Wörtern mit dem hier bewusst vorgenommenen Rechtschreibfehler Söst ( FUZZY (Söst)) statt der korrekten Schreibweise Soest für die westfälische Stadt. Dieses Mal wurde nur in ausgewählten Korpora gesucht, der Suchausdruck wurde in 13 Dokumenten gefunden, beispielsweise im Ereignis ZW--_E_02987 aus dem Zwirner- Korpus, dort in der Angabe des Kreises orthografisch richtig notiert: Abb. 8: Treffer für die Suche in Ereignisdokumentationen <?page no="134"?> 134 Gesprochene Sprache Die DGD 2.0 soll in den nächsten Jahren ausgebaut werden, so dass auch eine strukturierte Recherche in den Transkripten in Verbindung mit einer Vorauswahl anhand der Ereignis- und Sprecherdokumentationen möglich sein wird. Literatur Merkel, Silke/ Schmidt, Thomas (2009): Korpora gesprochener Sprache im Netz - eine Umschau. In: Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion 10, S. 70-93. http: / / www.gespraechsforschung-ozs.de/ heft2009/ px-merkel.pdf (Stand: Juli 2013). URL 1: Brugman, Hennie/ Broeder, Daan/ Senft, Gunter (2003): Documentation of languages and archiving of language data at the Max Planck Institute for Psycholinguistics in Nijmegen. Paper presented at the „Ringvorlesung Bedrohte Sprachen“. Sprachenwert - Dokumentation - Revitalisierung. Fakultät für Linguistik und Literaturwissenschaft Universität Bielefeld (05.02.2003). http: / www.mpi.nl/ IMDI/ documents/ articles/ BI-EL-PaperA2.pdf (Stand: Juli 2013). URL 2: Trippel, Thorsten/ Baumann, Tanja (2003): Metadaten für Multimodale Korpora: Verwendung im Modelex-Projekt. Technisches Dokument 4, Universität Bielefeld (November 2003). http: / / www.spectrum.uni-bielefeld.de/ modelex/ publication/ techdoc/ modelex_techrep4/ metadata_techdoc_rev2.0.pdf (Stand: Juli 2013). URL 3: Dickgießer, Sylvia unter Mitarbeit von Gasch, Joachim (2011): Metadatenschema in der Datenbank für Gesprochenes Deutsch (DGD 2.0) (01.07.2011). http: / / agd.ids-mannheim.de/ pdf/ metadatenschemata_DGD_2.0_2011-07-01.pdf (Stand: März 2012). <?page no="135"?> Johannes Schwitalla Tonband und Videokamera als Erkenntnisinstrumente zur Untersuchung mündlicher Kommunikation 1. Mikroskop und Tonbandgerät Im Jahr 1655 erschien in Den Haag ein kleines Büchlein mit dem Titel De Vero Telescopii Inventore. Sein Autor, Pierre Borel, teilte darin mit, dass die niederländischen Brillenmacher Hans und Zacharias Jansen die Erfinder eines aus zwei Linsen zusammengesetzten Instrumentes seien, mit dem man kleine Dinge vergrößert betrachten könne. Solche Geräte lagen schon längere Zeit als Kuriositäten in den Schaukästen der Optiker und wurden allenfalls als Spielzeug betrachtet. Erst 10 bis 17 Jahre später präsentierten nicht weniger als sieben Gelehrte in der Royal Society in London das Mikroskop einem staunenden Publikum. Der erste von ihnen war Robert Hooke, dessen Abhandlung Micrographia 1665 erschien. Das Tonbandgerät hat in seiner Eigenschaft als Entdeckungsinstrument einige Gemeinsamkeiten mit dem Mikroskop. Erstens die lange Latenzzeit. Das Mikroskop wurde eigentlich erst in der Mitte des 19. Jahrhunderts in der Medizin und Biologie zum unentbehrlichen Forschungs- und Arbeitsinstrument. Das Tonbandgerät, bei der Funkausstellung 1935 der Öffentlichkeit vorgestellt (Ludwig 1979, S. 281), wurde zunächst von den Nazis als Propagandamittel in Wochenschaufilmen und als Abhörinstrument von Telefongesprächen missbraucht. Erst nach dem Krieg begann seine wissenschaftliche Karriere, in Deutschland vor allem mit Eberhard Zwirners Aufnahmen für den Deutschen Sprachatlas (Zwirner 1964). Das Festhalten von gesprochenen Lauten war im Prinzip schon mit Thomas Edisons Phonographen (1877) und mit Emil Berliners Grammophon (1886) möglich. Aber in deren Schalltrichter sprach normalerweise nur ein Sprecher einen kurzen, monologischen und meist auch vorbereiteten Text. Zwar hatte Zwirner schon 1935 mit dem Grammophon ein kurzes Zweier-Gespräch aufgenommen (Zwirner 1936), aber erst mit der Erfindung der Verstärkerröhren und der Entwicklung von beweglichen und kleinen Mikrophonen des Tonbandgeräts war es möglich, spontane Gespräche von mehreren Menschen und längerer Dauer festzuhalten (Auer 1993, S. 118). Erst ab der Mitte der 1960er Jahre hat man dann in Europa und in den USA begonnen, institutionelle und alltägliche Gespräche aufzunehmen und zu untersuchen. <?page no="136"?> 136 Gesprochene Sprache Zweitens: Unwichtiges wird wichtig, Regelloses wird regelhaft, Hässliches wird schön. Mit dem Blick durch das Mikroskop konnte man entdecken, dass Objekte, die zuvor als unwichtig, chaotisch, hässlich und sogar als „teuflisch“ galten, sich als geordnet und schön erwiesen. Robert Hooke schrieb in seiner Micrographia: Diese kleinen, widerlichen Lebewesen wie Fliegen und Motten, die wir mit verächtlichen Namen gebrandmarkt haben, indem wir sie als Ungeziefer bezeichnen, sind ebenso gestaltet wie größere und bemerkenswertere Lebewesen wie z.B. die Vögel. [...] Von allen Pflanzenarten, die ich bislang untersucht habe, habe ich keine gesehen, die an Einzigartigkeit und Schönheit mit diesem Seetang zu vergleichen wäre, den ich hier beschrieben habe. (Zit. nach Weigl 1990, S. 74) War das nicht auch so bei den ‘chaotischen’ Formen des Gesprochenen, den Abbrüchen, den Wiederholungen, den unnötigen ‘Flickwörtern’, den Fehlkonstruktionen und Korrekturen? Unter der Jahrtausende alten Gleichung ‘Sprache = Schrift’ konnten sie von Sprachpflegern nur als etwas Unnötiges, Falsches und sogar Hässliches wahrgenommen werden (Modalpartikeln wurden als ‘Läuse im Pelz der Sprache’ bezeichnet). Drittens: Die Entdeckung einer ganz neuen Welt. Das Mikroskop eröffnete einen neuen Kosmos, den Mikrokosmos. Dies hatte tiefgreifende Konsequenzen für das Weltbild des 17. und 18. Jahrhunderts. Denken wir nur an Pascal, der den Menschen in die Mitte zwischen dem unendlich Großen und dem unendlich Kleinen situiert, oder an Klopstocks Gedicht Die Frühlingsfeier (1771): Wer sind die Tausendmaltausend, wer die Myriaden alle,/ Welche den Tropfen bewohnen und bewohnten? Und wer bin ich? Es ist nicht zu viel gesagt, wenn man Ähnliches von der Linguistik behauptet: Eröffnet hat sich mit der Möglichkeit der Untersuchung fixierter gesprochener Sprache nicht nur ein ganzer Kosmos neuer Forschungsgegenstände, sondern das Bild, das Linguisten von Sprache und Kommunikation hatten, hat sich grundsätzlich gewandelt. 2. Was man mit dem Tonband an der Sprache entdecken kann Walze, Schallplatte, Tonbandgeräte und digitale Rekorder sind Laut-Speicher. Sie lösen eine Wunschphantasie ein, die im Bild von den gefrorenen und wieder aufgetauten Tönen von Plutarch bis zum Baron von Münchhausen tradiert wurde. Aber erst mit der Rückschalttaste der kleinen transportablen Kassettengeräte in den 1970er Jahren war es möglich, eine Lautkette von ein paar Sekunden wieder und wieder zu hören, sich dabei auf einzelne Eigenschaften des Gehörten zu konzentrieren und diese dann schriftlich festzuhalten (Sacks <?page no="137"?> 137 Tonband und Videokamera als Erkenntnisinstrumente 1984, S. 26; Auer 1993, S. 104). So entstanden ‘reiche’ Transkripte, die nicht nur den Wortlaut, sondern auch die prosodischen Phänomene im Medium sichtbarer Zeichen repräsentieren. Die auf dem Tonträger festgehaltene Lautkette kann dabei als ‘primäre Quelle’ bezeichnet werden, das Transkript als ‘sekundäre Quelle’ (vgl. den Beitrag von Annette Klosa in diesem Band). Beim Analysieren kann (und sollte) man sich seinem Untersuchungsgegenstand annähern, indem man immer wieder den Tonträger abhört und schrittweise das Transkript verbessert (Nothdurft 2006, S. 39f.). Ich kann hier nicht all die Erkenntnisse aufzählen, die mit den ‘eingefrorenen’ Wörtern möglich wurden. Sie haben frühere Vorstellungen von Sprache und Sprechen revolutioniert. Wörter und Syntax sind von nun an nur ein Teil des linguistischen Gegenstandsbereichs. Ebenso wesentlich ist die Prosodie. Verabschiedet wurde die Vorstellung vom monologischen Sprecher. Konstitutive Momente von Gesprächen, dem Äquivalent von Texten im Medium der Schrift, werden nicht monologisch, sondern dialogisch hervorgebracht, oft in einem schnellen Hin und Her des meist unbewussten Austauschs von Signalen. Das gilt z.B. für: - das Zustandekommen und das Beenden von Gesprächen, - die Mechanismen des Sprecherwechsels, - die Fokussierung auf ein Thema und dessen Weiterentwicklung, - das ‘Reparieren’ von Äußerungen, die in irgendeiner Weise falsch produziert wurden, - das Durchspielen und Verändern von kleineren und komplexeren Kommunikationsmustern. Revolutioniert wurde auch das Bild vom Sprechvorgang selbst: Es ist nicht so, dass ein Sprecher für das, was er sagen will, in seinem Gehirn die Wörter sammelt, sie in eine syntaktische und morphologische Form bringt und sie dann mittels phonetischer Übersetzungen ausspricht. Wir sprechen in einem ständigen Prozess des Entwerfens und des nachträglichen Reformulierens. Das bringt bestimmte Formen von Projektionen und Nachbearbeitungen mit sich, auf die man beim Schreiben verzichten kann und die deshalb den traditionellen Grammatikern entgangen sind. Ich möchte dies nur an einem Beispiel verdeutlichen, nämlich an Formen der Wertung bzw. Modalisierung, bei denen man zuerst den Wertungs-/ Modalisierungsausdruck spricht und in einem zweiten Schritt das Objekt nennt, auf das sich die Wertung bezieht. Es gibt für diese kommunikative Aufgabe folgende Konstruktionsmuster: <?page no="138"?> 138 Gesprochene Sprache Konstruktion des Erstgliedes Beispiel für Erstglied Beispiel für Zweitglied Subjektsatz (Pseudo-Spaltsatz) was mich nervt ist dieses gedröhne (Günthner 2006) Weglassung des Korrelats des Matrixsatzes is toll is blöd das rauchen einzustellen wenn die hier rumstehen Weglassung des Korrelats und des Prädikats des Matrixsatzes (+ dass-Satz) schön kein wunder schade dass ihr hier seid dass ... dass ... (Günthner 2009) Wertungswort im Vor-Vorfeld besser man bleibt zuhaus Wertungswort im Vorfeld klar guet is_das_ne quälerei sind sie do (Lötscher 1997; Dürscheid/ Hefti 2006; Spiekermann 2009) Wertungsausdruck = Prädikation (+ Referenzausdruck) cool no power die alte these boys Es mag Konstruktionsmuster geben, die sich wenig von denen an der Schriftsprache gewonnenen Regeln unterscheiden (z.B. auf einer sehr abstrakten Ebene die Wortbildungsmuster, die Valenzen von Verben, Substantiven und Adjektiven). Aber mit Tonband und Transkript hat man eine ganze Reihe von syntaktischen Konstruktionen gefunden, die beim Schreiben nicht oder selten auftreten, und die deshalb auch nicht beachtet wurden. 3. Was man mit dem Tonband nicht erfassen kann Das Tonband ist kein mechanisiertes Hören. Beim Sprechen und Hören im dialogischen Kontext konzentriert sich unser psychischer Apparat darauf, was gesagt wird. Alles andere wird ausgeblendet. Das Tonband registriert alle Laute und Geräusche und vermittelt dadurch dem Hörer verwirrende Hörwahrnehmungen. Dies wurde schon früh als störend empfunden: Wie ein Sprecher „sich räuspert und wie er spuckt, all jene individuellen Entgleisungen, die die Schallplatte festhält“ (Gerhardt 1947, S. 138) passten nicht ins Bild gesprochener ‘Sprache’. Das Tonband stößt da an seine Grenzen, wo die aufgenommene Gruppe zu groß ist und eine zunächst zentrierte einzige Interaktion sich in mehrere Interaktionskonstellationen spaltet. <?page no="139"?> 139 Tonband und Videokamera als Erkenntnisinstrumente Das Tonband ist auch keine Eins-zu-Eins-Wiedergabe der ursprünglich gesprochenen Laute. Es gibt zumindest minimale Verzerrungen der prosodischen Parameter Lautstärke, Tonhöhe und Sprechgeschwindigkeit (Nothdurft 2006, S. 35f.). In der Forschung herrscht Einigkeit darüber, dass alle Arten von Tonträgern kein getreues Abbild der ursprünglichen Laut-Wirklichkeit sind. Am stärksten verändert das Instrument dadurch das Objekt, dass es dessen Flüchtigkeit aufhebt (Bergmann 1985, S. 317). Unser Arbeitsgedächtnis als psychischer Speicher umfasst dagegen nur eine Dauer von ein paar Sekunden. Dies ist ein wesentlicher Unterschied zu schriftlichen Primärquellen, die mehrmals gelesen werden können. Die positive Seite ist, dass gerade die Manipulierbarkeit der fixierten Lautfolgen mehr Beobachtungschancen eröffnet - ähnlich wie beim Mikroskopieren durch das Auswechseln von Linsen oder beim Filmen durch das Einstellen des Aufnahmefeldes: - Wir können Nebengeräusche unterdrücken. - Wir können eine Strecke wieder und wieder hören und dadurch genauer festhalten als beim einmaligen Hören im Gespräch. - Wir können das Band langsamer ablaufen lassen. - Wir können das Band zurück- und vorspulen, um ähnliche Phänomene zu finden, für die wir uns interessieren. - Wir können die Tonhöhen regulieren und sie mechanisch aufzeichnen lassen (z.B. durch das Windows-Programm PRAAT). Das Tonband ist drittens kein Speicher des gesamten Geschehens. Es hält nur das Hörbare fest, nicht das Sichtbare und schon gar nicht das psychische Geschehen innerhalb der Beteiligten. Als alltägliche Interagierende wissen wir aber, dass wir beim Miteinander-Sprechen bereits Gesagtes in Gedanken kommentieren, ohne dass wir es nach außen dringen lassen. Das ist eine psychische Wirklichkeit, wenn auch keine soziale. Schriftsteller (z.B. Christa Wolf: Kein Ort. Nirgends; Hans-Ulrich Treichel: Der Verlorene; Sven Regener: Herr Lehmann) oder Filmemacher wie Woody Allen (Der Stadtneurotiker) nehmen auf diese Wirklichkeit Bezug und gestalten sie schöpferisch. 4. Probleme bei Filmaufzeichnungen Noch größere Probleme bereitet das ‘Forschen mit der Kamera’ (so der Titel von Mohn/ Amann 1998). Das visuelle Medium hat einen engeren räumlichen Zuschnitt der Registrierung als das akustische, da das Ohr und das Mikrophon <?page no="140"?> 140 Gesprochene Sprache auch Geräuschquellen aufnehmen können, die von der Seite oder von hinten kommen. Oft ist das Geschehen so komplex, dass man zwei Kameras braucht. Die Person hinter der Kamera muss eine Position für eine Kamera mit Stativ suchen bzw. mit der tragbaren Kamera dem zentralen Geschehen folgen; sie muss die Kamera ausrichten, die Kameraeinstellung auswählen und gegebenenfalls ändern, sie muss die Dauer einer Einstellung bestimmen, mit Schwenks bzw. Schwenk und Zoom dem Geschehen folgen etc. Der Film ist dadurch von vornherein viel interpretationsgesättigter als Tonbandaufnahmen. Mohn (2002, S. 152) beschreibt, wie sie zu Beginn ihrer ethnografischen Arbeit in einem biochemischen Labor sich an den Bewegungen und Hantierungen der dort Arbeitenden orientierte, z.B. wie eine Biologin mit einer Pipette eine Flüssigkeit in Behälter füllte. Erst mit zunehmendem Verständnis von den Relevanzen des kommunikativen und forschenden Handelns im Labor gelang es ihr, relevante Bildausschnitte zu wählen. Beim Arbeiten mit dem Tonband braucht man ein solches vorhergehendes Wissen nicht im gleichen Maße. Für manche Aufnahmesituationen kann man das Gerät sogar aus der Hand geben und Beteiligte - so man solche findet - bitten, für den Forschenden Aufnahmen zu machen. Diese sind dann oft gar nicht so schlecht, insbesondere mit den modernen kleinen digitalen Geräten, die mit mehreren Mikrophonen in verschiedene Richtungen ‘hören’ können. Das Filmen dringt auch stärker ins Bewusstsein der Aufgenommenen ein als das Tonband. Beteiligte reagieren auf den Apparat, indem sie verstummen, sich abwenden, sich verstecken, Grimassen schneiden oder sich bewusst inszenieren (vgl. Schmitt/ Fiehler/ Reitemeier 2007, Mondada 2009, S. 61). 5. Erkenntnisgewinne durch Filmaufzeichnungen Wie beim Tonaufnehmen hat das Festhalten des bewegten Bildes enorme Fortschritte bei der Erkenntnis menschlicher Kommunikation ermöglicht. Schon die frühen Filmaufnahmen von Kendon/ Ferber (1973) haben sichtbar gemacht, wie differenziert und zeitlich geregelt die nonverbalen Signale von Menschen sind, die sich anschicken, in eine verbale Interaktion zu treten. Mit Zeitraffer und Split-Screen-Technik kann man genauer sehen, wie Mütter in weniger als einer Sekunde auf Signale von zwei Monaten alten Säuglingen reagieren und diese wieder auf die der Mutter (Papoušek 1994, S. 117-127). Mit Filmaufnahmen von Dialogen im Alltag, im Beruf und in Institutionen hat sich der Bereich der Erkenntnisse in den letzten drei Jahrzehnten wesentlich erweitert. Ich kann hier nur auf die Gesamtdarstellungen von Kendon (2004) und Streeck (2009) verweisen. <?page no="141"?> 141 Tonband und Videokamera als Erkenntnisinstrumente Wie im Fall der verbalen Kommunikation möchte ich nur ein Beispiel geben. Wenn ein Sprecher ins Stocken gerät oder ganz aufhört zu sprechen, gibt es oft eine Fülle nonverbaler Mitteilungen: - Jemandem fällt ein Wort nicht ein, aber die Hände bilden den gemeinten Begriff ikonisch ab (Streeck 2009, S. 108-114). - Keiner spricht, aber mit Blicken, Gesten und Körperhaltungen signalisieren sich die Beteiligten, wer sich aus dem Gespräch heraushalten will und wer als Nächster sprechen soll/ wird (Heidtmann/ Föh 2007, S. 269-271). - Jemand wartet auf eine Antwort. Der Angesprochene schweigt. Die ausgestreckte Hand des Sprechers verwandelt sich von einer anbietenden zu einer fordernden Geste (Streeck 2007). - Der Adressat ist mit etwas Anderem beschäftigt. Derjenige, der mit ihm sprechen will, wartet mit dem Sprechen so lange, bis er die Aufmerksamkeit bekommen hat. Dabei friert er sozusagen seine Körperhaltung ein (Stukenbrock 2009, S. 301) oder macht mit unwilligen Bewegungen und Geräuschen den noch nicht erreichten Partner auf seinen Interaktionswunsch aufmerksam (Heath 1984). Man sieht, dass auch bei den zentralen Theorien und Konzepten der nur auditiv basierten Dialoganalyse Revisionen stattfinden müssen: z.B. beim Konzept des Sprecherwechsels (Schmitt 2006, S. 25f.; Mondada 2009, S. 56-58); bei der Adressierung (mit dem Blick), bei den Beteiligungsformen (Zu- und Abwendungen des Gesichts und des Oberkörpers) oder beim Themenwechsel (Jugendliche registrieren sehr aufmerksam, was in ihrer visuellen Umgebung geschieht, und kommentieren dieses Geschehen). 6. Schluss Engelhard Weigl hat in seinem Buch Instrumente der Neuzeit. Die Entdeckung der modernen Wirklichkeit (1990) die geistesgeschichtlichen Wirkungen der Erkenntnisinstrumente aufgezeigt: Die Welt wurde komplizierter und rätselhafter (Mikroskop, Fernrohr), und Gott, anfänglich als ordnendes Prinzip noch bestätigt (Uhrwerk), wurde immer mehr aus der Natur gedrängt (die Entdeckung der regelmäßigen Wiederkehr des Kometen Haley; die Erfindung des Blitzableiters, dessen Gebrauch noch der junge Kant als Hybris verwarf, weil man „den Donnerer entwaffnen wollte“, zit. bei Weigl 1990, S. 184). Komplexität und die Auflösung eines zentralen Ordnungsprinzips sind auch die Folgen der neueren Studien zur menschlichen Kommunikation. Der Blick <?page no="142"?> 142 Gesprochene Sprache hat sich geweitet von den traditionellen Gegenständen der Phonetik, der Lexik und der Syntax zu den Formen der sprachlichen und prosodischen Kontextualisierung und zu nonverbalen Signalisierungen. Man hat festgestellt, dass das kommunikative Geschehen derart komplex ist, dass die Beteiligten es gar nicht in seinem ganzen Umfang bewusst registrieren können; sie müssen sich auf das für sie Wesentliche konzentrieren. Gleichzeitig entschwindet die eine, steuernde Instanz. Gerade bei den unauffälligen Momenten der Gesprächsorganisation, beim Herstellen und Auflösen einer Interaktion, bei den Verschiebungen und Gewichtungen der Beteiligungsrollen, bei den Signalisierungen von Nähe und Distanz, von Sympathie und Antipathie, Zustimmung und Ablehnung - und noch bei vielem Anderem mehr - verlassen wir uns auf die Mechanismen der sprachlichen, prosodischen und nonverbalen Regelungen, die einfach eingespielt sind, die wir zum großen Teil nicht bewusst und gewollt einsetzen und die meist auch gelingen, weil sie in unzähligen Malen hervorgebracht, im Gehirn abgespeichert und interaktiv bestätigt wurden. Literatur Atkinson, J. Maxwell/ Heritage, John (Hg.) (1984): Structures of social action: Studies in conversation analysis. Cambridge. Auer, Peter (1993): Über . In: Zeitschrift für Literaturwissenschaft und Linguistik 23, S. 104-138. Bergmann, Jörg R. (1985): Flüchtigkeit und methodische Fixierung sozialer Wirklichkeit: Aufzeichnungen als Daten der interpretativen Soziologie. In: Bonß, Wolfgang/ Hartmann, Heinz: Entzauberte Wissenschaft. Zur Relativität und Geltung soziologischer Forschung. Göttingen, S. 299-320. Dürscheid, Christa/ Hefti, Inga (2006): Syntaktische Merkmale des Schweizer Standarddeutsch. In: Dürscheid, Christa/ Hefti, Inga/ Businger, Martin (Hg.): Schweizer Standarddeutsch. Beiträge zur Varietätenlinguistik. Tübingen, S. 131-161. Gerhardt, Dietrich (1947): Zu den Epochen der deutschen Mundartforschung. In: Zeitschrift für Phonetik und allgemeine Sprachwissenschaft 1, S. 5-18, 130-147. Günthner, Susanne (2006): „Was ihn trieb, war vor allem Wanderlust“. Pseudocleft- Konstruktionen im Deutschen. In: Günthner, Susanne/ Imo, Wolfgang (Hg.): Konstruktionen in der Interaktion. Berlin, New York, S. 59-90. Günthner, Susanne (2009): „Adjektiv + dass-Satz“-Konstruktionen als kommunikative Ressourcen der Positionierung. In: Günthner, Susanne/ Bücker, Jörg (Hg.): Grammatik im Gespräch. Konstruktionen der Selbst- und Fremdpositionierung. Berlin/ New York, S. 149-184. Heath, Christian (1984): Talk and recipiency. Sequential organization in speech and body movement. In: Atkinson/ Heritage (Hg.), S. 247-266. <?page no="143"?> 143 Tonband und Videokamera als Erkenntnisinstrumente Heidtmann, Daniela/ Föh, Marie-Joan (2007): Verbale Abstinenz als Form interaktiver Beteiligung. In: Schmitt (Hg.), S. 263-292. Kendon, Adam (2004): Gesture. Visible Action as Utterance. Cambridge. Kendon, Adam/ Ferber, Andrew (1973): A description of some human greetings. In: Michael, Richard P./ Crook, John H. (Hg.): Comparative ecology and behaviour of primates. London/ New York, S. 591-668. Lötscher, Andreas (1997): „Guet, sind Si doo“. Verbstellungsprobleme bei Ergänzungssätzen im Schweizerdeutschen. In: Ruoff, Arno/ Löffelad, Peter (Hg.): Syntax und Stilistik der Alltagssprache. Beiträge zur 12. Arbeitstagung zur alemannischen Dialektologie. Tübingen, S. 85-95. Ludwig, Hans-Werner (1979): Schallplatte/ Tonband. In: Faulstich, Werner (Hg.): Kritische Stichwörter zur Medienwissenschaft. München, S. 277-315. Mohn, Elisabeth (2002): Filming culture. Spielarten des Dokumentierens nach der Repräsentationskrise. Stuttgart. Mohn, Elisabeth/ Amann, Klaus (1998): Forschung mit der Kamera. In: Anthropolithan: Visuelle Anthropologie. Mitteilungsblatt der Frankfurter Gesellschaft zur Förderung der Kulturanthropologie 6, S. 4-20. Mondada, Lorenza (2009): Video recording as the reflexive preservation and configuration of phenomenal features for analysis. In: Knoblauch, Hubert et al. (Hg.): Video analysis: Methodology and methods: Qualitative audiovisual data analysis in sociology. 2. Aufl. Frankfurt a.M., S. 51-67. Nothdurft, Werner (2006): Gesprächsphantome. In: Deutsche Sprache 34, S. 32-43. Papoušek, Mechthild (1994): Vom ersten Schrei zum ersten Wort. Anfänge der Sprachentwicklung in der vorsprachlichen Kommunikation. Bern. Sacks, Harvey (1984): Notes on methodology. In: Atkinson/ Heritage (Hg.), S. 21-27. Schmitt, Reinhold (2006): Videoaufzeichnungen als Grundlage für Interaktionsanalysen. In: Deutsche Sprache 34, S. 18-31. Schmitt, Reinhold (Hg.) (2007): Koordination. Analysen multimodaler Interaktion. (= Studien zur Deutschen Sprache 38). Tübingen. Schmitt, Reinhold/ Fiehler, Reinhard/ Reitemeier, Ulrich (2007): Audiovisuelle Datenkonstitution und Koordinationsprozesse. In: Schmitt (Hg.), S. 377-410. Schwitalla, Johannes (1995): Lob des Tonbands. Von der Entdeckung der Langsamkeit beim Hören. Antrittsvorlesung, Universität Würzburg. Typoskript. Spiekermann, Helmut (2009): „Hauptsache verstehst du mich“. Verdichtung komplexer Sätze im gesprochenen Deutsch. Typoskript. Streeck, Jürgen (2007): Geste und verstreichende Zeit: Innehalten und Bedeutungswandel der „bietenden Hand“. In: Hausendorf, Heiko (Hg.): Gespräch als Prozess. Linguistische Aspekte der Zeitlichkeit verbaler Interaktion. Tübingen, S. 157-177. <?page no="144"?> 144 Gesprochene Sprache Streeck, Jürgen (2009): Gesturecraft. The manu-facture of meaning. Amsterdam/ Philadelphia. Stukenbrock, Anja (2009): Referenz durch Zeigen: Zur Theorie der Deixis. In: Deutsche Sprache 37, S. 289-315. Weigl, Engelhard (1990): Instrumente der Neuzeit. Die Entdeckung der modernen Wirklichkeit. Stuttgart. Zwirner, Eberhard (1936): Einleitung. In: Zwirner, Eberhard (Hg.): Textliste schlesischer Mundart. (= Phonometrische Forschungen. Hrsg. vom Deutschen Spracharchiv. Reihe B, 3). Berlin, S. 1-9. Zwirner, Eberhard (1964): Anleitung zu sprachwissenschaftlichen Tonbandaufnahmen. (= Lautbibliothek der deutschen Mundarten 31). Göttingen. <?page no="145"?> Hans Ulrich Schmid Korpus und Korpuskel Diachrone Onomasiologie am Beispiel von Modalverben 1. Vorüberlegungen Der Beitrag verfolgt ein doppeltes Ziel, und zwar ein allgemeines und ein spezielles: 1) Das allgemeine Ziel ist es, zu zeigen, dass unter bestimmten Voraussetzungen ein Kleinkorpus (sozusagen ein ‘Korpuskel’) zu tragfähigen Ergebnissen führen kann, punktuell zu genaueren als ein Großkorpus. 2) Das spezielle Ziel ist es, das anhand eines sprachhistorischen Aspekts zu zeigen. Dieser Aspekt ist ein Ausschnitt aus der Entwicklungsgeschichte (man könnte auch sagen Verwicklungsgeschichte) der Modalverben. Dabei soll nicht semasiologisch vorgegangen werden. Die Frage ist also nicht, welche Funktionen sollen, müssen, mögen bzw. ihre älteren Vorläufer wahrnehmen konnten. Die Blickrichtung soll vielmehr die onomasiologische sein. Die entsprechende Frage ist deshalb so zu formulieren: Mit welchen Modalverben oder auch anderen Verben oder komplexeren verbalen Ausdrücken konnten (beispielsweise) semantische Kategorien wie NOTWEN- DIGKEIT, ERLAUBNIS, MÖGLICHKEIT ausgedrückt werden? Das basiert auf folgenden generellen Vorüberlegungen: 1) Eine text- und quellenlose „historische Sprachwissenschaft“ ist im doppelten Sinne des Wortes gegenstandslos. Bestenfalls werden, wie die Erfahrung lehrt, theoriekompatible (oder für theoriekompatibel gehaltene) Belege aus der älteren (ansonsten vielfach als positivistisch geschmähten) Sekundärliteratur übernommen. 2) Umfangreiche Korpora eignen sich primär für ausdrucksseitige Analysen: Man kann Graphem- und Morphembestände, Wortbildungsmuster, lexikalische und phraseologische Einheiten, syntaktische Strukturen und bestimmte rekurrente Textmuster ermitteln. Aber: 3) Korpora, mögen sie noch so umfassend und repräsentativ sein, sind für sich genommen noch kein Gewinn. Sie sind zunächst noch nichts anderes <?page no="146"?> 146 Historische Sprachwissenschaft als Texte im digitalen Aggregatzustand. Korpusbasierte semasiologische Analysen haben einen ‘toten Winkel’: Je ausdrucksbezogener die Fragestellung ist, desto größer ist dieser ‘Winkel’. Wenn - beispielsweise - sämtliche Texte des 11. bis 15. Jahrhunderts digitalisiert wären, könnte man zumindest theoretisch sämtliche Belege für sollen, müssen usw., die in Texten dieses Zeitraums erscheinen, eruieren (was dann mit dem Datenberg anzufangen wäre, ist eine andere Frage, der hier nicht weiter nachgegangen werden kann). Ein solches Korpus würde es aber nicht ermöglichen, auf eine Frage wie die folgende eine Antwort zu geben: Mit welchem Modalverb oder mit welchen alternativen Ausdrucksmitteln hat man vom 11. bis zu 15. Jahrhundert beispielsweise eine VERPFLICHTUNG , eine ERLAUBNIS oder eine NOTWENDIGKEIT ausgedrückt? In der traditionellen Wortgeographie sind onomasiologische Materialerhebungen seit jeher ein praktiziertes Arbeitsverfahren. Was dem Sprachgeographen, der sich auf rezente Zustände bezieht, prinzipiell möglich ist, ist dem Sprachhistoriker verwehrt, denn er kann die Sprachträger vergangener Jahrhunderte schwerlich mit onomasiologischen Fragestellungen („Wie hast du zu Lebzeiten zu XY gesagt? “) konfrontieren. Er muss andere Methoden finden, um diese naturgegebene Misslichkeit wenigstens ansatzweise auszugleichen. Am Beispiel einiger deutscher Modalverben soll gezeigt werden, wie das bewerkstelligt werden kann. Vorab sei an zwei Beispielen nur das (ohnehin ja bekannte) Problem angedeutet: 1. Beispiel: Wie ist soll in folgendem Satz aus Luthers Matthäus-Evangelium (Mt. 2,6, Version 1545) zu deuten? (1) Vnd du Bethlehem im Juedischen lande, bist mit nichte die kleinest vnter den Fuersten Juda. Denn aus dir sol mir komen, der Hertzog, der vber mein volck Jsrael ein Herr sey. Ist das eine zukunftbezogene Weissagung mit verbindlichem Charakter? Eine Vermutung? Eine Wiedergabe aus zweiter Hand? 2. Beispiel: Wie ist mögen in Lk. 16,3 (ebenfalls Luther 1545) zu interpretieren? (2) Der Haushalter sprach bey sich selbs, Was sol ich thun? mein Herr nimpt das Ampt von mir, Graben mag ich nicht, So scheme ich mich zu betteln. Vom heutigen Standpunkt aus würde man wohl ohne zu zögern sagen graben mag ich nicht bedeutet, dass der Hausherr, gewiss ein vornehmer Mensch, sich zu gut ist, wie ein Tagelöhner zu graben. Er mag einfach nicht, und zwar <?page no="147"?> 147 Korpus und Korpuskel. Diachrone Onomasiologie am Beispiel von Modalverben ganz im neuhochdeutschen Sinne. In der Vulgata heißt es jedoch fodere non valeo mendicare erubesco. Das heißt: der Hausherr ist also nicht imstande, zu graben (valeo ist ja nicht dasselbe wie volo! ). Die beiden Beispiele mögen (! ) genügen, um nur nochmals das Faktum in Erinnerung zu rufen, dass man sich auf rutschiges Terrain begibt, wenn man sich mit der Entwicklungsgeschichte der deutschen Modalverben befasst. Gibt es nun die Möglichkeit, irgendwo Fixpunkte zu finden, irgendwo sicheren semantischen Boden unter die Füße zu bekommen? Diese Möglichkeit ist vermutlich dann gegeben, wenn man die Sache von der onomasiologischen Seite her angeht, das heißt, wenn man zwar Schwankungen und Veränderungen im Modalverbgebrauch aufzeigen kann, gleichzeitig aber davon ausgehen kann, dass Bedeutung und Funktion über alle Zeiträume hinweg stabil sind. Diesen ‘festen Boden’ bekommt man dann unter die Füße, wenn man definitiv aussagegleiche Sätze, die über längere Zeiträume hinweg immer und immer wieder formuliert worden sind, ermittelt und analysiert. Diese Möglichkeit ist bei häufig übersetzten Texten gegeben, wobei natürlich zu allererst an die Bibel zu denken ist. In Betracht kommen aber auch andere Texte, beispielsweise Rechtstexte, die Ge- und Verbote oder Erlaubnisse formulieren. Nachfolgend sollen auf der Basis eines überschaubaren Korpus (eines ‘Korpuskels’ also) einige diachrone Entwicklungslinien gezeigt werden, die sich vielleicht klarer und konturierter nachzeichnen lassen, als das auf der Basis eines Großkorpus möglich wäre. Dieses ‘Korpuskel’ setzt sich aus folgenden Texten zusammen: 1. Bibelübersetzungen 1.1 W = Wulfila-Bibel 1 (got., 4. Jh.) 1.2 MF = Mondseer Matthäus-Fragmente 2 (ahd., um 800) 1.3 T = Tatian 3 (ahd., 9. Jh.) 1.4 MvB = Evangelienbuch des Matthias von Beheim 4 (fnhd. 14. Jh.) 1.5 BE = Berliner Evangelistar 5 (fnhd. 14. Jh.) 1.6 GMP = Evangelien der Guten Meister von Prag 6 (fnhd. 14. Jh.) 1 Streitberg (Hg.) (2000). 2 Hench (Hg.) (1890). 3 Masser (Hg.) (1994). - Die Seitenzahlen folgen der Paginierung der St. Galler Handschrift (nicht der Seitenzahl der Ausgabe). 4 Bechstein (Hg.) (1867 [1966]). 5 Feudel (Hg.) (1961). 6 Gerhardt (Hg) (1970). <?page no="148"?> 148 Historische Sprachwissenschaft 1.7 MB = Mentel-Bibel 7 (fnhd. 15. Jh.) 1.8 L 22 = Luther, Septembertestament von 1522 8 1.9 L 34 = Luther, Vollbibel von 1534 9 1.10 L 45 = Luther, Vollbibel von 1545 10 2. Bibeldichtung 2.1 H = Heliand 11 (as., 9. Jh.) 2.2 O = Otfrids Evangelienbuch 12 (ahd., 9. Jh.) Das Mittelhochdeutsche ist in dieser Liste nicht vertreten. Grund ist die Überlieferungslage. Die Wien-Münchener Evangelienbruchstücke 13 des 12. Jahrhunderts bieten zu den nachfolgend näher betrachteten Bibelzitaten keine Parallelen. Ersatzweise wurden Predigten des 12. bis 14. Jahrhunderts, die reich an Bibel-, vor allem Evangelienzitaten sind, ausgewertet: 3. Bibelzitate in Predigten 3.1 PK = Predigtbuch des Priesters Konrad 14 (mhd., 12. Jh.) 3.2 OP = Oberaltaicher Predigtsammlung 15 (mhd., ca. 1300) 3.3 LP = Leipziger Predigten 16 (fnhd., 14. Jh.) Die Datierungen sind nur als grobe Anhaltspunkte gedacht. Auf die Problematik, die sich aus den Kopialverhältnissen ergibt (die Mentel-Bibel basiert auf Vorlagen des 14. Jahrhunderts, die Leipziger Predigtsammlung teilweise auf Texten des 12. Jahrhunderts), kann hier nicht eingegangen werden. 2. Analysen Doch nun zu den Modalverben, zu ihrer diachronen Verwendung und ihrer Funktion. Dabei ist es im gegebenen Rahmen nötig, sich auf einige prototypische Kernfunktionen zu beschränken: 7 Kurrelmeyer (Hg.) (1904). 8 Luther (1522). 9 Luther (1534). 10 Luther (1545). 11 Behaghel (Hg.) (1984). 12 Erdmann (Hg.) (1882). 13 Hench (Hg.) (1890). 14 Schönbach (Hg.) (1891). 15 Schönbach (Hg.) (1888). 16 Schönbach (Hg.) (1886). <?page no="149"?> 149 Korpus und Korpuskel. Diachrone Onomasiologie am Beispiel von Modalverben 1) Modalverben zum Ausdruck einer NOTWENDIGKEIT 2) Modalverben zum Ausdruck einer ERLAUBNIS 3) Modalverben zum Ausdruck einer FÄHIGKEIT 2.1 Modalverben zum Ausdruck einer NOTWENDIGKEIT Drei ausgewählte Stellen aus dem Neuen Testament können dafür in Anspruch genommen werden. In der Vulgata heißt es: 1) Mt. 3,14: Ioannes autem prohibebat eum dicens: ego a te debeo baptizari et tu venis ad me ‘Johannes aber hielt ihn zurück und sagte: ich muss von dir getauft werden, und du kommst zu mir’ 2) Lk. 14,18: villam emi et necesse habeo exire et videre illam ‘Ich habe ein Landgut gekauft und muss hingehen und es ansehen’ 3) Joh. 19,7: nos legem habemus et secundum legem debet mori ‘wir haben ein Gesetz, und gemäß dem Gesetz muss er sterben’. Die Wiedergaben von Mt. 3,14 zeigen folgende Modalverbverwendungen (die Stelle ist allerdings nicht in jeder der genannten Quellen vorhanden): Mt. 3,14 T 48,23f. ih scal fon thir gitoufit uuerdan Inti thû quimist zi mir H 972f. sô scolde ic te thînero duan, huuand thu bist allaro cuningo craftigost O I,25,7 Zi thiu scalt thú mih rínan joh doufen scálk thinan GMP 22,16f. ich sol von dir getauft werden vnd du kumest her zcu mir MvB 22,16f. Ich sal 4 7 +! 6+ ! MB 13,64f. Ich sol 4 7 2 ! 6+ ! L 22/ 34/ 45 ich bedarff woll / das ich von dyr getaufft werde / vnd du komist zu myr? LP 157,29f. % +! 6 ! 6 "% "% +7 "% sol billicher von dir werdin getouft Der Übersicht ist zu entnehmen, dass vom 9. bis zum 15. Jahrhundert zum Ausdruck der NOTWENDIGKEIT das Modalverb sollen verwendet wurde. Im Falle von Lk. 14,18 stellen sich die Dinge folgendermaßen dar: Lk. 14,18 W 139 land bauhta jah þarf galeiþan jah saihvan þata T 205,6f. thorph coufta ih. Inti nôtthurft haben ih ûz ziganganne Inti gisehen Iz. <?page no="150"?> 150 Historische Sprachwissenschaft BE 105,19f. ich han eyn dorf gekouft und iz ist not daz ich uz wandere unde iz beschowe GMP 146 ich han ein dorf kauft vnd ist mir not das ich dar kum vnd es besehe MB 153 Ein dorf habe ich gekouft und habe nôtturft 6 6+ 4 6 6+ ) % MB 276,34f. Ich hab gekaufft ein dorf: vnd ich hab durfft auszegeen und es zegesehen LP 105,21f. ich han ein dorf gekouft, daz ! +6 ich gen unde sehn wie iz da ste OP 121,9f. einer sprach, er hiet ein dorf gechauffet, da mu e st er hin PK 123,19f. ich han ain dorf zaigen gechouft, da muoz ich hin und muoz das besezen L 22 Ich hab eynen acker kaufft / vnnd ist myr nodt das ich hynnaus gehe vnd besehe yhn L 45 (34) Ich habe einen Acker gekauft / vnd mus hin aus gehen vnd in besehen Hier ergibt sich ein deutlich anderes, gleichwohl aber aufschlussreiches Bild: Der älteste (gotische) Text verwendet þarf, das nhd. darf entspricht. Die vorlutherischen Bibeltexte weisen unterschiedliche Verbalgefüge auf, aber keine Modalverben. Damit tragen sie dem Umstand Rechnung, dass die lateinische Vorlage necesse habeo, also ein Gefüge aus Adjektiv und Verb vorgibt. Luther, der bekanntlich nicht versuchte, möglichst getreu den Wortlaut der Vulgata wiederzugeben, hat sich 1534 und 1545 (anders als noch 1522) gegen die verbale Fügung und für eine Form von müssen entschieden. Aufschlussreich ist in diesem Zusammenhang, wie die Autoren der Predigten verfahren, die die Evangelienstelle ebenfalls verdeutschen. Sie haben wie Luther schon Jahrhunderte vorher genau dieses Modalverb. Ursache für diese ‘Freiheit’ dürfte sein, dass sie sich nicht möglichst eng an den Vorlagentext halten mussten, weil sie den Inhalt der Textstelle sinngemäß, nicht wortgetreu wiederzugeben hatten. In den Übersetzungen sind die Verbalgefüge dagegen durch den lateinischen Wortlaut evoziert. Bei freier Formulierung wurde also schon vom 12. bis zum 14. Jahrhundert, also lange vor Luther, bereits das Modalverb müssen zur Bezeichnung einer NOTWENDIGKEIT verwendet. <?page no="151"?> 151 Korpus und Korpuskel. Diachrone Onomasiologie am Beispiel von Modalverben Drittes Beispiel: Joh. 19,7 W 83 weis witoþaihum, jah biþamma witoda unsaramma skal gaswiltan T 308,30f. uuir habemes euua Inti after euu sal her sterban H 5331-3 sagit that hie drohtin sî, / gegnungo godes suno. / that hie ageldan scal " 4 " 4 O IV,23,23 Er scal irstérban thuruh not, so wízod unser zeinot BE 81,326-329 wer sich machet gotes son / der sal lyden groze not / unde dor noch den bittern tot. / daz recht habe wir in unsir e MvB 224 % ) "% sal her sterbin MB 412 Wir haben eine ee vnd nach vnser ee sol er sterben L 22 (34, 45) Wyr haben eyn gesetz / vnd nach dem gesetz soll er sterben Hier bestätigt sich das, was schon am ersten Beispiel beobachtet worden ist: Zur Bezeichnung einer NOTWENDIGKEIT wurde von Wulfila bis ins Frühneuhochdeutsche das Modalverb sollen (in seinen Vorformen) verwendet. 2.2 Modalverben zum Ausdruck einer ERLAUBNIS Prototypisches Modalverb für diese Funktion ist heute dürfen. In keinem der analysierten ‘Korpuskel’-Texte tritt es jedoch schon auf. Das sind im Wortlaut der Vulgata: 1) Mt. 19,3 et dicentes si licet homini dimittere uxorem parallel: Mk. 10,2 at accedentes Pharisaei interrogabant eum si licet viro uxorem dimittere 2) Mt. 12,12 itaque licet sabbatis benefacere 3) Mt. 20,15 aut non licet mihi quod volo facere Die an Jesus herangetragene Fangfrage, ob ein Mann seiner Frau den Laufpass geben dürfe, wird in den verschiedenen Versionen folgendermaßen übersetzt bzw. übertragen: Mt. 19,3/ Mk. 10,2 W 199 Mk. 10,2 Fareisaieis frehun ina, skuldu sijai mann qen afsatjan, fraisandans ina T 160,15 Mt. 19,3 ist arloubit manne zi uorlazzanna sina quenun fon sih GMP 229,17f. Mt. 19,3 ob es muglich sey Das der mensch sein hausfrau las in keinerley weis <?page no="152"?> 152 Historische Sprachwissenschaft MvB 44/ 94 Mt. 19,3 Ob dem manschin zcimet 6+ 6 % Mk. 10,2 Ob iz zimet ! ! % 6+ 6 9 MB 71,57-59 Mt. 19,3 Ob es gezem dem man zelassen sein weip vmb kein sach? MB 158,57-59 Mk. 10,2 sy fragten in ob es gezeme dem mann zelassen das weip L 22 (34, 45) Mt. 19,3 Ist es auch recht das sich eyn man scheyde von seynem weybe Mk. 10,2 vnd fragten yhn / ob eyn man sich scheyden muge von seynem weybe Von Wulfila bis zu den frühneuhochdeutschen Texten wird zur Wiedergabe dieser Stelle kein Modalverb verwendet. Entweder steht eine Form von zemen ‘sich ziemen’ oder eine verbale Fügung. Erst Luther verwendet mit muge ein Modalverb. Mt. 12,12 ist in den ausgewerteten Texten nur wenige Male bezeugt, aber die Versionen lassen doch eine Tendenz erkennen: Mt. 12,12 MF 7,1f. Bidiu danne muoz man fira tagum uuela tuoan T 106,19f. ih fragen íuuih oba íz arloubit sí in sambaztag uuola tuon MvB 29 und alsô zcimet 6 ! ) 6+ + MB 44,60f. Alsus es gezimpt ! 4 6 + L 22 (34 u. 45) darumb mag man wol am sabbath gutis thun Wieder ist licet im Tatian mit ‘erlaubt sein’ verdeutscht, im Evangelienbuch des Matthias von Beheim und in der Mentel-Bibel mit ‘ziemen’. Auch hier verwendet Luther eine Form von ‘mögen’. Auffallend ist, dass die frühen Mondseer Fragmente an dieser Stelle das Modalverb ! aufweisen. Die dritte Textprobe zeigt folgendes Bild: Mt. 20,15 T 179,12f. odo nist mir arloubit thaz ih uuilla tuon MvB 47 Odir inczimet ! "% 6+ + 6 "% 9 MB 75,37 Oder gezimt ! % 6 %+ "% BE 15,30f. Muz ich nicht tun daz ich wil? GMP 31,5 daz zymt mir zcu thun was ich wil L 22 (34 u. 45): Oder habe ich nicht macht zu thun/ was ich wil? <?page no="153"?> 153 Korpus und Korpuskel. Diachrone Onomasiologie am Beispiel von Modalverben Im Tatian findet sich wieder die Fügung ist arloubit. Drei der vorlutherischen Übersetzungen verwenden - ähnlich wie im vorigen Beispiel - das Verbum (ge)zemen. Luther wählt in den drei überprüften Versionen die Fügung ‘Macht haben’. Merkwürdigerweise erscheint im Berliner Evangelistar übereinstimmend mit den Monseer Fragmenten das Verbum müssen. Erst bei Luther erscheint ‘mögen’. 2.3 Modalverben zum Ausdruck einer FÄHIGKEIT Prototypisches Modalverb dafür ist heute können. Die ausgewählten Bibelstellen sind: 1) Mt. 6,24: nemo potest duobus dominis servire 2) Mt. 6,27: Quis autem vestrum cogitans potest adicere ad staturam suam cubitum unum? 3) Mt. 3,9 = Lk. 3,8: dico enim vobis quia potest Deus de lapidibus istis suscitare filios Abrahae Die Erfahrungstatsache, dass niemand gleichzeitig zwei Herren dienen kann, wird von Wulfila bis Luther so formuliert: Mt. 6,24 W 9 ni manna mag twaim fraujam skalkinon T 69 [153],29 Nioman nimag zuuein herron thionon O II,22,1 Ni mag thaz mán duan nihéin, thaz thiona héreren zuein BE 120,17 Nymant mak czwen herren wol gedinen MvB 18 Wan niemant mac 6 % GMP 176,18f. Nymant mag zweien herren gedinen MB 24,40f. Niemant mag gedienen zweyn herrn LP 48,20f. die ! +4 niht zveinen herren gedinen, got vnd dem richtum LP 130,29f. nieman mach zwein herren gedienen LP 376,1-3 unse herre ... "% %+ ! 4 6 ! ! +4 zwen herren gedienen OP 159,8f. nieman enmach zwein herren gedinen PK 153,14f. unser herre der sprichet hiut selbe, ez ! +4 niemen zwain herren ensamt ze willen gedienen L 22 (34 u. 45) Niemant kan zweyen herren dienen <?page no="154"?> 154 Historische Sprachwissenschaft Von Wulfila bis zu den Texten des Mittel- und älteren Frühneuhochdeutschen wird durchwegs das Modalverb mögen verwendet. Es besteht also Stabilität für einen Zeitraum von ca. 1000 Jahren. Erst Luther verwendet das Modalverb können. 17 Beim folgenden Zitat geht jedoch auch Luther mit der alten Verwendungsweise von mögen konform: Mt. 6,27 W 9 iþ hvas izwara maurnands mag anaaukan an wahstu seinana aleina aina T 155,18-20 uuelih íuuar thenkenti mag zuogiouhhon zi sinero giuuahsti eina elina O II,22,23 Gidúan ni mahtu in wára thih mínniron noh méra MvB 18 Avir welcher ûwer mac "% 6+ 7 6+ 4 eine elle GMP 177 welcher ewer mag zcu gelegen mit gedancken ein elen seiner leng? MB 24 Abir welcher ûwer mac "% 6+ 7 6+ 4 eine elle? LP 130,39 "% + mach sich irlengen mit einer ellin, ob irs gedenkit? OP 160,6f. swie vil er sich dar umb gearweitot, so enmag er sich nicht erlengen L 22/ 34/ 45 Wer ist unter euch / der seyner lange eyn elle tzusetzen muge? Ein etwas anderes Bild bietet sich im dritten Beispiel: Mt. 3,9 = Lk. 3,8 W 97 Lk. 3,8 ... þatei mag guþ us stainam þaim urrausjan barna Abrahama T 46,10-13 Lk. 3,8 uuanta mahtig ist got fon thesen steinon aruuekkan abrahames barn. O I,23,47f. Gót mag these kísila joh álle these félisa / joh these stéina alle irquígken zi manne MvB 12 Mt. 3,9 ... daz got mechtic ist von disen steinen irweckin die sune Abrahâmis 17 Falls sich mehr derartige Fälle zwischen den Fassungen der Lutherbibel finden ließen, widerspräche das der Einschätzung von Peilicke (1997, S. 233), die schreibt, „in bezug auf die Modalverben können und mögen benutzt er [Luther] das bereits Vorhandene, ihm als Muster Vorgeprägte“. <?page no="155"?> 155 Korpus und Korpuskel. Diachrone Onomasiologie am Beispiel von Modalverben MvB 121 Lk. 3,8 ... daz got vormac von disen steinen irweckin sune Abrahâmis BE 8,2f. Lk. 3,8 got ist gewaltig zcu erquicken Abrahams sun aus den steinen MB 209,59f. Lk. 3,8 gott ist gewaltig von disen steinen zeersten die súne abrahams MB 13,49-51 Mt. 3,9 gott ist gewaltig von disen steinen ze ersten die sún abrahams L 22 (34 u. 45) Lk. 3,8 Gott kan Abraham aus disen steiynen kinder erwecken Mt. 3,9 gott vermag dem Abraham aus diesen steyn kinder erwecken Die Evangelienversionen des 14. Jahrhunderts haben hier die Fügung ist gewaltig. Ähnliches zeigte sich bereits im Tatian mit mahtig ist. Luther hat kan neben vermag. 3. Zusammenfassung Die aus dem onomasiologisch untersuchten ‘Korpuskel’ gewonnenen Ergebnisse für die Modalverbverwendung von Wulfila bis Luther lassen sich grob so zusammenfassen: NOTWENDIGKEIT ERLAUBNIS FÄHIGKEIT got. ahd. as. mhd. fnhd. got. ahd. as. mhd. fnhd. got. ahd. as. mhd. fnhd. müssen + + + + sollen + + + + mögen + + + + + vermögen + dürfen + können + kein Mv. 1 2 3 4 5 6,7 8 8,9 1 = (not)durft haben, not sein (unpers.) 2 = bedürfen 3 = „Schuld sein“ 4 = „erlaubt sein“ 5 = „(ge-)ziemen“ 6 = „recht sein“ 7 = „Macht haben“ 8 = „mächtig sein“ 9 = „gewaltig sein“ Tab. 1: Übersicht der Modalverbverwendung Zu NOTWENDIGKEIT : Durchgehend von Gotisch bis Frühneuhochdeutsch ist sollen. Das Modalverb müssen ‘steigt’ sozusagen erst im Mittelhochdeut- <?page no="156"?> 156 Historische Sprachwissenschaft schen ‘ein’. Dürfen hat diese Funktion nur im Gotischen, allerdings sind für das Alt- und Frühneuhochdeutsche Ausdrücke aus der Wortfamilie von dürfen belegt. Zu ERLAUBNIS : Der Ausdruck mit Modalverben ist quer durch die gesamte Diachronie ein Randphänomen. Im Alt- und Frühneuhochdeutschen erscheint vereinzelt müssen. Erst Luther verwendet mögen. Zu FÄHIGKEIT : Auch hier ist ein Modalverb diachron dominant, nämlich mögen. Daneben erscheint bei Luther präfigiertes vermögen sowie erstmals jenes Modalverb, das heute diese Domäne behauptet, nämlich können. Hat dieser Korpuskel-Versuch Vorteile gegenüber einer Großkorpus-Analyse? Die Antwort darauf kann ich selber schlecht geben. Das ist eine Sache der Diskussion. Ich meine aber Folgendes: 1) Mit diesem onomasiologisch-funktionalen Ansatz umgeht man die interpretatorischen Probleme, die sich daraus ergeben, dass die Modalverben einen semantischen ‘Hof’ haben. 2) Damit hängt zusammen, dass sich Konkurrenzverhältnisse und Ablösungsprozesse sichtbar machen lassen. 3) Die Redeweise vom ‘System der Modalverben’ - ob in Diachronie oder Synchronie - ist nicht adäquat. Denn in einer Reihe von Funktionsbereichen stehen Modalverben in Konkurrenz mit nicht-modalen Ausdrucksweisen, die sich mittels eines semasiologischen Korpus-Zugriffs nicht in den Blick bringen lassen. Abschließend soll Gerd Fritz (Fritz 1997, S. 28) zu Wort kommen, der schreibt: Für die historische Semantik sind beide Perspektiven von Bedeutung. Man kann fragen, mit welchen Ausdrücken im Althochdeutschen eine Erlaubnis ausgedrückt werden kann - nämlich mit muoz und mit mag - (funktionale Perspektive), und man kann fragen, welche Verwendungsweise(n) muoz im Althochdeutschen hat - nämlich zum Ausdruck der Tatsache, daß eine Handlung oder ein Sachverhalt durch äußere Umstände bestimmt ist (lexikalische Perspektive). In beiden Perspektiven kann man historische Veränderungen beschreiben. Die Frage ist nur: Wie nimmt man die ‘funktionale“ Perspektive’, die ich die ‘onomasiologische’ genannt habe, ein? Dieser Beitrag sollte ein Vorschlag dazu sein. <?page no="157"?> 157 Korpus und Korpuskel. Diachrone Onomasiologie am Beispiel von Modalverben Literatur Quellen/ Korpustexte Bechstein, Reinhold (Hg.) (1867[1966]): Des Matthias von Beheim Evangelienbuch in mitteldeutscher Sprache 1343. Leipzig. [Nachdruck Amsterdam]. Behaghel, Otto (Hg.) (1984): Heliand und Genesis. Hrsg. v. Burkhard Traeger. 9. Aufl. Tübingen. Gerhardt, Christoph (Hg.) (1970): Die Evangelien der Guten Meister von Prag. München. Erdmann, Oskar (Hg.) (1882): Otfrids Evangelienbuch. Halle (Saale). Feudel, Günter (Hg.) (1961): Das Evangelistar der Berliner Handschrift Ms. Germ. 4° 533. 2 Bde. Berlin. Hench, George Allison (Hg.) (1890): The Monsee Fragments. Newly collated text with introduction, grammatical treatise and exhaustive glossary and a photo-lithographic fac-simile. Straßburg. Kurrelmeyer, William (Hg.) (1904): Die erste deutsche Bibel. Erster Band. (Evangelien). Tübingen, S. 24. Luther, Martin (1534): Biblia/ das ist/ die gantze Heilige Schrifft Deudsch. Wittenberg. Luther, Martin (1545): Biblia: Das ist: Die gantze Heilige Schrifft/ Deudsch/ Auffs new zugericht. Wittenberg. Luther, Martin (1522): Das Newe Testament Deutzsch. Wittenberg. Masser, Achim (Hg.) (1994): Die lateinisch-althochdeutsche Tatianbilingue Stiftsbibliothek St. Gallen Cod. 56. Göttingen. Schönbach, Anton Emmanuel (Hg.) (1886-1891): Altdeutsche Predigten. 3. Bde. Graz. Streitberg, Wilhelm (Hg.) (2000): Die Gotische Bibel, Bd. 1: Der gotische Text und seine griechische Vorlage. Mit einem Nachtrag von Pierguiseppe Scardigli, 7. Aufl. Heidelberg. Wissenschaftliche Literatur Betten, Anne (Hg.) (1990): Neuere Forschungen zur historischen Syntax des Deutschen. Referate der Internationalen Fachkonferenz, Eichstätt 1989. Tübingen. Fritz, Gerd (1997): Historische Semantik der Modalverben. Problemskizze - Exemplarische Analysen - Forschungsüberblick. In: Fritz/ Gloning (Hg.), S. 1-157. Fritz, Gerd/ Gloning, Thomas (Hg.) (1997): Untersuchungen zur semantischen Entwicklungsgeschichte der Modalverben im Deutschen. (= Reihe Germanistische Linguistik 187). Tübingen. <?page no="158"?> 158 Historische Sprachwissenschaft Peilicke, Roswitha (1997): Zur Verwendung der Modalverben können und mögen im frühneuzeitlichen Deutsch (1500 bis 1730). In: Fritz/ Gloning (Hg.), S. 209-247. Schildt, Joachim (1988): Modalwörter - Aufkommen und Verbreitung in Texten des 16. Jahrhundert. In: Wiesinger (Hg.), S. 247-262. Schildt, Joachim (1990): Modalwörter im Frühneuhochdeutschen. Die Entwicklung ihres Bestandes. In: Betten, Anne (Hg.): Neuere Forschungen zur historischen Syntax des Deutschen. Referate der Internationalen Fachkonferenz, Eichstätt 1989. Tübingen, S. 153-162. Simon, Horst J. (1996): Zur Problematik einer Geschichte der deutschen Abtönungspartikeln. Fallstudien anhand eines Sprachlehrbuchs von 1424. In: Sprachwissenschaft 21, S. 262-300. Wiesinger, Peter (Hg.) (1988): Studien zum Frühneuhochdeutschen. Emil Skála zum 60. Geburtstag, Göppingen. <?page no="159"?> - ! Überlegungen zum Erstellen von Korpora spätmittelalterlicher und frühneuzeitlicher Fachsprachen 1. Korpus: eine unentbehrliche Materialbasis des Sprachhistorikers Es besteht heute kein Zweifel darüber, dass die Arbeit mit Korpora aus der linguistischen Untersuchung von Phänomenen der Gegenwartssprache nicht mehr wegzudenken ist. Für Historiolinguisten stellten Korpora jedoch seit jeher eine unentbehrliche Materialbasis ihrer Forschung dar: Dabei wird hier unter dem Begriff ‘Korpus’ zusammen mit Carmen Scherer (2006, S. 3) eine Sammlung von authentischen Texten oder Textteilen verstanden, die bewusst nach bestimmten sprachwissenschaftlichen Kriterien ausgewählt und geordnet werden. 1 Der Beschreibung der historischen Entwicklungsstufen des Deutschen lagen schon immer schriftliche Überlieferungen zugrunde, die je nach der Fragestellung zu einem Korpus zusammengestellt wurden. So habe ich bei meiner Untersuchung der frühneuhochdeutschen Kanzleisprache des Kuhländchens mein eigenes Korpus - ähnlich wie Generationen von Sprachhistorikern vor mir - aufgebaut, das aus fünf Handschriften besteht, und zwar den Stadtbüchern " # " « ® » -¯ % ¼" % ¥ " [¯ % " « ^ | ¡ ¡ " ' ` @ ! % #@ ||@ @ ^ " " | chen Korpus wurden dann die notwendigen Daten auf Belegzetteln gespeichert und anschließend ausgewertet. Die technischen Errungenschaften der letzten Jahrzehnte haben den Historiolinguisten neue Möglichkeiten eröffnet. Die Digitalisierung von Handschriften in Archiven und Bibliotheken erleichtert wesentlich den Zugang zum Material, zumal die digitalen Versionen frei über das Internet zugänglich sind. Die Menge des Materials kann jedoch schnell unüberschaubar werden: Außerdem stellen die digitalisierten Handschriften in den einzelnen Archiven eine heterogene 1 „In jüngerer Zeit wird zudem häufig die Computerlesbarkeit als Kriterium für die Korpusdefinition herangezogen.“ (Scherer 2006, S. 17). Einer engen Auffassung nach ist ein Textkorpus „eine annotierte, d.h. mit Zusatzinformationen versehene elektronische Textsammlung für linguistische, computerlinguistische oder philologische Fragestellungen“ (URL 1, S. 3). Zu den einzelnen Korpusdefinitionen und -merkmalen siehe Wolf (2010, S. 17ff.). <?page no="160"?> 160 Historische Sprachwissenschaft Gruppe dar, die das Schrifttum unterschiedlichen Typs und Genres - von literarischen Denkmälern über kanzleisprachige Dokumente bis zu Sach- und Fachtexten - umfasst. Um das zeitaufwendige Durchsuchen der Webseiten der einzelnen Archive einzusparen, sind Projekte zu begrüßen, die das verfügbare Material nach bestimmten Kriterien sortieren und digitalisierte Quellen dem breiten Publikum zur Verfügung stellen. Zu solchen Projekten gehört neuerdings die Würzburger Datenbank Digitale Volltexte zur Geschichte der deutschen Fach- und Wissenschaftssprache. Eine bibliographische Sammlung digitalisierter deutscher Fachtexte vom Mittelalter bis zur frühen Neuzeit (vgl. den Artikel von Ralf Zimmermann und Peter Stahl in diesem Band). Eine noch effektivere Hilfe als Datenbanken digitalisierter Handschriften bieten elektronische Korpora computerlesbarer historischer Texte, die zurzeit an mehreren Instituten aufgebaut werden. Deren Zahl ist jedoch wesentlich geringer als die Zahl der Korpora, die mit Texten aus den letzten 50 Jahren arbeiten (vgl. Scherer 2006, S. 26). Das Erstellen solcher Korpora ist nämlich mit mehreren Problemen verbunden. 2. Zu Problemen beim Erstellen historischer Textkorpora Das größte Problem stellt wahrscheinlich die Umwandlung des handschriftlichen Textes in eine computerlesbare Datei dar. Da dieser Prozess nicht automatisch erfolgen kann, stellen Transliteration, Transkription bzw. Edition des Textes einen wichtigen und unumgänglichen Schritt dar. 2 Welches der genannten Verfahren soll man aber wählen? Bei der Transkription geht es um eine buchstabengetreue Wiedergabe des Originaltextes: Da für die linguistischen Untersuchungen die Sprachform des Originals möglichst genau zur Verfügung gestellt werden soll (vgl. z.B. Reichmann 1978), könnte es so scheinen, dass gerade die Transliteration die geeigneteste Vorgehensweise ist. Solche buchstabengetreue Textwiedergabe erschwert jedoch den anderen Rezipienten (z.B. Historikern) wesentlich die Arbeit. Ist es aber auch für Linguisten notwendig, all die Züge der Handschrift zu reproduzieren? Kann man einige wenige sog. Normalisierungen, welche die für die linguistische Analyse bedeutsamen Informationen grundsätzlich nicht verzerren (z.B. die Auflösung von Abkürzungen, die Vereinheitlichung der s-Schreibungen), nicht zulassen? Meiner Meinung nach kann man mit einem gewissen Grad an Normalisierungen rechnen: also eher der Transkription der Texte den Vorzug geben. Es sollte jedoch immer angegeben werden, nach welchen Kriterien transkribiert wurde und wel- 2 Zu den verschiedenen Bearbeitungsansätzen vgl. z.B. Brom (2009). <?page no="161"?> 161 Erstellen von Korpora spätmittelalterlicher und frühneuzeitlicher Fachsprachen che Normalisierungen vorgenommen wurden. Wie aber die Autoren der vergleichenden Analyse von historischen und digitalen Korpora (vgl. URL 1, S. 7) festgestellt haben, gibt es - was den Grad der Diplomatizität angeht - keine einheitlichen Standards, und es wird in den Dokumentationen der Korpora selten erwähnt, nach welchen Kriterien transkribiert wurde. Einen einfacheren Weg als die mühsame Anfertigung von Texttranskriptionen stellt die Verwendung der bereits vorhandenen Editionen dar. Diese sind jedoch auch nicht unproblematisch. Besonders ältere, oft von Historikern herausgegebene Editionen weisen einen hohen Grad an Normalisierungen (keine Unterscheidung zwischen i/ y-, ei/ ai-Schreibungen, Vereinheitlichung der Groß- und Kleinschreibung usw.) auf, so dass sie z.B. für graphematische Untersuchungen unbrauchbar sind. Man kann sie vielleicht für die Untersuchung lexikalischer, morphologischer oder syntaktischer Erscheinungen verwenden, auf jeden Fall ist aber eine Revision nach den handschriftlichen Quellen empfehlenswert. Als eine optimale Lösung wurde die sog. dynamische Edition vorgeschlagen, d.h., die Texte werden in Form einer minimal normalisierten Transkription gespeichert, wobei diese Transkription anschließend je nach dem Zweck der Edition noch weiter bearbeitet werden könnte. Die ursprüngliche Version wäre jedoch jederzeit wieder abrufbar (vgl. Wolf 1989, S. 375ff.). Ein anderes Problem ist die Art und Weise sowie der Umfang der Annotation. Es wird konstatiert, dass „die Annotation von Texten älterer Sprachstufen in einigen Bereichen schwieriger ist, was zum einen an einer niedrigen Standardisierung liegt, andererseits an den fehlenden Ressourcen wie maschinenlesbaren Lexika etc.“ (URL 1, S. 5). Bei einigen schon fertigen Korpora wird nur die Volltextanzeige angeboten, bzw. die Suchfunktion. Die Suchfunktion erweist sich jedoch eher als unpraktisch, weil einzelne Lexeme unterschiedliche graphematische Varianten aufweisen, so dass jede einzelne Form im Vornhinein bekannt sein müsste, um durch die Suchfunktion belegbar zu sein. Viel praktischer ist die Herstellung von Wortlisten, die z.B. als Basis für die Untersuchung der Graphematik oder der Wortbildung dienen können. Als Beispiel kann hier die Wortliste zum Olmützer medizinischen Korpus an- ` | ¡ " ' ` @ ! ± @ _ > $ Umfang von 233 Folioseiten, die fünf unterschiedliche Textsorten repräsentieren. Die Texte wurden zuerst transkribiert und danach mittels des Programms TUSTEP bearbeitet, was die Herstellung einer Wortliste ermöglichte, die alle Textwörter - Tokens beinhaltet. Lediglich Lexeme wie der, die, das, und, oder <?page no="162"?> 162 Historische Sprachwissenschaft usw. wurden nicht in die Wortliste aufgenommen. Insgesamt wurden nach dieser Reduktion 2 657 Tokens identifiziert. In der Wortliste wird die Vorkommenshäufigkeit der konkreten Tokens in Klammern angegeben, danach steht die Angabe der Seite und Zeile in der Edition, so dass der Beleg schnell zusammen mit dem ganzen Kontext auffindbar ist. abatis ( 2) 41.10 17 abbatissa ( 1) 10.16 abchäm ( 1) 35.20 abe ( 4) 61.16, 73.11, 98.8, 106.26 aben ( 3) 164.31, 165.9, 170.6 abent ( 2) 15.10, 22.3 abermal ( 1) 4.11 abern ( 1) 168.9 abgehawen ( 1) 138.8 abgenanten ( 1) 175.15 abgeschlagen ( 1) 115.21 abgeslagen ( 2) 133.9 10 abhanget ( 1) 68.2 abir ( 1) 70.22 ablosen ( 1) 133.11 abnemen ( 1) 90.22 abradatur ( 1) 25.19 abrocanum ( 1) 178.26 Abrotanum ( 2) 91.3, 178.5 absinthei ( 1) 59.5 Absintheum ( 1) 91.22 absinthij ( 1) 132.18 absinthium ( 5) 7.26, 8.2, 14.15,132.21 24 absintium ( 2) 14.22, 178.26 absithium ( 1) 8.14 ^ @ * ^ ° ` " ] ° ¼ ° " ° '! ± Diese Wortliste wurde bei der graphematischen Analyse benutzt. Mit deren Hilfe ermittelte ich relevante dialektale Merkmale, die sich als sehr aufschlussreich für die topographische Eingliederung der Texte erwiesen haben. Alle untersuchten Texte werden nämlich zwar zurzeit in Olmütz aufbewahrt, auf den ersten Blick unterscheiden sie sich aber durch ihre dialektalen <?page no="163"?> 163 Erstellen von Korpora spätmittelalterlicher und frühneuzeitlicher Fachsprachen Merkmale, was andeutet, dass sie zu unterschiedlichen Regionen Bezug haben: In den Texten fehlt jedoch jeder Vermerk über ihre Autoren oder ihren Entstehungsort. Anhand der Wortliste wurde nach Lemmata das Register der Wörter mit graphetischer Varianz hergestellt. Auf eine Bearbeitung der Wortliste in vollem Umfang wurde verzichtet: Ich habe mich nur auf Textwörter beschränkt, die nicht nur unterschiedliche Flexionsmerkmale, sondern auch graphische Varianz aufweisen, so dass sie wichtige Informationen über die dialektalen Merkmale der Texte bieten. bibenelle f. Pipinella, Pimpinella, saxifraga bebenel 72.22 bebenelle 84.35 bibinell 55.12 bibnel 71.3 pibinel 52.28, 53.30, 54.9 pibinell 52.29 34, 54.6 pipnelle 174.6 bîbôz stm. Artemisia, Beifuss beyfes 90.29 beyfus 68.28, 74.7, 84.27 32, 85.2 6, 90.45 9 12 15 16 18 23 26 27 30 32 peyposs 174.6 pheyfus 60.8 peipos 132.26 klobe-, knobe-louch stm. conebelauch 94.6 7 conobelauch 93.31, 94.8 cnobelauch 93.25, 94.4 knobelauch 69.13, 73.1, 74.10, 79.22, 93.20 22 27 33, 94.1 10 knoflach 26.26, 50.12, 54.35 phlaster stm. pflaster 15.27, 23.6, 34.15, 35.21, 41.20, 42.5 33, 44.22 23, 48.15 19, 128.4, 133.33, 139.5, 140.1, 141.19 24, 151.16,153.22 23, 154.2 16, 156.20, 159.17, 162.4, 173.29, 179.8 10, 185.5 23,186.20, 188.16 21 pflasterl 141.23, 156.24 33, 157.26 pflastern 53.12, 54.4, 118.22 pflersterl 152.20 <?page no="164"?> 164 Historische Sprachwissenschaft pflester 135.22, 153.24, 156.18 21 22 pflesterl 138.1 4, 141.9 12 25 33, 145.14, 147.20 30, 152.14 16 27, 154.4 7 8 11, 155.30, 156.5 7 9 10, 157.27 31 33 35,158.3 5 6, 160. 14, 161.8, 168.31, 169.2 28, 188.11 pflesterle 138.28, 152.15, 173.14 pflesterlei 138. 13, 152.11, 159.6 pflesterlein 138.11, 141.12, 146.14,152.13, 154.9 12, 157.34, 158.2, 159.21,162.29 pflesterley 152.24 26, 154.5 10, 157.4 pflesterleyn 136.10 pflesterlin 138.12, 144.8 pflesterll 138.13, 141.27, 152.30, 156.1 pflesterlle 152.31, 164.12 plaster 67.16, 68.27, 72.1, 73.2, 74.25 plosster 96.34 ploster 60.4, 61.26, 62.12 15 18 21, 63.5, 67.11, 68.19, 70.5, 72.5, 74.21 27 28, 93.1 3, 95.11, 97.24, 99.25, 102.14 23 32, 103.1 17, 105.1, 106.21 23 28,107.28, 108.2 ^ @ * ^ ° ` " ` " ]ª ` ! ° '! ± Eine Lemmatisierung in dem Sinne, dass man im Text bzw. in der Wortliste direkt nach Lemmata suchen könnte, wäre ideal. Während aber für die Gegenwartssprache die Lemmatisierung automatisch realisiert werden kann, stellt die hier illustrierte graphematische Varianz ein gewisses Problem dar: Die Texte müssen manuell annotiert werden, was sehr zeitaufwendig ist. Ähnliche Probleme tauchen bei der Annotation der Texte auch auf den weiteren Ebenen auf. Zum Beispiel beim Parsing, d.h. bei der Annotation auf der syntaktischen Ebene, muss die Beschreibung jedes konkreten Satzes von Hand vorgenommen werden, was in der Praxis bedeuten würde, dass nur kleinere Korpora so annotiert werden können. Als Beispiel möchte ich hier die Kodierung eines Satzgefüges von Dana Dogaru (2006) anführen, die ihr aus Predigten des siebenbürgisch-sächsischen lutherischen Pfarrers Damaseus Dürr bestehendes Korpus einer syntaktischen Analyse unterzogen hat. Das Korpus umfasst insgesamt 57 Seiten, davon lagen 27 in editierter, 32 in handschriftlicher Form vor. Für die Analyse hat Dogaru eine rechnerunterstützte Textbearbeitungsmethode gewählt, die an der Philipps-Universität Marburg entwickelt wurde. <?page no="165"?> 165 Erstellen von Korpora spätmittelalterlicher und frühneuzeitlicher Fachsprachen Abb. 3: Kodierung eines Satzgefüges (Dogaru 2006, S. 30) Der fortlaufende Text wurde zeilenweise eingespeist und die einzelnen syntaktischen Elemente mit Kodierungen versehen, wobei die Wortart, der Satzgliedwert, der Satzwert und ggf. auf der Satzebene die Koordination gleichgeordneter Elementarsätze angegeben wurden. Von der Autorin werden die Vorteile dieser Vorgehensweise hervorgehoben, zu denen ihrer Meinung nach u.a. gehören: Behandlung unterschiedlicher Fragestellungen, die durch die Kombinationsmöglichkeiten erlaubt wird, die Zuverlässigkeit der Materialauswertung, die Möglichkeit des Vergleichs von Texten unterschiedlicher Provenienz (vgl. Dogaru 2006, S. 29ff.). Dogaru hat jedoch ein ziemlich kleines Korpus ausgewertet. Die Annotation umfangreicher Korpora erfordert eine Zusammenarbeit mit fachkundigen Experten, weil die syntaktische Analyse frühneuhochdeutscher - manchmal sehr komplizierter - Sätze wissenschaftliche Arbeit sui generis darstellt. Die Schwierigkeiten, die mit der Annotation der historischen Texte verbunden sind, verursachen, dass nur sehr wenige Texte auf mehreren Ebenen annotiert sind. Nach den Angaben bei Kroymann et al. (URL 1, S. 9ff.) ist lediglich das Bonner Frühneuhochdeutsch-Korpus mit bibliographischen Angaben (und anderen Headerinformationen) versehen, es wurde hier eine strukturelle <?page no="166"?> 166 Historische Sprachwissenschaft Annotation realisiert, man kann nach Lemmata suchen und es sind auch morphologische Angaben und Wortartangaben vorhanden. Lemma- und morphologische Angaben enthält auch das Bochumer Mittelhochdeutsch-Korpus, die anderen historischen Korpora des Deutschen verfügen über bibliographische Angaben und strukturelle Annotation. 3 Angesichts der hier kurz skizzierten Probleme kann man sich fragen, was eigentlich ein Sprachhistoriker von elektronischen Korpora erwarten sollte und was er eigentlich für seine Forschung braucht. Dies hängt selbstverständlich von der jeweiligen Fragestellung ab. Wie sollte also ein historisches bzw. diachrones Korpus zusammengestellt und annotiert werden? 3. Zum Erstellen des Korpus medizinischer handschriftlicher Texte Vor diesen Fragen stehen wir nun bei der Arbeit am Projekt der Tschechischen Akademie der Wissenschaften, dessen erstes Ziel es ist, einen Katalog der Handschriften aus dem Bereich der medizinischen Fachprosa des späten Mittelalters und der Frühen Neuzeit, die in tschechischen Archiven und Bibliotheken gelagert werden, zusammenzustellen. In der darauf folgenden Phase soll anhand des Katalogs ein Korpus der medizinischen handschriftlichen Texte der gegebenen Periode aufgebaut werden. Von der Bedeutung eines solchen Korpus bin ich überzeugt, und das aus mehreren Gründen: Das Fachschrifttum wurde als Quelle der Sprachgeschichtsschreibung lange Zeit nur unzureichend berücksichtigt. Auch in den meisten vorhandenen Korpora ist es zu wenig vertreten, dabei zeigen die Ergebnisse der bisherigen Forschung, dass „sich in Fachschriften des Spätmittelalters bestimmte Entwicklungen tendenziell schon früher gezeigt haben, als bisher in der sprachgeschichtlichen Forschung aufgrund anderer Quellenorientierung angenommen wurde“ (Döring 1989, S. 35). Das Fachschrifttum, insbesondere das medizinische Schrifttum, war viel weiter verbreitet als z.B. die schöngeistige Literatur. Nach Haage/ Wegner (2007, S. 47) „war 90% der deutschsprachigen Literatur des Mittelalters Fachliteratur, die ohne Unterbrechung vom 9. bis zum 16. Jahrhundert auch in Regionen, in denen es keine nennenswerte Dichtungsproduktion gab, verfasst wurde“. 3 Strukturelle Annotation markiert einerseits die grafische (wie z.B. Zeilen oder Seiten) und andererseits die logische Struktur des Textes (Absätze, Kapitel). Positionelle Annotationen weisen einzelnen Tokens, die an einer bestimmten Korpusposition stehen, Informationen zu, typischerweise Wortart, Lemma oder flexionsmorphologische Informationen, siehe Kroymann et al. (2004, S. 4f.). <?page no="167"?> 167 Erstellen von Korpora spätmittelalterlicher und frühneuzeitlicher Fachsprachen Im Rahmen unseres Projekts mussten als erster Schritt Handschriften in Bibliotheken und Archiven erfasst werden: Diese Phase ist fast abgeschlossen. Es wurde einerseits mit vorhandenen Handschriftenkatalogen gearbeitet, andererseits wurden Handschriften vor Ort gesichtet. Es hat sich gezeigt, dass die Beschreibung der Handschriften in den Katalogen nicht genau genug, manchmal sogar fehlerhaft ist. Die medizinischen Handschriften stellen meist eine heterogene Sammlung von verschiedenen Texten dar, wobei in den vorhandenen Handschriftenbeschreibungen zahlreiche Texte überhaupt nicht ausgewiesen sind. Den nächsten Schritt stellt die Auswahl der Texte dar, die für eine grundsätzliche philologische Beschreibung und Auswertung, in der Terminologie der Korpuslinguistik „das Erstellen einer Headerinformation“ bestimmt werden. Als Kriterium bei der Auswahl der Texte wird die Textsortenzugehörigkeit herangezogen: Es sollten die Texte, die eine und dieselbe Textsorte repräsentieren beschrieben werden. 4 Diese Vorgehensweise ermöglicht es, die Basis für Untersuchungen zur Textsortentradition und zur Tradition von Makrostrukturen, anschließend für die Analyse syntaktischer, morphologischer oder lexikalischer Merkmale, zu schaffen. Dass der Aufbau solcher textsortengebundener Sammlungen auch anhand von Handschriften aus mährischen und böhmischen Archiven denkbar ist, beweist unsere kleine Sammlung der Monatsregeln, die aufgrund der Handschriften " ` ¥ ` [ | " [ ` ¢ |gebaut wurde. In den aus dem 15. Jahrhundert stammenden Handschriften wurden insgesamt 6 Versionen der Monatsregeln gefunden, 3 in Versform und 3 Prosafassungen, so dass sich die Möglichkeit bietet, die einzelnen Ausprägungen dieser Gattung unter verschiedenen Aspekten zu vergleichen. 5 Zur Illustration werden im Folgenden die einzelnen Versionen der Anweisungen für den Monat Januar angeführt. & ` " ¢ | ` " `@ Iatromathematischen Hausbuches (Hs. Ie7: Bl. 1r-24v) beinhalten nicht nur medizinische Anweisungen und Aderlassempfehlungen, sondern auch allgemeine Ratschläge, die die richtige Lebensweise angehen: 4 Für textsortengebundene Materialkorpora, die eine wichtige Ergänzung zu Textkorpora darstellen, die textsortenübergreifend zusammengestellt sind, plädiert z.B. Franz Simmler, (vgl. Simmler 2005, S. 197). 5 Zu den syntaktischen Realisierungsformen der Anweisungen in den Monatsregeln aus ¢ ` @ ! ' @ <?page no="168"?> 168 Historische Sprachwissenschaft Genner pin ich genant trinkchen / vnd essen ist mir wol erkannt In / diesem moned ist nicht gut vonn / dem menschen lassen pluet Nit / ensalbe dein gepain wann der mon / trait wasser haim pawm pelczen / vnd hewser pawen rat ich dir mit / trewen Wer geen oder reiten sol dem / gelinget des weges nicht wol Monatsregeln in der Handschrift Ic9 (Bl. 82r-83r), sog. Grazer Monatsregeln, enthalten Anweisungen, die entweder die richtige Ernährung (wie beim Januar) oder das Aderlassen betreffen: Januarius Jn dem Jenner ist gesunt warmes essen zw aller stund Ebenso kurz gefasst sind Monatsregeln in der Handschrift Ib25 (Bl. 59ra-59va): Genner Vor dem tische soltu nemen wein Das sey die ertzney deyn ` '< | ` " ¢ | ` " `@ Iatromathematischen Hausbuches (Hs. Ie7: Bl. 1r-24v) sind als Exzerpte aus griechischen und arabischen Autoren konzipiert: Genner Es spricht der maister Almansor / daz man schull in dem / monad guten wein nüchter trinken / vnd dein latwerien sol sein dialatenus / das solt du nüchter essen Ob du wild / dyatragantum solt du in ainem swais / pad trinkchen Chain getrankch zu erczney / solt du nit nehmen dein trankch / sol sein Imber vnd Repaticum pheffer vnd / negelein vnd semlich speczerey solt / du nüchter essen Du solt auch in / disem moned nit lassen wer sein / aber nicht empern mag der sol czu / der lebern lassen an dem tengken arm Deutsche Monatsregeln in der Handschrift Ic9 (Bl. 72v-82r) sind immer mit den lateinischen Versen ‘In jano claris’ eingeleitet. Die Monatsregeln bieten ausführliche diätologische Anweisungen, die mehr als ein Blatt einnehmen und die durch die Humoralpathologie (Vier-Säfte-Lehre) begründet werden: In dem Jänner trinchk vastend einen güten / trunchk weins vnd ob dw wild so lasse / vnd nym einen tranchk cze lössunge des / leibes News warmes pad iss 7 7 ! _ "% "% 4 <?page no="169"?> 169 Erstellen von Korpora spätmittelalterlicher und frühneuzeitlicher Fachsprachen ) "6 _ 7 "% ) vncz an daz eben / ächt dez lentzen daz sind funfczehen tag / von den mert "% ! 4 "% 6 6 "% "% ! trieffung der augen [...] Einem chalter natur geb man ainen Si / rupen von fumi terre daz ist erd rauch ... Für jeden Monat der Monatsregeln in der Handschrift Ib25 (Bl. 113ra-117ra) werden zuerst diätologische Anweisungen und Aderlassempfehlungen gegeben, gleich daran werden Prognosen über ‘verworfene Tage’ des betreffenden Monats angeschlossen: Von der Jener Merk der erst mon des / iars der heißt czu latein / Januarius das ist als vil / gesprochen als ein tor des / iars daruon hat ein meyster / genant galienus geschriben / das sich ein itlich mensche / beware In disem monden / mit gesuntter speiße die / weder czu kalt noch czu / heiß sey vnd guten wein / mag man nuchtern tricken / Man sol auch nicht vil / baden ingwer venchel yspen / rawten poley der itlich mit / wein getemperiert vnd getrunken / das raynigt sere die prust / Man sol auch nich vil lassen ... In der nächsten Phase des Projekts wird nach der durchgeführten Auswahl von Texten deren Transkription vorgenommen und in Zusammenarbeit mit den Informatikern diese als computerlesbare Textdatei öffentlich zugänglich gemacht. Bisher rechnen wir nicht damit, dass die Texte strukturell oder positionell annotiert werden. Sie sollen jedoch mit einem Header versehen werden, der Informationen zu dem Text sowie Kommentare zur Vorgehensweise bei der Transkription (Normalisierungen) enthalten sollte. Auf diese Weise soll ein Korpus erstellt werden, das einen wichtigen Beitrag zur systematischen Erforschung von historischen Fachsprachen leisten würde. 6 Literatur Quellen/ Korpustexte " | #`@ '« @ ± % [ ¢ @ " | #`@ '« @ ¦ % [ ¢ @ " | #`@ ¦ '« @ % [ ¢ @ 6 In der Vergangenheit sind drei Materialkorpora (das Würzburger, Erfurter und Nürnberger Korpus) unter wortbildungsmorphologischen Aspekten aus wissensvermittelnden Texten zusammengestellt worden (vgl. Simmler 2005, S. 190). <?page no="170"?> 170 Historische Sprachwissenschaft Wissenschaftliche Literatur Brom, Vlastimil (2009): Die Edition als eine ständige Herausforderung für die Philologie. Die gedruckte sowie die elektronische Ausgabe der ‘Deutschen Chronik von [ª @ * # - % - ! % - ' `@ * & - ` tik und die neuen Herausforderungen in Forschung und Lehre in Tschechien. Brno, S. 91-101. Dogaru, Dana Janetta (2006): Rezipientenbezug und -wirksamkeit in der Syntax der Predigten des siebenbürgisch-sächsischen Pfarrers Damasus Dürr (ca.1535-1585). Hildesheim/ Zürich/ New York. Döring, Brigitte (1989): Fachtexte als Gegenstand der Sprachgeschichte. In: Deutsche Sprache und Literatur in Mittelalter und früher Neuzeit. Wissenschaftliche Beiträge der Friedrich-Schiller-Universität. Jena, S. 35-42. Haage, Bernhard Dietrich/ Wegner, Wolfgang (2007): Deutsche Fachliteratur der Artes in Mittelalter und Früher Neuzeit. Berlin. Reichmann, Oskar (1978): Zur Edition frühneuhochdeutscher Texte. Sprachgeschichtliche Perspektiven. In: Zeitschrift für deutsche Philologie 97, S. 337-361. Scherer, Carmen (2006): Korpuslinguistik. Heidelberg. Simmler, Franz (2005): Zur Bedeutung textgebundener Materialkorpora für die Erforschung der deutschen Sprachgeschichte. In: Schwitalla, Johannes/ Wegstein, Werner (Hg.): Korpuslinguistik deutsch: synchron - diachron - kontrastiv. Tübingen, S. 189-199. ! % - ' * _ | " ° " " @ (= Sprache - System und Tätigkeit 27). Frankfurt a.M. ! % - ' ± * " ° ¥ @ # µ # µ Edition. (= Wissensliteratur im Mittelalter. Schriften des Sonderforschungsbereichs 226 Würzburg/ Eichstätt 41). Wiesbaden. ! % - ' * ^ " ° > " " | " - ` ¥ ` [ | " [ ` ¢ @ * - % Meier, Jörg/ Puchalová, Ingrid (Hg.): Deutsch-slawische Kontakte - Geschichte und Kultur. Košice, S. 83-93. ! % - (2012): Adressatenbezug in Monatsregeln. Eine Studie anhand der " | " ` ¥ ` [ | " [ ` ¢ @ In: Brünner Beiträge zur Germanistik und Nordistik (BBGN) 26, 1-2, S. 51-65. Wolf, Norbert Richard (1989): Computergestützte sprachwissenschaftliche Untersuchungen an frühneuhochdeutschen Texten. In: Schwob, Anton/ Kranich-Hofbauer, Karin/ Suntinger, Diethard (Hg.): Historische Edition und Computer. Graz, S. 371-383. Wolf, Norbert Richard (2010): Korpora in der Korpuslinguistik. In: Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.): Kompendium Korpuslinguistik. Heidelberg, S. 17-25. <?page no="171"?> 171 Erstellen von Korpora spätmittelalterlicher und frühneuzeitlicher Fachsprachen URL 1: Kroymann, Emil/ Thiebes, Sebastian/ Lüdeling, Anke/ Leser, Ulf (2004): Eine vergleichende Analyse von historischen und diachronen digitalen Korpora. Projekt ‘DeutschDiachronDigital’. (= Technical Report 174 des Instituts für Informatik der Humboldt-Universität zu Berlin). Berlin: Humboldt-Universität zu Berlin, Institut für Informatik. http: / / edoc.hu-berlin.de/ series/ informatik-berichte/ 174/ PDF/ 174. pdf (Stand: 07/ 2013). Der vorliegende Beitrag entstand dank der Unterstützung der Forschungsagentur der Aka- " " ] | " > &^ ^! " < ^^ ½# ° " | ` © " ¯ ¢ " - ® - - ® " ® - ® ° ¯ ¾@ <?page no="173"?> Vlastimil Brom Zur Quellenkunde in der Geschichtswissenschaft und Linguistik Historiographische Werke als philologische Quellen 1 Während die Quellenkunde im Arbeitsverfahren der Linguistik offenbar nicht so stark integriert oder zumindest sichtbar ist, sind es vor allem die historischen Wissenschaften, mit denen dieser Ansatz untrennbar verbunden ist und für die der reflektierte Quellenbezug als ein zentraler Aspekt der Methodologie gilt. Es lässt sich allerdings beobachten, dass man in der eigentlichen linguistischen und philologischen Forschungsarbeit an dieser Problematik ebenfalls nicht vorbeikommt. Im Folgenden soll versucht werden, die genannten Bezüge zu verdeutlichen - ausgehend vom Kontext einer philologischen Untersuchung spätmittelalterlicher historiographischer Werke aus den böhmischen Ländern (Brom in URL 1). Hier bietet sich die Heranziehung der Forschungsergebnisse der traditionell an diesen Quellentypen interessierten Wissenschaften unmittelbar an, es gibt dabei aber zugleich genug Ansatzpunkte zur Diskussion der fachspezifischen Anforderungen. Zu bemerken ist, dass eine allgemeine konzeptuelle und methodologische Reflexion dieser Problematik selbst in der Geschichtswissenschaft nicht besonders stark ausgeprägt ist - wahrscheinlich gerade wegen der selbstverständlichen und gewissermaßen zentralen Position der Quellenkritik und Quellenarbeit allgemein. Neben konkreteren klassifikatorischen Ansätzen oder zahlreichen als Einführungen konzipierten Darstellungen wäre z.B. die allgemeine Unterscheidung zwischen Traditionen und Überresten nach Johann Gustav Droysen und Ernst Bernheim (Bernheim 1908, S. 185, 255f., passim) zu nennen, die allerdings eher als eine Grundlegung der Quellenkritik und Quelleninterpretation aufgefasst wurde. Die Relevanz für die Sprachwissenschaft ist hier teilweise spezifisch, denn bewusste, intendierte Zeugnisse über Sprache bilden wohl im Rahmen der sprachlich relevanten Zeugnisse eine deutliche Minderheit, wogegen die i.e.S. historiographischen und weiteren vergleichbaren Werke (d.h. die bewusst und gezielt formulierten und tradierten historischen Informationen) in manchen Bereichen eine viel bedeutendere Rolle spielen. 1 Dieser Text entstand im Rahmen des Forschungsprojektes Spätmittelalterliche deutsche historiographische Texte böhmischer Provenienz - philologische Analyse, elektronische Edition (2009-2011) gefördert durch die Grantagentur derTschechischen Republik, Nr. GA405/ 09/ 0637. Projektseite: http: / / www.phil.muni.cz/ german/ projekty/ hmb/ (Stand: Oktober 2012). <?page no="174"?> 174 Historische Sprachwissenschaft Bei verständlicherweise etwas divergierenden Auffassungen erwartet man von der Quellenkunde zunächst vor allem eine Art Katalogisierung und Klassifizierung des Quellenmaterials; ferner eine zumindest ansatzweise Übersicht, geeignet für die vorläufige Einschätzung des Quellenwerts für die jeweiligen Fragestellungen. Darunter lässt sich z.B. die Darstellung der etwaigen Abhängigkeiten zwischen den einzelnen Quellen und Quellenkomplexen einbeziehen; zu beachten sind die Spezifika der Überlieferung, die Entstehungsumstände, z.B. die Parteilichkeit, Bezüge zum Geschilderten und andere Aspekte, aus denen sich spezifische Einschränkungen des Aussagewerts ergeben können, oder die bei der Interpretation unmittelbar zu berücksichtigen sind. Diesem Bereich wird - nicht überraschend - eine ziemlich große Aufmerksamkeit in propädeutischen Werken gewidmet. Aus dem mediävistischen Kontext vgl. stellvertretend Goetz (2006), es gibt Übersichtsdarstellungen, z.B. van Caenegem/ Ganshof (1964) sowie eine Vielzahl von konkreteren ‘Quellenkunden’ verschiedener Ausrichtung und Abgrenzung (in der Regel chronologisch, geografisch, thematisch, bzw. quellentypologisch u.a.). Als ein klassisches Nachschlagewerk mit beachtlicher Tradition wäre die von Wilhelm Wattenbach 1858 begründete Reihe „Deutschlands Geschichtsquellen im Mittelalter“ zu nennen, die einerseits zahlreiche Fortsetzungen fand, andererseits aber auch umfassendere Neubearbeitungen. Eine selektive kommentierte bibliographische Übersicht der geschichtswissenschaftlichen Quellenkunden zur deutschen und europäischen Geschichte bietet Mäkeler (URL 2); zu ergänzen wäre im gegebenen Kontext u.a. Lorenz (1886-1887). Hervorzuheben ist ferner die viel breiter angelegte und im internationalen Rahmen erarbeitete Reihe Repertorium fontium historiae medii aevi (1962-2007), die ebenfalls an Grundlagen des ausgehenden 19. Jahrhundert anknüpft. Eine Aktualisierung und Ergänzung sowie die Digitalisierung und Online-Veröffentlichung der Einträge mit Relevanz zum deutschen Raum strebt das Vorhaben Geschichtsquellen des deutschen Mittelalters an (URL 3). Im Bezug auf die angesprochene Problematik der Klassifizierung der Quellen liegt in der sprachwissenschaftlichen Perspektive (trotz unterschiedlicher Möglichkeiten der Grundlegung) das bewährte Konzept der Textsorten vor (vgl. Heinemann 2000); für die Behandlung der historischen Sprachstufen gilt es auch die maßgeblichen Aspekte der Kommunikationsgeschichte zu berücksichtigen. In manchen Bereichen liefert dabei auch z.B. die differenzierte Behandlung von Sprechakten und die Ansätze der Soziopragmatik wertvolle Ansätze (freilich insbesondere dort, wo die illokutionäre Dimension deutlich <?page no="175"?> 175 Zur Quellenkunde in der Geschichtswissenschaft und Linguistik ausgeprägt ist, z.B. Sphäre der Administration, des Rechts usw.) (vgl. Ziegler 2003, Ernst 2001). Bei der analogen Betrachtung der sprach- und geschichtswissenschaftlichen Arbeitsweise sollen nun ihre gegenseitigen Beziehungen reflektiert werden. Wiewohl die sprachlich fixierten Quellen eine prominente Stelle innerhalb der historischen Quellen einnehmen, das gesamte Spektrum ist viel breiter - sie umfassen zumindest noch materielle Denkmäler der menschlichen Tätigkeit und ferner Schöpfungen in nonverbalen Zeichensystemen sowie abstrakte Quellen (vgl. die anschauliche Klassifizierung von Goetz 2006, S. 107-214). Umgekehrt können eigentlich alle überlieferten sprachlichen Äußerungen als historische Quellen betrachtet werden - falls sie für eine geschichtswissenschaftliche Fragestellung herangezogen werden. Als selbstverständlich gilt die Zusammenarbeit von Klio und Kalliope (der einigermaßen zuständigen Musen der erwähnten Wissenschaften bzw. Künsten) in ihren primären Arbeitsbereichen, sei es z.B. die Behandlung der Entstehungs- oder Gebrauchszusammenhänge oder die materielle Beschreibung des Textträgers auf der einen, oder die feinere Erfassung der formulatorischen Nuancen sowie Konnotationen und Implikaturen auf der anderen Seite. Die Forschungsfragen und dementsprechend die quellenkundlichen Schlüsselmerkmale sind natürlich in mancher Hinsicht unterschiedlich (und eine Quellenkunde konzentriert sich verständlicherweise auf das, was als Quelle zur Beantwortung der Fragen der jeweiligen Wissenschaft bzw. Teildisziplin gelten kann). Am deutlichsten scheint da die Bestrebung nach möglichst detaillierten, individuellen historischen Untersuchungen, während die linguistischen Forschungen in der Regel eine allgemeinere Geltung anstreben als Aussagen über einzelne Textexemplare. Freilich gibt es auch universeller aufgefasste, z.B. die typologisch ausgerichtete Geschichtsforschung sowie streng quellenbezogene individuelle sprachliche Untersuchungen. Man könnte vielleicht bei der geschichtswissenschaftlichen Betrachtungsweise (die jeweiligen Quellen betreffend) das dominante Interesse für parole mit ihren historisch relevanten Propositionen ansetzen; in der Linguistik gilt dagegen für gewöhnlich das Bestreben nach einer gewissen langue-Abstraktion. Zu bemerken sind allerdings die Ansätze auch die abstrakteren Sprachdaten historisch zu verwerten; vgl. z.B. Josef Macek, der die historische Semantik als eine historische Hilfswissenschaft auffasst (Macek 1991) oder gar die Ansätze der Glottochronologie u.a. <?page no="176"?> 176 Historische Sprachwissenschaft In den üblichen primären historischen Fragestellungen - etwa im Sinne von Rankes „wie es eigentlich gewesen“ (Ranke 1885, S. VII) - werden möglichst unmittelbare Zeugnisse bevorzugt, wobei etwa die Übersetzungen (sowie z.B. spätere Bearbeitungen) als sog. Sekundärquellen eine eher untergeordnete Rolle spielen. Vielmehr werden diese Fassungen z.B. für eine vollständigere Erfassung der Überlieferungslage u.a. behandelt. Anders ist es, wenn die Übertragungen oder ganze mehrsprachige Parallelkomplexe von Werken zum Hauptthema werden, wie in den diesen Überlegungen zu Grunde liegenden Untersuchungen (Brom in URL 1). Hier sind z.B. auch die Sprachform, zwischensprachliche Beziehungen, etwaige Transfer-Erscheinungen u.a. von Interesse, nicht nur die inhaltlichen Aspekte. Die Wiedergabe von propositionalen Gehalten, die auch in den historischen Forschungen öfters kritisch beurteilt wird, ist auch für die Philologie unbedingt relevant; die ‘Übersetzungsfehler’ können dabei jedoch öfters Informationsquellen von eigenem Wert darstellen (ähnlich wie viele ‘Fehler’-Typen bei der einsprachigen Überlieferung). Trotz dieses Potentials bedeuten die fehlenden oder problematischen Parallelen natürlich Einschränkungen für einschlägige Untersuchungen. Zu bemerken ist, dass die Quellenarbeit zumindest in den sprachhistorisch ausgerichteten und allgemein philologischen Ansätzen stets bewusst ist - sei es in der historischen Verankerung, in den Bezügen zur ‘Literatur’ im weiteren Sinne mit bleibendem Interesse an den Quellen in der Literaturgeschichte und Literaturwissenschaft oder in weiteren traditionellen Bindungen begründet. Durchaus vergleichbar mit der Geschichtswissenschaft ist z.B. die Problematik der Quellenauswahl und -evaluation: Während für einige Bereiche und Epochen die Bearbeitung weitgehend aller überlieferten und identifizierten relevanten Quellen angestrebt werden kann (so z.B. einige Aspekte in der ‘alten’ Geschichte teilweise bis zum Mittelalter), gibt es öfters eine überwältigende Menge von verfügbarem Material (so spätestens seit der Frühen Neuzeit), wo die Auswahl und Abwägung des Quellenwerts eine nahezu zentrale Rolle im Arbeitsverfahren einnehmen. Dementsprechend steigt (mit gewissen Schwankungen) die verfügbare Textmenge mit der Zeit exponentiell an. So gut wie immer liegt dabei jedoch bereits eine gewisse Forschungstradition vor, die sowohl die Fragestellungen als auch die Lösungswege mit beeinflusst - sei es als reflektierende Fortsetzung und Anknüpfung oder als gewollte Absetzung dagegen. Bereits in der Auffassung von ‘Quelle’ - vgl. die klassische Definition von Paul Kirn (Kirn 1972, S. 29) - könnte man gewisse Bedingungen des herme- <?page no="177"?> 177 Zur Quellenkunde in der Geschichtswissenschaft und Linguistik neutischen Zirkels beobachten: Es ist ja etwas, was für die - in diesem Fall wissenschaftliche - Erschließung eines Themas relevant sein kann, mit der fortschreitenden Erfassung können sich jedoch die Grenzen und Kriterien der Relevanz verschieben und verändern, sodass unter Umständen auch neue Quellentypen zu identifizieren sind; gleichsam kann sich die relative Bedeutsamkeit anderer Quellen verringern. Auch bei Bernheim, bei dem die Quellenkunde mit der Heuristik gleichgesetzt wird, heißt es: „Was man unter ‘Quellen’ begreift, hängt im allgemeinen von der jeweiligen Entwicklungsstufe der Wissenschaft ab“ (Bernheim 1908, S. 253). Zu erwähnen ist ferner die Problematik der Position der Quellenkunde in der Forschungsarbeit. Traditionell würde man die Quellen idealerweise zuerst identifizieren, dann kritisch auswerten und verarbeiten. Wegen der erwähnten hermeneutischen Aspekte ist die Arbeit aber selten so geradlinig, was wiederholte Revisionen der Arbeitshypothesen und zumindest teilweise Neuanfänge mit sich bringt. Eine als eigenständig und allgemein aufgefasste Quellenkunde könnte vielleicht in eine eher paradoxe Position geraten, indem von ihr eine Vorwegnahme künftiger möglicher Forschungsinteressen beim Erfassen der potentiellen Quellen erwartet würde. Praktischer erscheint eher eine im ganzen Arbeitsverfahren integrierte Reflexion der Quellen mit ihrer Beschaffenheit, Spezifika, oder Einschränkungen - sei es bei den anfänglichen Recherchen, den weiteren spezifischen Analysen und etwaigen Korrekturen oder der abschließenden Verifizierung. Ein möglicher Weg - wohl weniger methodologisch rein aber dafür umso praktikabler - besteht in einer möglichst vielseitigen Verarbeitung von Quellen, die vorerst nach eher einfacheren, vielleicht äußeren Kriterien zusammengestellt wurden. Man lässt sozusagen ‘die Quellen reden’ und verfolgt dann gezielt die potentiell tragfähigen, ‘interessanten’ Aspekte. Informell lässt sich sagen, dass es bei einem solchen Ansatz wohl weniger Enttäuschungen und eher positive Überraschungen gibt. Die Vorbestimmung der Quellengruppen wäre so bereits in der Problemsetzung einbezogen, im Hinblick auf die Repräsentativität wäre dann ggf. die Themenabgrenzung anzupassen. Einwenden kann man eine zweifellos deutlichere ‘Offenheit’ der Ergebnisse und vielleicht eine stärkere Subjektivität (deren gänzliche Vermeidung jedoch kaum möglich oder sinnvoll wäre). Allgemein zeigt sich im Bezug auf die reflektierte Quellenarbeit ein gewisser Vorteil der historischen Sprachforschung in den philologischen Traditionen mit relativ engem Zusammenhang mit der Literaturwissenschaft, wobei auch die Geschichtswissenschaft nicht ganz entfernt ist. Für die volkssprachlichen <?page no="178"?> 178 Historische Sprachwissenschaft mittelalterlichen Texte wird dies noch begünstigt durch ihre außerordentliche Bedeutung sowohl als Sprachzeugnisse, als Literaturdenkmäler wie z.T. auch als historische Quellen - für besondere Fragestellungen. Den literaturgeschichtlichen, sowie historiographischen Hilfsmitteln kann man daher die Informationen aus ‘gemeinsamen Interessensgebieten’ in der Regel ohne Weiteres entnehmen (die Entstehungsumstände, zeitliche und räumliche Provenienz, Überlieferungslage u.a.); weiterführende Angaben sind dann mittels bibliographischer Angaben erreichbar. Zu bemerken ist, dass die Anlage der Hilfsmittel und daher auch die Zugriffsmöglichkeiten auf die enthaltenen Informationen natürlich die primär vorgesehenen Fragestellungen begünstigen (chronologische Anordnung, Gliederung nach Autoren, Gattungen u.a.); die elektronischen Medien ermöglichen eine größere Flexibilität, freilich unter der Voraussetzung adäquater Recherchefunktionen. Neben den digitalisierten Ausgaben von zahlreichen gedruckten Nachschlagewerken - z.B. in der Digitalen Bibliothek (URL 4) sind genuine Online-Veröffentlichungen von immer größerer Bedeutung, vgl. z.B. Handschriftencensus (URL 5), das Marburger Repertorium (URL 6) oder Manuscriptorium (URL 7) u.a. Aus manchen hier erfassten historischen Daten kann man unter Umständen relevante Informationen für die sprachwissenschaftliche Betrachtung gewinnen, wobei Vorwegnahmen natürlich zu überprüfen sind, denn die vorläufigen Erwartungen oder Rückschlüsse können sich letztlich als inadäquat erweisen. Als ein Beispiel kann die Bearbeitung der Pulkava-Chronik angeführt werden (Emler/ Gebauer (Hg.) 1893, Bok 2004, Bláhová (Hg.) 1987, Brom 2010), wo man wahrscheinlich aufgrund des exklusiven Entstehungskontextes das Niveau des Werkes in vielerlei Hinsicht (literarisch, faktisch, sprachlich …) vorläufig relativ hoch ansetzen würde. Die Chronik ist ein Ausdruck der zielbewussten Bemühungen Kaiser Karls IV. um die Schaffung einer offiziellen staatlichen Historiographie der böhmischen Länder und allgemein seiner Herrschaftsdomäne. Das unmittelbare Vorbild für dieses Anliegen - die französischen Staatschroniken (Grandes Chroniques de France) - wurde jedoch nicht annähernd erreicht (obwohl der Herrscher wohl auch persönlich daran interessiert war und mehrere Autoren nacheinander mit dieser Aufgabe beauftragte und teilweise unterstützte (Bláhová (Hg.) 1987, S. 558)). Vergleicht man diese Werke mit den damaligen Schöpfungen in anderen Bereichen (z.B. in der bildenden Kunst, Architektur, Urbanistik; mit den Errungenschaften in der Bildung und teilweise mit den machtpolitischen Gewinnen), so wären die künstlerischen und anderen Werte in der offiziellen Repräsentation durch die Historiographie als eher bescheiden zu werten. Trotzdem erfuhr diese Chronik <?page no="179"?> 179 Zur Quellenkunde in der Geschichtswissenschaft und Linguistik || ° ¥ª " ` µ " ] <¢ ¯ < denín (Emler (Hg.) 1893) weist eine (in böhmischen Verhältnissen) sehr breite Überlieferung auf. Es erfuhr später eine Übersetzung ins Tschechische (vielleicht von dem Chronisten selbst; diese fand ebenfalls eine beachtenswerte Verbreitung; Emler (Hg.) 1893) und zwei voneinander unabhängige und auch dialektal unterschiedliche Übersetzungen ins Deutsche, deren Überlieferung dagegen nahezu unikal war (Brom 2010). Diese Verdeutschungen gehen auf die fünfte (d.h. vorletzte) lateinische Redaktion (in der Einteilung von Bláhová (Hg.) 1987, S. 577-580) zurück. Für die ostmitteldeutsche Fassung war nur ein einziger Quellencodex bekannt (die verloren gegangene Hs. R 304 der Breslauer Stadtbibliothek), die oberdeutsche Version ist in einer Handschrift vollständig überliefert (Hs. Cgm 1112) und zu einem kleineren Teil in einem späteren Fragment (Cod. 90 Aug. 2 o , Herzog August Bibliothek Wolfenbüttel). Wie bereits angedeutet, zeichnet sich das lateinische Werk und dementsprechend auch die Übersetzungen trotz des exklusiven ‘kaiserlichen Auftrags’ durch eher bescheidenere Qualitäten aus. Trotz des Interesses und der Beteiligung des Kaisers kam kein außerordentliches Werk zustande; in formal-sprachlicher wie auch literarischer Hinsicht sowie im Bezug auf den Informationswert. Gewissermaßen mag es überraschend erscheinen, dass sogar mehrere Jahrzehnte nach der Gründung der Prager Universität kein begabterer Autor für eine solche prestigeträchtige Aufgabe gefunden werden konnte. Zum kontrastreichen Vergleich lassen sich sowohl einige andere Chroniken heranziehen (mit einem Glanzstück - der Königsaaler Chronik (Emler (Hg.) 1884) ungefähr aus dem ersten Drittel des 14. Jahrhunderts) als auch ferner einige weitere zeitgenössische Texte (vgl. z.B. den Umkreis Johanns von Neumarkt (Jan ze # ¢ " % " ` ¡ - ° ° `@ < ` wurde (vgl. die Übersicht und Diskussion bei Nechutová 2007, S. 172-182). Selbst der Herrscher bediente sich in seinen erhaltenen literarischen Werken eines gepflegten und eleganten Lateins, wenn auch in einem wenig blumigen Stil - vgl. z.B. den größten Teil der Autobiographie Vita Caroli (Emler (Hg.) 1882) oder seine Wenzelslegende, die auch in die Pulkava-Chronik im nahezu vollen Wortlaut aufgenommen wurde (Blaschka (Hg.) 1934). Unmittelbar sichtbar ist der Kompilationscharakter der Chronik, der zwar im Mittelalter nichts Seltenes oder Problematisches darstellte, allerdings findet man im vergleichbaren Rahmen auch ‘originellere’ Werke. Darüber hinaus sind bei Pulkava häufig auch relativ scharfe ‘Nahtstellen’ an den nicht aufeinander angepassten übernommenen oder eigenen Textteilen greifbar. Die Hetero- <?page no="180"?> 180 Historische Sprachwissenschaft genität des Textes ist letztlich auch für die sprachliche Analyse von unmittelbarer Bedeutung, denn manche charakteristischen Merkmale im Bereich der Lexik, des Stils, teilweise der Syntax u.a. variieren oft zwischen den Passagen - abhängig von den zugrunde liegenden Vorlagen. Die Übersetzungen verwischen in einigen Fällen solche Differenzen, nicht selten bleiben aber zumindest Reflexe davon erhalten; häufig werden die ‘zusätzlichen’ Texte (z.B. zitierte Urkunden) in den volkssprachlichen Fassungen stark verkürzt (vgl. Emler (Hg.) 1893, S. XI, XIII). Die skizzierten Eigenschaften der Chronik wurden in der Forschung früh er- @ [ < ® ° " ^ " ¡ - (Palacky 1830, S. 188). Der Herausgeber Josef Emler äußerte sich dann besonders kritisch zum historischen Aussagewert des Werkes - neben der Betonung des Ansehens und der vielfältigen Rezeption in der Vergangenheit und des Wertes der tschechischen Fassung als Sprachzeugnis: Was den historischen Wert der Pulkava-Chronik anbelangt [...] Von den neueren Geschichtsforschern greift zu ihr jedoch jeder nur, wenn alle anderen Quellen ihn verlassen, und tut dies nur mit höchster Vorsicht, und man kann sagen, dass jeder besser daran tut, wenn er zu ihr als Quelle nicht greift, denn trotz aller Beteuerung, dass ‘alles Erdichtete und Unechte weggelassen, und was wahr und gesichert ist, dargelegt worden ist’, befinden sich in diesem Werk eine solche Menge an Mängeln, dass jedem empfohlen wird, die Originalquellen heranzuziehen, und dort, wo etwas hinzugefügt wurde, ist es nicht ratsam es zu glauben, wenn die Wahrhaftigkeit der Nachricht nicht anderswo bekräftigt werden kann. (Emler (Hg.) 1893, S. XIII) 2 Es lässt sich also feststellen, dass hier der primäre historische Quellenwert der Chronik prägnant charakterisiert wird, wobei jedoch auf die überraschende Disproportion zwischen dem exklusiven historischen und gesellschaftlichen Rahmen, für den das Werk konzipiert war, und seiner simplen Gestalt nicht näher eingegangen wird. Abschließend ist die Beziehung der korpuslinguistischen Herangehensweise an Texte und sprachliche Phänomene zur quellenkundlichen Erfassung des Sprachmaterials zu thematisieren. Es scheint, es handelt sich hierbei um ge- 2 ½¿ "- © < " ®- % [...] ^ ° "- - ¯ ¯ ° © £"® % " - ¯% ¯ - ¯ ¯% £ ¢¯ % £ £"® © - ¯% " £ ¯ ´ ¢ ° ¯% £ - © © À - £ © © £ % © % £ £"© " - " ¯ % £ % " - ¢ " % " -¢ % £ "- " ° " " " £ @¾ 'Á ' `@ Â% #@ à <?page no="181"?> 181 Zur Quellenkunde in der Geschichtswissenschaft und Linguistik eignete Komplemente - bei unterschiedlicher Akzentuierung zielen beide auf die möglichst vollständige und adäquate Erfassung der zu bearbeitenden Materialbasis. Die Korpustechnologie ermöglicht einen formalisierten Zugriff auf potentiell sehr große Textmengen, wo zu den einzelnen Textexemplaren - je nach den vorhandenen Annotationen und Metadaten - zunächst meist beschränkte individualisierende Informationen zur Verfügung stehen. Die Quellenkunde stellt hierbei mögliche Mittel dar, das Vorhandensein und die Beschaffenheit des potentiell relevanten Ausgangsmaterials vorläufig zu beurteilen und somit gewisse Grundlagen für detailliertere Analysen zu schaffen. Es ist allerdings zu bemerken, dass die uns hier zugrunde liegenden Untersuchungen von wenigen historiographischen Texten in Parallelfassungen eine relativ spezifische Grundlage für die angestellten Überlegungen darstellen. Die korpuslinguistischen Ansätze finden hier neben der möglichst umfassenden Aufarbeitung der Volltexte Anwendung - insbesondere für detaillierte Teilanalysen mit der Möglichkeit der vollständigen Erfassung und einer feinen kontextuellen Differenzierung der relevanten Belege. Dank des ziemlich engen Bezugs zu konkreten Texten, der vorhandenen philologischen Tradition und der einschlägigen historiographischen Aufbereitung der untersuchten Werke konnten vielleicht einige allgemeiner relevante Aspekte der Problematik veranschaulicht werden. Bei der Übertragung bzw. Generalisierung auf andere Bereiche, Texttypen oder Forschungsfragen würden sich die Akzente wohl gewissermaßen verändern und es könnten teilweise andere Aspekte an Bedeutung gewinnen. Literatur Quellen und Editionen Blaschka, Anton (Hg.) (1934): Die St. Wenzelslegende Kaiser Karls IV. Einleitung, Texte, Kommentar. Prag. Á % » | ' `@ ' * Å ¯ ¢ ! @ '_ - " ! @ @ * Fontes rerum Bohemicarum III. Praha, S. 323-417. [Online: Czech medieval sources online - FRB III: http: / / 147.231.53.91/ src/ index.php? s=v&cat=11&bookid=142 &page=359 (Stand: Februar 2012)]. Emler, Josef (Hg.) (1884): Kronika Zbraslavská (Die Königsaaler Chronik). In: Fontes rerum Bohemicarum IV. Praha, S. V-XVII, 1-337. [Online: Czech medieval sources online - FRB IV: http: / / 147.231.53.91/ src/ index.php? s=v&cat=11&bookid=177 (Stand: Februar 2012)]. Emler, Josef/ Gebauer, Jan (Hg.) (1893): Kronika Pulkavova (Die Pulkava-Chronik). In. Fontes rerum Bohemicarum V. Praha, S. III-XX, 1-326. [Online: Czech medieval sources online - FRB V: http: / / 147.231.53.91/ src/ index.php? s=v&cat=11&bookid=178 (Stand: Februar 2012)]. <?page no="182"?> 182 Historische Sprachwissenschaft Hs. Cgm 1112 der Bayerischen Staatsbibliothek München. On-line Faksimile. http: / / daten.digitale-sammlungen.de/ bsb00032658/ image_1 (urn: nbn: de: bvb: 12-bsb00032658-9) (Stand: Februar 2012). Wissenschaftliche Literatur Bernheim, Ernst (1908): Lehrbuch der historischen Methode und der Geschichtsphilosophie. 5. und 6. Aufl. Leipzig. [Online: http: / / www.archive.org/ details/ lehrbuchderhist03berngoog (Stand: November 2011)]. Bláhová, Marie (Hg.) (1987): Kroniky doby Karla IV. (Chroniken der Zeit Karls IV.). Praha. [ % ! ' ± * < % <¢ ¯ % " ¯ @ * ] ` % [ ` @ (Hg.): Die deutsche Literatur des Mittelalters. Verfasserlexikon. Nachträge und Korrekturen. 11. Bd. 2. Aufl. Berlin/ New York, Sp. 1282-1285. Brom, Vlastimil (2010): Aus der offiziellen böhmischen Historiographie Karls IV. - Die Pulkava-Chronik in drei Sprachversionen. In: Brünner Beiträge zur Germanistik und Nordistik 15. S. 5-19. Ernst, Peter (2001): Pragmatische Aspekte der historischen Kanzleisprachenforschung. In: Greule, Albrecht (Hg.): Deutsche Kanzleisprachen im europäischen Kontext: Beiträge zu einem internationalen Symposium an der Universität Regensburg, 5. bis 7. Oktober 1999. Wien, S. 17-31. Goetz, Hans-Werner (2006): Proseminar Geschichte: Mittelalter. 3. Aufl. Stuttgart. Heinemann, Wolfgang (2000): Aspekte der Textsortendifferenzierung. In: Brinker, Klaus/ Antos, Gerd/ Heinemann, Wolfgang/ Sager, Sven F. (Hg.): Text- und Gesprächslinguistik. Ein internationales Handbuch zeitgenössischer Forschung. 1. Halbbd. (= HSK 16/ 1). Berlin/ New York, S. 523-546. Kirn, Paul (1972): Einführung in die Geschichtswissenschaft. Fortgeführt von Joachim Leuschner. 6. Aufl. Berlin. Lorenz, Ottokar (1886-1887 [1966]): Deutschlands Geschichtsquellen im Mittelalter seit der Mitte des 13. Jh. 2 Bde., 3. Aufl. Berlin. [Unveränd. Abdruck 1966]. % » | ' * © @ * ® - ® % #@  @ Nechutová, Jana (2007): Die lateinische Literatur des Mittelalters in Böhmen. Köln/ Weimar/ Wien. Palacky, Franz (1830): Würdigung der alten böhmischen Geschichtschreiber. Prag. Ranke, Leopold von (1885): Geschichten der romanischen und germanischen Völker von 1494 bis 1535. 3. Aufl. Leipzig. [1. Aufl. Berlin 1824]. Repertorium fontium historiae medii aevi primum ab Augusto Potthast digestum, nunc cura collegii historicorum e pluribus nationibus emendatum et auctum. Tom. 1-11. Romae 1962-2007. <?page no="183"?> 183 Zur Quellenkunde in der Geschichtswissenschaft und Linguistik URL 1: Brom, Vlastimil: Deutsche historiographische Texte aus den mittelalterlichen ª - " µ < &^ @ http: / / www.phil.muni.cz/ german/ projekty/ hmb/ index-hmb-de.htm (Stand: Februar 2012). URL 2: Mäkeler, Hendrik: Quellenkunden (27. 09. 2009. http: / / www.hendrik.maekeler. eu/ quellenkunden/ (Stand: Februar 2012). URL 3: Kommission für das Repertorium „Geschichtsquellen des deutschen Mittelalters“ (10. 01. 2012). http: / / www.repfont.badw.de/ (Stand: Februar 2012). URL 4: Versand-AS - Digitale Bibliothek. http: / / www.versand-as.de/ shop/ Software-DigiBibmehr/ Digitale-Bibliothek/ Digitale-Bibliothek---22_24_1.html (Stand: Februar 2012). URL 5: Handschriftencensus - Eine Bestandsaufnahme der handschriftlichen Überlieferung deutschsprachiger Texte des Mittelalters. http: / / handschriftencensus.de/ (Stand: Februar 2012). URL 6: Marburger Repertorium deutschsprachiger Handschriften des 13. und 14. Jahrhunderts (16. 09. 2009). http: / / www.mr1314.de/ (Stand: Februar 2012). URL 7: Manuscriptorium - Building Virtual Research Environment for the Sphere of Historical Resources. http: / / www.manuscriptorium.com/ (Stand: Februar 2012). van Caenegem, Raoul Charles/ Ganshof, Francois Louis (1964): Kurze Quellenkunde des westeuropäischen Mittelalters. Eine typologische, historische und bibliographische Einführung. Göttingen. Ziegler, Arne (2003): Städtische Kommunikationspraxis im Spätmittelalter. Historische Soziopragmatik und Historische Textlinguistik. Berlin. <?page no="185"?> Gabriela Rykalová Kleine Korpora, große Korpora und Textsammlungen Versuch einer korpustypologischen Zusammenschau Wie zahlreiche Untersuchungen zeigen, bedienen sich die Sprachwissenschaftler bei ihrer Forschung sprachlicher Daten, die aus unterschiedlichsten Quellen stammen. Die Tatsache hat mich zu dem Thema dieses Beitrags geführt und drängte die folgende Frage in den Mittelpunkt: Mit welcher Materialsammlung sollte ein Sprachwissenschaftler arbeiten, damit er bei seiner Fragestellung zu interessanten, für seine Forschung nützlichen und vor allem repräsentativen Ergebnissen kommt? 1. Verschiedene Herangehensweisen an sprachwissenschaftliche Daten Die Sprachwissenschaftler haben zwei Arten von Daten zur Verfügung - die von ihnen selbst konstruierten Daten und Daten, die man in authentischen Texten finden kann. Seien es ‘armchair linguists’ - Vertreter der traditionellen Linguistik, die mit selbst erfundenen oder in Grammatiken gefundenen Beispielen arbeiten, oder ‘corpus linguists’, die sich ausschließlich der Kor- " " ' ` @ % #@ % ]ª % Wortverbindungen, Sätzen usw., die die Hypothese ihrer Untersuchungen bestätigen oder widerlegen sollen, die ihnen helfen, neue Thesen zu bilden und Schlüsse zu ziehen. Die Sprache ist bekanntlich ein Lebewesen. Es verändert sich mit der Zeit, genauer gesagt, sind es die Sprachbenutzer, die neue Wörter, Endungen, Pluralformen, Konstruktionen, Bedeutungen erfinden und mit der Zeit aus der Peripherie ins Zentrum des Wortschatzes holen. Es scheint ein verlorener Wettkampf zu sein: Die Grammatiken können gar nicht so schnell reagieren, wie die Sprecher Neues erfinden. Auf der einen Seite stehen also die in den Grammatiken und Lehrbüchern formulierten Regeln, auf der anderen die Sprachwirklichkeit und die Sprachanwender. Denn wir sprechen nicht, „um mehr oder weniger schöne Strukturen zu generieren, sondern um Inhalte optimal zu transportieren [...]“ (Wolf 2010, S. 20). Die Sprachwirklichkeit widerspiegelt sich demnach allein in authentischen Texten. „Der einfache Weg, zu Daten für eine sprachwissenschaftliche Untersuchung zu gelangen, ist der, dass aufgrund ei- <?page no="186"?> 186 Kleine und große Korpora - Spezialkorpora für Spezialfragen ner Frage oder eines Problems Ausdrücke in einem Korpus gesucht werden.“ (Wolf 2010, S. 18) und Mindt (2010, S. 53), die weiter in ihrem Beitrag „Methoden der Korpuslinguistik“ erklärt: „Der korpus-basierte und der korpus-geleitete Ansatz“ steht für zwei Ziele: erstens für ein methodisches Vorgehen authentische Daten zu finden und zweitens zu verdeutlichen, dass „[...] die Untersuchung von Korpusdaten oft über die Bestätigung bisheriger Beschreibungen hinausführt und dass dadurch neue Erkenntnisse gewonnen werden können, die in vielen Fällen überraschende und auch ungewohnte Sichtweisen auf sprachliche Strukturen eröffnen“ (Mindt 2010, S. 53). Diese zwei Herangehensweisen werden als ‘corpus-based’ und ‘corpus-driven’ bezeichnet, wobei die korpus-basierte Methode eine deduktive, die korpus-geleitete Methode eine induktive Vorgehensweise darstellt. (vgl. ebd., S. 53f.) In der tschechischen Germanistik haben korpusgestützte Untersuchungen bereits eine Tradition. Untersucht werden, um nur einige Forschungsrichtungen zu nennen, die im Kompendium Korpuslinguistik (2010) beschrieben wurden, | ! | ' % % ` < logismen und Paarformen (Bergerová 2010, Hofrichterová (2008), Cieslarová 2010, Malá 2010, Valdrová 2010), würde-Konstruktionen in narrativen Texten (Kratochvílová 2010), metasprachliche Kommentierungen der Stimmvarianz '! % " ¥ " | " - ` ' ® % " ª es (Peloušková 2010) u.a. 1.1 Kontext Für ihre Arbeit brauchen alle Sprachwissenschaftler eine Belegsammlung von authentischen Daten, die in einen Kontext eingebettet sind. Bei der Konferenz „Perspektiven der Textanalyse“ demonstrierte Norbert Richard Wolf an mehreren Beispielen, dass „ein komplexes sprachliches Zeichen immer mehr bedeutet als nur eine Summe der Bedeutungen der Konstituenten“ (Wolf 2012, S. 325). Ein gutes Beispiel dafür, wie wichtig der Kontext für die Dekodierung von Informationen ist, stammt aus einer (zum Glück schon sehr alten) tschechischen Fernsehzeitung: Im Original: RTL: 20.00 Jede Menge Kohle (Krimiserie) In der Übersetzung: & $2$$ 3 Y ! 5 % 5 (kriminální seriál) <?page no="187"?> 187 Kleine Korpora, große Korpora und Textsammlungen Nach dem pragmatischen Einsatz der Textlinguistik muss ein Text immer im Zusammenhang mit einer Kommunikationssituation betrachtet werden. Ein Wort, ein Satz oder ein Text können in verschiedenen Kommunikationssituationen einen unterschiedlichen Sinn haben. Das Problem bei der Übersetzung stellt das Wort Kohle dar, dass im Deutschen 1. ‘Brennmaterial’ und 2. ‘Geld’ bedeutet, im Tschechischen jedoch nur eine einzige Bedeutung hat, und zwar ‘Brennmaterial’. Das zweite Problem besteht darin, dass es sich im Falle des Titels der Krimiserie um eine idiomatische Wortverbindung handelt. „Idiomatisch im engeren Sinne sind solche Ketten, deren Gesamtbedeutung in keiner Weise aus der freien Bedeutung der Moneme erklärt werden kann.“ (Burger 1973, S. 18) Der Titel wurde (wohl auf Grund ungenügender Deutschkenntnisse) falsch übersetzt. In Anlehnung an Keller- Bauer können wir sagen: Das Wortspiel kann nur dann richtig verstanden werden, wenn es auf gemeinsamem Wissen basiert. Die Assoziationen sind mehr oder weniger konventionalisiert und kulturell bedingt. (vgl. Keller-Bauer 1984, S. 32) Wichtig ist auch, dass jedes isolierte Wort mehrere Interpretationsmöglichkeiten haben kann, die sich in einem bestimmten Kontext eliminieren. Die situative Einbettung hat also eine entscheidende Funktion für das Verständnis von sprachlichen Einheiten. 1.2 Quellen Am Anfang meines Beitrags habe ich die Frage gestellt, mit welcher Materialsammlung ein Sprachwissenschaftler arbeiten sollte, damit er zu interessanten und vor allem repräsentativen Ergebnissen kommt. Aus dem bisher Gesagten geht hervor, dass der Kontext, d.h. die situative Einbettung für eine sprachwissenschaftliche Analyse unentbehrlich ist. Diesen Kriterien entsprechen mehr oder weniger umfangreichere Textsammlungen, die als Korpora bezeichnet werden: „Ein Korpus ist eine Sammlung authentischer Sprachdaten, die auf unterschiedliche Weise aufbereitet worden sind und präsentiert werden und die als Materialbasis oder Datenquelle für sprachwissenschaftliche Untersuchungen fungieren.“ (Wolf 2010, S. 23) Es gibt aber eine unüberschaubare Menge von verschiedenen sprachwissenschaftlichen Fragestellungen. Gibt es ein universales Korpus, das uns Antworten auf alle unseren Fragen gibt? Wenn nicht, wie sollte das jeweilige Korpus aussehen? Zu einer möglichen Antwort führt eine sehr wichtige Frage: Welche Ziele werden bei einer sprachwissenschaftlichen Forschung verfolgt? <?page no="188"?> 188 Kleine und große Korpora - Spezialkorpora für Spezialfragen 2. Korpora und Zusammenstellung großer Wörterbücher und Grammatiken Krome (2010) hält eine Digitalisierung von authentischen Sprachdaten vor allem bei der Zusammenstellung großer Wörterbücher für Standard: „Die Vorteile liegen auf der Hand: Die riesigen Datenmengen aus den verschiedensten Quellen und Medien ermöglichen eine umfassende systematische Analyse [...].“ (Krome 2010, S. 118). Aufgrund dieser Daten können die Frequenz des Vorkommens eines Wortes festgestellt, seine kontextuelle Einbettung demonstriert und mögliche Bedeutungen beschrieben werden. Wie sollte ein Korpus für die Zusammenstellung von großen Wörterbüchern aussehen? Für allgemeinsprachliche Wörterbücher eignen sich Textsammlungen, die - entsprechend umfangreich sind, - Gebrauchswortschatz enthalten, - den Sprachgebrauch eines breiten Nutzerpublikums widerspiegeln, - verschiedene regionale Sprachspezifika abdecken und - die aktuelle deutsche Sprache betreffen. (vgl. Krome 2010, S. 119) Diese Textsammlungen, die als ‘große Korpora’ bezeichnet werden, bilden als Belegsammlungen dann die Primärquelle für die Wörterbuchdarstellung (vgl. auch Klosa 2010, S. 103). Auf diese Art und Weise zusammengestellte Korpora dienen nicht nur einer Zusammenstellung von Wörterbüchern, sondern auch der Überprüfung von bisher erarbeiteten Ergebnissen zur deutschen Gegenwartsprache, wie sie Wellmann, der über „korpuskontrollierte Lexikographie“ spricht, beschreibt (vgl. Wellmann 2010, S. 92). Die Verfasser von modernen Grammatiken und Wörterbüchern wissen längst, was auch Pakkanen-Kilpiä betont: „Erst eine ausführlichere Korpusanalyse gibt objektive und zuverlässige Auskunft z.B. darüber, welche Phänomene in welchen Textsorten häufig sind, welche dagegen peripher.“ (2005, S. 151). Auch die bewussten Grenzüberschreitungen und bewussten Fehler, bei denen der Sprecher eine Intention verfolgen kann, dürfen nicht außer Acht bleiben. Sie haben eine bestimmte Funktion, die gerade nur in einem bestimmten Korpus zu sehen ist. Und wie Pakkanen-Kilpiä bemerkt, sind vor allem auch solche Abweichungen von Regeln interessant, die „auf potentielle Entwicklungstendenzen hinweisen [...]“ (2005, S. 152). An dieser Stelle könnte gesagt werden, dass große Korpora nicht nur bei der Erstellung von neuen <?page no="189"?> 189 Kleine Korpora, große Korpora und Textsammlungen Grammatiken unentbehrlich sind, sondern dass analog zur „kontrollierten Lexikographie“ (siehe oben) die „korpuskontrollierte Grammatikographie“ eine wichtige Rolle spielt. 3. Kontrastive Linguistik und Übersetzungswissenschaft Für kontrastive Studien, die auf dem Vergleich von morphosyntaktischen Konstruktionen, lexikalischen Einheiten, Phänomenen im Bereich der Stilistik u.a. beruhen, eignen sich am besten ‘Parallelkorpora’. Es handelt sich dabei um „eine Sammlung von Texten, von denen neben der originalsprachlichen Fassung eine oder mehrere Übersetzungen vorliegen“. (Sinclair 1998, S. 126). Diese Korpora ermöglichen den Vergleich von mehreren Sprachen gleichzeitig, wobei der Sprachwissenschaftler sowohl vom Originaltext als auch vom Translat ausgehen kann. So entstehen kleine und/ oder große ‘Übersetzungskorpora’, wie z.B. das DeuCze-Korpus (Kratochvílová 2006, Kratochvílová/ Wolf 2010), die eine wertvolle Grundlage für kontrastive Untersuchungen aller Art bilden. Wichtige Eigenschaften des DeuCze-Korpus sind: - Es besteht aus belletristischen Texten von anerkannten Autoren; - es handelt sich sowohl um deutsche Originaltexte und ihre Translate, als auch um tschechische Originaltexte und ihre Übersetzungen ins Deutsche; - da die Gegenwartssprache untersucht werden soll, handelt es sich um Texte der Gegenwartsliteratur; - es ist wichtig, dass alle Texte im Korpus vollständig sind (vgl. Wolf 2010, S. 10f.). Die kleinen Übersetzungskorpora entstehen meistens als projektgebundene Spezialkorpora (siehe auch unten). Sie werden gezielt für bestimmte Zwecke zusammengestellt und können aus Romanen, Zeitungen, einer Sammlung von historischen Texten, konkreten Textsorten usw. bestehen. In vielen Fällen sind sie aus dem Grunde unentbehrlich, dass die Arbeit mit einem kleinen Korpus Fragen löst, die man nicht mit einem Wörterbuch und/ oder einer Grammatik beantworten kann. 4. Erforschung gesprochener Sprache Für die Erforschung gesprochener Sprache ist eine Textsammlung erforderlich, in der diejenigen Phänomene, die untersucht werden sollen, in genügender Anzahl und Variation vorkommen, wobei man auch bedenken muss, dass die <?page no="190"?> 190 Kleine und große Korpora - Spezialkorpora für Spezialfragen Vielfalt der Sprachproduktion sehr groß ist (vgl. Schwitalla 2010, S. 67). Dies können „phonetische und prosodische Phänomene sein, syntaktische und/ oder lexikalische (z.B. syntaktische Konstruktionen mit variabler Lexik), es können Sprechakte und sprachliche Aktivitäten, dialogische Verfahren und ganze Kommunikationstypen sein [...]“ (ebd.). Für spezielle Fragestellungen benötigen die Sprachforscher also spezielle Korpora, wie etwa ein Korpus gesprochener Sprache (z.B. das Korpus des IDS). Für multimodale Fragestellungen, wie z.B. die nach dem Zusammenhang von nonverbalem (Gestik, Mimik, Körperhaltung u. Ä.) und verbalem Verhalten, benötigen die Forscher Videoaufnahmen (vgl. Schütte 2010, S. 75), die wir als ‘multimediale Korpora’ bezeichnen könnten. Für Gesprächsanalysen eignen sich Korpora, die: - aus natürlichen, nicht arrangierten Gesprächen bestehen, - nach einem konsistenten Schema mit Metadaten versehene Gesprächsaufnahmen enthalten, - mit Maskierungen zu personenrelevanten Angaben versehen und - vielfältig und variationsreich sind. (vgl. Schwitalla 2010, S. 67; Schütte 2010, S. 76f.). Mit der Erforschung gesprochener Sprache hängt auch die Erforschung von nationalen Varietäten und Dialekten zusammen. Für Fragestellungen dieser Art eignen sich einerseits ‘Sprachatlanten’, andererseits ‘Dialektdatenbanken’, die als Materialsammlungen unentbehrliche Daten für vielfältige Forschungsprojekte bieten (vgl. auch König 2010, S. 143ff. und Zimmermann 2010, S. 151ff.). 5. Erforschung der deutschen Sprachgeschichte Gezielt zusammengestellte Korpora können auch der Erforschung historischer Texte dienen, wobei Simmler betont: „Für die Erforschung der deutschen Sprachgeschichte spielen Textkorpora und die Prinzipien ihrer Zusammenstellung eine zentrale Rolle.“ (Simmler 2005, S. 189). Spezielle Fragen stellen auch spezielle Anforderungen an Korpora dieser Art. Sie sollen - eine möglichst lange Sprachtradition in der Geschichte der deutschen Sprache besitzen, - Texte anbieten, die je nach Fragestellung entweder bestimmte Zeitperioden widerspiegeln oder über mehrere Jahrhunderte reichen, <?page no="191"?> 191 Kleine Korpora, große Korpora und Textsammlungen - so umfangreich sein, dass Untersuchungen auf allen linguistischen Ebenen vorgenommen werden können, - sich je nach Fragestellung auf eine oder mehrere Textsorten beschränken. (vgl. Simmler 2005, S. 190f.) So ermöglicht beispielsweise ein textsortengebundenes, einen längeren Zeitraum umfassendes Materialkorpus die Untersuchung von Textsortentraditionen oder den Vergleich von Entwicklungsetappen verschiedener sprachlicher Merkmale u.Ä. (vgl. Simmler 2005, S. 197). 6. Bearbeitung spezieller Fragen Für die Bearbeitung von speziellen Fragen eignen sich am besten die sog. ‘kleinen Korpora’. Das kleine Korpus, genauer gesagt, die Textanalyse einer kleineren Textsammlung ermöglicht es, interessante und vielleicht auch ungewöhnliche Wörter und Wortbildungen genauso wie spezielle grammatische, lexikalische, syntaktische oder semantische Zusammenhänge zu entdecken. Kleine Korpora sind meistens ‘projektgebundene Spezialkorpora’: „Sie können je nach Fragestellung und Erkenntnisziel größer oder kleiner sein. Sie erheben auch nicht den Anspruch, die Sprache in ihrer Gesamtheit zu repräsentieren [...]. Sie dienen gerade dazu, einen bestimmten Teil der Sprache zu präsentieren“ (Kratochvílová 2010, S. 171). Es gibt eine sehr große Zahl von speziellen Korpora, die der Bearbeitung einer unüberschaubaren Menge von Fragestellungen dienen. An dieser Stelle seien nur einige Beispiele vorgestellt, die m.E. neue Impulse in der korpuslinguistischen Forschung darstellen. Als ein Beispiel für ein großes spezielles Projekt, an dem sich Sprachwissenschaftler aus Deutschland, Österreich und der Schweiz beteiligen, kann das Projekt „Variantengrammatik des Standarddeutschen“ (Dürscheid/ Elspaß/ Ziegler 2011, S. 123) genannt werden. Im Rahmen dieses Projektes soll ein „nach Regionen in den deutschsprachigen Ländern ausgewogenes Korpus als Basis für grammatische Untersuchungen“ (ebd.,S. 136) entstehen. Ein sehr interessantes Feld einer korpusbasierten Untersuchung stellt auch die diachrone Analyse eines Newsgroup/ Webforum-Korpus (Richling 2011, S. 521) dar. Für die Analysen der internetbasierten Kommunikation entstehen spezielle IBK- Korpora (ebd., S. 521ff.), die es ermöglichen, einen spontanen Informationsaustausch an der Grenze zwischen Mündlichkeit und Schriftlichkeit (z.B. in Internetforen) zu untersuchen. „Diese sprachliche Freiheit begünstigt eine große Varianz und Aufgeschlossenheit gegenüber sprachlichen Mitteln, die <?page no="192"?> 192 Kleine und große Korpora - Spezialkorpora für Spezialfragen vom Standardsprachgebrauch abweichen.“ (Richling 2011, S. 521) Das Internet stellt ein neues Kommunikationsmedium dar und bietet damit auch neue Kommunikationsmöglichkeiten. Die steigende Beliebtheit von Analysen internetbasierter Kommunikation aller Art beweist auch Albert (2011, S. 496), der mit Hilfe eines Korpus von Chatprotokollen stilistische Markierungen von innovativen Sprachverwendungen untersucht. Zahlreiche Fragen lassen sich allerdings nicht mit Hilfe nur eines Korpus beantworten. Darauf machte schon Wolf (2010, S. 23) aufmerksam: „Für einzelne Arbeitsschnitte kann es sich als notwendig erweisen, unterschiedliche Korpora zu benützen.“ Das ist vor allem bei speziellen Fragestellungen der Fall. Die Suche nach interessanten sprachlichen Phänomenen beginnt z.B. in einem kleinen Korpus und geht in einem großen Korpus weiter. In diesem Zusammenhang spricht Wolf von „gestaffelten (Teil-)Korpora“ (ebd.). Ein exemplarisches Beispiel einer korpusgestützten Untersuchung möchte ich in der folgenden Fallstudie vorstellen. 6.1 Fallstudie Im Rahmen meiner Korpus-Untersuchungen habe ich mir unter anderem folgende Frage gestellt: Wie verhalten sich komponierte Partizipien II im deutschen Satz und wie werden sie ins Tschechische übersetzt? Dank der Arbeit mit dem deutsch-tschechischen Korpus DeuCze konnte ich z.B. das partizipiale Kompositum handgemalt entdecken, das aus einem morphologisch-syntaktischen Gesichtspunkt besonders interessant ist. Warum das Korpus DeuCze für mich unentbehrlich war, zeigt die folgende Tabelle: DUDEN WAHRIG DeuCze COSMAS II handgemalt nicht belegt belegt 3 Belege 1.570 Belege Bei dem Wort handgemalt handelt es sich um ein Kompositum, das 1) einen verbalen Kern hat und aus einem Verb entstand: malen - mit der Hand/ von Hand malen; 2) nicht (mehr) verbal gebraucht werden kann: * ich handmale * ich handschreibe; <?page no="193"?> 193 Kleine Korpora, große Korpora und Textsammlungen 3) auf keinen im Wörterbuch vorhandenen Infinitiv zurückzuführen ist: * handmalen * handschreiben; 4) im Wörterbuch als ein Adjektiv auftritt. Würde ich nach diesem für meine Untersuchung interessanten partizipialen Kompositum in einem Wörterbuch suchen, würde ich es im WAHRIG-Wörterbuch, nicht aber im DUDEN-Wörterbuch finden. Eben dank der Untersuchung des kleinen Korpus DeuCze fand ich drei Belege, die mich zum Nachdenken gebracht haben und die ich dann gezielt in einem großen Korpus, dem COS- MAS II, suchen konnte und eine repräsentative Menge an Daten erhielt. Falls ein interessantes Phänomen (wie z.B. das Kompositum handgemalt) gefunden wird, interessiert sich der Sprachwissenschaftler dafür, ob es sich um ein unikales Phänomen handelt, oder ob mehrere Belege gefunden werden. Eine Recherche in großen Korpora ermöglicht es dann, die Frequenz der einzelnen Belege zu erfragen. Es kann festgestellt werden, ob ein bestimmter Ausdruck als üblich und vielleicht usualisiert bezeichnet werden kann, oder ob es sich um einen Okkasionalismus handelt, und die Informationen über die funktionale Belastung der im kleinen Korpus gefundenen Fälle zeigen dann die Ergebnisse einer Befragung großer Korpora, die z.B. das Institut für deutsche Sprache zusammengestellt hat (COSMAS II). Die Arbeit mit großen Korpora ermöglicht es einerseits, die Häufigkeit des Vorkommens des untersuchten Ausdrucks festzustellen, und andererseits, ähnliche oder verwandte Phänomene zu finden. So kann man beispielsweise Komposita mit der ersten Konstituente handsuchen und ihre funktionale Belastung vergleichen. COS- MAS II ermöglichte es, noch weitere Komposita zu finden. Welche Möglichkeiten bietet das Sprachsystem einer anderen Sprache? bzw. welche sprachlichen Mittel, die es in einer anderen Sprache gibt, wählt der Übersetzer und warum? Das sind Fragen, die dank eines zweibzw. mehrsprachigen Korpus (z.B. InterCorp) beantwortet werden können. Ein Parallelkorpus ermöglicht dann die Suche nach Äquivalenten in einer anderen Sprache, ermöglicht es, weitere Bedeutungsbeschreibungen in weiteren Kontexten zu finden und dient der Erstellung von kontrastiven Studien aller Art. Als Beispiel sei das Kompositum handgeschrieben gewählt. Aus den Belegen ist ersichtlich, dass das Kompositum handgeschrieben auf dreierlei Weise übersetzt werden kann: <?page no="194"?> 194 Kleine und große Korpora - Spezialkorpora für Spezialfragen 1) 0 ! 0 15 6 + poznámek, které [...] > > , podomácku vyrobené tabule. < 5"% ) ! 6 ! Y Y% 0 štítky se zákazem vstupovat [...] 2) %0) 5 "%0) ! 1 ! rukou psaná slova [...] vyndá rukou psaný lístek, ale svá vlastní slova nevnímá [...] < 5 rukou: < . 3) Jeden dopis z této doby, psaný rukou Novského, [...] 0 6 1 1 ! 5 : [...] Poslední dopis nese razítko Kemu nedaleko Soloveckých + In einem großen einsprachigen (in unserem Fall im tschechischen) Korpus (z.B. } { 5 ) kann schließlich die Produktivität einzelner Übersetzungsmöglichkeiten untersucht werden (SYN2000). 7. Fazit Aus dem Gesagten wird deutlich, dass jede Fragestellung und jede sprachwissenschaftliche Zielsetzung ihre eigenen Materialsammlungen braucht. Sei es die Zusammenstellung großer Wörterbücher und Grammatiken, seien es Untersuchungen auf dem Gebiet der kontrastiven Linguistik und Übersetzungswissenschaft, die Erforschung der gesprochenen Sprache oder der deutschen Sprachgeschichte, oder die Bearbeitung spezieller Fragen aller Art - die Anforderungen an ein sprachliches Korpus sind, wie zu sehen ist, jeweils vollkommen anders. Angesichts der Vielzahl von möglichen linguistischen Fragestellungen kann es das eine universelle Korpus nicht geben. Die Sprachwissenschaftler suchen gezielt nach Materialsammlungen (Textsammlungen, Atlanten, Datenbanken, Videoaufnahmen u.a.), die ihnen helfen, die gestellten Fragen zu beantworten und die spezifischen Ziele ihrer Forschung zu erfüllen. Die vorgestellte Fallstudie bestätigt außerdem, dass es nicht selten vorkommt und weder problematisch noch gar illegitim, sondern oft sinnvoll und wünschenswert ist, sich mehrerer Korpora zu bedienen, um zu aussagekräftigen Ergebnissen zu gelangen. <?page no="195"?> 195 Kleine Korpora, große Korpora und Textsammlungen Literatur Korpustexte COSMAS II: http: / / www.ids-mannheim.de/ cosmas2/ DeuCze: http: / / www.deucze.org InterCorp: http: / / www.korpus.cz/ intercorp/ #Æ« * ® " ¯ µ #Æ« @ Ç © " ¯ ¥¥ UK, Praha. Wissenschaftliche Literatur Albert, Georg (2011): Innovative Sprachverwendungen: Verbreitung und Kontext. In: Konopka et al. (Hg.), S. 495-502. Bergerová Hana (2010): Zum Nutzen korpusbasierter Untersuchungen für eine adäquate lexikographische Beschreibung von Phraseologismen. Eine Fallstudie zu sein Mütchen kühlen. In: Kratochvílová/ Wolf (Hg.), S. 197-206. Burger, Harald (1973): Idiomatik des Deutschen. (= Germanistische Arbeitshefte 16). Tübingen. Cieslarová, Eva (2010): Bin ich ein Gegenstand? Eine Korpusanalyse ausgewählter Phraseologismen mit dem Konzept des Gegenstandes. In: Kratochvílová/ Wolf (Hg.), S. 217-227. DUDEN (2000): Das große Wörterbuch der deutschen Sprache. 10 Bde. auf CD- ROM. Mannheim. Dürscheid, Christa/ Elspaß, Stephan/ Ziegler, Arne (2011): Grammatische Variabilität im Gebrauchsstandard: das Projekt „Variantengrammatik des Standarddeutschen“. In: Konopka et al. (Hg.), S. 123-140. Keller-Bauer, Friedrich (1984): Metaphorisches Verstehen. Eine linguistische Rekonstruktion metaphorischer Kommunikation. Tübingen. Hofrichterová, Eva (2008): Phraseologismen im Wörterbuch und im deutschen und tschechischen Sprachgebrauch. Am Beispiel von Phraseologismen mit dem Bild von Mann und Frau. Diss. masch. Ostrava. Klosa, Annette (2010): Chancen und Probleme korpusgestützter Lexikografie. Am Beispiel deutschsprachiger Online-Wörterbücher. In: Kratochvílová/ Wolf (Hg.), S. 103-115. König, Almut (2010): Sprachatlas als Korpus. Am Beispiel des JuSUF. In: Kratochvílová/ Wolf (Hg.), S. 143-150. Konopka, Marek/ Kubczak, Jacqueline/ Mair, Christian/ Waßner, Ulrich H. (Hg.) (2011): Grammatik und Korpora 2009. Dritte Internationale Konferenz. (= Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache 1). Tübingen. <?page no="196"?> 196 Kleine und große Korpora - Spezialkorpora für Spezialfragen % ! ' * ] < erfahren: zu Kausativität im Deutschen und Tschechischen. In: Kratochvílová/ Wolf (Hg.), S. 161-169. Kratochvílová, Iva (2006): Zum aktuellen Thema: Die Korpuslinguistik im deutschtschechischen Sprachvergleich. In: Studia Germanistica 1, S. 35-45. Kratochvílová, Iva (2010): Analysen in Spezialkorpora: Die würde-Konstruktion in narrativen Texten. In: Kratochvílová/ Wolf (Hg.), S. 171-177. Kratochvílová, Iva/ Wolf, Norbert Richard (2010): Statt eines Vorworts: Ansätze zu einer sprachwissenschaftlichen Quellenkunde. In: Kratochvílová/ Wolf (Hg.), S. 9-15. Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.) (2010): Kompendium Korpuslinguistik. Eine Bestandsaufnahme aus deutsch-tschechischer Perspektive. Heidelberg. Krome, Sabine (2010): Die deutsche Gegenwartssprache im Fokus korpusbasierter Lexikographie. Korpora als Grundlage moderner allgemeinsprachlicher Wörterbücher am Beispiel des WAHRIG Textkorpus. In: Kratochvílová/ Wolf (Hg.), S. 117-134. % » ¢ ' * < ` ° ^ " " Á @ Á tersuchung mit Beispielen aus Text-Korpora. In: Kratochvílová/ Wolf (Hg.), S. 255-263. Mindt, Ilka (2010): Methoden der Korpuslinguistik: Der korpus-basierte und der korpus-geleitete Ansatz. In: Kratochvílová/ Wolf (Hg.), S. 53-65. ® % ' * & " | " ` Wirtschaftstexten. Ostrava. Pakkanen-Kilpiä, Kirsi (2004): Zur Verwendbarkeit des Partizips II als Attribut. Frankfurt a.M. Pakkanen-Kilpiä, Kirsi (2005): Indizien für einen systematischen Überprüfungsbedarf der grammatischen Beschreibung. In: Schwitalla/ Wegstein (Hg.), S. 147-153. Peloušková, Hana (2010): Zu deutschen ‘es-Konstruktionen ’ und ihren tschechischen Äquivalenten. In: Kratochvílová/ Wolf (Hg.), S. 265-274. Richling, Julia (2011): Diachrone Analyse eines Newsgroup/ Webforum-Korpus. In: Konopka et al. (Hg.), S. 521-530. Rykalová, Gabriela (2010): Komposita mit Partizip als zweiter Konstituente. Eine korpusgestützte Analyse. In: Kratochvílová/ Wolf (Hg.), S. 179-186. Schütte, Wilfried (2010): Korpora gesprochener Sprache im IDS und ihre Bearbeitung - von der Aufnahme über Dokumentation und Transkription zur Datenbankrecherche. In: Kratochvílová/ Wolf (Hg.),S. 75-86. Schwitalla, Johannes (2010): Probleme beim Erstellen und Auswerten gesprochensprachlicher Korpora. In: Kratochvílová/ Wolf (Hg.),S. 67-74. Schwitalla, Johannes/ Wegstein,Werner (Hg.) (2005): Korpuslinguistik deutsch: synchron - diachron - kontrastiv. Würzburger Kolloquium 2003. Tübingen. <?page no="197"?> 197 Kleine Korpora, große Korpora und Textsammlungen Simmler, Franz (2005): Zur Bedeutung textsortengebundener Materialkorpora für die Erforschung der deutschen Sprachgeschichte. In: Schwitalla/ Wegstein (Hg.), S. 189-199. Sinclair, John (1998): Korpustypologie. Ein Klassifikationsrahmen. In: Teubert, Wolfgang (Hg.): Neologie und Korpus. Tübingen, S. 111-128. Valdrová, Jana (2010): Stilwandel im Spiegel der Korpusanalyse: Paarformen bei Personenbezeichnungen. In: Kratochvílová/ Wolf (Hg.), S. 275-282. ! % - ' * # " Á * È rung der Stimmvarianz in Romanen. Methodologische Vorüberlegungen für korpusbasierte Untersuchungen. In: Kratochvílová/ Wolf (Hg.), S. 283-292. WAHRIG (2007): Wahrig Digital. Gütersloh/ München. Wellmann, Hans (2010): Korpuskontrollierte Lexikographie. Erhebungen zum Lernerwörterbuch. In: Kratochvílová/ Wolf (Hg.), S. 87-100. Wolf, Norbert Richard (2010): Korpora in der Korpuslinguistik. In: Kratochvílová/ Wolf (Hg.), S. 17-25. Wolf, Norbert Richard (2012): Texte lesen heißt Texte analysieren heißt Texte verstehen oder: Die Sprachwissenschaft als die grundlegende Textwissenschaft. In: % ! % & ' `@ * < " > $ @ Tübingen, S. 323-329. Zimmermann, Ralf (2010): Die bayerische Dialektdatenbank BayDat als Korpus. In: Kratochvílová/ Wolf (Hg.), S. 151-160. <?page no="199"?> Sven Staffeldt Entschuldigungsmails - oder: Wie und wo findet man einen pragmatischen Standard? 1. Problemstellung Nach Schmitz gibt es (wohl mindestens) drei Motive, statistische Methoden in der Textlinguistik anzuwenden: das linguistische (Ziel: „quantitative Eigenschaften der Ordnung von Texten“), das mathematische (Ziel: „Anwendungsbereiche der Mathematik jenseits der Natur in Erzeugnissen menschlichen Geistes“) und das anwendungsbezogene (Ziel: „Autorenerkennung, Stilanalysen, Textoptimierung (z.B. durch Verständlichkeitsmessung) und Fremdsprachenlernen (z.B. durch Grundwortschatzbestimmung und Textauswahl)“) (alle Zitate aus Schmitz 2000, S. 196). Zu dem ersten heißt es näher: Textstatistik untersucht alle quantifizierbaren Eigenschaften von Texten, um sie zu charakterisieren, untereinander zu vergleichen und zu klassifizieren, auf historische, geographische, soziale oder psychologische Entstehungsbedingungen zu schließen und um Gesetze zu entdecken, die die Konstruktion von Texten steuern. (ebd.) Um ein solches Gesetz geht es im Folgenden. Die Fragestellung lautet: Ist (oder inwiefern ist) die Konstruktion ansonsten vergleichbarer Texte davon abhängig, ob sie als einer Standard-Varietät oder einer Nicht-Standard-Varietät zugehörige sprachliche Einheiten produziert worden sind? Diese Fragestellung ist als solche nicht neu. Jede textlinguistische Studie, die sich textuellen Besonderheiten bestimmter Varietäten widmet, beschäftigt sich mindestens mit einer Seite dieser Frage: dem Nicht-Standard (zum Varietätenspektrum vgl. Dittmar 1997, S. 173-251). Und beinahe jede Studie, die auf etablierte große Korpora zurückgreift, beschäftigt sich mit der anderen Seite: dem Standard, weshalb Soziolinguisten nach wie vor zu Zwecken der Analyse jeweils eigene Korpora erstellen müssen: [They] still design and compile their own corpora based on the particular variables under investigation and annotated for their own specific purposes [...]. There are a variety of reasons for this. Perhaps the main one is the emphasis within corpus linguistics on standard written forms of language. (Romaine 2008, S. 97) Auch die Gegenüberstellung von Standardvs. Nicht-Standard-Phänomenen ist nicht neu. Allerdings bleibt eine der wichtigsten Dimensionen dabei ausgespart: <?page no="200"?> 200 Kleine und große Korpora - Spezialkorpora für Spezialfragen die pragmatische. Die Nicht-Standard-Varietäten werden vor allem phonetisch, morphologisch, syntaktisch und lexikalisch untersucht. Nicht aber wird die Frage gestellt, ob sich auch auf der pragmatischen Beschreibungsebene Unterschiede zum Standard zeigen (vgl. etwa die Übersicht in Löffler 2005, S. 22). Diese Situation ist misslich, weil sprachlich kommunizieren eine pragmatische Angelegenheit ist und das Aussparen der pragmatischen Beschreibung von Varietäten somit auf eine der wichtigsten Ebenen verzichtet. Sind also Teile der Fragestellung nicht neu, zeigt sie doch als auf pragmatische Phänomene bezogene deutlich ein Desiderat auf. In dem vorliegenden Aufsatz steht genau diese Frage im Vordergrund. Es wird gezeigt, dass über korpusbasierte Methoden, theoretische und praktische Widerstände überwindend, Erkenntnisse über die pragmatische Konstruktion von Texten gewonnen werden können. 2. Widerstände Wer immer sich pragmatischen Erkenntniszielen korpusanalytisch nähern möchte, sieht sich vor größere Probleme gestellt. In theoretischer Hinsicht liegen die Schwierigkeiten vor allem in der präzisen Bestimmung pragmatischer Einheiten. Das zeigt sich bereits an der Identifizierung grundlegender Kategorien. So ist es trotz mittlerweile jahrzehntelanger Forschung auf diesem Gebiet völlig unklar, welche Einheiten als Grundeinheiten infrage kommen, wie diese Grundeinheiten zu definieren sind und wie viele verschiedene Typen dieser Grundeinheiten sinnvollerweise angenommen werden können. Es ist bspw. bezeichnend, wie viele Illokutionen in der Literatur angenommen werden: Harras et al. beschäftigen sich mit 173 (und 460 dazu synonymen) sprechaktbezeichnenden Verben, womit für vier der fünf Searle'schen Klassen „Vollständigkeit angestrebt worden“ (Harras et al. 2004, S. 7) ist, Rolf beschreibt 211 Illokutionskräfte (Rolf 1997, S. 134-239), Ballmer erwähnt 500 Sprechaktkategorien der Berliner Gruppe (1975) (Ballmer 1979, S. 265), Wagner zählt 441 bzw. 540 illokutive Typen (Wagner 2001, S. 147) und Rolf führt in 45 Klassen 2.048 illokutionär unterscheidbare Textsorten an (Rolf 1993, S. 165- 308). In dieser Situation bleibt Forscherinnen und Forschern, da sie auf keinen sicheren Kriterienkatalog zurückgreifen können, meist „als einzige Möglichkeit, eine eigene, anwendungsorientierte Klassifikation zu schaffen“ (Schmitt 2000, S. 130). Wem das gelingt, dem stellt sich sofort das nächste, diesmal forschungspraktische Problem: das der Kriterien für die Zuordnung zu den aufgestellten Klassen. Und dieses Problem hat es in sich. Zum einen muss nämlich von der sprachlichen <?page no="201"?> 201 Entschuldigungsmails - oder: Wie und wo findet man einen pragmatischen Standard? Oberfläche auf illokutionäre Zwecke geschlossen werden können. Hier hat man es mindestens mit der Schwierigkeit zu tun, dass ein Illokutionsindikator nicht hinreichend für eine solche Zuordnungsentscheidung ist. Selbst der explizit performative Vollzug verschafft keine Sicherheit. Dies ist ein notorisches Problem der Sprechakttheorie: das der intersubjektiven Gültigkeit (oder eben Objektivität). Aber auch anderer pragmatischer Disziplinen. Immer muss der Schritt von den Daten zur Interpretation gerechtfertigt werden. Und zwar auch dann, wenn man dafür Daten nimmt, die sich auf Daten beziehen (wie in der Gesprächsanalyse). Denn auch wenn man Interpretationen aus Metastellen im Gespräch heraus entwickelt (und damit dem „Grundprinzip interaktiver Ordnung“ (Brinker/ Sager 2001, S. 121) folgt), bleibt die Interpretation dieser Metastelle eine Interpretation von Analysierenden. Zum anderen sind diese Indikatoren wegen ihrer extremen Disparatheit nicht ohne stark vereinfachende Operationalisierungen für text- und erst recht nicht für korpusanalytische Analysen verwendbar. Bezeichnenderweise hat etwa der HSK-Band zur Quantitativen Linguistik (Köhler/ Altmann/ Piotrowski (Hg.) 2008) im Register z.B. keinen Eintrag Illokution. Eine praktikable pragmatische Annotation - etwa von einzelnen Illokutionen oder gar von textuell aufeinander bezogenen (vgl. dazu Rolf 2000 vs. Motsch 1987, 2000 und Motsch (Hg.) 1996) - liegt aus diesen Gründen derzeit noch in weiter Ferne: Es existieren bislang keine mit Illokutionsstruktur annotierten Korpora, und auch kaum konkrete Vorschläge für Annotationsschemata. (Stede 2007, S. 128) Von einem auch nur annähernd ‘vollständigen’ Katalog von Merkmalen und ihrer Zuordnung zu Illokutionstypen sind wir heute noch weit entfernt: Weder sind die Merkmale, ihre Interaktionen und ihre Bezüge zum Kontext systematisiert, noch besteht überhaupt Einigkeit über ein zugrunde zu legendes Inventar von Illokutionstypen. (ebd., S. 179) Bisher erfassen pragmatische Annotationen also eher Referenz- und Kohärenzphänomene, wie z.B. rhetorische Beziehungen von Textteilen (vgl. Lemnitzer/ Zinsmeister 2006, S. 86f. und Stede 2007, S. 131-180). Für den Bereich der Illokutionen sieht es so aus, dass eine Annotation derzeit höchstens auf der Ebene der globalen Illokutionsklassen anwendbar zu sein scheint: The grand plan of devising a classification that accommodates all kinds of speech act found in all kinds of discourse and at the right level of delicacy seems impossible, but the global classifications that exist do at least present a useful starting point. (Archer/ Culpeper/ Davies 2008, S. 617) Die Frage also ist: Wie können diese Widerstände überwunden werden, wenn man sich auf den Weg macht, einen pragmatischen Standard mittels einer Korpusanalyse zu finden? <?page no="202"?> 202 Kleine und große Korpora - Spezialkorpora für Spezialfragen 3. Kleines Pilotprojekt Standard- und Nicht-Standard- Entschuldigungsmails (SuNSE) 3.1 Begriffsklärungen und Zielsetzung Zunächst muss geklärt sein, was ein pragmatischer Standard ist. Natürlich stellt eine solche Begriffsklärung stärkere theoretische Ansprüche, als sie hier eingelöst werden können. Um einen praktikablen Zugang zu bekommen, sei Pragmatischer Standard hier so definiert: pragmatische Beschreibungsebene der Standardvarietät. Diese Definition ist natürlich zu kurzschlüssig. Man muss also auch noch offenlegen, was man unter pragmatisch und was unter Standardvarietät versteht. Pragmatische Beschreibung im hier zugrunde gelegten Verständnis meint: Beschreibung sprachlicher Einheiten hinsichtlich ihrer kommunikativen Funktion in ihrer Verwendung, und Standardvarietät definiere ich mit Glinz ex negativo als: die heute gehörte und gelesene, gesprochene und geschriebene deutsche Sprache, soweit sie als allgemein gebraucht, als nicht-mundartlich und als nichtschichtenspezifisch betrachtet wird. (Glinz 1980, S. 610) Mir ist bewusst, dass der so bestimmte Begriff aus theoretischer Perspektive eine eher unbefriedigende Kompromisslösung ist und hinsichtlich des Abstraktionsgrades oder der Virtualität wohl dieselben Schwierigkeiten aufweisen dürfte, wie der Begriff der langue. Mindestens müssten noch positive Bestimmungen vorgenommen werden, etwa: Verbreitung über das gesamte Sprachgebiet (Landessprache), konzeptionell eher schriftsprachlich orientiert (also eher in Richtung Distanz gehend; vgl. Koch/ Oesterreicher 1985), in der Schriftsprache „konkurrenzlos, d.h. es gibt keine andere schriftliche Varietät“ (Fleischer/ Helbig/ Lechner (Hg.) 2001, S. 357), (mind. teilweise) kodifiziert oder kodifizierbar usw. Und natürlich muss auch die Frage im Auge behalten werden, wie das Verhältnis einer eventuellen, überdachenden Standardvarietät zu regionalen (Sub-)Standards ist (vgl. etwa Spiekermann 2005). Aber er ist praktikabel mindestens in der Hinsicht, dass er operationalisiert werden kann über die Frage: In welchen Situationen benutzen Sprachteilhaber diese Varietät, die sich durch das weitgehende Fehlen dialektaler, soziolektaler, idiolektaler etc. Merkmale auszeichnet? Ich gehe davon aus, dass eine solche Situation in folgendem Fall gegeben ist: Kommunikation zwischen Studierenden und einem Dozenten, die sich gegenseitig, über Kontakte in Lehrveranstaltungen und Sprechstunden u.Ä. hinausgehend, nicht näher bekannt sind. Um den Anfangswiderstand der illokutionä- <?page no="203"?> 203 Entschuldigungsmails - oder: Wie und wo findet man einen pragmatischen Standard? ren Globalinterpretation einer kompletten Äußerung zu überwinden, habe ich Studierenden eines unteren Semesters in Würzburg eine E-Mail geschickt, in der ich sie gefragt habe, ob sie mir eine Entschuldigungsmail schicken könnten (siehe Anhang I). Diese E-Mail ist im Unterschied zu einer mit dem gleichen Anliegen, die ich an Personen aus meinem Freundeskreis geschickt habe (siehe Anhang II), als zum Standard gehörige gehalten. In letzterer sind Nicht-Standard-Elemente eingestreut (etwa die dialektale Begrüßung oder auch der Satzanfang mit und oder der Neologismus aufs allerunglaublichste). Mit der E-Mail an die Studierenden sollen Standard-Entschuldigungen (SE) als Daten elizitiert werden, mit der E-Mail an die Freunde sollen Nicht-Standard-Entschuldigungen (NSE) elizitiert werden. Alle SE und NSE zusammen bilden die der Untersuchung zugrunde gelegten Belegkorpora: das SE-Korpus und das NSE-Korpus. Anhand des Vergleichs der Belege dieser beiden Korpora sollten Eigenschaften von SE im Unterschied zu denen von NSE ermittelbar sein. Und natürlich auch eventuelle Gemeinsamkeiten. Die Ergebnisse gelten dann zunächst einmal für diese experimentelle Grundsituation. Ausgeweitet werden könnte die Analyse etwa durch Einbezug anderer oder weiterer Faktoren. So könnte etwa der Entschuldigungsanlass (Kopien nicht gemacht) verändert werden (zu einem Treffen nicht erschienen, irrtümlich eine Fehlinformation gegeben, das Auto angefahren, einen wichtigen USB-Stick verloren usw.). Oder das gesamte Szenario (mündliche Entschuldigung, nachdem man dem jemandem auf den Fuß getreten hat, schriftliche Entschuldigung, dass man sich in einer Frage an den Adressaten wendet, Entschuldigung nach einem Vorwurf usw.). Auf diese Weise erhielte man möglicherweise Hinweise auf weitere und andere kontextuelle Faktoren, die die Konstruktion von Entschuldigungstexten steuern. 3.2 Kriterien Die beiden Korpora sind von der Anzahl der E-Mails her denkbar klein. Es liegen 18 SE von Studierenden vor (gefragt wurden ca. 300, allerdings am Ende des Semesters und damit kurz vor den Klausuren) und 14 NSE von Freunden vor. 1 Bei einer ersten Auswertung wurden diese Mails daraufhin durchgesehen, welche Analysekriterien sich sinnvollerweise aufstellen lassen. Es sind dies zunächst rein formale (etwa Anzahl der Wörter, Anzahl der Handlungen usw.) und strukturelle, nämlich (a) die den Beginn betreffende Anrede 1 Es handelt sich mithin eher um Korpuskel (vgl. den Beitrag von Hans-Ulrich Schmid in diesem Band) als um Korpora. Dennoch ist die Auswertung eines solchen Korpuskels erkenntnisstiftend. <?page no="204"?> 204 Kleine und große Korpora - Spezialkorpora für Spezialfragen und Titel+Name sowie die das Ende betreffende Verabschiedungsformel und Namensnennung des Absenders. Als ein für die SE-NSE-Unterschiede sehr einschlägiges Kriterium hat sich schließlich (b) auch die Bezugnahme auf das Nichtgemachte (= die Kopien) erwiesen. Die Kriterien zur Analyse von (a) und (b) ergeben sich einfach aus dem Registrieren des Vorliegens der sprachlichen Realisierung an der Oberfläche. Hier wurden die Ausdrücke (z.B. Sehr geehrter Herr als Anrede, Professor XY als Titel+Name, Mit freundlichen Grüßen als Verabschiedungsformel und RICHTIGER VOR- UND NACHNAME als Absendername) in einer Datentabelle erfasst. Den Hauptteil der Analyse macht (c) die Handlungsstruktur aus. Es hat sich gezeigt, dass man am besten von Handlungspositionen (1-n) ausgeht. Diese Positionen werden mit verschieden wiederkehrenden Einheiten (sprachlichen Handlungen) besetzt. Diese zu identifizieren, ist das Herzstück der Analyse. Dafür mussten Oberflächenkriterien gefunden werden. Folgend werden diese Kriterien beispielhaft für die wichtigsten Handlungen besprochen. Es ist hier leider nicht der Platz, diesen Kriterienkatalog ausführlich zu besprechen. Von der Grundanlage her wurde aus dem Vorliegen illokutionärer und propositionaler Indikatoren an der sprachlichen Oberfläche auf das Vorliegen einer Handlung geschlossen. Das betrifft etwa Ausdrücke wie leider oder ich bedauere, dass ebenso wie die Verwendung der 1. Ps. Sg. Futur I von Handlungsverben oder einzelne Phrasen (z.B. aus zeitlichen Gründen) und an exponierter Stelle platzierte Wörter (z.B. zerknirscht). Diese Kriterien sich zu erarbeiten, ist die Hauptaufgabe einer korpusbasierten Illokutionsanalyse. Schauen wir uns dazu ein paar Beispiele an: a) Entsch_Studi_2 Sehr geehrter Herr Professor XY, (1) leider konnte ich den von Ihnen entrichteten Auftrag nicht umgehend bearbeiten. (2) Dafür möchte ich mich entschuldigen und (3) mitteilen, dass ich den Auftrag nun umgehend bearbeiten werde. Mit freundlichen Grüßen Im Hauptteil der E-Mail finden wir drei Handlungen: (1) BEDAUERNDE MITTEILUNG : noch nicht - Indikator: leider + Satz des Inhalts ‘Kopien nicht umgehend gemacht’ (2) ENTSCHULDIGUNG : noch nicht - Indikator: entschuldigen + dafür (3) VERSPRECHEN : Kopien jetzt - Indikator: 1. Ps., Sg., Futur I, Ind., Aktiv von bearbeiten + umgehend <?page no="205"?> 205 Entschuldigungsmails - oder: Wie und wo findet man einen pragmatischen Standard? Problematisch ist sicher der letzte Punkt. Hier wurde ein illokutionäres Verb verwendet (mitteilen), das für die Interpretation der Handlung (als VERSPRE- CHEN ) nicht herangezogen wurde. Aus den folgenden Gründen: Wichtiger als das illokutionäre Verb scheint die Temporalangabe zu sein. Eine solche ist häufig zu finden (z.B. schnellstmöglich, unverzüglich, zum nächstmöglichen Zeitpunkt, sobald als möglich, morgen sofort, morgen früh um 8: 00 Uhr usw.). Diese Temporalangaben tauchen immer dann auf, wenn es darum geht, wann S 2 das noch nicht Gemachte erledigen wird. Damit legt S sich auf einen Erledigungszeitpunkt fest, auf den sich H wiederum einstellen kann (= H kann begründete Erwartungen darüber haben, dass S die Kopien zu diesem Zeitpunkt machen wird). Somit sind alle Bedingungen für den Vollzug eines kommissiven Sprechakts des Typs VERSPRECHEN gegeben, wie sie von der orthodoxen Sprechakttheorie Searle’scher Provenienz (vgl. Staffeldt 2008, S. 54 und 89) aufgestellt worden sind. b) Entsch_Studi_6 Sehr geehrter Herr XY, (1) leider muss ich Ihnen mitteilen, dass ich ((2) aus zeitlichen Gründen) der mir von Ihnen übertragenen Aufgabe nicht nachgehen konnte. (3) Ich werde Ihnen die Kopien sobald zukommen lassen, als nur möglich. (4) Ich bitte nochmals um Verzeihung. Mit freundlichen Grüßen XY Auch hier haben wir wieder (1) die BEDAUERNDE MITTEILUNG : noch nicht und (3) das VERSPRECHEN , Kopien jetzt. Als nicht-satzförmig realisierte Handlung liegt mit der PP aus zeitlichen Gründen (2) noch die MITTEILUNG : Grund vor. In (4) liegt eine Handlung vor, die ich als BITTE UM : Verzeihung klassifiziert habe. Dies ermöglicht mir, die Formen der BITTEN UM zunächst einmal nach dem propositionalen Indikator (Verzeihung, Nachsicht, Entschuldigung usw.) auseinanderzuhalten. Gleichzeitig aber durch den gleichen illokutionären Indikator (bitten um) die auch und gerade an der Textoberfläche ablesbare Nähe dieser Sprechakte zu respektieren. Zugleich ist damit eine Schwierigkeit von deduktiven Analyseverfahren behoben, wie sie etwa bei Wagner (2001, S. 212 und 271ff.) oder Marten-Cleef (1991, S. 288-302) anzutreffen sind. Letztere differenziert „ ENTSCHULDIGUNG als Annahme einer Bitte um Entschuldigung und ENTSCHULDIGUNG als Bitte um Entschuldigung“ (Marten-Cleef 1991, S. 288), beschäftigt sich dann nur mit dem zweiten Typ, wobei die so formulierte Handlung (Bitte um) in ihrem Zweck eigent- 2 Folgend sind S = SprecherIn/ SchreiberIn und H = HörerIn/ LeserIn. <?page no="206"?> 206 Kleine und große Korpora - Spezialkorpora für Spezialfragen lich nicht mehr expressiv sein dürfte. Ersterer unterscheidet ein assertives ENTSCHULDIGEN als Gründe angeben, „die etwas Negatives [betreffen], das er [= S; d. Verf.] aber nicht zu vertreten hat“ (Wagner 2001, S. 212) von einem expressiven SICH-ENTSCHULDIGEN , wobei jedenfalls völlig unklar ist, wie er die beiden Typen in sprachlichen Vollzügen identifizieren würde. c) Entsch_Studi_9 Sehr geehrter Herr Prof. Dr. XY, (1) den von Ihnen gestellten Kopierauftrag konnte ich heute leider nicht erledigen. (2) Hiermit entschuldige ich mich vielmals und (3) versichere Ihnen, dass dies nicht mehr vorkommen wird. (4) Den Auftrag hole ich morgen sofort nach. Mit freundlichen Grüßen, XXXXX XXXXXXX Mit (1) liegt wieder eine BEDAUERNDE MITTEILUNG : noch nicht vor, mit (2) der Vollzug einer ENTSCHULDIGUNG (und zwar ohne einen anderen textuellen Bezug zum Anlass noch nicht als die Position nach der MITTEILUNG : noch nicht, weshalb dies lediglich als ENTSCHULDIGUNG und nicht als ENTSCHUL- DIGUNG : noch nicht gewertet wurde) und mit (4) das VERSPRECHEN : Kopien jetzt vor. In (3) ist mit versichere wieder ein illokutionäres Verb anzutreffen. Allerdings geht es propositional wieder um eine zukünftige S-Handlung, nämlich die künftige Unterlassung, Kopieraufträge nicht auszuführen. Wiederum sind die Bedingungen eines VERSPRECHENS erfüllt, weshalb ich diese Fälle als VERSPRECHEN : nie wieder klassifiziert habe. d) Entsch_Freunde_2 Lieber Sven, (1) es tut mir wirklich leid, aber hier ist es im Moment gerade sehr stressig (Evaluation des Semesters, Abschlussklausuren etc.) Deshalb die (vielleicht zu) späte Antwort, (2) ich hatte bisher einfach keine Chance, die Kopien zu machen. (3) Ich könnte das aber Anfang der nächsten Woche erledigen und Dir die Sachen am Dienstag schicken. (4) Bitte lass mich wissen, ob das auch noch OK ist für dich. Viele Grüße - (5) zerknirscht RICHTIGER VORNAME. In (1) geht es zwar wieder um eine BEDAUERNDE MITTEILUNG , diese betrifft aber die Angabe des Grundes. Diese BEDAUERNDE MITTEILUNG : Grund ist verzahnt mit (2) der MITTEILUNG : noch nicht (und über (vielleicht zu) mit (3) <?page no="207"?> 207 Entschuldigungsmails - oder: Wie und wo findet man einen pragmatischen Standard? und (4)). Diese Struktur ist von größerem pragmatischen Interesse: Warum wird das Vorliegen des Grundes bedauert und nicht, dass man die Kopien noch nicht gemacht hat? Dies müssten Detailstudien angehen. Mit (3) liegt - deutlich markiert durch den Konjunktiv des Modalverbs - das ANGEBOT : später (hier: Anfang der nächsten Woche + Dienstag schicken) vor, wofür in (4) mit der BITTE UM : Rückmeldung (illokutionär markiert durch bitte) eine Bestätigung (propositional markiert durch: lass mich wissen, ob ... OK) erbeten wird. In (5) wird - übrigens nicht nur in dieser Mail - eine Handlung allein durch ein (mittels Gedankenstrich abgesetztes) Wort vollzogen. Dieser Fall wird als AUSDRUCK BETROFFENHEIT erfasst. Insgesamt lassen sich auf diese Weise in den beiden Belegkorpora 36 verschiedene Handlungen identifizieren (siehe Tab. 1). Handlungen Studis Hiwis Freunde A.1 bedauernde Mitteilung: noch nicht 14 1 10 A.2 Mitteilung: noch nicht 1 2 2 A.3 bedauernde Mitteilung: Grund 1 - 3 A.4 Mitteilung: Grund 11 2 4 A.5 Mitteilung: Auftrag erhalten 1 - - A.6 Mitteilung: auch nicht weitergeleitet - 1 - A.7 Mitteilung: fertig - 1 - A.8 Mitteilung: Grund E-Mail - 1 - A.9 Mitteilung: Bücher weg - - 1 A.10 Mitteilung: auch heute nicht - - 1 A.11 Mitteilung: frühestens abends - - - A.12 Mitteilung: Kopien weg - - - A.13 Mitteilung: Spende an IWF - - 1 B.1 Versprechen: kopieren jetzt 14 2 6 B.2 Versprechen: nie wieder 6 2 1 B.3 Versprechen: E-Mail - - 2 C.1 Bitte um: Entschuldigung: noch nicht 2 1 - C.2 Bitte um: nicht überbewerten 1 - - C.3 Bitte um: Verzeihung 2 - - C.4 Bitte um: Nachsicht 1 1 - C.5 Bitte um: Rückmeldung - - 1 D.1 Entschuldigen - 1 3 D.2 Entschuldigen: noch nicht 4 1 - D.3 Entschuldigen: Unannehmlichkeiten 1 - - E.1 Ausdruck Hoffnung: nicht schlimm 4 1 4 E.2 Ausdruck Hoffnung: noch nicht zu spät - 1 - E.3 Ausdruck Hoffnung: nicht böse - - 2 E.4 Ausdruck Hoffnung: ok so - 1 - E.5 Ausdruck Bedauern - - 5 E.6 Ausdruck Bedauern: noch nicht - 2 - E.7 Ausdruck Erschrecken: noch nicht - - 1 E.8 Ausdruck Betroffenheit - - 2 F.1 Angebot: später - - 2 G.1 Frage: Anliegen - - 1 G.2 Frage: zu spät - - 1 H.1 Aufforderung: erneuter Auftrag - - 2 gesamt 63 21 55 Tab. 1: Anzahl der unterschiedlichen Typen von Handlungen <?page no="208"?> 208 Kleine und große Korpora - Spezialkorpora für Spezialfragen Bemerkung zur Spalte Hiwis: Ich habe zusätzlich noch ein drittes Korpus mit Mails von Lehrstuhlhiwis erstellt, auf das ich aber - weil es mit fünf E-Mails viel zu klein ist - im weiteren Verlauf nur sporadisch eingehen werde. Die Idee war, ein Korpus zu haben, das gewissermaßen zwischen SE und NSE steht. Ich habe zu allen Hiwis nämlich ein gutes bis beinahe freundschaftliches Verhältnis, bin andererseits aber auch weisungsbefugter Dozent. Meine E-Mail war dementsprechend zwar im Nicht-Standard gehalten, vom Szenario aber durch die berufliche Beziehung geprägt (siehe Anhang III). 3.3 Ergebnisse Bereits hinsichtlich der Anzahl der Wörter lässt sich eine Tendenz in den Unterschieden von SE und NSE erkennen. Je stärker der Nähegrad ist, desto länger werden die E-Mails bei gleichzeitig größerer Differenz von Minimal- und Maximalwert. Die Standardabweichung ist bei den NSE dementsprechend auch viel höher. Freunde dürfen - diese Tendenz interpretierend - also länger schreiben und sie dürfen - aus SE-Sicht - maximal stark und minimal weniger stark über die Stränge schlagen: Abb. 1: Anzahl der Wörter in den Korpora (jeweils Mindestanzahl, Höchstanzahl und Mittelwert) Die gleiche Tendenz zeigt sich auch in der Frage, mit wie viel Wörtern die einzelnen Handlungen vollzogen werden. Die SE liegen mit 12,84 Wörtern pro Handlung deutlich niedriger als die NSE mit 20,20 Wörtern. Die durchschnittliche Anzahl der Handlungen (insgesamt 63 der Gruppen A-E 3 in 18 NSE und insgesamt 49 der Gruppen A-E in 14 NSE) ist dagegen in beiden 3 Das sind die großen Gruppen. Die Handlungstypen F-H werden im weiteren Verlauf nicht berücksichtigt. <?page no="209"?> 209 Entschuldigungsmails - oder: Wie und wo findet man einen pragmatischen Standard? Korpora erstaunlicherweise gleich, nämlich: 3,5. Dies ist ein erster Hinweis darauf, dass sich SE und NSE in pragmatischer Hinsicht möglicherweise weniger stark unterscheiden als vielleicht in stilistischer. Es wird noch zu zeigen sein, worin genau aber doch die Unterschiede liegen. Ein (natürlich zu erwartender und wohl nicht nur auf Entschuldigungen bezogener) struktureller Unterschied ist bei der Anrede und der Verabschiedung zu registrieren: Anrede SE NSE Titel+Name SE NSE Verabschiedung SE NSE Sehr geehrter 6 - Prof. XY 3 - Hochachtungsvoll 1 - Sehr geehrter Herr 9 2 Professor XY 2 - Mit freundlichen Grüßen 15 1 Sehr geehrte Frau 1 - Prof. Dr. XY 8 - MfG 1 - Lieber Herr 1 - Prof. Dr. ... 1 - Viele Grüße - 4 Hallo Herr 1 - XY 4 - Viele Grüße und bis später - 1 Hallo - 2 Sven - 11 LG - 1 Lieber - 9 Dr. Staffeldt - 1 Liebe Grüße - 1 Hi - 1 Dr. Sven Staffeldt - 1 Liebste Grüße 1 - ohne - - ohne - 1 Herzliche Grüße - 2 18 14 18 14 Bis bald - 1 Deine - 1 Gruß ; ) - 1 ohne - 1 18 14 Tab. 2: Anzahl der benutzten sprachlichen Einheiten zur Anrede und Verabschiedung Bei den SE überwiegt als Anrede Sehr geehrter Herr, als Titel+Name Prof. Dr. XY und als Verabschiedung Mit freundlichen Grüßen. Bei den NSE sind als Anrede vor allem Lieber, als Titel+Name vor allem Sven und als Verabschiedung vor allem Viele Grüße zu finden. 4 Diese Einheiten wurden in ihrer Kombination nicht näher untersucht. Ein erster Blick ergibt aber bei den SE eine Bevorzugung von [Sehr geehrter Herr + {Prof., Professor, Prof. Dr.} NACHNAME + [Haupttext] + Mit freundlichen Grüßen] als meistbenutzte Kombination der Elemente aller drei Positionen (5x). Um hier Aussagen treffen zu können, müsste aber die Gesamtmenge größer sein. Interessant ist, dass sich die Anreden und Verabschiedungen aus SE und NSE tatsächlich (bis auf zwei Ausreißer) jeweils auf zwei Gruppen aufzuteilen scheinen und nur bei den NSE-Verabschiedungen eine gewisse Breite möglicher verschiedener Formen vorliegt. Damit gilt zumindest schon für diesen Bereich nicht, was Weidacher für Entschuldigungsmails vermutet und in seinem Korpus auch bestätigt findet: 4 Bei den Ergebnissen zu Titel+Name liegt klarerweise ein starker Bias durch die Fragestellung vor. Nicht so aber bei Anrede und Verabschiedung. <?page no="210"?> 210 Kleine und große Korpora - Spezialkorpora für Spezialfragen Die Anwendung des sich so herausbildenden - relativ genau bestimmten - Textmusters scheint AutorInnen von Entschuldigungen in manchen Fällen jedoch nicht ideal bzw. zumindest nicht ausreichend, weshalb Variationen unterschiedlicher Art versucht werden. (Weidacher 2011, S. 52) Tatsächlich finden sich in seinem Korpus auch E-Mails mit den folgenden Anreden: guten Tag! , GUTEN TAG Herr Prof. X, Hallo! oder auch ohne einen sprachlichen Ausdruck. Aber einerseits präsentiert Weidacher keine Zahlen (Wie viele Variationen einzelner Strukturelemente liegen in seinem Korpus vor? ) und andererseits lässt sich aus den besprochenen Variationen eventuell auch ein anderer Schluss ziehen. S sind vielleicht nicht, wie Weidacher vermutet, mit dem Textmuster unzufrieden (siehe Zitat oben) oder überfordert („mangelnden kommunikativen Kompetenz“ Weidacher 2011, ebd.). Was Weidacher nämlich nicht systematisch erhebt, ist die Nähe zwischen Dozentin/ Dozent und Studentin/ Student. Er hat sich (spontan-authentische und nicht experimentell elizitierte) E-Mails von Studierenden an verschiedene Dozentinnen/ Dozenten geben lassen, geht aber nur an ganz wenigen Stellen auf das Verhältnis der beiden ein: Wie gut also sind Dozentin/ Dozent und Studentin/ Student einander bekannt? Der von ihm festgestellte - um es übertrieben zu sagen - Zwang zur Variation könnte nämlich auch dadurch bedingt sein. Dieser Faktor ist bei meinen SE weitgehend ausgeschaltet. Eine kurze Zwischenbemerkung zu den nicht zu erwarten gewesenen Anreden mit Titel und (Vorund) Nachnamen bei den NSE. Es handelt sich hier um zwei Mails, die einen ironischen Ton anschlagen, indem sie gerade einen Standard-Stil nachahmen. Nun ist es so, dass es vorstellbar ist, dass ich diese Mails auch tatsächlich als NSE bekommen hätte. Ironisch gefärbte Interaktionsstile gehören zum festen Repertoire meiner privaten Kommunikation. Deshalb habe ich sie nicht aus dem Belegkorpus gestrichen. Eine andere Entscheidung habe ich bei einer E-Mail getroffen, die aus der 21-maligen Wiederholung desselben Haupttextes besteht: e) Entsch_Freunde_7 Hi Sven! Leider habe ich total vergessen, deine Mail wie versprochen zu kopieren. tut mir total leid. Gruß ; ) RICHTIGER VORNAME Obwohl auch hier ein gewolltes Wortspiel vorliegt - nämlich ein, wenn man so will, performativer Selbstwiderspruch: 21-maliges Kopieren der Mail, in <?page no="211"?> 211 Entschuldigungsmails - oder: Wie und wo findet man einen pragmatischen Standard? der man sich für das Nicht-Kopieren der Mail entschuldigt - habe ich nur die Kopiervorlage, das Muster (durchaus auch im Sinne von Bubenhofer 2009, S. 23) zur Auswertung herangezogen. Ansonsten hätte dies z.B. den Faktor Anzahl der Wörter usw. zu stark verzerrt. Diese drei NSE kann man durchaus als „Variation des Textmusters“ (Weidacher 2011, S. 52) verstehen. Nur sind diese Variationen ausschließlich in dem NSE- Korpus aufgetreten. Bei den SE ist keine Variation der Art, wie Weidacher sie bespricht, zu finden. Und lediglich eine SE (siehe den gleich folgenden Beleg 14) ist stilistisch auffällig. Wie sich aber aus dem Folgenden ergibt, hält auch diese Mail sich an einen grundlegenden pragmatischen Standard: f) Entsch_Studi_14 Sehr geehrter Herr XY, mit dieser Mail möchte ich Ihnen mitteilen, dass der von Ihnen gewünschte Auftrag wohl nicht zu Ihrer Zufriedenheit ausgeführt wurde, bzw. gar nicht ausgeführt wurde. Gründe lassen sich viele nennen, sei es reiner Zeitdruck oder just menschliches Versagen. Aber immerhin lernt man aus Fehlern, weswegen ich diesen Fauxpas an Ihrer Stelle nicht überbewertete. Alles in allem kann ich mich diesbezüglich nur entschuldigen und versuchen, solch Verhalten in Zukunft zu unterlassen, um mich voll und ganz Ihren Wünschen zu widmen. Mit freundlichen Grüßen, YX Deutlich werden die SE-NSE-Unterschiede vor allem bei zwei Kategorien: 1) Mit welchem sprachlichen Ausdruck wird auf den Kopierauftrag/ die Kopierbitte Bezug genommen? 2) Handlungen welchen Typs werden in SE und NSE bevorzugt? zu (1): Bei den SE wird auf den Kopierauftrag häufig mit einer komplexen NP Bezug genommen, die ein linksseitiges Attribut, bestehend aus einem Partizip II mit dessen Komplementen, aufweist (nämlich: der von Ihnen beantragte Kopierauftrag, den von Ihnen entrichteten Auftrag, den mir aufgetragenen Kopierauftrag, den von Ihnen gewünschten Kopierauftrag, der mir von Ihnen übertragenen Aufgabe, den von Ihnen gestellten Kopierauftrag, den von Ihnen erhaltenen Auftrag, der von Ihnen gewünschte Auftrag). Der verschachtelte NP-Ausbau ist eine Standard-Erscheinung, die bei den NSE nicht anzutreffen ist. In dem einen Fall, da überhaupt linksseitig attribuiert wird, wird ein Partizip II ohne seine Komplemente benutzt: die versprochenen Kopien. <?page no="212"?> 212 Kleine und große Korpora - Spezialkorpora für Spezialfragen zu (2): Fasst man die insgesamt vorkommenden Handlungen zu Gruppen zusammen (siehe oben Tab. 1), so zeigt sich bei den NSE gegenüber den SE eine deutliche Bevorzugung des Typs B ( VERSPRECHEN ). Dahingegen liegt bei den SE gegenüber den NSE eine Präferenz für den Typ E vor ( AUSDRUCK EINES INNEREN ZUSTANDES ). Aber weder fehlt bei den NSE der A-Typ, noch bei den SE der E-Typ. Beinahe gleich prominent sind die Handlungen des Typs A ( MITTEILUNGEN ), worunter auch die sehr prominenten BEDAUERNDEN MITTEILUNGEN fallen. SE (N=18) NSE (N=14) Merkmal # % # % Differenz NGr einfach 10 55,56 8 57,14 -1,59 NGr mit Part II 8 44,44 1 7,14 37,30 Hdlg.-SE (N=63) Hdlg.-NSE (N=49= Hdlg. A insg. 28 44,44 22 44,90 -0,45 Hdlg. B insg. 20 31,75 9 18,37 13,38 Hdlg. C insg. 6 9,52 1 2,04 7,48 Hdlg. D insg. 5 7,94 3 6,12 1,81 Hdlg. E insg. 4 6,35 14 28,57 -22,22 Tab. 3: SE-NSE-Unterschiede hinsichtlich der Merkmale Anlass und Handlungsgruppe (# = total, % = relativ, Differenz = Unterschied der relativen Werte) Diese Daten interpretierend kann das folgende Prinzip für die Konstruktion von Entschuldigungsmails (mit einem Setting wie in Anlage I) postuliert werden: Für eine SE ist es vor allem wichtig zu versprechen; vergiss aber nicht, deinem Bedauern (o.Ä.) Ausdruck zu verleihen (und sei es, dass du nur das Wort leider benutzt). Für eine NSE ist es vor allem wichtig, deinem Bedauern (o.Ä.) stärker Ausdruck zu verleihen, als nur über das Wort leider; vielleicht gibst du dazu aber auch noch ein Versprechen ab. Untersucht man nun noch die Abfolge der einzelnen Handlungen (und nicht nur der Gruppen), so zeigt sich eine erstaunlich starke Gemeinsamkeit. Die Abfolge A.1 als erste Handlung und A.4 als zweite Handlung liegt in 8 von 18 Fällen bei den SE und in 4 von 14 Fällen bei den NSE vor. Eine vergleichbar bevorzugte Abfolge für die ersten beiden Handlungen lautet also: (1) BEDAUERNDE MITTEILUNG : noch nicht (2) MITTEILUNG : Grund <?page no="213"?> 213 Entschuldigungsmails - oder: Wie und wo findet man einen pragmatischen Standard? STUDIS A.1 A.2 A.3 A.4 A.5 A.6 A.7 A.8 A.9 A.10 A.11 A.12 A.13 B.1 B.2 B.3 C.1 C.2 C.3 C.4 C.5 D.1 D.2 D.3 E.1 E.2 E.3 E.4 E.5 E.6 E.7 E.8 H1 13 1 1 - 1 - - - - - - - - 1 - - 1 - - - - - - - - - - - - - - - H2 - - - 8 - - - - - - - - - 1 - - 1 - - - - - 2 - - - - - - - - - H3 - - - - - - - - - - - - - 4 - - - - - - - - - 1 - - - - - - - - H4 - - - - - - - - - - - - - - - - - - 1 1 - - - - - - - - - - - - H5 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - gesamt 13 1 1 8 1 - - - - - - - - 6 - - 2 - 1 1 - - 2 1 - - - - - - - - FREUNDE A.1 A.2 A.3 A.4 A.5 A.6 A.7 A.8 A.9 A.10 A.11 A.12 A.13 B.1 B.2 B.3 C.1 C.2 C.3 C.4 C.5 D.1 D.2 D.3 E.1 E.2 E.3 E.4 E.5 E.6 E.7 E.8 H1 10 1 1 - - - - - - - - - - - - - - - - - - - - - - - - - - - 1 - H2 - - 1 4 - - - - - - - - - 1 - - - - - - - - - - - - - - 3 - - - H3 - - - - - - - - - - - - - - - - - - - - - - - - 2 - 1 - - - - - H4 - - - - - - - - - - - - - 2 - - - - - - - - - - - - - - - - - - H5 - - - - - - - - - - - - - - - 2 - - - - - - - - - - - - - - - gesamt 10 1 2 4 - - - - - - - - - 3 - 2 - - - - - - - - 2 - 1 - 3 - 1 - Tab. 4: Verteilung der einzelnen Handlungen (Aufeinanderfolge jeweils ausgehend von den höchsten Werten kombiniert davor; grau unterlegt sind die Gemeinsamkeiten, umrahmt und weiß die Unterschiede) Diese Abfolge ist - nimmt man als Grundgesamtheit die Anzahl der jeweils möglichen Kombinationen von Handlungen überhaupt - extrem unwahrscheinlich und damit nicht mehr nur zufällig. Unter der einschränkenden Maßgabe, dass sich Handlungen nicht wiederholen dürfen - was im Einzelfall für bestimmte Handlungen allerdings auch nicht zutreffend ist -, und mit Berücksichtigung der Reihenfolge ergibt sich: Die Wahrscheinlichkeit, dass in den ersten beiden Positionen A.1 und A.4 - in 8 von 18 Fällen bei den SE aufeinander folgen, liegt bei 0,0023. - in 4 von 14 Fällen bei den NSE aufeinander folgen, liegt bei 0,0035. Danach splitten sich kurz die Wege in der dritten Position: Bei den NSE kommt in den Fällen von A.1 + A.4 (oder E.5, danach stoppt es aber, was separat überprüft wurde) noch erst E.1, bevor in der vierten Position mit B.1 eine Handlung folgt, die bei den SE bereits in der dritten Position auftaucht. Das um diese Positionen erweiterte Schema sieht also wie folgt aus: SE NSE (1) BEDAUERNDE MITTEILUNG: noch nicht (1) BEDAUERNDE MITTEILUNG: noch nicht (2) MITTEILUNG: Grund (2) MITTEILUNG: Grund (3) AUSDRUCK HOFFNUNG: nicht schlimm (3) VERSPRECHEN: kopieren jetzt (4) VERSPRECHEN: kopieren jetzt Abb. 2: Ermittelte prototypische Abfolge der SE und NSE (auf der Ebene einzelner Handlungen) <?page no="214"?> 214 Kleine und große Korpora - Spezialkorpora für Spezialfragen Dieser Prototyp entspricht der Festlegung Rehbeins zwar insoweit, als die MITTEILUNG von Gründen prototypischer Bestandteil ist, unterscheidet sich aber mindestens in einem Punkt grundlegend davon: Die Entschuldigung ist eine kommunikative Handlung, in der jemand [...] zugibt, daß die inkriminierte Handlung schlecht war (er entschuldigt sich), aber im allgemeinen nicht die volle Verantwortung für die Handlung übernimmt. Sie ist verbunden mit der Aufforderung an den Geschädigten [...], den Täter seinerseits aus der Verantwortung zu entlassen, (d.h. ihn zu entschuldigen). (Rehbein 1972, S. 36) Der letzte Punkt nämlich spielt zwar durchaus auch eine Rolle, aber nur dann, wenn nicht die prototypische Abfolge gewählt wird. Es reicht vielmehr aus, die Bezugnahme auf den Anlass durch leider als BEDAUERNDE MITTEI- LUNG zu gestalten. Dagegen wird durch VERSPRECHEN ein Beseitigen des Anlasses thematisch. Das mag natürlich auch einfach daran liegen, dass Rehbein einen anderen Typ von Entschuldigungen vor Augen hat (etwa solche, nachdem man jemandem auf den Fuß getreten ist, was man ja nicht wieder beseitigen kann). 4. Zusammenfassung Für das beschriebene Setting (siehe oben und die Initialmails im Anhang) gilt: 1) NSE sind im Schnitt länger als SE. 2) Bei den NSE ist die Standardabweichung in Bezug auf die Anzahl der Wörter höher als bei den SE. 3) Nur in den SE (und hier häufig) wird auf den nicht erledigten Kopierauftrag mit einer verschachtelten NP Bezug genommen, in der sich linksseitig von N nämlich noch eine Part-II-P mit Komplementen zu Part-II findet. 4) Hinsichtlich des AUSDRUCKS INNERER ZUSTÄNDE reicht bei den SE ein leider als Indikator bei BEDAUERNDEN MITTEILUNGEN aus. Bei den NSE ist darüber hinaus noch ein AUSDRUCK EINER EMOTION O .Ä. erwartbar. 5) Hinsichtlich von auf die Beseitigung des Anlasses bezogenen VERSPRE- CHEN ist der Druck, solche zu produzieren, bei den SE höher als bei den NSE. 6) Prototypisch beginnen sowohl SE als auch NSE mit der Abfolge BEDAU- ERNDE MITTEILUNG : noch nicht und MITTEILUNG : Grund. <?page no="215"?> 215 Entschuldigungsmails - oder: Wie und wo findet man einen pragmatischen Standard? Diese Ergebnisse haben für weitere korpusbasierte Arbeiten zur Erforschung von SE und NSE heuristischen Wert. Sie können verstanden werden als an größeren Datenmengen zu testende Hypothesen. Insbesondere die Frage, ob die ermittelten Unterschiede signifikant sind, kann dann sinnvoll gestellt und beantwortet werden. Es ist nicht davon auszugehen, dass alle Formen von Entschuldigungen bei sehr verschiedenen Settings gleiche Ausprägungen aufweisen. Um hier weitere relevante Faktoren ermitteln zu können, muss das Setting jeweils abgewandelt werden. Etwa nach Schwere der begangenen Tat, nach verschiedenen Beziehungen von S und H zueinander, nach Art des kommunikativen (z.B.: institutionellen) Rahmens usw., und medial: Erhebung von gesprochenvs. schriftsprachlicher Entschuldigungen, von Chat- und SMS-Entschuldigungen etc. Eine im weitesten Sinn experimentelle Pragmatik kann hier auf der Basis korpusbasierter Untersuchungen zu vielversprechenden Ergebnissen gelangen. Literatur Archer, Dawn/ Culpeper, Jonathan/ Davies, Matthew (2008): Pragmatic annotation. In: Lüdeling/ Kyto (Hg.), S. 613-642. Ballmer, Thomas T. (1979): Probleme der Klassifikation von Sprechakten. In: Grewendorf, Günter (Hg.): Sprechakttheorie und Semantik. Frankfurt a.M., S. 247-274. Berliner Gruppe (1975): Sprachliches Handeln (Kategorien, Listen, Modelle). Unveröff. Ms. Berlin. Brinker, Klaus/ Sager, Sven F. (2001): Linguistische Gesprächsanalyse. Eine Einführung. 3. Aufl. Berlin. Brinker, Klaus/ Antos, Gerd/ Heinemann, Wolfgang/ Sager, Sven F. (Hg.) (2000): Text- und Gesprächslinguistik. Bd. 1. (= HSK 16.1). Berlin/ New York. Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. Berlin/ New York. Dittmar, Norbert (1997): Grundlagen der Soziolinguistik - Ein Arbeitsbuch mit Aufgaben. Tübingen. Eichinger, Ludwig M./ Kallmeyer, Werner (Hg.) (2005): Standardvariation. Wie viel Variation verträgt die deutsche Sprache? Jahrbuch 2004 des Instituts für Deutsche Sprache. Berlin. Fleischer, Wolfgang/ Helbig, Gerhard/ Lechner, Gotthard (Hg.) (2001): Kleine Enzyklopädie Deutsche Sprache. Frankfurt a.M. <?page no="216"?> 216 Kleine und große Korpora - Spezialkorpora für Spezialfragen Glinz, Hans (1980): Deutsche Standardsprache der Gegenwart. In: Althaus, Hans Peter/ Henne, Helmut/ Wigand, Herbert Ernst (Hg.): Lexikon der germanistischen Linguistik. 2. Aufl. Tübingen, S. 609-619. Harras, Gisela et al. (2004): Handbuch deutscher Kommunikationsverben. Teil 1: Wörterbuch. (= Schriften des Instituts für Deutsche Sprache 10.1). Berlin/ New York. Koch, Peter/ Oesterreicher, Wulf (1985): Sprache der Nähe - Sprache der Distanz. Mündlichkeit und Schriftlichkeit im Spannungsfeld von Sprachtheorie und Sprachgeschichte. In: Romanistisches Jahrbuch 36, S. 15-43. Köhler, Reinhard/ Altmann, Gabriel/ Piotrowski, Rajmund (Hg.) (2008): Quantitative Linguistik. (= HSK 27). Berlin/ New York. Lemnitzer, Lothar/ Zinsmeister, Heike (2006): Korpuslinguistik. Eine Einführung. Tübingen. Löffler, Heinrich (2005): Wieviel Variation verträgt die deutsche Standardsprache? Begriffsklärung: Standard und Gegenbegriffe. In: Eichinger/ Kallmeyer (Hg.), S. 7-27. Lüdeling, Anke/ Kyto, Merja (Hg.) (2008): Corpus linguistics. Bd. 1. (= HSK 29.1). Berlin/ New York. Marten-Cleef, Susanne (1991): GEFÜHLE AUSDRÜCKEN . Die expressiven Sprechakte. Göppingen. Motsch, Wolfgang (1987): Zur Illokutionsstruktur von Feststellungstexten. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 40, S. 45-67. Motsch, Wolfgang (2000): Handlungsstrukturen von Texten. In: Brinker et al. (Hg.), S. 414-422. Motsch, Wolfgang (Hg.) (1996): Ebenen der Textstruktur. Sprachliche und kommunikative Prinzipien. Tübingen. Rehbein, Jochen (1972): Entschuldigungen und Rechtfertigungen. Zur Sequenzierung von kommunikativen Handlungen. In: Wunderlich, Dieter (Hg.): Linguistische Pragmatik. Frankfurt a.M., S. 288-317. Rolf, Eckard (1993): Die Funktionen der Gebrauchstextsorten. Berlin. Rolf, Eckard (1997): Illokutionäre Kräfte. Grundbegriffe der Illokutionslogik. Opladen. Rolf, Eckard (2000): Textuelle Grundfunktionen. In: Brinker et al. (Hg.), S. 422-435. Romaine, Suzanne (2008): Corpus linguistics and sociolinguistics. In: Lüdeling/ Kyto (Hg.), S. 96-111. Schmitt, Holger (2000): Zur Illokutionsanalyse monologischer Texte. Ein Konzept mit Beispielen aus dem Deutschen und dem Englischen. Frankfurt a.M. <?page no="217"?> 217 Entschuldigungsmails - oder: Wie und wo findet man einen pragmatischen Standard? Schmitz, Ulrich (2000): Statistische Methoden in der Textlinguistik. In: Brinker et al. (Hg.), S. 196-201. Spiekermann, Helmut (2005): Regionale Standardisierung, nationale Destandardisierung. In: Eichinger/ Kallmeyer (Hg.), S. 100-125. Staffeldt, Sven (2008): Einführung in die Sprechakttheorie. Ein Leitfaden für den akademischen Unterricht. Tübingen. Stede, Manfred (2007): Korpusgestützte Textanalyse. Grundzüge der Ebenen-orientierten Textlinguistik. Tübingen. Wagner, Klaus R. (2001): Pragmatik der deutschen Sprache. Frankfurt a.M. u.a. Weidacher, Georg (2011): Entschuldigungsmails: Konventionalisierung und Variation in der Umsetzung eines Textmusters. In: Luginbühl, Martin/ Perrin, Daniel (Hg.): Muster und Variation. Medienlinguistische Perspektiven auf Textproduktion und Text. Berlin u.a., S. 51-80. Anhang I Betreff: Mitwirkung an einem Forschungsprojekt: Verfassen und Abschicken einer E-Mail Liebe TeilnehmerInnen der [...], wären Sie bereit, mit einer selbstverfassten E-Mail bei der Datenbeschaffung für ein kleineres Forschungsprojekt mitzuwirken? Es ginge um Folgendes: Stellen Sie sich vor, Sie sind Hilfskraft an einem Lehrstuhl. Sie bekommen einen Kopierauftrag reingereicht und sollen ihn umgehend erledigen. Aus irgendeinem Grund aber machen Sie das nicht. Nun müssen Sie dies dem Auftraggeber (Prof. Dr. XY) mitteilen und sich entschuldigen. Sie tun dies mit einer E-Mail. Könnten Sie diese E-Mail evtl. verfassen und an mich senden? Meine E-Mail-Adresse lautet: sven.staffeldt@uni-wuerzburg.de. Sie würden damit ein kleineres Forschungsprojekt erheblich voranbringen. Vielen Dank bereits jetzt und freundliche Grüße Sven Staffeldt Anhang II Betreff: Mitwirkung an einem Forschungsprojekt: geht schnell, ist einfach und total interessant Moin zusammen, für ein kleineres Forschungsprojekt erhebe ich zur Zeit alle möglichen Daten, und zwar: E-Mails. Wärt Ihr bereit, daran mitzuwirken? Es ginge um die folgende Kleinigkeit: <?page no="218"?> 218 Kleine und große Korpora - Spezialkorpora für Spezialfragen Stellt Euch vor: Ich habe euch gebeten, mir einen Gefallen zu tun. Sagen wir: etwas zu kopieren. Ihr habt eingewilligt und versprochen, die Kopien zu machen. Nun habt ihr das aber nicht gemacht. Und ihr wollt mir dies jetzt also mitteilen und euch entschuldigen. Per E-Mail. Wärt ihr bereit, diese E-Mail zu verfassen und mir zu schicken? Das wäre ganz großartig und würde die Forschung aufs allerunglaublichste voranbringen. Vielen Dank schon mal Sven Anhang III Betreff: Ausbeutung im Namen der Forschung Liebe Hiwis und Hiwinnen - moin zusammen, hin und wieder werdet Ihr jenseits Eurer HiwiInnenarbeiten ausgebeutet, um mit Eurer Hilfe die Forschung entscheidende Schritte voranzubringen. Lasst Ihr das nochma mit Euch machen? Es geht um die folgende Kleinigkeit: Stellt Euch vor - egal wer -, ich hätte euch einen Kopierauftrag gegeben. Und obwohl Ihr immer alles gleichsofortplötzlichzuverlässig erledigt, habt Ihr diesen Auftrag nun aber mal nich jemacht. Und nu plagt Euch das schlechte Gewissen: Ihr müsst beichten und Ihr entschuldigt Euch bei mir. Könntet Ihr Euch bitte per E-Mail bei mir entschuldigen? Das wär’s schon. Ginge das? Je mehr E-Mails ich bekomme, desto besser natürlich. Ich würde mich riesig freuen und Ihr würdet die Forschung quasi auf einen Schlag allerenormstens voranbringen. Liebe Grüße (und danke schoma) Sven <?page no="219"?> Jana Kusová Variation im Bereich der schwachen Substantive Wege zur Korpuszusammenstellung und -auswertung 1. Einleitung Die linguistische Forschung hat prinzipiell zwei Möglichkeiten, wie sie das sprachliche Material erwerben kann, mit dem sie die Ergebnisse ihrer wissenschaftlichen Arbeit begründet. Es handelt sich einerseits um selbst kreierte, die präsentierte Hypothese unterstützende Beispiele, die weitgehend auf Kenntnissen und dem Sprachvermögen des jeweiligen Linguisten beruhen. Diese Beispiele können jedoch auch absichtlich und zweckmäßig gewählte Belege konkreter sprachlicher Äußerungen darstellen. Andererseits entstehen immer häufiger empirisch verankerte Arbeiten, die sich bewusst einzig an der konkret belegten Sprachverwendung orientieren und deskriptiv arbeiten. Diese zwei methodologischen Zugänge repräsentieren die markanten Endpunkte einer Skala, zwischen denen jedoch mehrere Übergangsstufen festzustellen sind, die bei der Untersuchung diverser Phänomene auf allen Ebenen des Sprachsystems erfolgreich anzuwenden sind. Der eine Endpunkt der Skala zielt auf die Introspektion, die vom DUDEN als „nach innen, auf das eigene Bewusstsein, die psychischen Vorgänge gerichtete Beobachtung“ definiert wird (Duden 2011). Lemnitzer/ Zinsmeister (2010) nennen die generative Linguistik als den typischen Vertreter dieses methodologischen Zugangs, wobei sie mit Begriffen wie ‘Sprachgefühl’, ‘Intuition’, ‘Sprecherurteile’ oder ‘Selbstauskünfte’ arbeiten: Die wichtigste Quelle ist das Sprachgefühl bzw. Intuition (engl. ‘intuition’) der Sprecher, die direkt oder indirekt über ihr Sprachwissen Auskunft geben [...]. (Lemnitzer/ Zinsmeister 2010, S. 24) Nur Sprecherurteile, also Selbstauskünfte von Sprechern über ihr sprachliches Wissen, sind in diesem theoretischen Rahmen als Primärdaten zugelassen. (ebd., S. 22) Dieses Verfahren ist auf die Kernbegriffe der generativen Grammatik - die ‘Kompetenz’ und ‘der ideale Sprecher-Hörer’ - zurückzuführen. Lehmann (2007) bestreitet das auf den methodologischen Positionen der generativen Grammatik basierende Konzept der Existenz von „Kompetenzdaten“, die für <?page no="220"?> 220 Kleine und große Korpora - Spezialkorpora für Spezialfragen ihn „nur ein neuer Name für durch Introspektion gewonnene Beispielsätze und deskriptive Aussagen“ zu betrachten sind. Auch das zweite Konzept - ‘der ideale Sprecher-Hörer’ - „entpuppt sich [...] als methodischer Schachzug, um unter der Fahne empirischer Wissenschaft weiterhin normative Grammatik zu betreiben.“ (Lehmann 2007, S. 15 und 25) Der konträre methodologische Pol, der Empirie und die wirkliche Sprachverwendung bevorzugt, wird primär durch die sich immer mehr durchsetzende Korpuslinguistik repräsentiert, die sich an den konkreten Erscheinungen der ‘parole’ orientiert und mit nachgewiesenen sprachlichen Äußerungen arbeitet. Der die Gewinnung der Primärdaten betreffende Unterschied in der theoretisch arbeitenden und der empirisch aufgefassten Sprachwissenschaft wird in der korpuslinguistischen Fachliteratur breit diskutiert, wobei die Zuverlässigkeit der durch die Introspektion gewonnenen Daten in Zweifel gezogen wird, auch wenn Featherston (2007, S. 50) ausführlich begründet, „dass methodologisch einwandfrei erhobene introspektive Daten durchaus als empirisch adäquat gelten können und darüber hinaus spezifische Vorteile in ihrem Evidenzwert haben“. Zugleich wird von den Korpuslinguisten nicht verschwiegen, dass auch die aus einem für linguistische Forschungszwecke kontrolliert zusammengestellten Korpus erworbenen Daten vorsichtig und kritisch zu interpretieren sind (vgl. Lemnitzer/ Zinsmeister 2010, S. 27, wo die vier wichtigen Problembereiche der Arbeit mit Korpora diskutiert werden - die ‘Repräsentativität’, die ‘Relevanz’, die ‘unvollständige Abdeckung’ und ‘Verlässlichkeit der Daten’). Die Korpora bieten eine wichtige Stütze linguistischer Forschung, seien sie als Quelle für präzise quantitative Untersuchungen oder „nur“ als umfangreiche Belegsammlung für qualitative Studien verwendet. Hervorzuheben sind jedoch Korpora noch aus einem anderen wichtigen Grund. Sie ermöglichen auch den nichtmuttersprachlichen Wissenschaftlern, kompetente Aussagen über die wirkliche Verwendung der jeweiligen Sprache zu formulieren. Mit Mukherjee (2009, S. 16) gesagt, kann man sich „von der Intuition und der Kreativität des Muttersprachlers emanzipieren“. Dies erweist sich als eine einmalige Chance der modernen Forschung. Die Nichtmuttersprachler haben nämlich die jeweilige Sprache (meist) systematisch gelernt und nicht erworben. Aus diesem Grunde sind die sprachlichen Strukturen in ihrem Gehirn anders repräsentiert als bei den Muttersprachlern. Neben vielen Nachteilen (z.B. neben der vergleichsmäßig niedrigeren lexikalischen Kompetenz) verfügen die sachverständigen C1-C2-Nichtmuttersprachler über jede Menge bewusst und systematisch gelernter grammatischer und lexikalischer Strukturen und eine <?page no="221"?> 221 Variation im Bereich der schwachen Substantive gute Übersicht über die ‘Langue’ der jeweiligen Sprache, was zu ganz unterschiedlichen und originellen Blickwinkeln bei der Untersuchung diverser sprachlicher Phänomene beitragen kann. Eine gewisse ‘Unsicherheit’ im Sprachgebrauch erweist sich in diesem Fall als sehr fruchtbare Motivation, nach richtigen und möglichen Lösungen zu suchen. Ein annotiertes Korpus mit einem guten Design bietet dann eine ideale Datenquelle (vgl. auch Kusová 2008). Es ist die Frage, ob es für die Linguistik überhaupt realisierbar ist, rein empirisch zu arbeiten. Wie Lehmann (2007, S. 10-11) ausführlich diskutiert, entwickelte sich die Linguistik jahrhundertelang als „hermeneutische Wissenschaft“. Die Sprache würde sich materiell manifestieren und kann aus diesem Grunde auch dementsprechend mit empirischen Methoden untersucht werden. Wie jedoch Lehmann (ebd., S. 11) zusammenfassend bemerkt, dient die Sprache der Kommunikation und ist gesellschaftlichen Charakters, und deshalb verfügt sie über „drei Aspekte, den hermeneutischen, den empirischen und den logischen“. Alle drei Charakteristiken müssten in Betracht gezogen werden, um ein so komplexes Thema wie Sprache relevant beschreiben zu können. Möchte sich die Linguistik als empirische Wissenschaft behaupten, muss sie mit möglichst objektiv gesammelten Daten arbeiten. Lehmann (ebd.) definiert den Terminus ‘Datum’ folgend: Ein Datum ist eine Repräsentation eines Phänomens aus dem Gegenstandsbereich einer Wissenschaft, die als gegeben angenommen wird. [...] Die Repräsentationsbeziehung ist nicht frei manipulierbar, sondern durch die wissenschaftliche Methodik geregelt. [...] Es vertritt für die Zwecke wissenschaftlicher Argumentation das Phänomen selbst, welches i.a. nicht zur Hand ist. Lehmanns weitere Unterscheidung des sprachlichen Materials in ‘Daten’ und ‘Beispiele’ ist für den empirischen Forschungszugang essenziell und muss während einer ernst zu nehmenden linguistischen Forschung unbedingt eingehalten werden. Das ‘Datum’ und das ‘Beispiel’ verfügen nach Lehmann (2007, S. 13) über „völlig verschiedene Funktion und daher verschiedenen methodologischen Status“. Während die ‘Beispiele’ eher bei didaktisch-illustrativen Zwecken helfen, existieren die ‘Daten’ vom Forscher autonom und objektiv, weswegen sie überprüft werden können (ebd.). Die Introspektion und die empirisch arbeitende Korpuslinguistik wurden oben als konträre methodologische Zugänge zur Datenerhebung definiert. Sie sollten jedoch nicht als sich ausschließende Konkurrenten betrachtet werden, denn dieser Zugang lässt vieles verschwinden, was die Forschung nach vorne treiben <?page no="222"?> 222 Kleine und große Korpora - Spezialkorpora für Spezialfragen kann. Müller (2007, S. 85) bemerkt, „dass uns unser sprachliches Wissen nicht immer zugänglich ist“. Dessen sollte sich auch jeder unbedingt bewusst sein, der versucht, die Sprache aufgrund der eigenen sprachlichen Erfahrung zu beschreiben. Die menschliche Kognition und Intelligenz sind unbegrenzt und dürfen deshalb nicht ignoriert werden. Man muss an dieser Stelle Mukherjee (2009, S. 29) zustimmen, der zusammenfassend schreibt: Auch wenn die Korpuslinguistik die Observation von tatsächlichem Sprachgebrauch betont, bleibt die Intuition des Linguisten eine wichtige Größe und eine zentrale Triebfeder für die Forschung. Nur kreativer Umgang mit der Sprache und unsere Intuition ermöglichen uns, auch eine auf den ersten Blick gewagte Hypothese zu formulieren und zu überprüfen. Um dabei jedoch zugleich auf festen Füßen zu stehen, erweist sich eine gründliche Korpusuntersuchung als ideales Komplement und starker Realitätsanker. Wie die beiden Zugänge fruchtbar zu verbinden sind, versucht der Text im Weiteren zu klären. 2. Datengewinnung im Bereich der morphologischen Schwankungen: Beispielstudie ‘Schwache Substantive’ Schritt 1: Suche nach Schwankungskandidaten Um eine auf die morphologische Variation gezielte Untersuchung der schwachen Maskuline durchführen zu können, muss eine Übersicht über die aktuelle Distribution dieses Deklinationsparadigmas im Gegenwartsdeutschen gewonnen werden. Sollen relevante Ergebnisse festgestellt werden, die eine reelle Chance haben, verallgemeinert zu werden, muss es sich um schwache Substantive handeln, die eine gewisse Verwendungsfrequenz aufweisen und nicht der lexikalischen Peripherie des Deutschen angehören. Selten verwendete Wörter, die z.B. einem engen Fachwortschatz angehören, dürfen in die Untersuchung nicht eingeschlossen werden, denn sie würden die Ergebnisse in eine spezifische Richtung verschieben, wo u.a. auch diverse Variablen wie die Textsorte, Terminologisierungsgrad usw. in Erwägung gezogen werden müssten. Diese Studie soll sich auf den Teil des deutschen Wortschatzes konzentrieren, der in der Kommunikation wirklich verwendet und aus diesem Grunde in den Korpora so weit repräsentiert wird, dass relevante Schlussfolgerungen gezogen werden können. Als ideales und ausgiebiges Informations- und Datenreservoir für das Feststellen der potentiellen morphologischen Unregelmäßigkeiten deutscher Substantive erweist sich ein dem Zweck der jeweiligen Untersuchung richtig ent- <?page no="223"?> 223 Variation im Bereich der schwachen Substantive sprechendes einsprachiges Wörterbuch, das Gegenwartssprache im genügenden Ausmaß repräsentiert. Durch das Exzerpieren eines einsprachigen Wörterbuchs kann man die immense Arbeit der Wörterbuchautoren weiter verwerten und dadurch beim Einstieg in ein neues und aufgrund der gleichzeitigen Komplexität und Vielfalt des sprachlichen Systems meist umfangreiches Thema viele relevante Anregungen unter relativ günstigen zeitlichen Bedingungen gewinnen. Beim Konzipieren eines Wörterbuchs müssen die Autoren nämlich ihre Rezipientengruppe genau definieren und ihre weitere Arbeit dieser Wahl konsequent unterordnen. Da die Entstehung eines neuen Wörterbuchs ein finanziell und zeitlich äußerst aufwändiges Unternehmen ist, sind die Autoren verpflichtet, möglichst genau und effizient vorzugehen. Dies bezieht u.a. ein, dass die im Wörterbuch vorkommenden Lemmata aufgrund genauer Kriterien ausgewählt und hinsichtlich ihrer lexikalischen und grammatischen Merkmale einheitlich bearbeitet werden, was eine ideale Basis für eine weitere Verwendung dieser Angaben darstellt. Durch das Exzerpieren eines einsprachigen Wörterbuchs bekommt man eine repräsentative Liste isolierter Wörter, die für eine weitere Kategorisierung geeignet sind. Je nach zu untersuchenden Phänomenen können sie dann im Bezug auf bestimmte morphologische Kriterien (wie z.B. Suffixe, Genus, Deklinationsparadigma usw.) weiter systematisch gegliedert werden. Ein Wörterbuch enthält Stichwörter, die primär kontextlos erscheinen. Der Wörterbuchartikel enthält in der Regel zugleich die gesamte, von der Semantik unabhängige morphologische Charakteristik des Substantivs. Sollen im Falle der polysemen Wörter die Flexionsformen in Abhängigkeit von der Bedeutung abweichen, ist dies innerhalb der einzelnen Teilbedeutungen festzustellen. In dieser Hinsicht dienen die Wörterbücher eher als präskriptive Referenzquellen, zu denen man meist wegen mangelnder Sprachkompetenz greift. Für die deutsche Sprache bieten sich drei einsprachige Wörterbücher als geeignete Exzerptionsquelle an: DUDEN - Deutsches Universalwörterbuch (2011), WAHRIG Deutsches Wörterbuch (2006) und Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003). Alle drei Wörterbücher sind hervorragende Werke, die jedoch einen unterschiedlichen Umfang und Rezipientenkreis aufweisen und auf einem anderen lexikographischen Konzept beruhen. Nach den Umschlagsangaben stellt DUDEN - Deutsches Universalwörterbuch (2011, Umschlag) mit „mehr als 500 000 Stichwörtern, Bedeutungsangaben und Beispielen“ eine äußerst umfangreiche lexikographische Quelle dar. Seit der ersten Auflage im Jahre 1983 wurde das Wörterbuch regelmäßig um neue <?page no="224"?> 224 Kleine und große Korpora - Spezialkorpora für Spezialfragen Lemmata ergänzt und sei laut den Autoren „eine umfassende und kompakte Darstellung des allgemeinen Wortschatzes der deutschen Gegenwartssprache“ (Duden 2011, Vorwort). Gerade der Umfang hindert jedoch daran, das Wörterbuch konsequent als Exzerptionsquelle zu verwenden. DUDEN - Deutsches Universalwörterbuch (2011) enthält einen überaus umfangreichen Wortschatz, der auch die lexikalischen Randbereiche des gegenwärtigen Deutsch abdeckt. Aus diesem Grunde wäre die exzerpierte Liste der Schwankungskandidaten zu heterogen und würde ebenso durch die Zahl der Wörter den Übersichtlichkeitsrahmen sprengen. Die digitale Version von WAHRIG Deutsches Wörterbuch (2006) deklariert im Vorwort, eingehende Angaben zur Rechtschreibung, Semantik, Aussprache und Etymologie von 260 000 Stichwörtern zu liefern. Die Autoren charakterisieren das Wörterbuch folgend: Da sich dieses Wörterbuch in seiner 40-jährigen Tradition stets als Dokumentation und Verzeichnis der deutschen Allgemeinsprache einschließlich ihres Sprachwandels und Zeitgeistes verstanden hat, erscheint es nun bereits in der 8. Auflage. (WAHRIG Deutsches Wörterbuch 2006, Vorwort, [CD-ROM]) Obwohl der Umfang immer noch sehr beeindruckend wirkt, wäre die Exzerption des Wörterbuchs vorstellbar. Die Suche nach variablen morphologischen Formen wird jedoch dadurch erschwert, dass aus Platzgründen die Zugehörigkeit zu einem Deklinationsparadigma nicht direkt am Substantiv steht, sondern sie muss aufgrund eines Zahlenverweissystems in der „Tabelle der Deklinationen“ immer wieder nachgeschlagen werden. Dies erweist sich für eine angemessen fließende und zuverlässige Exzerption als problematisch, denn das Fehlerrisiko steigt durch die ständige Ablenkung markant. Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003) orientiert sich, wie auch schon der Titel eindeutig zeigt, an einer spezifischen Zielgruppe - den DaF-Lernenden. Daraus ergeben sich viele Vorteile, die während der Suche nach den jeweiligen Schwankungskandidaten äußerst positiv einzuschätzen sind. Da die Zielgruppe über die muttersprachliche Kompetenz nicht verfügt, enthält Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003) viele explizit genannte metasprachliche und pragmatische Informationen, die in den insbesondere für die Muttersprachler bestimmten Wörterbüchern sonst nicht zu finden sind. Das Wörterbuch verzeichnet etwa 66 000 Lemmata und Wendungen (Langenscheidt 2003, Umschlag), was für die Zusammenstellung eines auf morphologische Schwankung ausgerichteten Korpus als sehr günstig zu bewerten ist. Der einbezogene Wortschatz ist ausreichend, um repräsentativ zu sein. Andererseits enthält das Wörterbuch keine niedrigfre- <?page no="225"?> 225 Variation im Bereich der schwachen Substantive quenten Wörter aus diversen Soziolekten, die zur lexikalischen Peripherie der deutschen Sprache gehören. Bei der Stichwortwahl wurde an die oben genannte spezifische Zielgruppe Rücksicht genommen: Das Hauptaugenmerk lag vielmehr auf der ‘modernen deutschen Standardsprache’ als überregionaler Variante des Deutschen. [...] Die Auswahl der Stichwörter erfolgte unter besonderer Berücksichtigung dessen, was der Lernende braucht. Weitere Kriterien waren die Häufigkeit des Gebrauchs und die Zugehörigkeit zum Standard. Als Quelle und Orientierungshilfe dienten Textsammlungen und Befragungen von Muttersprachlern und Lernenden des Deutschen. (Langenscheids Großwörterbuch Deutsch als Fremdsprache 2003, Lexikographische Vorbemerkungen) Das Kriterium für die Einbeziehung der Stichwörter im Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003) war also ihre Benutzungsfrequenz, der kommunikative Wert und die Eingliederung in die gegenwärtige Standardsprache. Die Stichwortliste entstand aufgrund einer Auswahl aus einem Korpus und wurde durch Sprecherurteile der Muttersprachler und Nichtmuttersprachler verifiziert. Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003) vermittelt also aktuelles Standarddeutsch und versucht regional übergreifend zu sein, auch wenn viele diatopische Varianten verzeichnet und genau dokumentiert sind. Zugleich enthält das Wörterbuch eine relativ starke umgangssprachliche Komponente, die durch nonstandardsprachliche morphosyntaktische und Wortbildungsverfahren für die Variation in der Flexion von großer Bedeutung ist. Betrachten wir die Variation im Bereich der schwachen Substantive, finden wir außer der Genitiv- und Pluralform auch konkret genannte metasprachliche Informationen zu den Flexionsformen der Substantive bzw. die potentielle Abweichung davon. Am Beispiel von Nachbar und Bauer werden die oben genannten Gründe für die Wahl des Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003) als Exzerptionsquelle veranschaulicht. Nach·bar der; -n/ -s, -n; [...] || NB: der Nachbar; den, dem Nachbar(n), des Nachbarn/ (seltener) Nachbars Bau·er 1 der; -n/ selten -s, -n; [...] || NB: der Bauer; den, dem, des Bauern <?page no="226"?> 226 Kleine und große Korpora - Spezialkorpora für Spezialfragen Auf den ersten Blick ist zu sehen, dass die beiden schwachen Substantive von den Wörterbuchautoren in deren Zugehörigkeit zum schwachen Deklinationsparadigma unterschiedlich eingestuft werden. Die explizite Erklärung des Phänomens befindet sich an zwei Stellen: erstens gleich hinter dem Stichwort, zweitens im Notabene (NB), wo die Deklinationsformen der Substantive im Singular explizit genannt werden. Während bei dem Wort Nachbar die Schwankung der Paradigmen im Singular zugelassen wird, wird bei dem Substantiv Bauer im Singular vorherrschend das schwache Paradigma vorausgesetzt und der Übergang zum starken Singularparadigma als „selten“ bezeichnet. Ganz legitim muss hier die Frage gestellt werden, nach welchen Kriterien die Unterscheidung zwischen diesen zwei Substantiven hinsichtlich der Paradigmenschwankung getroffen wurde. Ob es sich um einen empirisch begründeten Schluss einer Korpusanalyse handelt oder um eine sich auf Introspektion der Autoren bzw. Konsultanten stützende Behauptung handelt. Aus den oben genannten Gründen ist das Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003) als ideale Quelle für Exzerption von morphologisch variablen Wörtern einzuschätzen. Aufgrund der auf präzise festgelegten Kriterien basierenden Vorselektion des sprachlichen Materials von den Wörterbuchautoren (gewonnen aus Texten und durch Introspektion) exzerpiert man überprüfte und kategorisierte Angaben - im Falle des Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003) die, die als überregionale Varianten der modernen deutschen Standardsprache gelten und genügend häufig erscheinen, um in einem so orientierten Lernerwörterbuch zu erscheinen. Die benötigten Angaben sind übersichtlich und explizit dargestellt, was eine fließende und entsprechend zuverlässige Exzerption sichert. Die so gewonnenen Angaben können weiter als Daten bearbeitet werden. Wörterbuchexzerption Wie schon oben erwähnt wurde, wird am Anfang der Forschung eine Übersicht über die aktuelle Distribution des schwachen Deklinationsparadigmas in der gegenwärtigen deutschen Standardsprache benötigt. Zugleich wurde begründet, warum die Exzerption eines einsprachigen Wörterbuchs in einer solchen Orientierung von großem Vorteil ist. Exzerpiert man Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003), bekommt man das in der Tabelle 1 zusammengefasste Bild über die aktuell häufig verwendeten schwachen Substantive. Insgesamt wurden im Wörterbuch 448 Substantive gefunden, die der schwachen Deklination ganz <?page no="227"?> 227 Variation im Bereich der schwachen Substantive oder mit Schwankungen angehören. Kategorisieren wir die Ergebnisse nach den Wortausgängen, stellen wir fest, dass im gegenwärtigen Standarddeutsch die Suffixe -ist (113 Substantive; 25,22%) und -e (89 Substantive; 19,86%) zusammen mit dem maskulinen Genus und dem Merkmal ‘belebt’ das häufigste Zeichen des schwachen Deklinationsparadigmas sind. 1 Die Produktivität der weiteren Suffixe/ Wortausgänge bzw. Wortbildungsmuster sinkt markant. Mit -ant/ and enden nur noch 43 exzerpierte Wörter, also 9,59%. Weitere frequentierte Gruppen betragen 32 bis 25 (7,14-5,58%) Vertreter (-oge, Einsilbler, -ent/ -end, -at/ -ath), wobei die Gruppe der nativen, entlehnten und fremden Einsilbler hinsichtlich der möglichen Schwankungen äußerst interessant ist. Dasselbe gilt für die etymologisch ähnlich strukturierte Gruppe der Mehrsilbler mit einem unspezifischen Wortausgang mit 13 Substantiven (2,9%). Mit einem markanten Distributionsverfall folgen die Substantive, deren Wortausgänge zwischen eins und zwölf schwanken (0,22-2,67%). Es handelt sich um Wörter, die auf -et, -af/ -aph, -it, -ot, -ut/ -aut / -eut, -om, -an, -ar, -op/ -oph, -ast, -ak, -urg, -ai, -ei, -ekt, -ik, -en, -und, -yp, -yt enden. Wortausgang Summe (= 448) -ist 113 -e 89 -ant/ -and 43 -oge 32 Einsilbler (und deren Komposita) 30 -ent/ -end 29 -at/ -ath 25 Mehrsilbler, unspezifischer Wortausgang 13 -et 12 -af/ -aph 9 -it 9 -ot 6 -ut/ -aut/ -eut 6 -om 5 -an 4 -ar 4 -op/ -oph 4 -ast 3 1 Zu den Merkmalen ‘Genus’ und ‘Belebtheit’ vgl. vor allem Köpcke (1995) und DUDEN - Die Grammatik (2009, S. 211f.). <?page no="228"?> 228 Kleine und große Korpora - Spezialkorpora für Spezialfragen Wortausgang Summe (= 448) -ak 2 -urg 2 -ai 1 -ei 1 -ekt 1 -ik 1 -en 1 -und 1 -yp 1 -yt 1 Tab. 1: Typische Wortausgänge bzw. Wortbildungstypen und deren Frequenz bei den schwachen Substantiven in Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003) Wie oben schon erwähnt wurde, kommt der Linguist ganz ohne Intuition meist nicht aus. Sieht man sich die exzerpierten schwachen Substantive an, muss man zuerst Hypothesen aufstellen, welche Substantivgruppen bzw. Einzelwörter zu diversen Schwankungen neigen könnten. Diese Hypothesen können entweder aufgrund der eigenen Sprachkompetenz und Erfahrung mit der ‘Langue’ des Deutschen oder nach Konsultation der Fachliteratur postuliert werden. 2 Hypothetische Schwankungskandidaten und mögliche Fragestellungen 1) Die schwachen Substantive, die nach den Autoren Schwankungen in so einem Maße aufweisen, dass diese ausdrücklich erwähnt werden: Ahn, Bauer, Dompfaff, Elektrolyt, Fratz, Greif, Junge, Kakerlak, Magnet, Meteorit, Nachbar, Oberst, Papagei, Partisan, Spatz, Thermostat, Untertan. 2) Unbelebte schwache Substantive: Exponent, Automat, Brillant, Diamant, Dividend, Elektrolyt, Fels, Granat, Hydrant, Koeffizient, Komet, Magnet, Meteorit, Obelisk, Paragraf, Planet, Polyp, Quadrant, Quotient, Satellit, Seismograf, Substrahend, Telegraf, Thermostat, Trabant. 2 Die schwachen Substantive werden seit den 1990er Jahren regelmäßig untersucht. Von Bedeutung sind insbesondere die folgenden Fachtexte: Köpcke (1995, 2000, 2005), Thieroff (2003 in URL 3), Bittner (1991 in URL 1), Indefrey (2002 in URL 2). Von den Grammatiken und Kodizes sind zu erwähnen: DUDEN - Die Grammatik (2009, S. 211-216), DUDEN - Richtiges und gutes Deutsch (2007, S. 986-993), WAHRIG - Richtiges Deutsch leicht gemacht (2009, S. 316-318). <?page no="229"?> 229 Variation im Bereich der schwachen Substantive Die unbelebten schwachen Substantive erfüllen eine wichtige Bedingung der Zugehörigkeit zum Paradigma der schwachen Deklination nicht, und zwar die Belebtheit. Aus diesem Grunde ist vorauszusetzen, dass diese Substantive zu diversen Schwankungen neigen könnten. Indefrey (2002, S. 94 in URL 2) erwähnt in seiner psycholinguistisch orientierten Studie den Genuswechsel (*das Magnet), was hypothetisch auch als eine der möglichen Sprachwandelstrategien bei der Ausscheidung dieser Gruppe aus einem von Verlusten gefährdeten Flexionsparadigma betrachtet werden könnte. (Zu diesem Thema vgl. auch DUDEN - Die Grammatik 2009, S. 213; Thieroff 2003 in URL 3, S. 112f.; WAHRIG - Richtiges Deutsch leicht gemacht 2009, S. 317.) Substantive mit wenig frequentierten Wortausgängen, bei denen wegen der niedrigen Distribution die Anpassung an die stärker vertretenen Deklinationsparadigmen stattfinden könnte: Agronom, Anatom, Astronom, Gastronom, Gnom, Diakon, Misanthrop, Philanthrop, Zyklop, Philosoph, Despot, Exot, Chaot, Idiot, Patriot, Pilot, Enthusiast, Fantast, Gymnasiast, Vagabund, Dramaturg, Chirurg, Astronaut, Kosmonaut, Pharmazeut, Rekrut, Substitut, Theraupeut, Polyp, Elektrolyt. Einsilbler: Ahn, Bär, Bauer, Bub, Depp, Elf, Fels, Fink, Fratz, Fürst, Geck, Graf, Greif, Held, Herr, Hirt, Christ, Lump, Mensch, Mohr, Narr, Ochs, Prinz, Spatz, Tor, Zar. Zu den Einsilblern äußern sich WAHRIG - Richtiges Deutsch leicht gemacht (2009, S. 316f.) und DUDEN - Die Grammatik (2009, S. 212), nach der diese Gruppe dazu tendiert, zu der starken Flexion zu wechseln. Die vier Wortpaare, bei denen die Wörterbuchautoren explizit die apokopierten und die nichtapokopierten Formen nennen: Exot - Exote, Vorfahr - Vorfahre, Hirt - Hirte, Ochs - Ochse. 3) Nach DUDEN - Die Grammatik (2009, S. 212) können die Substantive schwanken, die in der Nominativform Singular auf unbetontes -er enden. Für die Zwecke dieser Studie werden zu dieser Gruppe jedoch alle Substantive zugerechnet, deren Auslaut im Nominativ Singular wie reduziertes r oder Schwa ausgesprochen wird. Schritt 2: Überprüfung der Schwankungskandidaten im DeReKo Weiter werden die letzten zwei der oben definierten Substantivgruppen ausführlich analysiert, um zu zeigen, wie die aus dem einsprachigen Wörterbuch gewonnenen Daten durch eine Korpusanalyse weiter verwertet werden können. <?page no="230"?> 230 Kleine und große Korpora - Spezialkorpora für Spezialfragen Da die gesuchten Schwankungen als Randerscheinungen einzustufen sind und deswegen ein möglichst großes Korpus konsultiert werden sollte, wurde für die Untersuchung das Deutsche Referenzkorpus (DeReKo) gewählt. Durch den Umfang bietet es eine breite Recherchebasis und ermöglicht dadurch auch eine relevante Untersuchung niedrig frequenter Phänomene. Das Deutsche Referenzkorpus ist ein Monitorkorpus, das in regelmäßigen Zeitabständen aktualisiert wird, was sich bei langfristig angelegten Studien als ungünstig erweisen kann, denn aufgrund neu gewonnener Ergebnisse kann in einigen Fällen eine wiederholte Korpusrecherche als notwendige Bedingung relevanterer Forschungsergebnisse verlangt werden. Stellt man kein eigenes virtuelles Korpus zusammen, kann jedoch die Anfrage nach einem größeren Zeitabstand mit identischen Daten nicht mehr repliziert werden. Gruppe 5: Apokopierte vs. nichtapokopierte Form Recherche im DeReKo - Deutsches Referenzkorpus; Version DeReKo-2011-II; W-öffentlich - alle öffentlichen Korpora des Archivs W (mit allen öffentlichen Neuakquisitionen); Anfrage in COSMAS II, erreichbar unter www.ids-mannheim.de/ cosmas2/ (Stand: Februar 2011). Ein interessantes Ergebnis der Wörterbuchexzerption sind die vier Wortpaare, bei denen die Autoren explizit die apokopierten und die nichtapokopierten Formen nennen: Exot - Exote, Vorfahr - Vorfahre, Hirt - Hirte, Ochs - Ochse. Umgehend stellt sich die Frage, ob die apokopierten Formen dazu tendieren, im Singular stark zu flektieren. Bei dem Wortpaar Hirt - Hirte wird die Form Hirt als „veraltend“ definiert. Die Form Ochs wird diatopisch als süddeutsche und medial als gesprochene Variante der Form Ochse dargestellt. Aus diesem Grunde werden diese zwei Wortpaare aus der weiteren Untersuchung ausgeschlossen, denn in diesem Falle wären noch weitere Variablen (der diachrone, diatopische und mediale Aspekt) einzuschließen, die die Ergebnisse wesentlich beeinflussen können. Von den Paaren Exot - Exote und Vorfahr - Vorfahre werden in Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003) die apokopierten Formen Exot und Vorfahr als Grundformen verzeichnet. Bei den Formen Exote und Vorfahre erscheint nur die durch das Genitiv- und Pluralsuffix markierte Zugehörigkeit zur schwachen Deklination und ein Verweis auf die Grundform Exot und Vorfahr. Untersucht man das Paar Exot - Exote im DeReKo, bekommt man folgende Ergebnisse, wobei die Spalte ‘Belege’ die Zahl der gelieferten Belege, ‘Wirkliches Vorkommen’ die Zahl der erwünschten Bele- <?page no="231"?> 231 Variation im Bereich der schwachen Substantive ge nach der manuellen Durchsicht und ‘Fehlerhaftigkeit der Korpusrecherche’ den Prozentsatz der unerwünschten Belege enthält. Suchanfrage Belege Wirkliches Vorkommen Fehlerhaftigkeit der Korpusrecherche (ein oder der) / +w2 (Exot %w0 -) 676 672 0,59% (ein oder der) / +w2 (Exote %w0 -) 77 77 0% (eines oder des) / +w2 (Exots %w0 -) 0 0 0% (eines oder des) / +w2 (Exoten %w0 -) 54 53 1,85% (einem oder dem) / +w2 (Exot %w0 -) 4 1 75% (einem oder dem) / +w2 (Exoten %w0 -) 76 72 5,2% Tab. 2: Das Wortpaar Exot - Exote im DeReKo (Korpusanfrage vom 8.2. 2012) Aus den in Tabelle 2 dargestellten Ergebnissen sieht man, dass die Fehlerhaftigkeit der Korpusrecherche hinsichtlich der Verwendbarkeit der gefundenen Belege für die einzelnen Kasus unterschiedlich hoch ist. Insbesondere im Nominativ und Genitiv mussten bei der manuellen Durchsicht nur wenige Belege aussortiert werden. Der Grund dafür war wiederholt das zufällige Vorkommen von dem Artikel und der Substantivform, wobei durch den Wortabstand ‘2’ die gesuchten Komponenten zu verschiedenen Satzgliedern gehört hatten. Im Falle des Dativs war eine steigende Fehlerhaftigkeitstendenz festzustellen. Außer der schon genannten Zugehörigkeit zu verschiedenen Satzgliedern vertrat die gesuchte Form dem noch die Funktion des Relativpronomens. Für die Form Exot wurde im Dativ Singular eine enorme Fehlerhaftigkeit festgestellt, denn von vier gelieferten Belegen mussten drei als unerwünschte Ergebnisse aussortiert werden. Wie aus Tabelle 2 ersichtlich ist, überwiegt die apokopierte Form ein/ der Exot im Nominativ Singular mit 672 Belegen. Die nichtapokopierte Form ein/ der Exote wird nur in 77 Fällen belegt. Von insgesamt 749 Vorkommen im Nominativ Singular fallen also 89,71% aller Belege auf die apokopierte Form Exot, die im Wörterbuch als Grundform genannt wird. Gerechtfertigt ist die Frage zu stellen, ob die Form Exote im Wörterbuch als selbstständiges Stichwort verzeichnet werden soll. Alu statt Platin: das schlichte Porsche-Handy ist vom Design und von den Werkstoffen her der Exot in dieser Reihe von Protz-Telefonen. (HMP08/ MAI.02225 Hamburger Morgenpost, 27.05.2008, Beilage S. 1-6-7; Die Handys der $uperreichen) <?page no="232"?> 232 Kleine und große Korpora - Spezialkorpora für Spezialfragen „Eigentlich bin ich ein Exote in der Branche. Würden Prognosen sogenannter Experten immer eintreffen, dürfte es mich schon lange nicht mehr geben“, sagt Franz Winkler, Besitzer der gleichnamigen Winkler Markt GesmbH & Co KG. [...] (X96/ MAI.07757 Oberösterreichische Nachrichten, 22.05.1996, Ressort: Wirtschaft; Franz Winkler erneuert Lebensmittelmarkt in Auhof um 45 Millionen S) Im Genitiv Singular wurde nur die schwach deklinierte Form Exoten gefunden, die hypothetischen starken Formen *Exots/ *Exotes und die doppelmarkierte Form *Exotens wurden nicht belegt. 3 Im Dativ Singular erscheint die stark deklinierte Form Exot nur in einem Fall, was im Unterschied zu 72 Belegen der Form Exoten nur 1,36% aller Dativvorkommen ausmacht. Schon die Weltreisenden Alexander von Humboldt und Maria Sibylle Merian waren von der verschwenderischen Blütenpracht der Orchideen angetan. Sie brachten Exemplare der ebenso wundersamen wie bizarren Pflanze mit nach Europa. Dort wurde der Exot aus dem Regenwald schnell zum Schmuckstück der Reichen und Herrschenden. In den vergangenen Jahren wurde aus dem seltenen Exot ein Juwel für Jedermann. (M01/ DEZ.91937 Mannheimer Morgen, 01.12.2001; Vom tropischen Exoten zum Juwel für Jedermann) Aus den oben dargestellten Angaben ist eindeutig ersichtlich, dass die apokopierte Form Exot, die als Ausgangsform für den Sprachwandel zur starken Singularflexion verstanden werden könnte, nur im Nominativ Singular wesentlich überwiegt. Der Genitiv und Dativ zeigen eine dominante Verwendung der schwachen Formen auf -en. Suchanfrage Belege Wirkliches Vorkommen Fehlerhaftigkeit der Korpusrecherche (ein oder der) / +w2 (Vorfahr %w0 -) 142 141 0,7% (ein oder der) / +w2 (Vorfahre %w0 -) 291 290 0,34% (eines oder des) / +w2 (Vorfahrs %w0 -) 3 3 0% (eines oder des) / +w2 (Vorfahren %w0 -) 167 160 4,19% (eines oder des) / +w2 (Vorfahrens %w0 -) 15 15 0% (einem oder dem) / +w2 (Vorfahr %w0 -) 9 7 22,22% (einem oder dem) / +w2 (Vorfahren %w0 -) 256 209 18,35% Tab. 3: Das Wortpaar Vorfahr - Vorfahre im DeReKo (Korpusanfrage vom 8.2. 2012) 3 Nach Thieroff (2003, S. 114 in URL 3) hängen die Tendenzen, den Genitiv zu markieren, mit dem Bedürfnis der Sprecher, die schwankenden Substantive „[...] wie normale Substantive zu behandeln“. Zugleich wird von ihm auch die Genitivdoppelmarkierung erwähnt (Thieroff 2003, S. 114-115 in URL 3). <?page no="233"?> 233 Variation im Bereich der schwachen Substantive Die Fehlerhaftigkeit der Korpusrecherche bietet ein ähnliches Bild wie bei dem Wortpaar Exot - Exote. Von den für den Nominativ und Genitiv Singular gefundenen Belegen mussten nur wenige ausgesondert werden. Die für den Dativ gelieferten Belege zeigen jedoch eine hohe Fehlerhaftigkeitsrate, die insbesondere damit zusammenhängt, dass die Form dem wiederholt als Relativpronomen stand. Die Distribution der apokopierten und der nichtapokopierten Form ist anders als bei dem Wortpaar Exot - Exote. Die nichtapokopierte Form Vorfahre erscheint mit 290 Belegen im Nominativ Singular öfter, als die apokopierte Form Vorfahr mit 141 Belegen. Von insgesamt 431 Vorkommen im Nominativ Singular fallen 67,28% aller Belege auf die nichtapokopierte Form Vorfahre, die im Wörterbuch nicht als Grundform genannt wird. Es könnte sein, dass ein Vorfahre des Eichhörnchens das erste fliegende Säugetier war. Millionen Jahre vor der ersten Fledermaus! Also müsste das neu entdeckte Tier mit den Dinosauriern zusammengelebt haben. (BRZ06/ DEZ.07201 Braunschweiger Zeitung, 15.12.2006; Fliegende Bestie) Der Neandertaler war laut jüngsten-Gen-Untersuchungen eindeutig nicht der Vorfahr des heute lebenden Menschen. (X97/ JUL.22629 Oberösterreichische Nachrichten, 11.07.1997, Ressort: Chronik; Wir sind keine Neandertaler) Im Genitiv Singular wurde mit nur drei Belegen ein niedriges Vorkommen der starken Form Vorfahrs nachgewiesen. Interessant ist die doppelmarkierte Form Vorfahrens, die in 15 Fällen erschien und dadurch 8,42% aller Genitivformen darstellt. Die schwache Deklinationsform Vorfahren wurde wesentlich häufiger, in 160 Belegen (89,88%), gefunden. Auch im Dativ wird die schwache Form Vorfahren mit 96,75% der in sieben Fällen belegten starken Deklination deutlich bevorzugt. Beispiele für die Verwendung des Genitivs: Völlig unerwartet ist Carl-Albrecht Graf von Kanitz im Alter von 62 Jahren in seiner Heimat auf Schloss Cappenberg in Nordrhein-Westfalen verstorben. Der Nachfahre des Freiherrn vom und zum Stein hat sich Zeit seines Lebens mit der Geburtsstadt des großen Vorfahren verbunden gefühlt. (RHZ02/ DEZ.02613 Rhein-Zeitung, 04.12.2002; Graf von Kanitz (62) ist tot) Die Ausstellungen der Museen sind auch eine Reaktion auf das große Besucherinteresse im Jubiläumsjahr. Aber auch außerhalb der Kultureinrichtungen können Urlauber in Nordrhein-Westfalen Interessantes zur Geschichte des menschlichen Vorfahrens entdecken. (NUN06/ AUG.02211 Nürnberger Nachrichten, 19.08.2006; Spannender Besuch beim Neandertaler - Zum Jubiläum gibt es jede Menge Sonderausstellungen rund um den Urmenschen) <?page no="234"?> 234 Kleine und große Korpora - Spezialkorpora für Spezialfragen Spanische Forscher haben in der Provinz Burgos mit einem 1,2 Millionen Jahre alten Backenzahn die vermutlich ältesten Überreste eines Europäers gefunden, eventuell eines Vorfahrs des Homo antecessor. Der Fund zeigt, dass der Kontinent erheblich früher von Menschen besiedelt war als bislang angenommen. dpa (NUN07/ JUL.03279 Nürnberger Nachrichten, 28.07.2007, S. 5; Wissenswert) Beispiele für die Verwendung des Dativs: Heutige Toxoplasma-Parasiten unterscheiden sich genetisch kaum - offenbar, weil einem Vorfahr eine revolutionäre Neuentdeckung gelang. (SPK/ J03.00083 spektrumdirekt, 17.01.2003; Keuscher Katz- und Maus-Schmarotzer) Nach bisherigem Wissen sind Mensch und Schimpanse vor fünf bis sieben Millionen Jahren aus einem gemeinsamen Vorfahren hervorgegangen. Der Studie zufolge begann sich die Entwicklung in der Linie des Menschen allmählich zu verlangsamen. (BRZ06/ JAN.11818 Braunschweiger Zeitung, 24.01.2006; Der Schimpanse ist fast schon ein Mensch) Den Nominativ Singular dominiert die nichtapokopierte Form Vorfahre. In den obliquen Kasus Genitiv und Dativ überwiegen deutlich die durch Flexionssuffixe markierten Formen - im Genitiv durch die Doppelmarkierung -ns oder durch das übliche -en, im Dativ durch -en. Kurze Zusammenfassung Die Korpusanfrage lieferte zuverlässige und für die Fragestellung relevante Belege für den Nominativ und Genitiv Singular. Nach manueller Durchsicht mussten bis auf einen Fall wesentlich weniger als 5% der Belege aussortiert werden, die eine unerwünschte Distribution der gesuchten Komponenten repräsentierten. Im Dativ Singular herrscht wegen des häufigen Auftretens von dem als Relativpronomen eine ganz unterschiedliche Situation und die Belege müssen ordentlich überprüft werden. Die Fehlerhaftigkeit könnte durch den Verzicht auf den Wortabstand gesenkt werden, man würde jedoch einige Daten verlieren, wie beispielsweise die Information über die Häufigkeit der attributiven Konstruktionen. Wie z.B. Lüdeling (2007, S. 30) bemerkt, gehen Informationen während der Text- und Datenverarbeitung immer wieder verloren. Diese Verluste müssen genau dokumentiert und methodologisch überprüft werden, was in unserem Falle durch die konsequente Einhaltung der Korpusanfragestruktur getan wird. <?page no="235"?> 235 Variation im Bereich der schwachen Substantive Eine interessante Frage geht aus dem Unterschied zwischen zwei analysierten Wortpaaren hervor. Wie sollen die Wörter in Wörterbüchern (bzw. Grammatiken) verzeichnet werden? Sollen die Stichwörter einheitlich - dann jedoch ohne Rücksicht auf die wirkliche Sprachverwendung - systematisiert werden? Oder soll jedes Wort im Korpus einzeln überprüft werden und dann im Wörterbuch je nach dem realen Sprachgebrauch erscheinen? Diese lexikographische Entscheidung ist grundsätzlich, da das Streben nach der Reflexion der sprachlichen Wirklichkeit sehr umfangreiche Vorstudien und Analysen bedeuten würde, die wegen dem Zeit- und Geldaufwand höchstwahrscheinlich gar nicht zu erwägen sind. Insbesondere für die weit fortgeschrittenen Nichtmuttersprachler wären sie jedoch sehr wünschenswert, denn gerade diese subtilen Nuancen stellen für diese Gruppe einen der letzten Schritte zum einwandfreien Gebrauch der jeweiligen Sprache dar. Gruppe 6: Markierte Formen schwacher Maskuline im Genitiv Singular Recherche im DeReKo - Deutsches Referenzkorpus; Version DeReKo-2011-I; W-öffentlich - alle öffentlichen Korpora des Archivs W (mit allen öffentlichen Neuakquisitionen); Anfrage in COSMAS II, erreichbar unter www.ids-mannheim.de/ cosmas2/ (Stand: Oktober 2011). Inspiriert durch DUDEN - Die Grammatik (2009, S. 212), nach der einige der Substantive schwanken, die in der Nominativform Singular auf unbetontes -er enden, werden zunächst die Substantive untersucht, deren Auslaut im Nominativ Singular wie reduziertes r oder Schwa ausgesprochen wird. Von den aus Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003) exzerpierten Substantiven handelt es sich um folgende Formen: Bauer, Bär, Herr, Mohr, Narr, Tor, Vorfahr, Zar, Nachbar, Husar, Korsar. Anschließend wird die Flexionsvariabilität der schwachen Substantive am Beispiel der markierten Formen des Genitiv Singular untersucht. Der Genitiv ist der Kasus, der vom ganzen Singularparadigma der deutschen Maskulina am deutlichsten markiert wird. Zugleich werden die langsame Zurückdrängung des Genitivs und der Übergang der Substantive von der schwachen zur starken bzw. gemischten Deklination zu stark ausgeprägten Tendenzen der gegenwärtigen deutschen Standardsprache gezählt. Veranlasst durch die Synergie dieser Tatsachen sind deswegen interessante Ergebnisse zu erwarten. In der Untersuchung werden explizit die mit dem unbestimmten und bestimmten Artikel verbundenen markierten Formen des Genitiv Singular überprüft. <?page no="236"?> 236 Kleine und große Korpora - Spezialkorpora für Spezialfragen Die Untersuchung verlief in zwei Schritten. Erstens wurde für jedes Substantiv die Lemmasuche durchgeführt, um die Zuverlässigkeit der im DeReKo durchgeführten Lemmatisierung festzustellen. Zweitens wurden alle gefundenen und hypothetischen markierten Genitivformen der analysierten schwachen Maskulina im DeReKo einzeln überprüft, um komplexe Ergebnisse zur Distribution der einzelnen Suffixe zu gewinnen. Durchgeführte Suchanfragen am Beispiel von Bauer: &Bauer (eines oder des) / +w2 (Bauers %w0 -) (eines oder des) / +w2 (Bauerns %w0 -) (eines oder des) / +w2 (Bauern %w0 -) Subst. stark doppelte Markierung schwach Beispiele Bauer Lemma: Bauern Bauers Bauerns Bauers 95 Bauerns 23 Bauern 2 978 Die erste Frau des Bauers war demnach gestorben, von der zweiten hatte er sich scheiden lassen. (A10/ MAR.03777 St. Galler Tagblatt, 12.03.2010, S. 8; Wie bitte? ) Die Eingliederungsklasse für Fremdsprachige kaufte nach der Mithilfe bei einer Apfelernte eines Bauerns diesem gleich eine Ladung Äpfel ab. [...] (A09/ DEZ.03689 St. Galler Tagblatt, 11.12.2009, S. 45; Schüler zählen auf Kraft durch Äpfel aus der Region) Tab. 4: Bauer im Genitiv Singular Wie die linke Tabellenspalte zeigt, wurden während der Lemmasuche drei variierende Formen dem Suchbegriff Bauer zugeordnet - die starke Form Bauers, die doppelmarkierte Form Bauerns und die schwache Form Bauern, die jedoch während der Lemmasuche auch die anderen Kasus im Singular und Plural vertritt. Nach DUDEN - Deutsches Universalwörterbuch (2011), Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2003) und DUDEN - Die Grammatik (2009, S. 212) kann das Wort Bauer „selten“ schwanken. WAHRIG. Richtiges Deutsch leicht gemacht (2009, S. 318) reiht Bauer der Substantivgruppe zu, die sowohl schwach als auch stark dekliniert werden kann. Beide Formen sollen zum Standard gehören. <?page no="237"?> 237 Variation im Bereich der schwachen Substantive Die weitgehend akzeptierte Meinung über die Möglichkeit einer schwachen und starken Singulardeklination des Substantivs Bauer manifestiert sich unter anderem auch darin, dass Belege zu finden sind, in denen die beiden Formen in einem Satz unmittelbar nebeneinanderstehen: [...] Beide verkaufen sie Fleisch, beide aber können sie von der anderen Seite berichten. Von der eines Bio-Bauern respektive eines direktvermarktenden Bauers. [...] (RHZ06/ SEP.30071 Rhein-Zeitung, 30.09.2006; Idyllisch ist schon die Anfahrt) Die morphologische Nichtstabilität des Substantivs wird auch dadurch unterstrichen, dass die Schwankung nicht nur bei Verwendung als Appellativ eintritt, sondern ist auch im Bereich der Eigennamen zu finden. Ein Anmeldeformular wird in der Ausgabe des Thurgauer Bauers vom 28. April zu finden sein, [...] (A00/ APR.25861 St. Galler Tagblatt, 15.04.2000, Ressort: TB-THG2 (Abk.); Mehr Qualität für Ausgleichsflächen) Zuerst zeigen die Tiere unsicheren Gang“, beschreibt die Tierärztin Janine Mühlherr in der neusten Ausgabe des Thurgauer Bauern die Ziegenarthritis. [...] (A98/ FEB.07769 St. Galler Tagblatt, 07.02.1998, Ressort: TB-THG (Abk.); Auch den kranken Ziegen geht es an den Hals) Ein gleich reiches Vorkommen an variierenden Formen ist auch in der Fachsprache zu finden. Da der Bauer eine der Schachfiguren ist, erscheint das Wort häufig in Beschreibungen von Schachpartien, wo sogar alle drei belegten Genitivformen nachgewiesen wurden: [...] und die Verteidigung des Feldes f5 mit Lc8 ist nicht mehr möglich wegen des hängenden Bauers auf d5. [...] (SOZ08/ AUG.05519 Die Südostschweiz, 30.08.2008; Hasenohr holt Silber an U16-Olympiade) 2.f2-f3 (Häufig finden Angriffe auf den Punkt f2 statt, ein Vorrücken des Bauerns gefährdet den König im Falle einer kurzen Rochade nachhaltig.) (WPD/ OOO.01160 Elborn; Tsor; Stefan Kühn; u.a.: Offene Spiele (Schach), In: Wikipedia - URL: http: / / de.wikipedia.org: Wikipedia, 2005) [...] Dönni konnte in einem Endspiel mit gleichfarbigen Läufern trotz eines Bauern weniger erfolgreich alle Einbruchsfelder des Gegners kontrollieren. [...] (A09/ SEP.03933 St. Galler Tagblatt, 11.09.2009, S. 63; Flawil 1 entthront den bisherigen Tabellenführer) Das Substantiv Bauer wird in der Fachliteratur als schwaches Maskulinum betrachtet, das dieses Paradigma langsam verlässt. Wie die Korpusanfrage zeigte, ist die schwache Deklination mit 2 978 Belegen im Genitiv Singular immer noch weit vorherrschend. Die Zahl der schwankenden Formen ist im Vergleich dazu deutlich seltener zu finden. Mit 95 Belegen für die starke und <?page no="238"?> 238 Kleine und große Korpora - Spezialkorpora für Spezialfragen 23 Belegen für die doppelte Deklinationsmarkierung ist die Genitivvariation aber doch relativ stark präsent. Die Schwankungstendenz wird dadurch unterstrichen, dass die Flexionsvariation auch im Bereich der Eigennamen und der Fachsprache besteht. Bei den weiteren Vertretern der untersuchten Gruppe lieferte die Suchanfrage die in Tabelle 5 dargestellte Distribution der Genitivformen. Das homonyme Substantiv Tor wurde aus der Analyse ausgeschlossen, denn es ist während der Suchanfrage nicht möglich, die unterschiedlichen Bedeutungen auseinanderzuhalten. Subst. stark doppelte Markierung schwach Beispiele Bär Lemma: Bärs Bären Bärs 37 Bärens 11 Bären 2 249 Bärn 0 Was, wenn Touristen wegen des Bärs trotzdem ausbleiben sollten? Der Tourismus ist essenziell für Graubünden. (SOZ10/ JUN.04867 Die Südostschweiz, 26.06.2010; Und ein Bär bedeutet für uns Gefahr) Die Ex-Sowjetrepublik feiert sich ungeachtet des Brummens des russischen Bärens als heimliches Kernland Zentralasiens. (P95/ AUG.29695 Die Presse, 28.08.1995, Ressort: Ausland; Kirgisistan besinnt sich seiner Wurzeln) Herr Lemma: Herrn Herren Herrs 1 Herrns 0 Herrens 0 Herrn 15 945 Herren 646 Sie war lange Zeit die ‘rechte Hand’ des obersten Herrs über die Zahlen im Rathaus: Helga Oppl, langjährige Sekretärin des Kämmerers und Ersten Bürgermeisters Dr. Norbert Egger [...] (M04/ AUG.53408 Mannheimer Morgen, 07.08.2004) Herr Weis macht den Eindruck eines alternden Herren, der unbedingt ein jugendliches Image ausstrahlen möchte. [...] (P98/ NOV.47942 Die Presse, 27.11.1998, Ressort: Seite Zwei; Ist der Kulturauftrag GI Weis zuwider? ) <?page no="239"?> 239 Variation im Bereich der schwachen Substantive Subst. stark doppelte Markierung schwach Beispiele Bauer Lemma: Bauern Bauers Bauerns Bauers 95 Bauerns 23 Bauern 2 978 Die erste Frau des Bauers war demnach gestorben, von der zweiten hatte er sich scheiden lassen. (A10/ MAR.03777 St. Galler Tagblatt, 12.03.2010, S. 8; Wie bitte? ) Die Eingliederungsklasse für Fremdsprachige kaufte nach der Mithilfe bei einer Apfelernte eines Bauerns diesem gleich eine Ladung Äpfel ab. [...] (A09/ DEZ.03689 St. Galler Tagblatt, 11.12.2009, S. 45; Schüler zählen auf Kraft durch Äpfel aus der Region) Narr Lemma: Narren Narrs 3 Narrens 1 Narrns 0 Narren 444 Leitfigur ist Maria (Michaela Bauer), eigentlich Olivias Kammermädchen, aber sie übernimmt auch die Roll-e des Narrs, der alles darf und auch tut. [...] (A00/ MAR.23157 St. Galler Tagblatt, 27.03.2000, Ressort: TB-THG1 (Abk.); „Macht doch, was ihr wollt“) des Narrens Kostümkleiderwahn (BVZ08/ JAN.03561 Burgenländische Volkszeitung, 30.01.2008, S. 12; ) Vorfahr Lemma: Vorfahren Vorfahrs 3 Vorfahrens 15 Vorfahrns 0 Vorfahren 165 Vorfahrn 0 [...] Zwar muß die Abstammung zu Lebzeiten des Vorfahrs geklärt werden; nur für Nachkommen, die zur Zeit seines Todes noch nicht geboren waren, gilt die Frist von einem Jahr. (P98/ JUL.26915 Die Presse, 03.07.1998, Ressort: Chronik; Exhumierung für einen Gentest) GENESO(AP) - In einem Morast im US-Staat New York haben Bauarbeiter das rund 10 000 bis 12 000 Jahre alte Skelett eines Mastadons, des Vorfahrens der Elefanten, entdeckt. (NUN91/ FEB.00553 Nürnberger Nachrichten, 07.02.1991, S. 28; USA: Das vollständige Knochengerüst steckt seit 10 000 Jahren im Morast) <?page no="240"?> 240 Kleine und große Korpora - Spezialkorpora für Spezialfragen Subst. stark doppelte Markierung schwach Beispiele Zar Lemma: Zaren Zars 3 Zares 0 Zarens 1 Zarns 0 Zaren 1 186 Zarn 0 Österreich war fürs erste nur ein treuer Verbündeter des Zars. (WPD/ MMM.00809 Axel Hindemith; Mathias Schindler; Martin-vogel; u.a.: Mahmud II, In: Wikipedia - URL: http: / / de.wikipedia.org : Wikipedia, 2005) Russische Gäste wandelten in Bad Ems auf den Spuren des Zarens (RHZ04/ APR.19866 Rhein-Zeitung, 22.04.2004; Russische Gäste wandelten in Bad Ems auf …) Nachbar Lemma: Nachbars Nachbarn Nachbars 195 Nachbarns 20 Nachbarn 4 463 Nachbaren 1 Nach Ansicht der Richter ist das zeitweilige Wegschließen der Tiere der geringstmögliche Eingriff zum effektiven Schutz des Nachbars. Schließlich blieben die Rottweiler dem Kläger ja erhalten (Az.: 1 S 3201/ 94). (M95/ 512.33422 Mannheimer Morgen, 09.12.1995; Bellen hinter Schloß und Riegel) Trotzdem standen dort die archäologischen Forschungen lange Zeit im Schatten des nördlichen Nachbarns Ägypten [...] (NUN96/ DEZ.01448 Nürnberger Nachrichten, 18.12.1996, S. 19; Das goldene Land am Nil - Der Sudan zwischen Steinzeit und Spätantike: Eine große Ausstellung in der Münchner Hypo-Kunsthalle) Husar Lemma: Husaren Husars 0 Husarens 0 Husaren 8 Korsar Lemma: Korsaren Korsars 3 Korsarens 0 Korsaren 14 Romeo ist ein cooler Typ mit Spiegelbrille, Kippe und dem verwegenen Kopftuch eines Korsars, [...] (BRZ05/ SEP.07625 Braunschweiger Zeitung, 24.09.2005; Im „ Heiligen Schäfer“ zu Bohols Schokoladenhügeln) <?page no="241"?> 241 Variation im Bereich der schwachen Substantive Subst. stark doppelte Markierung schwach Beispiele Mohr Lemma: Mohrs Mohren Mohrs 8 Mohrens 0 Mohrns 0 Mohren 160 Mohrn ‘Ich bin damit aufgewachsen: Shakespeare ist großartig, aber sein Othello- Stück ist schlecht. ’ Der amerikanische Regisseur Peter Sellars in Bochum anlässlich seiner Othello-Inszenierung. Er musste erst intensiv von der Überzeitlichkeit des Stoffes des ‘Mohrs von Venedig ’ überzeugt werden. (RHZ09/ JUN.18853 Rhein- Zeitung, 23.06.2009; Kompakt) Tab. 5: Distribution der variierenden Genitivformen bei Bauer, Bär, Herr, Mohr, Narr, Vorfahr, Zar, Nachbar, Husar, Korsar Die Lemmatisierung fiel bei den einzelnen Substantiven unterschiedlich zuverlässig aus. Bei den Substantiven Herr, Bauer, Husar und Mohr wurden den jeweiligen Wörtern alle variierenden Formen zugeordnet. Bei Bär und Nachbar wurde bei der Lemmasuche die doppelmarkierte Form der Wörter ignoriert. Bei Narr, Vorfahr, Zar und Korsar wurden den Wörtern nur die schwachen Formen zugeordnet, die alternativen Markierungen blieben unbeachtet. Aus der oben angeführten Übersicht ist ersichtlich, wie wichtig die sprachliche Erfahrung und Intuition während einer Forschungsarbeit ist. Würde man nur der automatischen Lemmatisierung vertrauen, würde man in sechs Fällen keine oder kleinere Variation der Genitivformen voraussetzen. Hinsichtlich der variierenden Genitivmarkierung können von den analysierten Substantiven insgesamt sieben in zwei Gruppen mit je drei und vier Wörtern systematisiert werden, die übrigen vier zeigen hinsichtlich der Genitivmarkierung ein so unterschiedliches Bild, dass sie einzeln beschrieben werden müssen. Diese Ergebnisse entsprechen auch dem Wesen der Sprache, wo jedes Wort seine eigene Geschichte und daraus resultierende Zukunftsentwicklung hat, wo unzählige Variablen mitwirken und mitberücksichtigt werden müssen. Zu diesen veränderlichen Größen gehören z.B. diatopische und diastratische Charakteristiken, morphosyntaktische und stilistische Merkmale, Kontext, kommunikative Situation, Medium usw. Die häufigste und hinsichtlich der Form reichste Deklinationsvariation weisen die Substantive Nachbar, Bauer und Bär auf, die mit der Ausnahme von Herr auch über die höchste absolute Verwendungsfrequenz verfügen. Alle drei Substantive treten im Genitiv Singular in drei möglichen Formen auf - in der <?page no="242"?> 242 Kleine und große Korpora - Spezialkorpora für Spezialfragen starken, doppelmarkierten und schwachen, wobei die schwache Genitivmarkierung eindeutig überwiegt. Von den alternativen Formen wird dabei das starke Suffix -s der doppelten Markierung -ns bevorzugt. Das Substantiv Vorfahr zeigt keine besonders häufige absolute Verwendungsfrequenz. In den gelieferten Belegen werden die schwach markierten Genitivformen deutlich bevorzugt. Von den alternativen Formen überwiegt die doppelte Markierung -ns dem starken Suffix -s. Die Gruppe Narr, Zar, Mohr und Korsar weist eine niedrige bis mittlere absolute Verwendungsfrequenz auf, wobei ein sehr niedriges Vorkommen der starken und doppelmarkierten Genitivformen festzustellen ist. Die Substantive werden immer noch fast ausschließlich schwach dekliniert. Das von allen untersuchten Substantiven am häufigsten verwendete Substantiv Herr zeigt keine Tendenz, die schwache Deklination zu verlassen. Der einzige Beleg mit starkem Suffix -s kann als irrelevanter Fehler betrachtet werden. Trotzdem variieren die schwachen Genitivformen des Substantivs Herr relativ stark, und zwar zwischen den Formen Herr und Herren. Die Suchanfrage (eines oder des) / +w2 (Herren %w0 -) lieferte 646 Treffer, von denen während der Durchsicht 136 wegen der zufälligen Distribution vom Artikelwort und Substantiv mit Wortabstand ‘2’ und der Zugehörigkeit zu Eigennamen und Phraseologie aussortiert wurden. Die Analyse der Distribution des Suffixes -en im Genitiv Singular zeigt, dass es sich um eine stilistisch- und kontextbedingte morphologische Abweichung handelt, die insbesondere in den folgenden Bereichen zu beobachten ist: a) Religion (Bezeichnung für Gott in diversen Religionen und Jesus Christus), b) sozialer Status (Herrscher bzw. überlegene Persönlichkeit, prominente gesellschaftliche Stellung, Adelsbezeichnung), gesellschaftliche Situation, deren Beschreibung stilistisch hoch verankert ist (Tanz), c) häufige Kookkurrenz mit einer Altersangabe, wobei eine positive Konnotation überwiegt, wie z.B. der folgende Satz zeigt: „[...] Der Stolz des alten Herren auf die junge Tochter.“ (BRZ09/ NOV.03738 Braunschweiger Zeitung, 09.11.2009; Bissiger Tiger mit wackelnden Zähnen), stilistisches Mittel der Ironie. Das Substantiv Husar weist im Vergleich zu den anderen Belegen in der Gruppe keine Schwankungen auf und wird konsequent schwach gebraucht. <?page no="243"?> 243 Variation im Bereich der schwachen Substantive Kurze Zusammenfassung Von den zehn untersuchten schwachen Substantiven, deren Auslaut als reduziertes r oder als Schwa ausgesprochen wird, kann im gegenwärtigen geschriebenen Standarddeutsch nur bei drei Wörtern (Nachbar, Bauer und Bär) über eine weiter fortgeschrittene Flexionsschwankung gesprochen werden. Die restlichen Substantive weichen vom schwachen Deklinationsparadigma deutlich seltener oder überhaupt nicht ab. Ein interessantes Ergebnis ist die mögliche Schwankung innerhalb der schwachen Deklination bei Herr, die stilistisch- und kontextbedingt ist. Aufgrund dieser Analyse ist ersichtlich, dass die einzelnen Substantive individuell untersucht und beschrieben werden müssen. Eine strenge Systematisierung ist nicht zu empfehlen, denn auch trotz Auswertung eines Megakorpus gibt es immer wieder die Möglichkeit, dass die gesuchten Daten im Korpus nicht enthalten sind, auch wenn sie irgendwo existieren. An dieser Stelle spannen wir wieder einen Bogen und kommen zu der Frage zurück, ob die Introspektion oder die Empirie für die Untersuchung einer Sprache methodologisch geeigneter ist. 3. Fazit Wie diese Studie gezeigt hat, ist es äußerst kontraproduktiv, entweder die Intuition oder die Beschreibung der realen Sprachverwendung aus der linguistischen Forschung auszuschließen. Beide sind für die objektiven Ergebnisse einer Forschung relevant, tragen dazu jedoch anders bei. Die Intuition (oder die Introspektion) erweist sich vor allem in den Anfangsphasen einer Forschung als inspirativ, in denen man sich in einem meist umfangreichen sprachlichen Material orientiert und versucht, neue Hypothesen und Forschungsziele aufzustellen. Eine empirische Beglaubigung solcher Hypothesen wurde oben als bedeutender Realitätsanker genannt. Soll eine geisteswissenschaftliche Disziplin die Möglichkeit haben, ein materielles Fundament aufbauen zu können, ist sie auch verpflichtet dies zu tun, um nicht beschuldigt zu werden, manipulierte und subjektive Ergebnisse vorzulegen und für relevant zu erklären. Die Linguistik gewann eine solche Möglichkeit dadurch, dass immer mehr Korpora unterschiedlicher Größe aufgebaut und frei zur Verfügung gestellt werden. Eine ernst gemeinte Arbeit mit Korpora verlangt Vieles. Man muss sich methodologisch, theoretisch und praktisch neu orientieren und lernen, mit der Informationsflut, die manchmal aus einem Korpus strömt, richtig und effizient umzugehen. Die Verschmelzung der subjektiven Erfahrung des Linguisten und der <?page no="244"?> 244 Kleine und große Korpora - Spezialkorpora für Spezialfragen Auseinandersetzung mit fremden sprachlichen Äußerungen bringt zahlreiche Anregungen und soll möglichst intensiv ausgenutzt werden, um die linguistische Forschung nach vorn zu bewegen. Diese Studie zeigte, dass ein richtig ausgewähltes einsprachiges Wörterbuch als Informationsquelle morphologischer Untersuchungen erfolgreich verwendet werden kann. Am Beispiel der schwachen Substantive wurde nachgewiesen, wie potentielle Schwankungskandidaten entdeckt und im Korpus untersucht werden können, was nach der Konfrontation mit einer großen Belegmenge zu interessanten und realitätsbezogenen Ergebnissen führen kann. Der Einwand der theoretischen Linguistik, dass die parole-Erscheinungen fehlerhaft sein können, stimmt. Wie jedoch (Featherston 2007, S. 66, 67) schreibt, sind unter den Korpusbelegen nicht nur ideale Äußerungen zu erwarten. Solche „mehr oder weniger ‘schlechte Strukturen’ werden wir immer wieder treffen, wir sind aber nicht verpflichtet, sie für relevant zu halten. „Ihr Erscheinen in Korpusdaten lässt uns höchstens schließen, dass sie nicht allzu viel schlechter sind als die Strukturvarianten, die normalerweise vorkommen.“ (ebd.) Und aus diesem Grunde kann die Linguistik nie eine rein empirische Wissenschaft sein, denn das subjektive Gefühl, dass eine sprachliche Äußerung oder grammatische Struktur nicht in Ordnung ist, kann nicht gemessen oder anders materiell dargestellt werden. Sicher sind hohe Frequenzen einiger Formen und Konstruktionen im Korpus ein Beweis dafür, dass sie als positiv und richtig einzustufen sind. Das sprachliche System entwickelt sich, es gibt überaus kreative Sprecher. Liest man einige Korpusbelege, muss man die Phantasie der Autoren und ihren innovativen Umgang mit der Sprache bewundern. Und es ist einer der Gründe, warum die Sprache immer wieder neu untersucht und entdeckt werden kann und muss. Literatur Quellen/ Korpustexte Deutsches Referenzkorpus; Version DeReKo-2011-I; W-öffentlich - alle öffentlichen Korpora des Archivs W (mit allen öffentlichen Neuakquisitionen); Anfrage in COSMAS II. http: / / ww.ids-mannheim.de/ cosmas2/ (Stand: Oktober 2011). Deutsches Referenzkorpus; Version DeReKo-2011-II; W-öffentlich - alle öffentlichen Korpora des Archivs W (mit allen öffentlichen Neuakquisitionen); Anfrage in COSMAS II. http: / / www.ids-mannheim.de/ cosmas2/ (Stand: Februar 2011). <?page no="245"?> 245 Variation im Bereich der schwachen Substantive Wörterbücher und Lexika Duden (2007): DUDEN - Richtiges und gutes Deutsch: Wörterbuch der sprachlichen Zweifelsfälle. Hrsg. von der Dudenredaktion. (= Der Duden 9). Mannheim/ Leipzig/ Wien/ Zürich. Duden (2009): DUDEN - Die Grammatik: unentbehrlich für richtiges Deutsch. Hrsg. von der Dudenredaktion. (= Der Duden 4). Mannheim. Duden (2011): DUDEN - Deutsches Universalwörterbuch. 7., überarb. und erw. Aufl. Mannheim. [Mit CD-ROM]. Langenscheidt (2003): Langenscheidt Großwörterbuch Deutsch als Fremdsprache: das einsprachige Wörterbuch für alle, die Deutsch lernen. Hrsg. v. Dieter Götz, Günther Haensch und Hans Wellmann in Zusammenarb. mit der Langenscheidt- Redaktion. Berlin u.a. Wahrig (2006): WAHRIG - deutsches Wörterbuch. Hrsg. von Renate Wahrig-Burfeind. 8., vollst. neu bearb. u. aktual. Aufl. Gütersloh/ München [CD-ROM]. Wahrig (2009): WAHRIG - Richtiges Deutsch leicht gemacht. (= Wahrig 5). Gütersloh/ München. Wissenschaftliche Literatur Feathterston, Sam (2007): Experimentell erhobene Grammatikalitätsurteile und ihre Bedeutung für die Syntaxtheorie. In: Kallmeyer/ Zifonun (Hg.), S. 49-69. Kallmeyer, Werner/ Zifonun, Gisela (Hg.) (2007): Sprachkorpora. Datenmengen und Erkenntnisfortschritt. Jahrbuch 2006 des Instituts für Deutsche Sprache. Berlin/ New York. Köpcke, Klaus-Michael (1995): Die Klassifikation der schwachen Maskulina in der deutschen Gegenwartssprache. Ein Beispiel für die Leistungsfähigkeit der Prototypentheorie. In: Zeitschrift für Sprachwissenschaft 14, S. 159-180. Köpcke, Klaus-Michael (2000): Starkes, Schwaches und Gemischtes in der Substantivflexion des Deutschen. - Was weiß der Sprecher über die Deklinationsparadigmen? In: Thieroff, Rolf/ Tamrat, Matthias/ Fuhrhop, Nanna/ Teuber, Oliver (Hg.): Deutsche Grammatik in Theorie und Praxis. Tübingen, S. 155-170. Köpcke, Klaus-Michael (2005): Die Prinzessin küsst den Prinz - Fehler oder gelebter Sprachwandel? In: Didaktik Deutsch 18, S. 67-83. Kusová, Jana (2008): Wie die korpusgestützte Arbeit helfen kann oder wie der eigene Sprachkarren aus dem Dreck zu ziehen ist. In: Lingua viva 7, S. 73-80. Lehmann, Christian (2007): Daten - Korpora - Dokumentation. In: Kallmeyer/ Zifonun (Hg.), S. 9-27. Lemnitzer, Lothar/ Zinsmeister, Heike (2010): Korpuslinguistik. Eine Einführung. 2. Aufl. Tübingen. <?page no="246"?> 246 Kleine und große Korpora - Spezialkorpora für Spezialfragen Lüdeling, Anke (2007): Das Zusammenspiel von quantitativen und qualitativen Methoden in der Korpuslinguistik. In: Kallmeyer/ Zifonun (Hg.), S. 28-48. Mukherjee, Joybrato (2009): Anglistische Korpuslinguistik. Eine Einführung, Berlin. Müller, Stefan (2007): Qualitative Korpusanalyse für die Grammatiktheorie: Introspektion vs. Korpus. In: Kallmeyer/ Zifonun (Hg.), S. 70-90. Internetquellen URL 1: Bittner, Dagmar: Von starken Feminina und schwachen Maskulina. Die neuhochdeutsche Substantivflexion - Eine Systemanalyse im Rahmen der natürlichen Morphologie. Dissertation (A). Friedrich-Schiller-Universität Jena 1991. Abdruck in: ZASPiL - ZAS Papers in Linguistics 31. http: / / www.zas.gwz-berlin.de/ fileadmin/ material/ ZASPiL_Volltexte/ zp31/ zaspil31.pdf (Stand: Juni 2011). URL 2: Indefrey, Peter: Listen und Regeln. Erwerb und Repräsentation der schwachen Substantivdeklination des Deutschen. Inaugural-Dissertation zur Erlangung des akademischen Grades eines Doktors der Philosophie (Dr. phil.) durch die Philosophische Fakultät der Heinrich-Heine-Universität Düsseldorf. http: / / deposit.d-nb. de/ cgibin/ dokserv? idn=965912078&dok_var=d1&dok_ext=pdf&filename=965912078.pdf (Stand: Mai 2011). URL 3: Thieroff, Rolf (2003): Die Bedienung des Automatens durch den Mensch. Deklination der schwachen Maskulina als Zweifelsfall. In: Linguistik online 16, 3. http: / / www.linguistik-online.de/ 16_03/ thieroff.html (Stand: 27.2.09). _ # " " " < &^ <± < % " " morphologischen Variation im nominalen Bereich beschäftigt. <?page no="247"?> Jana Valdrová Das unregelmäßige Verb und seine Bildungen im Definitionskorpus des Langenscheidt-Wörterbuchs 1. Einführung Der Anlass zu der vorliegenden Untersuchung ergab sich aus einer Unterrichtsstunde an der Pädagogischen Fakultät in Budweis, in der ein Internet-Artikel über „gesunde“ Sportarten (siehe Literaturverzeichnis) gelesen wurde. Die Bedeutung des adjektivierten Partizips „verschlissen“ im Satz „Für Menschen mit verschlissenen Gelenken ist Laufen nicht geeignet“ wurde zwar von den Studierenden ungefähr begriffen; als sie aber ihre Einschätzung im Wörterbuch überprüfen wollen, fanden sie den Ausdruck, der als lexikalisiertes Partizip sehr gut vorstellbar wäre, weder in den 1 200-1 700-seitigen Großwörterbüchern Langenscheidt (2008), Pons (2004) und WAHRIG (2008), noch im Wörterbuch Deutsch als Fremdsprache (2000). Das Partizip verschlissen war zwar unter verschleißen zu finden; wer allerdings die Verben schleißen oder sich verschleißen nicht kennt, die bei der Bestimmung der Bedeutung geholfen hätten, oder wer das Partizip nach dem historischen Wortbildungsmodell ei - i - i nicht ableiten kann, hat eigentlich keine Chance, das Wort zu finden. Wie wichtig verschlissen für die geläufige Kommunikation auf dem B1-B2-Niveau ist, konnten DaF-Lernende nicht einschätzen; ihnen fehlte die erlebte sprachliche Realität dazu. Die von mir gefragten Lehrerinnen und Lehrer schätzten die Anzahl der unvermeidlich zu lernenden unregelmäßigen Verben auf 60 bis 80. Ob auch verschlissen bzw. verschleißen dazu gehört, wie häufig oder wie selten es verwendet wird bzw. ob es außerhalb des Sprachgebrauchs erraten wird, kann durch Korpussuchen präzisiert werden. Eine Suche in COSMAS II ergab die absoluten Zahlen: 1 547 Belege von verschlissen. Einerseits gab es Adjektivierungen wie Jeansstoff sieht alt und verschlissen aus, auf der anderen Seite Partizipien, oft in Verbindung mit Autozubehör (die Kupplung wurde verschlissen), aber auch mit Personen (die Politiker/ Trainer wurden verschlissen). Bei dem Verb (sich) verschleißen standen 533 Belege in COSMAS II. Der Beispielfall verschlissen weckte Neugier: wie ist das Gesamtbild der unregelmäßigen Verben in der geläufigen Kommunikation? Welche und wie viele unregelmäßige Verben es sind und was aus den Feststellungen für den Unterricht geschlossen werden könnte, wurde durch eine Suche <?page no="248"?> 248 Kleine und große Korpora - Spezialkorpora für Spezialfragen im Definitionswortschatz des Langenscheidt-Taschenwörterbuchs (weiter auch: LTWB 2010) und dessen Vergleich mit zwei anderen kleineren Korpora, Pfeffer (1970) und Hielscher/ Šichová (2002), festgestellt. 2. Klar und prägnant formulieren Am Anfang ihres Hochschulstudiums disponieren Lernende etwa über Deutschkenntnisse auf der B1bis B2-Ebene. Im Europäischen Referenzrahmen (Tab. 1, Globalskala, Gemeinsame Referenzniveaus) ist die B1-Ebene folgendermaßen definiert ( www.goethe.de/ z/ 50/ commeuro/ 303.htm. ): Kann die Hauptpunkte verstehen, wenn klare Standardsprache verwendet wird und wenn es um vertraute Dinge aus Arbeit, Schule, Freizeit usw. geht. Kann die meisten Situationen bewältigen, denen man auf Reisen im Sprachgebiet begegnet. Kann sich einfach und zusammenhängend über vertraute Themen und persönliche Interessengebiete äußern. Kann über Erfahrungen und Ereignisse berichten, Träume, Hoffnungen und Ziele beschreiben und zu Plänen und Ansichten kurze Begründungen oder Erklärungen geben. Wörterbücher, die ihre Wortwahl und Syntax auf der B1-Ebene aufgebaut haben, haben sich auf die lernenden Benutzerinnen und Benutzer eingestellt: ihr Wortschatz muss so umfangreich sein, dass die Definitionen zutreffend sind und nicht einer nachträglichen Erklärung bedürfen. Daher werden im Definitionswortschatz weniger Partizipialsätze, weniger komplexe Wortbildungen und weniger Attributsätze verwendet, die als typisch schriftsprachlich gelten können. Auf kompliziertere Lexeme (z.B. behaglich, umgänglich und gemächlich, vgl. weiter unten bei Pons) wird auf der B1-Ebene verzichtet. Den Unterschied zwischen der B1-Ebene und höheren Ebenen der Sprachkenntnisse bzw. zwischen einfachen und komplizierteren Formulierungen kann ein Vergleich eines Wörterbuchartikels, z.B. „gemütlich“, in zwei verschiedenen Wörterbüchern deutlich machen: - Lernerwörterbuch TWDaF (2008): „1. so, dass man sich sehr wohl fühlt, 2. in angenehmer Gesellschaft; 3. langsam, ohne Eile“. - Lernerwörterbuch des Klettverlags (Pons 2004): 1. (behaglich) mit einer angenehmen Atmosphäre, in der man sich wohl und entspannt fühlt; @ °¡ ` " ` `´ Â@ | " " ` ` ´ ±@ ' ` so langsam, dass es nicht allzu anstrengend ist“. Der Wörterbuchartikel ‘gemütlich’ wurde gewählt um zu zeigen, dass auch sehr komplizierte, semantisch vielschichtige Bedeutungen einfach erklärt werden sollten, wenn es der Sprachkompetenz der Zielgruppe angepasst werden <?page no="249"?> 249 Das unregelmäßige Verb und seine Bildungen soll. Ins Tschechische kann gemütlich übersetzt werden als ! 51 ! % % + ¢ 0 " ! " 5" " ) 1 % ! " usw., wobei selbst die oben angeführte LTWB-Definition alle diese Bedeutungen einschließt. (Bindestriche statt Endungen sollen andeuten, dass es sich um Adjektive und/ oder Adverbien handelt; weitere Bedeutungen in Valdrová 1995-1996.) 3. Korpus, Termini, Methode 3.1 Korpus Die Autoren des LTWB sind Dieter Götz und Hans Wellmann; der Definitionswortschatz wurde von Hans Wellmann und Marion Hahn zusammengestellt. Mit 3 896 Wörtern wurden im LTWB um 30 000 Begriffe erklärt. Für den vorliegenden Beitrag stand eine Datenbasis in elektronischer Version zur Verfügung; diese Datensammlung ist im Taschenbuch vom 2010 abgedruckt. Eingetragen wurden alle Wörter, die mehr als einmal, d.h. nicht nur als Wörterbuchartikel, sondern auch in Erklärungen auftraten. Für die Erklärungen im Taschenwörterbuch DaF von 2004 wurde nach Hans Wellmanns Mitteilung erstmals ein nach dem Typus des englischen £ " 0 reduzierter Wortschatz zugrunde gelegt. Das LTWB-Definitionswortschatzkorpus erfüllt die Anforderungen auf ein (vom Umfang her kleineres) Korpus im Sinne der Merkmale, die in Lemnitzer/ Zinsmeister (2006, S. 101-113) oder in Wolf (2010, S. 17f.) zusammengefasst sind (Zweckgebundenheit, Verfügbarkeit, Maschinenlesbarkeit, Authentizität etc.) Auf der bereits oben erwähnten Webseite zum Europäischen Referenzrahmen wird Lernenden und Lehrenden empfohlen, „die Aufmerksamkeit auf ein bestimmtes Spektrum von Niveaus und auf bestimmte Kategorien zu richten. Wenn man sich nämlich auf einen Ausschnitt aus den Niveaus und den Kategorien beschränkt, der für einen bestimmten Zweck relevant ist, kann man weitere Details hinzufügen, d.h. feinere Niveaus und Kategorien benutzen“. Aus dieser Perspektive lässt sich von einer Analyse der unregelmäßigen Verben im vorliegenden LTWB-Wortschatzkorpus eine Erhebung von sprachdidaktisch relevanten Daten erwarten. Darüber hinaus wird die Analyse zeigen, welche Präfigierungen und weitere Wortbildungen bei Verben im Definitionswortschatz am häufigsten auftreten. Diese können im Wortbildungsunterricht, in der Lexikologie, in sprachpraktischen Übungen etc. zum Gegenstand von Analysen und Übungen werden. <?page no="250"?> 250 Kleine und große Korpora - Spezialkorpora für Spezialfragen 3.2 Termini 3.2.1 Unregelmäßiges Verb Bei der Analyse wurde mit den Termini ‘unregelmäßiges Verb’ und ‘Wortbildung’ gearbeitet. Als ‘regelmäßig’ möchte ich die Verben bezeichnen, deren Stamm sich in der Konjugation nicht ändert und deren Partizip II mit -(e)t und deren Präteritum mit -tgebildet werden. ‘Unregelmäßig’ sind dann alle Verben, die nicht regelmäßig gebildet werden (darunter auch haben, vgl. weiter unten). In welchem Sinne der Begriff ‘unregelmäßiges Verb’ verwendet wird, wurde in einigen Grammatiken für DaF-Lernende und in Grammatiken für Muttersprachler/ innen nachgeschlagen: - Im DUDEN (2006, S. 491ff.) steht eine „Liste starker/ unregelmäßiger Verben“, von backen bis zwingen (einschl. haben). Insgesamt sind es 199 Verben. - Helbig/ Buscha (1988, S. 19ff. und 1998, S. 35ff.) führen „regelmäßige und unregelmäßige Verben“ auf (es fehlen u.a. schwören, schleißen). Insgesamt sind es 191 Verben. - Grammatiken für Muttersprachler/ -innen (Eisenberg 1994, Wellmann 2008 u.a.) verzichten auf die begriffliche Dichotomie ‘regelmäßige’ versus ‘unregelmäßige’ Verben. In DaF-Grammatiken wird also der Terminus ‘unregelmäßige Verben’ als Oberbegriff für Hilfs-, Modal-, ‘gemischte’ und ‘starke’ Verben verwendet. Das ist für DaF-Lernende, die sich beim DaF-Lernen mit Unregelmäßigkeiten in der Konjugation auseinandersetzen müssen, völlig nachvollziehbar, und so wurde dieser Begriff auch bei der Korpussuche aufgefasst. Ein anderes, insbesondere aus der Sicht der tschechischen DaF-Lernenden (im Unterschied zu DaF-lernenden nativen EnglischsprachlerInnen) manchmal schwieriges Problem ist, die unregelmäßigen Verben nach ihrer Semantik zu bestimmen. In manchen Grammatiken finden wir Aufteilungen der Verben nach ihrer Morphologie (Eisenberg 1994, S. 109, Hentschel/ Weydt 2003, S. 47, Götze/ Hess-Lüttich 1999, S. 30 u.a.); in anderen stehen Hinweise auf den sprachgeschichtlichen Hintergrund (Sommerfeldt/ Starke 1992, S. 60, Wellmann 2008, S. 64). Hilfreich ist die Information, dass die unregelmäßigen Verben zum Grundwortschatz gehören (DUDEN 4, S. 456). Für DaF-Lernende wäre allerdings auch die Angabe von Relevanz, dass der Grundwortschatz der älteste Wortschatzbestand ist. Als solche bezeichnen die unregelmäßigen <?page no="251"?> 251 Das unregelmäßige Verb und seine Bildungen Verben die fundamentalen Tätigkeiten, d.h. nicht zu verwechseln mit Historismen, wie Studierenden manchmal vermuten. An dieser Stelle plädiere ich für eine Diskussion darüber, ob Themenbereiche in DaF-Lernmitteln nicht nur deskriptiv, sondern auch didaktisch bearbeitet werden sollten, also anders als es dem in Grammatiken für Muttersprachler/ -innen ist. 3.2.2 Wortbildungen im LTWB-Korpus Zu ‘Wortbildungen’ (auch ‘Wortbildungsprodukte’ oder ‘Wortbildungskonstruktionen’ genannt; dagegen wird in Fleischer/ Barz 2012, S. 2 auf den zusammengesetzten Terminus verzichtet) wurden in der Analyse diejenigen gezählt, die einen für die Studierenden noch erkennbaren Zusammenhang mit ihrer verbalen Basis (d.h. mit dem unregelmäßigen Verb) haben, z.B. Schloss von schließen, Widerstand von stehen, aber auch einige schwieriger erkennbare Wortbildungsprodukte wie Wesen, Schwingung und Wettbewerb (von sein, schwingen, werben). Als Sonderfälle unter den Wortbildungsprodukten der unregelmäßigen Verben sind regelmäßige Verben setzen und legen mit ihren Wortbildungen wie z.B. fortsetzen, Gesetz, widerlegen etc. aufzufassen. Es handelt sich um Kausativa zu sitzen und liegen (dazu Kluge 1989); Fleischer/ Barz 1992, S. 349 gliedern setzen und legen in implizite Derivationen ein, was aus der DaF-Perspektive semantisch und syntaktisch sehr gut nachvollziehbar ist. Demzufolge stehen sie auch in diesem Beitrag unter den Wortbildungen zu sitzen und liegen. Anders ist es bei stehen und stellen. Der Zusammenhang zwischen diesen Verben reicht nach Kluge (1989) bis in die außergermanische Phase der Sprachgeschichte; hierzu lat. sistere und griech. % ¤! . Deswegen ist das Verb stellen in dem vorliegenden Verzeichnis weggelassen. In dem Korpus traten Wortbildungen auf, die sich zu verschiedenen Wortbildungsarten eingliedern lassen: zur expliziten Derivation, vor allem Präfigierung, zur Komposition, Konversion (insbesondere lexikalisierte Partizipien), Stammderivation, Zusammenbildung (auch Wortgruppenderivation genannt, dazu Valdrová 2011), Zusammenrückung. Sehr ausgeprägt war die Allomorphie: beißen > bisschen; schließen > Schloss > Schluss; springen > Ursprung u.v.a. 3.3 Methode Als Ausgangsbasis für die LTWB-Korpussuche wurde das DUDEN-Verzeichnis der 199 unregelmäßigen Verben vom Jahr 2006 genommen. Jedes von den dort angeführten unregelmäßigen Verben wurde manuell in das Suchprogramm <?page no="252"?> 252 Kleine und große Korpora - Spezialkorpora für Spezialfragen des Korpus eingegeben. Wie bei dem Aufbau der Datenbasis wurden alle Ergebnisse gezählt, die mehr als einen Treffer ergaben, d.h. es wurden Wörter ausgeschlossen, die nur als Wörterbuchartikel auftraten. Außer den Infinitivstämmen wurden auch Allomorphe jedes einzelnen Verbs in die Suchmaschine eingegeben, beispielsweise fähr, fuhr, führ bei fahren oder spräch, sprich, sproch, spruch, sprüch bei sprechen. So konnte ausgewertet werden, bei welchen Verben die meisten Wortbildungen aller Wortbildungsarten vorkommen. Die zehn produktivsten Verben werden weiter unten angeführt. 4. Ergebnisse der Korpussuche 4.1 Gesamtanzahl und Verzeichnis der unregelmäßigen Verben im Korpus Von den insgesamt 199 im DUDEN aufgelisteten unregelmäßigen Verben gehören dem LTWB-Definitionswortschatz überraschenderweise 133, also 66% an, darunter alle ‘Hilfsverben’ (sein, haben, werden), alle Modalverben (das morphologisch verwandte wissen eingeschlossen), alle ‘gemischten’ Verben (bringen, denken etc.). Nicht zu diesem Bestand gehören unregelmäßige Verben wie dreschen, bersten, glimmen, quellen, schinden, schleißen, schwären, triefen, das o.g. (ver)schleißen und weitere. Präfixverben (z.B. beschreiben) sind bei den Grundverben (schreiben) miterfasst, weil ihre Morphologie gleich ist. Ohne ihre Grundform, d.h. als Verben mit untrennbarem Präfix, treten im gegenwärtigen deutschen Wortschatz und im LTWB-Korpus die Verben gebären, gewinnen, verderben, verlieren und einige weitere auf. Zu den unregelmäßigen Verben mit dem höchsten Gebrauchskoeffizienten gehören wie folgt: - B: backen, befehlen, beißen, biegen, bieten, brechen, bringen, beginnen, binden, bitten, blasen, bleiben, braten, brennen [es fehlt z.B. (ver-) bergen]; - D, E: dringen, dürfen, denken; empfangen, empfinden, erwerben, essen [es fehlen aber z.B. empfehlen, erschrecken; nur Empfehlung, Erschrecken]; - F: fliegen, fliehen, fließen, fressen, frieren, fahren, fallen, fangen, finden; - G: geben, gebären, gelingen, gelten, genießen, geschehen, gewinnen, gießen, gleichen, gleiten, graben, greifen, gehen; - H: haben, heißen, helfen, halten, heben, -hängen; - K: klingen, können, kommen, kennen [es fehlt z.B. kriechen]; <?page no="253"?> 253 Das unregelmäßige Verb und seine Bildungen - L, M: laden, lassen, leiden, leihen, lesen, liegen, laufen, lügen; messen, mögen, müssen; - N, R: nehmen, nennen; rennen, riechen, reiben, reißen, reiten, -rufen, raten [es fehlt pfeifen, aber Pfeife; ringen]; - S: saugen, schaffen, (unter)scheiden, scheinen, schieben, schlafen, schlagen, schießen, schließen, schneiden, schleifen, schreien, schreiben, schweben, schwimmen, sehen, senden, sitzen, sinken, sein, singen, sinken, sollen, sprechen, springen, stechen, stehlen, sterben, streichen, streiten, stehen, steigen, stoßen [es fehlen z.B. schleißen, schinden, schmelzen, schweigen, schwingen; aber Schwingung, schwören]; - T: treiben, treten, -treffen, trügen, tragen, trinken, tun; - U, V: überschreiten; verderben, vergessen, vergleichen, verlieren, vermeiden, verschwinden, verzeihen; - W: waschen, wenden, weichen, wachsen, werfen, weisen, -winden, werden, wissen, wollen [es fehlt z.B. werben; aber erwerben, s. oben; (über)wiegen]; - Z: zwingen, ziehen. Die meisten Wörter und Wortbildungen befinden sich (auch) im LTWB-Korpus unter s- (wie in dem gesamten Wortschatz des Deutschen). Daher wurden unregelmäßige Verben unter sgewählt, um die Ergebnisse der Suche stichprobenweise mit anderen Korpora zu vergleichen. Im LTWB-Korpus stehen da insgesamt 292 Wörter, darunter 33 unregelmäßige Verben. Im Hielscher/ Šichovás Grundwortschatz (2002) befinden sich unter s- 34 unregelmäßige Verben, im Korpus der gesprochenen Sprache von Pfeffer (1970) sind unter s- 39 unregelmäßige Verben zu finden. (Ganz uneinheitlich treten in den drei letztgenannten Korpora Verben wie saugen, schweben, schwingen, schwören und schwingen auf.) Wenn der DUDEN unter s- 61 und Helbig/ Buscha 59 unregelmäßige Verben anführt, bedeutet es, dass mehr als die Hälfte der unregelmäßigen s-Verben zum Grundwortschatz gehört. 4.2 Wortbildungen im LTWB-Korpus Die Erhebung zur Wortbildung erbrachte eine Reihenfolge von Verben nach ihren meistgebräuchlichen Wortbildungsprodukten. Die ersten 10 sind wie folgt: 1. stehen (mit 49 Wortbildungen im Korpus), 2. sitzen (33), 3.-4. halten, sehen (mit jeweils 32 Wortbildungen), 5. fahren (31), 6.-7. geben, nehmen (mit jeweils 24 Wortbildungen), 8.-9. gehen, kommen (je 22), 10. sprechen <?page no="254"?> 254 Kleine und große Korpora - Spezialkorpora für Spezialfragen (mit 20 Wortbildungen). Das Verb stehen mit Stammallomorphen stell, stand und ständ kann als Beispiel für die Vielfalt der Wortbildungsarten genommen werden. Die Allomorphe bilden Basis für Affigierungen, Kompositionen, Konversionen und eine Zusammenrückung (hier: „anstelle“): - stehen, auf-, be-, ent-, fest-, über-; Entstehung; - Stand, Ab-, Gegen-, Um-, Wider-, Zu-, -punkt, Bestandteil; - ständig, an-, selbst-, voll-, zu-; umständlich; - stellen, ab-, auf-, be-, dar-, ein-, fest-, her-, vor-, zusammen-; angestellt, der/ die Angestellte; - Stellung, Aus-, Ein-, Her-, Vor-, Wort-, Zusammen-; - Stelle, Arbeits-, Bau-, Halte-, Körper-; anstelle; - Darsteller, Hersteller, Stellvertreter, - Gestell. 5. Folgerungen und Ausblick Das LTWB-Korpus ist eine zweckgebundene Datensammlung, die den gegenwärtigen Sprachgebrauch dokumentiert. Die im LTWB-Definitionswortschatz enthaltenen unregelmäßigen Verben sind als Basis für das Lese-, Hörverstehen und für die Kommunikation überhaupt aufzufassen. Das Korpus enthält 133, also ca. 66% von allen unregelmäßigen Verben. Diese Anzahl deckt sich relativ genau mit Hielscher/ Šichovás Grundwortschatz Deutsch (2002) und dem mehr als vor vier Jahrzehnten zusammengestellten Grundwortschatz des gesprochenen Deutsch (Pfeffer 1970). Daraus können wir schlussfolgern, dass sich im Zentralbereich der Kommunikation eigentlich wenig ändert. Die zentrale funktionale (semantische) Bedeutung der unregelmäßigen Verben liegt auf der Hand. Hinzu kommt die Bedeutung dieser Verben mit ihren Stammalternationen für den Ausbau des Wortschatzes durch Wortbildung. Die Unentbehrlichkeit der unregelmäßigen Verben könnte in Hochschullehrwerken an einfachen Texten demonstrativ veranschaulicht werden. Ein Beispiel hierzu sei ein Zeitungsartikel, in dem sich auf elf Zeilen 13 unregelmäßige Verben befinden, darunter auch Präfigierungen und Zusammensetzungen oder haben, sein und werden in der Funktion von Hilfsverben (da allerdings der vorliegende Beitrag nicht primär didaktisch ausgerichtet sein soll, beschränke ich mich auf insgesamt zwei Beispiele zum Thema): <?page no="255"?> 255 Das unregelmäßige Verb und seine Bildungen Beim Brötchenholen verfahren ] " || '" Î # È ' [ ` | " ¥ ° nächsten Bäcker einen Umweg von rund 400 Kilometern eingebracht (2). Der leicht verwirrte Rentner habe in seiner belgischen Heimat nur mal kurz Brötchen holen wollen (3) - und sei (4) dabei falsch abgebogen (5), berichtete die Polizei in Würzburg am Freitag. Seine mehrstündige Fahrt über deutsche Autobahnen endete schließlich am Donnerstag auf der Autobahn A3 Aschaffenburg-Würzburg bei Waldaschaff in Franken. Auf einem Anstieg blieb (6) sein Wagen mit leerem Benzintank stehen (7). Der Wagen des Belgiers wurde (8) abgeschleppt, der Mann mit aufs Revier genommen (9), wo er später von Familienangehörigen abgeholt wurde. Der Belgier war anderen Autofahrern aufgefallen (10), als er in Badeschlappen auf der Autobahn ziellos umherlief (11). Nach Angaben seiner Tochter fährt (12) ihr Vater öfter Auto und findet (13) sich dann nicht mehr zurecht. Aber so weit wie am Donnerstag sei er noch nie umhergeirrt. (Augsburger Allgemeine, 17.7.2009) Darüber hinaus gibt es in dem Text die Wortbildungen Fahrt, schließlich, Anstieg, Angaben, die zu den meistfrequentierten Wortbildungen unregelmäßiger Verben im Sprachgebrauch gehören. Vielen solchen Wortbildungsprodukten begegnen wir im Alltag, ohne dass wir uns dessen ausdrücklich bewusst machen. Wortbildungen unregelmäßiger Verben begegnen wir auf jedem Schritt und Tritt <?page no="256"?> 256 Kleine und große Korpora - Spezialkorpora für Spezialfragen Auch diesen Wortbildungen unregelmäßiger Verben sollte mehr Aufmerksamkeit gewidmet werden; sie können auf vielerlei Art und Weise didaktisiert werden: Suchen Sie Wortbildungen unregelmäßiger Verben. In einem Satz können sich auch mehrere Wortbildungen als Basiskomponenten „verstecken“: Ein Verwandter von mir kauft sich gern Markenanzüge. Entschuldigung, Ihr Ausweis ist ungültig! Leider machte ein Maulwurf unseren teueren Golfplatz ganz kaputt. Noch ein bisschen Käsetorte? Oder lieber die Erbeerschnitte? Ich suche nach einem verlorenen Geldschein. Im ersten Jahrgang des Germanistikstudiums an tschechischen Hochschulen werden von Lehrstuhlmitarbeiterinnen und -mitarbeitern sorgfältig Unterrichtsmaterialien gewählt, die möglichst zweckmäßig und zeitsparend die Sprachkompetenz entwickeln. Eine Erforschung des Wortschatzes aus der Perspektive seiner Zweckmäßigkeit und Angemessenheit scheint mir unentbehrlich zu sein. Das LTWB-Korpus stellt in diesem Sinne eine einzigartige, im Sprachgebrauch erprobte Wortschatz-Datei dar, die vielseitig weiter verwendbar ist: in Einstufungstests, Vorbereitungskursen, in der Morphologie, in sprachpraktischen Übungen, in der Lexikologie, in der Wortbildungslehre, in Übersetzungsübungen, Sprachspielen etc. Es kann wohl nicht besser veranschaulicht werden, wie der Wortschatz des Deutschen sich entwickelte, als wenn der Zusammenhang zwischen den meistfrequentierten unregelmäßigen Verben und ihren Wortbildungen thematisiert wird. Und auf diese Weise kann eine auf dem LTWB-Korpus basierte Arbeit den Einstieg in das Germanistikstudium sehr effizient unterstützen. Literatur Korpora Götz, Dieter/ Wellmann, Hans (2010): Langenscheidt Taschenwörterbuch Deutsch als Fremdsprache. LTWB-Definitionswortschatz. Berlin/ München u.a. % ^ " Ï % ¢ ' * & "¡ ° _ @ È " ¯ ¯ ° -- @ # ` @ Pfeffer, Alan (1970): Grunddeutsch. Basic (spoken) German dictionary. Upper Saddle River, NJ. URL 1: http: / / cosmas2.ids-mannheim.de/ cosmas2-web/ (Stand: Juli 2011) <?page no="257"?> 257 Das unregelmäßige Verb und seine Bildungen Wellmann, Hans (2011): LTWB-Definitionswortschatz. Elektronische Version zum internen Gebrauch 2011 zur Verfügung gestellt. Wörterbücher Götz, Dieter/ Haensch, Gunther/ Wellmann, Hans (Hg.) (2008): Großwörterbuch Deutsch als Fremdsprache. Neubearb. Berlin/ München u.a. Kempcke, Günter (2000): Wörterbuch Deutsch als Fremdsprache. Berlin/ New York. Kluge, Friedrich (1989): Etymologisches Wörterbuch der deutschen Sprache. 22. Aufl. Hrsg. von Elmar Seebold. Berlin/ New York. Pons. Großwörterbuch Deutsch als Fremdsprache. Stuttgart 2004. Wahrig-Burfeind, Renate (2008): Großwörterbuch Deutsch als Fremdsprache. Gütersloh. Grammatiken und Sekundärliteratur Duden (2006): Duden. Bd. 4. Die Grammatik. 7. Aufl. Mannheim/ Leipzig/ Wien/ Zürich. Eisenberg, Peter (1994): Grundriss der deutschen Grammatik. 3. Aufl. Stuttgart. Fleischer, Wolfgang/ Barz, Irmhild (1992): Wortbildung der deutschen Gegenwartssprache. Tübingen. Fleischer, Wolfgang/ Barz, Irmhild (2012): Wortbildung der deutschen Gegenwartssprache. 4. Aufl. Berlin/ Boston. Götze, Lutz/ Hess-Lüttich, Ernest W. B. (1999): Grammatik der deutschen Sprache. Sprachsystem und Sprachgebrauch. Aktual. Neuausg. München. Helbig, Gerhard/ Buscha, Joachim (1988): Deutsche Grammatik. Berlin. Hentschel, Elke/ Weydt, Harald (2003): Handbuch der deutschen Grammatik. 3. Aufl. Berlin. Lemnitzer, Lothar/ Zinsmeister, Heike (2006): Korpuslinguistik. Eine Einführung. Tübingen. Sommerfeldt, Karl-Ernst/ Starke, Günter (1992): Einführung in die Grammatik der deutschen Gegenwartssprache. 2. Aufl. Tübingen. Valdrová, Jana (1995-1996): Prosit der Gemütlichkeit! In: Cizí jazyky 39, 9-10, S. 165. Valdrová, Jana (2011): Wortgruppenderivate auf -er: ihre Bauformen und Systemati- `@ * % & ! % - ' `@ * « " chischen germanistischen Linguistik nach der Bologna-Reform. Brno. Wellmann, Hans (2008): Deutsche Grammatik. Laut. Wort. Satz. Text. Heidelberg. <?page no="258"?> 258 Kleine und große Korpora - Spezialkorpora für Spezialfragen Wolf, Norbert Richard (2010): Korpora in der Korpuslinguistik. In: Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.): Kompendium Korpuslinguistik. Heidelberg, S. 17-25. Webseiten und Presseartikel URL 2: www.goethe.de/ z/ 50/ commeuro/ 303.htm (Stand: 03.07.2011). Der beste Sport für Ihre Gesundheit. In www.gesundheitstipps.wicker-kliniken.de/ der-bestesport-fuer-ihre-gesundheit.html#top (Stand: 23.8.2010). Beim Brötchenholen verfahren. In: Augsburger Allgemeine, 17.7.2009. <?page no="259"?> Vít Dovalil Zur Normativität als Problembereich der quantitativen und qualitativen Methodologie 1. Einleitung Die Sprachwissenschaft beschäftigt sich hauptsächlich mit Analysen von Sprachstrukturen bzw. vom Sprachsystem ebenso wie mit Analysen von Sprachgebrauch. Die Empirizität verleiht den Ergebnissen solcher Analysen die wünschenswerte Glaubwürdigkeit und Überzeugungskraft. In der gegenwärtigen Korpuslinguistik wird die Beschreibung des Sprachgebrauchs, wie er in den technologiebedingten elektronischen Sprachkorpora zugänglich wird, zum Hauptziel der deskriptiv orientierten Forscher erklärt. Die Schlüsse solcher Untersuchungen sagen einiges über die Sprachstrukturen der Einzelsprachen aus und können im strukturellen Bereich mit Übergriffen in die Pragmatik - selbstverständlich auch komparativ - Anwendung finden. Damit geht die Formulierung relevanter Forschungsfragen allerdings noch nicht zu Ende. Die Ergebnisse der korpuslinguistischen Analysen existieren nämlich nicht nur als „deskriptiv neutrale“ Schlüsse, sondern sie werden (teilweise oder sogar zum großen Teil? ) als Hilfsmittel bei Entscheidungen über verschiedenste Zweifelsfälle verwendet, in denen man mit Normen zu tun hat (ausführlicher zum Konzept ‘Zweifelsfall’ vgl. Klein 2009, S. 142-144). Ziel dieses Aufsatzes ist es, die sprachliche Normativität in diesem Kontext methodologisch adäquat zu verorten zu versuchen. Als Eckpunkte dazu bieten sich beide entwickelten Methodologien an, die sich auf die Untersuchung des Sprachgebrauchs konzentrieren, d.h. auf die quantitative und die qualitative Forschung. Einleitend werden jeweils ihre wichtigsten Prinzipien zusammengefasst. Im Anschluss daran wird diskutiert, in welchem Paradigma eigentlich die Frage nach Normativität adäquat ist und inwieweit die Voraussetzung zu verteidigen wäre, dass aus Belegbarkeit und hohen Vorkommenshäufigkeiten bestimmter Varianten bzw. Strukturen in den Korpora auf Sprachnormen und Normgerechtheit geschlossen werden kann. 2. Zu den Prinzipien der quantitativen und qualitativen Methodologie im gegenseitigen Vergleich. Ein Überblick Die quantitative Linguistik steht dem strukturalistischen Paradigma insofern nahe, als sie in ihrem Ausgangspunkt die Existenz eines abstrakten Sprachsys- <?page no="260"?> 260 Kleine und große Korpora - Spezialkorpora für Spezialfragen tems voraussetzt (vgl. Chambers 2003, S. xxii und S. 11ff. oder Nekvapil 2000, S. 34). 1 Das System ist unentbehrlich, weil es die Wahl bestimmter Spracherscheinungen ermöglicht, die untersucht werden sollen/ können. Diese vorausgewählten Phänomene repräsentieren die sprachlichen Variablen. Da die Variablen an sich Bestandteil des konstruierten Sprachsystems sind, treten sie in der theoretischen Beschreibung als invariante Größen auf. Im Sprachgebrauch wird jede Variable logisch in ganz konkreten Varianten realisiert. Dadurch kann im Rückblick eine Variable als Gesamtmenge von Varianten definiert werden (vgl. Chambers 2003, S. 17). Die Anzahl solcher Realisationen hängt von den Eigenschaften der vorausgewählten Variablen ab: Im phonetisch-akustischen Bereich kann es z.B. so viele Aussprachevarianten eines Vokals oder eines Diphthongs geben, wie es Sprecher gibt. Auf der morphologischen Ebene ist die Anzahl der in Frage kommenden Varianten niedriger: ‘Die Deklination der Adjektive und Partizipien im Attribut’ (eine morphologische Variable) hängt beispielsweise von Artikelwörtern ab, und zur Realisierung bieten sich grundsätzlich zwei Varianten an - die schwache n-Deklination und die starke Deklination. Ebenso die syntaktische Variable ‘Wortstellung nach weil’ lässt sich in zwei Varianten realisieren: entweder als Verbendstellung oder als Verbzweitstellung. Dies gilt auch für die morphosyntaktische Variable ‘Infinitiv als Bestandteil eines komplexen Prädikats nach dem finiten Verb brauchen’, die die Variante mit zu anbietet oder die ohne zu. Die quantitative Methodologie bleibt aber nicht bei dieser strukturalistischen Voraussetzung stehen, sondern sie interessiert sich dafür, wie die im Sprachgebrauch realisierten Varianten distribuiert werden. Sie sucht nach Korrelationen mit anderen Variablen (vgl. Chambers 2003, S. 17). Die Logik jeder Korrelation setzt die Existenz unabhängiger und abhängiger Elemente voraus. Ihre Projektion in die quantitative Linguistik bedeutet, dass die sprachlichen Variablen von den außersprachlichen abhängen. Typisch handelt es sich um die Abhängigkeiten der sprachlichen Variablen von demographischen Kategorien wie Alter, Herkunft, Geschlecht, Gruppenzugehörigkeit, Bildung, Territorium, Sozialschicht, aber auch von solchen wie Textsorten, Kommunikationsdomänen oder anderen Variablen. Soll die Distribution der Elemente in Korrelationen mit den gerade genannten Beispielen von abstrakten Kategorien Sinn ergeben, dann muss unbedingt vorausgesetzt werden, dass die unabhängigen 1 Für die quantitative Methodologie hat sich in der Linguistik die Bezeichnung ‘Variationslinguistik’ oder ‘das Labov'sche Paradigma’ eingelebt. Der Name von William Labov sei hier als Repräsentant dieser Forschung erwähnt. <?page no="261"?> 261 Zur Normativität als Problembereich Variablen für die Forschung unter allen Umständen relevant sind. Wenn diese Relevanz hinterfragt werden könnte, würde der Methodologie logisch der Boden unter den Füßen weggezogen. Es gäbe nichts zu korrelieren, die Distribution der untersuchten Elemente würde ihre Verankerung und Aussagekraft verlieren. In der quantitativen Methodologie spiegelt sich deshalb die Gesellschaft in der Sprache wider. Die unabhängigen Variablen werden als determinierende Kategorien von außen an die Sprache herangetragen. Die Erklärungen innerhalb der quantitativen Methodologie konstruieren sich in Analogien zu den empirischen Ansätzen der Naturwissenschaften (vgl. Lamnek 2010, S. 13, 30 oder Nekvapil 2000, S. 34). Die Art und Weise, wie die Ergebnisse der quantitativen Forschung aussehen, entspricht deren Voraussetzungen. Dazu sei ein Beispiel angeboten, das zu verallgemeinern ist: In einer Textsorte TS 1 (Zeitungsbericht) ist ausschließlich die Variante brauchen + Infinitiv mit zu belegbar, in einer anderen Textsorte TS 2 (private E-Mail) mehrheitlich die Variante brauchen + Infinitiv ohne zu. Die Quantität der analysierten Varianten erhöht die Aussagekraft der Untersuchung und kann im Idealfall die statistische Repräsentativität erreichen. Die Genauigkeit der Korrelationen wird von entsprechenden Prozentsätzen - also auch quantitativ - überzeugender gemacht. Die Messbarkeit und statistische Bearbeitung der Korrelationen sind charakteristisch (zum sog. Messfetischismus vgl. Lamnek 2010, S. 11-12). Besonders typisch quantitativ geht die korpus-basierte Forschung vor, die vor allem zum Nachweisen oder Widerlegen von Hypothesen dient, wenn die Belegbarkeit konkreter Varianten oder Sprachstrukturen in Texten überprüft werden soll. Der korpus-geleitete Ansatz enthält hingegen Merkmale der qualitativen Methodologie (vgl. Mindt 2010). Der Ausgangspunkt der qualitativen Linguistik (auch als interpretativ bezeichnet) sieht völlig anders aus: Sie konzentriert sich auf keine vorausgewählten und im Sprachsystem vorausgesetzten Variablen, sondern auf die Interaktion der Sprachbenutzer selbst (vgl. Nekvapil 2000, S. 35). Die Forschung richtet sich auf die Frage, wie die mündliche und schriftliche Kommunikation ‘von den Kommunikationsbeteiligten interpretiert’ und ‘verständlich getan’ wird. Was für den Sprachgebrauch relevant ist, stellt sich erst in der Interaktion heraus, ohne dass z.B. die demographischen oder anderen Kategorien - wie in der quantitativen Linguistik - von außen herangetragen werden müssten. Dabei rechnet die qualitative Methodologie damit, dass die Interaktionen soziale Fakten nicht nur widerspiegeln, sondern auch aktiv mitgestalten. Die Sprachphänomene (das Sprachliche und der Sprachgebrauch im weiten Sinne <?page no="262"?> 262 Kleine und große Korpora - Spezialkorpora für Spezialfragen des Wortes) stellen einen Teil sozialer Prozesse dar. Deshalb wird in diesem Paradigma von großer Bedeutung sein, was die Kommunizierenden durch bestimmte Sprachmittel und durch die Sprachvariation erreichen und wie sie es erreichen. Der Variation liegt in der qualitativen Methodologie die soziale Bedeutung zugrunde. Die qualitative Forschung interessiert sich also z.B. für solche Sprachmittel und Sprachgebrauchsmuster, mit denen soziale Ungleichheiten verschiedenster Art ausgedrückt werden - seien es sozialpsychlogische Distanz und Nähe, Machtverhältnisse innerhalb der Gruppen von Sprachbenutzern, soziale Kontrolle, Höflichkeit usw., d.h. eben nur ‘qualitativ erfassbare’ Phänomene. Das Verstehen dieser Phänomene wird von den Kontextualisierungshinweisen abgeleitet, die die angemessene Interpretation von Sprechakten in verbalen Interaktionen aufgrund des gemeinsamen sozialen Wissens und ähnlicher kommunikativer Erfahrungen und Werte der Sprachbenutzer ermöglichen (vgl. Gumperz 1982). Die Explanationen nähern sich also nicht den naturwissenschaftlichen, sondern sie sind teleologischer Art (vgl. Lamnek 2010, S. 30 oder Nekvapil 2000, S. 34). Wie die Ergebnisse der qualitativen Forschung aussehen, entspricht dem oben Skizzierten: Z.B. zur Konstituierung einer vergleichbaren Machtposition zwischen zwei Ausländern wird häufig eine Sprache als lingua franca benutzt. Oder: Wenn man als Sprecher europäischer Herkunft mit Indianern in Kanada höflich kommunizieren möchte, sollte man genügend lange Pausen beachten: In Western Canada, for example, communication difficulties arise in interactions between English-speaking people of European origin and people who are speakers of a group of North American Indian languages known as Athabaskan (which are also found in eastern Alaska). Differences between norms of language use between the two communities lead to misintepretations and unfavourable stereotyping. One crucial difference between the two ethnic groups is that the Whites [...] use language to establish social relations. They speak to people in order to get to know them, and in order to find out how they stand relative to each other. Among Athabaskan groups, on the other hand, speech is avoided if there is doubt about social relationships and about how one should behave. And quite lengthy silences, as with the Apache and Navajo (who are also Athabaskans - their languages are historically related to those of Western Canada), are readily tolerated. In interethnic communication there, therefore, English speakers start the conversation, because they want to set about establishing social relations and because the Athabaskans have remained silent (on account of their lack of certainty about the nature of the situation). The English speakers are therefore the ones who introduce the topics of the conversation. When there is a pause, they become uncomfortable about the silence well before the Athabaskans do, and therefore start speaking again. The result is a ‘conversation’ where English speakers hold the floor for most of the time and control what topics are talked about. The Athabaskans go away from the con- <?page no="263"?> 263 Zur Normativität als Problembereich versation thinking that English speakers are rude, dominating, superior [...] and self-centred. The English speakers, on the other hand, find the Athabaskans rude, superior, taciturn and withdrawn. In fact, hostility arises simply as a result of a failure by both parties to recognize that different groups of people have different norms concerning when and how language is to be used. (Trudgill 2000, S. 116-117). Das Zitat liefert eines der illustrativen Beispiele, in dem die Normativität enthalten ist und auf die im Folgenden eingegangen wird. Zentral wird die Frage, was die Sprachbenutzer wissen müssen, um in konkreten Sprachgemeinschaften in angemessener Weise kommunizieren zu können, und wie sie sich dieses kommunikative Handeln aneignen können. Dadurch nähert sich die Forschungsfrage dem Kern der Ethnografie der Kommunikation, deren Klassiker z.B. Dell Hymes, John Gumperz oder Harold Garfinkel geworden sind. 3. Zur Adäquatheit der Fragestellung nach Normen Eines der Verdienste der Korpuslinguistik besteht zweifellos darin, dass die Belegbarkeit verschiedener umstrittener Varianten in der geschriebenen, aber aktuell immer mehr auch in der gesprochenen Sprache dank der Informationstechnologien viel operativer geworden ist (zur Diskussion über die neueren Entwicklungen und über den Korpus-Begriff selbst vgl. Wolf 2010 oder Kendall 2011). In Abhängigkeit von der Erstellung elektronischer Korpora und bei einigermaßen differenziertem Umgang mit ihnen können die Linguisten ermitteln, in welchen Textsorten welche konkreten umstrittenen Varianten wie distribuiert werden und welche Vorkommenshäufigkeiten diese Varianten aufweisen. Hohe Vorkommenshäufigkeiten der in den Korpora belegbaren Varianten werden gleichzeitig - manchmal fast unreflektiert - für einen selbstverständlichen Nachweis von Normen gehalten. Ist es adäquat, aus dem regelmäßigen Vorkommen konkreter Varianten auf deren Normgerechtheit zu schließen, oder ist diese Schlussfolgerung theoretisch umstritten? Ist die unmittelbare Bindung zwischen Regelmäßigkeiten und Normgerechtheit zu verteidigen? Sind die Normen tatsächlich sprachinhärent, sodass sich die Sprache und Normen decken? Gemeint sind hier vor allem die Fragen nach der Auffassung von Norm als Inventar von Sprachmitteln und die These, der zufolge die Normen in der Sprache selbst existieren (dazu vgl. ausführlicher die Diskussion in der Prager Schule, wie sie von Nebeská 2003, S. 17, 31-33 und 45-46 zusammengefasst worden ist). Oder befinden sich die Sprachnormen ontologisch woanders? Und wie genau lassen sich die Regelmäßigkeiten und Normen eigentlich miteinander verknüpfen, wenn die oben erwähnte Unmittelbarkeit hinterfragt würde? <?page no="264"?> 264 Kleine und große Korpora - Spezialkorpora für Spezialfragen Gloy (1995, 1997, 2004) geht davon aus, dass Normen inhaltlich bestimmte Regulative sind, also Bewusstseinsinhalte mit regulativer Wirkung auf die Sprachproduktion ebenso wie auf die sprachlichen Erwartungen (Gebote, Verbote, Erlaubnisse). Empirisch beobachtbar wird erst ihre Wirkung in der Praxis, wenn die Normen den Sprachgebrauch und die Erwartungen beeinflussen (sollen). Als deontischer Sachverhalt ist die Norm deshalb „keine empirisiche Gegebenheit, sondern Ergebnis eines interpretierenden Schlußverfahrens“ (Gloy 1995, S. 80). Normen sind „interpretierende Rezeptionsprozesse“ (Gloy 1997, S. 28, kursiv im Original). Das stärkt die Begründung von Genus proximum des Norm-Begriffs als Bewusstseinsinhalt mit regulativen Funktionen noch weiter (vgl. selbst Gloys Bezeichnung von Normen als Institutionen im Reich der Gedanken in der Überschrift seines Textes aus dem Jahre 1997). Damit wird die Identität von Norm und Sprachgebrauch und die Selbstverständlichkeit sprachinhärenter Normen hinterfragt. Der Bezug auf die Erwartungen, der den Unterschied zwischen Sprachgebrauch und Normen vergrößert, ist auch in der Norm-Auffassung von Luhmann deutlich, auf den sich Gloy beruft. Luhmann (2008, S. 43) definiert die Normen als „kontrafaktisch stabilisierte Verhaltenserwartungen“. Das Funktionieren von Normen in der sozialen Praxis wird demnach erst abgesichert, wenn die Kommunikationsbeteiligten einander solche Erwartungen unterstellen, die nicht einmal in den Fällen aufgegeben werden, in denen die Erwartungen nicht unbedingt in Erfüllung gehen (normative Erwartungen). Luhmann (2008) bezeichnet solche Fälle als Enttäuschungen. Die deontischen Bewusstseinsinhalte der normativen Erwartungen bleiben also aufrechterhalten. Bezeichnenderweise ist in dieser Argumentation von Gloy und Luhmann kein unmittelbarer Bezug zu Regelmäßigkeiten der Verhaltensweisen bzw. des Sprachgebrauchs zu finden: „Die Forschungspraxis begeht nämlich dann einen gravierenden Fehler, wenn sie die Gleichmäßigkeit sprachlicher Erscheinungen umstandslos für einen Beweis oder für einen hinlänglichen Nachweis von Sprachnormen hält.“ (Gloy 1995, S. 80, Hervorhebung im Original). Und diese Argumentation kann inhaltlich noch mehr präzisiert werden, denn „Regelmässigkeiten schliesslich sind legitime Hinweise auf möglicherweise zugrundeliegende Sprachnormen; da sie aber nicht allein durch Sprachnormen, sondern auch anderweitig zustande gekommen sein können [...], ist der Schluss von ihnen auf Normen nicht zwingend“ (Gloy 2004, S. 396, Hervorhebung im Original). <?page no="265"?> 265 Zur Normativität als Problembereich Dennoch: Wie erfahren die Sprachbenutzer, welche Varianten, Wendungen und Strukturen am häufigsten vorkommen? Einen gewissen Ausgangspunkt kann ihre subjektive Wahrnehmung des Sprachgebrauchs darstellen. Die muss allerdings nicht besonders verlässlich sein, und viele Sprachbenutzer würden dies bestimmt einräumen. Die Linguisten, die mit den Korpora umzugehen wissen, können problemlos recherchieren. Die Ergebnisse hängen von der in den Korpora bearbeiteten und zugänglichen Datenmenge ab. Wovon sollen jedoch also linguistisch nicht geschulte Sprachbenutzer ausgehen? Ihnen bleibt grundsätzlich nichts Anderes übrig, als dass sie sich auf die Behauptungen von Experten verlassen müssen, von denen z.B. gerade auf Korpora hingewiesen wird. Wodurch gewinnt eine solche Behauptung an Überzeugungskraft und Glaubwürdigkeit? Da wird eine grundsätzlich qualitativ ausgerichtete Frage aufgeworfen, denn erst im Diskurs kann ein ‘Etwas’ in ein ‘Argument’ verwandelt werden. Eine solche Verwandlung ist nur an der Interaktion und am Umgang mit Behauptungen seitens der Kommunikationsbeteiligten erkennbar. Also allein die diskursive Praxis ermöglicht die Beantwortung der Frage, was z.B. ein Laie und was dagegen ein Linguist für ein Argument hält. Genauso erst im Diskurs kann aus einer ‘deskriptiv gedachten’ Information über die Vorkommenshäufigkeit einer untersuchten Variante sehr leicht eine präskriptiv (des)interpretierte Verpflichtung werden. Im Grunde genommen handelt es sich um metasprachliche Akte, durch die dies im Diskurs geschieht. Mitentscheidend ist die Rolle der (auch nur unterstellten - vgl. Gloy 2004, S. 393) Macht, die gerade die Wahrnehmung der Überzeugungskraft einer Mitteilung als des Arguments beeinflusst: Diejenigen Akteure werden diskursiv mächtiger, deren Behauptungen von anderen Akteuren für ‘Argumente’ gehalten werden und die aus diesem Grunde ihre argumentative Praxis den weniger mächtigen erfolgreich aufzuzwingen vermögen. Dass die unterstellte Macht gleiche Auswirkungen hat wie die faktisch ausgeübte, begründet Gloy (1997, S. 32) mit Hilfe des Thomas-Theorems. Es lautet: „If men define situations as real, they are real in their consequences.“ (Thomas 1928, S. 572). Diejenige Vorstellung von Wissenschaftlichkeit, die im populären und teilweise sogar im sprachwissenschaftlichen Diskurs von Datenmengen und ihrer technologiebedingten Zugänglichkeit abgeleitet wird, bevorzugt die argumentative Relevanz der korpus-basierten und noch deutlicher der korpus-geleiteten Analysen. Die Repräsentativität einer Untersuchung und die Belegbarkeit der hohen Vorkommenshäufigkeit einer Variante können diskursiv zum entscheidenden Argument werden, müssen es aber nicht. Mit anderen Worten: Das Faktische kann (mag) normativ wirken, muss es aber nicht unbedingt. Ob das Faktische normativ wirkt, hängt von Akteuren ab, ebenso wie die Frage, ab wann <?page no="266"?> 266 Kleine und große Korpora - Spezialkorpora für Spezialfragen - ab welchem Grad der Wiederholung - die Faktizität normative Wirkungen auslöst. Das Soziale darf dabei nicht übergangen werden. Die Faktoren, die in Betracht gezogen werden sollten, wurden schon vor einigen Jahrzehnten von Dell Hymes (1974, S. 54ff.) identifiziert und sie umfassen auch die Normen. 2 Eine methodologisch nützliche sozialwissenschaftliche Analogie dazu ist im Völkerrecht zu finden, in dem sich die Forschung mit normativen Wirkungen einer langjährigen Praxis der Handlungen, z.B. von Staaten, auseinandersetzen muss. Wie soll eine solche Praxis aussehen, um als rechtlich verbindlich angesehen werden zu dürfen? Mit anderen Worten: Unter welchen Bedingungen gilt der Grundsatz ex factis ius oritur und ab wann beginnt also eine solche Praxis als Rechtsquelle im Völkergewohnheitsrecht interpretiert zu werden? Die Rechtswissenschaft operiert mit zwei Gruppen von Merkmalen (vgl. Mur- % #@ ¦Â´ ® % #@ ¦ ± " " ` % #@  139). Einerseits ist es das Merkmal usus longaevus (d.h. die Staatenpraxis, allgemeine Übung oder consuetudo), andererseits das Merkmal opinio iuris (d.h. die Rechtsüberzeugung und das Verpflichtungsbewusstsein). Unter usus longaevus werden die sog. objektiven Parameter zusammengefasst - eine wiederholte, homogene, ununterbrochene, verbreitete und langjährige Praxis. Unter opinio iuris werden die sog. subjektiven verstanden: Es handelt sich um die Überzeugung der Akteure davon, dass diese wiederholte, homogene, ununterbrochene, verbreitete und langjährige Praxis nicht nur einfach empirisch belegbar ist und häufig vorkommt, sondern dass sie zudem befolgt werden muss und dadurch als Regulativ fungiert (Rechtsüberzeugung). Die Frage, ob beide Gruppen von Merkmalen vorhanden sind, wenn eine Staatenpraxis als Völkergewohnheit ausgewertet werden soll, bleibt ausschließlich qualitativ zu beantworten: „Die erforderliche Rechtsüberzeugung in der Staatengemeinschaft bedeutet, dass hinter der Staatenpraxis das Bewusstsein steht, zu einem bestimmten Verhalten rechtlich verpflichtet zu sein. Die Vornahme bestimmter Handlungen aus Gründen der Höflichkeit, der Bequemlichkeit oder des Herkommens reicht nicht.“ (Herdegen 2009, S. 135, Hervorhebung im Original). Jedoch selbst die Interpretation des ersten Merkmals usus longaevus ist nicht immer unproblematisch. Murphy führt die die Interpretation der Staatenpraxis begleitenden Schwierigkeiten aus, wenn eini- 2 Es handelt sich um die Gruppierung der Faktoren unter dem Akronym S-P-E-A-K-I-N-G, in dem der vorletzte Buchstabe eben für Normen steht. Mit S bezieht sich Hymes auf die Charakteristiken des Milieus der Kommunikationssituation, mit P auf ihre Teilnehmer. E stellt die kommunikativen Ziele dar, A die Art und Weise, wie es zum Sprecherwechsel kommt. Ton und Manieren der Kommunikation werden vom K vertreten und die Kodes/ Varietäten von I.G repräsentiert die Gattungen/ Textsorten der Kommunikation. <?page no="267"?> 267 Zur Normativität als Problembereich ge Staaten mächtig genug sind, um bestimmten Völkergewohnheiten als Normen nicht folgen zu müssen: Even if both requirements are met so as to establish a norm of customary international law, an individual state is not bound if the state persistently objected to the norm as it emerged. This ‘persistent objector’ rule is a nod to the centrality of state consent in international law. [...] Obviously, if there are a large number of persistent objectors, a customary international law norm cannot emerge at all, for the state practice would not be uniform or consistent. Yet if most states agree on the emergence of a norm, a few ‘hold out’ states will not prevent the norm from coming into existence, but the objector states will not be bound by the norm. (Murphy 2006, S. 80) Diese Vorgehensweise soll als Beleg dafür dienen, warum die Normen in Anlehnung an Gloy als Ergebnisse eines interpretierenden Schlussverfahrens aufzufassen sind. Diese Perspektive sagt gleichzeitig einiges über die Position der quantitativen Komponente in den Fragestellungen nach Normativität aus. 4. Zum Verhältnis der quantitativen und qualitativen Methodologie in der Normativität-Perspektive Die qualitative Forschung ist in der Lage, die Praxis der quantitativen zu analysieren; umgekehrt gilt es aber nicht. Die Korpuslinguistik gerät dadurch in die Stellung einer Daten- und Argumentenquelle für die qualitative Erforschung der Normativität. Normen als Ergebnisse interpretierender Schlussverfahren lassen sich sehr gut in den Konflikt- oder Zweifelsfällen identifizieren, wenn ein Sprachbenutzer nicht genau weiß, was für normgerecht zu halten ist. Die Argumente, die in diesen Fällen helfen, müssen von dem jeweiligen Sprachbenutzer als überzeugend wahrgenommen werden. Die Überzeugungskraft hat bestimmt mit sozialer Stellung und mit der Machtposition der Argumentierenden zu tun. Wie oben bei Gloy gezeigt wurde, braucht diese Macht nur unterstellt zu werden, also „nur mental“ im Bewusstsein des Sprachbenutzers zu existieren. Abschließend ließe sich deshalb die folgende - ihrem Wesen nach qualitative - Hypothese formulieren: Die Vorkommenshäufigkeiten umstrittener Varianten können, zumal da sie beispielsweise mit differenzierter Berücksichtigung der Distributionen in Textsorten einhergehen, bei Lösungen der Zweifelsfälle als genügend überzeugende Argumente gebraucht werden. Es kann passieren, dass gerade die Hinweise auf die Regelmäßigkeiten nach der Meinung der Akteure die Qualität, Wissenschaftlichkeit und Überzeugungskraft dieser Behauptungen erhöhen. Erst eine dem entsprechende diskursive Praxis verleiht <?page no="268"?> 268 Kleine und große Korpora - Spezialkorpora für Spezialfragen aber dem Faktor der Vorkommenshäufigkeit (Faktizität, Regelmäßigkeit) seine normative Wirkung, nicht die Gesamtzahl der Korpus-Treffer an sich. Die Normativität stellt nach dieser Auffassung ein diskursives Konstrukt/ Produkt bzw. einen Prozess dar, und ist primär qualitativ zu untersuchen. Als Bestandteil dieser qualitativen Vorgehensweise ist der quantitative Ansatz zu lokalisieren. Als Datenquelle für die Urteile über Normgerechtheit müssen deshalb die Ergebnisse der korpus-basierten und -geleiteten Recherchen noch nicht ausreichen. Hinzu kommen die Analysen der - im Idealfall - teilnehmenden Beobachtung der Prozesse, die zeigen, wie konkrete Akteure mit den Ergebnissen der Recherchen in Interaktionen umgehen und was alles von ihnen als Argument verwendet bzw. ihnen als Argument entgegengenommen wird. Logisch und legitim ist in diesem Zusammenhang die Frage, unter welchen Umständen überhaupt die Korpusdaten eine Rolle spielen und wie einflussreich die (Korpus-)Linguisten bereits geworden sind, um die Korpora z.B. für den Zweifelsfälle-Diskurs relevant werden zu lassen. Bestimmt gibt es solche institutionalisierten Kontexte, in denen man beim Urteilen über die Normgerechtheit ohne Korpus-Analysen auskommt, und trotzdem wird die Normgerechtheit oder Normwidrigkeit beurteilt. Im alltäglichen Schulunterricht wird es so sein. Das gilt jedoch für das Hochschulstudium der Linguistik oder für die Forschungspraxis sprachwissenschaftlicher Institute nicht mehr. In den Fällen, in denen dies geschieht, spiegeln die Korpora als Konstrukte die Sprache nicht (nur) wider, sondern es müsste darüber hinaus eingeräumt werden, dass sie den Sprachgebrauch gleichzeitig mitgestalten. Dies steigert die Nachfrage nach solchen Forschungsinstrumenten, mit denen die metasprachlichen Aktivitäten konkreter Sprachbenutzer untersucht werden könnten, denn von ihnen hängen präzise Aussagen über die Normgerechtheit oder Normwidrigkeit des Sprachgebrauchs ab. Literatur Chambers, Jack K. (2003): Sociolinguistic theory. 2. Aufl. Oxford. Gloy, Klaus (1995): Zur Methodologie der Sprachnormenforschung. In: Rostocker Beiträge zur Sprachwissenschaft 1, S. 73-93. Gloy, Klaus (1997): Sprachnormen als ‘Institutionen im Reich der Gedanken’ und die Rolle des Individuums in Sprachnormierungsprozessen. In: Mattheier, Klaus/ Radtke, Edgar (Hg.): Standardisierung und Destandardisierung europäischer Nationalsprachen. Frankfurt a.M., S. 27-36. Gloy, Klaus (2004): Norm. In: Ammon, Ulrich/ Dittmar, Norbert/ Mattheier, Klaus/ Trudgill, Peter (Hg.): Sociolinguistics/ Soziolinguistik. An International Hand- <?page no="269"?> 269 Zur Normativität als Problembereich book of the Science of Language and Society. 2. Aufl. (= HSK 3.1). Berlin/ New York, S. 392-399. Gumperz, John (1982): Discourse strategies. Cambridge. Herdegen, Matthias (2009): Völkerrecht. 8. Aufl. München. Hymes, Dell (1974): Foundations of sociolinguistics: An ethnographic approach. Philadelphia. Kendall, Tyler (2011): Corpora from a sociolinguistic perspective (Corpora sob uma perspectiva sociolinguistica). In: Gries, Stefan Th. (Hg.): Corpus studies: Future directions. (= Special issue of Revista Brasileira de Linguistica Aplicada 11, 2). Belo Horizonte, S. 361-389. Klein, Wolf Peter (2009): Auf der Kippe? Zweifelsfälle als Herausforderung(en) für Sprachwissenschaft und Sprachnormierung. In: Konopka, Marek/ Strecker, Bruno (Hg.): Deutsche Grammatik - Regeln, Normen, Sprachgebrauch. Jahrbuch 2008 des Instituts für Deutsche Sprache. Berlin/ New York, S. 141-165. Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.) (2010): Kompendium Korpuslinguistik. Heidelberg. Lamnek, Siegfried (2010): Qualitative Sozialforschung. 5. Aufl. Weinheim/ Basel. Luhmann, Niklas (2008): Rechtssoziologie. 4. Aufl. Wiesbaden. ®% » ¢¯ ' * ° " ¯ ¢ ©@ » - - - ® ¯ © % ° - - © @ ²! ª @ # ` Teil und Verhältnis zu anderen Rechtssystemen, besonders zum tschechischen Recht]. 5. Aufl. Brno. Mindt, Ilka (2010): Methoden der Korpuslinguistik: Der korpus-basierte und der korpus-geleitete Ansatz. In: Kratochvílová/ Wolf (Hg.), S. 53-65. Murphy, Sean D. (2006): Principles of international law. St. Paul. Nebeská, Iva (2003): Jazyk, norma, spisovnost. [Sprache, Norm, Standard]. 2. Aufl. Praha. « % » ¢¯ ' * > | | ` * @ * Sociolinguistica 14, S. 33-36. Thomas, William Isaac (1928): The child in America: Behavior problems and programs. New York. Trudgill, Peter: Sociolinguistics (2000): An Introduction to language and society. 4. Aufl. London. Wolf, Norbert Richard (2010): Korpora in der Korpuslinguistik. In: Kratochvílová/ Wolf (Hg.), S. 17-25. <?page no="271"?> » ¢ ‘Liebe auf den ersten Blick’ oder ‘Wechselbad der Gefühle’? Phraseologismen in publizistischen (und literarischen) Texten korpusgestützt analysiert Der vorliegende Beitrag ist als eine Fallstudie konzipiert, die sich auf zwei Mehrwortverbindungen konzentriert, die oft in den von mir vorgenommenen Untersuchungen zur Emotionalität in Filmrezensionen erscheinen. In meiner aus Filmrezensionen aus verschiedenen Print- und Onlinemedien zusammengestellten Textsammlung stieß ich immer wieder auf die ein bisschen abgegriffene Wendung Liebe auf den ersten Blick und auf die metaphorische Wortverbindung Wechselbad der Gefühle. Den Gebrauch dieser Mehrwortlexeme möchte ich mit Hilfe von (elektronischen) Wörterbüchern sowie elektronischer Korpora untersuchen, wobei ich mich bei der Definition von Korpus an der Konzeption von I. Kratochvílová orientiere: Korpora im heutigen Sinne werden als strukturierte repräsentative Sammlungen von Texten verstanden, die in maschinenlesbarer Form aufbereitet werden und qualitativ eine umfangreiche Datenbasis für unterschiedliche Arten linguistischer Untersuchungen darstellen. Diese Korpora im Allgemeinen ermitteln eine objektive Untersuchungsmethode bei großen Textsegmenten und können im Endeffekt unsere Sprachreflexion beeinflussen. (Kratochvílová 2006, S. 35) Bei den Fragestellungen stütze ich mich auf die Ausführungen von Norbert Richard Wolf, der für ein „korpusbasiertes“ Verfahren plädiert: „Die Recherchen im Korpus sind so zu formulieren, dass eine sinnvolle korpusbasierte Analyse möglich wird.“ (Wolf 2010, S. 24). Ilka Mindt bezeichnet diese Methode als eine deduktive Vorgehensweise: Ausgehend von einer bestehenden Theorie oder von Beschreibungen werden Korpusdaten verwendet, um die Theorien bzw. Beschreibungen zu erklären, zu veranschaulichen und/ oder zu überprüfen. Das Korpus wird als Fundus für authentische Sprachbeispiele angesehen, auf die anhand ausgewählter Beispiele zurückgegriffen wird. Die Sprachdaten aus dem Korpus werden weder in ihrer Gesamtheit noch nach einheitlichen Kriterien in systematischer Art und Weise untersucht, sondern zur nachträglichen Erklärung und Veranschaulichung verwendet (vgl. Mindt 2010, S. 53f.). Im vorliegenden Beitrag werden Zufallsfunde ausgewertet, die die Frequenz und den kontextuellen Gebrauch der oben angeführten Mehrwortverbindungen belegen sollen. <?page no="272"?> 272 Kleine und große Korpora - Spezialkorpora für Spezialfragen Folgende Fragen werden gestellt: 1) Wie werden diese Mehrwortverbindungen zunächst in (phraseologischen) Wörterbüchern dargestellt und erklärt? 2) Wie werden sie in verschiedenen Situationen/ Textsorten verwendet? Wie tragen die korpusgestützten Untersuchungen dazu bei, den Realitätsbezug zum Sprachgebrauch herzustellen? (vgl. Bergerová 2010, S. 197) 3) Wie werden sie in verschiedenen Kontexten variiert oder modifiziert? 4) Wie werden sie ins Tschechische übersetzt, bzw. welche Entsprechungen gibt es im Tschechischen? 1. Analyse: Liebe auf den ersten Blick 1.1 Zur Struktur und Bedeutung in ausgewählten Wörterbüchern Die Suche in den gängigen Wörterbüchern ergab keine allzu befriedigenden Ergebnisse. DUW (2007, S. 1077) bietet die Erklärung: „das spontane Empfinden von Liebe bei der ersten Begegnung“ an. Im DUDEN 11 (Redewendungen. Wörterbuch der deutschen Idiomatik; 2002, S. 126), das zu den am häufigsten konsultierten phraseologischen Wörterbüchern gehört, wird diese Redewendung nicht angeführt, weder unter ‘Liebe’ noch unter ‘Blick’. Hier ist nur die Verbindung auf den ersten Blick zu finden. Bei Schemann (1993, S. 489) wird die Wendung mit einem nicht authentischen kontextuellen Beispiel angeführt: Meine Mutter hält nichts von der Liebe auf den ersten Blick. Sie glaubt nicht, daß man jemanden wirklich lieben kann, ohne ihn lange und gut zu kennen. Um eine ausgiebige Erklärung bemüht sich das Deutsch-Tschechische Wörterbuch der Phraseologismen und festgeprägten Wendungen (2010, S. 1277): Liebe auf den ersten Blick (neutral) wird erklärt als „eine Situation, in der man sich sehr schnell verliebt; spontanes Empfinden von Zuneigung/ Liebe bei der ersten Begegnung“ und mit der tschechischen Entsprechung versehen: láska na první pohled sowie mit einem einfachen Beispiel illustriert: es ist/ war Liebe auf den ersten Blick. 1.2 Verwendung Diese Redewendung steht den Filmkritikern zur Verfügung für die Benennung der Emotion ‘Liebe’ und Charakterisierung einer typischen Situation in Rezensionen von Liebes- und Melodramen sowie romantischen Komödien, wie das folgende Beispiel (hier durch die Negation variiert) belegt: <?page no="273"?> 273 ‘Liebe auf den ersten Blick’ oder ‘Wechselbad der Gefühle’? (1) Im Film lernen sich die zwei in einer Bar kennen. Es ist keine Liebe auf den ersten Blick, doch immerhin planen sie den Aufbruch in eine vermeintlich bessere Zukunft. Scheinbar ziellos reisen Wuornos und ihre neue Freundin ( % "" ¥) durch ein Niemandsland [...]. (Letzte Ausfahrt Florida, In: Der Spiegel 16/ 2004, 172, von Martin Wolf) Für die Korpus-Belege habe ich mit COSMAS II auf ein Korpus des IDS Mannheim zurückgegriffen (journalistische Texte aus Zeitungen aus Deutschland, Österreich und der Schweiz). Mein Ziel war es, durch die Auswertung authentischer Beispiele zu überprüfen, ob diese Wendung die im Wörterbuch angeführte Bedeutung auch im Kontext aufweist. Die Recherche mit COSMAS II, konkret bezogen nur auf den Jahrgang 2010 der Zeitung Mannheimer Morgen 2010, ergab 16 Treffer. Aus den Belegen ist ersichtlich, dass Liebe auf den ersten Blick nicht nur in der Textsorte ‘Rezension’ in Bezug auf die oben angeführte Situation vorkommt (2), sondern auch in ganz gewöhnlichen Nachrichten aus dem Gesellschaftsleben (3): (2) Solche Studien des Persönlichkeitszerfalls spielte Albahari bereits in vergangenen Romanen und Erzählungen virtuos durch - zuletzt in ‘Die Ohrfeige’ (2007). In ‘Ludwig’ zelebriert er eine Freundschaft und ihr Ende. Besser sollte man sagen: Eine Liebe auf den ersten Blick. Hingerissen ist der Ich-Erzähler, als er Ludwig Anfang der unruhigen 60er im Hof der Philosophischen Fakultät begegnet. Bald schon wird er zu seinem Vertrauten und Sekretär. Sein eigenes Projekt, das ‘Buch der Bücher’, ruht. Aber es existiert in seiner Vorstellung, als Möglichkeit. Bereitwillig erzählt er Ludwig davon. Endlich hört ihm jemand zu - mit offenbar ungewünschten Folgen. (M10/ JAN.06402 Mannheimer Morgen, 26.01.2010, S. 24; Masken, Lügen und Verstellungen) (3) Für Hollywood-Schauspieler Demi Moore (47) und Ashton Kutcher (32) war es Liebe auf den ersten Blick. ‘Es war, als hätte ich jemanden getroffen, den ich schon kannte’, sagte Moore in einem Interview. Es sei anfangs schwierig gewesen, weil ihre Gefühle schon so stark gewesen seien. ‘Man kann ja nicht einfach aufspringen und sagen: Ich liebe Dich. Nett Dich kennenzulernen. Ich liebe Dich’, sagte Moore. (M10/ MAR.21828 Mannheimer Morgen, 19.03.2010, S. 15) Im Hinblick auf die Verwendung dieses Phrasems wurden auch elektronische Wörterbücher konsultiert. Im DWDS ist ein kleineres Korpus aus der Wochenzeitung DIE ZEIT und ZEIT Online zu finden, wo die Suche nach der Wendung es ist/ war Liebe auf den ersten Blick 207 Treffer ergab. In Bezug auf die textsortenspezifische Verwendung kann man keine besonderen Modifikationen konstatieren. Die Liebe auf den ersten Blick gilt aber nicht immer Personen, sondern auch Ländern und anderen Gegebenheiten: <?page no="274"?> 274 Kleine und große Korpora - Spezialkorpora für Spezialfragen (4) 1977 flog er zum ersten Mal nach Birma. Es war Liebe auf den ersten Blick. Immer wieder kam er her, erst allein, später als Reiseleiter. (DIE ZEIT, 09.07.2009, Nr. 29 ) 1.3 Variationen und Modifikationen In der Phraseologie unterscheidet man zwischen Variationen von Phraseologismen, die in Wörterbüchern gespeichert sind, und Modifikationen, die individuell und okkasionell sind. Sie wirken originell und expressiv und meistens ergeben sie sich aus dem Kontext als Reaktionen auf bestimmte Tatsachen. Es geht oft um Wort- und Sprachspiele. In der Rezension zur erfolgreichen romantischen Filmkomödie My Big Fat Greek Wedding wurde diese allzu strapazierte Redewendung, die eine problemlose Entfachung der Liebe bezeichnet, originell modifiziert und dem gesamten Kontext angepasst: (5) Liebe auf den ersten Silberblick [Titel] Die Story vom leicht schielenden hässlichen Entlein ... Zum Lachen ist dieser Film in seinen besten Momenten nicht durch kühne Wendungen zwischen der Liebe auf den ersten Silberblick und der pompösen Vermählung, sondern dank einer typengenauen Besetzung. [Abs. 4] (Der Spiegel 4/ 2003, S. 151, von Wolfgang Höbel) Die Suche nach Silberblick mit COSMAS II ergab zwar 240 Treffer, darunter aber keine Liebe auf den ersten Silberblick, so dass sich im oben angeführten Beispiel von einem originellen Okkasionalismus sprechen lässt. 1.4 Übersetzung ins Tschechische Die Übersetzung ins Tschechische bereitet keine Schwierigkeiten, denn es handelt sich um eine volläquivalente Mehrwortverbindung. Um es mit einem Textbeleg zu illustrieren, wurde das Parallelkorpus InterCorp des UCNK (literarische Texte) konsultiert: (6) Byla to zamilovala 1 ! 1 % >5 1 > 1 ! 1 % ) 1 1 ! 15"5"% ! 5"5"% 6 "% ¨ 15 6 > % % % 5 6 0"% 5 1 ! 6 ){ "% 2 Es war ! " # $ ! ich verliebte mich in seine Ohren, ehe ich sein Gesicht gesehen hatte, und mit solchem Ungestüm, daß in den folgenden Monaten mein Appetit verlorenging und ich vom vielen Fasten und Seufzen anämisch wurde. (Isabelle Allende: Paula) <?page no="275"?> 275 ‘Liebe auf den ersten Blick’ oder ‘Wechselbad der Gefühle’? 2. Analyse: Wechselbad der Gefühle Die Untersuchung der zweiten Wortverbindung Wechselbad der Gefühle ergibt interessantere Resultate in vielerei Hinsicht. Diese Mehrwortverbindung wird nicht/ kaum in gängigen Wörterbüchern gespeichert, obwohl ihr Nutzwert (die Frequenz) in verschiedenen Texten sehr hoch ist. Man kann sich die Frage stellen, ob es sich um ein modernes Phrasem/ Idiom oder eine Kollokation als „Produkt einer bevorzugten lexikalischen Fügungspotenz“ (Kratochvílová 2008, S. 61) der letzten Jahrzehnte handelt, die wegen der Vieldeutigkeit, Expressivität, Emotionalität sowie einer außerordentlich produktiven Anpassungsfähigkeit an verschiedene Kontexte/ Situationen zum Modeausdruck geworden ist. Diese Mehrwortverbindung schließt gegensätzliche Emotionen ein. Es ist den Psychologen beizupflichten, dass Emotionen, wie z.B. Liebe, Zorn oder Angst, uns in Verzweiflung stürzen oder uns in Ekstase versetzen, uns ` " Á | ` " « " ` |ª " ' ` @ - " ^ " © 2010, S. 2). Dank dieser Widersprüchlichkeit, die der Wortverbindung Wechselbad der Gefühle zugrunde liegt, wird die Mischung/ Verquickung vieler potenzieller Emotionen zum Ausdruck gebracht: Traurigkeit und Ekel, Zorn, Angst, Liebe und Hass, Liebeskummer, Freude, Scham gehen Hand in Hand und sind voneinander oft schwer zu unterscheiden. Nicht zuletzt erweckt diese Wortgruppe Aufmerksamkeit aus kontrastiver Sicht, weil es kein eindeutiges und frenquentiertes tschechisches Äquivalent gibt, worauf im Weiteren eingegangen wird. Die Recherche in elektronischen Korpora verspricht in diesem Fall ergiebige Resultate hervorzubringen. 2.1 Zur Struktur und Bedeutung in ausgewählten Wörterbüchern Es wurde festgestellt, dass die in deutschen journalistischen Texten sehr oft verwendete metaphorische Wortverbindung Wechselbad der Gefühle nicht in gängigen Wörterbüchern gespeichert ist: DUW (2007, S. 1899) verzeichnet unter dem Eintrag ‘Wechselbad’ nur „kurzes Teilbad in kaltem u. warmen Wasser im Wechsel... Ü: jmdn. einem W. aussetzen - ihn mal so, mal so behandeln“. Und Schemann (DI 1993, S. 942) führt ebenso nur die Wendung % einem Wechselbad aussetzen an: „Seltsamer Kerl, [...] Heute behandelt er dich höflich, morgend abweisend; heute kommt er dir entgegen, morgen verhandelt er mit aller Härte. Immer hin und her ... - Das dürfte Methode sein. Er setzt die Leute einem Wechselbad aus, um sie mürbe zu machen.“ Im DUDEN 11 (2002) gibt es keinen Eintrag, und das Deutsch-Tschechische Wörterbuch der Phraseologismen und festgeprägten Wendungen (2010) <?page no="276"?> 276 Kleine und große Korpora - Spezialkorpora für Spezialfragen reflektiert diese Wendung auch nicht. Es ist also ratsam, Korpora zu konsultieren und als potenzielle Belegquellen heranzuziehen. 2.2 Verwendung Den Ausgangspunkt für meine Betrachtungen zur Verwendung dieser Mehrwortverbindung stellte eine konkrete Filmrezension im FOCUS (28/ 2001, S. 84) dar. Im Gesamttext kann man auch den Zusammenhang mit dem Bild/ Foto der beiden Protagonisten in der Badewanne einer Analyse unterziehen und die Assoziationen verfolgen, die bei der Rezensentin hervorgerufen worden sind: (7) Wechselbad der Gefühle [Titel] Triebtäter in einem falschen Liebesspiel: Angelina Jolie und Antonio Bande-ras begehen in ‘Original Sin’ die Ursünde. [Untertitel] (FOCUS 28/ 2001, S. 84, von Anke Sterneborg) Ich war jedoch an der Verwendung in anderen Kontextsituationen interessiert, so dass ich einerseits das DWDS-Korpus, andererseits Korpora des IDS zu meiner Analyse herangezogen habe. Die Suche im elektronischen DWDS am Korpus aus DIE ZEIT und ZEIT Online ergab 613 Treffer. Die Untersuchungen erwiesen einerseits die textsortenspezifische Verwendung (in Rezensionen und Interviews), andererseits die bewertende Funktion dieses Mehrwortlexems: (8) Der leukämiekranke elfjährige Sam und der zwei Jahre ältere Felix, die sich im Krankenhaus angefreundet haben, sind fest entschlossen, jede Minute ihres kurzen Lebens auszukosten. Der Leser erlebt ein wahres Wechselbad der Gefühle. Doch die Autorin gerät nie aus der Balance, vermeidet jede Sentimentalität und dies ist wohl der Grund, warum sich dieser Roman, in dem es um nichts weniger als um das Sterben eines Kindes geht, unter den zwölf Luchsen des Jahres 2008 durchgesetzt hat. (DIE ZEIT, 30.06.2009, Nr. 4) (9) Aust: Also, wenn ich mir den Film ansehe, kann ich nachvollziehen, warum sich Menschen in solche Situationen begeben und was passiert, wenn die Sache eskaliert. Als ich den Film zum ersten Mal sah, habe ich ein Wechselbad der Gefühle erlebt von Verständnis bis Abscheu. Wie es anderen damit geht, weiß ich natürlich nicht. (DIE ZEIT, 17.11.2008, Nr. 38 ) In dem kleineren DWDS-Korpus konnte bereits die Tendenz aufgespürt werden, die dann durch eine genauere Analyse von 200 Belegen mit COSMAS II (die Recherche ergab insgesamt 4 844 Ergebnisse) bestätigt wurde: Diese Mehr- <?page no="277"?> 277 ‘Liebe auf den ersten Blick’ oder ‘Wechselbad der Gefühle’? wortverbindung kommt am häufigsten in der Sportrubrik und in den Nachrichten aus dem politischen und gesellschaftlichen Leben vor, wie es Beispiele aus deutschen, österreichischen sowie schweizerischen Zeitungen in Bezug auf verschiedene Sportereignisse illustrieren: (10) Optimistisch und voller Vorfreude fieberten fast 200 Fußballbegeisterte dem Anstoß entgegen. Was danach kam, war ein Wechselbad der Gefühle. Eine deutsche Mannschaft, die nicht schlecht spielte, ein Gegner, der deutlich besser war als Australien im ersten Gruppenspiel und ein Schiedsrichter, der glaubte, dass es sich beim Fußball um eine körperlose Sportart handelt. Bestürzung im Alten Kino. (M10/ JUN.45670 Mannheimer Morgen, 19.06.2010, S. 17; Im Wechselbad der Gefühle) (11) Das Engagement bei den Veranstaltungen ausserhalb des sportlichen Bereiches machte dem Vorsitzenden ebenfalls Freude, insbesondere wies er auf die Papiersammlungen, den Rundenlauf, das Mitwirken am Dorffest und den Klausabend hin. Ins Wechselbad der Gefühle stürzte die erste Mannschaft den Club und seine Fans. Nach umjubelten Wiederaufstieg in die 3. Liga im Frühjahr folgte bald die Ernüchterung in Form von miserablen Resultaten und grosser Unruhe unter den Spielern. (A10/ FEB.07220 St. Galler Tagblatt, 24.02.2010, S. 42; Zwei neue Vorstandsmitglieder beim FC Münchwilen) (12) Falsche Bekleidung. Florian Fischer durchlebte gegen Stinatz ein Wechselbad der Gefühle. Der Klingenbacher Flügelflitzer wurde in der 82. Minute eingetauscht und musste nur wenige Minuten später wieder vom Feld. Er hatte die falschen Stutzen an (noch von der Reserve) und musste sich kurzerhand umziehen. Mit neuem Look traf er zum 2: 2. (BVZ10/ OKT.01854 Burgenländische Volkszeitung, 21.10.2010) (13) Hoffnung und Verzweiflung, Angst vor dem Verlust des Arbeitsplatzes, Wut über die, die den Konzern heruntergewirtschaftet haben: Die Karstadt- Belegschaft im Viernheimer Rhein-Neckar-Zentrum erlebt seit Monaten ein Wechselbad der Gefühle. Nachdem der Kölner Rechtsanwalt Klaus Hubert Görg vor wenigen Tagen einen Insolvenzplan für die gesamten 120 Warenhäuser vorgelegt hat (wir berichteten), ist die Zuversicht wieder ein wenig gestiegen. (M10/ APR.29316 Mannheimer Morgen, 16.04.2010, S. 15; Jobs bei Karstadt sichern) Wie unterschiedlich die Stärke der Emotionen sein kann, ist den Belegen (12) und (13) zu entnehmen: In den Sportberichten handelt es sich oft um Banalitäten wie falsche Sportbekleidung, die zum Wechselbad der Gefühle führen können. <?page no="278"?> 278 Kleine und große Korpora - Spezialkorpora für Spezialfragen 2.3 Modifikationen Die Modifikationen der festen Wendungen stellen etwas Intendiertes und wohl Überlegtes dar. Ein Phrasem/ Idiom wird modifiziert, um einen besonderen kommunikativen Zweck (Satire, Ironie, humorvolle Effekte) zu erreichen. Der spezifische intendierte Effekt ergibt sich aus dem Kontrast zwischen der phraseologischen Bedeutung und der jeweiligen Aktualisierung im Kontext. Dazu können die Belege aus dem Korpus einen wichtigen Beitrag leisten. Als die häufigsten Typen von Modifikationen werden die Substitution (Ersetzung) der Komponenten und die Expansion (Erweiterung) einer phraseologischen Einheit oder verschiedene morphologische Veränderungen angeführt (vgl. Ptashnyk 2009, S. 79ff.). Die Erweiterung besteht meistens in der Verwendung eines evaluativen attributiven Adjektivs, die morphologische Veränderung kann in dem Wechsel zur Pluralform vorkommen: (14) Hört man den vier Abgeordneten so zu, ahnt man, dass sie tatsächlich schwierige Tage und Wochen hinter sich haben. Vor allem Teschke und Everts sprechen immer wieder vom gewaltigen Druck, der auf ihnen lastete, von der großen Angst, ausgebuht zu werden, von der inneren Zerbissenheit, die sie quälte, von permanenten Wechselbädern der Gefühle und von Wut und Frust im Bauch. Richtig beantworten können sie die Frage allerdings nicht, warum sie sich erst jetzt, zum spätestmöglichen Zeitpunkt, zu ihrem Nein bekennen. (DIE ZEIT, 12.11.2008) Den Gegenpol zur Erweiterung stellt die Reduktion des lexikalischen Bestandes der Mehrwortverbindung dar: (15) Hoffmann-Axthelm studierte später Theologie und rückte über die Alternative zur Adenauer-Republik, die 68er-Bewegung, in die kritische Reflexion der politischen und sozialen Verhältnisse hinein. Er zog nach Kreuzberg und erlebte dort von der Pike auf die Stimmungen, Schwankungen und politischen Wechselbäder dessen, was als Rückgewinnung (groß)städtischen Lebens in die Annalen der Urbanitätsgeschichte eingegangen ist; wenn auch nicht unter diesem Titel. Aus diesen Gründen aber ist Hoffmann-Axthelms Umzug in die Berliner Mitte gewiß nicht nur biographische Sentimentalität. (Gerwin Zohlen, Der Stadtdenker, in: DIE ZEIT 07.06.1996, S. 42) Die Substitution der Komponente Gefühle kann in der Bennenung der konkreten Emotionen erfolgen, was oft an den Kontext angepasst wird (17): (16) Black Soul und Acid-Jazz der 1970er-Jahre, mit Eigenkompositionen und Coverversionen ergänzt: Das ist das musikalische Programm von Jürgen <?page no="279"?> 279 ‘Liebe auf den ersten Blick’ oder ‘Wechselbad der Gefühle’? Waideles Jazzformation. Bandleader, Sänger und Pianist Waidele hat einen Grossteil des Programms selbst geschrieben oder arrangiert. Ein Wechselbad von überschäumender Lebensfreude und Melancholie ist garantiert. (A10/ MAR.01121 St. Galler Tagblatt, 04.03.2010, S. 18; Hin und Weg) (17) Doch das war vor drei Monaten. Holland hat in den letzten Wochen ein Wechselbad politischer Stimmungen erlebt, das seinesgleichen suchen dürfte. Kandidaten wurden erst zu Hoffnungsträgern und fielen unmittelbar danach ‘verbrannt’ wieder aussichtslos zurück. ‘Wir sind eine hysterische Gesellschaft geworden’, sagt der Deutschland-Korrespondent der niederländischen Tageszeitung ‘De Telegraaf ’, Rob Savelberg. (M10/ JUN.42340 Mannheimer Morgen, 08.06.2010, S. 4) Besonders originell und expressiv wirkt das kombinierte Beispiel der Substitution sowie Expansion aus der Textsammlung von Filmrezensionen: (18) Willkommen also im mittelschweren Beziehungselend der leicht Verunsicherten und Halbbefriedigten, im Sudelbad der lauwarmen Gefühle, bei den Sex- und Kuschel-Ekstasen eines Menschengeschlechts, das zwar den Zweifel kennt, aber nicht die Verzweiflung. (Der Spiegel 25/ 2009, S. 128-130, von Wolfgang Höbel) 2.4 Zur Äquivalenz im Tschechischen Es ist Iva Kratochvílová (2006, S. 35) beizupflichten, dass die Aufgabe der bilingualen Korpora darin besteht, nach äquivalenten Sinneinheiten, seien es Einzelwörter, Komposita, Mehrwortverbindungen und Kollokationen zu suchen. Bei der im Deutschen sehr frequentierten, im Tschechischen jedoch nicht allzu bekannten Mehrwortverbindung ergeben sich bei der Suche einer adäquaten Übersetzung im Parallelkorpus InterCorp folgende Ergebnisse: Es wurden nur seltene Belege in literarischen Texten großer Meister wie Pavel % " " » | Ï ® ` | " % °@[@* (19) Znaven tou & ! ' ! ' balancoval ( ) " 6 1 ! 6) " )0 2 Ermattet von diesem Wechselbad heißer und ! ( #) balancierte Buback schon wieder am Rande des Traumes und mußte sich zusammennehmen, um zu antworten, das errate er nicht. (Pavel Kohout: * 6 % ) <?page no="280"?> 280 Kleine und große Korpora - Spezialkorpora für Spezialfragen 3. Fazit Korpusgestützte Untersuchungen ermöglichen die phraseologischen Einheiten in größeren Textkomplexen zu beschreiben und ihren interkulturellen Wert näher zu bestimmen. Durch die korpusgestützten Untersuchungen kann man an authentische Textbeispiele herangehen. Nicht zuletzt dienen die Korpuseintragungen dazu, die Variationen und Modifikationen phraseologischer Wendungen aufzuspüren und zu belegen. Es hängt jedoch von den konkreten Fragestellungen ab, wie das jeweilige Korpus zur Lösung der Probleme herangezogen wird: Die Variationsbreite der Forschung zeigt, dass eine korpuslinguistische Forschungsaufgabe bei allen Ansprüchen an Authentizität, Repräsentativität und Computerisierung schon in der Phase der Fragestellung mit einem bestimmten korpuslinguistischen Ansatz kompatibel sein muss, damit eine Datenauswahl, die nachfolgende Analyse und Interpretation sowohl quantitativ als auch qualitativ zu guten Dateninterpretationen und validen Schlussfolgerungen führen kann. (Kratochvílová 2011, S. 158) Die vorliegende Fallstudie demonstriert, wie ein elektronisches Korpus dazu beitragen kann, die Belege zu überprüfen. Die Suche nach der in der deutschen Presse und Publizistik sehr oft verwendeten Mehrwortverbindung Wechselbad der Gefühle (samt ihrer Modifikationen) zeigt ihren vielseitigen Gebrauch in verschiedenen Ressorts (Kultur, Sport, Politik), was sich auch statistisch ermitteln ließe. Die Betrachtung ganzer Texte einschließlich Bilder/ Fotos bei der Textorte Filmrezension halte ich aber für wichtig: Es ist eben die gesamte grafische Gestaltung, die dazu verhilft, eine komplexe Textanalyse durchzuführen (siehe Beispiel 7). Ein projektausgerichtetes Kleinkorpus, das aus der Zusammenstellung von deutschen und tschechischen Filmrezensionen bestehen würde, würde zum Desiderat einer weiteren korpuslinguistischen Forschung. Allerdings bedarf es für solche Untersuchungen eines ‘mehrstufigen’ Verfahrens: - Der erste Schritt ist die Durchsuchung der vorhandenen Textsammlungen. - Der zweite Schritt führt dann zu anderen Zufallsfunden/ Lesefrüchten aus anderen Textgattungen als etwa Filmrezensionen. - Um zu validen Ergebnissen, die den korpuslinguistischen methodischen Anforderungen genügen, zu kommen, greife ich zu den großen maschinenlesbaren Korpora und untersuche dabei auch die Frequenz bestimmter Ausdrücke. <?page no="281"?> 281 ‘Liebe auf den ersten Blick’ oder ‘Wechselbad der Gefühle’? Literatur Quellen/ Korpustexte COSMAS II: http: / / www.ids-mannheim.de/ cosmas2 DUDEN 11 (2002): DUDEN - Redewendungen. Wörterbuch der deutschen Idiomatik. (= Duden 11). 2., neu bearb. u. aktual. Aufl. Mannheim u.a. DUW (2007): DUDEN - Deutsches Universalwörterbuch, 6., überarb. u. erweit. Aufl. Mannheim u.a. DWDS-Kernkorpus (Digitales Wörterbuch der deutschen Sprache des 20. Jahrhunderts): http: / / www.dwds.de ¢ % [ £ % © & " % ` ' * _ > Wörterbuch der Phraseologismen und festgeprägten Wendungen. Praha. Höbel, Wolfgang (2003): Liebe auf den ersten Silberblick, In: Der Spiegel 4, S. 151. Höbel, Wolfgang (2009): Lebe lieber ungefähr, In: Der Spiegel 25, S. 128-131. InterCorp - Ein Projekt für Parallelkorpora. UCNK FF UK Praha. http: / www.korpus.cz Schemann, Hans (1993): Deutsche Idiomatik. Die deutschen Redewendungen im Kontext. Stuttgart/ Dresden. Sterneborg, Anke (2001): Wechselbad der Gefühle, In: FOCUS 28, S. 84. Wolf, Martin (2004): Letzte Ausfahrt Florida, In: Der Spiegel 16, S. 172. Wissenschaftliche Literatur Bergerová, Hana (2010): Zum Nutzen korpusbasierter Untersuchungen für eine adäquate lexikographische Beschreibung von Phraseologismen. Eine Fallstudie zu sein Mütchen kühlen. In: Kratochvílová/ Wolf (Hg.), S. 197-206. Kratochvílová, Iva (2006): Zum aktuellen Thema: Die Korpuslinguistik im deutschtschechischen Sprachvergleich. In: Studia Germanistica 1, S. 35-43. Kratochvílová, Iva (2008): Diskursbildende Mehrwortstrukturen: Lexikalische Aspekte der Kollokationsanalyse im deutsch-tschechischen Kontrastkorpus. In: Kratochvílová, Iva/ Nálepová, Jana (Hg.): Sprache: Deutsch. Beiträge des internationalen germanistischen Symposiums Opava/ Sambachshof 5.-11.10.2007. Opava, S. 61-68. Kratochvílová, Iva (2009): Zwischen Potenzialität und Aktualität: Eine korpusbasierte Analyse der semantischen Prosodie von Mehrwortverbindungen aus diskursiver # @ * # - % - ! % - ' `@ * & - ` und die neuen Herausforderungen in Forschung und Lehre in Tschechien. Brno, S. 275-283. Kratochvílová, Iva (2011): Kollokationen im Text und Lexikon. Mehrwortverbindungen im Deutschen und Tschechischen. Berlin. <?page no="282"?> 282 Kleine und große Korpora - Spezialkorpora für Spezialfragen Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.) (2010): Kompendium Korpuslinguistik. Eine Bestandsaufnahme aus deutsch-tschechischer Perspektive. Heidelberg. Lelord, Francois/ ^ " ©% ¿ ' * _ " Á " ¡ seren Alltag bestimmen. 6. Aufl. München/ Zürich. Mindt, Ilka (2010): Methoden der Korpuslinguistik. Der korpus-basierte und der korpus-geleitete Ansatz. In: Kratochvílová/ Wolf (Hg.), S. 53-65. Ptashnyk, Stefanya (2009): Phraseologische Modifikationen und ihre Funktionen im Text. Eine Studie am Beispiel der deutschsprachigen Presse. ( = Phraseologie und Parömilogie 24). Baltmannsweiler. Wolf, Norbert Richard (2010): Korpora in der Korpuslinguistik. In: Kratochvílová/ Wolf (Hg.), S. 17-25. _ [ ` " < &^ ± ¦ '¥ ` ` " Tschechischen Republik) entstanden. <?page no="283"?> Á ¿ Ð Korpuslinguistische Wege der Untersuchung von Emotionen im Deutschen und Tschechischen 1. Einleitung Seit mehr als drei Jahren beschäftigt sich das Team des Projekts Ausdrucksmittel der Emotionalität im deutsch-tschechischen Sprachvergleich 1 intensiv mit dem Thema ‘Sprache und Emotionen’. Ziel des Projekts ist nicht nur eine Begriffsbestimmung von ‘Emotionalität’ ' ! % #@ % dern hauptsächlich ein Vergleich von Sprachmitteln, die auf allen Ebenen der Sprache (auf der lexikalischen, morphologischen, syntaktischen, stilistischrhetorischen und textuellen Ebene) zur Manifestation von Emotionen dienen. Der praktische Teil der Untersuchung basiert auf Textanalysen, d.h. auf der Arbeit mit verschiedensten Sprachkorpora. Bis heute sind zahlreiche Publikationen erschienen, die diese Arbeit auf unterschiedliche Art und Weise präsentieren. In dieser Studie wird gezeigt, wie verschiedene Arten von Korpora für die Untersuchung von Emotionen genutzt werden können. Besonderes Augenmerk wird auf die kontrastive Analyse von Emotionen gelegt. 2. Unterschiedliche Arten von Korpora und ihre Nutzung bei der Emotionsanalyse Wenn man das Korpus versteht als eine Sammlung authentischer Sprachdaten, die auf unterschiedliche Weise aufbereitet worden sind und somit präsentiert werden und die als Materialbasis oder Datenquelle für sprachwissenschaftliche Untersuchungen fungieren (Wolf 2010, S. 23), kann man die Arbeit mit einem einzigen Werk, z.B. einem Roman, schon als Korpusanalyse deklarieren. In diesem Sinne entsteht z.B. die Dissertation von Miroslava Tomková, die sich mit der Emotionalität in Volksliedern der Sammlung Des Knaben Wunderhorn beschäftigt (vgl. Tomková 2010, S. 81-94). In einem bzw. ein paar ausgewählten literarischen Werken werden Stellen gesucht, in denen Emotionen manifestiert werden (siehe die Dissertation von Milan Pišl 2011). Einen besonderen Beitrag können dazu maschinenlesbare 1 Das Projekt wird gefördert durch die Forschungsförderungsagentur der Tschechischen '&^ % " < ° _ ¥ ` ` | " @ <?page no="284"?> 284 Kleine und große Korpora - Spezialkorpora für Spezialfragen Übersetzungskorpora leisten, in denen man für die gefundenen Passagen maschinell Äquivalente in einer anderen Sprache suchen kann (Beispiele dazu siehe unten). Nähme man eine Definition, die die Merkmale eines Korpus enger festlegt (siehe unten), stellt man sich unter einer Korpusuntersuchung die Arbeit mit digitalisierten, maschinenlesbaren Texten vor. Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert, d.h. auf Rechnern gespeichert und maschinenlesbar. Die Bestandteile des Korpus, die Texte bestehen aus Daten selbst sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind. (Lemnitzer/ Zinsmeister 2006, S. 7) Man kann zwar auch einen ausgewählten Roman digitalisieren und maschinenlesbar machen, häufiger wird jedoch mit einem Korpus eine größere Menge von (vorgefertigten) Texten, die oft annotiert sind, assoziiert. Je nach der Fragestellung muss man sich für ein konkretes Korpus entscheiden. Wenn man allgemein feststellen will, ob eine Erscheinung tatsächlich verwendet wird und wie etwa die Häufigkeit ihres Vorkommens ist, ist es praktischer, mit großen bzw. sehr großen (vgl. Scherer 2006, S. 6f.; Šulc 1999, S. 14ff.; Schierholz 2005, S. 7f.) digitalisierten bereitgestellten Korpora zu beginnen. Im Zusammenhang mit Emotionen kann man in solchen Korpora z.B. emotionsbeladene Verben untersuchen. Man kann bei diesen beobachten, ob sie transitiv oder intransitiv, aktivisch oder passivisch verwendet werden, ob sie einen Bestandteil von Funktionsverbgefügen oder anderen festen Wendungen bilden etc. (Johansson/ Oksefjell 1996, S. 57-75). Im Zusammenhang mit Emotionen können auf dem Gebiet der Wortbildung z.B. alle Komposita mit einem emotionsbeladenen Wort untersucht werden. Man kann dann feststellen, dass im sehr großen Korpus bzw. Archiv ‘W-öffentlich’ 2 von COSMAS II (URL 1) etwa 750 Komposita mit dem Grundwort Angst zu finden sind. Die Menge der Token von einzelnen Komposita weist auf die Gebräuchlichkeit des Wortes hin. Viele Komposita wie Farbenangst, Formularangst, Kitschangst, Geldangst, Honorarängste oder Jazzängste erscheinen nur einmal und es kann sich dabei um Okkasionalismen handeln. 2 W-öffentlich - alle öffentlichen Korpora des Archivs W (mit allen öffentlichen Neuakquisitionen) im Rahmen der alten Version von ‘W - Archiv der geschriebenen Sprache’ (Stand Januar 2011). <?page no="285"?> 285 Korpuslinguistische Wege der Untersuchung von Emotionen Man kann die Komposita auch qualitativ, z.B. aus semantischer Sicht, untersuchen und auf die Unterschiede zwischen Schülerangst, Schulangst und Schulhausangst hinweisen. Einem Nichtmuttersprachler hilft der Kontext die genaue Bedeutung der Komposita zu entschlüsseln. Eine nähere Analyse aller Komposita mit dem Grundwort Angst und der Häufigkeit ihres Vorkommens könnte auch als Material für eine soziologische Untersuchung dienen, da sie auf die Ängste in einer Gesellschaft hinweisen könnte. Im Bereich der Wortbildung werden auch alle Belege von Wörtern mit einem konkreten Suffix, der z.B. zur Bildung von Schimpfwörtern verwendet wird, analysiert ' ! @ Á " ^ ¥ solcher Fragestellungen bringt die Untersuchung in parallelen Korpora (siehe " [ < Ï " - ` > - Škvarnová in URL 7). Korpora sind prinzipiell zweckgebunden (siehe Scherer 2006, S. 5). Wie schon erwähnt wurde, muss das ausgewählte (bzw. selbst geschaffene) Korpus der Fragestellung entsprechen. Für Untersuchungen kleineren Umfangs ist es oft nötig, kleine Korpora zu nutzen oder die großen bzw. sehr großen Korpora einzugrenzen. So kann man sich z.B. bei der Untersuchung von Schimpfwörtern oder Augmentativa in einem einsprachigen bzw. in einem parallelen Korpus nur auf einzelne Autoren konzentrieren. Die Untersuchung kann nur einer Sprachvarietät (wie z.B. der Kinder- und Jugendsprache (siehe ¿ Ð % #@ ±Â ´ % #@ " > $ ' ¡ » ¢ " ¥ ° ' % #@ % & Rykalová den Comics (Rykalová 2010, S. 215-223), 3 °¡@ ® " ' ® % #@ ± 4 gewidmet werden. Zu einer vergleichenden Analyse können eine seriöse Tageszeitung und eine Boulvardzeitung oder Texte aus verschiedenen Zeitperioden ausgewählt werden. Wenn man das Sprachmaterial eingrenzen und zugleich sowohl ‘langue’ als auch ‘parole’ analysieren will, sollte die Untersuchung in mehreren Schritten verlaufen und verschiedene sowohl nicht digitalisierte als auch maschinenlesbare zweckgebundene Korpora (mehr zu dem Terminus siehe Wolf 2010, S. 23) kombinieren. 3 Die erwähnten Wissenschaftlerinnen haben das gedruckte nicht digitalisierte Medium als Korpus verwendet. 4 ® " > $ | " Google zusammengestellt. Google als solches stellt kein Korpus im richtigen Sinne dar (siehe Scherer 2006, S. 74-75; ¿ Ð % #@ @ ] " È ` | " [ von Google alle notwendigen Kriterien eines Korpus (siehe Scherer 2006, S. 5ff.) beachtet werden, kann es zu bestimmten Zwecken gut genutzt werden. <?page no="286"?> 286 Kleine und große Korpora - Spezialkorpora für Spezialfragen a) Ferdinand de Saussure hat für bessere Anschaulichkeit ‘langue’ als ein ]ª ° ' "© - @ ] ` µ " System einer Nationalsprache - untersuchen will, arbeitet man im ersten Schritt mit einem Wörterbuch, einer Datenbank oder eventuell einer Grammatik, d.h. mit einer Sammlung von systematisch geordneten Daten. Diese stellt das erste Korpus dar. b) Im zweiten Schritt widmet man sich der ‘parole’. Es wird gesucht, ob die im ersten Schritt aufgelisteten Formen und Erscheinungen tatsächlich im Sprachgebrauch vorkommen, in welchem Maße sie erscheinen und ob sie vielleicht auf eine neue Tendenz hinweisen. Je nach Zweck der Untersuchung wird ein konkretes Wörterbuch ausgewählt. In allgemeinen einbzw. zweisprachigen oder eventuell in etymologischen Wörterbüchern können z.B. Interjektionen, Partikeln, Onomatopoetika recherchiert werden. Georg Schuppener beschäftigte sich in seiner vergleichenden Studie (Schuppener 2010, S. 129-137) mit emotionalen Onomatopoetika, die er aufgrund einer Wörterbuchanalyse zusammengetragen hat. Seiner Aussage nach ist für die genaue Bestimmung der Emotion der Kontext erforderlich. Das Verb brummen kann in einzelnen Bedeutungen positiv oder negativ konnotiert sein (ebd., S. 133). Zweisprachige Wörterbücher bieten jedoch manchmal ungeachtet des Kontextes, nur ein bzw. einige Äquivalente (ebd. - ) , )6 , ! , reptat, Siebenschein (1988a, S. 315f.): ) , )6 , , pobroukávat si, ) , % ) an. Die Analyse originaler deutscher Werke im Intercorp bestätigt, 5 dass das Verb ) (häufiger in der perfektiven Form 6 ) ) tatsächlich das häufigste Äquivalent von brummen ist. Andere Äquivalente sind jedoch wenig vertreten, etwa so oft wie z.B. brumlat/ zabrumlat oder zamumlat, welche in der Aufzählung von Georg Schuppener (Schuppener 2010, S. 133f.) bzw. im Siebenscheinischen Wörterbuch (1988a) nicht erscheinen. Das Angebot an Wörterbuch-Äquivalenten des lautmalerischen Verbs zischeln zeigt sich nach der Korpusanalyse als unvollständig. Während nach den Wörterbuchangaben (siehe Schuppener 2010, S. 134; Siebenschein 1998b, S. 723) das Verb mit den neutralen bzw. positiv konnotierten Verben šeptat und šuškat ins Tschechische übersetzt werden soll, zeigen die Korpusbelege, dass es sich 5 Intercorp ist ein Übersetzungskorpus im Rahmen des Tschechischen Nationalkorpus (mehr dazu siehe in URL 2, URL 3). <?page no="287"?> 287 Korpuslinguistische Wege der Untersuchung von Emotionen auch mit neutral oder fast negativ konnotierten Wörtern syknout und 6 0 (siehe Tabelle 1) 6 übersetzen lässt. Es erweist sich also als notwendig, den Kontext zu analysieren. Intercorp_cs Intercorp_de % ° & * _ ° - ' "- % » @ „< YX“ sykl = + " = 12 Konsalik, Heinz Günther: Wildes Land. „Unglaublich! “, zischelte Antons Vater Awdej. % ° & * _ ° - ' "- % » @ „Ticho,“ sykla 1 % ! {! "% ! 3 {! 2 Konsalik, Heinz Günther: Wildes Land. „Still doch“, zischelte seine Mutter, die mit ihrem Gatten den Kanjewskijs gegenübersaß. % ° & * _ ° - ' "- % » @ © " 6 " 6 6 " 1 % ! 5 ! 6 ) Y! & . Konsalik, Heinz Günther: Wildes Land. Er verschränkte sogar die Hände hinter dem Rücken, was seine Mutter zum dritten Mal zu einem ärgerlichen Zischeln veranlasste. - °% # `| "* ! -" © ° (Siebenscheinová, Anna). * , hrozba, na kterou veterán ) )0 ! - 5" 0 0> 4 6 ) ( Baltuschata a odtáhl ho k pohovoru o " 0 { + 2 Lenz, Siegfried: Heimatmuseum. +! *! eine Drohung, auf die der Veteran mit einer demütigen Bitte um Geduld antwortete - mehr bekam Conny nicht mit, da der General sich schon wieder an Bruno Baltuschat wandte und ihn zur Lagebesprechung mitzog auf einer frisch geschlagenen Lichtung. Tab. 1: Korpusbelege des Verbs zischeln (URL 3) Auf die gleiche Art und Weise können in allgemeinen Wörterbüchern die zum Emotionsausdruck beitragenden Interjektionen und Partikel (Beispiel bei Stopyra 2010, S. 107) gesammelt und dann im Kontext untersucht werden. Von den lexikalischen Mitteln, die oft zur Thematisierung von Emotionen dienen, können zweifellos Phraseologismen genannt werden. Auch feste Wendungen können zu bestimmten Zwecken in allgemeinen Wörterbüchern recherchiert werden (siehe Bergerová 1999, S. 29-40). Da es aber im Bereich der Phraseologie für das Deutsche und Tschechische umfangreiche spezialisierte Wörterbücher (siehe unten) gibt, ist es oft einfacher direkt diese phraseologischen Sammlungen zu verwenden (bzw. können beide Typen der Wörterbücher kombiniert werden) (siehe Šichová 2011, S. 71-84). 6 In Klammern wird der Übersetzer angeführt. <?page no="288"?> 288 Kleine und große Korpora - Spezialkorpora für Spezialfragen Der grundlegende Vorteil solcher Untersuchungen, denen im ersten Schritt ein Wörterbuch als Korpus dient, ist die eindeutig festgelegte Abgrenzung der ‘langue’. Als Nachteil könnte die Unvollständigkeit der Erscheinungen oder Formen unterstellt werden. Die Sammlung von sprachlichen Erscheinungen zu verschiedenen Fragestellungen kann jedoch nur selten vollständig sein. Die Daten können überdies im zweiten Schritt der Untersuchung noch erweitert werden. Im zweiten Schritt kann auch im Falle einer vergleichenden zweisprachigen Analyse zwischen ein- oder mehrsprachigen Korpora ausgewählt werden. Für das Sprachenpaar Deutsch-Tschechisch hängt es davon ab, ob ein mittelgroßes Korpus für die Analyse ausreichend oder ein großes bzw. sehr großes Korpus erforderlich ist. Für den deutsch-tschechischen Vergleich steht im Rahmen des tschechischen Nationalkorpus (URL 2) das Teilkorpus Intercorp (Version 4) (URL 3) zur Verfügung, das im Moment (Version 4 wurde am 19.9. veröffentlicht.) 92,29 Mio. Textwörter in 23 Sprachen umfasst, wovon etwa 12,2 Mio. deutsche Textwörter dem Tschechischen gegenübergestellt sind. Im Intercorp (URL 3) des tschechischen Nationalkorpus stehen heute 36 Originalwerke von 18 deutschsprachigen Autoren und 43 Originalwerke von 24 tschechischen Autoren zur Verfügung. Mit mehr als zwei Werken sind hier Heinrich Böll, Franz Kafka, Heinz Günther Konsalik, Siegfried Lenz, Erich Maria Remarque, Christa Wolf, Pavel Kohout, Milan Kundera und Michal Viewegh vertreten. Intercorp bietet somit heutzutage eine verhältnismäßig große Basis für tschechisch-deutsche bzw. deutsch-tschechische Untersuchungen (mehr dazu siehe unten). Falls mehrere Daten gefordert sind, kann man sich für die deutsche Sprache auf ein sehr großes Korpus des Systems COSMAS II (URL 1) stützen. Das tschechische Äquivalent dazu ist das größte tschechische Korpus bzw. Archiv von Korpora, das Tschechische Nationalkorpus (URL 2). Mit 1 300 Mio. Textwörtern gehört das SYN-Korpus - das größte Korpus im Rahmen des Tschechischen Nationalkorpus - zwar zu den sehr großen Korpora, alle öffentlichen Archive von COSMAS II (URL 1) enthalten allerdings immer noch fast dreimal so viele Textwörter. Bei der Untersuchung muss man deswegen entweder die Korpora so einschränken, dass sie vom Umfang her vergleichbar sind, oder die absoluten Ergebnisse in Prozente umrechnen. Man kann die erwähnten Korpora auch nach dem Zweck der Untersuchung abgrenzen, d.h. beispielsweise nur publizistische oder nur belletristische Texte verwenden; unter den publizistischen nur überregionale Zeitungen aussuchen bzw. nur nach dem Jahr 2000 entstandene Texte auswählen. <?page no="289"?> 289 Korpuslinguistische Wege der Untersuchung von Emotionen 3. ‘Angst’ in der deutschen und tschechischen Phraseologie am Beispiel von zweckgebundenen Korpora Die Arbeit mit sog. zweckgebundenen Korpora möchte ich anhand einer kleinen phraseologischen Studie demonstrieren. Im Bereich der Phraseologie und nicht nur da, ist es meiner Meinung nach nötig, die zu untersuchende Datenmenge nach einem Gesichtspunkt zu begrenzen, sonst wäre eine solche Untersuchung dank vieler regionaler, zeitlicher und anderer Varianten grenzenlos. Im Falle der folgenden Analyse wird die Grenze anhand des phraseologischen Wörterbuchs von Hans Schemann (Schemann 1992) festgelegt. Dem Wörterbuch wurden fast 70 deutsche Phraseologismen 7 entnommen, die die Emotion Angst thematisieren. Die nachfolgende Untersuchung sollte die Art und Weise der Übersetzung ausgewählter Mehrwortlexeme zeigen und hauptsächlich nachweisen, ob das größte zweisprachige deutsch-tschechische bzw. tschechisch-deutsche Korpus Intercorp (URL 3) im heutigen Umfang für die phraseologische Untersuchung gewinnbringend ist. Weil es primär nicht um eine Übersetzungskritik, sondern um eine Sprachanalyse gehen soll, wurden aus den Texten, die in Intercorp auf Deutsch und Tschechisch zur Verfügung stehen, bis auf eine Ausnahme (siehe unten) nur solche für die Recherchen ausgewählt, die das Deutsche oder Tschechische als Ausgangssprache haben. Aussortiert wurden außer den belletristischen Werken, wie Der Name der Rose von Umberto Eco oder Der kleine Hobbit von John R.R. Tolkien, auch die Texte des Projekts ‘Syndicate’ (URL 4) und ‘Presseurop’ (URL 5). Aus dem oben erwähnten Grund wird im Rahmen der Analyse auf die Person und den Stil einzelner Übersetzer keine besondere Rücksicht genommen, obwohl die Übersetzer gewiss eine wichtige Rol le spielen. Von den in der ersten Phase der Untersuchung ausgewählten Phraseologismen ist in den gegebenen Texten von Intercorp nur etwa eine Hälfte belegt (Wenn die deutschen Phraseologismen nur in originalen deutschen Texten recherchiert werden, handelt es sich nur um ein Drittel der belegten Wendungen). Die Textbefunde sind jedoch nicht zahlreich. Bis auf eine Ausnahme hat jeder Phraseologismus höchstens 14 Belege, die tatsächlich ‘Angst’ thematisieren. (Einige feste Wendungen wurden noch im Rahmen der zweiten Phase der Analyse auf Grund des Kontextes aussortiert, da sie entweder meistens bzw. lediglich in ihrer wortwörtlichen Bedeutung verwendet wurden (z.B. kalte Füße kriegen; plötzlich/ ... kalte Füßen haben; (wie) in Schweiß gebadet sein) 7 È ^ || ` " < ` ¿ Ð ' % #@ ||@ @ <?page no="290"?> 290 Kleine und große Korpora - Spezialkorpora für Spezialfragen oder eine andere Emotion manifestiert haben (z.B. höllischen Respekt vor jm./ etw. haben.) Phraseologismen, die nur einmal belegt sind, bilden keine Ausnahmen. Wie die Korpusanalyse gezeigt hat, werden deutsche Phraseologismen häufiger durch feste Wendungen ins Tschechische übertragen als frei übersetzt. Im Ver- ` " « | % " ¥ ` ]ª ' Â% % ± % 1994b) bzw. das Kollektiv von Autoren im Deutsch-tschechischen Wörterbuch der Phraseologismen und festgeprägten Wendungen ' ¢ [ £ Goldhahn 2010) aufgelistet haben, werden die Phraseologismen selten mit einem vollständigen Äquivalent übersetzt. Vollständig äquivalent und auch mit den Nennformen aus den erwähnten Wörterbüchern übereinstimmend sind z.B. diese Phraseologismen: - den Mut verlieren, - Blut schwitzen, - die Knie schlottern, - jm. Angst machen. Die letzterwähnte Wendung wird von den Übersetzern nicht nur mit dem volläquivalenten Phraseologismus bzw. seinen Varianten ( % % 0 lávat/ vzbuzovat/ mít strach), sondern auch frei mit vystrašit, übersetzt: InterCorp_cs InterCorp_de Kafka, Franz: @ ! (Kafka, Vladimír). = ª % " % ! 1! Y 2 Kafka, Franz: Die Verwandlung. Aber Gregor fiel es doch gar nicht ein, irgend jemandem und gar seiner Schwester Angst machen zu wollen. Schlink, Bernhard: Návrat '> Ñ % Lucy). « ! " 6 5"% 1 tvrdost, chlad, pohrdání, které ostatní vystrašilo. Schlink, Bernhard: Die Heimkehr. Wieder glomm etwas in seinen Augen, eine Härte, eine Kälte, eine Verachtung, die den anderen angst machte. Tab. 2: Korpusbelege der Wendung jm. Angst machen (URL 3) Von allen analysierten Phraseologismen ist der Phraseologismus Lampenfieber haben am häufigsten belegt. Er wird wortwörtlich übersetzt. Die tschechischen phraseologischen Wörterbücher haben jedoch das tschechische Äquivalent mít trému nicht in ihrem Inventar. <?page no="291"?> 291 Korpuslinguistische Wege der Untersuchung von Emotionen Auch für den folgenden Phraseologismus aus Schemanns Wörterbuch (Schemann 1992) - jm. stehen Schweißperlen auf der Stirn - ist im Wörterbuch von " @ ' Â% % ± % ± Ò{ ° finden. Das Deutsch-tschechische Wörterbuch der Phraseologismen ' ¢- [ £ & " ` Ò{ 8 8 - ! 5 , ! 5 ! , ! Y + 1 . Schemanns Nennform erscheint in Intercorp nur in ihren Varianten j. hat/ jm. bilden sich/ ... Schweißperlen auf der Stirn/ ... und genauso ist es, wenn man beim Recherchieren in Intercorp vom Tschechischen ausgeht. Alle gefundenen Belege unterscheiden sich von den drei oben erwähnten tschechischen Nennformen z.B. im Verb, in der Adverbialbestimmung oder im fehlenden Attribut. In einem einzigen Beleg entspricht die Nennform der Angabe aus dem deutsch-tschechischen phraseologischen Wörterbuch. Er wird auch in seiner Übersetzung präsentiert: InterCorp_cs InterCorp_de Konsalik, Heinz Günther: © 6 ! ' "- % » @ Konsalik, Heinz Günther: Wildes Land. Die Perowska sah, dass er Schweißtropfen auf der Stirn hatte. @ > ! % Tab. 3: Korpusbelege der Wendung ! 5 (URL 3) Die Ursache für so wenige Belege kann die Größe des Korpus sein. Falls die häufigste Nennform dieser Wendung (und allgemein der ausgewählten Phraseologismen) bzw. ihre Varianten festgestellt werden sollten, könnte es auf der Basis der gestaffelten Korpora (Wolf 2010, S. 23) geschehen. Das heißt, dass die festen Wendungen nach der durchgeführten Fragestellung im kleinen Korpus in sehr großen Korpora gesucht werden. Die Stichprobe im sehr großen SYN-Korpus mit 1 300 Mio. Wörtern, der sowohl Originaltexte, als auch Übersetzungen und zugleich Texte verschiedener Funktionalstile umfasst, liefert die meisten Belege der Nennform ! 5 2 Unter den Korpusergebnissen ist aber auch die zweite Nennform ! 5 ! zu finden. Die Wendung + 1 [Schweißtropfen] tritt am häufigsten mit den Verben vyrazit (siehe das folgende Beispiel), 0 , , objevit se [ausbrechen, ausspringen, aufspringen, erscheinen] in Erscheinung. Da aber auch andere Verben nicht ausgeschlossen sind, ist die Nennform ! 0 6 0 8 Das Wörterbuch umfasst deutsche Phraseologismen, ihre tschechischen Äquivalente werden aber nicht nur durch phraseologische Wendungen vermittelt. <?page no="292"?> 292 Kleine und große Korpora - Spezialkorpora für Spezialfragen 0 0 0 )1 0 ... (velké/ ledové/ ...) + 1 zu empfehlen. " { 2 , &! ' % 0 6) 6 0 1 2 „ 1 X“ 0 6 2 (SYN: Christie, Agatha: < %0 6 ) Y% ' ° % » URL 2) Zu den Phraseologismen, die mit teilweise äquivalenten Wendungen übersetzt werden, gehören z.B.: Schiß vor jm./ etw. haben und j. macht (sich) noch in die Hose (vor Angst/ ...). In den Tabellen werden die Phraseologismen im Kontext vorgestellt: InterCorp_cs InterCorp_de Böll, Heinrich: Skupinový snímek s dámou ' % [ £ @ < > 5 ) 60 Y )1 { - 0 Y% "% { projevil [...] jako „ ! 5 1 ! { "%{ { {! % 5 @7 77 {"% 5 & " ! > "% ¢ “. Böll, Heinrich: Gruppenbild mit Dame. Zum Glück traf bald drauf der mit Schrecken erwartete alte Gruyten ein, der sich [...] als „unendlich sanft, still, fast freundlich erwies, zur großen Erleichterung der Pfeiffers, die natürlich allesamt Schiß vor ihm hatten“. Lenz, Siegfried: * ! 0. Kurtík (1 )0 ! 6 + nenávist): 0 & "% 15 ! 6 ! 2 Lenz, Siegfried: Deutschstunde. Kurtchen (als müßte er seinem Haß Gründe nennen): Sie " 3 ! 4 sie wollen uns nicht verstehen. Tab. 4: Korpusbelege der Wendung Schiß vor jm./ etw. haben (URL 3) InterCorp_cs InterCorp_de Konsalik, Heinz Günther: * 5> ) Pacifikem 'Ó £ % " | @ @ „Palacio Arzobispal“, arcibiskupským palácem, musel doktor Paterna 6 " 15"5! > 0 1 do stínu pod jednou bránou a poslechl si jejich srdce. „3 0 -$$ ! "% )0 ! 65 6 X“ 0% 3 4% % )0 "% 2 Konsalik, Heinz Günther: Promenadendeck. Ausgerechnet vor dem Erzbischöflichen Palais, dem „Palacio Arzobispal“, mußte Dr. Paterna an einige Passagiere Tabletten verteilen, stellte sie in den Schatten eines Torbogens und horchte ihr Herz ab. „Wer bei 2800 Metern schon ! ! 5 sollte umkehren! “ verkündete Knut de Jongh laut genug, damit es jeder hören konnte. Tab. 5: Korpusbelege der Wendung j. macht (sich) noch in die Hose (vor Angst/ ...) (URL 3) <?page no="293"?> 293 Korpuslinguistische Wege der Untersuchung von Emotionen Rein semantisch äquivalent (siehe die Klassifikation der Äquivalenztypen von Henschel 1993, S. 135-144) ist die Entsprechung des deutschen Phraseologismus Blut und Wasser schwitzen im folgenden Belegtext: 9 InterCorp_cs InterCorp_de Wolf, Christa: 6 0 5 '# ¢¯ ®% Jaroslav). 1 >5! 5 ! 5 1 6 ! 5 " "+ 5 1 ! 52 je strachy bez sebe ! 1 2 " ) % 6 5 1 0"% 1 < 02 3 0 15" "% ) % 7 ! 0 zmocnila panika. Wolf, Christa: Kindheitsmuster. Komödie bestenfalls, in der das reine Mißverständnis als Handlungsmotor ja erlaubt ist. Jedoch gelacht wird nicht, während man Blut und Wasser schwitzt. Das Dorf hat die Nachricht schon in Gang gesetzt - als Lauffeuer, das schneller läuft als Nelly. Ihre Mutter ist schon in Panik, als sie keuchend beim Pfarrhaus ankommt [...] Tab. 6: Korpusbelege der Wendung Blut und Wasser schwitzen (URL 3) Obwohl sich deutsche Phraseologismen oft durch eine phraseologische Wendung ins Tschechische übertragen lassen, wird die Möglichkeit von den Übersetzern nicht immer genutzt. Z.B. das Herzklopfen wird im Tschechischen durch Vergleiche wie srdce mu bije/ buší j. kladivo, srdce mu buší/ bije jako zvon [das Herz schlägt/ pocht ihm wie ein Hammer; das Herz pocht/ schlägt ihm wie eine Glocke] ausgedrückt. Die feste Wendung Herzklopfen haben wird aber in Intercorp ins Tschechische frei (d.h. nicht phraseologisch), wortwörtlich übersetzt (siehe unten). InterCorp_cs InterCorp_de Wolf, Christa: 6 Y ) (Jiroudková, Jarmila). 3 " 6! 0 0 " )% Y 1 > 5> 5"% ) 52 Wolf, Christa: Der geteilte Himmel. 3! 5 & # als sie den Schauplatz ihrer künftigen Abenteuer besichtigen ging. Tab. 7: Korpusbelege der Wendung Herzklopfen haben (URL 3) Ohne einen Phraseologismus zu nutzen, werden auch folgende deutsche feste Wendungen ins Tschechische übersetzt: jm. schlägt/ pocht das Herz bis zum Hals(e), keinen Mumm (in den Knochen) haben, die Knie werden jm. weich. Die Wendung jm. wird angst und bange (bei etw./ wenn/ ...) wird in einigen Werken mit einem Phraseologismus wiedergeben, in anderen jedoch frei übersetzt. 9 Der Phraseologismus být strachy (celý) ) 6 ) " { 0 nebo bejt strachy (celej) bez sebe/ " 1 0 ` ]ª ° | " @ <?page no="294"?> 294 Kleine und große Korpora - Spezialkorpora für Spezialfragen Dass es erforderlich ist, bei der oben dargestellten Analyse von Originaltexten auszugehen, beweist folgender Textbeleg. Es handelt sich um zwei Übersetzungen des französischen Romans 99 francs ¥ ©"© [ ` " @ " ° ` © _ ' " > | Vergleich zur Übersetzung ins Deutsche der Phraseologismus etw. fürchten wie der Teufel das Weihwasser. 10 ] " - || " charakterisiert hat, können „sich“ Phraseologismen manchmal im Kontext ½ | ª ¾ ' " - Â% #@ @ > $ nicht der Fall zu sein. InterCorp_cs InterCorp_de [ ` " % ¥ ©"© * ®® 7 + (Demlová, © @ " 0 )0 ! ! " "% 5 0 5 Y ¢ Y ! " ! " ! aby se myšlenky rozhýbaly, a ne aby se 6! 0 > 2 > 0 1 )0 Y ! "5 disponují, ! &! . « Y ! 0 "% 15 " Y ! 06 > Y "% 15 6 1 > ! 6 "% 15 6 ovce. [ ` " % ¥ ©"© * Neunundreißig neunzig, (Grosse, Brigitte). Idealiter sollte man in einer Demokratie Lust daraufhaben, die enorme Macht der Kommunikation zu nutzen, um die Mentalitäten zum Tanzen zu bringen, anstatt sie zu zertreten. Das passiert aber nicht, denn diejenigen, die über diese Macht verfügen, scheuen das Risiko wie der Teufel das Weihwasser. Sie wollen nur Vorgekautes, Testgeeichtes, sie wollen nicht Ihr Hirn auf Trab bringen, sondern Sie in ein Schaf verwandeln, [...] Tab. 8: Korpusbelege der Wendung etw. fürchten/ scheuen/ meiden wie der Teufel das Weihwasser (URL 3) Man kann jedoch ohne Originaltext nicht beurteilen, ob die tschechische Übersetzung oder der Text von Brigitte Grosse adäquater ist. Und es ist auch nicht möglich zu bestimmen, welche Übersetzung als Ausgangstext für die Analyse betrachtet werden soll. 4. Fazit Zusammenfassend lässt sich feststellen, dass es möglich ist, bei der Untersuchung einer bestimmten in Phraseologismen dargestellten Emotion von phraseologischen Wörterbüchern auszugehen. Es hat sich jedoch gezeigt, dass einige phraseologische Varianten in ausgewählten Wörterbüchern fehlen und umgekehrt, nicht alles, was Wörterbücher beinhalten, wird tatsächlich gebraucht. 10 Das Deutsch-tschechische phraseologische Wörterbuch ' ¢ [ £ & " lässt mehr Varianten als Schemanns Wörterbuch (Schemann 1992) zu - etw. fürchten/ scheuen/ meiden wie der Teufel das Weihwasser. <?page no="295"?> 295 Korpuslinguistische Wege der Untersuchung von Emotionen Wenn man zum Recherchieren nur die Originalwerke einer Sprache von Intercorp (URL 3) nutzt, erweist sich das Korpus als zu gering, um auf Grund seiner (oft fehlenden) Daten die dem Wörterbuch entnommenen Phraseologismen als nicht phraseologisch bezeichnen zu können. Dazu könnte die Methode der gestaffelten Korpora, also im Anschluss an die Fragestellung im kleinen Korpus noch sehr große Korpora beider Sprachen verwendet werden. Andererseits präsentiert aber Intercorp, im Gegensatz zu den größeren einsprachigen Korpora, Möglichkeiten zur Übersetzung von Phraseologismen. Da es sowohl den deutschen als auch den tschechischen Kontext liefert, könnten seine Belegtexte die Angaben in solchen Wörterbüchern wie dem Deutsch-tschechischen Wörterbuch der Phraseologismen und festgeprägten Wendungen bereichern. Es ist jedoch wichtig, nie aus dem Auge zu verlieren, dass in Intercorp nicht nur Originaltexte sondern auch ihre Übersetzungen vorkommen, die sich dem Original nur nähern und nicht als solches betrachtet werden können. Um einen tschechischen Kontext zu erhalten, können natürlich auch einsprachige Korpora genutzt werden, wie es am Beispiel des Phraseologismus jm. stehen Schweißperlen auf der Stirn gezeigt wurde. Um dem Verlust einiger in keinem Wörterbuch (noch nicht) vorhandener Phraseologismen vorzubeugen, wäre es nötig, von einem Werk (d.h. Ganztext) bzw. mehreren Werken auszugehen und erst dann die darin enthaltenen Phraseologismen den Wörterbuch- und Korpusangaben gegenüberzustellen. Wenn man das Korpus im weiteren Sinne des Wortes (siehe oben) versteht, ist es meiner Meinung nach nicht möglich, bei der Untersuchung von Emotionen in der Sprache ohne Korpora auszukommen. Fertiggestellte maschinenlesbare Korpora können auf Grund der Art und Weise des Recherchierens nicht bei allen Fragestellungen gleichermaßen genutzt werden, leisten jedoch oft eine sehr große Hilfe und sind eine Erleichterung bei der Arbeit mit dem Sprachgebrauch. Aber obwohl sie viele Daten anbieten, können erst nach einer gründlichen Fachanalyse relevante Schlüsse gezogen werden. Literatur Quellen/ Korpustexte % ¥ '  * # ¯ - © | ° ` " * ¢ ¯@ ²- $ kon der tschechischen Phraseologie und Idiomatik: Vergleiche]. Praha. % ¥ ' * # ¯ - © | ° ` " * ® ° - ©@ ²- $ " < ` " " * ! < ` men]. Praha. <?page no="296"?> 296 Kleine und große Korpora - Spezialkorpora für Spezialfragen % ¥ ' ± * # ¯ - © | ° ` " * ® ° ©@ [Díl 1], A-P. [Lexikon der tschechischen Phraseologie und Idiomatik: Verbale Phraseologismen. A-P]. Praha. % ¥ ' ± * # ¯ - © | ° ` " * ® ° © ²_¯ ³% Å@ ²- $ " < ` " " * ! < ` @ ų@ < @ ¢ % [ £ % © & " % ` ' * _ Wörterbuch der Phraseologismen und festgeprägten Wendungen. Praha. Schemann, Hans (1992): Synonymwörterbuch der deutschen Redensarten. Stuttgart. URL 1: COSMAS II - Korpus des IDS Mannheim: http: / / ww.ids-mannheim.de/ cosmas2/ (Stand: Februar 2012). - * ® " ¯ ²> « ³* http: / / www.korpus.cz/ (Stand: Februar 2012). URL 3: Intercorp: http: / / www.korpus.cz/ Intercorp/ (Stand: Februar 2012). URL 4: Projekt Syndicate: http: / / www.project-syndicate.org/ (Stand: Februar 2011). URL 5: Projekt Presseurop: http: / / www.presseurop.eu/ cs (Stand: Februar 2011). Wissenschaftliche Literatur Bergerová, Hana (1999): Das Elend der Phraseographie und kein Ende. Diesmal am Beispiel der deutsch-tschechischen Wörterbücher. In: Skibitzki, Bernd/ Wotjak, Barbara (Hg.): Linguistik und Deutsch als Fremdsprache. Festschrift für Gerhard Helbig zum 70. Geburtstag. Tübingen, S. 29-40. ¿ Ð % Á ' * < ` ]ª " " " tschechischen Sprachgebrauch. Am Beispiel von Phraseologismen mit dem Bild von Mann und Frau. Frankfurt a.M. ¿ Ð % Á ' * ^ ` " " @ Á ^ [ Geschichten aus dem Buch ‘Dich gibt's nur einmal auf der Welt: Geschichten, die Kinder stark machen’. In: Brünner Beiträge zur Germanistik und Nordistik Nr. 16, S. 143-152. ¿ Ð % Á ' * ^ ` " » ` " @ Á ¥ " [ " Romans ‘Rotkäppchen muss weinen’. In: Acta Facultatis Philosophicae Universitatis Ostraviensis. Studia Germanistica 9, S. 19-29. Henschel, Helgunde (1993): Die Phraseologie der tschechischen Sprache: ein Handbuch. Frankfurt a.M. " - % '  * ¥ ° ` © ¢ " ®@ * % » ' `@ * < © " ® @ ¼ % #@ ± ±@ Johansson, Stig/ Oksefjell, Signe (1996): Towards a unified account of the syntax and semantics of GET. In: Jenny, Thomas/ Short, Mick (Hg.): Using corpora for language research. London, New York, S. 57-75. <?page no="297"?> 297 Korpuslinguistische Wege der Untersuchung von Emotionen Lemnitzer, Lothar/ Zinsmeister, Heike (2006): Korpuslinguistik. Eine Einführung. Tübingen. % » ¢ ' * Á ¥ ° @ _ ` " Á LIEBE in den Filmen über Liebe. In: Acta Facultatis Philosophicae Universitatis Ostraviensis. Studia Germanistica 6, S. 189-198. ® % ' * ¥ Ô " Á @ _ ` @ In: Acta Facultatis Philosophicae Universitatis Ostraviensis. Studia Germanistica 7, 2010, S. 49-68. Pišl, Milan (2011): Ausdruck von Emotionen in gegenwärtigen deutschen Dramentexten. Univ. Diss. Ostrava. Rykalová, Gabriela (2010): Emotionen in Comics. In: Acta Facultatis Philosophicae Universitatis Ostraviensis. Studia Germanistica 6, Ostrava, S. 215-223. Scherer, Carmen (2006): Korpuslinguistik. Heidelberg. Schierholz, Stefan J. (2005): Einige grundlegende Überlegungen zur Corpuslinguistik. In: Lenz, Friedrich/ Schierholz, Stefan J.: Corpuslinguistik in Lexik und Grammatik. Tübingen, S. 1-14. Schuppener, Georg (2010): Onomatopoetika im Deutschen und Tschechischen als emotionales Ausdrucksmittel. In: Acta Facultatis Philosophicae Universitatis Ostraviensis. Studia Germanistica 6, S. 129-137. Siebenschein, Hugo (1988a): Deutsch-tschechisches Wörterbuch. A-L. Praha. Siebenschein, Hugo (1988b): Deutsch-tschechisches Wörterbuch. M-Z. Praha. Stopyra, Janusz (2010): Lexikalische Ausdrucksmittel von Emotionen im Deutschen. In: Acta Facultatis Philosophicae Universitatis Ostraviensis. Studia Germanistica 6, S. 105-112. Ï % ¢ ' * ] ¡ ` " # | " ` ! ` " « ° Á " " '" < ` @ * % Tomáš/ Peloušková, Hana: Deutsch und Tschechisch im Vergleich. Korpusbasierte linguistische Studien II. Brno, S. 71-84. Šulc, Michal (1999): Korpusová lingvistika. Praha. Tomková, Miroslava (2010): Emotionalität in Volksliedern der Sammlung ‘Des Knaben Wunderhorn’. Am Beispiel der Anrede und Bezeichnung der geliebten Person. In: ! % - ] |% « " ' `@ * ^ " Á ` @ Ostrava, S. 81-94. - * "©% ^ ' * # ° ] @ _ ° ` und Deutung der Hörermanuskripte zur dritten Genfer Vorlesung über allgemeine Sprachwissenschaft (1910-1911). Univ. Diss. Düsseldorf. http: / / docserv.uniduesseldorf.de/ servlets/ DocumentServlet? id=3481 (Stand: Oktober 2011). <?page no="298"?> 298 Kleine und große Korpora - Spezialkorpora für Spezialfragen URL 7: Škvarnová, Petra (2010): Ausgewählte tschechische Augmentativa und ihre deutschen Äquivalente im tschechisch-deutschen Parallelkorpus. Bc. Abschlussarbeit. http: / / is.muni.cz/ th/ 151415/ pedf_b/ (Stand: Oktober 2011). ! % - ' * È ` " Á @ ^ [ " ¥ ` " im Roman ‘Spieltrieb’ von Juli Zeh. In: Acta Facultatis Philosophicae Universitatis Ostraviensis. Studia Germanistica 6, S. 9-18. ! % - ' * ] " # Á @ Á basierte Untersuchung zu Stimmkommentierungen in deutschen Romanen. In: Acta Facultatis Philosophicae Universitatis Ostraviensis. Studia Germanistica 8, S. 43-51. ! % - ' _ * # || ` < ° ` Á rungsmittel. In: Acta Facultatis Philosophicae Universitatis Ostraviensis. Studia Germanistica 10. Wolf, Norbert Richard (2010): Korpora in der Korpuslinguistik. In: Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.): Kompendium Korpuslinguistik. Eine Bestandsaufnahme aus deutsch-tschechischer Perspektive. Heidelberg, S. 17-25. <?page no="299"?> ® Zur Rolle von Kleinkorpora in der linguistischen Forschung 1. Einleitung Kleine Textkorpora spielen in der gegenwärtigen linguistischen Forschung eine nicht zu übersehende Rolle. Im vorliegenden Aufsatz wird der Frage nachgegangen, welchen Beitrag kleine Textkorpora neben den großen Korpora leisten können und für welchen Forschungszweck solche Textsammlungen geeignet sind. In diesem Zusammenhang werden einige Probleme und Defizite in Hinsicht auf die Vertretung der einzelnen Kommunikationsbereiche und Textsorten in den bereits bestehenden großen Korpora erwähnt und somit die Erstellung von Kleinkorpora gerechtfertigt. Im Anschluss daran werden verschiedene Kriterien behandelt, die bei der Erstellung von Kleinkorpora in Betracht zu ziehen sind. Als Beispiel wird ein Kleinkorpus mit Wirtschaftstexten herangezogen und seine Struktur charakterisiert. Das Augenmerk wird ebenfalls auf die Bearbeitung von Primär- und Metadaten gerichtet. Im letzten Teil des Beitrags werden einige Ergebnisse der Analyse des kleinen Wirtschaftskorpus auf ihre Gültigkeit überprüft. Auf diese Weise wird die Relevanz von Kleinkorpora in der linguistischen Forschung hinterfragt. 2. Begriffsbestimmung, Stellung und Nutzen von Kleinkorpora Unter Kleinkorpora werden nach Carmen Scherer solche schriftlichen und/ oder mündlichen Textsammlungen verstanden, die weniger als eine Million Token enthalten (vgl. Scherer 2006, S. 16). Die Bezeichnung ‘Kleinkorpus’ bezieht sich lediglich auf quantitative Klassifizierungskriterien und sagt nichts über Funktion, Thematik oder Sprache des Kleinkorpus aus. In der Regel entstehen Kleinkorpora im Rahmen von kleineren linguistischen Forschungsprojekten (wie etwa Dissertationen) zum Zweck einer präzisen und umfassenden Beschreibung eines bestimmten Kommunikationsbereichs oder einer bestimmten Textsorte. Ihre Erstellung ist vor allem dann von Belang, wenn die in großen Korpora (wie etwa in dem IDS oder im Kernkorpus DWDS) befindlichen Texte für einen bestimmten Kommunikationsbereich nicht ausreichend repräsentativ oder erst gar nicht vorhanden sind. <?page no="300"?> 300 Kleine und große Korpora - Spezialkorpora für Spezialfragen Kleinkorpora können beispielsweise mit dem Ziel entstehen, eine gewisse Sprachvarietät typologisch abzudecken. Auf diese Weise werden verschiedene Dialekt-, Fachsprachen- und Gruppensprachenkorpora geschaffen. Sie repräsentieren jeweils einen speziellen Kommunikationsbereich. Daher hat sich in der Korpuslinguistik der Begriff ‘Spezialkorpora’ etabliert, in dem vornehmlich auf die Thematik Bezug genommen wird (vgl. Scherer 2006, S. 28f.; Lemnitzer/ Zinsmeister 2010, S. 106). Ein wesentliches Desiderat der gegenwärtigen Korpuslinguistik besteht darin, dass es bisher kein zentrales Register für deutsche Korpora (ebd., S. 107), geschweige denn Spezialkorpora gibt, was den Zugang zu diesen speziellen Texten erschwert. Kleine Korpora nehmen insbesondere in der Fachsprachenforschung eine wichtige Stellung ein. Problematisch ist allerdings die Tatsache, dass Fachtexte bei der Erstellung von großen Korpora nicht ausreichend berücksichtigt werden. Sehr große Textkorpora mit mehr als einer Milliarde Token (siehe Scherer 2006, S. 16), wie das IDS-Korpus, stellen eine repräsentative Sammlung von journalistischen und belletristischen Texten dar. Das IDS-Korpus ist zugleich eines der wenigen, das auch Fachtexte umfasst. Die einzelnen Funktionalstile werden in diesem Korpus allerdings unterschiedlich gewichtet, denn die Presse- und die belletristischen Texte sind im Vergleich zu den Fachtexten überproportional vertreten. Betrachtet man die Zusammensetzung des öffentlichen Fachsprachenkorpus des IDS näher, kann man einige Defizite entdecken. Insgesamt 10 nicht öffentliche und 12 öffentliche Werke aus verschiedenen Fachbereichen, die das IDS- Fachsprachenkorpus bilden, können nicht als repräsentatives Fachsprachenkorpus angesehen werden (vgl. URL 1). Die Fachkommunikation ist nämlich sehr vielfältig, hat mehrere Dimensionen und schließt viele Fachbereiche, Kommunizierende, Kommunikationssituationen und Textsorten ein. Möchte man linguistisch relevante Daten über einen bestimmten Fachbereich gewinnen, müsste man Texte heranziehen, die sich hinsichtlich der horizontalen Gliederung von Fachsprachen (also der Gliederung nach einzelnen Fachbereichen, vgl. dazu Roelcke 1999, S. 34) diesem bestimmten Fachbereich zuordnen lassen. Da das IDS-Fachsprachenkorpus durch Texte aus unterschiedlichen Fachbereichen - im Besonderen Literaturwissenschaft, Psychologie, Pädagogik, Politik - repräsentiert wird, sind relevante Aussagen über einen bestimmten Fachbereich nicht möglich. <?page no="301"?> 301 Zur Rolle von Kleinkorpora in der linguistischen Forschung Sigle Bezeichnung Texte Größe in Millionen von laufenden Wortformen FSP/ BDJ Dirk Blotzheim: Ernst Jüngers Heldenehrung [Sachbuch] (2000) 1 0,05 FSP/ BRT Rigo Baladur: Der stille Tod [Sachbuch] (2001) 1 0,14 FSP/ GEH Eva Gösken, Die Hüterin der Verwandlungen [Sachbuch] (2003) 1 0,05 FSP/ JDI Jutta Dietrich: Ich bin okay! [Sachbuch, Ratgeber] (2006) 1 0,04 FSP/ LBK Brigitte Lühl-Wiese: Franz Kafka - Der Schacht von Babel [Fachbuch] (1999) 1 0,03 FSP/ SCP Claudia Sciborski: Die Bedeutung des Personbegriffs für die Pädagogik [Fachbuch] (2003) 1 0,03 FSP/ SPY Peter Soppa: Der Yeti - oder so geht Leben [Sachbuch] (2000) 1 0,03 FSP/ SRN Rolf F. Schütt: Zurück zur postökologistischen Natur [Fachbuch] (1998) 1 0,04 FSP/ SRU Rolf F. Schütt: Am schnellsten vermehrt sich die Unfruchtbarkeit [Essays] (1998) 1 0,05 FSP/ TPK Petra Tataryn: Kinderphilosophie im Literaturunterricht [Fachbuch] (2001) 1 0,02 FSP/ UBW Ulrich Beck: Was ist Globalisierung? [Sachbuch](1997) 1 0,06 FSP/ WJW Juliane Weibring: Die Waldorfschule und ihr religiöser Meister [Sachbuch] (2000) 1 0,07 FSP Fachsprachenkorpus 12 0,62 Tab. 1: Das öffentliche Fachsprachenkorpus des IDS (URL 1) Problematisch in diesem Korpus ist die Vertretung einzelner Fachtextsorten und Medien. Sieben Sachbücher, vier Fachbücher und ein Essay, die das öffentliche IDS-Fachsprachenkorpus darstellen, decken das breite Spektrum verschiedener Fachtextsorten und Medien nicht hinreichend ab. Darüber hinaus bestehen zwischen Fach- und Sachbüchern in Bezug auf ihre Makro- und Mikrostruktur beträchtliche Unterschiede, was zum Teil durch einen unterschiedlichen Abstraktionsgrad bedingt ist. <?page no="302"?> 302 Kleine und große Korpora - Spezialkorpora für Spezialfragen Des Weiteren ist der funktionale Aspekt von Fachtextsorten zu berücksichtigen. Im IDS-Fachsprachenkorpus sind vor allem Texte zu finden, bei denen die informative und belehrende Funktion in den Vordergrund tritt. Texte, die eine Instruktionsfunktion, wie etwa Gebrauchsanweisungen, oder normative Funktion, wie etwa Gesetzestexte, erfüllen, sind im IDS-Korpus nicht ausreichend vertreten. Ein weiteres Problem besteht darin, dass sich der Wissens- und Kenntnisstand innerhalb eines Faches ständig erweitert und vertieft, was sich in der Terminologiebildung widerspiegelt. Aus diesem Grund ist es etwa im Rahmen der übersetzungsrelevanten Terminologiearbeit wichtig, aktuelle Texte aus einem bestimmten Fachbereich zu analysieren und entsprechende Parallel- und Übersetzungskorpora zu erstellen. Die Erstellung eines repräsentativen Fachsprachenkorpus, das als Referenzkorpus Anwendung finden könnte, gilt als großes Desiderat der Fachsprachenforschung. Im Hinblick auf die bereits erwähnte Vielfalt der Fachkommunikation und eine große Anzahl von verschiedenen Fachsprachen erweist sich dies gleichwohl als äußerst problematisch. Stattdessen entstehen im Rahmen verschiedener Forschungsarbeiten kleine Fachsprachenkorpora, die entweder für einen Kommunikationsbereich oder für eine Textsorte repräsentativ sind. Dennoch werden sie nur im Rahmen einer kleinen Forschungsgruppe ausgenutzt. Problematisch bleibt weiterhin die Zugänglichkeit und die damit verbundenen Nutzungs- und Urheberrechte. 3. Kriterien bei der Erstellung von Kleinkorpora (am Beispiel eines Wirtschaftskorpus) Im Rahmen der Recherchen zu meiner Dissertation Grammatische Mittel der Informationskondensierung in Wirtschaftstexten stand ich vor der Aufgabe, solche Texte auszuwählen, die den sehr heterogenen Sprachbereich der Wirtschaft wenigstens zum Teil repräsentieren könnten und zugleich für die Analyse von Kondensierungsformen (wie etwa den satzwertigen Infinitiv-, Partizip-, « " < ` ` ¡ ' " ° ® 2011a). Das gesetzte Forschungsvorhaben konnte durch die Analyse des einzigen Werkes im IDS-Fachsprachenkorpus, das sich thematisch zum Sprachbereich der Wirtschaft zuordnen lässt - das Sachbuch von Ulrich Beck aus dem Jahre 1997 über Globalisierung (siehe Tab. 1) - nicht realisiert werden. Bei der Erstellung von spezialisierten Kleinkorpora sind mehrere Faktoren zu beachten. In der Vorbereitungsphase ist es wichtig, die Fragestellung des For- <?page no="303"?> 303 Zur Rolle von Kleinkorpora in der linguistischen Forschung schungsprojekts genau abzugrenzen. Dies spielt selbstverständlich bei jedem Korpusprojekt eine wesentliche Rolle, denn danach richten sich die Textauswahl, der Korpusumfang, die Annotierungsebenen, die Verfahren und die Instrumente der Analyse (Ensslin 2008, S. 36). In der Korpuslinguistik wird zwischen ‘korpusgestützten’ (auch ‘korpusbasierten’, auf Englisch corpus based) und ‘korpusgesteuerten’ (auch ‘korpusgeleiteten’, auf Englisch corpus driven) Forschungsprojekten unterschieden. Korpusgestützte Projekte gehen von introspektiv gewonnenen Hypothesen aus und werden anschließend mit Hilfe von zweckkonstruierten Korpora überprüft. Korpusgesteuerte Projekte beruhen dagegen auf einer explorativen Anwendung von Korpusanalyseinstrumenten, die weiter zu untersuchende Sprachmuster aufdeckt (ebd., S. 36f.). Die funktionale Auslastung von Kondensierungsformen in Wirtschaftstexten kann am besten im Rahmen eines korpusgestützten Forschungsprojekts ermittelt werden. Damit ein so heterogenes Gebilde, wie die Fachsprache der Wirtschaft durch die ausgewählten Texte wenigstens zum Teil erfasst werden kann, müssen bestimmte Kriterien für die Textauswahl festgesetzt werden. Die Textauswahl erfolgte zum einen unter Einbeziehung der horizontalen Gliederung von Fachsprachen, die auf der Zugehörigkeit zu einzelnen Fachbereichen beruht. Hinsichtlich dieser Gliederung war es wichtig, dass sich die Texte auf Grund ihrer Makrostruktur dem Sprachbereich der Wirtschaft zuordnen lassen. Ein zentrales Forschungsziel der Dissertation war es, festzustellen, welchen Einfluss der Abstraktionsgrad auf den Gebrauch von Kondensierungsformen ausübt. Daher war es wichtig, solche Texte für Analysezwecke heranzuziehen, die einen unterschiedlichen Abstraktionsgrad aufweisen. Die Textauswahl wurde zugleich unter Berücksichtigung der vertikalen Gliederung von Fachsprachen, die auf der Zugehörigkeit zu unterschiedlichen Abstraktionsebenen im Rahmen eines Fachbereichs beruht, durchgeführt (zur Fachsprachengliederung siehe Roelcke 1999, S. 34ff.). Ausgehend von dem Forschungsvorhaben war es nötig, die heterogene Wirtschaftssprache einer Binnenstrukturierung zu unterziehen und der Frage nachzugehen, inwiefern sich einzelne wirtschaftssprachliche Texte in Bezug auf die funktionale Auslastung von Kondensierungsformen voneinander unterscheiden. Solch eine stilistische Erscheinung, wie die Informationskondensierung, soll an unterschiedlichen Textsorten und in unterschiedlichen Kommunikationssituationen untersucht werden. <?page no="304"?> 304 Kleine und große Korpora - Spezialkorpora für Spezialfragen Um dem Anspruch an Ausgewogenheit bei der Erstellung von Spezialkorpora gerecht werden zu können, bei der sich die Heterogenität der Sprache widerspiegelt, müssen sowohl textexterne als auch textinterne Kriterien in Betracht gezogen werden. Aus dem Zusammenspiel dieser Kriterien ergibt sich die Textfunktion, die für einzelne Textsorten konstitutiv ist und die sich auf den Gebrauch von Kondensierungsformen auswirkt (zu diesem Thema siehe ® @ Die Textauswahl für kleine Korpora sollte nicht opportunistisch erfolgen, sondern immer auf Textsorten bezogen sein, die Gemeinsamkeiten in ihrer Makro- und Mikrostruktur aufweisen, so dass die erworbenen Erkenntnisse über die beobachtete Datenmenge hinaus generalisierbar sind und unser Verständnis von der Funktion und Verwendung von sprachlichen Mitteln vertieft werden kann (Lemnitzer/ Zinsmeister 2010, S. 52). Für die Ermittlung textueller und pragmatisch-funktionaler Aspekte des Gebrauchs von Kondensierungsformen, müssen solche Texte herangezogen werden, die unterschiedliche kommunikative Funktionen erfüllen. Für die Analysezwecke wurden drei computerlesbare Kleinkorpora erstellt, die aus Wirtschaftstexten bestanden, die sich folgenden drei Kommunikationsbereichen zuordnen lassen - der Theoriesprache, der Handlungssprache und der ! ` ' " ° ® % #@ ±|@´ % #@ |@ @ ^ @ * ! & " ` " # " ] | ' ® % #@ Bei dieser Gliederung wird der Gesichtspunkt der Kommunikation, der Textfunktion und -sorten einbezogen und zugleich wird der Grad der Abstraktion und die Informationsdichte (im Sinne der Textkompliziertheit und Informationsfülle) berücksichtigt. Sollten relevante Informationen über einen Fachbereich gewonnen werden, ist es ebenfalls von Belang, verschiedene Kommuni- <?page no="305"?> 305 Zur Rolle von Kleinkorpora in der linguistischen Forschung kationsrichtungen in der Fachkommunikation zu berücksichtigen. Im Rahmen des hier präsentierten Korpus wird sowohl fachinterne als auch fachexterne Kommunikation einbezogen. Weitere Kriterien bei der Erstellung von Kleinkorpora stellen die Textlänge und der Korpusumfang dar. Bei der Erstellung von spezialisierten Kleinkorpora taucht die Problematik des Anspruchs auf Repräsentativität auf. Laut einigen Autoren, wie etwa Sinclair oder Williams, sind wissenschaftssprachliche Kleinkorpora zu klein und zu spezialisiert, um diesem Anspruch gerecht zu werden (Sinclair 2005, Williams 2002; zit. nach Ensslin 2008, S. 37). Die Textauswahl für kleine Korpora sollte dennoch so erfolgen, dass ihr Umfang und die spezifische Textauswahl quantitativ signifikante Ergebnisse ermöglicht (ebd.), wobei man anhand der Analyse vergleichbarer Korpora zu ähnlichen Ergebnissen gelangen sollte. Laut Bowker und Person sollte der Umfang von Kleinkorpora zwischen ein paar Tausend und ein paar Hunderttausend Token betragen (Bowker/ Person 2002 zit. nach Ensslin 2008, S. 37). Um möglichst objektive Ergebnisse gewinnen zu können, sollten im Falle der Kleinkorpora solche Texte gewählt werden, die im Rahmen einer Textsorte von unterschiedlichen Autoren verfasst werden, so dass die Relevanz von entsprechenden Aussagen nicht durch den individuellen Stil des Autors beeinträchtigt wird. Ein weiteres Kriterium für die Erstellung und zugleich ein weiterer Problembereich ist die Verfügbarkeit und die Zugänglichkeit der zu analysierenden Texte und die damit verbundenen Urheberrechte - insbesondere dann, wenn das Kleinkorpus der Öffentlichkeit zugänglich gemacht werden sollte. 4. Textkorpus Das untersuchte Wirtschaftskorpus besteht aus drei Teilkorpora, die den oben erwähnten Abstraktions- und Kommunikationsebenen entsprechen. Theoriesprache: Die höchste Abstraktionsebene wird durch Vahlens Kompendium der Wirtschaftstheorie und Wirtschaftspolitik (im Folgenden als VK abgekürzt) repräsentiert (zu bibliographischen Angaben siehe Literaturverzeichnis). Dieses Kompendium setzt sich zum Ziel, dem Leser eine Einsicht in die wichtigsten Bereiche der modernen Volkswirtschaftslehre zu bieten. Es beinhaltet wissenschaftliche Aufsätze von unterschiedlicher Länge, in denen die informative und belehrende Textfunktion hervortritt. Ein charakteristisches Merkmal der <?page no="306"?> 306 Kleine und große Korpora - Spezialkorpora für Spezialfragen Theoriesprache ist ein deutlich höherer Abstraktionsgrad, der mit der Informationskomprimierung aber auch mit einer größeren Füllung der Teilsätze mit | ` ' ® % #@ ±|@ @ ^ " " ^ die für wissenschaftliche Fachtexte charakteristische Tendenz zur sprachlichen Kürze bestätigt oder widerlegt werden. Handlungssprache: Die Handhabung verschiedener technischer Arbeitsmittel, die in der Warenproduktion verwendet werden, ist üblicherweise in der technischen Dokumentation ausführlich erläutert. Einen Teil des untersuchten Korpus stellen 25 Gebrauchs- und Bedienungsanleitungen für technische Mittel wie Bearbeitungsmaschinen, Steuer- und Regelungstechnik, Filteranlagen, aber auch feinere Werkzeuge dar, die in elektronischer Form online verfügbar sind. Diese instruktiven Texte haben eine Appellfunktion und zeichnen sich durch eine erkennbare Schablonisierung sowohl auf der Makroals auch auf der Mikroebene aus (ebd.). Vermittlungssprache: Fachkenntnisse spielen in der heutigen Informationsgesellschaft eine zunehmend wichtige Rolle, was die Rolle der populärwissenschaftlichen Vermittlung hervorhebt. Die niedrigste Abstraktionsstufe wird durch die WirtschaftsWoche (im Folgenden als WiWo bezeichnet) repräsentiert. Neben der informativen Funktion tritt darüber hinaus auch die unterhaltende Funktion und eine narrative Darstellungsform in den Vordergrund. Die ungebundene Syntax der populärwissenschaftlichen Darstellung bietet mehr Raum für sprachliche Varianz (ebd.). Das im Rahmen des Dissertationsprojekts erstellte Textkorpus umfasst insgesamt rund 480 000 Tokens: 192 000 Tokens (Theoriesprache), 116 000 Tokens (Handlungssprache), 176 000 Tokens (Vermittlungssprache). 5. Die Bearbeitung von Primär- und Metadaten Im Rahmen des Dissertationsprojekts erfolgte die Bearbeitung von Primärdaten, die unter Verwendung von OCR-Software computerlesbar gemacht wurden, mit Hilfe von MS Office Word 2007. Dieses Programm ist ebenfalls für einfachere Analyseaufgaben wie die Errechnung der mittleren Satzlänge, der absoluten Häufigkeit eines Tokens oder des Anteils von Verbalabstrakta mit dem Suffix -ung im Text geeignet (siehe Anhang Nr. 1). <?page no="307"?> 307 Zur Rolle von Kleinkorpora in der linguistischen Forschung Für die Analyse der textuellen, funktional-stilistischen und sprachpragmatischen Faktoren der Informationskondensierung war es notwendig, den Text als Ganzes und die Kondensierungsmittel in ihrer Synergie zu betrachten. Für die Ermittlung der funktionalen Auslastung von einzelnen Kondensierungsformen mussten die Texte linguistisch annotiert werden, denn nur so ließen sich statistisch relevante Daten gewinnen. In Bezug auf die linguistische Annotation von Kleinkorpora bestehen mehrere Möglichkeiten. Heutzutage stehen verschiedene Annotationsprogramme zur Verfügung, die die Texte nach vorgegebenen Kriterien automatisch analysieren und mit entsprechenden Tags versehen (siehe dazu URL 2). Eine andere Möglichkeit besteht in der Annotation im XML-Format, die ebenfalls automatisch durchgeführt werden kann (Lemnitzer/ Zinsmeister 2010, S. 96; Beispiel ebd.): <w pos="ART">ein</ w><w pos="ADJA"> einfaches</ w><w pos="NN">Beispiel</ w> Die linguistische Annotation im Rahmen des Dissertationsprojekts erfolgte mit Hilfe von MS Office Access 2007. Dieses Programm eignet sich für die Verwaltung von größeren Datenbanken und kann zur Lösung von verschiedenen Forschungsaufgaben eingesetzt werden. Informationen können zum Beispiel mit Hilfe von satzwertigen Infinitiv-, Partizip- oder Nominalphrasen kondensiert werden. Diese erfüllen im Satz verschiedene syntaktisch-semantische Funktionen. Aus diesem Grund war eine morphologische, syntaktische und auch semantische Annotation von Belang, die bei MS Office Access jedoch manuell vorzunehmen ist (siehe dazu Anhang Nr. 2). Zugleich wurde der Frage nachgegangen, wie die Textstruktur (d.h. die bevorzugten Satzmuster, das Verhältnis Parataxe - Hypotaxe - Einfachsatz) den Gebrauch von Kondensierungsformen beeinflusst. Die entsprechenden Metadaten wurden mit MS Office Excel 2007 bearbeitet. Tab. 2: Verhältnis zwischen den Einfachsätzen (ES), Satzverbindungen (SV) und Satzgefügen '#& ' ® % #@ <?page no="308"?> 308 Kleine und große Korpora - Spezialkorpora für Spezialfragen Die funktionale Auslastung von einzelnen Kondensierungsformen muss immer im Verhältnis zu konkurrierenden sprachlichen Mitteln untersucht werden. Wird zum Beispiel die Auslastung von finalen Infinitivkonstruktionen analysiert, müssen sowohl explizite Finalnebensätze als auch äquivalente satzwertige Strukturen wie Nominalgruppen mit einbezogen werden (siehe folgende Abb). Abb. 2: Ersatz adverbialer Finalsätze durch kondensierte Strukturen - Infinitivkonstruktionen " « ` ' ® % #@ 6. Validität von Forschungsergebnissen der Kleinkorpora Das Ziel der empirischen Untersuchung war es, die Validität von einigen Forschungsergebnissen, die im Rahmen der Dissertation gewonnen wurden, an sehr großen Korpora zu überprüfen und auf diese Weise die Relevanz von Kleinkorpora in der linguistischen Forschung zu hinterfragen. Die Ergebnisse von Untersuchungen sollten nämlich an vergleichbaren, anderen Korpora als denen, auf die sie sich stützen, nachprüfbar sein (Lemnitzer/ Zinsmeister 2010, S. 11). Dementsprechend wurden einige Ergebnisse im Bereich der Infinitivkonstruktionen, die anhand der Analyse der drei Teilkorpora gewonnen wurden, im Archiv der geschriebenen Sprache des IDS-Korpus auf ihre Gültigkeit überprüft (siehe URL 3). <?page no="309"?> 309 Zur Rolle von Kleinkorpora in der linguistischen Forschung Bei der Wahl einer Infinitivkonstruktion sind nicht nur syntaktische, sondern auch semantische Kriterien von Belang. Die Möglichkeit der Verwendung von Infinitivkonstruktionen ist eng mit der Semantik der Matrixverben verbunden, also übergeordneten Verbphrasen, die eine Infinitivphrase regieren (siehe " ° [ ¦´ ® % #@ ¦ ||@ @ ^ ` " " ^ Matrixverben wurden mehrere Verbgruppen ermittelt, je nachdem, ob von diesen Verben satzwertige Infinitivphrasen oder explizite dass-Nebensätze abhängen. Dabei ließen sich im Korpus bestimmte Tendenzen beim Gebrauch der einen oder der anderen Variante beobachten. A) Nur dass-Satz bzw. Tendenz zur Bildung von dass-Sätzen Verben, die auf Grund ihrer Valenz eine Akkusativergänzung verlangen und den reinen Akt des Mitteilens oder verschiedene Arten des Sagens ausdrücken, wie z.B. andeuten, angeben, antworten, erzählen, mitteilen und sagen oder auch Verben, mit denen die Mitteilung begründet wird, wie argumentieren, werden im untersuchten Wirtschaftskorpus auf allen Abstraktionsebenen ausschließlich durch explizite dass-« ° ¡ ' ` @ ® % S. 71ff.). Der Gebrauch von abhängigen Infinitivkonstruktionen ist entweder syntaktisch und/ oder semantisch blockiert (wie bei fragen) oder wird gemieden (wie bei argumentieren): (1) Die Vereine argumentieren, dass sie als Arbeitgeber die Nationalspieler bei deren schwarz-rot-goldenen Einsätzen bezahlen - [...]. (WiWo 7, S. 40) Bei den Verben erzählen und fragen hat die Recherche im IDS-Korpus gleiche Ergebnisse geliefert: diese Verbphrasen regieren ausschließlich explizite dass- Nebensätze. Implizite Kondensierungsformen in Form von Infinitiven sind nach den anderen oben angeführten Matrixverben zwar belegt, sie kommen aber selten vor. (2) Aus allen Parteien hatte sich Widerstand organisiert, die FDP hielt sich neutral zurück, um ihren Gemeindepräsidenten nicht zu ‘versalzen’. Der Gemeinderat argumentierte, eine aktive Bodenpolitik betreiben und Baulandreserven schaffen zu müssen. (A10/ MAR.07915 St. Galler Tagblatt, 24.03.2010, S. 42; Ist ein Volksentscheid nach 22 Jahren verjährt? ) Ähnliches gilt für Verben der Kognition und der Perzeption wie wissen in der Bedeutung ‘kennen’ und manche Verben der mentalen Aktivität, die die Beweisführung oder Begründung einer Handlung ausdrücken, wie etwa beweisen, <?page no="310"?> 310 Kleine und große Korpora - Spezialkorpora für Spezialfragen nachweisen (vgl. ® % #@ ¦ ||@). Während das Verb wissen in der oben angeführten Bedeutung sowohl im untersuchten Wirtschaftskorpus als auch im großen IDS-Korpus ausschließlich durch explizite dass-Nebensätze erweitert wird, tritt das Verb beweisen im IDS-Korpus ebenfalls als regierendes Element von impliziten Infinitivkonstruktionen. In dieser Funktion ist dieses Matrixverb im Wirtschaftskorpus nicht belegt. Kondensierte Formen werden beim Ausdruck der Vorzeitigkeit gebraucht. (3) Nachdem das Vermittlungsverfahren vor der Friedensrichterin unvermittelt geblieben war, hatte der Einzelrichter folgendes beschlossen: Die ehemalige Angestellte muss als Klägerin beweisen, im September 2009 wegen Krankheit zu 100 Prozent arbeitsunfähig gewesen zu sein. (A11/ MAI.08050 St. Galler Tagblatt, 21.05.2011, S. 55; Küsse sorgen für Missstimmung) Emotionsbezeichnende Verben wie befürchten und Syntagmen wie X {sein} froh, dass, die sowohl Infinitivkonstruktionen als auch dass-Nebensätze regieren können, kommen im Wirtschaftskorpus abgesehen vom Abstraktionsgrad ausnahmslos nur in Verbindung mit expliziten dass-Nebensätzen vor, obwohl auf allen Abstraktionsebenen eine Tendenz zur Bildung von Infinitivkonstruktionen zu beobachten ist (vgl. ® % #@ ¦ ||@ ¡ das folgende Beispiel ebd.). (4) + ! # er die Geschicke des 500-Mann-Unternehmens bald an einen Nachfolger übergeben kann. (WiWo 9, S. 21). Die Recherche im IDS-Korpus hat ergeben, dass beide erwähnten Matrixphrasen ebenfalls satzwertige Infinitivphrasen regieren können. (5) Präsident Edgar Haberstroh freute sich an der Jahresversammlung über das Wachsen des Vereins um 5 auf 71 Aktive. Urs Eberli, Dienstchef Seepolizei, sagte: ‘Die Seepolizei ist froh, auf die Dienste der Seeretter zählen zu dürfen’, 2009 gehe als ereignisreiche Saison in die Statistik ein. (A10/ FEB.02781 St. Galler Tagblatt, 10.02.2010, S. 34; 32 Boote in Seenot) Um festzustellen, ob das Syntagma X {sein} froh, dass im IDS-Korpus implizite Infinitivkonstruktionen oder eher explizite dass-Nebensätze regiert, wurden folgende einfache Suchanfragen formuliert - &sein froh / +w1 dass für explizite Varianten und &sein froh / +s0 zu für Infinitivkonstruktionen. Für Ersteres hat die Suchmaschine insgesamt 19 397 Treffer, für Letzteres insgesamt 8 851 Treffer geliefert. <?page no="311"?> 311 Zur Rolle von Kleinkorpora in der linguistischen Forschung Dabei muss man bedenken, dass dass-Nebensätze ebenfalls dann realisiert werden, wenn die syntaktischen Bedingungen für deren Ersatz durch Infinitivkonstruktionen erfüllt sind. Ebensolche Treffer sind für diese Fragestellung relevant und sollten im Besonderen analysiert werden. Alle 19 397 Treffer durchzugehen und Fehltreffer auszusortieren, die bei der Arbeit mit Abstandsoperatoren nicht hundertprozentig auszuschließen sind, wäre sicher sehr mühsam, bei anderen, hochfrequenten Ausdrücken sogar unmöglich. Eine zu große Datenmenge, die zu bearbeiten ist, erweist sich bei sehr großen Korpora bisweilen als kontraproduktiv. B) Nur Infinitivkonstruktion bzw. Tendenz zur Bildung von Infinitivkonstruktionen Verben wie beabsichtigen, versuchen, die eine Intention zum Ausdruck bringen, treten im Wirtschaftskorpus lediglich in Verbindung mit impliziten Infinitivkonstruktionen auf (vgl. ® % #@ ¦3). Die Realisierung des im abhängigen Objektnebensatz ausgedrückten Sachverhalts bezieht sich meistenteils auf das Subjekt der übergeordneten Proposition, was die Wahl der sprachökonomischen Variante begünstigt. Im IDS-Korpus sind dass-Nebensätze, die vom Matrixverb beabsichtigen abhängen, zwar belegt, jedoch nur in Verbindung mit einem Nebensatz, dessen Subjekt mit dem Subjekt des übergeordneten Hauptsatzes nicht übereinstimmt. Dass-Nebensätze, die von versuchen regiert werden und bei denen das Subjekt des Haupt- und des Nebensatzes referenzidentisch sind, sind im IDS-Korpus hingegen zu finden. Dennoch kommen sie eher selten vor. Neben der Intention wird in expliziten Nebensätzen ein potenzieller Sachverhalt zum Ausdruck gebracht, dessen Verwirklichung in der Zukunft liegt. Die Potenzialität wird mitunter durch das Modalverb können intensiviert. Solche Nebensätze sind meistens in der direkten Rede belegt. (6) ‘Wir versuchen auch, dass wir einige Spitzenteams nach Pinkafeld lotsen können. Damit soll es auch in der kommenden Saison wieder große Nachwuchsturniere des SC Pinkafeld geben’, ist Nachwuchsleiter Martin Warias zuversichtlich. (BVZ10/ JAN.00202 Burgenländische Volkszeitung, 06.01.2010, S. 58; 2000 Fans feuerten an) Der Vergleich hat gezeigt, dass einige Matrixverben, die im Wirtschaftskorpus entweder nie als regierendes Element von impliziten Infinitivkonstruktionen (beweisen) oder von expliziten dass-Nebensätzen auftreten (versuchen), im <?page no="312"?> 312 Kleine und große Korpora - Spezialkorpora für Spezialfragen IDS-Korpus dennoch belegt sind. Es handelt sich meistenteils um Randerscheinungen und solche sind in den kleineren Korpora üblicherweise nicht ausreichend vertreten, um einen Signifikanzgrad erreichen zu können. Auf der anderen Seite können Randerscheinungen ebenfalls in den kleineren Korpora aufgedeckt werden. Folgende zwei Beispiele zeigen eine funktionale Ausweitung der finalen Infinitivkonstruktion im untersuchten Wirtschaftskorpus. In der Regel ist der Ersatz eines finalen Adverbialsatzes nur dann möglich, wenn das Subjekt des Hauptsatzes mit dem Subjekt des Nebensatzes referenzidentisch ist bzw. wenn in der abhängigen Infinitivkonstruktion die man- Agensphrase hinzuzudenken ist, wobei in Hauptsätzen zugleich Passivkonstruktionen bzw. deren Äquivalente zu verzeichnen sind. In den folgenden Belegen sind diese morphosyntaktischen Kriterien nicht erfüllt, doch wird kondensierten Infinitivkonstruktionen der Vorzug gegeben. Diese Erscheinung wurde lediglich in Texten mit einem höheren Abstraktionsgrad, also auf der Ebene der Theorie- und der Handlungssprache, beobachtet (vgl. ® 2009, S. 77; auch für Beispiele). (7) Um zu einem Gleichgewicht zurückzukehren, stehen verschiedene Maßnahmen zur Verfügung. (VK S. 272) (8) Das Gerät hat Auffangklauen, um es in die gewünschte Position zu bringen. (Technische Dokumentation der Firma Esters Elektronik, URL 4) Aus dieser Beobachtung ergibt sich Folgendes: Die Analysen von zweckkonstruierten Kleinkorpora können uns helfen, eine bessere Einsicht in die kontext- und textsortenbezogene Verwendung von sprachlichen Mitteln zu gewinnen, wobei verschiedene Kommunikationsbereiche und sprachpragmatische Aspekte berücksichtigt werden. So lassen sich beispielsweise der Gebrauch von Infinitivkonstruktionen in ganzen Texten bzw. in verschiedenen Textsorten nachvollziehen und bestimmte Tendenzen aufdecken. Textinterne und textexterne Faktoren, die die Textfunktion, die Makro- und Mikrostruktur und ferner auch den Gebrauch von sprachlichen Mitteln in konkreten Textäußerungen direkt beeinflussen, können anhand von kleineren, zweckkonstruierten Korpora bisweilen einfacher ermittelt werden als mit Hilfe von sehr großen Korpora. 7. Fazit Die Notwendigkeit, spezialisierte Kleinkorpora zu erstellen, ist durch mehrere Tatsachen begründet. Die Texte, die sich in sehr großen Korpora (wie etwa im IDS oder im Kernkorpus DWDS) befinden, repräsentieren nur bestimmte Kommunikationsbereiche und Textsorten. Da Fachtexte in diesen Korpora <?page no="313"?> 313 Zur Rolle von Kleinkorpora in der linguistischen Forschung nicht ausreichend vertreten sind, spielt die Erstellung von spezialisierten Kleinkorpora insbesondere in der Fachsprachenforschung eine besondere Rolle. Die Fachkommunikation ist sehr vielfältig, hat mehrere Dimensionen und schließt viele Fachbereiche, Kommunikationsteilnehmer, Kommunikationssituationen und Textsorten ein, was sich als ein wesentliches Hindernis für die Entstehung eines großen Fachsprachenkorpus, das als Referenzkorpus dienen würde, erweist. Die Arbeit mit spezialisierten Kleinkorpora in der Fachsprachenforschung ist vor allem dann sinnvoll, wenn man linguistisch relevante Daten über einen bestimmten Fachbereich gewinnen möchte. Bei der Erstellung solcher Korpora sind mehrere Kriterien zu berücksichtigen, die den Anspruch an Repräsentativität und Ausgewogenheit widerspiegeln - die horizontale und die vertikale Gliederung von Fachsprachen, verschiedene Kommunikationsrichtungen und die damit verbundenen Aspekte wie textexterne, textinterne Faktoren und die Textfunktion. Die Textauswahl für kleine Korpora sollte nicht opportunistisch erfolgen, sondern immer auf Textsorten bezogen sein, denn nur so lassen sich die gewonnenen Erkenntnisse generalisieren. Als nützliche Instrumente bei der Bearbeitung von Primär- und Metadaten haben sich MS Office Word, MS Office Excel und MS Office Access erwiesen. Die Bearbeitung erfordert lediglich grundlegende Kenntnisse dieser Software und ist somit einfach durchzuführen. Die linguistische Annotation muss jedoch größtenteils manuell vorgenommen werden. Der Vergleich einiger Forschungsergebnisse aus dem Bereich der Infinitivkonstruktionen als grammatisches Mittel der Informationskondensierung, die im Rahmen der Dissertation gewonnen wurden, mit der Recherche im IDS- Korpus hat einige Stärken, aber auch Schwächen beider Korpora aufgezeigt. Eine zu große Datenmenge, die bei sehr großen Korpora zu bearbeiten ist, kann sich mitunter als kontraproduktiv erweisen. Was verschiedene Randerscheinungen bei der Verwendung von sprachlichen Mitteln anbelangt, können sowohl kleine als auch sehr große Korpora für die linguistische Forschung einen Beitrag leisten. Während einige Randerscheinungen in den kleineren Korpora nicht ausreichend belegt sind, um einen Signifikanzgrad erreichen zu können, können bestimmte Tendenzen im Gebrauch von sprachlichen Mitteln mit Hilfe von kleinen Korpora einfacher aufgedeckt werden. Spezialisierte Kleinkorpora taugen somit vielmehr für eine repräsentative kontextbezogene Charakterisierung einer sprachlichen Erscheinung und konkrete Fragestellungen als für eine exhaustive Beschreibung des ganzen Sprachsystems. <?page no="314"?> 314 Kleine und große Korpora - Spezialkorpora für Spezialfragen Kleine Spezialkorpora lassen sich gut anwenden, wenn charakteristische Tendenzen und Stilzüge eines bestimmten spezialisierten Kommunikationsbereichs ermittelt werden sollen, wenn Forschungsaufgaben gelöst werden, die sich auf Makro- und Mikrostruktur von konkreten Textsorten konzentrieren. Literatur Quellen/ Korpustexte Apolte, Thomas/ Bender, Dieter/ Berg, Hartmut et al. (2007): Vahlens Kompendium der Wirtschaftstheorie und Wirtschaftspolitik. Bd. 1. 9. Aufl. München. Verlagsgruppe Handelsblatt (Hg.) (2005): Wirtschaftswoche. Nr. 1-9. Düsseldorf. URL 3: COSMAS II - Korpus des IDS Mannheim: http: / / www.ids-mannheim.de/ cosmas2/ (Stand: Februar 2012). URL 4: Technische Dokumentation der Firma Esters Elektronik GmbH, Bedienungsanleitung Nr. 20103, Prozessanzeiger SD 16: http: / / www.esters.de/ download/ mi/ 20103d-SD16.pdf (Stand: Februar 2012). Wissenschaftliche Literatur Beneš, Eduard (1979): Zur Konkurrenz von Infinitivfügungen und daß-Sätzen. In: Wirkendes Wort 29, S. 374-384. Ensslin, Astrid (2008): Möglichkeiten und Perspektiven korpusbasierter Fachtextanalyse. In: Heller, Dorothee (Hg.): Formulierungsmuster in deutscher und italienischer Fachkommunikation. Intra- und interlinguale Perspektiven. Bern, S. 31-49. Lemnitzer, Lothar/ Heike Zinsmeister (2010): Korpuslinguistik. Eine Einführung. 2. Aufl. Tübingen. ® % ' * È " « ` " ° # " Wirtschaft (Einleitung). In: Acta Facultatis Philosophicae Universitatis Ostraviensis. Studia Germanistica 3, S. 91-105. ® % ' * È " « ` " ° ] | $ (Teil II). In: Acta Facultatis Philosophicae Universitatis Ostraviensis. Studia Germanistica 5, S. 63-81. ® % ' * & " | " ` Wirtschaftstexten. Ostrava. ® % ' * & " | " ` ] | $ @ * % ! % & ' ` * < ven der Textanalyse. Tübingen, S. 39-51. Roelcke, Thorsten (1999): Fachsprachen. Berlin. Scherer, Carmen (2006): Korpuslinguistik. Heidelberg. <?page no="315"?> 315 Zur Rolle von Kleinkorpora in der linguistischen Forschung URL 1: Das öffentliche IDS-Fachsprachenkorpus: http: / / www.ids-mannheim.de/ cosmas2/ projekt/ referenz/ korpora1.html? sigle=FSP (Stand: Februar 2012). URL 2: http: / / www.linguistik.hu-berlin.de/ institut/ professuren/ korpuslinguistik/ linkssoftware (Stand: Februar 2012). Anhänge Anhang Nr. 1: Computergestützte Markierung von Verbalabstrakta mit -ung bei MS Office ] " ' ® % #@ ¦ <?page no="316"?> 316 Kleine und große Korpora - Spezialkorpora für Spezialfragen Anhang Nr. 2: Linguistische Annotation mit MS Office Access 2007 <?page no="317"?> Thomas Schneider Grundlosigkeit: Anmerkungen zum Problem der Quellen in der Literaturwissenschaft „Zu sterben, das ist Grammatik! “ Ernst Meister 1 I. Das Problem der Quellen philologischer Untersuchungen kann als ein pragmatisches und als ein prinzipielles betrachtet werden. Ein pragmatisches Problem ist es in der Korpuslinguistik, wenn es um die Definition dessen geht, was ein Korpus ist und welches Korpus als Quellenbasis einer phonetischen, morphologischen, lexikalischen oder grammatischen Untersuchung fungieren soll. Die Ausgangsfragen einer solchen Untersuchung sind fast immer so weit objektivierbar und damit so präzise formulierbar, dass der Spielraum für die Quellen, die der Untersuchung in Form eines (digitalen) Korpus zugrunde gelegt werden, so gering ist, dass entweder erst gar keine hermeneutischen Probleme entstehen oder eine Verständigung über mögliche hermeneutische Probleme auf pragmatische Weise möglich ist. Das Erkenntnisinteresse des Linguisten bestimmt mit der zu untersuchenden Sache einen überschaubaren hermeneutischen Horizont der Untersuchung: mit den zu untersuchenden Texten die entsprechenden Kontexte und damit das Quellenmaterial der Untersuchung. Ähnlich kann die Literaturwissenschaft verfahren, und ähnlich verfährt sie gegenwärtig in dem Prozess ihrer Transformation von einer Geisteszu einer umfassenden Kulturwissenschaft. An die Stelle der Frage nach dem Sinn eines Textes und seiner immanenten Interpretation ist weitgehend die Einstellung von Texten in kulturelle Kontexte getreten, aus denen heraus sie allererst verständlich werden sollen. Die Quelle der Erkenntnis ist nicht mehr (nur) ein bestimmter Text, auf den sich die hermeneutische Anstrengung als auf ein in seiner Einzigartigkeit zu erschließendes Kunstwerk bezieht, sondern mit einem Text (s)ein Kontext, der als immer schon mitgegebener hermeneutischer Horizont des Textes ausdrücklich auch mitthematisiert wird. Dies ist insofern ein Fortschritt, als die kulturellen und im engeren Sinne diskursiven Kontexte 1 Meister, Ernst: Es schlug einer aus dem Band Sage vom Ganzen den Satz (Meister 2011, Bd. 3, S. 97). <?page no="318"?> 318 Kleine und große Korpora - Spezialkorpora für Spezialfragen auch die immanente Interpretation von Texten immer schon mitbestimmt haben, ohne dass sie jedoch in ihrer hermeneutischen Funktion jeweils angemessen reflektiert wurden. Keine literaturwissenschaftliche Untersuchung kann sich heute dem mit dem Paradigma kultureller Intertextualität erreichten Stand hermeneutischer Reflexion verschließen, auch wenn die mit ihm verbundenen Grundsatzfragen der Explikation noch weitgehend harren mögen. Ergibt sich das Verständnis eines Textes diesem Paradigma zufolge jedenfalls allererst im Kontext eines Diskursfeldes, in dem der Text als ein diskursives Ereignis neben und gleichrangig mit anderen betrachtet wird - ganz analog dem Verfahren der Linguistik, Textbefunde nicht mehr nur rein aus sich selbst, sondern durch einen Vergleich mit anderen Textbefunden zu erklären -, so ist genau dies auch in der Literaturwissenschaft der Punkt, an dem mit der Öffnung des Textes auf Intertexte und also mit der Betrachtung von Texten innerhalb eines Text- Korpus die Möglichkeit einer Digitalisierung des basalen hermeneutischen Verfahrens der Erschließung von Quellen und damit die Möglichkeit der Objektivierung dieses Verfahrens sinnvoll gegeben scheint. Unter dem Titel KUWALU - Motivation und Grundzüge einer computergestützten Umgebung für die literatur- und kulturwissenschaftliche Recherche- und Analysearbeit haben Martin Butler, Wolfgang Hoeppner und Andreas Wagner das Programm einer solchen digitalen Erschließung von Quellen skizziert. Ausgehend von der Diagnose - Im Computerzeitalter gewinnt die digitale Archivierung, Verwaltung und Bearbeitung von Texten zunehmend an Bedeutung. Auch in den Philologien hat die digitale Speicherung und Aufbereitung kulturellen Wissens unter dem Stichwort eHumanities (enhanced Humanities) bereits Einzug gehalten. Obwohl das Potential dieser neuen Form der Textdatensammlung und -systematisierung für die Literatur- und Kulturwissenschaft unverkennbar ist, fehlt es bisher an Anwendungen, welche spezifische literaturbeziehungsweise kulturwissenschaftliche Herangehensweisen gezielt unterstützen. (URL 1) 2 - geht es den Autoren dabei nicht nur um die technisch-pragmatische Seite einer Erweiterung und Präzisierung der computerphilologischen Möglichkeiten, sondern um nicht weniger als das Programm einer grundsätzlichen „kulturwissenschaftlichen Neuorientierung der Literaturwissenschaft“, die sich auf der Basis eines „offeneren Textverständnisses [...], welches den literarischen Text als eine in verschiedenste kulturelle und gesellschaftliche Wirkungszusammenhänge eingebettete Größe versteht“, von einer textin „eine kontextorientierte Literaturwissenschaft“ transformiert und „die verschiedenen se- 2 Alle unausgewiesenen Zitate im Folgenden aus diesem Text. KUWALU ist die Abkürzung für Kulturwissenschaftliche Arbeits- und Lern-Umgebung. <?page no="319"?> 319 Grundlosigkeit: Anmerkungen zum Problem der Quellen mantischen Dimensionen eines Textes durch das Aufspüren seiner (paradigmatischen) Äquivalenzbeziehungen zu anderen Texten aus dem kulturellen Archiv zu rekonstruieren beabsichtigt“. Der Ansatz richtet sich kritisch gegen das Verständnis eines literarischen Textes als ‘quasisakrales Artefakt’ und die damit klassischerweise verbundene hermeneutische Strategie der „Entdeckung des religious principle of the text's hidden meaning“ durch die „Entschlüsselung einer ‘versteckten Intention’“ und verfolgt gegen die damit verbundene Gefahr der Beliebigkeit und Unüberprüfbarkeit der Ergebnisse hermeneutischer Arbeit die Absicht, „den neohistorischen Forschungsansatz“ der Literatur- und Kulturwissenschaft, dem sich die Autoren verpflichtet fühlen, mit der digitalen auf eine positive und wissenschaftlich seriöse Basis zu stellen. 3 Sieht man einmal ab von den im Zusammenhang einer Programmskizze notwendig reduzierten und wohl auch darum wenig aussagekräftigen Beispielen, mit denen die Autoren ihre Argumente zu belegen suchen, so werden die kritische und die affirmative Ausrichtung des Ansatzes schon aus den wenigen zitierten Äußerungen angemessen klar. Steht mit dem New Historicism die „Dynamik, die durch das Aufspüren synchroner intertextueller Äquivalenzen und Oppositionen augenfällig gemacht werden kann“, im Zentrum des literaturals eines kulturwissenschaftlichen Erkenntnisinteresses, so sollen die computertechnischen Möglichkeiten des digitalen Archivs die Objektivität von Deskription und Interpretation solcher inter(kon)textueller Dynamiken sichern. Die Digitalisierung des basalen hermeneutischen Vorgangs der Textstellensuche soll dabei nicht nur dazu beitragen, „den neohistorischen Forschungsansatz vom ewigen Problem der kontingenten Textauswahl zu erlösen“, sondern in eins damit „die verschiedenen semantischen Dimensionen eines Textes“ - ausdrücklich also auch dessen Sinndimension(en) - erschließen helfen. Die Realität des Archivs, in dem es primär um „die Suche nach intertextuellen Schnittstellen zwischen einem Text und seinen zeitgenössischen Kon-Texten“ geht, ersetzt demnach die literaturwissenschaftlichen Idealismen von Subjektivität (des Hermeneuten), Bedeutung (des Textes) und Intention (des Autors) und ‘erlöst’ die Philologie damit endgültig von dem Problem der mit diesen Idealismen verbundenen Kontingenz. Der Positivismus des Archivs soll die wissenschaftliche Überprüfbarkeit der Ergebnisse literatur- und kulturwissenschaftlicher Arbeit garantieren. Mit seinem Anspruch auf wissenschaftliche Objektivität richtet sich dieses Vorgehen explizit gegen das der immanenten Interpretation als ein in den Augen der Autoren notwendig mit subjektiver Beliebigkeit und darum mit Kontin- 3 Zum methodischen Ansatz des New Historicism vgl. Baßler (Hg.) (2001). <?page no="320"?> 320 Kleine und große Korpora - Spezialkorpora für Spezialfragen genz affiziertes. Die dem Verfahren der immanenten Interpretation unterstellte Unwissenschaftlichkeit kann aus der Perspektive eines solchen computerphilologischen Ansatzes aber nur dann mit Recht kritisiert werden, wenn für eine sich als solchermaßen positivistisch verstehende Diskursanalyse alternative Kriterien wissenschaftlicher Objektivität formuliert werden können, deren Geltung nicht ohne Weiteres in Zweifel zu ziehen sind. Die von allen Beimischungen deutender Subjektivität befreite elektronische Bereitstellung von vergleichbaren Texten oder Textstellen durch das digitale Korpus soll über die auf diese Weise positiv gegebenen ‘Schnittstellen’ ein objektives Verständnis jedes einzelnen Textes und jeder einzelnen Textstelle im Kontext des so generierten Diskursfeldes und damit zuletzt ein objektives Verständnis dieses Diskursfeldes selbst ermöglichen. Mit dem Kriterium der Intertextualität einerseits, mit dem die Schnittstellen von Texten wichtiger werden als der geschlossene Text selbst, und der elektronischen Durchführung der Suche nach solchen Schnittstellen anderseits, wird über die pragmatische Dimension einer digitalen Variante des New Historicism hinaus zunächst jedoch kein wirklich neues Kriterium sichtbar, durch das sich diese ‘Neuorientierung der Literaturwissenschaft’ von der als subjektiv und kontingent kritisierten traditionellen Hermeneutik unterschiede. Unreflektiert bleibt vor allem, inwiefern die prinzipiell verschiedenen Erschließungsweisen notwendig auch zu prinzipiell verschiedenen Sinndimensionen von Texten führen, ganz abgesehen von der Frage, welche der je anders erschlossenen Sinndimensionen die ‘objektive’ wäre - möchte man nicht, wie die Autoren es tun, den als objektiv behaupteten Weg der digitalen Erschließung der Dimensionen von Sinn und Bedeutung zum entscheidenden Kriterium einer Objektivität erheben, die sich mit der Technizität ihrer Herstellung zumindest unausgesprochen dem Ideal naturwissenschaftlicher Überprüfbarkeit nähert. Die Beantwortung der Frage, worin sich ein „religious principle of the text's hidden meaning“ von den „verschiedenen semantischen Dimensionen eines Textes“ kategorial unterscheidet, bedürfte sprachphilosophischer und fundamentalhermeneutischer Überlegungen zum Problem von Semantik überhaupt, wie sie hier erst gar hier nicht in den Blick kommen. Die Fragwürdigkeit der Unterscheidung, die die Autoren treffen, mag schon daran kenntlich werden, dass ihrer Kritik der Suche nach einem „religious principle of the text's hidden meaning“ positiv ausdrücklich das Versprechen einer ‘Erlösung von Kontingenz’ korrespondiert - das als religiös kritisierte Versprechen von Hermeneutik also nicht sowohl dekonstruiert als vielmehr durch die technisch fortgeschrittensten Erschließungsmöglichkeiten von Sinn endlich eingelöst werden soll. <?page no="321"?> 321 Grundlosigkeit: Anmerkungen zum Problem der Quellen Die Debatte einer wirklichen Säkularisierung von Literaturwissenschaft wird von den Autoren nicht einmal angedeutet und kann hier nur als ein zentrales Defizit des mit einem quasi religiösen Anspruch auf Objektivität auftretenden Ansatzes festgehalten werden, der gerade als unreflektierter mit dessen quasi naturwissenschaftlichem Anspruch korrespondiert. Beide Dimensionen nämlich kommen in dem Kriterium überein, das an die Stelle der fehlenden fundamentalhermeneutischen Unterscheidungen tritt: der Einsetzung schierer Größe in die argumentative Leerstelle, wie sie an zentralen Stellen der Programmskizze als entscheidendes Kriterium durchscheint und zugleich als etwas sich von selbst verstehendes behauptet wird: „Grundlage [für die intertextuelle Rekonstruktion der Sinndimensionen von Texten; T. S.] ist - selbstredend - eine möglichst große und repräsentative Menge an Texten einer kulturellen Epoche.“ 4 Begreift man Objektivität in diesem Sinne als Repräsentativität und diese als eine statistisch herstellbare Größe, so muss das digitale Korpus, um dem Anspruch auf Objektivität zu genügen, tendenziell sämtliche Textereignisse enthalten, die als Quellen des über inter(kon)textuellen Schnittstellen zu gewinnenden Verständnisses von Texten einer Epoche in Frage kommen. Mit den computertechnischen Möglichkeiten schlägt die Idee qualitativer Objektivität von Interpretation, wie sie das Subjekt-Objekt-Verhältnis von Hermeneut und Text als ein wie immer kritisches zu leiten pflegt, ausdrücklich in eine quantitative um: in die Idee einer „Textmenge, die sich als kulturelles Archiv beschreiben lässt und die - in einem positivistischen Sinne - die real existierende materielle Basis für die literaturwissenschaftliche Interpretationsarbeit darstellt“. Diese Basis muss als real existierende zugleich universal sein und erfüllt damit, dem Ineinander der religiösen und der naturwissenschaftlichen Metaphorik des Ansatzes entsprechend, nicht weniger als die Kriterien der Existenz Gottes. Mit der Vorstellung einer einzig durch ‘riesige Textkorpora’ zu sichernden Objektivität literatur- und kulturwissenschaftlicher Arbeit taucht am Horizont des positivistischen computerphilologischen Paradigmas der Wahn hermeneutischer Potenzmaschinen auf. Die mit diesem Ansatz verbundenen hermeneutischen Probleme sind als ebenso pragmatische wie prinzipielle schon unterhalb der angedeuteten Ebene einer Auseinandersetzung um eine wirklich säkulare Hermeneutik evident. Archive 4 Der Selbstverständlichkeit des Kriteriums der Quantität korrespondiert hier notwendig ein als selbstverständlich vorausgesetzter Begriff von ‘kultureller Epoche’, durch den die Menge der Textereignisse jeweils sinnvoll soll begrenzt werden können. Mit der genauen Bestimmung des Epochenbegriffs, etwa schon mit seiner Qualifizierung als nicht einfach nur unbestimmt kulturell, sondern auch politisch, sozial oder ökonomisch determiniert, würde zugleich der Zusammenhang von Objektivität und Repräsentativität eine neue Qualität gewinnen. <?page no="322"?> 322 Kleine und große Korpora - Spezialkorpora für Spezialfragen sind in einem zugleich pragmatischen und prinzipiellen Sinn endlich. Die hermeneutische Subjektivität, deren Kontingenz durch die Objektivität des Archivs abgewehrt werden soll, insistiert unweigerlich an dessen Rändern. Sie verlagert sich sowohl in die Frage nach dem Subjekt der Konstitution des Archivs wie in die nach dem Subjekt der je und je zu treffenden Auswahl innerhalb der Textereignisse, die vom Archiv als Erkenntnisquellen bereitgestellt werden. Nicht nur ist kein reales Archiv eine kulturpolitisch voraussetzungslose creatio ex nihilo, und nicht nur kann kein noch so universales Archiv die Notwendigkeit einer Auswahl innerhalb eines Universums von Textereignissen überflüssig machen; sondern es steigt gerade mit dem Faktor der Quantität der Textmenge, die doch für die Objektivität der Erkenntnis bürgen soll, proportional der Faktor der Subjektivität sei es eines Individuums oder einer Gruppe von Individuen, die bei der Konstitution des Archivs den Umfang von dessen Quantität und damit die verfügbaren Inhalte allererst definieren und bei der Arbeit mit dem Archiv innerhalb der von diesem bereitgestellten Textmenge eine qualitative Auswahl zu treffen und die Textereignisse damit sowohl in ihrer hermeneutischen Eignung wie in ihrer hermeneutischen Funktion zu bewerten haben. 5 Die Problematik der Kontingenz verbleibt damit nicht nur an den Rändern, sondern kehrt im Innern des Archivs wieder. Je größer nämlich die Textmenge ist, mit der der Hermeneut auf der digitalen Basis zu operieren hat, um so unschärfer, weil qualitativ unbestimmbarer wird der Sinn dieser Textmenge selbst wie der jedes Textereignisses, das sie enthält. Anstatt dass die Quantität der als Erkenntnisquelle bereitgestellten Texte dazu führt, dass die einzelnen Textereignisse sich gegenseitig in ihrem Sinn bestimmen, verliert sich dieser, indem der hermeneutische Horizont sich mit jedem neuen Textereignis nur weiter ins Unbestimmte verschiebt. Die Absicht, durch eine Steigerung der Anzahl von Quellen ein wissenschaftliches Verständnis gegebener Textzusammenhänge zu erreichen, generiert mit den Verfahren der Konstitution des Korpus und der Auswahl innerhalb des Korpus neue Textzusammenhänge, deren permanent sich verschiebender Sinnhorizont schon auf einer ersten Ebene der Annäherung an den Sinn der Texte bzw. des so entstehenden neuen Textes die text- und sinnfixierenden Eingriffe einer Subjektivität notwendig macht, deren Beliebigkeit um so größer ist, als die große Textmenge deutend und denkend nicht mehr durchdrungen werden kann und die Kriterien der Text- und Sinnkonstitution notwendig oberflächlicher werden. Unbestimmbar wird damit in einem prinzipiellen Sinne zuletzt auch der Status der Texte, die durch die Korrespondenz von objektiv-digitaler Bereitstellung und subjektiv- 5 Vgl. zu der mit dieser Problematik angesprochenen Unterscheidung von quantitativer und qualitativer Linguistik den Beitrag von Vít Dovalil in diesem Band. <?page no="323"?> 323 Grundlosigkeit: Anmerkungen zum Problem der Quellen individueller Zusammenstellung generiert werden. Dass die damit verbundene „Dynamik [...] durch das Aufspüren synchroner intertextueller Äquivalenzen und Oppositionen augenfällig gemacht werden kann“, unterstellt mit dem ‘Aufspüren’ als einem maschinellen und dem Adverb ‘augenfällig’, dass diese intertextuelle Dynamik eine positiv gegebene und damit, analog dem Ideal der Naturwissenschaften, objektiv ablesbare sei. Die Frage nach dem Status des Textes, der durch die intertextuellen Schnittstellen als ein qualitativ neuer entsteht, wird so wenig gestellt wie die nach (dem qualitativen Status von) dessen Autorschaft. Mit dem Gespinst solcher Texte, deren Textualität sich nicht aus der Durchdringung von Subjekt und Objekt, sondern aus dem unvermittelten Nebeneinander der Kriterien von faktischer Analogizität und individueller Dezision ergibt, kehrt die Subjektivität, deren Kontingenz durch die digitale Quantifizierung von Quellen doch gerade abgewehrt werden sollte, zurück: nicht als sich selbst in seiner Tätigkeit reflektierendes hermeneutisches Individuum, sondern als der gespenstische Wiedergänger des Archivs. II. Das Problem der von einem digitalen Archiv als Erkenntnisquellen bereitgestellten Texte oder Textstellen erweist sich als das der Text- und damit der Sinnkonstitution zugleich als das klassische des hermeneutischen Zirkels. Kein noch so ‘riesiges Textkorpus’ und keine noch so große ‘Textmenge’ vermögen die Geltung dieses Zirkels außer Kraft zu setzen. Keine der durch ein Archiv bereitgestellten Textstellen ist nämlich dadurch schon als Erkenntisquelle ausgewiesen, dass sie über digital funktionalisierbare - und damit, bezogen auf die Ebene der Sinndimension, notwendig oberflächliche - Analogien mit anderen Textstellen korrespondiert. Die Feststellung einer sinnvollen Korrespondenz von Textstellen setzt notwendig ihre Interpretation voraus. Jede Textstelle ist zunächst auf ihren unmittelbaren Kontext und damit auf ihren spezifischen Sinnhorizont geöffnet, und die Beantwortung der Frage, ob eine Stelle zur Bestimmung des Sinns einer anderen Stelle sinnvoll herangezogen werden kann, setzt die Vorverständigung über den jeweiligen Sinn der Vergleichsstellen voraus. In seinem Traktat Über philologische Erkenntnis hat Peter Szondi diese Problematik als die der Parallelstellenmethode thematisiert. In ihr wird „(d)er Sinn eines Wortes [...] auf Grund anderer Stellen (geklärt), in denen [...] dasselbe Wort auftritt. Freilich muss dieses Wort überall in der gleichen Bedeutung stehen, die Stellen müssen in diesem strengen Sinn Parallelstellen sein. [...] Deshalb stößt die Parallelstellenmethode [...] auf die Frage, welche Fakten denn die Parallelität der Stellen zu beweisen vermögen.“ (Szondi 1978a, <?page no="324"?> 324 Kleine und große Korpora - Spezialkorpora für Spezialfragen S. 280) Textstellen oder Wörter, die als Belege für den Sinn ähnlicher Textstellen oder die Bedeutung gleicher Wörter herangezogen werden, ist als bloßen Belegen noch keine Beweiskraft eigen: Ob eine Stelle als Parallelstelle anzusehen ist, kann [...] ausschließlich dem Sinn der Stelle entnommen werden. Die Parallelstelle muß sich wie jeder andere Beleg über ihren Belegcharakter erst ausweisen. Das aber geschieht in der Interpretation. So wertvoll die Parallelstellen für die Deutung auch sind, sie darf sich auf sie nicht als auf von ihr unabhängige Beweise stützen, denn die Beweiskraft haben sie von ihr. Diese Interdependenz gehört zu den Grundtatsachen philologischer Erkenntnis, über die kein Wissenschaftsideal sich hinwegsetzen darf. (Szondi 1978a, S. 281) Ausgehend von der Feststellung Schleiermachers, dass „(d)as vollkommene Verstehen einer Rede oder Schrift [...] eine Kunstleistung (ist) und [...] eine Kunstlehre oder Technik (erheischt), welche wir durch den Ausdruck Hermeneutik bezeichnen“ (Schleiermacher, Friedrich Daniel E.: Hermeneutik, zit. nach Szondi 1978a, S. 263), stellt Szondi in seinem Traktat die „Erkenntnisweise der Literaturwissenschaft“ (ebd.) als eine heraus, in der die Subjektivität der Deutung in einem unreduzierbar hermeneutischen Universum der „Subjektivität der Dichtung“ (ebd., S. 271) korrespondiert. Ihre spezifische Objektivität hat literaturwissenschaftliche Erkenntnis daran, dass „dem philologischen Wissen“ zwar keine Fakten, aber „immer schon die Gegenwart des Kunstwerks vorgegeben (ist), an dem es sich stets von neuem zu bewähren hat“ (ebd., S. 265), ohne je auf eine letzte Referenz zu stoßen. Die Gegenwart des Kunstwerks allerdings ist objektiv insofern, als seine Gegebenheit weder in die Scheinfaktizität einzelner Stellen noch in die Subjektivität des Hermeneuten als eine beliebige auflösbar ist. Mit dem Anspruch jedes Kunstwerks, „ein Ganzes, ein Mikrokosmos“ (ebd., S. 276) zu sein, muss der Anspruch einhergehen, diese nach „deren eigenem Gesetz“ (ebd., S. 271), mit einem Ausdruck Adornos: nach der „Logik ihres Produziertseins“ (ebd., S. 286) zu erkennen. Damit kehrt sich die Quellenlage um. Dass „die Erkenntnis von Werken der Kunst ein anderes Wissen bedingt und ermöglicht, als es die übrigen Wissenschaften kennen“ (ebd., S. 264), bedeutet, deren spezifischen Status als ein subjektiv Produziertes nicht nur als Erkenntnisquelle eigenen Rechts, sondern als primäre Quelle einer spezifischen Erkenntnis anzuerkennen. Bevor ein Text zum Zwecke seiner Deutung mit anderen Texten verglichen und sein Gehalt dadurch tendenziell in den der Vergleichstexte aufgelöst und dadurch nivelliert wird, ist er selbst in seiner spezifischen Struktur so präzise zu durchdringen, bis dieser immanenten Analyse keine weitere Einsicht mehr abgewonnen werden kann. Die so erreichte Grenze markiert als Wider- <?page no="325"?> 325 Grundlosigkeit: Anmerkungen zum Problem der Quellen stand gegen die Auflösung des Textes in die Subjektivität von Deutung als einer beliebigen die spezifische, nämlich gerade durch seine subjektive Produziertheit hindurch gewonnene Objektivität des Textes und damit seinen unreduzierbaren Wahrheitsgehalt. Mit ihm erweist sich der Text als eigenständige Quelle einer Erkenntnis, die in umgekehrter Richtung als in der Auflösung des Textes in gegebene Diskurszusammenhänge nun deren Gegebenheit allererst aufzuschließen und idealiter in einer neuen Weise verstehbar zu machen vermag. Anstatt vorab in beliebig konstruierbare hermeneutische Horizonte eingestellt zu werden, bestimmt der in seinem Anspruch, ein geschlossener Zusammenhang zu sein, ernst zu nehmende Text das ihm eigene hermeneutische Schwerefeld. Der Text selbst ist die Quelle der Erkenntnis. 6 III. Die Problematik der Parallelstellenmethode und des Rekurses auf außertextliche Quellen im Allgemeinen verschärft sich mit dem Anspruch einer Dichtung, die spätestens seit den französischen Symbolisten ihre eigene Wirklichkeit aus sich selbst heraus zu bestimmen und sich damit jedem pragmatischen und kommunikativen Verständnis zu verweigern, ja ein solches in seiner allgemeinen Geltung gerade zu verunsichern oder außer Kraft zu setzen sucht. Szondi hat " < & " © $ | ° * © & " Prose beginnt mit dem Wort Hyperbole! - meint es die Figur der Hyperbel, den Akt des Übertreibens, oder werden beide in eins gesehen, die Hyperbel als Bewegungsfigur des geistigen Aktes? Welcher Gedanke steht ^ | `} _ ^ ¡ | " ¥ ` " ^ © % Gedichte würden nicht aus Gedanken, sondern aus Wörtern gemacht. In diesem prägnanten Sinn beginnt das Gedicht mit d e m Wo rt Hyperbole, es muß ihm keine Vorstellung, die unabhängig vom Wort existierte, vorausgegangen sein. (Szondi 1978a, S. 283) 6 Die Behauptung mag paradox erscheinen, dass gerade diese Argumentation keine für die Geschlossenheit von Texten und schon gar keine für das geschlossene Kunstwerk ist. Es ist im Gegenteil das oben referierte kulturwissenschaftliche Verfahren der primären Auflösung von Texten in intertextuelle und interkulturelle Zusammenhänge, die ihre Geschlossenheit nicht tangiert, sondern als Basis eines unterstellten Normalverständnisses für die Vergleichbarkeit von Textstellen voraussetzt, während erst der analytische Durchgang durch den Textzusammenhang jene Subtexte zu entfalten vermag, in denen der Text sich aus seiner eigenen Logik heraus aufzulösen und genau dadurch mit anderen Texten zu kommunizieren beginnt. Dies erst wäre die Ebene von intertextuellen Dynamiken, wie sie im New Historicism und seiner digitalen Variante mit einem der kommunikativ-ökonomischen Sphäre entnommenen unbestimmten Begriff als ‘Verhandlungen’ (negotiations) zwischen Texten schon an deren Oberfläche unterstellt werden. <?page no="326"?> 326 Kleine und große Korpora - Spezialkorpora für Spezialfragen So wenig wie durch den Rekurs auf eine vorauszusetzende Intention des Autors kann die Bedeutung des Wortes Hyperbole durch den vergleichenden Rekurs auf dasselbe Wort in anderen Zusammenhängen erschlossen werden, mag die È ! ` ] © " Á hoch sein. Was mit dem Wort Hyperbole am Anfang des Gedichts Prose steht, ließe sich einzig in einer durchgeführten Interpretation des Textes erweisen. Es ist genau die Opazität solcher Stellen, die dazu provoziert, nach vergleichbaren Stellen in anderen Texten zu suchen, um Licht in das anfängliche Dunkel zu bringen. Reduziert wird damit a priori die mit solcher Opazität gegebene Provokation, anstatt diese in ihrer eigenen Qualität anzuerkennen und zum Ausgangspunkt eines Erkenntnisprozesses zu machen, dessen Strecke nicht die kurze lexikalische vom Wort über (digital) vergleichbare Wörter zur Bedeutung, sondern der Umweg eines intensiven und womöglich irritierenden Durchgangs durch den Text darstellt. 7 Hermeneutische Verfahren wie das der (digitalisierten) Suche nach Parallelstellen mögen damit zugleich in ihrer Funktion als Abwehr jener Gefahr erkennbar werden, wie sie in Textzusammenhängen liegt, die sich einem Verständnis innerhalb des gegebenen kulturellen und akademischen Horizonts und damit der affirmativen Selbstverständigung des hermeneutischen qua wissenschaftlichen Subjekts verweigern. Über dem Abgrund des Textes klammert man sich an die Stellen wie an Fetische. Die Bedeutung der Dichtung Ernst Meisters liegt darin, das Ineinander der Dekonstitution von Sinn und Subjektivität als ein zentrales Moment der dichterischen Moderne aufgegriffen und in seiner eigenen Dichtung ausgetragen zu haben. Der Diagnose einer unauslotbaren Abgründigkeit wie der aus dem Gedicht Steilküste: „Der Abgrund, (/ ) auf seinen fehlenden Schatten (/ ) als seine ewige Sonne gestützt“, 8 setzt er spätestens mit dem Band Die Formel und die Stätte von 1960 den Versuch entgegen, Dichtung zum Medium nicht nur eines neuen Wirklichkeitsverständnisses, sondern einer neu zu gewinnenden Wirklichkeit zu machen, ohne dabei den Zusammenhang von Wirklichkeits- und Sinnentzug, wie die Moderne ihn formuliert hat, zu verdrängen; als zu Ende gedachte und zu Ende gedichtete bleibt die Figur des Entzugs noch für die Gedichte konstitutiv, in denen die Ankunft von Wirklichkeit beschworen wird. 9 Das Programmgedicht des Bandes Die Formel und die Stätte reflektiert diese Problematik dabei zugleich als eine intensiv sprachliche: 7 Zu dem Versuch eines solchen Durchgangs durch den Text, der sich dem schon im Titel des Textes implizierten hermeneutischen Anspruch stellt, vgl. Szondis Interpretation von Paul Celans Engführung (Szondi 1978b, S. 345ff.). 8 Meister, Ernst: Steilküste aus dem Band Pythiusa (Meister 2011, Bd. 1, S. 228). 9 Zur Figur des Entzugs und dem Problem der Wirklichkeit in der Dichtung Ernst Meisters vgl. Schneider: Bandeinführung zu Die Formel und die Stätte (In: Meister 2011, Bd. 5, S. 183ff.). <?page no="327"?> 327 Grundlosigkeit: Anmerkungen zum Problem der Quellen DER GRUND KANN NICHT REDEN Der schreibt kein Tagebuch, Grund, der aus Totem und Toten steht, der die Säulen aus Wasser trägt und die immer geschlagene Flotte der Worte ... Er, behäuft mit Verrott und Dunkel, kehllos Ohnsilbiger unter rudernden Flossen, fahrenden Kielen! Stoß ich hinab? Ich griffe im Finstern wohl wie faulen Zunder phönizischen Kindes Gewand, gelöstes Lotblei, irrendes Echo, das Wrack einer Laute ... Tauche ich? Ich suchte mit Lampen, ich fände ein Logbuch, welches jedoch von des Totseins Bewandtnis nicht spricht, sondern allein von des Unterganges Beginn: WIR SINKEN. WIR WERDEN GRUND. 10 Ähnlich wie das Gedicht Prose © ` " & " mit einem Wort, das eine Vielzahl von Bedeutungsassoziationen hervorruft, ohne mit Grund auf eine bestimmte Bedeutung festgelegt werden zu können. Es mag gerade darum den Versuch provozieren, Kontexte aufzurufen, in denen ihm bereits eine bestimmte Bedeutung zukommt oder durch die ihm zumindest eine näher bestimmte Bedeutung zugewiesen werden könnte. Zwei Möglichkeiten der Suche nach Parallelstellen, die als Erkenntnisquellen für die Bedeutung dieses Wortes fungieren könnten, böten sich an: die Einstellung des Wortes in den Kontext der Geistesgeschichte, der dem philosophisch umfassend gebildeten Autor präsent gewesen sein muss, und seine Einstellung in das Korpus des lyrischen Gesamtwerks, in dem das Wort mit mehr als 80 Stellen zu einem der am häufigsten vorkommenden Wörter gehört. Beiden Versuchen, sich der 10 Meister, Ernst: Der Grund kann nicht reden aus dem Band Die Formel und die Stätte (Meister 2011, Bd. 2, S. 27). <?page no="328"?> 328 Kleine und große Korpora - Spezialkorpora für Spezialfragen Bedeutung des Wortes zu nähern, sind die oben angedeuteten hermeneutischen Probleme immanent. Auf welche Verwendung des Wortes in der philosophischen Tradition der Titel des Gedichts Bezug nehmen könnte, muss trotz der intimen Bekanntschaft des Autors mit dieser Tradition so unentschieden bleiben wie der Versuch, die Bedeutung des Wortes durch einen Vergleich mit Parallelstellen innerhalb des (digital verfügbaren) Korpus der Meister'schen Lyrik zu bestimmen. Mehr als die rein quantitative Feststellung eines häufigen Vorkommens des Wortes ist dem Korpus nicht zu entnehmen, will man nicht der Versuchung erliegen, a priori eine Bedeutungsgleichheit des Wortes an den einzelnen Loci zu unterstellen oder diese aus Kontexten zu erschließen, die allein durch Wortähnlichkeit schon eine Bedeutungsgleichheit zu insinuieren scheinen. Es wäre dies auch der Punkt, an der das bereits angedeutete und hermeneutisch weitgehend noch nicht geklärte Problem der Konstitution eines neuen Textes durch das Heranziehen von Intertexten, deren Äquivalenz paradigmatisch festzustehen scheint, entsteht. Um ein Beispiel für die suggestive Ähnlichkeit eines Textes und die damit verbundene Suggestion einer Vergleichbarkeit von Bedeutung, wenn nicht Bedeutungsgleichheit zu geben, sei ein Gedicht aus Meisters Erstveröffentlichung, dem Band Ausstellung von 1932, angeführt: SCHIFFSUNTERGANG Dem trunkenen Kuß beugte der Bug lange sich zu. Den bunten Wassern schliefen ruhig die weitgereisten Träume in den Schoß. Die dunklen Wasserspannen spannen der strudelnden Kurven Fall. Gesang hinauf und hinab war den staunend Ertrinkenden die einzige Qual. Der Schrein des Blaus dämmerte ihnen nicht. Es war so geduldig der Grund. Er hütete oben das Licht. 11 Das Gedicht weist mit der Sphäre des Nautischen und der strukturbestimmenden Vertikale große Ähnlichkeiten zu dem späteren Gedicht auf, aber eine unmittelbare Bestimmung dessen, was in diesem mit dem Wort Grund gemeint sein könnte, ergibt sich daraus um so weniger, als die Bedeutung dieses Wortes auch in dem frühen Gedicht keineswegs feststeht, sondern der Auslegung harrt. Erst eine genaue immanente Durchdringung beider Texte könnte erweisen, ob so etwas wie eine gemeinsame Referenz der Wörter gegeben ist. Die Schnittstelle des Sinns und damit die Quelle der Texte oder der Quelltext liegt tiefer als jede lexikalisch feststellbare Schnittmenge. Und selbst jede weitere aus dem Korpus der Meister'schen Lyrik herangezogene Belegstelle 11 Meister, Ernst: Schiffsuntergang aus dem Band Ausstellung (Meister 2011, Bd. 1, S. 34). <?page no="329"?> 329 Grundlosigkeit: Anmerkungen zum Problem der Quellen des Wortes würde den hermeneutischen Horizont nur weiter ins Unbestimmte öffnen, anstatt als Beweis für eine bestimmte Bedeutung zu dienen. Die Versuchung, das Ausgangswort des Gedichts durch den Vergleich mit anderen Stellen, an denen es vorkommt, in seiner Bedeutung zu bestimmen, mag um so größer sein, als mit dem bestimmten Artikel auch von einem bestimmten Grund die Rede ist - ein Vorverständnis dessen, was mit Grund gemeint ist, also vorausgesetzt zu werden scheint. Es ist jedoch genau die damit prätendierte Allgemeinheit als einer kommunikativ-sprachlichen, die der Text in seinem Verlauf außer Geltung setzt. Dies, dass der Grund keine Möglichkeit der Mitteilung hat, weder auf mündlicher noch auf schriftlicher Ebene, wird dadurch intensiviert, dass ihm eine intime Verwandtschaft mit der Sphäre des Todes zugesprochen wird, sprachlich realisiert durch eine die Alltagsbedeutung verfremdende Reduktion der Fügung ‘aus etwas bestehen’ zu ‘aus etwas stehen’ in der zweiten Zeile. Zugesprochen wird dem Grund damit zugleich, dass er mit den Säulen aus Wasser und der immer geschlagenen Flotte der Worte sowohl das Medium der Rede wie auch die Rede selbst bestimmt: das Medium der Rede als ein in sich ambivalentes und in seiner Ambivalenz labiles und die Rede als in ihrer kommunikativen Funktion immer schon aufgegebene. Als ihre Negation ist der Grund in der Rede anwesend, deren Träger er zugleich ist. Jeder Versuch einer Bestimmung dessen, was hier mit Grund gemeint ist, also jeder Versuch, das Wort in den Kontext eines allgemeinverständlichen Sprechens und damit eines lebendigen Allgemeinen herein- und aus dem Außen, in das es vorzustoßen sucht, zurückzuholen, wird dadurch unterminiert, dass der Grund - als aus Totem und Toten stehend - in einem Diesseits lebendigen Sprechens verharrt und die von ihm getragene Sprache, die seiner Bestimmung dienen soll, als von und mit ihm geschlagene genau diese Funktion nicht (mehr) zu erfüllen vermag. Die Quelle der Rede, die Quelle, die Reden und reden macht, ist als tote zugleich die, die lebendige Rede unmöglich macht. Wird Rede als Medium lebendiger Allgemeinheit solchermaßen in Frage gestellt, ist sie als Medium des Zugangs zu ihrer Quelle, von der her sie einzig könnte verstanden werden, selber ausgesetzt: Aussatz einer Affektion mit einem Tod, dessen Qualität als Quelle sich dem sprachlichen Zugang widersetzt. Metaphorisch treten in dem Text darum zunächst die Vorgänge des Hinabstoßens und des Tauchens an die Stelle der sprachlichen Erschließung der Quelle der Sprache. Beide sind als hermeneutische qualifiziert: auf das Scheitern des vorbegrifflichen und blinden Greifens der dritten Strophe folgt das technisch ausgerüstete zielbestimmte Suchen der vierten Strophe, das anders als das Greifen zwar nicht auf stumme Dinge, sondern mit dem Logbuch auf <?page no="330"?> 330 Kleine und große Korpora - Spezialkorpora für Spezialfragen eine schriftsprachliche Äußerung stößt, deren kommunikative Qualität ihre Grenze wie die jeder anderen Rede allerdings wiederum an ihrer eigenen Quelle hat. Die hermeneutischen Vorgänge des - primitiven - Hinabstoßens bzw. Greifens und des - technisch versierteren - Tauchens bzw. Begreifens werden beide in ihrem Scheitern sichtbar. Die Qualität des Grundes ist von der Art, dass sie sich sowohl dem unmittelbaren wie dem vermittelnden Zugang entzieht, weil sie immer schon und immer nur als Entzug (in) der Vermittlung anwesend ist. Als solche ist sie: die Qualität des Grundes wie die Vermittlung-: die Vermittlung der Quelle als Quelle der Vermittlung, mit keinem einzigen Satz, sondern einzig im existentiellen Einsatz des Grundwerdens erfahrbar. Die Allgemeinheit, die als eine der lebendigen Rede nicht gegeben ist, stellt sich mit dem Grundwerden als einem körperlichen Vorgang der Vermittlung ein: in ihm allererst konstituiert sich ein Wir, das mit Grund als ein solches von sich sprechen kann - mit, weil ohne Grund, nämlich einzig im Modus seiner Grundlosigkeit: dem des Untergangs. Jeder Versuch des Zugangs zu dem Grund dieses Textes, die die Dimension seines Ausgesetztseins: seiner Aussetzung und seines Aussetzens, durch seine Einstellung in andere Kontexte zu erschließen sucht, würde als Kontextualisierung eine Allgemeinheit des sprachlichen Sinns voraussetzen, die der Text, dessen Korpus auf diese Weise zum Sprechen gebracht werden soll, negiert. Kontextualisierung wäre dann nicht nur eine Nivellierung des nicht gegebenen Sinns durch die Anmaßung von dessen Konstitution, sondern übernähme zugleich die Funktion einer Abwehr des Sinnentzugs, mit welcher der Text jeden Kontext und damit auch den hermeneutischen zu infizieren droht. Hermeneutik, die Sinn vermittelt, indem sie seine Gegebenheit als die eines Allgemeinen voraussetzt, läuft Gefahr, gegenüber einer Dichtung, die die Gegebenheit des Allgemeinen zumindest problematisiert, keine aufschließende, sondern eine apotropäische Funktion wahrzunehmen. 12 Sie gäbe, um in der Metaphorik des Textes zu bleiben, dem Wrack einer Laute die Gestalt, die nicht mehr vorhanden ist und verfehlte damit den Anspruch des Textes. Dem Text sich zu stellen, bedeutet nicht, ihn sprechen zu machen, indem man ihn zur Rede zwingt, sondern ihm in sein Schweigen zu folgen: den Untergang, den er als Text vollzieht, nachzuvollziehen. An der Grenze der Rede und des Verstehens von Rede werden Medien des Allgemeinen sichtbar, die sich der wissenschaftlichen Objektivation entziehen. Am Ende wird einzig der Korpus die Erfahrung einer Vermittlung gemacht haben, die kein Korpus vermitteln kann. 12 Zum Problem von Hermeneutik als Abwehr vgl. Schneider 2012, S. 219ff. <?page no="331"?> 331 Grundlosigkeit: Anmerkungen zum Problem der Quellen Literatur Baßler, Moritz (Hg.) (2001): New Historicism: Literaturgeschichte als Poetik der Kultur. Tübingen/ Basel. Meister, Ernst (2011): Gedichte. Textkritische und kommentierte Ausgabe. 5 Bde. Hrsg. v. Axel Gellhaus, Stephanie Jordans und Andreas Lohr. Göttingen. Schneider, Thomas (2011): Bandeinführung zu: Die Formel und die Stätte. In: Meister (2011), Bd. 5, S. 183ff. Schneider, Thomas (2012): Komplizenschaft. Überlegungen zum Text-Analyse-Begehren am Beispiel von Wolfgang Koeppens Erzählung Joans tausend Gesichter. * % ! % & ' `@ * < " > $ @ Tübingen, S. 219ff. Szondi, Peter (1978a): Hölderlin-Studien. Mit einem Traktat über philologische Erkenntnis. In: Szondi, Peter: Schriften I. Hrsg. v. Jean Bollack u.a. Frankfurt a.M., S. 263ff. Szondi, Peter (1978b): Durch die Enge geführt. Versuch über die Verständlichkeit des modernen Gedichts. In: Szondi, Peter: Schriften II. Hrsg. v. Jean Bollack u.a. Frankfurt a.M., S. 345ff. URL 1: Butler, Martin/ Hoeppner, Wolfgang/ Wagner, Andreas (2007): KUWALU - Motivation und Grundzüge einer computergestützten Umgebung für die literatur- und kulturwissenschaftliche Recherche- und Analysearbeit. http: / / computerphilologie.tu-darmstadt.de/ jg07/ kuwalu.html (Stand: 12.02.2012). <?page no="333"?> Wolf Peter Klein Datenbanklinguistik. Eine Weiterentwicklung der Korpuslinguistik? Vergegenwärtigt man sich den Gegenstand der Linguistik unter empirischer Perspektive, so könnte man angesichts der wissenschaftlichen Aufgabe eigentlich schnell entmutigt werden. Denn als Ausgangspunkt für jede Beschreibung einer Sprache muss man - zumindest theoretisch, also gewissermaßen ‘streng genommen’ - die gesamte Menge des Gesprochenen und Geschriebenen ansehen. Konkret bedeutet dies, dass hier sämtliche Kommunikationsereignisse, die alle Sprecher (und Schreiber) einer Sprache produzieren, zusammenfließen. Damit aber nicht genug: Denn zu dieser Gegenstandsbeschreibung kommen dann noch die unterschiedlichen sprachwissenschaftlichen Perspektiven auf dieses Datenmaterial. Sie potenzieren noch einmal die Summe möglicher Gegenstände. Ein Phonetiker (bzw. Graphematiker), ein Morphologe, ein Lexikologe, ein Syntaktiker, ein Textlinguist, ein Gesprächs- oder ein Diskursanalytiker - sie alle werden ein einzelnes Kommunikationsereignis anders betrachten und mit Blick auf bestimmte Fragestellungen und Gegenstandskonstitutionen konzeptualisieren. Daraus ergibt sich dann eine sehr große, aber eigentlich eine genau definierte Menge von Lauten und Buchstaben (bzw. Graphemen und Phonemen), Morphemen, Wörtern (Lexemen), Sätzen, Texten, Gesprächen und Diskursen. Diese Reflexion über die Aufgabe der Sprachwissenschaft lässt sich noch weitertreiben. Denn man kann ihren Gegenstand nicht nur angesichts der stattfindenden Kommunikationsereignisse in den Blick nehmen. Viele Perspektiven der modernen Sprachwissenschaft beziehen sich nämlich eigentlich gar nicht auf Kommunikationsereignisse im engeren Sinn, sondern auf geistige Konstrukte. Man fahndet etwa nach den geistigen Repräsentationen von Sprache, die es uns gestatten, genau so zu kommunizieren, wie wir es tagtäglich tun. Hier wird also nach den mentalen Strukturen unseres inneren Lexikons und der darauf bezogenen grammatischen Regelstrukturen gesucht. Überdies gibt es Forschungen, die die Auffassungen der Individuen über Sprache zum Thema machen. Diese metasprachlichen Meinungen (‘Einstellungen’) sind ein Gegenstand, der sich also in den Köpfen der Sprecherinnen/ Sprecher befindet und als solcher eine spezifische Herangehensweise fordert. Dabei kann man sich <?page no="334"?> 334 Korpuslinguistik und/ oder Datenbanklinguistik? nur mittelbar auf Kommunikationsereignisse beziehen, weil das konkrete Sprechen sozusagen nur in seiner Mittlerfunktion als Zugang zu den kognitiven Auffassungen über Sprache gedeutet wird. Mit Rücksicht auf den konstitutiv historischen Charakter von Sprache vervielfältigen sich diese Kommunikationsereignisse und Gegenstände noch einmal beträchtlich. Denn die Sprachwissenschaft hat bekanntlich nicht nur eine synchron-gegenwartsbezogene, sondern auch eine diachron-vergangenheitsorientierte Seite. Insgesamt ergibt sich durch diese kleine Betrachtung, dass die Sprachwissenschaft in jedem Fall als eine Wissenschaft charakterisiert werden kann, bei der es um sehr große Zahlen geht. Wer dieser Wissenschaft nachgeht, muss sich immer wieder vergegenwärtigen, wie sein Tun mit den enorm vielen Kommunikationsereignissen, Sprecherinnen und Sprechern sowie ihren einschlägigen mentalen Auffassungen zusammenhängt. Der riesigen Menge von Sprachdaten kann man sich natürlich nur auf einem imaginären Weg zuwenden. Tatsächlich in vollem Umfang bewältigen wird man sie nie. Umso wichtiger ist es, sich die Strategien und Methoden zu vergegenwärtigen, die zur analytischen Reduktion der übergroßen Komplexität sprachlicher Daten und Gegenstände beitragen. Dazu gehören ganz verschiedene Dinge. So ist etwa daran zu denken, dass schon im grundsätzlichen Gebrauch grammatischer Terminologie ein erster, impliziter Schritt zur Komplexitätsreduktion liegt. Wer etwa davon spricht, dass in einem deutschen Satz üblicherweise ein Prädikat enthalten ist, verdichtet in dieser Redeweise viele einschlägige Fakten zu einem abstrahierenden Befund. Entsprechendes ließe sich für viele andere type/ token-Relationen sagen. Sie stecken beispielsweise gleichermaßen in Begriffen wie ‘Textsorte’, ‘Formulierungsmuster’ oder ‘Wortbildungstyp’. In allen diesen Begriffen kondensieren - mehr oder weniger explizit - sprachliche Vielheiten zu einem fassbaren Befund, durch den die übergroße Menge sprachlicher Daten für den Sprachwissenschaftler greifbarer wird als in ihrer bloßen faktischen Gegebenheit. Man kann insofern das praktische Arbeitsprofil der Sprachwissenschaft geradezu wissenschaftstheoretisch befragen: Mit welchen Strategien schafften und schaffen es die Sprachwissenschaftler (und ihre jeweiligen Schulen und Verbünde) ihren empirisch übergroßen Gegenstand auf greifbare Maße zu reduzieren? Was geht dabei verloren? Was wird akzentuiert? Was rückt in den Vordergrund, was tritt in den Hintergrund und entfernt sich damit tendenziell aus der Sicht des jeweiligen Sprachwissenschaftlers? Die Korpuslinguistik wurde seit einigen Jahren zu einer wichtigen, wenn nicht der wichtigsten methodologischen Komponente der Sprachwissenschaft ausgebaut (einführend und vertiefend Scherer 2006, Lemnitzer/ Zinsmeister 2006, <?page no="335"?> 335 Datenbanklinguistik. Eine Weiterentwicklung der Korpuslinguistik? Kratochvílová/ Wolf (Hg.) (2010)). Sie kann als neue, sehr erfolgreiche Instanz im Umgang der Sprachwissenschaft mit ihren großen Zahlen gesehen werden. Das zentrale Arbeitsprinzip der Korpuslinguistik - die Zusammenstellung eines Korpus und dessen systematische Analyse - ist zwar sicherlich nicht an die Existenz computerlinguistischer Verfahren gebunden. Korpuslinguistik lässt sich auch auf und mit Papier, Bleistift und Zettelkästen betreiben; das Denken in Korpora und ihrer Analyse ist - ganz unabhängig von den technischen Möglichkeiten der Zeit - ein methodologischer Wert an und für sich. Allerdings wird man einräumen müssen, dass die Korpuslinguistik erst in diesem Moment zu einer Zentraldisziplin werden konnte, als elektronische Verfahren der Korpuserstellung und -analyse entwickelt und auf breiter Front verfügbar gemacht wurden. Nicht zuletzt das Internet - dieses schillernde, letztlich ungreifbare, nichtsdestotrotz sehr präsente Riesenkorpus - hat dann dazu beigetragen, dass wir mittlerweile über Datenerhebungsmethoden verfügen, die angesichts der sprachwissenschaftlichen Tradition schlichtweg als revolutionär zu bezeichnen sind. In Sekundenschnelle lassen sich im Blick auf ganz konkrete Fragen Daten erheben, die man früher noch nicht einmal ansatzweise in den Blick nehmen, geschweige denn in solcher Geschwindigkeit abrufen konnte. Mit der elektronisch unterstützten Korpuslinguistik konnte die Sprachwissenschaft als empirische Wissenschaft erhebliche Erkenntnisfortschritte verzeichnen. Etwas naiv formuliert könnte man sich zu der Aussage hinreißen lassen, dass die Sprachwissenschaft mit der Korpuslinguistik ihrem eigentlichen Gegenstand erheblich näher gekommen ist als zuvor. Der Siegeszug der Korpuslinguistik ist auch ein Beispiel dafür, wie die Entstehung neuer Techniken das Profil einer Wissenschaft revolutionieren kann. Erst durch die Möglichkeit, viele Texte relativ einfach zusammenzustellen, nach linguistisch einschlägigen Kriterien aufzubereiten und dann schnell durchsuchbar zu machen, ergab sich die Möglichkeit einer neuen Teildisziplin von neuem historischem Rang. Zum Vergleich und zur historischen Einordnung sei gesagt, dass das in den 60er und 70er Jahren des 20. Jahrhunderts noch ganz anders aussah. Damals dominierte nämlich nicht die Korpuslinguistik die avancierte Theorie- und Empirie-Debatte, sondern Bindestrichlinguistiken wie Sozio-Linguistik, Ethno-Linguistik, Pragma-Linguistik, Text-Linguistik und Psycho-Linguistik. Hätte man in dieser Zeit eine Umfrage unter Sprachwissenschaftlern durchgeführt, wie wohl die Zukunft der Sprachwissenschaft aussehen würde, so hätten vermutlich nicht wenige Sprachexperten die eben genannten Disziplinen angeführt und von ihnen ausgehend weitreichende Entwicklungen prophezeit. Nun spielen diese Bindestrichlinguistigen sicherlich derzeit keine unbedeutende Rolle im (interdisziplinären) Konzert der Fächer, <?page no="336"?> 336 Korpuslinguistik und/ oder Datenbanklinguistik? die sich mit Sprache beschäftigen. Es lässt sich freilich trefflich darüber streiten, ob von ihnen wirklich die wegweisenden, neuen Erkenntnisse und Konzepte ausgingen, die man einst von ihnen erhofft hatte. Insgesamt würde ich die Behauptung wagen, dass die (sich nur wenig später formierende) Korpuslinguistik eine weitreichendere Bedeutung für die Zukunft der Sprachwissenschaft haben dürfte als die Bindestrichlinguistiken aus dem letzten Drittel des 20. Jahrhunderts. Dieses Gewicht der Korpuslinguistik hängt sicher einerseits damit zusammen, dass es sich bei dieser Disziplin letztlich ‘nur’ um eine einfache Methode handelt, die auf verschiedenste Gegenstände und Fragestellungen der Sprachwissenschaft bezogen werden kann. Andererseits steckt hinter dem Aufschwung der Korpuslinguistik aber auch - wie oben angerissen - ein simples technisches Motiv, das auf der Nutzbarmachung von Computern und elektronischen Netzwerken für die Analyse von Sprache beruht. Ausgehend von dem oben entworfenen Szenario der Lage der Sprachwissenschaft möchte ich nun endlich zum eigentlichen Punkt dieser kleinen Skizze kommen. Meine These lautet nämlich, dass neben der Korpuslinguistik in der nächsten Zeit auch eine andere, verwandte Form der Sprachwissenschaft Karriere machen wird, die Datenbanklinguistik. Dabei ist es vielleicht nur ein kleiner Makel dieser These, dass das Wort Datenbanklinguistik - soweit ich sehe - noch gar nicht existiert. Eine entsprechende Abfrage mit den einschlägigen Internet-Suchmaschinen liefert jedenfalls keine auswertbaren Treffer. Das semantisch noch nicht profilierte Wort Datenbanklinguistik gestattet es mir daher, seine Bedeutung erst festzulegen. Sie ist freilich aufgrund der Bestandteile des Kompositums einigermaßen transparent. Ich verstehe also unter der Prägung Datenbanklinguistik eine spezifische, methodisch-technische Form der Sprachwissenschaft, bei der die Arbeit mit (Computer-)Datenbanken in methodischer, praktischer und wissenschaftstheoretischer Sicht einen hervorgehobenen Status einnimmt. Genauso wie bei der jüngeren Geschichte der Korpuslinguistik wird die Datenbanklinguistik durch die technologische Entwicklung gestützt und vorangetrieben. Sie dient - wiederum ähnlich der Korpuslinguistik - vor allem dazu, die Sprachwissenschaft in die Lage zu versetzen, mit ihren großen Datenmengen - Stichpunkt: Wissenschaft der großen Zahlen (siehe oben) - zurechtzukommen. Die elektronische und möglichst gut koordinierte Bereitstellung, Vorstrukturierung und Analyse großer Mengen von Sprach- und Forschungsdaten ist die große Zukunftsaufgabe der Sprachwissenschaft. Sie kann ohne irgendeine Form von Datenbanklinguistik sicher nicht bewältigt werden. Worin liegt nun das Besondere der systematischen Anwendung von Datenbanken in der Sprachwissenschaft? Warum kann die Datenbank, also im Prinzip <?page no="337"?> 337 Datenbanklinguistik. Eine Weiterentwicklung der Korpuslinguistik? ein einfaches, ziemlich unspektakuläres Arbeitsmittel, zum Symbol der avancierten Sprachwissenschaftsentwicklung gemacht werden? Diese Fragen soll im folgenden im Großen und Ganzen in drei Dimensionen kurz etwas näher ausgeleuchtet werden, nämlich mit Blick auf 1) die Forschung, 2) die Aufarbeitung sprachlicher Primärdaten, 3) und weitere Formen der datenbanktechnischen Hilfstechniken für die sprachwissenschaftliche Arbeit. Zu 1) Wie jede andere Arbeitstechnik auch schafft die Hinzuziehung oder Erstellung von Datenbanken einen bestimmten Zugriff auf den Gegenstand einer Wissenschaft und damit auch spezielle Fragen- und Antworthorizonte. Das beginnt bei ganz elementaren und schlichten Dingen. Wenn man beispielsweise daran denkt, dass der Zugang zu Forschungstexten mittlerweile schon häufig mit Datenbanken möglich ist, so steckt in diesen Mechanismen ein gewisser erkenntnisleitender Gehalt. Man vergegenwärtige sich etwa die Abfragemöglichkeiten in der einschlägigen Forschungsbibliographie zur deutschen Grammatik, die vom Institut für deutsche Sprache zur Verfügung gestellt wird. Man hat hier die Möglichkeit, die Forschungsliteratur anhand der Felder Titel, Person, Jahr, untersuchte Sprache(n), Schlagwort und Objektwort zu durchsuchen. Insbesondere im Feld Schlagwort verbirgt sich ein gewisses Problem, da hier schon relativ viel sprachwissenschaftliche Expertise nötig ist, um eine sinnvolle Suche zu starten und damit auch ans Ziel zu kommen. Gleichwohl kann man davon ausgehen, dass die Existenz dieser Datenbank samt ihrer Abfragemöglichkeiten das Spektrum der grammatischen Arbeit erweitert, auch wenn gegenüber einer möglichen Buchfassung keine konstitutiv anderen Informationen greifbar sind. Auch die derzeitige Einrichtung sogenannter virtueller Fachbibliotheken schlägt in diese Kerbe. Durch die Internet-Verfügbarkeit und die Möglichkeit, die Forschungsliteratur nach verschiedenen Kriterien zu suchen, wird man auf jeden Fall schneller ans Ziel kommen und mehr Vernetzungen wahrnehmen als in der Zeit vor der Datenbanklinguistik. Zu 2) Der Einfluss von Datenbank-Modellierungen auf die sprachwissenschaftliche Arbeit potenziert sich noch einmal, wenn man nicht nur die Forschungsdatenbanken betrachtet, sondern auch die Thematisierung primärer Sprachdaten berücksichtigt. Angesichts der derzeit laufenden Digitalisierungsprojekte, die mittlerweile - kommerziell und nicht-kommerziell - ein enormes Ausmaß angenommen haben, ist zu erwarten, dass die synchrone und diachrone <?page no="338"?> 338 Korpuslinguistik und/ oder Datenbanklinguistik? Verfügbarkeit von Daten geschriebener Sprache in der nächsten Zeit ein bisher ungeahntes Ausmaß erreichen wird. Vermutlich wird es in nicht allzuferner Zeit möglich sein, sich jeden [sic! ] Text, der jemals in den großen Weltsprachen publiziert wurde, kurzfristig und weitgehend kostenlos auf den eigenen Computer zu holen und - zumindest als Bilddatei - zu speichern und ggf. datentechnisch zu manipulieren. Und auch in dieser großen Zahl von Primärtexten wird man sich sprachwissenschaftlich am Ende nur mit der Hilfe eigens erstellter Datenbanken zurecht finden können. Daraus lässt sich ein übergeordnetes Zukunftsprojekt ableiten: Es wird eine wichtige Aufgabe der künftigen Sprachwissenschaft sein, für bestimmte, fest umrissene Forschungszecke eigene Textdatenbanken zu erstellen, um so die ausufernde digitale Verfügbarkeit von Texten zumindest für bestimmte sprachwissenschaftliche Fragestellungen in den Griff zu bekommen und auf den Begriff zu bringen. Diese Problematik ergibt sich natürlich nicht nur für bereits existierende schriftliche Texte, sondern auch für andere mediale Daten, also vor allem für Gespräche und andere mündliche Texte. Diese Primärquellen müssen in Datenbanken erschlossen und aufgearbeitet werden, damit man sie für unterschiedliche sprachwissenschaftliche Fragestellungen schnell und systematisch durchforsten kann. Die verschiedenen Datenbanken des Instituts für deutsche Sprache in Mannheim sowie die einschlägigen Projekte des Deutschen Sprachatlas in Marburg werden in diesem Sinne sicherlich bald für jeden Sprachwissenschaftler unschätzbar wichtig sein. Auch die fruchtbare Visualisierung dieser großen Datenmengen in einschlägigen Karten, Abbildungen und anderen symbolischen Formen muss hier erwähnt werden. Als Beispiel für eine solche Aufarbeitung von Primärdaten sei hier auch auf ein kleineres Datenbank-Projekt verwiesen, das derzeit in Würzburg für die frühe Geschichte der deutschen Fach- und Wissenschaftssprachen erarbeitet wird (siehe den Beitrag von Stahl/ Zimmermann in diesem Band). Zu 3) Daten zur empirischen Profilierung der Sprachwissenschaft werden jedoch nicht nur für den authentischen Sprachgebrauch relevant. Für Forschungen, die sich z.B. auf Spracheinstellungen, Sprachbewertungen und vergleichbare Sprachbewusstseinsinstanzen und -prozesse beziehen, sind auch andere Datentypen von großer Bedeutung. Zu denken ist vor allem an Fragebogenerhebungen jeder Art und vergleichbare Untersuchungen, in denen metasprachliches Wissen auf methodisch nachvollziehbare Art und Weise empirisch erschlossen, analysiert und interpretiert werden soll (vgl. Albert/ Marx 2010; Rothstein 2011, besonders Kap. 5.3.2; Schlobinski 1996, besonders Kap. 2). Wer also beispielsweise aus Fragebögen, Interviews, Sprachexperimenten oder Texten <?page no="339"?> 339 Datenbanklinguistik. Eine Weiterentwicklung der Korpuslinguistik? systematisch metasprachliche Aussagen herausschälen und dokumentieren möchte, tut das am besten mit der Hilfe von eigens konstruierten Datenbanken. Dann wird es auch möglich sein, die einschlägigen Sozialdaten der jeweiligen Sprecher (bzw. Schreiber) (z.B. Geschlecht, Alter, Herkunft, Bildungsgrad u.Ä.) mit den metasprachlichen Aussagen zu korrelieren und dadurch bestimmten Bedingungsfaktoren auf die Spur zu kommen. Und auch die metasprachlichen Aussagen selber können (und müssen! ) datenbanktechnisch je nach Fragestellung genauer und differenzierter modelliert werden. Wenn es etwa darum gehen sollte, wie eine bestimmte sprachliche Einheit von den Sprechern bewertet wird, so gibt es verschiedene Dimensionen, die in einer Datenbank pro Einheit systematisch mitverzeichnet werden können. Zu denken ist etwa an die Angabe der Systemebene, die Verankerung der Bewertung auf einer Grammatikalitätsskala, die Thematisierung der Bezugspunkte für die Bewertungen sowie die Erhebung flankierender Kommentierungen u.Ä. Derartige Modellierungen können hier freilich nur sehr grob angedeutet werden. Ihr genauer Zuschnitt muss ohnehin mit Blick auf die jeweiligen Grundfragestellungen einer sprachwissenschaftlichen Untersuchung ausgearbeitet werden. Festgehalten sei jedenfalls, dass auch bei solchen Ansätzen die technische Aufarbeitung in Datenbanken äußerst hilfreich ist, um die große Anzahl von Informationen zu strukturieren und nachvollziehbar zu analysieren. Einen etwas genaueren Eindruck von den Möglichkeiten und Grenzen solcher sprachwissenschaftlicher Untersuchungsdesigns lässt sich etwa am Beispiel der in Arbeit befindlichen Würzburger Datenbank zur Geschichte der sprachlichen Zweifelsfälle (ZweiDat) gewinnen (vgl. den Beitrag von Banhold/ Blidschun in diesem Band). Zum Schluss sei - weniger in argumentativer, sondern in illustrierender Absicht - darauf hingewiesen, dass interessante Datenbanken zu sprachlichen Problemfeldern gelegentlich bereits existieren und eigentlich nur genauer wissenschaftlich ausgelotet werden müssten. So gibt es etwa websites, die einen datenbanktechnischen Hintergrund besitzen, in dem viel relevantes Daten- Material - zumindest teilweise - bereits zur Verfügung steht, nur noch nicht eingehender ausgewertet wurde. Man orientiere sich nur einmal auf den Internet- Seiten http: / / mundmische.de/ oder www.ideesamkeit.de/ (Menüpunkt: „Worterfinder“; z.T. vergleichbar ist auch www.neuwort.de/ ). Von den Nutzern dieser websites werden „neue Wörter“ kreiert und in einem ersten Schritt näher charakterisiert. Faktisch lassen sich diese Informationen als Hinweise darauf lesen, wie Sprecherinnen und Sprecher der deutschen Gegenwartssprache lexikalische Kreativität begreifen. Man erfährt hier also etwas darüber, in welcher semantischen Richtung sich offensichtlich immer wieder Gedanken zu neuen <?page no="340"?> 340 Korpuslinguistik und/ oder Datenbanklinguistik? Wörtern ergeben. Ohne große Mühe ließe sich auch systematisch und statistisch analysieren, welche Wortbildungsmuster und Wortbildungseinheiten bei solchen explizit kreativen Prozessen eher häufig, welche eher am Rande und weniger frequent zum Tragen kommen und welches illokutive Potential hier am ehesten gefragt ist. Schon auf den ersten Blick sticht ins Auge, dass neue Wörter augenscheinlich besonders häufig mit besonders intensiven Emotionen, oft negativer Natur, verbunden sind. Zu korrelieren wären diese Frageninstanzen sinnvollerweise mit den Sozialdaten der jeweiligen Worterfinder. So könnte man am Ende etwa Aussagen zu der Frage gewinnen, ob und, wenn ja, wie sich die lexikalische Kreativität junger und alter, männlicher und weiblicher oder gebildeter oder ungebildeter Sprecherinnen und Sprecher des gegenwärtigen Deutsch unterscheidet. Die Vermessung der gegenwärtigen Sprachkreativität wäre durch die Nutzung von (bereits existierenden! ) Datenbanken, die zum Zwecke der sprachwissenschaftlichen Forschung überarbeitet wurden, ein gutes Stück weiter gekommen. Ich hoffe, mit meinen obigen Überlegungen plausibel gemacht zu haben, dass die Sprachwissenschaft vom nachdrücklichen Aufbau von Datenbanken in den verschiedensten Hinsichten enorm profitieren wird. Diese Aussage ist natürlich - bei Lichte besehen - alles andere als revolutionär. Es ist mittlerweile an vielen Stellen absehbar, dass der Zug genau in diese Richtung geht. Insofern verstehe ich diese Zeilen auch nur als eine Explikation dessen, was die linguistischen Spatzen derzeit von allen Dächern pfeifen, aber was vielleicht noch nicht in allen Dimensionen wirklich begriffen und wissenschaftsmethodologisch fruchtbar gemacht wurde. Ähnlich wie bei der allmählichen Etablierung der (computerunterstützten) Korpuslinguistik ist mit der Datenbanklinguistik faktisch nicht unbedingt gleich ein qualitativ neues Stadium in der langen Geschichte der Sprachwissenschaft erreicht. Insbesondere ist auch nicht an eine Ablösung der Korpuslinguistik durch die Datenbanklinguistik zu denken. Technisch verschwimmen ohnehin bisweilen die Grenzen zwischen der Aufarbeitung und Kodierung von Textkorpora und der Erstellung von Datenbanken. In der Datenbanklinguistik werden nur diejenigen Zugriffe und Ansätze, die auch in der Vergangenheit schon zur Bewältigung der großen Zahlen in der Sprachwissenschaft genutzt wurden, weiter ausgebaut und systematisiert - und zwar vor allem mit den neuen technischen Möglichkeiten des Computers. Weil die großen Quantitäten der Sprache dadurch aber auf breiter Front handhabbarer und besser manipulierbar werden, kann man mittelbar vielleicht doch davon sprechen, dass Korpuslinguistik und Datenbanklinguistik gemeinsam das Erkenntnispotential der Sprachwissenschaft auf eine neue Stufe heben. Um es wissenschaftsdidaktisch ein wenig zuzuspitzen: In die künftigen Curricula <?page no="341"?> 341 Datenbanklinguistik. Eine Weiterentwicklung der Korpuslinguistik? der Sprachwissenschaft sollten einerseits korpuslinguistische Module integriert werden, andererseits Kurse, in denen gelehrt wird, wie man Datenbanken einrichtet, organisiert und auswertet. Mit dieser Lehr-Konzeption wird der Erkenntniszuwachs der Sprachwissenschaft sozusagen didaktisch-technologisch abgesichert. Das lässt sich am Ende auch wissenschaftslogisch wenden: Angesichts der exemplarischen und weithin tonangebenden Erkenntnisfortschritte der Naturwissenschaft wird die Sprachwissenschaft ihren Status als Wissenschaft nicht sprach- oder grammatiktheoretisch behaupten und ausbauen können, sondern nur empirisch und quantitativ, also mit Korpuslinguistik und Datenbanklinguistik. Literatur Albert, Ruth/ Marx, Nicole (2010): Empirisches Arbeiten in Linguistik und Sprachlehrforschung. Anleitung zu quantitativen Studien von der Planungsphase bis zum Forschungsbericht. Tübingen. Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.) (2010): Kompendium Korpuslinguistik. Eine Bestandsaufnahme aus deutsch-tschechischer Perspektive. Heidelberg. Lemnitzer, Lothar/ Zinsmeister, Heike (2006): Korpuslinguistik. Eine Einführung. Tübingen. Rothstein, Björn (2011): Wissenschaftliches Arbeiten für Linguisten. Tübingen. Scherer, Carmen (2006): Korpuslinguistik. Heidelberg. Schlobinski, Peter (1996): Empirische Sprachwissenschaft. Opladen. <?page no="343"?> Dominik Banhold / Claudia Blidschun Die Datenbank ZweiDat: Sprachliche Zweifelsfälle in historischer Perspektive Dieser Beitrag stellt die Anfänge der Datenbank ZweiDat vor, die seit Sommersemester 2011 an der Universität Würzburg unter der Leitung von Professor Klein aufgebaut wird, und zeigt an drei Fallbeispielen, welche Fragestellungen man mit Hilfe dieser Datenbank beantworten kann. Alle hier gezeigten Abfragen beruhen auf dem Stand der Datenbank von Dezember 2011. ZweiDat steht als Kurzwort für ‘Zweifelsfall-Datenbank’. Diese Datenbank erfasst Texte, die sich hauptsächlich mit sprachlichen Zweifelsfällen beschäftigen. Der Terminus ‘Zweifelsfall’ wird von Klein folgendermaßen definiert: „Ein sprachlicher Zweifelsfall (Zf) ist eine sprachliche Einheit (Wort/ Wortform/ Satz), bei der kompetente Sprecher im Blick auf (mindestens) zwei Varianten (a, b …) in Zweifel geraten können, welche der beiden Formen (standardsprachlich) korrekt ist.“ (Klein 2003, S. 7). Im Internet findet man schnell Beispiele für Zweifelsfälle. In einem Forum fragt z.B. eine Nutzerin: „Heißt es Diesen Begriff werden Sie in Ihrem Klinischen Wörterbuch vergeblich suchen. oder Diesen Begriff werden Sie in Ihrem Klinischen Wörterbuch vergebens suchen? “ (URL 1) Die Nutzerin, bei der man davon ausgehen kann, dass es sich um eine kompetente Sprecherin handelt, zweifelt also, ob die Variante vergebens oder vergeblich im entsprechenden Kontext korrekt ist. Bei ZweiDat geht es nicht darum, die Zweifelsfälle der deutschen Gegenwartssprache zu erfassen, sondern darum, die Texte, die diese sprachliche Problematik zum Inhalt haben, aufzubereiten. Spätestens seit dem 18. Jahrhundert gibt es eine Zweifelsfall-Literatur, die einen ersten Höhepunkt vor dem Ersten Weltkrieg erreicht (vgl. Klein 2003/ 2004, S. 13). Auch heutzutage ist Zweifelsfall-Literatur ein Verkaufsschlager, so hat - um nur zwei Beispiele unter vielen zu nennen - Bastian Sick, Autor u.a. von Der Dativ ist dem Genitiv sein Tod, Verkaufszahlen in Millionenhöhe und der DUDEN-Verlag bietet einen Band Richtiges und gutes Deutsch in der 12-bändigen DUDEN-Reihe an. Aus der Zweifelsfall-Forschung kommen mehrere Motivationen, die den Nutzen belegen, solche Zweifelsfall-Literatur in einer Datenbank systematisch zu erfassen: Unter anderem können durch die „Durchsicht bereits existierender <?page no="344"?> 344 Korpuslinguistik und/ oder Datenbanklinguistik? Zweifelsfallsammlungen“ und durch die „Analyse von Hinweisen auf Zweifelsfälle in existierenden Grammatiken und Wörterbüchern“ (Klein 2003/ 2004, S. 13) Zweifelsfälle, die zu einem bestimmten Zeitraum existieren, empirisch festgestellt und insoweit klassifiziert werden, dass die sprachliche Systemebene des Zweifelsfalls - Phonetik, Orthographie, Morphologie, Syntax, Semantik, Lexik oder Pragmatik - angegeben wird. Durch die Aufarbeitung der Zweifelsfalltexte werden weitere Informationen, die für verschiedene Forschungen nützlich sind, verfügbar gemacht. Dies soll anhand der ersten Texte, die in die Datenbank eingegeben wurden, erläutert werden. Der Aufbau von ZweiDat hat mit der Erfassung von zwei Büchern begonnen: Mit Sprachleben und Sprachschäden, Ein Führer durch die Schwankungen und Schwierigkeiten des deutschen Sprachgebrauchs von Theodor Matthias, das 1892 in erster und 1929 in einer sechsten verbesserten und vermehrten Auflage in Leipzig erschien, und mit Allerhand Sprachdummheiten, Kleine deutsche Grammatik des Zweifelhaften, des Falschen und des Häßlichen. Ein Hilfsbuch für alle, die sich öffentlich der deutschen Sprache bedienen von Gustav Wustmann, das 1890 in erster und 1903 in einer dritten verbesserten und vermehrten Auflage (ebenfalls in Leipzig) erschien. Die Auflagenzahlen zeigen, dass beide Bücher sehr verbreitet waren. Laut Vorwort liegt das Ziel dieser Bücher darin, einen „Ausgleich zwischen der nie stillstehenden Sprachentwicklung und den Forderungen einer gepflegten Stilkunst“ zu schaffen und ein „Ratgeber und Richter in Fällen schwankenden und schwierigen Sprachgebrauchs“ (Matthias 1929, S. VII) zu sein bzw. die „Fehlerhaftigkeit und Unsicherheit unseres Sprachgebrauchs zu steuern“, „das Sprachgefühl [zu] schärfen“ und unter einem ästhetischen Gesichtspunkt „der Steifheit, Schwerfälligkeit und Schwülstigkeit unserer Sprache“ entgegenzuarbeiten (Wustmann 1903, S. IX). Für den Anfang des Datenbankaufbaus beschränken wir uns auf diejenigen Abschnitte, die sich mit der Flexionsmorphologie befassen. Später sollen auch weitere Systemebenen wie Wortbildung und Syntax aufgenommen werden. Die fertige Datenbank soll die Texte als Bild- und als Textdateien zu Verfügung stellen. Welche weiteren Informationen - neben den bibliografischen Fakten - in die Datenbank aufgenommen werden, zeigt folgendes Beispiel des Artikels Größtmöglichst von Wustmann (siehe Abb. 1): Tabelle 1 führt die Informationen auf, die aus diesem Artikel in die Datenbank eingegeben werden: Die Inhalte der Spalten stehen nicht in einem direkten Bezug zueinander. In der ersten Spalte steht die sprachliche Systemebene, mit der sich der Text beschäftigt, d.h. die Flexionsmorphologie. Innerhalb der Fle- <?page no="345"?> 345 ZweiDat: Sprachliche Zweifelsfälle in historischer Perspektive xionsmorphologie geht es um die Steigerung von Adjektiven, besonders von zusammengesetzten Adjektiven. Dies wird in der zweiten Spalte mit dem Titel ‘Schlagwörter’ erfasst. Ein großer Teil des Textes von Wustmann besteht aus sprachlichen Belegen. Diese werden zunächst in der im Text genannten Variante, also z.B. besteingerichtetsten, aufgeführt. Als Ergänzung wird die Wortart des Belegs und das dazugehörige Lemma festgehalten. Der Artikel nennt außerdem oft die Herkunft der verschiedenen vom Autor aufgeführten Sprachbelege. Diese werden in der Spalte ‘Bezugsinstanz’ erfasst und einer Kategorie zugeordnet, wie z.B. Person, Funktiolekt, diatopisch oder diachron. In der letzten Spalte ‘Bewertung’ stehen die Wertungen der Autoren. Sie reichen von positiv bis stark negativ und geben häufig auch die Frequenz an, wie oft bestimmte Phänomene zu beobachten sind. Abb. 1: Artikel Größtmöglichst aus Allerhand Sprachdummheiten von Gustav Wustmann als Bilddatei <?page no="346"?> 346 Korpuslinguistik und/ oder Datenbanklinguistik? Größtmöglichst Noch schlimmer freilich sind die jetzt so beliebten doppelten Superlativbildungen, wie die b e s t e i n g e r i c h t e t s t e n Verkehrsanstalten, die b e s t b e w ä h r t e s t e n Fabrikate, die b e s t r e n o m m i e r t e s t e Firma, das b e s t v e r b r e i t e t s t e Insertionsorgan, der f e i n s t l a u b i g s t e Kohlrabi u. ähnl. (statt der b e s t e i n g e r i c h t e t e n oder der b e w ä h r t e s t e n ). Für s o g u t w i e m ö g l i c h kann man natürlich auch sagen: m ö g l i c h s t g u t . Es gibt ja verschiedne Grade der Möglichkeit, es kann etwas leichter möglich sein und auch schwerer möglich; man sagt auch: tue dein M ö g l i c h s t e s ! Wie muß sich aber diese Steigerung mißhandeln lassen! Die einen stellen die Wörter verkehrt, bringen den Superlativ an die falsche Stelle und sagen b e s t m ö g l i c h , in der irrigen Meinung, das Wort sei eine Zusammenziehung aus: der b e s t e , der m ö g l i c h ist: andre wissen sich gar nicht genug zu tun und bilden auch hier wieder den doppelten Superlativ b e s t m ö g l i c h s t , g r ö ß t m ö g l i c h s t : mit g r ö ß t m ö g l i c h s t e r Beschleunigung. Das beste ist es, auch solche schwülstige Übertreibungen ganz zu vermeiden. Das gilt auch von der beliebten Steigerung: der d e n k b a r g r ö ß t e . Wenn ein Nutzen nicht der d e n k b a r g r ö ß t e wäre, so wäre er doch auch nicht der g r ö ß t e . Welch unnötiger Wortschwall also! Vollkommner Unsinn ist es natürlich, wenn gedankenlose Menschen jetzt der e r s t e b e s t e zusammenziehen in der e r s t b e s t e , wenn ein Arzt bittet, m ö g l i c h s t k e i n e Briefe an ihn zu richten, da er verreist sei, eine Herrschaft einen m ö g l i c h s t v e r h e i r a t e t e n oder einen m ö g l i c h s t u n v e r h e i r a t e t e n Kutscher zu m ö g l i c h s t s o f o r t i g e m Antritt sucht, Zeitungen ihre Abonnenten auffordern, das Abonnement b a l d g e f ä l l i g s t zu erneuern, oder ein Kaufmann seine Kunden bittet, ihm b a l d m ö g l i c h s t oder b a l d g e f ä l l i g s t ihre geschätzten Aufträge oder Bestellungen zukommen zu lassen. Was sie meinen, ist weiter nichts als: w o m ö g l i c h k e i n e , w o m ö g l i c h v e r h e i r a t e t , w o m ö g l i c h s o f o r t , und: m ö g l i c h s t b a l d , g e f ä l l i g s t b a l d . Abb. 2: Artikel ‘Größtmöglichst’ aus Allerhand Sprachdummheiten von Gustav Wustmann als Textdatei Über die Texte der Zweifelsfall-Literatur hinaus versuchen wir, die in den Zweifelsfällen beschriebenen Phänomene auch in einer aktuellen Grammatik zu finden. Unter anderem wegen der hohen Verbreitung und guten Zugänglichkeit beziehen wir uns auf die DUDEN-Grammatik, die als gegenwartssprachliche Referenz aufgeführt wird. In diesem Fall gibt es zwei Paragraphen, die sich mit dem Thema des Artikels ‘Größtmöglichst’ von Wustmann beschäftigen: §502: ‘Verbindungen des Typs Adjektiv + Adjektiv’ oder ‘Adjektiv + Partizip’ und §505: ‘Weitere Gradabschattungen’ (DUDEN 2009, S. 370f. und 376). <?page no="347"?> 347 ZweiDat: Sprachliche Zweifelsfälle in historischer Perspektive sprachliche Systemebene Schlagwörter Belege Bezugsinstanz Bewertung Flexionsmorphologie Adjektiv besteingerichtetsten (Adj./ Lemma: gut eingerichtet) diastratisch/ Herrschaft beliebt Komparativ besteingerichteten (Adj./ Lemma: gut eingerichtet) Funktiolekt/ Arzt falsch Komparation feinstlaubigste (Adj./ Lemma: fein laubig) Funktiolekt/ Kaufmann irrig Superlativ der Einzigste (Subst./ Lemma: der Einzige) Funktiolekt/ Zeitung mißhandelt Komposition bewährtesten (Adj./ Lemma: bewährt) schlimm bestmöglichst (Adj./ Lemma: möglich) schwülstige Übertreibung möglichst gut (Adj./ Lemma: möglich) unnötiger Wortschwall baldgefälligst (Adj./ Lemma: gefällig) unsinnig einzig (Adj./ Lemma: einzig) verkehrt … Tab. 1: Informationen, die aus dem Artikel ‘Größtmöglichst’ aus Allerhand Sprachdummheiten von Gustav Wustmann in die Datenbank einfließen 1. Fragestellungen an die Datenbank ZweiDat - ein paar Fallbeispiele Im Folgenden wird an drei sog. Fallbeispielen erläutert, welche Fragen mit Hilfe von ZweiDat beantwortet werden können und wie der Lösungsweg zu diesen Antworten aussehen kann. 1.1 Fallbeispiel: Was sind die Themen? - Zu den Schlagwörtern Eine Frage erscheint bei einer Zweifelsfall-Datenbank besonders brisant: Was wird überhaupt bezweifelt? Bei einer solchen Formulierung ist jedoch Vorsicht <?page no="348"?> 348 Korpuslinguistik und/ oder Datenbanklinguistik? geboten. Kleine Grammatik des Zweifelhaften, des Falschen und des Häßlichen lautet der Untertitel von Gustav Wustmanns Allerhand Sprachdummheiten, der andeutet, dass nicht alle Fälle, die in sein Buch Eingang fanden, automatisch als Zweifelsfälle im Sinne der oben genannten Definition zu betrachten sind. Allerdings halten Autoren wie Wustmann oder Matthias die Fragen, die in ihren Büchern behandelt werden, für klärungswürdig. Matthias verdeutlicht die Notwendigkeit seines Sprachleben und Sprachschäden mit der Feststellung einer „Unsicherheit und Willkür der Sprachgestaltung, [die] immer schlimmer wird“ (Matthias 1929, S. III). Auch scheinen die behandelten Themen in der jeweiligen Zeit Diskussionsstoff gewesen zu sein. Wustmann stützt die Zusammenstellung seiner Sprachdummheiten auf „unfreiwillige Mitarbeiter“ (Wustmann 1903, S. VIII) und eine „große Masse von Zusendungen [...] Fragen, Wünsche[n] [...]“ (ebd.). Grundlegend ist also anzunehmen, dass bezüglich der verzeichneten Fälle mehr oder weniger gezweifelt wurde. Zahlreiche Bewertungen von Varianten wie ‘möglich’, ‘selten’ und ‘unsicher’ weisen zudem auf sprachliche Zweifelsfälle hin. Eine mögliche Frage aus quantitativer Perspektive an die Themen, die in der Datenbank aufgenommen sind, wäre: Wie oft werden bestimmte Themen diskutiert? Diese weitgreifende Formulierung lässt sich beispielsweise eingrenzen auf bestimmte linguistische Systemebenen, einzelne Autoren oder verschiedene Zeiten. Wir möchten hier zunächst exemplarisch der Frage nachgehen, wie oft verschiedene Wortarten innerhalb der Flexionsmorphologie behandelt werden. Unter der entsprechenden Einschränkung auf die Ebene der Flexionsmorphologie erhält man für die Abfrage der Wortarten Substantiv, Verb und Adjektiv folgendes Ergebnis: Fälle insg.: 128 Quantitative Abfrage: Wortarten, Flexionsmorphologie Schlagwort Treffer Substantiv 64 Adjektiv 30 Verb 13 Tab. 2: Anzahl der Wortarten im Systembereich Flexionsmorphologie In den bisher aufgenommen 128 Fällen dominiert die Substantivflexion. Die Nominalflexion überwiegt insgesamt deutlich gegenüber der Verbalflexion. Man kann nun weiter nach bestimmten grammatischen Kategorien fragen, wie zum Beispiel: Mit welcher Häufigkeit werden die nominalen Flexionskate- <?page no="349"?> 349 ZweiDat: Sprachliche Zweifelsfälle in historischer Perspektive gorien Kasus und Genus thematisiert? ZweiDat muss zur Beantwortung dieser Frage unter entsprechenden Einschränkungen abgefragt werden: a) Schlagwort: Kasus; Systemebene: Flexionsmorphologie b) Schlagwort: Genus; Systemebene: Flexionsmorphologie Wie Tabelle 3 zeigt, wird der Kasus wesentlich häufiger diskutiert als das Genus: Fälle insg.: 128 Quantitative Abfrage: nominale Flexionskategorien Schlagwort Treffer Kasus 55 Genus 16 Tab. 3: Häufigkeit der Deklinationskategorien Kasus und Genus im Systembereich Flexionsmorphologie Bezüglich solch quantitativer Fragestellungen an die Themen ergeben sich weitere interessante Aspekte, für deren Bearbeitung ZweiDat dienlich sein kann. So könnte man eine diachrone Perspektive einbringen und fragen, ob zu Beginn des 21. Jahrhunderts dieselben Fälle diskutiert werden wie Ende des 19. Jahrhunderts. Gibt es neue Fälle? Verschwinden bestimmte Themen? Gibt es traditionelle Themen, die stetig diskutiert werden? Die letztgenannte Frage weist bereits auf das folgende Anwendungsbeispiel hin. 1.2 Fallbeispiel: Schreiben die Autoren von Zweifelsfall-Literatur voneinander ab? In seinem Aufsatz Sprachliche Zweifelsfälle als linguistischer Gegenstand. Zur Einführung in ein vergessenes Thema der Sprachwissenschaft stellt Klein fest, dass „mit den Werken von Sanders, Wustmann, Andresen und Matthias [...] die maßgeblichen Werke vor[lagen], die sowohl nach der Sache als auch nach dem Tonfall die Marksteine der Diskussion von Zweifelsfällen im deutschen Sprachkontext gesetzt hatten“ (Klein 2003/ 2004, S. 26). Ausgehend davon stellt er die Hypothese auf, dass „noch die heutigen Stellungnahmen zu den Zweifelsfällen in der einen oder anderen Weise auf Motive und Gehalte der Sprachkritik des 19. Jahrhunderts zurückgeführt werden können.“ (ebd.) Klein geht davon aus, dass „entsprechende Publikationen von Fall zu Fall eher an bereits existierende Sammlungen anknüpfen, als tatsächlich eigenständige, aktuelle Empirie zu betreiben“ (Klein 2009, S. 149). Diese Hypothese kann <?page no="350"?> 350 Korpuslinguistik und/ oder Datenbanklinguistik? mit Hilfe der Datenbank ZweiDat gut exemplarisch überprüft werden, indem man die Darstellung eines Zweifelsfalls diachron verfolgt. Da die ZweiDat- Datenbank erst am Anfang steht, wird sich der Vergleich auf einen Zweifelsfall und zwei Zeitpunkte beschränken müssen, und zwar auf die Steigerung von zusammengesetzten Adjektiven in den Darstellungen von Wustmann/ Matthias (1903/ 1929) und Sick (2004), der in Ausschnitten für diese Untersuchung in die Datenbank aufgenommen worden ist. Mit Hilfe der Datenbank kann man alle Artikel dieser drei Autoren finden, die sich mit dem Thema „Steigerung von zusammengesetzten Adjektiven“ beschäftigen, indem man die Artikel mit dem Schlagwort Superlativ sucht. Als Treffer erhält man insgesamt fünf Artikel, siehe Tabelle 4: Schlagwort: Superlativ Artikelüberschrift Seiten Autor 1 Größtmöglichst 42-43 Wustmann 2 Steigerung der Adjektiva. Schwerwiegender oder schwerer wiegend? 40-41 Wustmann 3 Brutalstmöglichst gesteigerter Superlativissimus 42-46 Sick 4 möglichst groß, so groß als möglich, größtmöglich 73-73 Matthias 5 Schwerwiegenst, tiefgreifendst 72-73 Matthias Tab. 4: Artikel, die das Schlagwort Superlativ enthalten Als Nächstes kann man die Inhalte dieser Artikel über die Datenbank miteinander vergleichen. Die Schlagwörter dieser fünf Artikel sind in Tabelle 5 aufgeführt. Man sieht, dass die Schlagwörter Adjektiv, Komparation, Komparativ, Superlativ in allen fünf Artikeln vorkommen und das Schlagwort Kompositum in vier Artikeln. Auf Wortbildung gehen ein Artikel von Matthias und der Artikel von Sick ein. Die große Übereinstimmung in Bezug auf die Schlagwörter bestätigt, dass sich diese fünf Artikel mit dem gleichen Hauptthema beschäftigen. Die Hypothese, dass die Stellungnahmen zu den Zweifelsfällen in der Gegenwart auf die Stellungnahmen der Sprachkritik des 19. Jahrhunderts zurückgeführt werden können (vgl. Klein 2003/ 2004, S. 26) kann überprüft werden, indem man die Bewertungen der Autoren miteinander vergleicht (siehe Tab. 6). Aufgrund der geringen Datenmenge kann man noch nicht beurteilen, ob die Hypothese zutrifft oder nicht. Man kann allerdings feststellen, dass Sick als Vertreter der Gegenwart zwei neutrale Bewertungen ( falsch, unkorrekt ) und <?page no="351"?> 351 ZweiDat: Sprachliche Zweifelsfälle in historischer Perspektive eine abwertende Bewertung (Missgeschick) abgibt, während abwertende Bewertungen bei Matthias und Wustmann als Vertreter des späten 19. Jahrhunderts recht häufig sind, wie z.B. grober Schnitzer, misshandelt, schwülstig, unerträglich, übertrieben, tadelnswert. Außerdem kommen die Bewertungen schwülstig und übertrieben bei Wustmann und Matthias vor, d.h. sie sind sich bezüglich ihrer Sprachkritik einig. Artikel Steigerung der Adjektiva größtmöglichst schwerwiegenst, tiefgreifendst0 möglichst groß, so groß als möglich, größtmöglich brutalstmöglichst gesteigerter Superlativissimus Autor Wustmann Matthias Sick Schlagwörter Adjektiv Adjektiv Adjektiv Adjektiv Adjektiv Komparation Komparation Komparation Komparation Komparation Komparativ Komparativ Komparativ Komparativ Komparativ Superlativ Superlativ Superlativ Superlativ Superlativ Komposition Komposition Komposition attributiv Komposition Partizip prädikativ Partizip Stamm auf Frikativ Wortbildung auf -bar Rechtschreibreform einsilbig Wortbildung, pejorativ mehrsilbig Wortbildung auf -istisch Wortbildung mit Hyper- Wortbildung mit Mega- Tab. 5: Übersicht über die Schlagwörter in fünf Artikeln mit dem Hauptthema ‘Steigerung von zusammengesetzten Adjektiven ’ Die Ausgangsfrage, ob die Autoren von Zweifelsfall-Literatur voneinander abschreiben, kann selbstverständlich nicht an diesem einen Beispiel beantwortet werden. Es geht im Rahmen dieses Beitrages nur darum zu zeigen, wie man mit Hilfe von ZweiDat Antworten auf solche Fragen suchen kann. In diesem Sinne findet man mittels ZweiDat die Textstellen, die sich inhaltlich <?page no="352"?> 352 Korpuslinguistik und/ oder Datenbanklinguistik? mit dem gleichen Hauptthema beschäftigen, man kann sich diese Textstelle direkt anzeigen lassen und man kann die in ZweiDat aufgearbeiteten Informationen - z.B. Schlagwörter, Bezugsinstanz oder Sprachbewertungen - direkt miteinander vergleichen. Die Interpretation dieser Fakten, um die Ausgangsfrage zu beantworten, geht dann über ZweiDat hinaus. Artikel Steigerung der Adjektiva größtmöglichst schwerwiegenst, tiefgreifendst möglichst groß, so groß als möglich, größtmöglich brutalstmöglichst gesteigerter Superlativissimus Autor Wustmann Matthias Sick Bewertungen besser beliebt kaum zu beanstanden richtig falsch deutlich misshandelt schön Missgeschick kräftig schwülstig tadelnswert unkorrekt grober Schnitzer übertrieben übertreibungssüchtig neumodisch unsinnig nicht verkehrt zu billigen nicht anstößig nicht schön nichts einzuwenden schleppend schwülstig störend unbedingt unerträglich Tab. 6: Übersicht darüber, wie die Autoren die in den fünf Artikeln mit dem Hauptthema ‘Steigerung von zusammengesetzten Adjektiven’ verwendeten sprachlichen Beispiele bewerten. <?page no="353"?> 353 ZweiDat: Sprachliche Zweifelsfälle in historischer Perspektive 1.3 Fallbeispiel: Wer hat's gesagt? - Zu den Bezugsinstanzen Wie bereits angesprochen, sind die Bezugsinstanzen eine wesentliche Information, die ZweiDat bietet. Es gilt zunächst zu klären, was unter diesem Begriff zu verstehen ist. Ein Beispiel: In der Sprache des niedrigen Volkes ist nun eine starke Meinung, die Pluralendung auf -er immer weiter auszudehnen. Es ist ein durchaus plebejischer Sprachzug. Nur das niedrige Volk redet in Leipzig von Gewölbern und Geschäftern, der Gebildete von Gewölben und Geschäften. (Wustmann 1903, S. 21). Wustmann führt in diesem Beispiel die Varianten Gewölbern und Geschäftern an, welche „in Leipzig“ vom „niedrigen Volk“ realisiert werden. Es liegen hier die Kategorien ‘diastratisch’ (niedriges Volk) und ‘diatopisch’ (in Leipzig) vor. Gewölben und Geschäften bilden hingegen Varianten von ‘Gebildeten’, welche wiederum der Kategorie ‘diastratisch’ angehören. Wir meinen mit Bezugsinstanzen also solche Elemente eines Falls, die eine bestimmte Variante formulieren. Neben ‘diastratisch’ und ‘diatopisch’ sind bisher folgende Bezugsinstanzenkategorien verzeichnet: ‘diachron’ (18. Jahrhundert), ‘diaphasisch’ (Papierdeutsch), ‘Funktiolekt’ (Grammatiker), ‘Person’ (Bismarck). In den bisher aufgenommenen 128 Fällen (Stand Dezember 2011) werden 1 130 Bezugsinstanzen genannt. An dieser Stelle eine vollständige Liste der Bezugsinstanzen abzubilden, ist daher nicht möglich. Ein Ausschnitt genügt, um einen Einblick in die Fülle dieser Kategorie zu bekommen. Eine solche Bezugsinstanzenvielfalt erstaunt nicht, wenn man sich vor Augen führt, dass in eben dieser Varietätenvielfalt „eine [...] Existenzursache [liegt], aus der sprachliche Zweifelsfälle resultieren. [...] Je mehr (soziale, funktionale, regionale, historische, stilistische) Varietäten es in einer Sprache gibt, desto mehr sprachliche Zweifelsfälle werden entstehen“ (Klein 2009, S. 143f.). Somit muss die Kategorie ‘Bezugsinstanz’ ein wesentlicher Bestandteil von ZweiDat sein. Bezüglich Literatur über Zweifelsfälle, wie sie in ZweiDat aufgenommen wird, stellt sich die Frage, ob bestimmte Bezugsinstanzen als vorbildhaft hinsichtlich des Sprachgebrauchs zitiert werden. So kann man beispielsweise der folgenden Frage nachgehen, welche Personen bzw. Personengruppen in den Werken von Wustmann und Matthias mit welcher Funktion genannt werden? Unter ‘Person’ werden in der Datenbank solche Bezugsinstanzen aufgeführt, die namentlich genannt werden. ZweiDat kann für die Beantwortung dieser Frage dienlich sein: Die Datenbank muss zunächst nach ‘Person’ abgefragt werden, wobei gemäß unserer Fragestellung nur in Werken von Wustmann <?page no="354"?> 354 Korpuslinguistik und/ oder Datenbanklinguistik? und Matthias gesucht werden soll. Als Abfrageergebnis erhält man eine Auflistung sämtlicher verzeichneter Personen mit Angabe des dazugehörigen Falls. Ein Ausschnitt sähe so aus: ZweiDat: Kategorie Bezugsinstanz Fall Bezugsinstanz Kategorie Des Rhein oder des Rheins 1774 diachron Die Tunnels, Jungens u. Ä. allerneueste diachron Zahlwörter althochdeutsch diachron Größtmöglichst Arzt Funktiolekt Deren und derer Lehrer Funktiolekt Beugungsformen zu man Redner im Reichstag Funktiolekt Der Zweitfall Gespräch diaphasisch Zur Beugung Umgangssprache diaphasisch Die Tunnels, Jungens u. Ä. Familienkreis diaphasisch Konjunktiv der Vergangenheit Hochgebildete diastratisch Personennamen Volk diastratisch Starke und schwache Konjugation Mindergebildete diastratisch Konjunktiv der Vergangenheit Bayern diatopisch Frägt und frug Molmerswende bei Halberstadt diatopisch Böte oder Bote Wien diatopisch Welcher oder der? Brüder Grimm Person Das Hauptwort. Die Form. Goethe Person Steigerung der Mittelwörter Kant Person Tab. 7: Ausschnitt der Tabelle ‘Bezugsinstanz’ in der Datenbank ZweiDat Wie man Tabelle 8 entnehmen kann, werden Personen verschiedener Funktionen herangezogen: Schriftsteller wie Goethe und Lessing, Politiker wie Bismarck und Hindenburg, Philosophen wie Luther und Kant sowie Hochschullehrer wie der Literaturwissenschaftler Witkop. Die Fälle sind mit ihrem <?page no="355"?> 355 ZweiDat: Sprachliche Zweifelsfälle in historischer Perspektive entsprechendem Artikel verlinkt, so dass man direkt den jeweiligen Artikel öffnen und lesen kann. Für die Beantwortung unserer Frage muss in jedem einzelnen der aufgelisteten Fälle geprüft werden, ob die jeweilige Person mit einer positiv oder negativ bewerteten Variante in Verbindung steht, womit letztlich festzuhalten bliebe, ob die Person als Vorbild in dem Artikel dient. Ein Beispiel: Nach folgender Tabelle (Tab. 8) ist die Person Klopstock in dem Fall Des Rhein oder des Rheins genannt: Fall Person Mir armen oder armen Manne? Wir Deutschen Bismarck Das Hauptwort. Die Form. Lessing Des Rhein oder des Rheins? Klopstock Welcher oder der? Luther Ich bin gestanden oder ich habe gestanden? Goethe Darauf, darunter, worauf u. Ä. auf Sachen bezogen Heine Manche gute oder guten Seiten? u. Ä. Hindenburg Steigerung der Mittelwörter Kant Mit langem roten oder langem rotem Barte? Witkop, Philipp Tab. 8: Liste der Personen und des dazugehörigen Falls Ebenso geht es den Monatsnamen. Auch diese wurden früher alle zwölf richtig dekliniert: des Aprils, des Oktobers (Klopstock: Sohn des Mais; Schlegel: Nimm vor des Märzen Idus dich in acht). Heute schreibt man fast nur noch: zu Anfang des Oktober, wenn man nicht lieber gar stammelt: Anfang Oktober. (Wustmann 1903, S. 7) Als „richtige“ Formen werden die Varianten Klopstocks und Schlegels bewertet, die somit in diesem Abschnitt eine Vorbildfunktion einnehmen. Dass Schriftsteller bezüglich des Sprachgebrauchs Autoritäten darstellten, ist bekannt: Linking standard German to the language of the classical writers (especially Goethe and Schiller) was part of the attempt to ensure that the linguistic norm remained the property of an educated elite, an elite who had received a ‘proper’ education at a humanist grammar school. (Davies/ Langer 2006, S. 111) Nur weil Goethe, Schiller oder andere genannt werden, bedeutet dies nicht, dass ihre Varianten automatisch vorbildhaft sind: <?page no="356"?> 356 Korpuslinguistik und/ oder Datenbanklinguistik? Die Frage [Plural auf -en oder -e statt -s bei Fremdwörtern] wird zunächst bei Wörtern mit konsonantischem Ausgange fast immer zu bejahen sein, wie das die folgenden Formen bezeugen, die musterhaften Schriftstellern [...] entlehnt sind: Fräcke, Docke, Balköne, Kartone [...] lauter Rafaele und selbst und erfreulich Porträte, dies bei Goethe. [...] Dann kommt man aber auch bei Wörtern mit volltönendem Selbstlaute am Ende oft ohne das s aus. [...] Anstatt die Mehrzahl hier mit s zu bilden, sollte man sie lieber [...] unbezeichnet lassen und trotz Schlegels Uhus und Kaffees und Tees, trotz Goethes Gute Tags und Gute Abends lieber sagen viele Wenn und Aber und wie Lessing schrieb: allen diesen Vielleicht. (Matthias 1929, S. 49) Das Beispiel verdeutlicht die Notwendigkeit der Überprüfung jeder Person im Artikel. Zwar werden erneut Schriftsteller als Autoritäten herangezogen. Goethe und Lessing stehen mit als positiv bewerteten Varianten („Porträte“ bzw. „allen diesen Vielleicht“) in Verbindung. Jedoch werden auch negativ beurteilte Varianten auf Schriftsteller bezogen: „trotz Schlegels“ und „trotz Goethes“. Interessant erscheint hier die Frage, ob die Verwendung von Schriftstellern als Negativbeispiele systematisierbar ist. Dies ist jedoch Aufgabe der Analyse und nicht der Datenbank, die das Ziel verfolgt, durch vorstrukturierte Informationen bei der Zusammenstellung eines Korpus zu helfen. Festzuhalten bleibt, dass Schriftsteller in der Zweifelsfall-Literatur um 1900 nicht nur als Vorbilder, sondern auch als Negativbeispiele fungieren. Ebenso muss man im Weiteren mit den anderen Personen verfahren, um ein Korpus für Fragen wie: Warum werden Politiker (wie) zitiert? oder konkreter: Warum wird Bismarck (wie) zitiert? zu gewinnen. Mithilfe von ZweiDat würde sich ebenfalls eine diachrone Perspektive anbieten wie: Werden bestimmte Personen bzw. Personengruppen zu verschiedenen Zeiten mit unterschiedlicher Funktion genannt? Werden beispielsweise um 1900 verstärkt Schriftsteller, einhundert Jahre später eher Politiker oder Journalisten als Autoritäten für den Sprachgebrauch herangezogen? Weitere interessante Fragestellungen, die sich im Kontext der Kategorie Bezugsinstanz ergeben, wären etwa: Welche Dialekte werden mit welcher Häufigkeit genannt? Sagen solche quantitativen Verteilungen etwas über die Autorität einer Bezugsinstanz aus? Sind alte Formen richtigere Formen? Werden Varianten des Volkes negativ bewertet? Sind wir mit den Bezugsinstanzen schon beim Menschen angelangt, möchten wir einen weiteren Nutzen von ZweiDat ansprechen: Durch Angaben der Nutzer beispielsweise zu ihrem Alter, Geschlecht, Bildungsabschluss etc. kann man der Frage nachgehen, ob bestimmte Menschen über bestimmte <?page no="357"?> 357 ZweiDat: Sprachliche Zweifelsfälle in historischer Perspektive Dinge zweifeln und somit klären, inwiefern „bestimmte Faktoren mit dem Auftreten und dem Profil der sprachlichen Zweifelsfälle korrelieren können“ (Klein 2009, S. 147). 2. Schlussbemerkungen Die aufgeführten Fallbeispiele zeigen, wie man mit Hilfe von ZweiDat vorhandene Zweifelsfall-Literatur relativ einfach und unkompliziert nach bestimmten Daten durchsuchen kann. Um die zu Verfügung stehenden Informationen auszubauen, streben wir an, neben der Flexionsmorphologie auch weitere Systembereiche wie Wortbildung und Syntax aufzunehmen. Außerdem gibt es noch zahlreiche andere Autoren, deren Werke in die Datenbank eingepflegt werden können, wie z.B. Engels, Sanders oder Sick. Auf diese Weise würde ZweiDat die Zweifelsfall-Literatur der vergangenen Jahrhunderte vorstrukturiert zugänglich machen. Somit kann ZweiDat der „Tatsache [...], dass sie [sprachliche Zweifelsfälle] in der Gegenstandskonstitution moderner Sprachwissenschaft bisher eine untergeordnete Rolle spielten“ (ebd., S. 144) durch die Bereitstellung einer großen Datenmenge entgegenwirken. Literatur Quellen/ Korpustexte Dudenredaktion (Hg.) (2009): DUDEN - Die Grammatik. Unentbehrlich für richtiges Deutsch. 8. überarb. Aufl. (= DUDEN 4). Mannheim/ Wien/ Zürich. Matthias, Theodor (1929): Sprachleben und Sprachschäden. Ein Führer durch die Schwankungen und Schwierigkeiten des deutschen Sprachgebrauchs. 6. verbes. u. verm. Aufl. Leipzig. Sick, Bastian (2004): Der Dativ ist dem Genitiv sein Tod. Ein Wegweiser durch den Irrgarten der deutschen Sprache. Köln. Wustmann, Gustav (1903): Allerhand Sprachdummheiten. Kleine deutsche Grammatik des Zweifelhaften, des Falschen und des Häßlichen. Ein Hilfsbuch für alle, die sich öffentlich der deutschen Sprache bedienen. 3. verbes. u. verm. Aufl. Leipzig. Wissenschaftliche Literatur Davies, Winifred Vaughan/ Langer, Nils (2006): The making of bad language. Lay linguistic stigmatisations in German: past and present. (= Vario Lingua 28). Frankfurt a.M. <?page no="358"?> 358 Korpuslinguistik und/ oder Datenbanklinguistik? Klein, Wolf Peter (2003/ 2004): Sprachliche Zweifelsfälle als linguistischer Gegenstand. Zur Einführung in ein vergessenes Thema der Sprachwissenschaft. In: Klein, Wolf Peter (Hg.), Sprachliche Zweifelsfälle. Theorie und Empirie. (= Linguistik online 16). http: / / www.linguistik-online.de/ 16_03/ klein.html (Stand: Juli 2013). Klein, Wolf Peter (2009): Auf der Kippe? Zweifelsfälle als Herausforderung(en) für Sprachwissenschaft und Sprachnormierung. In: Konopka, Marek/ Strecker, Bruno (Hg.): Deutsche Grammatik - Regeln, Normen, Sprachgebrauch. Jahrbuch 2008 des Instituts für Deutsche Sprache. Berlin/ New York. S. 141-165. URL 1: http: / / www.xing.com/ net/ deutschstunde/ wort-fur-wort-403781/ vergeblich-und -vergebens-36 370098/ (Stand: Oktober 2011). <?page no="359"?> Peter Stahl / Ralf Zimmermann Die Datenbank Digitale Volltexte zur Geschichte der deutschen Fach- und Wissenschaftssprache Eine bibliographische Sammlung digitalisierter deutscher Fachtexte vom Mittelalter bis zur frühen Neuzeit 1. Einleitung In diesem Beitrag wird die Datenbank Digitale Volltexte zur Geschichte der deutschen Fach- und Wissenschaftssprachen vorgestellt. Sie enthält eine bibliographische Sammlung von Digitalisaten mittelalterlicher und frühneuzeitlicher Fachtexte von unterschiedlichen Anbietern, das sind in- und ausländische Bibliotheken, wie z.B. die Bayerische Staatsbibliothek in München oder die französische Nationalbibliothek, aber auch private Anbieter wie beispielsweise Google Books oder Wikisource. Ziel der Datenbank ist es einerseits, den Zugang auf die entsprechenden Digitalisate zu erleichtern, andererseits einen Überblick über die frühe deutsche Wissenschaftssprache zu geben, also über den Zeitraum, in dem sich Deutsch gegenüber dem Lateinischen noch nicht als primäre Wissenschaftssprache etabliert hatte. Die Datenbank deckt den Zeitraum zwischen dem 12. und 17. Jahrhundert ab, d.h. den Zeitraum vor dem 18. Jahrhundert. Im 18. Jahrhundert war nämlich „zunächst an den protestantischen Universitäten das Deutsche an die Stelle des Lateinischen getreten [...]. Gegen Ende des Jahrhunderts hatte dieser Sprachenwechsel auch die katholischen Hochschulen weitgehend erfasst“ (Schiewe 1996, S. 3). Vorläufer der Datenbank war die Linksammlung Digitale Volltexte zur Geschichte der deutschen Fach- und Wissenschaftssprachen an der Universität Erfurt, die ab 2009 in Würzburg weitergepflegt und ab 2010 in die Datenbank mit demselben Namen überführt wurde. Während die Linksammlung zwar leicht zu pflegen war, handelte es sich dabei aber um eine statische HTML- Seite, die nur rudimentär mit Browser-Mitteln durchsucht werden konnte. Eine Datenbank hingegen ermöglicht Abfragen in vielerlei Hinsicht. 2. Aufbau und Struktur der Datenbank Aus Sicherheitsgründen wurde die Erfurter Linksammlung zunächst in eine ACCESS-Datenbank auf einem lokalen PC überführt. So liegt zu jedem Zeit- <?page no="360"?> 360 Korpuslinguistik und/ oder Datenbanklinguistik? punkt eine Offline-Kopie der Datenbank vor, die in der gewohnten Windows- Umgebung gepflegt werden kann, bevor sie auf einen öffentlichen Server übertragen wird. Die Informationen, die die Erfurter Links enthielten - das sind Informationen zu Autor, Titel, Jahr, URL und andere Angaben - wurden innerhalb der AC- CESS-Datenbank in verschiedene Tabellen übernommen. Informationen zu neu aufgenommenen Werken lassen sich in der Regel aus den Webseiten des Digitalisats entnehmen, weitere Informationen müssen bei Bedarf vor der Übernahme in die Datenbank ergänzt werden, z.B. der Sachbereich oder der Anbieter des Digitalisats. Grundsätzlich sind Datenbanken in Tabellen organisiert, in die Informationen eingefügt werden. Im Folgenden werden die wichtigsten Tabellen der Datenbank vorgestellt: 2.1 Die Tabelle Autoren Die Tabelle dient der Aufnahme der verschiedenen Autoren. Sie enthält vier Felder: ein Feld ID - dieses Feld ist für alle Tabellen obligatorisch und enthält die laufende Nummer des jeweiligen Datensatzes -, den Vornamen, den Nachnamen sowie eventuell den Künstlernamen des jeweiligen Autors. Somit wird jeder Autor nur einmal in der Tabelle verzeichnet. Dadurch wird gewährleistet, dass die Nennung des Autors innerhalb der Datenbank immer in derselben Schreibweise erfolgt. Außerdem können mehrere Werke einem Autor zugewiesen werden - und umgekehrt. 2.2 Die Tabelle Werke In die Tabelle Werke werden alle Titel der Digitalisate aufgenommen. Sie enthält neben dem obligatorischen Feld ID fünf Felder: Das Feld Titel enthält den Werktitel, der in der Regel der jeweiligen Titelseite bzw. den Informationen des jeweiligen Anbieters des Digitalisats entspricht. Um verschiedene Auflagen mit oftmals leicht unterschiedlichen Titeln einem einzigen Werk eindeutig zuordnen zu können, wurde ein weiteres Feld Normalisierter Titel ergänzt. Das Feld Beschreibung enthält einerseits Publikationsdaten des jeweiligen Werks - hier ist teils eine exakte Jahreszahl angegeben, teils finden sich in diesem Feld ungenauere Angaben, wie z.B. Mitte des 15. Jahrhunderts. Im Feld Beschreibung werden Angaben zur Auflage des Werks gemacht. Um ungenaue Hinweise zu den Publikationsdaten numerisch fassbar zu machen, wurden zwei Felder ergänzt: Das Feld Von enthält den Anfang, das Feld Bis enthält das Ende des Bezugszeitraumes, für Mitte des 15. Jahr- <?page no="361"?> 361 Digitale Volltexte zur Geschichte der deutschen Fach- und Wissenschaftssprache hunderts z.B. ‘1440’ im Feld Von und ‘1460’ im Feld Bis. Durch die beiden Felder Von und Bis wird eine chronologische Sortierung ermöglicht. 2.3 Die Tabelle Sachbereiche Die Sortierung der Datenbankeinträge kann auch über verschiedene Sachbereiche erfolgen. Die Sachbereiche wurden ebenfalls in eine eigene Tabelle übernommen; die Tabelle enthält lediglich ein Feld für die obligatorische ID sowie ein Feld mit dem Namen des jeweiligen Sachbereichs. Insgesamt können die Werke innerhalb der Datenbank 24 Sachbereichen zugeordnet werden, u.a. Medizin, Grammatik oder Bauwesen und Architektur. Durch das Auslagern der Sachbereiche in eine eigene Tabelle können einzelne Werke mehreren Sachbereichen zugeordnet werden, was z.B. bei Sammelwerken sinnvoll ist. 2.4 Die Tabelle Datenbanken Um in der Online-Oberfläche der Datenbank auf einen Blick den Anbieter des Digitalisats erkennbar zu machen, wurde eine weitere Tabelle zur Datenbank hinzugefügt: Die Tabelle Datenbanken enthält neben der obligatorischen ID das Feld Datenbank_Name, hier ist der Anbieter des Digitalisats angegeben, z.B. Bayerische Staatsbibliothek. Daneben enthält das Feld Link einen direkten Verweis auf die Homepage der jeweiligen Quelle, das Feld Logo enthält einen Verweis auf das Logo der jeweiligen Institution, die das Digitalisat zur Verfügung stellt. 2.5 Die Tabelle URL In der Tabelle URL stehen die Webadressen der Digitalisate. Diese Tabelle enthält neben dem obligatorischen ID-Feld zunächst das Feld Nummer_Werk. Es dient der Zuweisung einer URL zu genau einem Werk. Das Feld URL enthält den Weblink zur Startseite des jeweiligen Digitalisats; mit dem Feld Datenbank wird die Quelle des Digitalisats angegeben. Neben den genannten Tabellen enthält die Datenbank weitere Tabellen, u.a. kann über die Tabelle Inhaltsverzeichnis direkt auf ein Inhaltsverzeichnis oder mehrere Inhaltsverzeichnisse eines Werks verwiesen werden. Andere Tabellen stellen Verknüpfungen zwischen einzelnen Tabellen her, die Tabelle Autoren_ Link verknüpft z.B. die beiden Tabellen Werke und Autoren; so lassen sich mehrere Werke einem Autor zuordnen und umgekehrt. Insgesamt stellt sich die Struktur der Datenbank wie in Abbildung 1 dar: Zentral ist hier die Tabelle Werke, die über das Feld ID u.a. mit der Tabelle Autoren, URL und Datenbanken verknüpft ist, so dass mit einer entsprechen- <?page no="362"?> 362 Korpuslinguistik und/ oder Datenbanklinguistik? den Datenbankabfrage der oder die Autoren eines Werks, der Link auf die Startseite des Digitalisats oder die Quelle des Digitalisats ermittelt werden können. Abb. 1: Struktur der Datenbank Die Datenbankabfragen, die auch der Online-Oberfläche der Datenbank zugrunde liegen, wurden zunächst innerhalb der ACCESS -Datenbank mithilfe der Abfragesprache SQL formuliert und getestet. Folgende Abfrage findet z.B. alle Werke innerhalb der Datenbank, die im 15. Jahrhundert veröffentlicht wurden: SELECT vorname, nachname, titel, url (a) FROM werke, autoren, autoren_link, url (b) WHERE von BETWEEN 1400 AND 1499 (c) AND werke.id=autoren_link.nummer_werk (c) AND autoren.id=autoren_link.nummer_autor (c) AND werke.id = url.nummer_werk; (d) Ausgegeben werden Vorname und Nachname des Autors, der Titel des Werks sowie der Link auf die Startseite des Digitalisats (a). Entnommen werden diese Informationen den Tabellen Werke, Autoren, Autoren_Link und URL (b). Ausgegeben werden dabei nur die Werke, die zwischen 1400 und 1499 entstanden <?page no="363"?> 363 Digitale Volltexte zur Geschichte der deutschen Fach- und Wissenschaftssprache sind (c); die restlichen Zeilen der Abfrage stellen Verknüpfungen zwischen den Tabellen Werke und Autoren her (d). Um die Datenbank öffentlich zugänglich zu machen, wurde die ACCESS- Datenbank auf den M Y SQL -Server des Rechenzentrums der Universität Würzburg exportiert. Der Export der einzelnen Tabellen erfolgte über so genannte CSV -Dateien, also Textdateien, in der die Felder der einzelnen Tabellen jeweils durch ein Semikolon voneinander getrennt sind. Die Datenbankabfragen, die zunächst in ACCESS erstellt wurden, können innerhalb der M Y SQL -Datenbank in identischer Form wiederverwendet werden; der Zugriff auf die Datenbank erfolgt dabei mithilfe der Programmiersprache PHP , in der auch die übrigen Bestandteile der Online-Oberfläche, wie z.B. Menüs, Buttons, Ausgabetabellen usw. erstellt wurden. 3. Online-Oberfläche Die Online-Oberfläche ist unter www.fachtexte.germanistik.uni-wuerzburg.de (URL 1) frei und ohne Registrierung zugänglich. Sie gibt jeder Nutzerin und jedem Nutzer die Möglichkeit, die Datenbank auf unterschiedliche Weise komfortabel zu durchsuchen: Es können die Werke in ihrer Gesamtheit aufgelistet werden. Darüber hinaus gibt es zwei unterschiedliche Suchfunktionen: 3.1 Suche nach Sachbereich und/ oder Jahrhundert Über die Suchfunktion Sachbereich/ Jahrhundert kann die Ausgabe der Digitalisate auf einen Sachbereich oder ein Jahrhundert eingeschränkt werden. So können z.B. sämtliche Werke aus einem bestimmten Sachbereich angezeigt werden, beispielsweise aus dem Sachbereich Medizin. Ausgegeben werden sämtliche Werke aus diesem Sachbereich in chronologischer Reihenfolge. Daneben können nur Werke aus einem bestimmten Jahrhundert ausgegeben werden, wie etwa alle Werke des 15. Jahrhunderts. Die Ausgabe erfolgt dabei sortiert nach Sachbereichen, innerhalb derer die Werke chronologisch gelistet werden. Beide Suchen lassen sich kombinieren, so kann man sich sämtliche Digitalisate aus dem Sachbereich Medizin, die im 15. Jahrhundert erschienen sind, anzeigen lassen. In der Ergebnistabelle werden jeweils Autor, Titel, Jahr bzw. Zeitraum und die Quelle des Digitalisats genannt. Durch einen Klick auf die jeweilige Zeile gelangt man zur Webseite dieses Werks. <?page no="364"?> 364 Korpuslinguistik und/ oder Datenbanklinguistik? Hinter dem Titel zeigt ein farbiges Logo an, ob das jeweilige Werk ein Inhaltsverzeichnis (grünes Logo) bzw. ein Register (blaues Logo) enthält. So enthält z.B. Ortolf von Baierlands Arzneibuch, das u.a. als Ergebnis zurückgegeben wird, wenn nach Digitalisaten aus dem Sachbereich Medizin gesucht wird, ein Inhaltsverzeichnis, das durch einen Klick auf das grüne Logo angezeigt wird. Ein Klick auf das Logo der jeweiligen Quelle führt zur Homepage des Anbieters, für Ortolf von Baierlands Arzneibuch also zur Bayerischen Staatsbibliothek in München bzw. zur Justus-Liebig-Universität in Gießen. 3.2 Suche nach Autor und/ oder Titel Eine weitere Suchmöglichkeit ist die Suche nach Autor bzw. Titel. So ergibt z.B. eine Suche nach dem Stichwort arznei im Titel 13 Treffer, darunter auch das bereits angesprochene Arzneibuch von Ortolf von Baierland. Es ist also bei der Suche nach Titeln bzw. Autoren nicht nötig, vollständige Titel bzw. Autorennamen einzugeben; Teile des Titels oder Autorennamens reichen aus, um entsprechende Ergebnisse zu erhalten. 4. Statistik Nach momentanem Stand (5. Oktober 2011) enthält die Datenbank insgesamt 408 Werke von 209 unterschiedlichen Autoren, die von 32 verschiedenen Quellen angeboten werden. Allein 129 Digitalisate stellt dabei die Bayerische Staatsbibliothek in München zur Verfügung. 104 Digitalisate stammen aus der Wolfenbütteler Digitalen Bibliothek. Die meisten Digitalisate, nämlich 66, sind dem Sachbereich Medizin zuzuordnen, 37 Digitalisate sind dem Sachbereich Astronomie und Astrologie zugeordnet, 35 dem Sachbereich Allgemeine Wörter- und Sachbücher. Am Ende der Skala findet sich der Sachbereich Land- und Ackerbau mit zwei Werken. Betrachtet man die Verteilung der Werke über die sechs Jahrhunderte (siehe Abb. 2), so nimmt die Anzahl der Digitalisate bis zum 16. Jahrhundert kontinuierlich zu: Aus dem 12. Jahrhundert findet sich lediglich ein Digitalisat in der Datenbank, im 15. Jahrhundert sind es bereits 67, nach einem Maximum von 193 Werken aus dem 16. Jahrhundert sinkt die Anzahl im 17. Jahrhundert auf 160 Digitalisate. Diese Verteilung scheint auch über die einzelnen Sachbereiche vorzuliegen (siehe Abb. 3): Im Sachbereich Medizin nimmt die Anzahl der Werke von einem Werk im 12. Jahrhundert bis zu 30 Werken im 16. Jahrhundert zu, im 17. Jahrhundert sinkt die Zahl der Digitalisate aus diesem Sachbereich auf 23. <?page no="365"?> 365 Digitale Volltexte zur Geschichte der deutschen Fach- und Wissenschaftssprache Abb. 2: Verteilung der Anzahl der Werke Abb. 3: Verteilung der Sachbereiche Ähnlich verhält es sich im Sachbereich Rhetorik und Formularbücher. Allerdings setzt dieser Sachbereich erst im 15. Jahrhundert mit zwei Werken ein, im 16. Jahrhundert nimmt die Zahl der Werke aus diesem Sachbereich auf 13 zu und sinkt im 17. Jahrhundert auf lediglich ein einziges Werk. Fraglich ist, wie diese Verteilung zustande kommt. Die Zahlen scheinen die These zu stützen, dass „gelehrte Texte nämlich [...] oft genau dann in deutscher Sprache [erschienen], wenn mit den betreffenden Wissensbeständen ein alltagsweltlich nutzbares Problemlösungspotential verbunden war“ (Klein 2011a, S. 499). Für den Sachbereich Medizin scheint genau dieser Sachverhalt gegeben zu sein. So enthalten zahlreiche der medizinischen Werke pharmazeutische Rezepturen oder beschreiben Aussehen und Wirkung von Heilpflanzen, <?page no="366"?> 366 Korpuslinguistik und/ oder Datenbanklinguistik? so warnt z.B. Johannes von Cuba 1482 in seinem Gart der Gesundheit vor dem Verzehr von Oleanderblüten: „Und zu besliessen saget Auicenna das diß bluomen vergifftig synt dem menschen vnnd nit alleyn den menschen sunder allen vnuernunfftigen thiren“ (Cuba in URL 2). Umgekehrt fand eine wissenschaftliche Auseinandersetzung mit der deutschen Sprache erst spät statt, hielt man das Deutsche doch lange „in lexikalischer Hinsicht [...] für defizitär [...]. Grammatisch gesehen erschien es als minderwertig, weil es über keine Regeln verfügen sollte. In phonetischer Perspektive verband man die deutsche Aussprache mit einem schlechten, unschönen Klang, was ihre literarische Nutzung fast unmöglich machen sollte. Historisch hielt man die Sprache ferner für untergeordnet, weil sie keine eigenständige, autochthone Geschichte besitze und insofern nur ein nichtswürdiges, spätes Mischungsprodukt aus inkompatiblen Ingredienzien abgäbe. Alle diese fragwürdigen Eigenschaften des Deutschen führten am Ende auch zu der resignativen Auffassung, dass man sie als Ausländer eigentlich kaum erlernen könnte“ (Klein 2011b, S. 37). So beruft sich Friedrich Riedrer 1535 in seinem Spiegel der waren Rhetoric noch auf Ciceros lateinische Vorlage: Dannach von Ciceronis Rhetoric: „Und andrer darüber schreybenden mainung wie kluog redner von schwaeren sachen zereden pflegend/ auß Latein zuo Deütsch gelaytet hab“ (Riedrer in URL 3). Die Zahlen innerhalb der Datenbank sind zur Stützung der These allerdings nur bedingt zu gebrauchen, da wichtige Werke aus der frühneuzeitlichen deutschen Grammatikschreibung fehlen, u.a. Valentin Ickelsamers Ain Teütsche Grammatica aus dem 16. Jahrhundert. Fraglich ist, wie der Einbruch von Digitalisaten im 17. Jahrhundert zu erklären ist. Hier kann nur spekuliert werden. Vielleicht könnte die Zunahme des Buchdrucks und damit die größere Verfügbarkeit der Werke in den Bibliotheken heute ein zeitaufwändiges Scannen für die Digitalisierungszentren uninteressant machen. Eventuell spiegelt die Zahl der Digitalisate nicht die realen Veröffentlichungszahlen der damaligen Zeit für die entsprechenden Sachgebiete wider. Ein Rückgang der Digitalisate ist für das 17. Jahrhundert innerhalb der Datenbank nämlich nicht für alle Sachbereiche zu beobachten. Im Sachbereich Astronomie und Astrologie nimmt die Zahl der Digitalisate z.B. von zwei Werken im 15. Jahrhundert über 18 Werke im 16. Jahrhundert zu, um im 17. Jahrhundert mit 28 Werken den Höchststand zu erreichen. Im Sachbereich Allgemeine Wörter- und Sachbücher nimmt die Zahl der Digitalisate in der Datenbank nach einem Höchststand im 15. Jahrhundert mit 23 Werken schon im 16. Jahrhundert ab (11 Werke) und erreicht mit neun Werken im 17. Jahrhundert den Tiefststand. <?page no="367"?> 367 Digitale Volltexte zur Geschichte der deutschen Fach- und Wissenschaftssprache Diese kurze statistische Auswertung stellt nur eine Momentaufnahme der in unserer Datenbank enthaltenen Informationen dar. Die Auswertung basiert auf den uns bekannten Digitalisaten und muss nicht den tatsächlichen Gegebenheiten der wissenschaftlichen Fachtexte des 12. bis 17. Jahrhunderts entsprechen. Es wird deshalb interessant sein, die Analyse mit den ständig aktualisierten Daten in Zukunft erneut durchzuführen und die Veränderungen innerhalb der Datenbank zu beobachten. 5. Anmerkungen (Stand Januar 2012) Die Aktualisierungen der Datenbank, die seit ihrer Vorstellung im Oktober 2011 erfolgten, scheinen derzeit die oben genannten Thesen zu widerlegen. Durch Hinzunahme fachtextlicher Digitalisate, die im Verzeichnis der im deutschen Sprachraum erschienenen Drucke des 17. Jahrhunderts (VD 17) gelistet werden, lässt sich ein Einbruch der Digitalisate im 17. Jahrhundert nicht mehr feststellen: Aktuell enthält die Datenbank Verweise auf 737 Digitalisate, die Zahl der Digitalisate nimmt dabei über die Jahrhunderte kontinuierlich zu, die meisten Digitalisate (485) stammen aus dem 17. Jahrhundert. Durch den Ausbau der Online-Oberfläche der Datenbank lassen sich nun Diagramme - wie die in diesem Beitrag gezeigten - direkt über die Online-Oberfläche erzeugen: Neben vorgegebenen Statistiken (z.B. die Verteilung der Digitalisate über die einzelnen Jahrhunderte) kann in einer interaktiven Statistik die Anzahl der Digitalisate aus bis zu drei selbst gewählten Sachbereichen über die Jahrhunderte verglichen werden. Es ist nun also jedem Nutzer möglich, die von uns vorgelegten Zahlen über die Online-Oberfläche der Datenbank nicht nur zu überprüfen, sondern auch zu aktualisieren. Außerdem wurden Funktionalität der Suche erweitert: Neben der Suche nach einem Autor oder Titel kann nun auch nach der ID eines Digitalisats und nach dem Entstehungsort der Quelle gesucht werden. Literatur Klein, Wolf Peter (2011a): Die deutsche Sprache in der Gelehrsamkeit der frühen Neuzeit. Von der lingua barbarica zur HaubtSprache. In: Jaumann, Herbert (Hg.): Diskurse zur Gelehrtenkultur der frühen Neuzeit. Ein Handbuch. Berlin/ New York. Klein, Wolf Peter (2011b): Deutsch statt Latein! Zur Entwicklung der Wissenschaftssprachen in der frühen Neuzeit. In: Eins, Wieland/ Glück, Helmut/ Pretscher, Sabine (Hg.): Wissen schaffen - Wissen kommunizieren. Wissenschaftssprachen in Geschichte und Gegenwart. Wiesbaden, S. 35-47. <?page no="368"?> 368 Korpuslinguistik und/ oder Datenbanklinguistik? Schiewe, Jürgen (1996): Sprachenwechsel - Funktionswandel - Austausch der Denkstile. Die Universität Freiburg zwischen Latein und Deutsch. Tübingen. URL 1: Digitale Volltexte zur Geschichte der deutschen Fach- und Wissenschaftsprachen. http: / / www.fachtexte.germanistik.uni-wuerzburg.de (Stand: Januar 2012). URL 2: von Cuba, Johann: OFt vnd vil habe ich bey mir selbst betracht die wundersam wercke des schöpfers der natuer… diß buch zu latin Ortus senitatis auff teutsch ein gart der gesuntheit… (1487-1490). http: / / diglib.hab.de/ wdb.php? dir= inkunabeln/ 50-2-med-2f&image=00282 (Stand: Januar 2012). URL 3: Riedrer, Friedrich: Spiegel der waren Rhetoric: auß Marco Tullio Cicerone: vnd andern geteütscht, Mit jren glidern kluger reden, Sandtbrieffen vnd Formen mancher Contract, seltzam Regulierts Teütsch, vnd nutzbar Exempliert, mit fügen, auff Götlich vnd Keyserlich gschrifft vnd Recht gegründet (1535). http: / / digi.ub. uni-heidelberg.de/ diglit/ drwriederer1535/ 0013 (Stand: Januar 2012). Weitere URLs zu datenbankrelevanten Themen a) zum Thema HTML: http: / / de.html.net/ tutorials/ html/ b) zum Thema Cascading Style Sheets: http: / / de.html.net/ tutorials/ css/ c) zum Thema MySQL: http: / / mysql.lernenhoch2.de/ lernen/ d) zum Thema PHP: http: / / php.net/ manual/ de/ tutorial.php <?page no="369"?> Norbert Richard Wolf Text(e) lesen und (danach) Korpora analysieren: Grundlagen einer verstehenden sprachwissenschaftlichen Textanalyse 1. Vorüberlegungen Jede analysierende Beschäftigung mit Sprache oder mit sprachlichen Texten sollte voraussetzen, dass wir die Texte, die wir analysieren, verstehen. Die Zeiten, in denen jenseits des großen Ozeans geglaubt wurde, dass man eine Sprache beschreiben könne, ohne sie zu verstehen, sind glücklicherweise vorbei; die Erfolg- und Sinnlosigkeit solchen Bestrebens hat sich mittlerweise herausgestellt. Allerdings, wenn wir dieses methodische Postulat des Verstehens ernst nehmen, kommen wir zu einem Paradox, das wir den hermeneutischen Zirkel nennen: Um eine sprachliche Struktur oder eine sprachliche Äußerung zu verstehen, muss ich sie schon verstanden haben, bevor ich sie analysiere; und ich analysiere sie - zumindest vorläufig - so, wie ich sie zunächst verstanden habe. Das Vorverständnis führt zu einer Forschungshypothese, die dann an den Daten überprüft werden muss, bevor sie zur Theorie führen kann. Zu diesem Zweck bedarf es authentischer Daten, die nicht aus der Introspektion der forschenden Person stammen. Das kooperative Forschungsprojekt DeuCze hat auf dieser Basis drei Aufgaben: - Erstellung eines kleinen zweisprachigen Korpus, - korpusbasierte Untersuchungen zur kontrastiven Grammatik (Deutsch- Tschechisch kontrastiv), - kontrastive textlinguistische Analysen, über deren Datenbasis hier zu sprechen sein wird. Ein grammatisches Kapitel bearbeitet in unserem DeuCze-Team Veronika % " | ` @ & schäftigt sich mit dem Partizip, geht ab er über die (Satz-)Syntax hinaus und hat die Textfunktionen von Partizipkonstruktion ins Visier genommen. Iva Kratochvílová und ich bearbeiten semantisch definierte Bereiche, und zwar die Zeitsowie die Raumlinguistik. Im Zusammenhang mit der Raumlinguistik wird eine grundlegende Eigenschaft des Übersetzungsmoduls des DeuCze-Korpus genutzt: Es sind narrative Texte. Narration betrachte ich als eine Sprechhaltung, deren Zeitreferenz die <?page no="370"?> 370 Die Probe auf ’s Exempel Vergangenheit ist; es wird ein Ereignis, ein Geschehen aus der Vergangenheit in seiner zeitlichen Sukzession berichtet. Doch geht es in der Narration nicht nur um Zeit, sondern ganz wesentlich auch um den Raum: Der Erzähler lässt Körper in Räumen agieren; der Erzähler gestaltet und strukturiert den Raum, in dem seine Figuren handeln. Dazu steht eine Reihe sprachlicher Mittel und Techniken zur Verfügung, die zu beschreiben Aufgabe der Raumlinguistik ist. Hier seien zwei terminologische Probleme angesprochen: - Zum Ausdruck räumlicher Relationen werden häufig Präpositionen verwendet, die herkömmlicherweise als ‘lokale’ Präpositionen klassifiziert werden. Allein schon einzelne Ausdrücke wie auf, in, unter oder über verbalisieren aber dreidimensionale Räume, sodass wir besser von ‘spatialen’ Präpositionen sprechen sollten. - Seit Lakoff/ Johnson (1998) ist es üblich geworden, Fälle wie Er handelte in gutem Glauben als Gefäßmetapher zu bezeichnen, der Glaube werde als ein Gefäß konzeptualisiert, in dem sich eine Person befinde und aus dem heraus sie handle. Eine solche Interpretation lässt außer Acht, dass gerade die kleinen Funktionswörter durch ihre Vieldeutigkeit gekennzeichnet sind. Ich werde deshalb derartige Verwendungsweisen nicht in die Raum- Untersuchung einbeziehen. 2. Forschungsfragen und Datenanalyse Als Datenquelle nehme ich einen Text aus dem DeuCze-Korpus, der eine Örtlichkeitsbezeichnung schon im Titel trägt, den Roman Am kürzeren Ende der Sonnenallee von Thomas Brussig, der 1999 zum ersten Mal erschienen ist. „Der Roman erzählt die Erlebnisse einer Gruppe Jugendlicher um den Haupthelden Micha Kuppisch in der DDR der späten 1980er-Jahre. Die Jugendlichen erleben die typischen Stationen auf dem Weg zum Erwachsenwerden in einem Staat, der das Leben bis in den Privatbereich hinein bestimmt“ (Krischel 2011, S. 22). Schon die zweite Konstituente im Titelkompositum Allee signalisiert, dass es sich um eine Straße handelt. Aus dem Inhalt des Buches erfahren wir dann, dass es sich um eine Straße in Berlin handelt, die durch die Berliner Mauer in zwei Teile geteilt wird. Die Internetenzyklopädie Wikipedia teilt uns mit, dass die Sonnenallee „in den Bezirken Neukölln (Ortsteil Neukölln) und Treptow- Köpenick (Ortsteil Baumschulenweg)“ liegt; zudem erfahren wir: <?page no="371"?> 371 Text(e) lesen und (danach) Korpora analysieren Die Sonnenallee ist eine derjenigen Berliner Straßen, die durch die Mauer geteilt waren. Der Teil der Straße, der in Ost-Berlin lag, war mit etwa 400 Metern allerdings sehr kurz. Hier befand sich ein innerstädtischer Grenzübergang. (URL 1) Einige dieser Details können wir auch aus dem Titel erschließen: Wenn es ein kürzeres Ende gibt, dann muss es auch ein längeres Ende der Sonnenallee geben. Die Geschichte spielt am kürzeren Ende; mit den Wikipedia-Informationen können wir feststellen, dass das kürzere Ende tatsächlich sehr kurz ist. Zudem wissen wir aus der jüngeren deutschen Geschichte, dass die Bewohner des kürzeren Endes der Sonnenallee auch im Leben des Kürzeren gezogen haben; die Anspielung auf diesen Phraseologismus ist deutlich. Der Roman beginnt mit einer allgemeinen Feststellung, die eine Örtlichkeit betrifft, und fokussiert dann, gewissermaßen in Zoom-Technik eine Figur, eine Stadt und eine Straße in dieser Stadt: (1) Es gibt im Leben zahllose Gelegenheiten, die eigene Adresse preiszugeben, und Michael Kuppisch, der in Berlin in der Sonnenallee wohnte, erlebte immer wieder, daß die Sonnenallee friedfertige, ja sogar sentimentale Regungen auszulösen vermochte. (S. 7) Dieser Romananfang besteht aus zwei Sätzen: Der erste Satz enthält das Substantiv Adresse, das als allgemeine Örtlichkeitsbezeichnung häufig die Wohnung einer Person bezeichnet, was hier durch das adjektivische Attribut eigene ausgedrückt wird. Dieses Substantiv fungiert hier als Akkusativergänzung zum Verbum preisgeben; durch dieses Verb erfahren wir, dass die eigene Adresse etwas ist, das man üblicherweise geheim hält. Allerdings führen bestimmte Gelegenheiten dazu, dieses Geheimnis anderen mitzuteilen. Der zweite Satz, der mit dem Konnektor und an den Vorgängersatz angefügt ist, exemplifiziert die allgemeine Aussage des ersten Satzes. Das Verbum wohnen nimmt die Substantivgruppe eigene Adresse wieder auf und spielt auf Emotionen an, die mit einer Wohnung häufig verbunden sind. Die ersten beiden Sätze informieren uns über einen privaten Raum, mit dem eine Figur positive Emotionen verbindet, der aber ‘nur’ eine Straße und nicht ein Haus oder eine Wohnung ist. Das Substantiv Adresse kommt im ganzen Roman noch viermal vor. Die nächsten beiden Verwendungen finden sich auf S. 52 des Romans: (2) Ein großes tätowiertes Tier mit vielen Vorstrafen stand in der Tür und glotzte Wuschel an. Wuschel fragte tapfer nach der Exile. Er wurde von dem tätowierten Tier mit herunterhängender Unterlippe angeglotzt, Wuschel <?page no="372"?> 372 Die Probe auf ’s Exempel blinzelte abwiegelnd zurück. Und so bekam Wuschel die Adresse von einem Hippie, der in Strausberg wohnte und jetzt die Exile besitzen sollte. (S. 52) Es geht um die Schallplatte ‘Exile on Main St.’ der Rolling Stones, die 1972 herausgekommen ist. Der Besitz dieser Platte war nach Aussage des Romans in der DDR verboten, sodass es nicht ganz einfach war, an sie heranzukommen. Wuschel bekommt hintereinander zwei Adressen, an denen die heiß begehrte Schallplatte zu finden sein soll. Dafür nimmt Wuschel auch eine Fahrradtour von fast 40 km auf sich. Die Mutter Micha Kuppischs ist überaus ehrgeizig; ihr Ziel ist, dass ihr Sohn einmal in der Sowjetunion studieren wird. Dies soll durch eine spezielle Internatschule vorbereitet werden. Mutter Kuppisch geht mit ihrem Sohn zum Vorstellungsgespräch mit der Schulleiterin und versucht alles, dass Micha einen guten Eindruck macht (vgl. Lammers 2010, S. 57). Dazu gehört auch, dass er jetzt schon in engem Kontakt mit dem ‘großen Bruder’ steht: (4) Frau Kuppisch begann zwar sofort, an ihm herumzumachen, aber Micha wehrte ihre Zudringlichkeit mit einer Handbewegung ab. Frau Kuppisch warf einen scheuen Blick zu der Direktorin, um herauszufinden, wie verheerend Michas Eindruck ist - aber die Direktorin sagte nichts. Sie schaute Micha nur an, und Micha schaute sie an. Niemand der beiden mußte etwas sagen. Frau Kuppisch wollte die Situation entschärfen und versuchte es das letzte Mal mit einer Lüge. ‘Mischa, wenn du jetzt auf dem Internat bist, mußt du deinem sowjetischen Brieffreund schreiben, daß sich deine Adresse geändert hat.’ (S. 132) In all diesen Fällen hat das Substantiv Adresse die Bedeutung ‘Wohnung’; in dieser Lesart ist Adresse ein Substantiv mit Valenz; die entsprechende Leerstelle wird durch Possessiva, durch eine Präpositionalphrase mit von oder durch das Adjektiv eigen gefüllt. Gleichzeitig wird die Funktion von drei Örtlichkeiten deutlich: Es sind Räume, in denen Privates, Intimes geborgen wird oder Privates, Intimes signalisiert. Ganz anders verhält es sich mit dem fünften Beleg: (5) Die Gemüsefrau wurde zur Grande Dame der Sonnenallee, duftete nach Paris, schminkte sich wie die Königin der Nacht und legte sich glänzende Seidenschals über ihre Schultern. Sie wußte, daß sie eine gute Partie ist, denn wer sie freite, konnte im Intershop Werkzeug von Black & Decker kaufen. Sie hatte noch immer die Figur eines Marktweibs, verkaufte Papierfähnchen und Honeckerbilder, aber sie stand im Laden, als bediene sie bei einem Juwelier der allerersten Adresse.“ (S. 89) Der Phraseologismus der allerersten Adresse fungiert hier als wertendes Attribut. <?page no="373"?> 373 Text(e) lesen und (danach) Korpora analysieren In diesem Zusammenhang fällt ein sprachliches Signal für ein Areal auf, ein Signal, das man nicht von vorneherein in einem raumlinguistischen Zusammenhang stellen würde: (6) ‘Hab ick im Suff verspielt’, sagte Franki heiser. (S. 52) (7) ‘Ick hab deine Adresse von Franki, dem Tätowierten’, sagte Wuschel. (S. 52) Die Lautform ick für das Personale der 1. Person Singular weist auf Berlin, wo sich die unverschobene Form aus der niederdeutschen Zeit ins mitteldeutsche Berlinisch gerettet hat. Dass dieses dialektale bzw. Substandardelement nur in Figurenrede, nie aber in Erzählersprache vorkommt, versteht sich von selbst. Mit dieser Form manifestieren sich die Sprecher als Berliner, ganz gleich, ob sie aus Ost- oder Westberlin kommen: (8) Als Wuschel bei ihm die Exile on Main Street bestellte, die englische Pressung, verschweißtes Cover, meinte Kante: ‘Na klar, verschweißt! Denkste, ick will den Schrott noch hören? ’ (S. 56) Die Pronominalform ick kooperiert im Laufe der Erzählung mit weiteren Substandardelementen: (9) Gegen Mitternacht sang ein Chor aus zehn Westberlinern tapfer Avanti Popolo und wedelte dazu mit DDR-Fähnchen, aber als nach dem Kampflied der Olaf auf die Revolution zu sprechen kam, schnitt ihm einer der Westberliner das Wort ab: ‘Leute, ick bin ja sehr für die Revolußion. Aba seit ick da den Jemüseladen uff die Ecke jesehn hab, lahmt mein revolussionärer Eifer. Ja, ick weeß, ihr habt Suppenjrün det janze Jahr üba. Jroßartig! ’ Bald kreuzten zwei Sanitäter auf, die den Olaf und den Udo in Zwangsjacken steckten und wegfuhren. (S. 86) (10) Franki legte seinen Unterarm mit einer Nixen-Tätowierung frei: ‘Dit is Kunst, da hab ick drei Jahre acht Monate dran jesessen! ’ verkündete er mit heiserer Stimme. (S. 106) (11) Das Geld für den Landkauf war nicht das Problem. Land war nicht teuer. Der Quadratmeter kostete nur ein paar Mark. Die Existentialistin würde ein paar Bilder mehr malen und verkaufen und wenn es sein muß, auch Modeschmuck basteln. Mario wollte Mokassins herstellen und verkaufen, für fünfundzwanzig Mark das Paar. Auf keinen Fall wollte die Existentialistin offizielle Staatsaufträge entgegennehmen. Zwar käme es gut, wenn der Staat seinen eigenen Untergang finanziert, ‘aber trotzdem mal ick denen doch nich ihre Bilder! ’. (S. 111f.) Nicht nur ein sprachlicher Sonderfall ist eine Französin, die als Existentialistin eine höchst vergnügliche Rolle spielt. Sie lebt in Ostberlin, malt Bilder und spricht sehr gut Deutsch. <?page no="374"?> 374 Die Probe auf ’s Exempel (12) Die Existentialistin schaltete Edith Piaf aus und legte Je t'aime auf - sie wußte, was sie wollte. Von nun an flüsterte sie nur noch. ‘Du machst dich nur frei, wenn du auch alle anderen frei machst’, sagte sie, und begann sich und Mario frei zu machen. ‘Verstehst du, was ich damit meine’, flüsterte sie. ‘Was Jean Paul damit meint? ’ Mario verstand es nicht, aber er begriff eine ganze Menge. Sie fingen um halb eins an und wurden gegen fünf Uhr fertig - eine echte Existentialistennummer, und als Mario am nächsten Morgen aufwachte, saß sie auf der Bettkante, nackt, nur ihre Baskenmütze auf dem Kopf und lachte Mario an: Na, habe ich dich jetzt entbübt? (S. 76f.) Die letzte Frage in diesem Textstück ist nicht explizit als direkte Rede gekennzeichnet, die Anführungszeichen fehlen, daneben aber deutet der Doppelpunkt an, dass anlachen als Verbum dicendi verwendet wird, die Partikel na und noch mehr das Personale der 1. Person signalisieren auf alle Fälle Figurensprache; es ist dabei nicht von Belang, ob die Existentialistin diese Worte als direkte Rede spricht oder ob diese Worte nur im Kopf des Erzählers existieren. Wie dem auch sei, die okkasionelle Wortbildung entbübt verrät sehr gute Sprachkenntnisse eines/ r Sprechers/ erin, sowohl was modellierende Vorbilder als auch sprachliche Regularitäten betrifft. Im Alltag spricht demnach auch die Französin perfekten Berliner Substandard und tut damit kund, dass sie sich ebenfalls dem Berliner Raum zugehörig fühlt: (13) In dieser Nacht waren alle ein bißchen mehr aufgekratzt als sonst, vielleicht weil Vollmond war. Die Existentialistin, die mit Mario durch die Stadt wanderte, hielt Tiraden wie schon lange nicht mehr. ‘Mann, ick kann dir sagen, ick hab ja so wat von die Schnauze voll. Mann, ick bin Malerin, aba wat sollst'n hier maln? Du brauchst nur eene Farbe, dit is Grau, du hast nur een Jesicht, dit hat's satt. Eh, weeßte, ick hab ma vonne Freundin von drü'm so Farben jekricht, uff die hier alle scharf sind, weil die so leuchtend und so wat weeß ick sind. Eh, ick sach dir, ick konnt ja nischt damit anfang'! Wat sollst'n maln mit so bunte Farben? Eh, ick sach dir, die schaffen hier noch die Farben ab. Wenn jetzt schon dit Rot von die Fahnen verblaßt, ick sach dir, denn machen die ernst! Keen Wunda, des alle abhaun hier. Und wer noch nich abjehaun is, der will abhaun. Und wer noch nich abhaun will, der wird och noch dahintakomm. Und der letzte macht det Licht aus.’ (S. 140) Bereits die ersten beiden Sätze in unserem Text: (1) Es gibt im Leben zahllose Gelegenheiten, die eigene Adresse preiszugeben, und Michael Kuppisch, der in Berlin in der Sonnenallee wohnte, erlebte immer wieder, daß die Sonnenallee friedfertige, ja sogar sentimentale Regungen auszulösen vermochte.“ (S. 7) zeigen uns, worauf das Substantiv Adresse referiert. Eine Adresse besteht in der Regel aus einem Straßennamen und einer Hausnummer. Der Straßenname <?page no="375"?> 375 Text(e) lesen und (danach) Korpora analysieren folgt dann im nächsten Satz. Die Hausnummer bleibt ungenannt, weil es um die Straße bzw. um den östlichen Teil der Straße geht, der den hauptsächlichen Lebensraum der Romanfiguren bildet. Die Sonnennallee, die es, wie schon gesagt, tatsächlich gibt und auf Berliner Straßenplänen leicht gefunden werden kann, ist im Roman ein fiktiver Raum, in der Terminologie Karl Bühlers ein „Phantasma“ (Bühler 1965, S. 133-140). In diesem Phantasma agieren die ebenfalls fiktiven Figuren. Wenn ein Erzähler den Hörer [bzw. den Leser. NRW] in einer rein ‘geistigen’ Weise in Räume führt und ihn in diesem Räumen herumführt, verlieren die an den menschlichen Körper gebundenen drei Richtungsdimensionen nicht ihre Geltung, sondern werden nur auf das Origo-Zentrum einer Figur übertragen. (Schwitalla 2011) Das Phantasma ist zunächst ein ‘Wahrnehmungsraum’, in unserem Falle ein konstruierter Wahrnehmungsraum, der dann als ‘Handlungsraum’ für eine Reihe von Figuren dient. Die Berliner Mauer ist die Grenze des Handlungsraumes. Für die Figuren ist ihr Handlungsraum, wie schon angedeutet, ein deiktischer Raum, in dem wir „zwischen positionaler und direktionaler Deixis“ (Vater 1996, S. 46) unterscheiden können. Als sprachliches Zeichen, das eine führ die Geschichte fundamentale positionale Deixis ausdrückt, begegnet viermal das Adverb drüben. Was sich jenseits der Mauer, also auch im längeren Teil der Sonnenallee, befindet, das ist drüben: (14) Als der Olaf und der Udo die Mauer nun direkt vor dem Fenster sahen, fragten sie, ob dort drüben Westberlin liegt. (S. 84) Durch das Proadverb dort wird die positional-deiktische Funktion von drüben verstärkt; dort drüben ist ein ganz anderer Raum. Die Deixis von drüben manifestiert sich auch in der Tatsache, dass das Adverb nur in Figurensprache vorkommt: (15) Ein Interessent mußte erst mal seine Bestellung abgeben, die Kante nur mit unglaublich hochnäsigen Kommentaren entgegennahm. ‘Was willste denn mit Dylan? Das ist doch drüben so was von vorbei’ ‘Bee Gees? Eunuchengequake, verschwuchtelte Discoscheiße! ’ ‘Stones kannste vergessen, seitdem der Brian Jones tot ist.’ (S. 56) (16) Darauf wußte Heinz wieder nichts zu sagen, aber das wurde auch nicht erwartet. ‘Na, gucken Sie sich doch das mal an! ’ sagte der Grenzer. ‘Ist doch viel zu kompliziert! Und so was bauen die da drüben! Aber wir…’ (S. 60) Als Äußerung von Westberlinern kommt drüben als Zitat, das die Ostberliner demütigen soll, vor: <?page no="376"?> 376 Die Probe auf ’s Exempel (17) Nachdem Mario diese Geschichte erzählt hatte, war das Kitifix längst getrocknet. Da das, was Mario erzählte, erst in der Nacht zuvor passierte, war er so müde, daß er im Spiegel eine weiße Plastiktüte für den Brief hielt. Als Micha die Angel endlich einholte und nur eine Plastiktüte am Radiergummi klebte, johlten wieder ganze Westschulklassen vom Aussichtsturm: ‘Gratuliere, Zoni, der Hauptgewinn! Eine Plastiktüte von drüben! ’ (S. 77) Das ebenfalls positional-deiktische Adverb hier wird in zwei Figurenreden als Verweis auf die kürzere Seite der Sonnenallee und auf die DDR überhaupt verwendet: (18) Weil Micha verblüfft schwieg, setzte der Kulissenschieber zu einer neuen Erklärung an - und das, ohne einen Ball fallen zu lassen. ‘Rate mal, warum sich hier nichts ändert! Wenn du sagst, was los ist, wirst du verhaftet, und alle halten dich für bescheuert, weil du nicht mal weißt, was man nicht sagen darf. Wenn du nicht verhaftet werden willst, mußt du verschweigen, was los ist. Aber wenn du verschweigst, was los ist, ändert sich auch nichts, denn alle halten die Welt für in Ordnung. Und deshalb kann sich hier auch nie etwas ändern.’ (S. 120) Die Existentialistin setzt das hier dem drü'm entgegen, hier ist es grau, drü'm gibt es Farben: (19) Die Existentialistin, die mit Mario durch die Stadt wanderte, hielt Tiraden wie schon lange nicht mehr. „Mann, ick kann dir sagen, ick hab ja so wat von die Schnauze voll. Mann, ick bin Malerin, aba wat sollst'n hier maln? Du brauchst nur eene Farbe, dit is Grau, du hast nur een Jesicht, dit hat's satt. Eh, weeßte, ick hab ma vonne Freundin von drü'm so Farben jekricht, uff die hier alle scharf sind, weil die so leuchtend und so wat weeß ick sind. Eh, ick sach dir, ick konnt ja nischt damit anfang'! Wat sollst'n maln mit so bunte Farben? Eh, ick sach dir, die schaffen hier noch die Farben ab. Wenn jetzt schon dit Rot von die Fahnen verblaßt, ick sach dir, denn machen die ernst! Keen Wunda, des alle abhaun. (S. 140) Ansonsten verweist hier nur auf die Sprech- oder Handlungssituation: (20) Selbst feindselige Sachsen wurden fast immer freundlich, wenn sie erfuhren, daß sie es hier mit einem Berliner zu tun hatten, der in der Sonnenallee wohnt. (S. 7) (21) Mario tat ganz unschuldig. ‘Verboten? Wieso verboten? Hat hier jemand verboten gesagt? ’ Er merkte schnell, daß er damit nicht durchkommen würde. (S. 12) <?page no="377"?> 377 Text(e) lesen und (danach) Korpora analysieren Ein Beispiel kombiniert sprachliche und körperliche Deixis: (22) Als Heinz einmal Schuhe für Frau Kuppisch geschmuggelt hatte, die mit Zeitungspapier ausgestopft waren, und Herr Kuppisch neugierig die zusammengeknüllte BILD-Zeitung glättete und zu lesen begann, erbleichte er. ‘Hier’, sagte er und wies auf eine fette Überschrift. (S. 38f.) Zu drüben und hier passen hinüber und herüber als direktionale Deiktika; diese beiden kommen im ganzen Text nicht vor; ein Wechsel von einer Raum in den anderen, von einer Welt in die andere ist nicht möglich, ist nicht einmal denkbar. 3. Quellenkunde - Analysen wie die vorgestellte beginnen an einem einzelnen Text, aber immer an einem Ganztext. Wenn wir nur einen Teil des Textes zu beschreiben versuchen, dann laufen wir Gefahr, wesentliche Phänomene nicht zu sehen. Brussigs Roman umfasst 151 Seiten. Die Beispiele (18) und (19) stehen auf den Seiten 120 und 140, als im letzten Viertel des ganzen Buches. Sollte dieses letzte Viertel nicht analysiert werden, würden spezielle Verwendungsweise des Adverbs hier unbeachtet bleiben. - Damit idiolektale oder individualstilistische Phänomene nicht als systematische Elemente angesehen werden, ist es nützlich, wenn nicht notwendig, weitere Ganztexte heranzuziehen. - Als erster Ansatz empfiehlt sich eine diskursive Analyse: Wir suchen die sprachlichen Phänomene immer am Text entlang in ihren Kontexten auf, analysieren, beschreiben und interpretieren sie aus ihren Kontexten heraus. Eine diskursive Analyse ermöglicht das Verstehen eines Textes oder einer Textstelle und setzt dieses gleichzeitig voraus. - Wenn es nicht nur um Funktionen sprachlicher Zeichen in ihrem Kontext geht, sondern um Leistungen im System, dann kommt die Korpuslinguistik zu ihrem Recht: Maschinenlesbare Texte werden zur Gänze auf die Phänomene, auf man in der diskursiven Analyse gestoßen ist durchsucht; in diesem Sinn verfährt die Korpuslinguistik exhaustiv und frequenzorientiert. Die so aufgefundenen Textstellen müssen wieder diskursiv analysiert werden. - Auf diese Weise hebt sich auch der Gegensatz von corpus driven/ korpusgeleitet und corpus based/ korpusbasiert auf: Ilka Mindt (2010, S. 54) betont, dass bei der korpusgeleiteten Methode „der Ausgangspunkt einer solchen Untersuchung nicht eine bestehende Theorie oder Beschreibung ist, sondern <?page no="378"?> 378 Die Probe auf ’s Exempel dass die Korpusdaten am Anfang der Untersuchung stehen“. Allerdings müssen ja auch die Korpusdaten aufgrund einer Forschungshypothese gesammelt worden sein; aus der Forschungshypothese ergibt sich auch die Frage, die dann an die Korpusdaten gestellt wird. 1 Halten wir abschließend fest: Auch in Zeiten großer elektronischer und annotierter Korpora muss für jede Analyse aufs Neue die Frage nach dem geeigneten Korpus gestellt werden, auch wenn man dann auf vorhandene Korpora zurückgreift. Und es bleibt die Aufgabe und das Privileg des/ der Sprachwissenschaftlers/ lerin, Fragen zu stellen und das Vorwissen auch für die Beantwortung weiterer Fragen nutzbringend einzusetzen. Literatur Korpustext Brussig, Thomas (2008): Am kürzeren Ende der Sonnenallee. Frankfurt a. M. Wissenschaftliche Literatur Bühler, Karl (1965): Sprachtheorie. 2. Aufl. Stuttgart. Krischel, Volker (2011): Thomas Brussig, Am kürzeren Ende der Sonnenallee. Hollfeld. Lakoff, Georg/ Johnson, Mark (1998): Leben in Metaphern. Heidelberg. Lammers, Michael (2010): Thomas Brussig, Am kürzeren Ende der Sonnenallee. Freising. Mindt, Ilka (2010): Methoden der Korpuslinguistik: Der korpus-basierte und der korpusgeleitete Ansatz. In: Kratochvílová, Iva/ Wolf, Norbert Richard (Hg.): Kompendium Korpuslinguistik. Heidelberg, S. 53-65. Schwitalla, Johannes (2011): Raumdarstellungen in Alltagserzählungen. Unveröff. Manuskr. URL 1: http: / / de.wikipedia.org/ wiki/ Sonnenallee (Stand: Oktober 2011). Vater, Heinz (1996): Einführung in die Raum-Linguistik. Hürth. 1 In der Diskussion nach dem Vortrag äußerte Ilka Mindt, dass die Vorgehensweise in der vorliegenden Analyse, etwa die Beschreibung der ‘Bedeutung’ von drüben aus dem Kontext heraus, durch als unvoreingenommenes korpusgeleitetes Verfahren anzusehen sei. <?page no="379"?> Register Abend 43 Abfragesprachen 34 Adjektivderivation 67ff. Adresse 371 f. Analyse, diskursive 377 Annotationen 28 -artig 70 Astrologie 365 Astronomie 365 Bär 238 Bauer 236f. besteingerichtetest 345ff. Bing 29 brauchen 260, 261 Büffet 59f. Chroniken 178f. CLARIN 29 COSMAS II 27 DaF-Wörterbuch 248ff. dass-Satz 309f. Datenbank, bibliographische 359ff. Datenbanklinguistik 333ff., 336 Datenbanktechnik 337ff. DeReKo 27, 40, 229ff. DeuCze 17ff., 189, 369 Deutsches Referenzkorpus 27, 40, 229ff. Dialekt 373 ff. drüben 375ff. DUDEN Deutsches Universalwörterbuch 223 e-Humanities 28 E-Mail 202ff. elexiko 39ff. elexiko-Korpus 40 Emotionalität 283 Emotionswortschatz 90f. Empirie 220f. Englisch 111ff. Entschuldigung 202ff. Ereignis 125 Erlaubnis 151ff. Exot(e) 231f. Fachsprache 159ff., 359ff. Fachtextbibliographie 359ff. Fähigkeit 153ff. Filmaufzeichnung 140f. Filmrezensionen 271ff. Flashmob 54 Formularbuch 364 Frequenz von Phraseologismen 88 Gefäßmetapher 370 Genitiv 355f. Gesprächsdatenbanken 121ff. Gesprochene Sprache 75f., 111ff., 121ff., 135ff., 189 Gigaliner 55 Glottochronologie 175 Google 29 <?page no="380"?> 380 Register Grammatikforschung 113ff. Grammatikschreibung 365 Greedy-Tokenisierung 32 Großkorpus 185ff. Grundwortschatz 254f. -haft 69f. handgemalt 192f. handgeschrieben 193f. Handlungssprache 304, 306 Häufigkeitsliste 105f. Häufigkeitswörterbuch 103ff., 106f. Herder/ BYU-Korpus 103ff. Hermeneutik 369ff. hier 376f. Historiographie 173ff. Idealer Sprecher-Hörer 219f. -ig 70 Illokutionsanalyse 204f. Infinitivkonstruktion 311f. Introspektion 219 Intuition 222 -isch 69 Jugendsprache 57 Kleinkorpus 145ff., 185ff., 299ff. Kodierung 164ff. Kollokation 18ff., 90 Kollokationsanalyse 63 Konnektoren 22f. Kontextanalyse 63 Kontingenz 322 Kontrastive Linguistik 189 KorAP 31ff. Korpus 67 Korpus, sprachhistorisches 159ff., 190f. Korpus, zweckgebundenes 289ff. Korpus, zweisprachiges 17 Korpusanalyse 63f., 71f. Korpusanalyseplattform 31 Korpusbasiert 261, 265, 271, 377f. Korpusgeleitet 261, 377f. Korpuskel 145ff. Korpuslinguistik 15, 16, 335 Korpusstruktur 17 Korsar 240 Kunstwerk 324 KUWALU 318 Langenscheidt Großwörterbuch DaF 224ff., 247ff. Langenscheidt Taschenwörterbuch DaF 249 Langue 285f. Laut-Speicher 136 leichtfallen 61f. Lernerwörterbuch 87ff. Lexikographie 37ff., 79 -lich 69f. Liebe auf den ersten Blick 271ff. Literaturwissenschaft 317ff. Medizinische Texte 166ff. Medizinliteratur 364 Meinung, metasprachliche 333 Metadaten 121ff. Methodologie 259f. <?page no="381"?> 381 Register Mittelhochdeutsch 75 Mobilität 42 Modalisierung 137f. Modalverb, frühnochdeutsches 146ff. mögen 146f. Mohr 241 Monatsregel 167ff. Mündlichkeit 135ff. Nachbar 240f. Narr 239 Neologismus 53, 72 Nicht-Standard 199f. Norm 263f. Normativität 259ff., 267f. Notwendigkeit 149ff. Objektivität 321 Okkasionalismus 72 Online-Lexikographie 46 Orthographie 58ff. Parallelkorpus 18, 20f., 189 Parallelstellenmethode 323f., 325, 326, 328 Parole 286 Phantasma 375 Phraseographie 85ff., 99ff. Phraseologismus 271 ff., 283 ff. Präposition, lokale 370 Primärdaten 28 Publikationsplattform 21 Pulkava-Chronik 178ff. Quellen der Lexikographie 37ff. Quellen, primäre 38 Quellen, sekundäre 38, 41f. Quellen, tertiäre 39, 44f. Rat für deutsche Rechtschreibung 58 Raumlinguistik 369f. Rettungsschirm 56 Rhetorik 364 Sachbuch, allgemeines 365 Satzgefüge 164ff. Schweinegrippe 54 schwerfallen 61 Sekundärdaten 28 Semantik, historische 175 Service 45 sollen 146 Sprachgebrauch 259 Sprachwirklichkeit 185 Sprechereignis 126f. Standard, pragmatischer 199ff. Statistik 199 Struktur, mentale 333 Substantiv, schwaches 219ff. Suchmaschine 29 Suffix 69f. Superlativ 350f. Superlativ, doppelter 344f. Textanalyse 369ff. TextGrid 29 Textsammlung 185ff. Textstatistik 199 Theoriesprache 304, 305f. Tonband 135ff. <?page no="382"?> 382 Register Transkription 137 Translatologie 189 Übersetzungskorpus 18, 22, 283 Übersetzungswissenschaft 189 Varianten, orthographische 58ff. Varietät 199 Verb, unregelmäßiges 247ff., 250 Vermittlungssprache 304, 306 Videokamera 135ff. Vorfahr(e) 232f., 239 Vorstrukturierung von Daten 28 WAHRIG Deutsches Wörterbuch 224 WAHRIG Textkorpus 51 Wechselbad der Gefühle 271ff. weil 260 Wertungskonstruktion 137f. White-Space-Tokenisierung 32 Wirtschaftsfachsprache 299ff. Wirtschaftskorpus 302 ff. Wissenschaftssprache 359ff. Wortbildung 251f. Wörterbuch 79f., 248ff., 272 Wörterbuch, allgemeines 365 Wörterbuchbasis 38 Wortliste 161ff. Wustmann, Gustav 344ff. Wut 92ff. Zar 240 Zeitungskorpus 52f. Zirkel, hermeneutischer 323 Zusatzmaterial 127 ZweiDat 343ff. Zweifelsfälle, sprachliche 343ff. <?page no="384"?> Narr Francke Attempto Verlag GmbH+Co. KG • Dischingerweg 5 • D-72070 Tübingen Tel. +49 (07071) 9797-0 • Fax +49 (07071) 97 97-11 • info@narr.de • www.narr.de JETZT BES TELLEN! Paul Bennett / Martin Durrell Silke Scheible / Richard J. Whitt (eds.) New Methods in Historical Corpora Corpuslinguistics and Interdisciplinary Perspectives on Language (CLIP), Band 3 2013, 282 Seiten €[D] 88,00/ SFr 117,00 ISBN 978-3-8233-6760-4 Investigating the history of a language depends on the fragmentary sources which have come down to us, but electronic corpora offer the possibility of alleviating this notorious problem of ‘bad data’. However, they cannot overcome it totally, and crucial questions thus arise of the optimal architecture for such a corpus, the problem of how representative even a large corpus can be of actual language use at a particular time, and how a historical corpus can best be annotated and provided with tools to maximize its usefulness as a resource for future researchers. Immense strides have been made in recent years in addressing these questions, with exciting new methods and technological advances. The papers in this volume, which were presented at a conference on New Methods in Historical Corpora (Manchester 2011), exemplify the range of these developments in investigating the diachrony of languages as distinct as English, German, Latin, Spanish, French and Slovene and developing appropriate tools for the analysis of historical corpora in these languages. <?page no="385"?> Jedes sprachwissenschaftliche Projekt braucht als Grundlage sprachliche Daten - dies dürfte unstrittig sein. Die entscheidende Frage aber ist, wie man zu sprachlichen Daten kommt. Im Gegensatz etwa zur Geschichtswissenschaft hat die Sprachwissenschaft ihre Quellen für die zu interpretierenden Daten bislang nur ansatzweise reflektiert; eine „sprachwissenschaftliche Quellenkunde“ steckt allenfalls in den Kinderschuhen. Im Oktober 2011 sind deutsche und tschechische Sprachwissenschaftler/ innen zur II. Internationalen Konferenz „Korpuslinguistik Deutsch-Tschechisch kontrastiv“ zusammengekommen, um genau diese Fragen zu diskutieren. Das Ergebnis ist ein neues Kompendium, das die unterschiedlichen Möglichkeiten der Datengewinnung darstellt und ausprobiert. Dabei werden theoretische, technische und praktische Fragen der Datenanalyse erörtert und Lösungswege gezeigt. Im Zentrum nahezu aller Beiträge stehen authentische Texte sowie Analyse und Interpretation der aus den Texten gewonnenen Daten.