eBooks

elexiko

2011
978-3-8233-7599-9
Gunter Narr Verlag 
Annette Klosa

Diese Erfahrungsberichte aus der praktischen Arbeit an elexiko, einem Internetwörterbuch zum Gegenwartsdeutschen, erlauben den detaillierten Einblick in das Entstehen eines Online-Wörterbuchs. Sie behandeln die Einflüsse des Mediums Internet auf die Erarbeitung und Präsentation des Wörterbuchs, vor allem thematisieren sie aber auch, wie sich korpusgestütztes Arbeiten auf die Lemmatisierung und die Stichwortliste, auf die Artikelstruktur und auf die lexikografischen Angaben selbst auswirkt. elexiko ist ein nach wissenschaftlichen Grundsätzen erarbeitetes Wörterbuch, sodass Forschungsfragen mit praktischen Fragen Hand in Hand gehen. Dies wird in den verschiedenen Beiträgen des Bandes deutlich, die sich mit den Arbeitsgrundlagen (z.B. Korpus, Redaktionhandbuch), mit informatorisch-technischen Fragen (etwa Datenmodellierung, Ausbau der Zugriffsmöglichkeiten, Einsatz sprachtechnologischer Tools zur automatischen Gewinnung von Angaben), mit Forschungsfragen (z.B. nach der Vernetzung der lexikografischen Angaben untereinander, nach der nötigen Erweiterung der Klassifikation für pragmatische Relationen) sowie mit organisatorischen Fragen (beispielsweise Auswahl der Bearbeitungsteilwortschätze) beschäftigen.

Annette Klosa (Hrsg.) elexiko Erfahrungsberichte aus der lexikografischen Praxis eines Internetwörterbuchs Studien zur Deutschen Sprache F O R S C H U N G E N D E S I N S T I T U T S F Ü R D E U T S C H E S P R A C H E S T U D I E N Z U R D E U T S C H E N S P R A C H E 5 5 Studien zur Deutschen Sprache F O R S C H U N G E N D E S I N S T I T U T S F Ü R D E U T S C H E S P R A C H E Herausgegeben von Arnulf Deppermann, Stefan Engelberg und Ulrich Hermann Waßner Band 55 Annette Klosa (Hrsg.) elexiko Erfahrungsberichte aus der lexikografischen Praxis eines Internetwörterbuchs Redaktion: Franz Josef Berens Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http: / / dnb.d-nb.de> abrufbar. © 2011 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Gedruckt auf säurefreiem und alterungsbeständigem Werkdruckpapier. Internet: http: / / www.narr.de E-Mail: info@narr.de Satz: Hohwieler, Mannheim Druck und Bindung: Hubert & Co., Göttingen Printed in Germany ISSN 0949-409X ISBN 978-3-8233-6599-0 Inhalt Vorwort ........................................................................................................... 7 Annette Klosa Einleitung ........................................................................................................ 9 Antje Töpel Die semantische Paraphrase in elexiko ......................................................... 27 Annette Klosa / Petra Storjohann Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern .................................................................................................... 49 Christine Möhrs Die typischen Verwendungen in elexiko ....................................................... 81 Petra Storjohann Paradigmatische Konstruktionen in Theorie, lexikografischer Praxis und im Korpus............................................................................................... 99 Ulrich Schnörch „Themengebundene Verwendung(en)“ als neuer Angabetyp unter der Rubrik „Besonderheiten des Gebrauchs“ ...............................................131 Annette Klosa Korpusgestützte Angaben zu Grammatik und Wortbildung ....................... 145 Annette Klosa Von Abbildung bis Wortelement: Weitere Ergänzungen und Änderungen in elexiko ................................................................................ 157 Carolin Müller-Spitzer Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung im lexikografischen Prozess ....................................... 173 Annette Klosa / Sabine Schoolaert Die lexikografische Behandlung von Eigennamen in elexiko .................... 193 Vorwort elexiko ist ein im Aufbau befindliches Online-Wörterbuch zur deutschen Gegenwartssprache, das auf der Basis eines Korpus von Grund auf neu erarbeitet wird. Es wird ständig erweitert, indem neue Stichwörter die Lemmaliste ergänzen sowie redaktionell bearbeitete Wortartikel oder Wortartikelgruppen online freigeschaltet werden. Ein Online-Wörterbuch kann auch durch das Hinzukommen weiterer Angabetypen wachsen. Daneben kann sich die Benutzeroberfläche beispielsweise durch ein neues Design und optimierte Artikelansichten oder durch die Ergänzung weiterer Recherchemöglichkeiten verändern. Der vorliegende Band will in diesen Entstehungsprozess Einblick gewähren. Insbesondere sollen aber auch die Erfahrungen bei der Erarbeitung der Wortartikel auf der Grundlage eines umfangreichen Korpus dargestellt werden; damit soll sichtbar gemacht werden, wie die Praxis in vielen Bereichen auf die ursprüngliche Konzeption von elexiko zurückgewirkt hat. Insgesamt bietet dieser Sammelband damit nicht nur ein Zwischenfazit zur praktischen Arbeit an elexiko, sondern erstmals einen für Metalexikograf(inn)en, Lexikograf(inn)en und Linguist(inn)en interessanten Einblick in Erfahrungen bei dieser neuen Art von Wörterbucharbeit. Nicht nur das Wörterbuch verändert sich stetig, sondern auch die Gruppe der daran arbeitenden Kolleg(inn)en hat sich seit der Projektgründung durch Ulrike Haß vor rund 10 Jahren immer wieder neu zusammengesetzt. Gemeinsam mit allen derzeit im Projekt Mitarbeitenden, die jeweils mit Beiträgen in diesem Band vertreten sind, möchte ich mich hier bei unserer Hilfskraft Martin Loder sowie bei den ehemaligen wissenschaftlichen und studentischen Mitarbeitern für ihren Beitrag zu elexiko bedanken: Wolfgang Bock, Simone Burel, Claudia Fraas, Christina-Doreen Görtz, Marion Hahn, Henrike Helmer, Katharina Kemmer, Meike Lauer, Annika Müller, Sonja Müller-Landmann, Stefania Ptashnyk, Ulla Radtke, Tanja Scherer, Wolfgang Schlaupitz, Greta Stanaityte, Kathrin Steyer und Tilman Wittl. Besonderer Dank gebührt Ulrike Haß, die das theoretische Konzept für elexiko und den ersten Online-Auftritt mit der elexiko-Stichwortliste, zahlreichen ausgearbeiteten Wortartikeln und ersten Recherchemöglichkeiten verantwortet hat. Ohne die konstruktive Zusammenarbeit mit vielen (auch ehemaligen) Kolleg(inn)en aus anderen Projekten oder Arbeitsstellen des Instituts für Deutsche Sprache ( IDS ) sowie externen Mitarbeitern hätte elexiko nicht den heutigen Stand erreichen können. Für ihren Einsatz für elexiko ist zu danken: Cyril Annette Klosa 8 Belica, Irfan Bilgili, Franck Bodmer Mory, Petra Brecht, Reinhard Fiehler, Joachim Gasch, Holger Keibel, Marc Kupietz, Rainer Perkuhn, Ingrid Schellhammer, Volker Schmelich, Roman Schneider, Wolfgang Schneider, Christian Simon, Joyce Ann Thompson, Clemens Waibel und Andrea Zielinski. Danken möchte ich auch den für andere Wörterbücher im Projekt Online-Wortschatz- Informationssystem Deutsch ( OWID ) verantwortlichen Kolleginnen, mit denen elexiko eine produktive Geschichte verbindet: Heidrun Kämper, Kristel Proost, Doris Steffens und Kathrin Steyer, sowie Frank Michaelis, der elexiko innerhalb von OWID online sichtbar macht. Aus der Fülle an Forschungsfragen und praktischen Aufgaben in elexiko wurden einige seit 2009 an das Projekt „Benutzeradaptive Zugänge und Vernetzungen in elexiko“ ( BZV elexiko) übertragen. Dieses aus Mitteln aus dem Pakt für Forschung und Innovation der Wissenschaftsgemeinschaft Leibniz ( WGL ) finanzierte Projekt widmet sich der Wörterbuchbenutzungsforschung wie der Erforschung von Vernetzungen im digitalen Wörterbuch und der automatischen Gewinnung morphologischer Angaben für elexiko. Die konstruktive und fruchtbare Zusammenarbeit mit Alexander Koplenig, Peter Meyer und Sabina Ulsamer im Projekt BZV elexiko, zu dem nicht zuletzt auch Carolin Müller-Spitzer und Antje Töpel zählen, sei an dieser Stelle gewürdigt. Schließlich ist Christine Möhrs und Katharina Kemmer herzlich zu danken, die sich um die nötigen Vereinheitlichungen und Verbesserungen des Manuskriptes gekümmert haben, und der Publikationsstelle des IDS , namentlich Joachim Hohwieler, welcher Korrektorat und Erstellung der Druckvorlage übernommen hat. Hingewiesen sei noch auf zwei Formalia: Die Abbildungen in diesem Band entsprechen nicht im Design, wohl aber in Inhalt und Aufbau der Online-Darstellung der elexiko-Wortartikel. Im Folgenden wird ausschließlich aus Gründen der besseren Lesbarkeit auf Doppelformen wie Lexikografinnen und Lexikografen oder Nutzer(innen) generell verzichtet. Mannheim, im Oktober 2010 Annette Klosa Annette Klosa Einleitung Mit diesem Band legt das Projekt elexiko nach fünf Jahren praktischer Artikelarbeit einen Bericht über die Erfahrungen bei der Erarbeitung eines (im Aufbau befindlichen) Online-Wörterbuches auf der Basis eines umfangreichen Korpus vor. Aus diesem Einblick in die Praxis der Erarbeitung von elexiko lässt sich erkennen, was es bedeutet, ein Online-Wörterbuch kontinuierlich aufzubauen, ggf. umzustrukturieren und sukzessive zu publizieren. Ein von Grund auf neu und auf der Basis eines Korpus erarbeitetes, im Internet erscheinendes Wörterbuch zum Gegenwartsdeutschen, das redaktionell erstellte und (teil-)automatisch gewonnene Angaben verbindet und sich an muttersprachliche wie nicht-muttersprachliche Nutzer, an Linguisten und Nicht-Linguisten wendet, 1 gibt es im deutschen Sprachraum sonst nicht. Vergleichbare Projekte laufen derzeit nur für wenige andere Sprachen (z.B. das Algemeen Nederlands Woordenboek, das am „Instituut voor Nederlandse Lexikologie“ in Leiden erarbeitet wird). Insofern sind bislang auch kaum Erfahrungen mit dieser Art von Wörterbucharbeit beschrieben und veröffentlicht worden, sodass die hier vorgelegten Berichte sowohl für Metalexikografen wie für Lexikografen aus anderen Projekten interessant sein dürften. Die konzeptionellen Überlegungen, die im Band „Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz“ (Haß (Hg.) 2005) dargelegt sind, werden hier, wo nötig, zum Verständnis kurz erläutert und zusammengefasst, sie sollen aber in diesem Band nicht fortgeführt werden. Änderungen an der Konzeption, die seit 2005 realisiert wurden, sind im Band „Lexikografische Portale im Internet“ (Klosa (Hg.) 2008) beschrieben. Vielmehr werden jetzt der ursprünglich zugrunde gelegten Theorie Überlegungen zur Seite gestellt, die auf den gemachten praktischen Erfahrungen basieren. So werden Dynamik und Fortentwicklung von elexiko dokumentiert, wobei gegebenenfalls auch auf die Praxis in anderen Wörterbüchern verwiesen wird (ohne dass hierbei Vollständigkeit angestrebt ist). Zugleich werden externe und projektbezogene Forschungsergebnisse, die seit Erscheinen der von Ulrike Haß und Annette Klosa herausgegebenen Bände publiziert wurden, berücksichtigt, auf eine vollständige Zusammenfassung der metalexikografischen Forschung wird aber verzichtet, weil die Darstel- 1 Zu den angedachten Nutzergruppen von elexiko vgl. Haß (2005, S. 2f.). Annette Klosa 10 lung hier schwerpunktmäßig einen Einblick in die Erfahrungen bei der praktischen Wörterbucharbeit geben soll. Es wird also insbesondere herausgearbeitet, wie die Arbeit mit dem Korpus auf die Konzeption zurückgewirkt hat und wie die einzelnen Angaben in den redaktionell bearbeiteten Wortartikeln miteinander vernetzt sind. Außerdem werden neue Überlegungen zur Datenmodellierung und Lemmatisierung angesprochen, mit denen sich das Projekt in den letzten Jahren beschäftigt hat (vgl. unten Abschnitt 1). Auch hierdurch wird Einblick in die vielfach durch die Konzeption und das Publikationsmedium Internet bedingten neuartigen Arbeitsweisen von elexiko gewährt. Neben dem Verfassen von Wortartikeln und der begleitenden lexikologischlexikografischen Forschungstätigkeit 2 hat sich das Projekt schließlich mit vielen Fragen der praktischen Arbeit befasst, die in dieser Einleitung kurz beleuchtet werden: Fragen der Arbeitsgrundlagen (vgl. Abschnitt 2), methodische Fragen (vgl. Abschnitt 3) und Fragen des Online-Auftritts (vgl. Abschnitt 4). 1. Lexikografische Angaben, Datenmodellierung und Lemmatisierung Jeder lexikografische Angabebereich in den elexiko-Wortartikeln ist mit eigenen Beiträgen in diesem Band vertreten, die im Folgenden in der Reihenfolge der Angaben in den Online-Artikelansichten angeordnet sind. Den Beginn macht die Untersuchung von Antje Töpel zu den Bedeutungserläuterungen (semantischen Paraphrasen) in elexiko. Die Paraphrase fasst die wichtigsten Informationen der anderen Angabebereiche zusammen und bietet dem Nutzer eine kurze Übersicht über die Bedeutung und Verwendung des jeweiligen Stichwortes. Dadurch ist die Bedeutungserläuterung besonders intensiv mit den weiteren Angabebereichen der Wortartikel vernetzt, was der Beitrag ausführlich darstellt. Weiterhin wird gezeigt, dass sich die theoretische Konzeption zur semantischen Paraphrase in elexiko in der redaktionellen Praxis bewährt hat und durch die beteiligten Lexikografen positiv beurteilt wird. Annette Klosa und Petra Storjohann rekapitulieren in ihrem Beitrag zu der semantischen Umgebung und den lexikalischen Mitspielern die praktischen Erfahrungen bei der Ermittlung und Interpretation kontextueller Mit- 2 Einen Überblick über die Vortrags- und Publikationstätigkeit als Ergebnis der lexikologischlexikografischen Forschung in elexiko geben die elexiko-Projektseiten im Internet. Das Projekt hat in den vergangenen Jahren außerdem zwei internationale Kolloquien organisiert: das Kolloquium „Das elexiko-Portal - Präsentation und Diskussion“ (10.-11. Mai 2007, Organisation: Annette Klosa) und das Kolloquium „Lexical-semantic relations from theoretical and practical perspectives“ (5.-6. Juni 2008, Organisation: Petra Storjohann). Einleitung 11 spieler aus dem Korpus. Die Mitspieler, d. h. Satzglieder, die auch Argumentfunktion haben, flankieren einerseits die Bedeutungserläuterung, darüber hinaus konstituieren sie andererseits eine andere Art von semantischem Netz, als dies die ebenfalls im Wortartikel erfassten paradigmatischen Partnerwörter eines Stichwortes tun. Zum Teil stehen diese Angaben auch in Zusammenhang mit Informationen im Angabebereich „Besonderheiten des Gebrauchs“. In diesem Beitrag wird daneben diskutiert, wie sich das ursprünglich zugrunde gelegte framebasierte Konzept von Slots und Fillern bewährt hat. Außerdem wird an konkreten Beispielen der semantische, aber auch der enzyklopädische, assoziative und diskursive Informationsgehalt dieser Angaben gezeigt. Einige Überlegungen zu neuen Möglichkeiten der Präsentation der Mitspielerangaben sowie zur Frage, inwiefern in elexiko mit diesen Angaben im Ansatz Informationen eines Kollokationswörterbuches vorliegen, runden den Beitrag ab. Der Angabebereich der typischen Verwendungsmuster wurde gegenüber der ursprünglichen Konzeption deutlich verändert: Die Klassifizierung und Sortierung der Muster erfolgt im Vergleich zum Ausgangskonzept anhand syntaktischer Kriterien, außerdem wurde für die so genannten Klammerelemente ein Kategorieninventar entwickelt. Zudem wurden Überlegungen zur Illustration variabler Elemente innerhalb der Klammern angestellt, damit diese leichter von invariablen Elementen zu unterscheiden sind. Christine Möhrs stellt in ihrem Beitrag die jetzige Extrahierung und Struktur der typischen Verwendungsmuster in elexiko dar und bewertet sie. Sie beleuchtet daneben die inhaltliche Vernetzung innerhalb eines redaktionell bearbeiteten Wortartikels zwischen den typischen Verwendungen und anderen Angabebereichen. Diese Vernetzung steigert insofern die Qualität eines Wortartikels, als ein Benutzer bei der Rezeption über die Angabebereiche hinweg bestimmte Aspekte wiederfindet. Petra Storjohann erläutert in ihrem Beitrag zu den sinn- und sachverwandten Wörtern, wie die Arbeit mit dem elexiko-Korpus in Verbindung mit lexikologischer Forschung dazu geführt hat, dass gegenüber der Ursprungskonzeption nun paradigmatische Relationen in elexiko beschrieben werden, die bisher nicht lexikologisch beschrieben und lexikografisch erfasst worden sind. Wo genau die Vor- und Nachteile der Arbeit mit umfangreichen elektronischen Textquellen liegen und wie lange die Bearbeitung dieses Informationsbereiches dauert, sind nur einige der Aspekte, die hier erörtert werden. Es erfolgt auch eine kritische lexikologische Auseinandersetzung mit den bestehenden Klassifikationen, die für die Einordnung der paradigmatischen Strukturen als Grundlage gewählt wurden. Dieser Beitrag thematisiert anhand vieler Beispiele Annette Klosa 12 auch, wo die Diskrepanz zwischen Sprache als System und Sprache im Gebrauch am stärksten erkennbar wird, und erläutert den derzeitigen Umgang mit der Anwendung bestehender klassifikatorischer Modelle. Die Angaben zu den Besonderheiten des Gebrauchs enthalten inzwischen auch die Angabe zur themengebundenen Verwendung des Stichwortes bzw. die Darstellung der Zugehörigkeit eines Stichwortes zu einem bestimmten Diskursvokabular. Ulrich Schnörch stellt diesen Angabebereich in seinem Beitrag vor und widmet sich dessen Inhalt, Genese und seiner konzeptionellen wie methodischen Vernetzung mit anderen Angabetypen anhand vieler einschlägiger Beispiele. Annette Klosa gibt in ihrem Beitrag zu grammatischen Angaben und Angaben zur Wortbildung in elexiko einen kurzen Überblick über die Änderungen und Ergänzungen, die zu diesen Angabebereichen in den vergangenen Jahren vorgenommen wurden. Hierbei wird besonders deutlich, wie sich die Arbeit mit einem sehr großen Korpus auf diese Bereiche ausgewirkt hat. Sie verweist außerdem auf die Vernetzung mit anderen Angaben im Wortartikel und schlägt erweiterte Suchmöglichkeiten für diese Angabebereiche vor. Ein abschließender Beitrag von Annette Klosa fasst weitere, kleinere Neuerungen und Ergänzungen zu einzelnen Angabebereichen (z. B. Frequenzangabe, Illustrationen) und Fragen der Lemmatisierung (z. B. von Pronomen) zusammen. Es werden auch Punkte angesprochen, deren Konzeption noch offen ist (z. B. Lemmatisierung von Wortbildungselementen). Hieraus wird deutlich, dass elexiko in vielerlei Hinsicht ständigen Entwicklungen unterworfen ist. Neben den lexikografischen Angaben gibt es auch im Bereich der Datenmodellierung Interessantes aus fünf Jahren lexikografischer Praxis zu berichten: In elexiko werden die lexikografischen Wortartikel in einer granularen, maßgeschneiderten XML -Struktur erarbeitet. Der Beitrag von Carolin Müller- Spitzer legt die praktischen Erfahrungen dar, die alle Beteiligten im Team mit dieser Art der Modellierung gemacht haben. Im Fokus steht dabei diese Praxis, daneben werden aber auch Aspekte wie die Umarbeitung bereits geschriebener Wortartikel nach konzeptionellen inhaltlichen Änderungen oder Erkenntnisse aus der Weiterverarbeitung der Daten für die Darstellung sowie für die Entwicklung von Suchfunktionen ausgeführt. Es wird gezeigt, dass das Konzept für die Modellierung insgesamt erfolgreich im lexikografischen Prozess Anwendung gefunden hat, dass sich aber bestimmte Rahmenbedingungen (wie die mangelnde personelle Ausstattung für die technische Unterstützung) als Einleitung 13 problematisch erwiesen haben. Insgesamt soll dieser Beitrag damit die lexikografische Praxis im Vergleich mit der theoretischen Konzeption der Modellierung beleuchten. Schließlich verändert sich auch die elexiko-Stichwortliste. Eine wichtige Lücke in der bisherigen Konzeption konnte inzwischen durch die Entscheidung zur Lemmatisierung und lexikografischen Behandlung von Eigennamen in elexiko geschlossen werden, die im Beitrag von Annette Klosa und Sabine Schoolaert vorgestellt wird. Vor dem Hintergrund der Diskussion möglicher Definitionen von „Eigenname“ und der gängigen lexikografischen Behandlung von Namen diskutiert dieser Beitrag, ob in elexiko neben Gattungsprädikatoren auch Eigennamen lemmatisiert werden sollen. Außerdem beschreibt der Beitrag die Behandlung von Eigennamen in elexiko hinsichtlich ihrer Erfassung, Klassifizierung und Darstellung und erläutert unterschiedliche Angabetypen. Ein Ausblick auf Suchoptionen zu den Eigennamen schließt die Überlegungen ab. 2. Die Arbeitsgrundlagen von elexiko Zu den Arbeitsgrundlagen von elexiko gehören u. a. das elexiko-Korpus, die redaktionelle Arbeitsumgebung und die DTD -Dokumentation mit integriertem Redaktionshandbuch. In allen diesen Bereichen hat sich seit Projektbeginn einiges verändert, worauf an dieser Stelle kurz eingegangen werden soll. Das elexiko-Korpus konnte seit Projektbeginn stark erweitert werden: 3 Umfasste es anfangs knapp 1,3 Milliarden Textwörter aus 19 Quellen (vgl. Storjohann 2005b, S. 67), enthält es derzeit (Stand 2010) 2,8 Milliarden Textwörter aus 32 Quellen. Es wird auch weiterhin als virtuelles Korpus aus DEREKO , 4 dem deutschen Referenzkorpus des IDS , zusammengestellt und umfasst ausschließlich Zeitungs- und Zeitschriftenquellen. Dank der Erweiterungen gelang es, den Anteil an Quellen aus der Schweiz und aus Österreich besser auf die tatsächlichen Sprecherzahlen in diesen deutschen Sprachräumen abzustimmen. Inzwischen sind auch West-, Mittel- und Norddeutschland durch die Aufnahme entsprechender Quellen angemessener ver- 3 Für seine Bemühungen um den Ausbau der IDS -Korpora insgesamt, von dem elexiko direkt profitiert, ist elexiko dem Projekt „Ausbau und Pflege der Korpora geschriebener Gegenwartssprache: Das deutsche Referenzkorpus DEREKO “ zu großem Dank verpflichtet, für die ständige Pflege und Erweiterung des elexiko-Korpus dankt elexiko dem Projekt COSMAS II am IDS . 4 Zum Deutschen Referenzkorpus ( DEREKO ) des IDS vgl. www.ids-mannheim.de/ kl/ projekte/ korpora/ (Stand: 07.05.2010). Annette Klosa 14 treten. Erfreulicherweise konnte der Anteil der öffentlich zugänglichen Quellen insgesamt erhöht werden, sodass elexiko dem Ziel, wenigstens einen großen Teil des Wörterbuchkorpus der Öffentlichkeit durch direkte Verlinkung von Wortartikeln ins Korpus zugänglich machen zu können, näher gekommen ist. Das elexiko-Korpus strebt an, „die Grundgesamtheit der deutschen standardsprachlichen Gemeinsprache in angemessener Weise zu spiegeln“ (Storjohann 2005b, S. 58), wobei unter Gemeinsprache der Teil einer Sprache verstanden wird, den die Mehrheit der Sprecher einer Sprachgemeinschaft teilen. Um diesen Ausschnitt des Deutschen zu beschreiben, eignen sich überregionale Zeitungs- und Zeitschriftentexte sehr gut, weil sie an eine Sprachgemeinschaft insgesamt adressiert und daher stark von standardisierter Sprache geprägt sind. Daneben ist die Analyse der Sprache regionaler Zeitungen sinnvoll, da so regionale Sprachunterschiede sowie Unterschiede zwischen standardisierter Gemeinsprache und regionaler Sprache deutlich werden. Für die Ziele von elexiko, den öffentlichen Sprachgebrauch zu untersuchen (vgl. hierzu Abschnitt 3) und die standardsprachliche Gemeinsprache zu dokumentieren, eignet sich ein (z. B. regional und zeitlich ausgewogenes) Zeitungs-/ Zeitschriftenkorpus von sehr großem Umfang besonders gut. 5 Die redaktionelle Arbeitsumgebung von elexiko besteht seit Projektbeginn aus den folgenden Kernstücken: COSMAS - II -Schnittstelle 6 zum elexiko-Korpus, mithilfe derer die lexikografischen Daten gewonnen werden; XML -Editor, in dem die lexikografischen Daten ediert werden; Schnittstelle zur ORACLE -Datenbank, in der die Daten gespeichert werden, in der sie durchsuchbar sind und aus der sie für die Online-Präsentation exportiert werden. Inzwischen wurde durch die Arbeit des Projektes „Texttechnologie am IDS “ der Zugriff auf die Datenbank über das „Lexikografische Redaktions- und Recherchesystem für digitale Wörterbücher ( EDAS = Electronic Dictionary Administration System 7 )“ wesentlich verbessert. So können nun die einzelnen 5 Für andere Untersuchungszwecke eignet sich ein Korpus wie das elexiko-Korpus dagegen weniger. Man sollte außerdem nicht generell davon ausgehen, dass Zeitungstexte die deutsche Sprache insgesamt sehr gut repräsentieren. 6 Zu COSMAS II („Corpus Search, Management and Analysis System“) vgl. https: / / cosmas2. ids-mannheim.de/ cosmas2-web/ (Stand: 07.05.2010). 7 Vgl. hierzu http: / / www.ids-mannheim.de/ gra/ texttechnologie.html (Stand: 07.05.2010) und Müller- Spitzer/ Schneider (2009). Zu weiteren Einzelheiten vgl. Abschnitt 7 im Beitrag „Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung im lexikografischen Prozess“ von Carolin Müller-Spitzer in diesem Band. - - - Einleitung 15 redaktionellen Arbeitsschritte und Zuständigkeiten mit einer optimierten Rechteverwaltung genauer abgebildet werden. Viel wichtiger ist aber die Möglichkeit, in der Datenbank direkt erweiterte Suchen definieren zu können. 8 Im redaktionellen Arbeitsalltag stellt dies eine deutliche Erleichterung dar, weil Stichwörter mit ähnlichen Merkmalen leicht gefunden werden können und so ein konsistenteres Arbeiten möglich ist. Zur redaktionellen Arbeitsumgebung ist in den letzten Jahren auch eine große Zahl komfortabel zur Verfügung stehender elektronischer Sekundärquellen, also andere Wörterbücher auf CD - ROM oder im Internet, hinzugekommen. 9 Dem Projektteam steht inzwischen auch ein im Projekt BZV elexiko 10 entwickelter Verweismanager zur Verfügung, 11 der die Erstellung konsistenter Verweise im Wörterbuch ermöglicht und so nicht nur den Lexikografen die Arbeit erleichtert. Die Verbesserung der Konsistenz in Bezug auf Verweise steigert gleichzeitig die Nutzbarkeit von elexiko für die Wörterbuchbenutzer. Zugleich wurden einige Ergänzungen zum XML -Editor programmiert (z. B. eine Kommentarfunktion, eine Textbausteinfunktion), die nicht unerheblich zur Arbeitserleichterung beitragen. Mit fortschreitender Zahl redaktionell bearbeiteter Wortartikel wurde der Wunsch nach einem Redaktionshandbuch in der Projektgruppe immer größer. Hier sollten die zugrunde gelegte Konzeption, alle Entscheidungen zu Formulierungen (z. B. der Satzbaupläne bei Verben), Richtlinien für die Verwendung von Hinweisen oder Kommentaren, Leitlinien für die Auswahl von Belegen etc. mit konkreten Beispielen festgehalten werden, um die Arbeit an neuen Wortartikeln sowie die Einarbeitung neuer Kollegen zu erleichtern. Im Redaktionshandbuch sollten also alle die Regeln festgehalten werden, die selbst eine sehr komplexe und granulare XML -Struktur wie in elexiko, die die Lexikografen sicher durch den hochkomplexen Wortartikel führt, nicht umsetzen kann. Gleichzeitig war unumgänglich, die DTD sorgfältig zu dokumentieren, auch, um Änderungen und Ergänzungen festhalten zu können. Deshalb wurde zum Grundaufbau des Redaktionshandbuches bzw. der DTD -Dokumentation eine Software gewählt, die aus DTD s automatisch eine Rohfassung der Dokumentation in XML erstellt. Somit waren alle DTD -Elemente und Attribute als Felder vorgesehen, mit frei zu definierenden Feldern für Erläuterungen zur Mo- 8 Sehr komplexe Abfragen werden auch weiterhin in der Arbeitsstelle Zentrale DV -Dienste des IDS programmiert, wofür elexiko zu großem Dank verpflichtet ist. 9 Für die Anschaffung dieser Quellen dankt das Projekt der IDS -Bibliothek. 10 Zum Projekt BZV elexiko vgl. das Vorwort in diesem Band. 11 Vgl. hierzu Meyer/ Müller-Spitzer (2010). Annette Klosa 16 dellierung, inhaltlichen lexikografischen Richtlinien etc. Im Laufe der Zeit wurde diese DTD -Dokumentation zu einem echten Redaktionshandbuch ausgebaut. 12 Diese XML -Version der Dokumentation kann in ein HTML - und ein RTF-Format exportiert werden. Im Projekt wird ausschließlich das HTML -Format genutzt, da das Redaktionshandbuch kontinuierlich ausgebaut wird und im Ausdruck etwa 500 Seiten umfassen würde. Es kann beim Schreiben der Wortartikel aus dem XML -Editor heraus komfortabel und kontextsensitiv aufgerufen werden. 3. Methodik in elexiko elexiko wird grundsätzlich korpusgestützt erarbeitet, d. h. alle Erkenntnisse, die in die Angabebereiche einfließen, werden aus dem zugrunde gelegten Wörterbuchkorpus gewonnen: In elexiko gibt es keine lexikografische Angabe, die nicht im elexiko-Korpus belegt werden kann, es werden keine Angaben aus anderen Wörterbüchern einfach übernommen. Falls nötig, wird explizit darauf verwiesen, dass bestimmte Phänomene (entgegen der Angabe in anderen Wörterbüchern) im Korpus nicht gefunden werden konnten. Dies ist z. B. bei in Sekundärquellen gebuchten, im elexiko-Korpus aber nicht nachzuweisenden Lesarten (= Einzelbedeutungen) der Fall. In solchen seltenen (und oft fachsprachlichen) Fällen wird der Nutzer in Hinweisen über die entsprechenden Wörterbuch- und Korpusbefunde informiert. Diese wichtigste Methode für die Erarbeitung von elexiko, das Prinzip der Korpusbasiertheit (vgl. Haß 2005, S. 7ff.), hat sich, wie die Beiträge zu den einzelnen Angabebereichen in diesem Band deutlich zeigen, durchgehend bewährt. Bei der korpusgestützten Erarbeitung von elexiko kommen zwei verschiedene Vorgehen zum Einsatz: die korpusgesteuerte sowie die korpusbasierte Ermittlung von Angaben. Bei der korpusgesteuerten Auswertung benutzt der Lexikograf das Korpus explorativ, er befragt es ohne Vorannahme mithilfe verschiedener Korpusrecherche- und -analysetools, die Ergebnisse werden dann analysiert, bewertet und in den für die Wortartikel vorgesehenen Angaben beschrieben. Bei diesem Vorgehen profitiert elexiko insbesondere vom Verfahren der statistischen Kollokationsanalyse (vgl. Belica 1995), das in COS- MAS II implementiert ist, und den Recherchemöglichkeiten in der Kookkurrenzdatenbank CCDB (vgl. Belica 2001-2007). 13 12 Zu weiteren Einzelheiten sowie einer Abbildung aus dem Redaktionshandbuch vgl. Abschnitt 3 im Beitrag „Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung im lexikografischen Prozess“ von Carolin Müller-Spitzer in diesem Band. 13 Für die kollegiale Zusammenarbeit zum Einsatz der statistischen Kollokationsanalyse wie der CCDB in elexiko ist elexiko dem Projekt „Methoden der Korpusanalyse und -erschlie- Einleitung 17 Wird das Korpus korpusbasiert ausgewertet, geht ein Lexikograf von einer bestimmten Annahme zu einem sprachlichen Phänomen aus (z. B. davon, dass zwei Lexeme in bestimmten Lesarten zueinander in antonymischer Relation stehen) und sucht im Korpus gezielt nach Belegen dafür. Beide Methoden werden in elexiko in Kombination angewandt (vgl. hierzu Storjohann 2005a und Klosa 2007), was sich insbesondere in Hinblick auf den Angabebereich der sinn- und sachverwandten Wörter, aber auch sonst sehr bewährt hat. In Abhängigkeit vom Analysezweck wird entweder zunächst der korpusgesteuerten Analyse des Korpus der Vorzug gegeben und eine korpusbasierte Auswertung erfolgt erst in einem zweiten Schritt, oder beide Methoden werden parallel angewendet. Da elexiko erst noch aufgebaut und nicht vollständig zu einem bestimmten Zeitpunkt publiziert wird, erscheint es nicht sinnvoll, die Wortartikel alphabetisch von A bis Z, sondern in anders zu definierenden Teilschritten zu erarbeiten. Nach Abschluss der Arbeit am elexiko-Demonstrationswortschatz 14 war es deshalb nötig, Kriterien für die Auswahl von zu bearbeitenden Teilwortschätzen (so genannten Modulen) zu finden, zu prüfen und für den weiteren Projektverlauf nutzbar zu machen (vgl. Haß 2005, S. 14). Als Hauptkriterium für die Auswahl weiterer Bearbeitungsteilwortschätze wurde daraufhin die Zugehörigkeit von Stichwörtern zu einzelnen Frequenzschichten 15 herangezogen. Auf dieser Grundlage sind zwei Bearbeitungsteilwortschätze definiert worden: das Lexikon zum öffentlichen Sprachgebrauch und die Menge an niedrigfrequenten Stichwörtern, die mit automatisch generierten Angaben versehen wird. Das Lexikon zum öffentlichen Sprachgebrauch ist das erste Modul nach dem Demonstrationswortschatz, das als Bearbeitungsteilwortschatz festgelegt wurde. Dieser Wortschatz deckt sowohl Themen aus Politik und Gesellschaft als auch speziellere Sachverhalte ab. Gut die Hälfte der insgesamt rund 2.700 hochfrequenten Wörter (jeweils zwischen 10.000- und 500.000-mal im elexiko- Korpus belegt) sind Nomen, die häufig in die zentralen politischen und gesellschaftlichen Diskurse, wie sie im elexiko-Korpus erscheinen, eingebettet sind. Sie werden hauptsächlich durch Verben und Adjektive ergänzt, die zu einem ßung“ (insbesondere dem Schwerpunkt „Kookkurrenzanalyse und deren Erschließung“) zu großem Dank verpflichtet. 14 Zu Informationen über den elexiko-Demonstrationswortschatz vgl. Haß (2005, S. 15) und die elexiko-Projektseiten im Internet. 15 Vgl. hierzu Abschnitt 1.1 im Beitrag „Von Abbildung bis Wortelement: Weitere Ergänzungen und Änderungen in elexiko“ von Annette Klosa in diesem Band. Annette Klosa 18 geringeren Teil selbst diskursgebunden sind (z. B. reformieren, global, sozialverträglich), die aber auch zur Versprachlichung der Diskurse benötigt werden (z. B. feststellen, abstimmen). Ein zeitungs- und zeitschriftensprachliches Korpus wie das elexiko-Korpus (vgl. Abschnitt 2) eignet sich besonders gut als Beschreibungsgrundlage für diesen Wortschatzausschnitt. Beim Lexikon zum öffentlichen Sprachgebrauch handelt es sich nicht um ein Wörterbuch zum Fach- oder Spezialwortschatz der Politik, sondern um ein Wörterbuch, in dem der allgemein geläufige Wortschatz der öffentlichen Diskussion um politische und gesellschaftliche Themen semantisch und pragmatisch ausführlich, fein differenziert und sprachreflektierend dargestellt wird. Etwa die Hälfte der Stichwörter ist inzwischen bearbeitet, und die in den Beiträgen dieses Bandes geschilderte Praxis bezieht sich überwiegend auf die Bearbeitung dieser Stichwörter. Niedrigfrequente Stichwörter sind in elexiko Wörter, die weniger als 500mal im elexiko-Korpus belegt sind. Neben der Erarbeitung des Lexikons zum öffentlichen Sprachgebrauch wird elexiko derzeit durch (teil-)automatisch ermittelte Angaben für diese niedrigfrequenten Stichwörter gefüllt. So werden in diesem elexiko-Modul zusätzlich zu den orthografischen Angaben automatisch ermittelte Belege aus dem elexiko-Korpus ergänzt, wie die Angaben zur Beleglage des Stichwortes im elexiko-Korpus (vgl. das Beispiel glücklich in Abb. 1). 16 Grammatische Angaben zur Wortart und (bei Wörtern, die durch Wortbildung entstanden sind) zu den Bestandteilen, aus denen die Bildung besteht (z. B. bei Ableitungen die Basis und das Affix), sollen das Angebot zukünftig ergänzen. 17 Daneben wird an der automatischen Ermittlung von Wortbildungsprodukten zu einem Stichwort gearbeitet. 18 Da für elexiko eine möglichst gute, d. h. eine wissenschaftlichen wie lexikografischen Ansprüchen gerecht werdende Qualität der Angaben angestrebt ist, wird, außer bei den Belegen, auf die Präsentation rein automatisch ermittelter Angaben verzichtet. Die automatisch ermittelten Belege werden als solche gekennzeichnet (vgl. Abb. 1). 16 Damit sich Nutzer nicht darüber wundern, dass bei manchen Stichwörtern automatisch ausgewählte Belege erscheinen, bei vielen anderen aber nicht, wurden inzwischen auch andere, durchschnittlich oder hochfrequente Stichwörter mit Belegen versehen. 17 An der Überprüfung automatisch ermittelter Angaben zur Wortbildung der Stichwörter wird derzeit gearbeitet; diese Analysen wurden mithilfe des Tools Morphisto erstellt (vgl. hierzu www.ids-mannheim.de/ ll/ TextGrid/ morphisto.html , Stand: 10.05.2010). 18 Vgl. hierzu Abschnitt 2.2 im Beitrag „Von Abbildung bis Wortelement: Weitere Ergänzungen und Änderungen in elexiko“ von Annette Klosa in diesem Band. Einleitung 19 Abb. 1: Beispiel für einen Wortartikel mit (teil-)automatisch generierten Angaben Annette Klosa 20 So werden z. B. automatisch erstellte Wortbildungsanalysen redaktionell überprüft, bevor sie online erscheinen. Belege zu einem Stichwort werden nicht nach rein statistischen Zufallskriterien aus dem Korpus ermittelt, sondern unter Hinzunahme der folgenden, die Auswahl weiter steuernden Kriterien: 19 Die Belege müssen mindestens aus drei verschiedenen Quellen und Jahrgängen stammen. Der Belegumfang soll maximal drei Sätze vor dem Satz mit dem Stichwort und einen Satz danach umfassen, höchstens aber einen Absatz. Belege, in denen das Stichwort z. B. in einer Überschrift steht, werden dadurch ausgeschlossen, dass eine Mindestsatzlänge (beruhend auf der durchschnittlichen Satzlänge im elexiko-Korpus) angenommen wird. Dies bedeutet aber auch, dass die Füllung der Stichwörter um neue Angaben langsamer vorangeht, als dies bei einer ausschließlich automatischen Methode der Fall wäre. Dafür wird aber (durch Fehlerkorrekturen) eine bessere Qualität der Angaben gewährleistet (vgl. Klosa 2010). Übergangsweise ermöglichen Hyperlinks auf externe Online-Angebote (vgl. Abb. 1) Nutzern, grammatische Informationen zu einem Stichwort nachzuschlagen (bei canoo.net ) bzw. statistisch signifikante Kollokatoren zu einem Stichwort einzusehen (in der Kookkurrenzdatenbank CCDB des IDS ). Bei bearbeiteten Stichwörtern können diese Hyperlinks entfallen, da die entsprechenden Angaben im Rahmen der Wortartikelbearbeitung ermittelt wurden und im fertigen Wortartikel zu finden sind. Da elexiko fortlaufend publiziert wird, können permanent Nachträge in die oder Löschungen aus der Stichwortliste sowie Korrekturen und Ergänzungen in redaktionell bearbeiteten Wortartikeln vorgenommen werden (vgl. Hahn et al. 2008, S. 80ff.). Dies hat einerseits den Vorteil, dass die Stichwortliste und die Wortartikel aktuell gehalten werden können, andererseits aber den Nachteil, dass ohne Kennzeichnung der jeweiligen Stichwortlistenbzw. Artikelversion das Wörterbuch im wissenschaftlichen Kontext nicht zitierbar ist. Derzeit wird in elexiko nicht markiert, wann die Stichwortliste oder einzelne Wortartikel zuletzt bearbeitet bzw. aktualisiert wurden. Es gibt auch (noch) kein Archiv, auf das Nutzer bei der Suche nach älteren Fassungen zugreifen könnten. Die Frage nach Archivierung und Versionierung der elexiko-Substanzen steht daher dringend an. Deshalb werden die tatsächlichen Erwartungen der 19 Die automatische Ermittlung der Belege wird dankenswerterweise durch das Projekt COS- MAS II am IDS übernommen. Im Fall falsch ausgewählter Belege können andere Belege durch die Lexikografen nachgetragen werden. Es wird dabei artikelintern vermerkt, dass die Belegauswahl manuell verändert wurde. - - - Einleitung 21 Nutzer an ein fortwährend publiziertes Online-Wörterbuch mithilfe von Benutzerbefragung und -beobachtung im Rahmen der im Projekt BZV elexiko durchgeführten Benutzungsforschung abgefragt. Auf der Basis dieser Erkenntnisse sollen Archivierung und Versionierung dann konzeptionell und technisch umgesetzt werden. 4. elexiko online Zu Beginn der Projektlaufzeit war elexiko umfassend sowohl als korpusgestütztes, gegenwartssprachliches Bedeutungswörterbuch wie als Wortschatzinformationssystem zum Deutschen, das andere Module umfassen sollte, geplant (vgl. Haß 2005). Bedingt durch die enorme Fülle der Aufgaben im Projekt elexiko sowie aufgrund verschiedener Entwicklungen in den ursprünglichen Modulprojekten „Neologismen der 90er Jahre“ und „Usuelle Wortverbindungen“ und nicht zuletzt durch die Ausweitung der Planungen auf weitere Online-Wörterbuchprojekte wurde zwischenzeitlich die Portalfunktion aus elexiko ausgegliedert und dem neuen Projekt OWID („Online-Wortschatz- Informationssystem Deutsch“) 20 übertragen (vgl. Klosa 2008, S. 3; Müller- Spitzer 2008). elexiko ist nun eines unter mehreren Wörterbüchern, die innerhalb von OWID publiziert werden. Allerdings ist es das von der Gesamtzahl der Stichwörter, der Menge an redaktionell bearbeiteten Wortartikeln und der Breite der Angaben her umfangreichste Nachschlagewerk in diesem Portal. elexiko ist, wo es möglich und sinnvoll erscheint, mit den anderen Wörterbüchern in OWID vernetzt, ein weiterer Ausbau der Vernetzungen wird inzwischen im Projekt BZV elexiko angestrebt. Neben dieser großen konzeptionellen und organisatorischen Änderung hat sich auch die Benutzeroberfläche von elexiko gewandelt. 21 Das erste Online- Angebot von elexiko umfasste nur die Stichwortliste (2003), in einem zweiten Schritt kamen die Wortartikel des elexiko-Demonstrationswortschatzes mit ersten komplexeren Recherchemöglichkeiten hinzu (2004). Mit der Freischaltung der Wortartikel des Modulprojektes „Neologismen der 90er Jahre“ erhielt das Online-Angebot von elexiko ein neues Design, das die beiden Funktionen von elexiko (Wörterbuch und Portal) auch in der Benutzeroberfläche sichtbar machte (2007, vgl. Bock 2008). Daneben wurde die Präsentation der elexiko-Wortartikel verbessert und neue erweiterte Suchmöglichkeiten konnten freigeschaltet werden. Inzwischen wurde das Design der Wortartikel an 20 Zu OWID vgl. www.owid.de (Stand: 10.05.2010). 21 Eindrücke von den verschiedenen Entwicklungsstufen der Benutzeroberfläche vermitteln die vielen Abbildungen in den im Laufe der Projektzeit erschienenen Publikationen. Annette Klosa 22 die neue Benutzeroberfläche von OWID angepasst, wobei zugleich die Möglichkeit zu Optimierungen bestand (2010). Ein weiterer Ausbau der Suchmöglichkeiten ist konzeptionell vorbereitet und wird in absehbarer Zeit im Zusammenhang mit dem Ausbau portalübergreifender Rechercheangebote in OWID realisiert werden. Jeder dieser Schritte bedeutete nicht nur einen erheblichen Programmieraufwand, sondern auch, dass so genannte Stylesheets, welche die Umwandlung der XML -Inhalte für die Ansicht in HTML steuern, geschrieben und getestet wurden. Der redaktionelle Input bestand hier im Entwurf der Wortartikelansichten und der Festlegungen dazu, welche Angaben online wie erscheinen sollen, sowie in gründlichem Testen der Umsetzung dieser Vorgaben. Das Online-Angebot von elexiko wurde schließlich um umfangreiche Wörterbuchaußentexte ergänzt, womit einerseits metalexikografische Vorschläge zu diesem Thema realisiert wurden (vgl. Klosa 2009), andererseits vor allem aber die Benutzerfreundlichkeit von elexiko deutlich verbessert werden konnte. Die ausführlichen Benutzungshinweise wenden sich vornehmlich an Nutzer ohne germanistischen Fachhintergrund. Hier werden alle Fachtermini, die in den Wortartikeln erscheinen, erläutert, wobei gegebenenfalls auch auf Einträge in grammis, 22 dem grammatischen Informationssystem des IDS , verwiesen wird. Daneben wird die lexikografische Konzeption (z. B. Methodik, Arbeitsgrundlagen) für das Fachpublikum auf den Internetseiten des Projektes vorgestellt. 5. Schlussgedanken Dass elexiko ein im Aufbau befindliches Online-Wörterbuch ist, zeigt sich nicht nur an den in diesem Band beschriebenen Beispielen für konzeptionelle Ergänzungen, Änderungen oder Neuerungen bezüglich der behandelten Artikeltypen, der Stichwortliste, der Datenmodellierung und verschiedener lexikografischer Angaben, sondern auch in jedem einzelnen Beitrag dieses Bandes: elexiko hat sich in den letzten fünf Jahren im Bestreben nach Verbesserung deutlich verändert. Besonders augenfällig wird in den Beiträgen zu einzelnen Angabebereichen, wie stark sich die streng korpusgestützte lexikografische Arbeit auswirkte: Die Korpusbefunde haben in manchen Angabebereichen zu wichtigen Ergänzungen geführt (z. B. im Bereich der sinn- und sachverwandten Wörter, wo neue paradigmatische Relationen beschrieben werden, oder im Bereich 22 Zu grammis vgl. http: / / hypermedia.ids-mannheim.de/ index.html (Stand: 10.05.2010). - Einleitung 23 der Gebrauchsbesonderheiten, wo eine neue Angabe die themengebundene Verwendung eines Stichwortes beschreibt). Sie gaben auch den Anstoß dazu, über ursprünglich für die lexikografische Beschreibung zugrunde gelegte, lexikologische Konzepte erneut nachzudenken (z. B. im Bereich der semantischen Umgebung und der lexikalischen Mitspieler). Die Arbeit an inzwischen etwa 1.400 beschriebenen Stichwörtern (Stand 2010) wies auch immer wieder auf die Notwendigkeit hin, dass noch offene Fragen der Lemmatisierung (z. B. von Eigennamen) entschieden werden mussten, was zwischenzeitlich geschehen ist. Aufgrund der praktischen Erfahrungen mit dem Korpus musste auch die Datenmodellierung für die Wortartikel an manchen Stellen ergänzt werden, was nur ein Aspekt der hier beschriebenen praktischen Erfahrungen mit der gewählten Modellierung ist. Bestimmte Angabebereiche (besonders die Bedeutungserläuterungen, aber auch typische Verwendungsmuster, themengebundene Verwendungen des Stichwortes, grammatische Angaben) sind sehr intensiv mit anderen Angabebereichen im Wortartikel vernetzt. Im Nachdenken über diese Vernetzungen an verschiedenen Stellen in diesem Band wird indirekt deutlich, dass sich im Korpus naturgemäß in den gleichen Belegen - und also nicht auf verschiedene Belege verteilt - zeigt, was die Lexikografen hingegen in verschiedenen Angabebereichen innerhalb eines Wortartikels beschreiben. Auch dem Medium Internet ist ein großer Einfluss auf die Fortentwicklung von elexiko nicht abzusprechen: Die reichen Möglichkeiten der Hypertextualisierung des Wörterbuches, der theoretisch unbegrenzte Platz auf den Bildschirmseiten und die Chance, neue Zugriffsmöglichkeiten auf die Wortartikel zu eröffnen, haben sich in den vergangenen fünf Jahren praktischer Artikelarbeit auf viele Bereiche des Wörterbuches ausgewirkt, nicht zuletzt auf die dichte Vernetzung der lexikografischen Angaben untereinander. In den Beiträgen in diesem Band wird deshalb wiederholt auf Aspekte der Vernetzung sowie auf geplante Erweiterungen der Zugriffsmöglichkeiten hingewiesen. Aber auch die Bereicherung der Wortartikel um multimediale Elemente wie Illustrationen und Ausspracheangaben in Form von Hörbeispielen gehört in diesen Kontext. Daneben wird deutlich, dass das Projekt elexiko zunehmend sprachtechnologische Anwendungen (z. B. Morphologietools wie Morphisto) nutzt, um redaktionell erarbeitete und automatisch erstellte (allerdings meist redaktionell geprüfte) Angaben zu kombinieren. Dies ist vor allem für eine bessere Benutzbarkeit von elexiko wichtig, da nur so relativ schnell verlässliche Informationen zu möglichst vielen Stichwörtern angeboten werden können. Eine - - Annette Klosa 24 ausschließlich redaktionelle Bearbeitung 23 der ca. 300.000 Stichwörter ist im Grunde ohne Rückgriff auf bestehende Wörterbuchressourcen nicht realisierbar, was dem Prinzip der Korpusbasiertheit allerdings fundamental widerspräche. Außerdem würde sich das Publikationstempo von elexiko dadurch deutlich verlangsamen und so merklich weniger erfolgreiche Nachschlagehandlungen ermöglichen. elexiko wird daher auch weiterhin die korpusgestützte, reflektierte und komplexe Beschreibung einzelner Wortschatzausschnitte mit der (teil-)automatischen, lexikografisch gesteuerten Anreicherung der großen Masse der Stichwörter kombinieren und dabei regelmäßig prüfen, welche neuen sprachtechnologischen Anwendungen weitere qualitativ hochwertige Ergebnisse zur Einbindung in das Wörterbuch versprechen. 6. Literaturverzeichnis 6.1 Wörterbücher Algemeen Nederlands Woordenboek. Internet: www.inl.nl/ en/ nieuws/ 732-algemeennederlands-woordenboek-online (Stand: 30.04.2010). elexiko (2003ff.). In: Institut für Deutsche Sprache (Hg.): OWID - Online-Wortschatz-Informationssystem Deutsch. Mannheim. Internet: www.elexiko.de (Stand: 30.04.2010). 6.2 Forschungsliteratur Bock, Wolfgang (2008): Technische Aspekte des OWID -Portals. In: Klosa (Hg.), S. 37-44. Internet: www.ids-mannheim.de/ pub/ laufend/ opal/ privat/ pdf/ opal08-1_bock.pdf (Stand: 18.05.2010). Hahn, Marion/ Klosa, Annette/ Müller-Spitzer, Carolin/ Schnörch, Ulrich/ Storjohann, Petra (2008): elexiko - das elektronische, lexikografisch-lexikologische korpusbasierte Wortschatzinformationssystem. Zur Neukonzeption, Erweiterung und Revision einzelner Angabebereiche. In: Klosa (Hg.), S. 57-85. Internet: www.ids -mannheim.de/ pub/ laufend/ opal/ privat/ pdf/ opal08-1_hahn-klosa-mueller-spitzer.pdf (Stand: 18.05.2010). Haß, Ulrike (2005): elexiko - Das Projekt. In: Haß (Hg.), S. 1-17. Haß, Ulrike (Hg.) (2005): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz. (= Schriften des Instituts für Deutsche Sprache 12). Berlin/ New York. Klosa, Annette (2007): Korpusgestützte Lexikographie: besser, schneller, umfangreicher? In: Kallmeyer, Werner/ Zifonun, Gisela (Hg.): Sprachkorpora - Datenmengen und Erkenntnisfortschritt. Jahrbuch 2006 des Instituts für Deutsche 23 Einen Einblick in die personelle Ausstattung des Projektes geben die elexiko-Projektseiten im Internet. Einleitung 25 Sprache. Berlin/ New York, S. 105-122. Internet: www.ids-mannheim.de/ pub/ laufend/ jahrbuch/ jb2006.html (Stand: 11.05.2010). Klosa, Annette (2008): Vorwort. In: Klosa (Hg.), S. 3-4. Internet: www.ids-mannheim.de/ pub/ laufend/ opal/ privat/ pdf/ opal08-1_vorw.pdf (Stand: 11.05.2010). Klosa, Annette (Hg.) (2008): Lexikografische Portale im Internet. (= OPAL - Online publizierte Arbeiten zur Linguistik 1/ 2008). Mannheim. Internet: www.ids-mannheim. de/ pub/ laufend/ opal/ privat/ opal08-1.html (Stand: 11.05.2010). Klosa, Annette (2009): Außentexte in elektronischen Wörterbüchern. In: Beijk, Egbert (Hg.): Fons verborum: feestbundel voor prof. dr. A. M. F. J. (Fons) Moerdijk, aangeboden door vrienden en collegas bij zijn afscheid van het Instituut voor Nederlandse Lexikologie. Amsterdam, S. 49-60. Klosa, Annette (2010): On the combination of automated information and lexicographically interpreted information in two German online dictionaries. In: Granger, Sylviane/ Paquot, Magali (Hg.): eLexicography in the 21st century: new challenges, new applications. Proceedings of eLex 2009, Louvain-la-Neuve, 22-24 October 2009. (= Cahier du Cental 7). Louvain-la-Neuve, S. 157-163. Meyer, Peter/ Müller-Spitzer, Carolin (2010): Consistency of sense relations in a lexicographic context. In: Barbu Mititelu, Verginica/ Pekar, Viktor/ Barbu, Eduard (Hg.): Proceedings of the Workshop „Semantic Relations. Theory and Applications“, 18 May 2010, at the International Conference on Language Resources and Evaluation ( LREC ), 2010, Malta. Internet: http: / / www.lrec-conf.org/ proceedings/ lrec2010/ workshops/ W9.pdf (Stand: 08.10.2010). Müller-Spitzer, Carolin (2008): The lexicographic portal of the IDS . Connecting heterogeneous lexicographic resources by a consistent concept of data modelling. In: Bernal, Elisenda/ DeCesaris, Janet (Hg.): Proceedings of the Thirteenth EURALEX International Congress, Barcelona, Spain, July 15th-19th, 2008. (= Sèrie Activitats 20). Barcelona, S. 457-461. Müller-Spitzer, Carolin/ Schneider, Roman (2009): Ein XML -basiertes Datenbanksystem für digitale Wörterbücher - Ein Werkstattbericht aus dem Institut für Deutsche Sprache. In: it-Information Technology 51, 4, S. 197-206. Storjohann, Petra (2005a): Corpus-driven vs. corpus-based approach to the study of relational patters. In: Proceedings of the Corpus Linguistics Conference 2005 in Birmingham. Internet: www.corpus.bham.ac.uk/ PCLC/ . Stand: 30.04.2010. Storjohann, Petra (2005b): Das elexiko-Korpus: Aufbau und Zusammensetzung. In: Haß (Hg.), S. 55-70. 6.3 Internetressourcen Belica, Cyril (1995): Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode. Mannheim. Internet: http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: 30.04.2010). Annette Klosa 26 Belica, Cyril (2001-2007): Kookkurrenzdatenbank CCDB - V3.2. Eine korpuslinguistische Denk- und Experimentierplattform für die Erforschung und theoretische Begründung von systemisch-strukturellen Eigenschaften von Kohäsionsrelationen zwischen den Konstituenten des Sprachgebrauchs. Mannheim. Internet: http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: 30.04.2010). BZV elexiko - Benutzeradaptive Zugänge und Vernetzung in elexiko: Internet: www. ids-mannheim.de/ lexik/ BZVelexiko (Stand: 30.04.2010). canoo.net - Deutsche Wörterbücher und Grammatik. Internet: www.canoo.net (Stand: 30.04.2010). CCDB - Kookkurrenzdatenbank - V3.2. Internet: http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: 30.04.2010). COSMAS II . Internet: https: / / cosmas2.ids-mannheim.de/ cosmas2-web/ (Stand: 30.04.2010). DEREKO - Deutsches Referenzkorpus des IDS . Internet: www.ids-mannheim.de/ kl/ projekte/ korpora/ (Stand: 30.04.2010). EDAS - Electronic Dictionary Administration System / Lexikographisches Redaktions- und Recherchesystem für digitale Wörterbücher. Internet: www.ids-mannheim. de/ gra/ texttechnologie.html (Stand: 30.04.2010). grammis - das grammatische Informationssystem des Instituts für Deutsche Sprache. Internet: http: / / hypermedia.ids-mannheim.de/ index.html (Stand: 30.04.2010). Morphisto. Internet: www.ids-mannheim.de/ ll/ TextGrid/ morphisto.html (Stand: 30.04.2010). OWID - Online-Wortschatz-Informationssystem Deutsch (2008ff.). Institut für Deutsche Sprache (Hg.). Mannheim. Internet: www.owid.de (Stand: 30.04.2010). Antje Töpel Die semantische Paraphrase in elexiko 1. Einleitung Klicken Benutzer auf der Startseite eines redaktionell ausgearbeiteten elexiko- Wortartikels unter der Überschrift „Lesartenbezogene Angaben“ auf die Etikettierung einer bestimmten Lesart, 1 präsentiert sich ihnen direkt die zur jeweiligen Lesart gehörende Bedeutungserläuterung. Zum gleichen Bereich zählen obligatorisch ein bis drei extra zu öffnende Paraphrasenbelege, die Informationen zur satzfunktionalen Wortklasse sowie gegebenenfalls enzyklopädische Hinweise, Abbildungen und/ oder ein definitorischer Beleg. Die Bedeutungserläuterung in elexiko - auch semantische Paraphrase genannt - fasst wichtige Informationen zahlreicher anderer Angabenbereiche innerhalb der lesartenbezogenen Angaben zusammen und bietet dem Nutzer so eine kurze Übersicht über die Bedeutung und Verwendung des jeweiligen Stichwortes bzw. seiner Lesarten. Dadurch steht der Angabebereich der Bedeutungserläuterung in besonders engem Zusammenhang mit den weiteren lesartenbezogenen Angabebereichen der Wortartikel, wie im Abschnitt 4 dieses Beitrags dargestellt ist. Weiterhin beschreibt dieser Beitrag, wie die ursprüngliche Konzeption zur semantischen Paraphrase in elexiko heute umgesetzt wird (Abschnitt 2) und wie die in elexiko bestehende Beschreibungstechnik von den Lexikografen beurteilt wird (Abschnitt 3). 2. Die Realisierung der ursprünglichen Konzeption In den vergangenen fünf Jahren, seitdem Wortartikel für elexiko verfasst werden, gab es bei den einzelnen Angabebereichen unterschiedlich starke Veränderungen. So wurde beispielsweise der Angabebereich der typischen Verwendungen erfahrungsbedingt in umfangreichem Maß umstrukturiert. 2 Bei der Bedeutungserläuterung handelt es sich hingegen um einen Angabebereich, der in dieser Zeit wenig bis kaum von Umstrukturierungen betroffen war. Die ursprüngliche Konzeption zur Bedeutungserläuterung in elexiko, wie sie in Storjohann (2005a) dargestellt ist, wird auch heute noch so umgesetzt. Hierzu 1 Die Bezeichnung Lesart wird in elexiko anstelle von Einzelbedeutung oder Bedeutungsvariante verwendet (vgl. Haß 2005a, S. 164). 2 Vgl. hierzu Abschnitt 4.2, Storjohann/ Möhrs (2007), Hahn et al. (2008) sowie den Beitrag „Die typischen Verwendungen in elexiko“ von Christine Möhrs in diesem Band. Antje Töpel 28 gehören vor allem die Orientierung der Paraphrase an der satzfunktionalen Klasse des Stichwortes bzw. der Lesart (vgl. Abschnitt 3.1) sowie das Formulieren in ganzen Sätzen (vgl. Abschnitt 3.2). Die Bedeutungserläuterung in elexiko wird obligatorisch von ein bis drei Korpusbelegen sowie den Informationen zur satzfunktionalen Wortklasse begleitet. Bei Bedarf ergänzen enzyklopädische Hinweise, Abbildungen und/ oder ein definitorischer Beleg die semantische Paraphrase. Die theoretischen Überlegungen zur Bedeutungserläuterung haben sich in der praktischen Arbeit als geeignet erwiesen. Diese Tatsache bedeutet jedoch nicht, dass es im Bereich der semantischen Paraphrase gar keine Veränderungen gegeben hätte. Jedoch umfassen diese Veränderungen eher Ergänzungen in der Bedeutungserläuterung, die sich bei der täglichen Artikelarbeit als wünschenswert herausgestellt haben. Zu nennen sind an dieser Stelle vor allem zwei Aspekte: die Integration der Etikettierung und die Erhöhung des Grades an Explizitheit der semantischen Paraphrase. 3 Die Etikettierung bzw. Kurzetikettierung in elexiko ersetzt die in der Printlexikografie übliche Nummerierung der einzelnen Lesarten und besteht im Idealfall aus einem Wort, höchstens aber aus einer Wortgruppe. 4 Gemeinsam mit der Bedeutungserläuterung ist die Etikettierung das Erste, was dem Benutzer in den Online-Artikelansichten an lesartenbezogenen Angaben begegnet. Die Kurzetikettierung soll „den semantischen Inhalt kurz [...] umschreiben und Nutzer(inne)n ein schnelles Erfassen der vorliegenden Einzelbedeutung im Bedeutungsspektrum [...] ermöglichen“ (Storjohann 2005a, S. 199). Neben der raschen Identifizierung einer Lesart sind die Etikettierungen beim Navigieren durch den Wortartikel von Vorteil. Die Praxis des Schreibens von Wörterbuchartikeln in elexiko hat sich in Bezug auf die Kurzetikettierung dahingehend geändert, dass - soweit möglich - die Etikettierung in der semantischen Paraphrase wieder aufgenommen wird (vgl. Abb. 1 und 2, dunkelgrau unterlegt). Durch diese wechselseitige Vernetzung zwischen der Bedeutungserläuterung und der Etikettierung wird ein für den Nutzer positiver Wiedererkennungseffekt beim Lesen der semantischen Paraphrase angestrebt. Die zweite Änderung beim Angabebereich der Bedeutungserläuterung betrifft den Grad ihrer Ausführlichkeit. Die ursprüngliche Konzeption beschreibt diesen Aspekt wie folgt: „Die semantische Paraphrase in elexiko enthält sozusagen den gemeinsamen Nenner sämtlicher im Korpus belegter Äußerungsakte und ist entsprechend generalisierend abstrakt formuliert“ (Storjohann 2005a, 3 Vgl. hierzu auch Hahn et al. (2008, S. 73ff.). 4 Zur Konzipierung der Kurzetikettierung vgl. Storjohann (2005a, S. 199ff.). Die semantische Paraphrase in elexiko 29 S. 185). In den Bedeutungserläuterungen von elexiko verzichten die Lexikografen auf die Bezeichnungen jemand oder etwas, stattdessen arbeiten sie mit Bezeichnungen wie Person(engruppe), Handlung oder Sachverhalt (vgl. die Beispiele in Abb. 1 und 2). Da Bezeichnungen wie Sachverhalt semantisch kaum fassbarer sind als etwas, ist beim Verfassen der semantischen Paraphrasen unter den Lexikografen das Bedürfnis gestiegen, an diesen Stellen konkrete Beispiele in Klammern zu ergänzen. Auf diese Weise soll der Nutzer beim Rezipieren der Bedeutungserläuterung gedanklich in eine bestimmte, thematisch typische Richtung gelenkt werden. Der exemplarische Charakter der Beispiele wird dabei durch die Formulierung „z. B.“ verdeutlicht. Damit die Ergänzungen den Lesefluss nicht unterbrechen, werden sie grammatisch an das jeweilige Bezugswort angepasst. So wird in der Bedeutungserläuterung des Wortartikels Ergebnis in der Lesart ‘Resultat’ die Bezeichnung Prozess durch die Beispiele Untersuchung und Umfrage exemplifiziert (vgl. Abb. 1, hellgrau unterlegt). 5 Abb. 1: Bedeutungserläuterung im Wortartikel Ergebnis, Lesart ‘Resultat’ Ein weiteres Beispiel für dieses Vorgehen ist in Abbildung 2 dargestellt. Hier enthält die Bedeutungserläuterung des Wortartikels teilweise in der Lesart ‘nicht vollständig’ Beispiele für die Bezugswörter Prozess, Sachverhalt und Eigenschaft ( hellgrau unterlegt). Abb. 2: Bedeutungserläuterung im Wortartikel teilweise, Lesart ‘nicht vollständig’ 5 In den Abbildungen, die ausschnittsweise Wortartikel aus elexiko zitieren, werden aus Anschaulichkeitsgründen bestimmte Teile in Graustufen hervorgehoben. Dies entspricht nicht der Onlinedarstellung. Gleiches gilt für die Abbildungen, die mehrere, in der Onlinedarstellung nicht gleichzeitig rezipierbare Angabebereiche wiedergeben. Die Reihenfolge der Angabebereiche in den Abbildungen orientiert sich dabei an der Onlinedarstellung. Antje Töpel 30 Diese Ergänzungen führen jedoch auch dazu, dass die semantischen Paraphrasen in elexiko umfangreicher werden, wie in den Beispielen der Abbildungen zu sehen ist. Die zunehmende Länge geht häufig mit einer erhöhten Komplexität einher. In diesen Fällen müssen die Lexikografen abwägen, ob eine weniger komplexe Struktur oder mehr Exemplifizierungen benutzerfreundlicher sind. 3. Beurteilung der bestehenden Beschreibungstechnik In der praktischen Arbeit von elexiko, dem Verfassen von Wortartikeln, liegt der Schwerpunkt derzeit auf den autosemantischen Wortarten, weil diese einen Großteil des im Lexikon zum öffentlichen Sprachgebrauch enthaltenen Wortschatzes bilden. 6 Aus diesem Grund konzentrieren sich auch die folgenden Ausführungen darüber, wie die in elexiko bestehende Beschreibungstechnik der semantischen Paraphrase beurteilt wird, auf die Autosemantika. 3.1 Satzfunktionale Klassen und Paraphrasenmuster In elexiko richtet sich die Art der Formulierung der semantischen Paraphrasen bei den autosemantischen Wortarten nach bestimmten Beschreibungsmustern. Diese werden von der jeweiligen satzfunktionalen Klasse der Lesart des Stichworts bestimmt und sind an den entsprechenden Charakteristika der Satzfunktion ausgerichtet (vgl. Storjohann 2005a, S. 186ff.). 7 Für jede der drei satzfunktionalen Klassen - Prädikatoren, Quantoren und Referenzwörter - mit ihren Untergruppen bestehen in elexiko einzelne Formulierungsrichtlinien, die „ein Orientierungsinstrumentarium zum Formulieren der Bedeutungserläuterung darstellen“ (ebd., S. 186). Zur Klasse der Prädikatoren gehören die sechs Untergruppen Gattungs-, Handlungs-, Vorgangs-, Zustands-, Eigenschafts- und Einstellungsprädikator. Die Gruppe der Gattungsprädikatoren selbst teilt sich wiederum in fünf Untergruppen: Individuativum, Kollektivum, Kontinuativum, Privativum und Partitivum. Stellvertretend soll ein Beispiel aus der funktionalen Subklasse der Partitiva vorgestellt werden. Partitiva sind Wörter, die vorrangig einen (Bestand-)Teil eines größeren Konzeptes bezeichnen. Dies nehmen die elexiko-Bedeutungserläuterungen der Partitiva in ihren Formulierungen auf, wenn beispielsweise die Bezeichnung Teil ( hellgrau unterlegt) verwendet wird (vgl. Abb. 3). 6 Vgl. hierzu Abschnitt 3 der Einleitung in diesem Band. 7 Zur Einteilung der satzfunktionalen Klassen, die auf Polenz zurückgeht, vgl. Haß (2005a) und Polenz (1988). Die semantische Paraphrase in elexiko 31 Abb. 3: Bedeutungserläuterung im Wortartikel Hälfte, Lesart ‘50 Prozent’ Zu den Quantoren zählen die selbstständigen Quantoren, die Maß-/ Mengenquantoren, die Zahlwörter und die Datumsangaben. Auch hier spiegeln sich die satzfunktionalen Klassen in den Bedeutungserläuterungen wider, beispielsweise durch die Formulierung Maßeinheit ( hellgrau unterlegt) in der Paraphrase von Meter, Lesart ‘Maßeinheit’ (vgl. Abb. 4). Abb. 4: Bedeutungserläuterung im Wortartikel Meter, Lesart ‘Maßeinheit’ Die Referenzwörter bestehen aus zwei Untergruppen, den Eigennamen 8 und den Deiktika. Letztere umfassen die personalen, lokalen und temporalen Deiktika sowie die Objektdeiktika. Die verweisende Funktion der Deiktika kommt auch hier in den semantischen Paraphrasen zum Ausdruck, durch Formulierungen wie „wird … verwiesen“ ( hellgrau unterlegt) im Wortartikel gestrig (vgl. Abb. 5). Abb. 5: Bedeutungserläuterung im Wortartikel gestrig, Lesart ‘am vorigen Tag’ Die Arbeit mit den Richtlinien für die unterschiedlichen satzfunktionalen Klassen und die Widerspiegelung bestimmter Eigenschaften und Funktionen in den Bedeutungserläuterungen hat sich aus Sicht der elexiko-Lexikografen bewährt. Die jeweiligen Musterformulierungen bieten dem Lexikografen beim Verfas- 8 Zur Behandlung der Eigennamen in elexiko vgl. den Beitrag „Die lexikografische Behandlung von Eigennamen in elexiko“ von Annette Klosa und Sabine Schoolaert in diesem Band. Antje Töpel 32 sen der Paraphrase durch die formalen Vorgaben eine Orientierungshilfe. Zum einen kann der Lexikograf auf diese Weise leichter entscheiden, was in die Bedeutungserläuterung aufgenommen werden soll. Zum anderen ergeben sich durch die daraus resultierende stärkere Standardisierung und Homogenität der Paraphrasen bessere Vergleichsmöglichkeiten und gewisse Wiedererkennungseffekte für die Nutzer. 3.2 Ganzsatzmodell Aus den bisher angeführten Beispielen wurde bereits ersichtlich, dass die semantischen Paraphrasen in elexiko grundsätzlich aus vollständigen Sätzen bestehen. Die Vorteile, die dieses Vorgehen aus konzeptioneller Perspektive bietet, sind in Storjohann (2005a, S. 190) dargelegt, zur Anwendung im COBUILD - Wörterbuch sowie zur grundsätzlichen Diskussion um Paraphrasen in ganzen Sätzen vgl. beispielsweise Rundell (2006). Doch wie kommen die Lexikografen mit dieser Verfahrensweise zurecht, welche Vorteile und Nachteile ergeben sich daraus aus ihrer Sicht? Als nachteilig empfinden die Lexikografen, dass bei bestimmten satzfunktionalen Klassen die wesentlichen Informationen erst am Satzende stehen. Dies betrifft vor allem die Eigenschafts- und Einstellungsprädikatoren und hängt auch mit den oben beschriebenen Formulierungsvorgaben zusammen (vgl. Abb. 6, hellgrau unterlegt). Abb. 6: Bedeutungserläuterung im Wortartikel schriftlich, Lesart ‘geschrieben’ Besonders, wenn eine bestimmte kontextuelle Verwendung des Stichworts vorrangig durch Synonyme erklärt wird, kann das Paraphrasieren in ganzen Sätzen als umständlich und aufblähend wahrgenommen werden. In diesen Fällen nehmen die Lexikografen die Formulierungsvorgaben teilweise als Hürde beim Formulieren der Paraphrase wahr. Außerdem ist zu vermuten, dass die Bedeutungserläuterungen aufgrund ihrer Länge von den Nutzern nicht mehr in einer Blickspanne erfasst werden können. Ein Vorteil, der sich aus dem Ganzsatzmodell ergibt, liegt dagegen in der Möglichkeit, in die Bedeutungserläuterungen zusätzliche Informationen einzubetten. So erkennt der kundige Benutzer beim Lesen der elexiko-Paraphrasen Die semantische Paraphrase in elexiko 33 zum Beispiel die satzfunktionale Klasse des Stichworts bzw. seiner Lesart. Außerdem ist es nur mithilfe von Paraphrasen in vollständigen Sätzen möglich, das Stichwort rein objektsprachlich in seiner Einzelbedeutung zu erläutern und damit vor allem betonen zu können, was mithilfe des Ausdrucks X sprachlich in einem bestimmten Kontext gemacht wird. In den Bedeutungserläuterungen von elexiko wird die Objektsprachlichkeit durch Formulierungen wie „Mit X beziehen sich Sprecher auf …“ oder „Mit X bewerten Sprecher …“ deutlich gemacht und die konkrete Bezeichnungsfunktion betont. Sowohl die konkreten Beispiele in einer Paraphrase als auch das Formulieren in ganzen Sätzen mit Fokus auf die Funktion eines Stichwortes bzw. einer Lesart ermöglichen es, die Verwendung eines Ausdruckes besser beschreiben zu können. Während an der traditionellen Paraphrase kritisiert wurde, dass jegliche Informationen in die Definition gepackt werden und nur Aussagen dazu getroffen werden, was ein Wort bedeutet, legt elexiko Wert darauf, besonders mit den Beispielen zu zeigen, welche kontextuellen Bezüge und auch welche Verwendungen in einem bestimmten Gebrauch möglich sind. 9 In Abhängigkeit vom Stichwort und von der Lesart funktionieren die Paraphrasen in vollständigen Sätzen bei elexiko also unterschiedlich gut. Insgesamt hat sich das Formulieren in ganzen Sätzen in der täglichen Artikelarbeit jedoch als geeignet erwiesen, zumal das Hauptargument gegen Ganzsatzparaphrasen - der erhöhte Platzbedarf - bei einem Online-Wörterbuch wie elexiko nicht greift. 4. Vernetzung der semantischen Paraphrase mit anderen Angabebereichen Da „in der Bedeutungsparaphrase in abstrahierter Form die verschiedensten Teilinformationen zur Bedeutung und Verwendung eines Stichwortes gebündelt“ (Storjohann 2005a, S. 182) werden, liegt die Vermutung nahe, dass dieser Angabebereich besonders stark mit den anderen Angabebereichen vernetzt ist. Mit Vernetzung ist hier „die Einbindung der Definition in den Mikrotext ‘Wörterbuchartikel’ gemeint, die Abstimmung auf andere Teile dieses Artikels“ (Wellmann 2001, S. 182). 10 In welchem Maß die einzelnen Angabebereiche bei elexiko mit der Bedeutungserläuterung verflochten sind, wird im Folgenden dargestellt. 9 Zur Kritik an der traditionellen Bedeutungserläuterung vgl. Hanks (1987, S. 121). 10 Im gleichen Beitrag zählt Wellmann auch „die Abstimmung des einzelnen Wörterbuchartikels auf die anderen, insbesondere auf Artikel zu Wörtern, die dem gleichen grammatischen oder lexikalischen Paradigma angehören, und das Netz der entsprechenden Querverweise im Makrotext ‘Wörterbuch’“ (Wellmann 2001, S. 182) zum Begriff der Vernetztheit. Diese Antje Töpel 34 4.1 Semantische Umgebung und lexikalische Mitspieler Der Angabebereich „Semantische Umgebung und lexikalische Mitspieler“ umfasst in elexiko korpusgesteuert gewonnene Fragen und Antworten zu den semantischen Rollen eines Stichwortes bzw. seinen Lesarten. 11 Er ist umfangreich mit der Bedeutungserläuterung vernetzt. Vor allem, wenn in der semantischen Paraphrase Generalisierungen vorkommen, die durch Angaben in Klammern erläutert werden (vgl. Abschnitt 2), decken sich diese Ergänzungen mit den entsprechend korpusbasiert gewonnenen Antworten auf die Fragen, die im Angabebereich „Semantische Umgebung und lexikalische Mitspieler“ gestellt werden. Abb. 7: Ausschnitte aus dem Wortartikel unterstützen, Lesart ‘helfen’ beiden Aspekte werden an dieser Stelle jedoch nicht betrachtet. Um eine andere, hier ebenfalls nicht berücksichtigte Art der Vernetztheit handelt es sich, wenn Wortbildungsbeziehungen durch motivierende oder standardisierte Bedeutungserläuterungen bzw. durch angeführte Wortbildungssynonyme verdeutlicht werden (vgl. Barz 2001, S. 90). 11 Zur Konzeption des Angabebereichs „Semantische Umgebung und lexikalische Mitspieler“ in elexiko vgl. Haß (2005b), zur aktuellen Umsetzung vgl. den Beitrag „Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern“ von Annette Klosa und Petra Storjohann in diesem Band. Die semantische Paraphrase in elexiko 35 Wie aus Abbildung 7 hervorgeht, spiegeln sich im Wortartikel unterstützen, Lesart ‘helfen’, einige dieser Angaben in der Bedeutungserläuterung wider: Instrument und Maschine werden sowohl als mögliche lexikalische Mitspieler auf die Frage „Was unterstützt jemanden? “ als auch in der Paraphrase angegeben ( hellgrau unterlegt). Auch Projekt und Arbeit als mögliche lexikalische Mitspieler auf die Frage „Wobei wird jemand unterstützt? “ sind in der Bedeutungserläuterung enthalten ( schwarz unterlegt). Die semantische Paraphrase besitzt somit den Vorteil, Angaben aus dem Bereich der lexikalischen Mitspieler generalisieren zu können, da sie die durch das Korpus gewonnenen Erkenntnisse zusammenfasst und das für ein Stichwort Typische hervorhebt. So kann beispielsweise in der Bedeutungserläuterung des Wortartikels unterstützen erwähnt werden, dass typischerweise Personen(gruppen) sowohl als Handlungsträger als auch als Handlungsempfänger fungieren, obwohl in den Angaben der semantischen Umgebung zwar einzelne Beispiele für solche Personen(gruppen) (wie Arbeitsamt, Gemeinde, Betriebe oder Familien) erwähnt werden, nicht jedoch die Generalisierung Personen(gruppe) (vgl. Abb. 7, hellgrau bzw. dunkelgrau unterlegt). 4.2 Typische Verwendungen Der Angabebereich der typischen Verwendungen umfasst in elexiko die syntagmatischen Muster zur Lesart eines Stichwortes, die in einer bestimmten Form signifikant häufig im elexiko-Korpus vorkommen und deshalb als typisch eingeschätzt werden. 12 Ähnlich wie die Angaben zu den lexikalischen Mitspielern sind sie eng mit der Bedeutungserläuterung verzahnt. Im gewählten Beispiel Abgeordneter, Lesart ‘Vertreter’ (vgl. Abb. 8), wird deutlich, wie vielfältig diese Verzahnung in einigen Wortartikeln erfolgt. Zu diesem Zweck sind in den Ausschnitten des Wortartikels Abgeordneter einzelne Abschnitte der semantischen Paraphrase und ihre entsprechenden typischen Verwendungen unterschiedlich eingefärbt. Die Formulierung „Vertreter einer politischen Gruppierung (z. B. einer Partei)“ ( hellgrau unterlegt) spiegelt sich in fünf typischen Verwendungen wider. Den in vier typischen Verwendungen auftretenden Aspekt, dass Abgeordnete einen Teil eines Gremiums bilden, greift die semantische Paraphrase in der Wortgruppe „in ein Gremium (z. B. ein Parlament, einen Landtag)“ ( dunkel- 12 Die theoretische Konzeption für die typischen Verwendungen in elexiko ist in Storjohann (2005b) dargestellt, die praktische Umsetzung im Beitrag „Die typischen Verwendungen in elexiko“ von Christine Möhrs in diesem Band. Antje Töpel 36 grau unterlegt) wieder auf. Ebenfalls in fünf typischen Verwendungen wird der Aspekt betont, dass Abgeordnete durch Wahlen bestimmt werden ( schwarz unterlegt), worauf die Bedeutungserläuterung mit der Formulierung „gewählt wird“ Bezug nimmt. Die typischen Verwendungen sind relativ unabhängig von ihrer jeweiligen Untergruppe (etwa Abgeordneter mit Attribut, Abgeordneter in Verbalphrasen und Sätzen, Abgeordneter als Attribut) mit der semantischen Paraphrase vernetzt. Abb. 8: Ausschnitte aus dem Wortartikel Abgeordneter, Lesart ‘Vertreter’ Die semantische Paraphrase in elexiko 37 Der Wortartikel Abgeordneter zeigt, wie viele der typischen Verwendungen in elexiko sich in abstrahierter Form in der semantischen Paraphrase wiederfinden. Da die typischen Verwendungen korpusgesteuert gewonnen werden, stellen sie - in ähnlicher Weise wie die Angaben bei der semantischen Umgebung - für den Lexikografen beim Verfassen der Bedeutungserläuterung eine hilfreiche Stütze dar. Fast alle elexiko-Lexikografen erstellen beim Bearbeiten eines Stichworts zunächst eine vorläufige Arbeitsparaphrase, die sie am Ende der Artikelarbeit noch einmal verändern. In solch einem späteren Arbeitsschritt können die Bedeutungserläuterung und die korpusgesteuert gewonnenen Angaben dann gezielt aufeinander abgestimmt werden. So können besonders typische Kontexte oder charakteristische Mitspielerangaben als Ergänzungen in Klammern oder Generalisierungen systematisch in die semantische Paraphrase integriert werden. 4.3 Sinnverwandte Wörter Der Angabebereich der sinnverwandten Wörter umfasst in elexiko eine Vielzahl paradigmatischer Relationen, deren Inventar je nach Lesart eines Stichwortes unterschiedlich stark ausgeprägt ist. 13 Bei dem Teil des Wortschatzes, der in diesem Bereich über viele Angaben verfügt, spiegeln sich die sinnverwandten Wörter auch häufig in der semantischen Paraphrase wider: Je nachdem, wie stark neben der hyperonymischen auch die anderen [...] ‘System’-Achsen lexikalisch besetzt sind, liegt es näher oder fern, auch die von dort her gegebenen Systembeziehungen in die lexikographische Bedeutungsbeschreibung einzubeziehen. (Wellmann 1987, S. 203) Diese in der einsprachigen Lexikografie weit verbreitete Vorgehensweise wird als ‘paradigmatische Technik’ bezeichnet (vgl. Storjohann 2005a, S. 192). Als erstes Beispiel für die Verknüpfung zwischen den sinnverwandten Wörtern und der Bedeutungserläuterung dient der Wortartikel Zimmer, Lesart ‘Raum’ (vgl. Abb. 9). Dieser Wortartikel verdeutlicht das Wiederaufgreifen von Synonymen und Parteronymen zum Stichwort Zimmer in der semantischen Paraphrase: Das Synonym Raum ( hellgrau unterlegt) dient als direkte Bedeutungserläuterung zu Zimmer, die Parteronyme Wohnung, Gebäude und Hotel ( dunkelgrau unterlegt) betten das Stichwort durch die Nennung möglicher Oberbegriffe - in welchen Gebäuden es Zimmer gibt - in einen größe- 13 Vgl. Storjohann (2005c) zur Konzeption der paradigmatischen Relationen in elexiko, zur aktuellen Umsetzung vgl. Hahn et al. (2008) und den Beitrag „Paradigmatische Konstruktionen in Theorie, lexikografischer Praxis und im Korpus“ von Petra Storjohann in diesem Band. Antje Töpel 38 ren Kontext ein. Das Vorgehen, in den semantischen Paraphrasen Synonyme und Oberbegriffe zu nutzen, wird in den elexiko-Artikeln besonders häufig angewendet. Abb. 9: Ausschnitte aus dem Wortartikel Zimmer, Lesart ‘Raum’ Neben der Parteronymie wird in den semantischen Paraphrasen eine andere Beziehung der Überordnung ebenfalls sehr häufig aufgegriffen: die Hyperonymie. Dies stellen auch Wiegand et al. (2010, S. 35) fest: „Bei der Formulierung von Bedeutungsparaphrasenangaben wird [...] auf paradigmatische Beziehungen im Wortschatz zurückgegriffen, besonders auf die Hyperonymie.“ Im Unterschied zur Parteronymie, die eine intransitive Teil-Ganzes-Relation darstellt, handelt es sich bei der Hyperonymie um eine transitive Beziehung der Überordnung, in Texten kann das Hyperonym also für das Hyponym einge- Die semantische Paraphrase in elexiko 39 setzt werden, ohne die Semantik wesentlich zu verändern. Abbildung 10 zeigt, wie im Wortartikel Krankenhaus, Lesart ‘Einrichtung’, das Hyperonym Einrichtung ( hellgrau unterlegt) und die Partonyme Arzt, Pfleger und Schwester ( dunkelgrau unterlegt) mit der Bedeutungserläuterung verzahnt sind. 14 Abb. 10: Ausschnitte aus dem Wortartikel Krankenhaus, Lesart ‘Einrichtung’ Ähnlich wie die Partonyme werden auch die Hyponyme in den semantischen Paraphrasen dafür genutzt, um die Bedeutungserläuterung mithilfe von Beispielen zu ergänzen oder zu konkretisieren: Auf jeden Fall stellt die Einbeziehung hyponymischer Relationen in der einen oder anderen Form eine anschauliche, oft außerdem instruktive Ergänzung zu der üblichen analytischen Bedeutungsdefinition dar. (Wellmann 1987, S. 203) Ein Beispiel hierfür ist die Paraphrase im Wortartikel Pflanze, Lesart ‘Lebewesen’, in der die Hyponyme Baum, Blume und Gras ( dunkelgrau unterlegt) 14 Diese enge Verbindung zwischen der Bedeutungserläuterung und Bezeichnungen für Über- oder Unterordnung hängt mit der aristotelischen Tradition der Definition (bestehend aus genus proximum und differentia specifica) zusammen. Zu Arten der Definition und weiterführender Literatur vgl. beispielsweise Wiegand (1989). Antje Töpel 40 den Nutzer beim Lesen genau in die Richtung lenken, um welche Art Lebewesen es sich bei Pflanzen handelt (vgl. Abb. 11). 15 Diese Art von Verdeutlichung findet sich in anderen allgemeinsprachlichen Wörterbüchern laut Wellmann (1987, S. 197) jedoch meist nur in „unauffälliger Weise“. Abb. 11: Ausschnitte aus dem Wortartikel Pflanze, Lesart ‘Lebewesen’ Die Bedeutungserläuterung kann jedoch nicht nur durch paradigmatische Partner aus dem Bereich der Bedeutungsgleichheit/ -äquivalenz oder der Über-/ Unterordnung bzw. der Art ‘hat Teile’/ ‘ist Teil von’ ergänzt werden. Auch die Beziehungen des Bedeutungsgegensatzes - der Inkompatibilität - können hier eine Rolle spielen. Zur Inkompatibilität gehören auch Spezialfälle wie die Antonymie, die Konversonymie, die Komplementarität und die Reversivität. Als Beispiel für diese Art der Beziehung dient mit dem Wortartikel verweigern, Lesart ‘ablehnen’, hier ein verbales Lemma. Zwei der komplementären Partner - genehmigen und gewähren - ( dunkelgrau unterlegt) werden in der semantischen Paraphrase wieder aufgegriffen (vgl. Abb. 12). Sie werden allerdings verneint, um sie in einer Reihe mit Synonymen und weiteren verneinten komplementären Partnern - nicht tun, gewähren, ablehnen, nicht genehmigen 15 Hyperonymie-/ Hyponymiebeziehungen finden sich vor allem bei den Substantiven, was mit der „Funktion der Wörter in ihren Teilsystemen“ (Wellmann 1987, S. 209) zusammenhängt, da die Hyponymie Zählbarkeit impliziert. Die semantische Paraphrase in elexiko 41 und nicht gestatten - verwenden zu können. Durch die Verneinung erfüllen die komplementären Partner in der Bedeutungserläuterung faktisch die Funktion von Synonymen. Abb. 12: Ausschnitte aus dem Wortartikel verweigern, Lesart ‘ablehnen’ Wie diese Beispiele gezeigt haben, finden sich viele Arten paradigmatischer Partner in der semantischen Paraphrase wieder. Dabei besitzen die Partnerwörter ganz unterschiedliche Funktionen. Besonders häufig werden Synonyme genutzt, um den semantischen Gehalt eines Stichworts zu verdeutlichen. Den gleichen Zweck erfüllen die negierten Partnerwörter aus dem Bereich des Bedeutungsgegensatzes, diese Methode wird allerdings wesentlich seltener genutzt. Ebenfalls sehr häufig werden definitorische Erläuterungen mithilfe von Oberbegriffen genutzt, da sich das Lemma auf diese Weise gut in ein größeres onomasiologisches Feld einbetten lässt. Unterbegriffe werden hingegen seltener in die semantische Paraphrase integriert - wenn, dienen sie vor allem der beispielhaften, konkreten Veranschaulichung. Eine weitere wichtige Funktion im Kontext der Bedeutungserläuterung erfüllen die paradigmatischen Partner bei der Festlegung der Kurzetikettierung zur jeweiligen Lesart. Bei der Bestimmung der Etikettierung für eine Lesart, die zur Navigation dient, werden in elexiko sehr häufig Partnerwörter aus der Paradigmatik gewählt, vor allem Synonyme. Antje Töpel 42 4.4 Besonderheiten des Gebrauchs Zum Bereich „Besonderheiten des Gebrauchs“ gehören in elexiko verschiedene, meist pragmatische Angaben: die Einstellung des Sprechers, Charakteristika hinsichtlich der Situation, der Domäne (Fachsprache), der Textspezifik oder des Diskurses bzw. Themenbereichs sowie die Verwendung des Stichworts in mehrteiligen Eigennamen. 16 Fast alle diese Angaben zur Verwendungsspezifik können sich, einige sollten sich in der semantischen Paraphrase spiegeln. Abb. 13: Ausschnitte aus dem Wortartikel spektakulär, Lesart ‘außergewöhnlich’ Die Ausschnitte aus dem Wortartikel spektakulär, Lesart ‘außergewöhnlich’, zeigen zum einen, dass sich die Angaben zur Einstellung des Sprechers in dem Formulierungsmuster „Mit X bewerten Sprecher …“ der Bedeutungserläuterung wiederfinden (vgl. Abb. 13, hellgrau unterlegt). Auch die satzfunktionale Klasse des Stichworts (Einstellungsprädikator) greift diesen Inhalt auf. Zum 16 Die Konzeption des Angabebereiches „Besonderheiten des Gebrauchs“ ist in Haß (2005c) erläutert, die aktuelle Umsetzung des Teilbereichs der themengebundenen Verwendung wird im Beitrag „‘Themengebundene Verwendung(en)’ als neuer Angabetyp unter der Rubrik ‘Besonderheiten des Gebrauchs’“ von Ulrich Schnörch in diesem Band dargestellt. Die semantische Paraphrase in elexiko 43 anderen knüpft die semantische Paraphrase mit Bankraub, das als Beispiel für Ereignis dient, geschickt an die themengebundene Verwendung (Diskurs) „Im Kontext von Kriminalität“ an ( dunkelgrau unterlegt). Auch die Angaben zur Situation und zur Textspezifik können in die semantische Paraphrase einbezogen werden, wie im Wortartikel Herz, Lesart ‘geliebte Person’, deutlich wird (vgl. Abb. 14). Die Textspezifik dieser Lesart - dass eine Person in mündlicher oder schriftlicher Form direkt angesprochen wird - nimmt die Bedeutungserläuterung durch die Wortgruppe „in der Anrede“ auf ( hellgrau unterlegt). An die Besonderheit der Situation - eine enge Vertrautheit der am Kommunikationsakt beteiligten Personen durch Verwandtschaft oder eine Liebesbeziehung - knüpft die semantische Paraphrase mit der Formulierung „geliebte Person“ an ( dunkelgrau unterlegt). Abb. 14: Ausschnitte aus dem Wortartikel Herz, Lesart ‘geliebte Person’ Als letztes Beispiel für die Verknüpfung der Verwendungsspezifik mit der semantischen Paraphrase dient der Wortartikel Familie, Lesart ‘System’ (vgl. Abb. 15). Hier zeigt sich die Wiederaufnahme der Angaben zur Domäne, also der fachsprachlichen Verwendung der Lesart in der Fachsprache der Biologie, in der Bedeutungserläuterung durch die Wortgruppe „in der Biologie“ ( dunkelgrau unterlegt). Die Wiederaufnahme der Domänenangabe in der Bedeutungserläuterung ist unbedingt notwendig, um Verwendungseinschränkungen einer Lesart deutlich zu machen und damit kommunikativen Missverständnissen vorzubeugen. Antje Töpel 44 Abb. 15: Ausschnitte aus dem Wortartikel Familie, Lesart ‘System’ Die drei Wortartikel veranschaulichen, dass sich in elexiko fast alle Angabebereiche aus dem Bereich „Besonderheiten des Gebrauchs“ in der Bedeutungserläuterung spiegeln (können bzw. sollten). Die einzige Ausnahme bilden hier die Informationen zur Verwendung des Stichworts in mehrteiligen Eigennamen, die nicht mit der semantischen Paraphrase verknüpft wird. 4.5 Grammatik Der Angabebereich der Grammatik enthält im Gegensatz zu den anderen Angabebereichen Informationen, die nicht lexikalisch-semantischer Natur sind, sondern stärker abstrahiert auf das syntaktische Funktionieren des Stichwortes im Satzkontext bezogen sind. 17 Doch selbst Teile der grammatischen Informationen können sich in elexiko in der semantischen Paraphrase widerspiegeln. Die Integration grammatischer Angaben in die Bedeutungserläuterung betrifft vor allem die Stichwörter, die in bestimmte grammatische Strukturen eingebunden sind, also die präpositionalen Anschlüsse bei den Nomen und Adjektiven sowie die Komplemente in den Satzbauplänen der Verben. 18 Letzteres wird im Beitrag „Korpusgestützte Angaben zu Grammatik und Wortbildung“ von Annette Klosa in diesem Band ausgeführt, weshalb an dieser Stelle nur auf die präpositionalen Anschlüsse eingegangen wird. 17 Zur Planung des Angabebereichs Grammatik vgl. Klosa (2005), zur aktuellen Realisierung vgl. den Beitrag „Korpusgestützte Angaben zu Grammatik und Wortbildung“ von Annette Klosa in diesem Band. 18 Bei Adverbien kann es zwar auch präpositionale Anschlüsse geben, allerdings ist ein solcher Fall in elexiko - das sich im Aufbau befindet - noch nicht beschrieben. Die semantische Paraphrase in elexiko 45 Abb. 16: Ausschnitte aus dem Wortartikel Stellungnahme, Lesart ‘Meinungsäußerung’ Abb. 17: Ausschnitte aus dem Wortartikel gefährlich, Lesart ‘bedrohlich’ Der Wortartikel Stellungnahme, Lesart ‘Meinungsäußerung’ verzeichnet im Bereich Grammatik die Angabe, dass der Anschluss zum Stichwort mit der Präposition zu erfolgt: Stellungnahme ZU ETWAS (vgl. Abb. 16). Diesen An- Antje Töpel 46 schluss greift auch die semantische Paraphrase in der Wortgruppe „zu einem bestimmten Sachverhalt (z. B. zu einem Thema, zu einem Entwurf )“ auf ( dunkelgrau unterlegt). In gleicher Weise funktioniert dies bei den präpositionalen Anschlüssen von Adjektiven, beispielsweise im Wortartikel gefährlich, Lesart ‘bedrohlich’ (vgl. Abb. 17). Aus dem Angabebereich „Grammatik“ erfährt der Nutzer, dass auf gefährlich als Anschluss die Präposition für folgt: gefährlich FÜR JEMANDEN/ ETWAS . Auch in diesem Beispiel integriert die semantische Paraphrase diese Information: in der Formulierung „für eine andere Person(engruppe) oder einen anderen Sachverhalt (z. B. Karriere, Stabilität)“ ( dunkelgrau unterlegt). 5. Zusammenfassung Die semantische Paraphrase ist in elexiko ein Angabebereich, der in der praktischen Artikelarbeit auch heute noch nahezu so umgesetzt wird, wie er zu Beginn des Projektes konzipiert wurde. In der täglichen Praxis hat sich die Konzeption insgesamt bewährt, vor allem, was die Arbeit mit den satzfunktionalen Klassen sowie mit dem Ganzsatzmodell betrifft. Die meisten elexiko-Lexikografen verfassen die Bedeutungserläuterung am Ende der Arbeit an einem Artikel. Auf diese Weise kann die semantische Paraphrase bewusster auf alle anderen Angabebereiche abgestimmt und mit diesen verzahnt werden, sodass die Bedeutungserläuterung schließlich ein Kondensat vieler Erkenntnisse anderer Angabebereiche darstellt. In den übrigen Angabebereichen werden die Informationen dann detaillierter präsentiert. Die Integration bestimmter Angaben in die Bedeutungserläuterung erfüllt dabei ganz unterschiedliche Funktionen: Zum einen können beispielsweise lexikalische Mitspieler, typische Verwendungsmuster oder auch Hyponyme der Veranschaulichung dienen. Zum anderen ermöglichen es beispielsweise Generalisierungen oder Oberbegriffe, das Stichwort in einen größeren semantischen Kontext bzw. eine konzeptuelle Domäne einzubetten. Durch die Einbeziehung typischer Verwendungsmuster, bestimmter Besonderheiten des Gebrauchs oder von Satzbauplänen bzw. präpositionalen Anschlüssen in die semantische Paraphrase kann der Nutzer beim Lesen in eine bestimmte, für die Lesart kennzeichnende Richtung gelenkt werden - sei es durch die syntaktische Einbettung oder durch die Information über bestimmte kommunikative Restriktionen. Bei der Erstellung der Bedeutungserläuterung nutzen die elexiko- Autoren die korpusgesteuerten Angaben aus den anderen Bereichen gezielt, um die semantische Paraphrase sowohl generalisierend auf das Typische auszuweiten als auch exemplifizierend durch besonders kennzeichnende Bei- Die semantische Paraphrase in elexiko 47 spiele zu erweitern. Sowohl das Korpus als auch die Analysemethodik stiften letztlich die Homogenität in einem elexiko-Wortartikel. Auf diese Weise ergibt sich in der Bedeutungserläuterung ein harmonisches Gesamtbild über das semantische Potenzial und typische Verwendungen des Stichwortes in einem Kontext, das eng mit allen weiteren Angabebereichen vernetzt ist. 6. Literaturverzeichnis Barz, Irmhild (2001): Wortbildungsbeziehungen im einsprachigen Bedeutungswörterbuch. In: Korhonen (Hg.), S. 85-100. Hahn, Marion/ Klosa, Annette/ Müller-Spitzer, Carolin/ Schnörch, Ulrich/ Storjohann, Petra (2008): elexiko - das elektronische, lexikografisch-lexikologische korpusbasierte Wortschatzinformationssystem. Zur Neukonzeption, Erweiterung und Revision einzelner Angabebereiche. In: Klosa, Annette (Hg.): Lexikografische Portale im Internet. (= OPAL - Online publizierte Arbeiten zur Linguistik 1/ 2008). Mannheim, S. 57-85. Internet: www.ids-mannheim.de/ pub/ laufend/ opal/ privat/ pdf/ opal 08-1_hahn-klosa-mueller-spitzer.pdf (Stand: 18.05.2010). Hanks, Patrick (1987): Definitions and explanations. In: Sinclair, John (Hg.): Looking up. An account of the COBUILD project in lexical computing. London/ Glasgow, S. 116-136. Haß, Ulrike (2005a): Das Bedeutungsspektrum. In: Haß (Hg.), S. 163-181. Haß, Ulrike (2005b): Semantische Umgebung und Mitspieler. In: Haß (Hg.), S. 227- 234. Haß, Ulrike (2005c): Besonderheiten des Gebrauchs. In: Haß (Hg.), S. 265-276. Haß, Ulrike (Hg.) (2005): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz. (= Schriften des Instituts für Deutsche Sprache 12). Berlin/ New York. Klosa, Annette (2005): Grammatik. In: Haß (Hg.), S. 277-298. Korhonen, Jarmo (Hg.) (2001): Von der monozur bilingualen Lexikografie für das Deutsche. (= Finnische Beiträge zur Germanistik 6). Frankfurt a. M. u. a. Polenz, Peter von (1988): Deutsche Satzsemantik. Grundbegriffe des Zwischen-den- Zeilen-Lesens. 2., durchges. Aufl. (= Sammlung Göschen 2226). Berlin/ New York. Rundell, Michael (2006): More than one way to skin a cat. Why full-sentence definitions have not been universally adopted. In: Corino, Elisa/ Marello, Carla/ Onesti, Cristina (Hg.): Proceedings of the 12th EURALEX International Congress (Atti del XII. Congresso Internazionale di Lessicografia), EURALEX 2006, Turin, Italy, September 6th-9th, 2006. Bd. 1. Turin, S. 323-337. Storjohann, Petra (2005a): Semantische Paraphrasen und Kurzetikettierungen. In: Haß (Hg.), S. 182-203. Storjohann, Petra (2005b): Typische Verwendungen. In: Haß (Hg.), S. 235-248. Antje Töpel 48 Storjohann, Petra (2005c): Paradigmatische Relationen. In: Haß (Hg.), S. 249-264. Storjohann, Petra/ Möhrs, Christine (2007): Das elexiko-Wörterbuch im Wandel - Typische Verwendungen neu beleuchtet. In: Sprachreport 3, S. 12-16. Wellmann, Hans (1987): Eine Brücke vom semasiologischen zum onomasiologischen Wörterbuch? In: Kienpointner, Manfred/ Schmeja, Hans (Hg.): Sprache, Sprachen, Sprechen. Festschrift für Hermann M. Ölberg zum 65. Geburtstag am 14. Oktober 1987. Unter Mitarbeit von Hanspeter Ortner, Barbara Stefan und Elisabeth Wieser. (= Innsbrucker Beiträge zur Kulturwissenschaft, Germanistische Reihe 34). Innsbruck, S. 195-218. Wellmann, Hans (2001): Die Sprache der Definitionen, insbesondere ihre Syntax. Ein Plädoyer für die stärkere Vernetzung der Definitionen mit ihrer „Umgebung“ im Wörterbuch und ein Beitrag zur Metakritik der Lexikographie. In: Korhonen (2001), S. 181-198. Wiegand, Herbert Ernst (1989): Die lexikographische Definition im allgemeinen einsprachigen Wörterbuch. In: Hausmann, Franz Josef et al. (Hg.): Wörterbücher. Ein internationales Handbuch zur Lexikographie. 1. Teilbd. (= Handbücher zur Sprach- und Kommunikationswissenschaft ( HSK ) 5.1). Berlin/ New York, S. 530-588. Wiegand, Herbert Ernst et al. (2010): Systematische Einführung. In: Wiegand, Herbert Ernst et al. (Hg.): Wörterbuch zur Lexikographie und Wörterbuchforschung. Mit englischen Übersetzungen der Umtexte und Definitionen sowie Äquivalenten in neun Sprachen. Bd. 1: Systematische Einführung, A-C. Berlin, New York, S. 1-105. Annette Klosa / Petra Storjohann Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 1. Einleitung Der Angabebereich „Semantische Umgebung und lexikalische Mitspieler“ in elexiko ist ein lexikografisches Novum hinsichtlich der streng korpusgestützten Ermittlung der Angaben, ihrer Präsentation und ihres Umfangs. Es gibt solche Angaben erst in wenigen Wörterbüchern überhaupt, und ihre „Funktion für Nutzer und Nutzungssituationen [ist] im Grunde noch unbekannt“ (Haß 2005b, S. 227). 1 Sie illustrieren, wie sich um das Stichwort als Zentrum die Mitspieler 2 als Netz zur semantischen Umgebung auf syntagmatischer Ebene anordnen, wobei zugleich syntaktische Informationen vermittelt werden. Insofern bietet elexiko hier in Ansätzen Informationen eines Kollokationswörterbuchs. Die Angaben „sollen einen bestimmten Typ kognitiver Assoziationen zwischen dem Stichwort in einer Lesart und Wörtern in dessen Textumgebung darstellen“ (ebd., S. 228). Insofern stellen sie eine andere Art von semantischem Netz dar, als dies die ebenfalls für jedes bearbeitete Stichwort erfassten paradigmatischen Partner tun (vgl. Storjohann 2005b und den Beitrag „Paradigmatische Konstruktionen in Theorie, lexikografischer Praxis und im Korpus“ in diesem Band). In elexiko werden die Mitspieler in Sets aus Fragen und zugehörigen Antworten (in Form von Wortlisten) geordnet 3 und erscheinen online als solche Gruppen linear untereinander und nicht in einer Netzstruktur. 4 Sieht man beispielsweise diesen Angabebereich linguistisch unter dem Aspekt von Frames, 1 Im Rahmen der Benutzungsforschung zu elexiko, die derzeit im Projekt BZV elexiko durchgeführt wird, wird u. a. die Rezeption der Angaben zur semantischen Umgebung und zu den lexikalischen Mitspielern untersucht werden. 2 Ein lexikalischer Mitspieler wurde in elexiko bisher formal als Satzglied und funktional als Argument verstanden. Eine genauere Definition im lexikologischen Sinne, die die zahlreichen Beobachtungen zu anderen Funktionen und Strukturen mit einschließt, wie sie z. B. in diesem Beitrag in Abschnitt 3 beschrieben werden, steht noch aus und ist Ziel künftiger Betrachtungen. 3 Zur Methodik der Ermittlung der Mitspielerangaben aus Listen statistisch signifikanter Kookkurrenzpartner zu einem Stichwort vgl. Haß (2005b, S. 230ff.). 4 Vgl. beispielsweise Netzdarstellungen von ungeordneten, rein lemmabasierten Kollokationen im Wortschatzportal der Universität Leipzig oder so genannte Wolken-Darstellungen im Annette Klosa / Petra Storjohann 50 dann repräsentieren die Fragen die Slots, also die Leerstellen in semantischkonzeptuellen Repräsentationen. Die auf die Fragen antwortenden Wörter stehen für die konkreten Filler oder Partizipanten (vgl. Haß 2005b, S. 228), die bestimmte semantisch-syntaktische Rollen innehaben. Sie sind Lexikalisierungen, die auf rein textueller Ebene an bestimmten Positionen in einem Syntagma oder in einer Konstruktion vorkommen und die zum Frame zugehörigen konzeptuellen Elemente darstellen. Die Angaben zur semantischen Umgebung und ihren lexikalischen Mitspielern sind inhaltlich besonders eng mit der Paraphrase verknüpft, weshalb dieser Angabebereich online direkt neben der Rubrik „Bedeutungserläuterung“ angezeigt wird. Bei bestimmten Stichwörtern stehen diese Angaben auch in engem Zusammenhang mit Informationen im Angabebereich „Besonderheiten des Gebrauchs“. Anhand ausgewählter Beispiele wird dies im folgenden Beitrag verdeutlicht, wobei zugleich die Erfahrungen aus fünf Jahren Artikelarbeit bei der Ermittlung der Mitspieler aus dem Korpus erläutert werden. Da der „empirische Zugang zur Textumgebung qua Korpus entscheidend“ (Haß 2005b, S. 228) ist, soll an einigen Beispielen gezeigt werden, welchen semantischen, aber auch welchen enzyklopädischen, assoziativen und diskursiven Informationsgehalt diese Angaben bieten. Einige Überlegungen zu anderen Möglichkeiten der Präsentation dieser Angaben sowie ein Ausblick auf elexiko als Kollokationswörterbuch runden den Beitrag ab. 2. Frames, Slots, Filler 2.1 Argumentstrukturen - Korpus - Lexikografie Die Anwendung theoretischer Aspekte der Framesemantik für die praktische Lexikografie schlägt sich für ein Stichwort in elexiko konkret in der Analyse der am Kontext teilhabenden lexikalischen Partizipanten (Mitspieler/ Kollokatoren) nieder. Nur durch die Untersuchung seiner kontextuellen Mitspieler kann ein Stichwort umfassend gebrauchssemantisch und auch syntaktisch beschrieben werden. Da in elexiko das Lexem in seiner Bedeutung und Verwendung im Vordergrund der lexikografischen Beschreibung steht, richtete sich besonderes Augenmerk auf die Dokumentation signifikanter benachbarter Kontextpartnerwörter. In der Überzeugung, dass die kontextuellen Mitspieler einer zu beschreibenden lexikalischen Einheit bedeutungskonstituierende Funktionen ausüben, vereinen sich auch Ansätze der Korpuslinguistik (vgl. Sinclair DWDS . Andere Möglichkeiten der Visualisierung auch für diesen Angabebereich in elexiko zu erproben, fällt ebenfalls in den Aufgabenbereich des Projektes BZV elexiko. Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 51 1991, 1996), der Konstruktionstheorie (vgl. Goldberg 1995; Kay/ Fillmore 1999; Croft/ Cruse 2004) und der Framesemantik (Fillmore 1977, 1995). In der Ursprungskonzeption des Angabebereiches „Semantische Umgebung und lexikalische Mitspieler“ spielen Aspekte der Frametheorie eine besondere Rolle (Haß 2005b). Die Verknüpfung der Frametheorie (vgl. Fillmore 1977) mit der Lexikografie bei gleichzeitiger empirischer Auswertung eines Korpus wird bisher im Berkeley-FrameNet-Projekt für das Englische konsequent umgesetzt. Das Ergebnis zielt dort aber eher auf einen ontologisch-onomasiologischen Zugriff auf sprachliche Daten ab, indem über so genannte Frames auf syntagmatische Relationsstrukturen zwischen den Satzelementen zugegriffen werden kann. Bei FrameNet stehen die Dokumentationen aller zu einem Frame gehörigen Frameelemente, deren semantische als auch syntaktische Beziehungen sowie beispielhafte kontextuelle lexikalische Filler im Zentrum. Alle Satzbzw. Phrasenelemente werden semantisch und syntaktisch annotiert, die Frameelemente kodiert, um dann ontologisch ausgerichtete Domänenkategorisierungen als Zugriffsstrukturen, also einen eher onomasiologischen Zugang zu den lexikalischen Einheiten zu erhalten. Die einzelnen Frames sind netzartig miteinander verbunden und bilden auch hierarchische Strukturen mit Eltern- Kind-Beziehungen etc. ab. Den einzelnen Frames sind jeweils lexikalische Einheiten zugeordnet, die die semantischen und syntaktischen Funktionen der Frameelemente verdeutlichen und diese charakterisieren (vgl. Abb. 1). Der Frame REQUEST beispielsweise wird folgendermaßen definiert: Der Frame enthält verschiedene notwendige Hauptframeelemente (core elements) wie z. B.: Addressee, Medium, Message, Speaker, Topic. Fakultative Elemente (non-core elements) sind Beneficiary, Containing Event, Depictive, Iteration, Manner, Means, Time. Diese Elemente werden semantisch paraphrasiert, ihre konkrete syntaktische Realisierung (z. B. dass es sich um eine obligatorische Nominalphrase handelt) wird angegeben und, falls möglich, mit einem sprachlichen Beispiel veranschaulicht. Die lexikalischen Einheiten, die diesem Frame zugeordnet sind, lauten: appeal.n, ask.v, beg.v, beseech.v, call.n, call.v, command.n, command.v, demand.n, demand.v, entreat.v, entreaty.n, implore.v, invite.v, order.n, order.v, petition.n, plea.n, plead.v, request.n, request.v, suggestion.n, summon.v, tell.v, urge.v. In this frame a Speaker asks an Addressee for something, or to carry out some action. In this frame a Speaker asks an Addressee for something, or to carry out some action. Annette Klosa / Petra Storjohann 52 Abb. 1: Ausschnitt des Frames REQUEST in FrameNet FrameNet wird gegenwärtig bei der Entwicklung verschiedener Natural Language Processing ( NLP )-Applikationen eingesetzt, wie etwa beim Aufbau ontologischer Netze. Ein framebasiertes Lexikon für das Deutsche zu erstellen, ist derzeit das Ziel des SALSA -Projekts in Saarbrücken. 5 elexiko gewinnt dagegen Argumentstrukturen aus einem Korpus, analysiert die Ergebnisse nach Kriterien wie semantischen Rollen und dokumentiert sie lexikografisch, mit der Absicht, über einen semasiologischen Zugriff den un- 5 Im Moment (Stand 2010) gibt es online einen ersten Release mit einigen wenigen Protoframes. Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 53 mittelbaren Kontext eines Ausdrucks zu illustrieren. Bei elexiko stehen keine operationalisierbaren Frames, die mittels semantisch-syntaktischer Annotation und linguistischer Kategorisierung gewonnen werden, im Zentrum. Ausgangspunkt ist jeweils das Stichwort und seine ganz konkreten sprachlichen Realisierungen in unmittelbarem Kontext, d. h. syntagmatische Kollokationen, die kontextuell typisch sind. Grammatische Informationen zur Art der Ergänzungen und Komplemente sind im Angabebereich der Grammatik angesiedelt. Der folgende Vergleich soll das demonstrieren. In FrameNet werden aus Korpusbeispielen, wie Jo asked her brother to help her, verschiedene Informationen extrahiert und präsentiert (siehe Abb. 2). Jo asked her brother to help her Speaker Addressee Message NP NP VP.to Subject complement complement Abb. 2: Korpusbeispiel aus FrameNet In elexiko spielen diese Informationen ebenso eine Rolle. Sie werden aber an verschiedenen Stellen des Artikels fragen in der Lesart ‘sich erkundigen’ gebucht. So wird beispielsweise der Handlungsträger mit der Formulierung „Wer fragt? “ verknüpft. Die konkreten Realisierungen werden anhand typischer Kollokatoren veranschaulicht, wie etwa Besucher, Bürger, Frau, Herr, Hörer, Kollegen, Kunde. Dass es sich hierbei um das erforderliche Subjekt handelt, ist im Artikel im Bereich „Grammatik“ intern markiert als <subjekt-komp-neu obligatorisch="ja"><nom-nominalphrase-neu/ > </ subjekt-komp-neu> . 6 Extern kann diese Information am Satzbauplan abgelesen werden, der in der folgenden Form angegeben ist: „ JEMAND fragt …“. Analog erfolgt die Angabe des Objekts: Im Angabebereich „Lexikalische Mitspieler“ werden konkrete Filler der Frage „Wer wird gefragt? “ zugeordnet. Diese sind u. a. Arzt, Eltern, Frau, Leute, Minister, Mutter etc. In der Grammatik sind diese als fakultatives Akkusativobjekt markiert ( <objektkomp-vb obligatorisch= " nein " ><akk-nominalphrase-vb/ ></ objekt-komp-vb> ), das im Satzbauplan wie folgt integriert ist: „ JEMAND fragt ( JEMANDEN )“. Analog verhält es sich mit weiteren Komplementen wie etwa obligatorischen Präpositionalphrasen. 6 Diese Information wird derzeit nicht online dargestellt. Da sie aber intern im Wörterbuchartikel explizit ausgezeichnet ist, könnte sie künftig im Bereich der erweiterten Suche angeboten werden. Annette Klosa / Petra Storjohann 54 Adjektivische Mitspieler würden in FrameNet unter den non-core elements des Typs Manner aufgenommen werden. In elexiko erscheinen sie unter Frageformulierungen wie „Wie fragt jemand? “ bzw. „Wie wird fragen näher charakterisiert? “ Diese Art der Formulierung entspricht implizit der Paraphrasierung des Frameelements „manner indicates the manner in which the Message is delivered“. Insgesamt erfolgt die linguistische Analyse der Kontexte demnach ähnlich wie in FrameNet, allerdings ohne Elementkodifizierung und Framezuordnung, da elexiko eine kontextgebundene Stichwortbeschreibung vornimmt und keine ontologische Framesystematisierung des Vokabulars zum Ziel hat. Ein gewisses Organisationsprinzip aller am Kontext beteiligten Ausdrücke und der semantisch-ontologischen Generalisierung ihrer Rollenfunktion, wie sie mit Frames erfasst werden, bzw. eine Kategorisierung der Rollenfunktionen im Sinne der Frametheorie, die lediglich anhand von Korpusbeispielen veranschaulicht werden sollte, wurde nie angestrebt. Vielmehr sollte in elexiko lexikografisch festgehalten werden, wie diese semantischen Rollen im Kontext typischerweise realisiert sind. Ein Stichwort wird also zusammen mit seinen typischen Argumentbeziehungen und dessen typischen Realisierungen primär semantisch beschrieben. Der Ursprungskonzeption lag der Gedanke zugrunde, Argumentbeziehungen und lexikalische Mitspieler stärker semantisch zu betrachten (vgl. Haß 2005b, S. 228ff.). Für die Angabe der lexikalischen Mitspieler sollte relevant sein, mithilfe welcher lexikalischer Einheiten die Frameelemente kontextuell typischerweise ausgedrückt werden. Deshalb ist für diesen Bereich die Analyse der signifikanten Kollokatoren von zentraler Bedeutung. Denn genau diese Information ist es, die Nachschlagende in der Regel interessiert. The ways in which the frame elements are expressed are what language-users need to know. The words used to express them are the important collocates of the keyword. (Atkins/ Rundell 2008, S. 149) Aspekte der Framesemantik boten daher für die Konzeption eine geeignete lexikologische Grundlage. 2.2 Erfahrungen mit dem Korpus und mit den Mitspielerkonstruktionen Die ersten redaktionellen Richtlinien wurden bereits anhand von Korpusuntersuchungen vor der eigentlichen Artikelarbeit zusammengestellt. Deshalb konnte sich das Inventar an Fragesets für die einzelnen Prädikatorenklassen, Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 55 die die Slots bzw. die semantischen Rollen abbilden sollen, an Verwendungen des authentischen sprachlichen Kontexts orientieren. Als Resultat konnte weitgehend beobachtet werden, dass insofern eine recht stringente Beziehung zwischen authentischem Sprachgebrauch und linguistischer Struktur vorlag, als dass sich die konzeptionellen Vorüberlegungen dazu, was jeweils abgebildet werden kann, weitgehend bewährt haben. Die während der vergangenen Jahre in der lexikografischen Praxis gesammelten Erfahrungen zeigen, dass ein framebasierter Ansatz die Möglichkeit zur systematischen und weniger subjektiven Korpusanalyse sicherstellt und dabei alle relevanten Komponenten eingeschlossen werden, wie auch Atkins/ Rundell (2008) festgestellt haben. Es wurde schnell deutlich, dass nicht mit einem fest kodifizierten Inventar an Rollenkategorien gearbeitet werden kann. Die Beobachtungen des tatsächlichen Sprachgebrauchs haben die ursprüngliche Entscheidung, die entsprechenden Mitspieler mithilfe von frei formulierbaren und damit anpassungsfähigen Fragen erfassbar zu machen, immer wieder bekräftigt. Ziel war es dabei, diese Angaben für Nachschlagende intuitiv erfassbar zu machen. Die redaktionellen Richtlinien, die bestimmte Fragen für jede einzelne Prädikatorenklasse enthalten, stellen keineswegs ein allumfassendes Anleitungsbuch dar. Sie dienen bei der Artikelarbeit in erster Linie als Orientierung, um daran zu erinnern, welche typischen Rollen prinzipiell zu erwarten sind, und ebenso als Checkliste, damit sichergestellt wird, dass die typischen lexikalischen Funktionen aus dem Korpus herausgefiltert werden. Die konkrete Analyse eines Ausdrucks im Gebrauch zeigt dann, welche davon kontextuell mit welcher Signifikanz realisiert sind bzw. was an Unerwartbarem hinzutritt. Nach wie vor gilt daher: Die LexikografInnen finden und formulieren die Fragen im Zuge einer Klassifikation der im Korpus ermittelten Kookkurrenzpartner. Dabei ergibt sich induktiv erwartungsgemäß ein Standardrepertoire an Fragen, das dem bekannten, lateinisch oder englisch benannten Kategorieninventar entspricht, das aber zugleich offen und flexibel gehalten werden kann und muss, um dem usuellen Gebrauch der Wörter im Korpus so nah wie möglich zu kommen. (Haß 2005b, S. 229) Diese Praxis hat sich sehr bewährt, das Inventar wurde kontinuierlich ausgebaut bzw. verfeinert. Auch wenn diese Wörterbuchangabe stärker semantisch ausgerichtet wurde, ermöglicht die Art der Frageformulierung das Einflechten syntaktischer Informationen. Beispielsweise werden durch den Einsatz von Fragewörtern wie wobei, womit, woraus indirekt Details zu erforderlichen Präpositionalanschlüssen eingeflochten. Annette Klosa / Petra Storjohann 56 Aus lexikologischer Sicht muss aber das Fazit gezogen werden, dass die theoretische Konzeption des Angabereiches der lexikalischen Mitspieler in der Praxis nicht vollständig tragfähig ist. In der Artikelarbeit wurde deutlich, wie stark bestimmte Kollokationen in semantisch-syntaktische Blöcke im Sinne einer Kolligationskonstruktion eingeordnet werden können. Die Analyse der lexikalischen Kombinationsmöglichkeiten für einen Ausdruck verdeutlichte dabei das enge Geflecht aus konzeptuellen Strukturen, semantisch-pragmatischen Rollen und syntaktischen Funktionen, die nicht voneinander losgelöst betrachtet werden können. Modelle, die die Trennung von semantischen und syntaktischen Strukturen und außersprachlicher Wissensrepräsentation aufheben, sollten bei der Überlegung, wie die Informationen zu lexikalischen Mitspielern lexikografisch in elexiko dokumentiert werden, eine größere Rolle spielen. Es wäre daher zu prüfen, ob elexiko in diesem Angabebereich zukünftig stärker an neuere Erkenntnisse der kognitiven Semantik anknüpfen sollte, wie sie etwa mit der Primingtheorie (vgl. Hoey 2005), der Pattern Grammar (vgl. Hunston/ Francis 2000) oder der Konstruktionstheorie (vgl. Goldberg 1995; Langacker 2000; Tomasello 2003) vorliegen. Obwohl die syntaktische Relation zwischen Stichwort und Mitspieler ursprünglich keine oder nur eine untergeordnete Rolle spielen sollte, zeigte sich im Laufe der lexikografischen Praxis immer deutlicher, dass die Trennung semantischer von syntaktischen Verwendungen kaum möglich ist und die Beschreibung der lexikalischen Mitspieler sowohl einer lexiko-semantischen wie auch einer lexiko-grammatischen Beschreibungsform bedarf. Das soll nicht heißen, dass zugrunde liegende Ideen der Frametheorie bzw. Vorstellungen über die Argumentstruktur eines Ausdrucks im Kontext hier nicht mehr relevant wären. Im Gegenteil: Aspekte der situationsbezogenen Wissensrepräsentation und der Aktivierung relevanter Wissensbereiche, die Repräsentation des Stereotypen und der Konvention, die beim Aufbau kommunikativer Frames eine Rolle spielen, spiegeln sich gerade in Diskursen der öffentlichen Sprache stark wider und kommen bei der Arbeit mit einem individuellen Artikel zum Vorschein (siehe dazu Abschnitt 3). Korpusanalysen zu Kollokationsstrukturen bestätigen, dass Sprachwissen und Situationswissen nicht unabhängig voneinander existieren. Diesem Umstand trug die ursprüngliche Konzeption nicht genügend Rechnung, weil damals nicht absehbar war, welcher Wortschatzauschnitt nach dem elexiko-Demonstrationswortschatz 7 bearbeitet werden würde. Dass das im Anschluss begonnene Lexikon zum öffentlichen Sprach- 7 Vgl. hierzu und zu anderen Bearbeitungsteilwortschätzen wie dem Lexikon zum öffentlichen Sprachgebrauch Abschnitt 3 der Einleitung in diesem Band. Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 57 gebrauch ausgeprägte diskursive Strukturen im Sinne der Kritischen Diskursanalyse aufweist, wurde erst im Zuge der Artikelbearbeitung deutlich. Genau dieser Wortschatzausschnitt ist stark geprägt von Stereotypen, Assoziationen und Weltwissen einer Sprechergemeinschaft, wie beispielsweise anhand von Diskursen rund um Ausdrücke wie Globalisierung oder Flexibilität aufscheint (siehe dazu Abschnitt 3.3). Die der Angabe der Mitspieler zugrunde liegenden theoretischen lexikologischen Gedanken wurden in Haß (2005b) skizziert. Eine ausführlichere semantisch-theoretische Diskussion erfolgte bis heute nicht. Das liegt vor allem daran, dass aus Zeitgründen für den Bereich der kontextuellen Mitspieler bzw. der unmittelbaren semantischen Umgebung derzeit keine die lexikografische Praxis begleitende lexikologische Forschung in elexiko durchgeführt wird, obwohl hierdurch entscheidende Rückkopplungseffekte auf die Artikelarbeit (und umgekehrt) zu erwarten wären. Möglicherweise bieten besonders gebrauchsorientierte Modelle der kognitiven Semantik, so genannte use-based models (vgl. Langacker 1988, 2000; Barlow/ Kemmer (Hg.) 2000; Bybee 1995; Tomasello 2003), geeignete theoretische Voraussetzungen zur lexikologischen Erklärung und Beschreibung von Mitspielerbzw. Kollokationsstrukturen, weil Konzepte wie type frequency, token frequency und entrenchment dem gebrauchsorientierten Ansatz der Korpuslinguistik und deshalb auch dem Vorgehen in elexiko gerecht werden könnten. Besonders Abschnitt 3 verdeutlicht, wie stark sprachliches Wissen aufgrund tatsächlicher Verwendung und aufgrund sich wiederholender Sprachereignisse (so genannter usage events) möglicherweise zu Generalisierungen konzeptueller Art führen kann, über die eine Sprachgemeinschaft verfügt bzw. die sie erlernt. Hier wäre es lohnenswert, künftig begleitende empirische Forschung durchzuführen, die mit Sicherheit auch Konsequenzen für die lexikografische Präsentation hätte. 3. Informationspotenzial der lexikalischen Mitspieler Da die Angaben zur semantischen Umgebung und den lexikalischen Mitspielern ausschließlich und ohne Umweg aus dem elexiko-Korpus 8 gewonnen werden, hängt ihr Informationspotenzial ganz direkt von der Zusammensetzung dieses Korpus (vgl. Storjohann 2005a) ab. Als zeitungssprachliches Korpus umfasst es eine Vielzahl an Texttypen (z. B. politische Meldungen, Amtstexte, Reiseberichte, Leserbriefe) und Textinhalten (z. B. Themen aus Wissenschaft, Politik, Sport, Verkehr, Wirtschaft). Zeitlich enthält es Texte 8 Zur Struktur des elexiko-Korpus und seiner Eignung für die lexikografischen Zwecke von elexiko vgl. Abschnitt 2 der Einleitung in diesem Band. Annette Klosa / Petra Storjohann 58 seit 1945 mit einem deutlichen Schwerpunkt auf den Jahrzehnten seit 1980 und in angemessenen Proportionen österreichische, Schweizer und deutsche Texte. Das Korpus vermag daher „die Grundgesamtheit der deutschen standardsprachlichen Gemeinsprache in angemessener Weise exemplarisch zu spiegeln“ (Storjohann 2005a, S. 58). Trotzdem wirkt sich die Korpuszusammensetzung gerade auf den Angabebereich der lexikalischen Mitspieler manchmal negativ aus, weil bestimmte Themen im (zeitungssprachlichen) Korpus so stark dominieren, dass das allgemein Erwartbare unterdrückt wird. Im Beispiel kritisieren in der Lesart ‘tadeln’ (vgl. Abb. 3) wird dies etwa bei den Antworten auf die Frage „Wer kritisiert etwas? “ und „Wer oder was wird kritisiert? “ deutlich. Abb. 3: Ausschnitt aus den lexikalischen Mitspielern im Wortartikel kritisieren, Lesart ‘tadeln’ Natürlich kritisieren im „normalen“ Leben nicht nur öffentliche Personen, vor allem Politiker, und es werden nicht nur politische Handlungen und Vorgänge kritisiert, sondern Lehrer kritisieren Schüler, Eltern kritisieren ihre Kinder, Frauen kritisieren ihre Männer usw. Die Handlung, die mit kritisieren bezeichnet wird, kann von jeder Art von menschlichem Agens an jeder Art von menschlichem Patiens vollzogen werden, was sich in der ganz allgemein formulierten Bedeutungserläuterung in elexiko widerspiegelt: „Mit kritisieren drücken Sprecher aus, dass sie mit einer Person(engruppe) [...] nicht einverstanden sind und diese explizit tadeln. Häufig drücken Sprecher mit kritisieren aus, dass sie eine Person(engruppe) [...] als falsch oder unzulänglich bewerten.“ Bei der lexikografischen Erarbeitung vieler Wortartikel im Lexikon zum öffentlichen Sprachgebrauch wird deshalb aus der unter Umständen großen Menge statistisch signifikanter Mitspieler für ein Set eine Auswahl getroffen, durch die gewisse thematische Dominanzen ausgeglichen werden können. Tabelle 1 zum Wortartikel Förderung, Lesart ‘Unterstützung’, bietet einen Einblick in dieses Vorgehen, indem hier statistisch signifikante Kookkurrenzpartner zu Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 59 Förderung im elexiko-Korpus der Auswahl im Wortartikel gegenübergestellt werden. In den Online-Artikelansichten wird mithilfe eines Kommentars dieses Vorgehen für die Nutzer transparent gemacht. Der entsprechende Kommentar im Wortartikel Förderung, Lesart ‘Unterstützung’ lautet etwa: „Im elexiko- Korpus werden viele verschiedene Antworten auf die Frage, wer Förderung betreibt, realisiert. Diese Mitspieler veranschaulichen einige Möglichkeiten.“ Kookkurrenzpartner zu Förderung aus dem elexiko-Korpus Wortartikel Förderung, Lesart ‘Unterstützung’ Arbeitsamt Bund Fonds Gesellschaft Initiative Kartell Land Land Lehrer Lehrer Organisation Organisation Projekt Schule Schule Stiftung Verein Verein Vereinigung Tab. 1: Vergleich zwischen Mitspielerangaben und Kookkurrenzpartnern zu Förderung, Lesart ‘Unterstützung’ Kommentare werden aber auch dann eingesetzt, wenn bestimmte Frage-/ Mitspieler-Sets nur exemplarisch redaktionell gefüllt werden können, die Angaben also über das korpusbasierte Verfahren gewonnen wurden, weil es keine statistisch signifikanten Mitspieler im Korpus gibt, die im Gegensatz dazu mit der korpusgesteuerten Methode 9 der Kollokationsanalyse erfasst werden. 10 Bei Verben kann dies beispielsweise daran liegen, dass sie in bestimmten Les- 9 Zur korpusbasierten bzw. korpusgesteuerten Methode in elexiko vgl. Abschnitt 3 der Einleitung in diesem Band. 10 Zu weiteren Beispielen für die Verwendung von Kommentaren in diesem Angabebereich vgl. Haß (2005b, S. 232f.). Annette Klosa / Petra Storjohann 60 arten fast ausschließlich in Passivkonstruktionen im Korpus verwendet werden. Sind diese Verben aber Handlungsprädikatoren, soll es laut redaktioneller Vorgabe ein Set dazu geben, wer diese Handlung ausführt. 11 Das Beispiel aufrufen, Lesart ‘nennen’ in Abbildung 4 verdeutlicht, wie der Rückbezug auf das Korpus auch unter Einbezug eines Textbelegs für die Nutzer online sichtbar gemacht wird. Abb. 4: Kommentar zum Mitspielerset im Wortartikel aufrufen, Lesart ‘tadeln’ 3.1 Enzyklopädische Informationen und Weltwissen Dass die Mitspieler zu einem Stichwort nicht nur semantische Informationen, sondern auch zugleich eine Menge an enzyklopädischer Information liefern, zeigte sich im Zuge der Erarbeitung des Lexikons zum öffentlichen Sprachgebrauch immer wieder. Daneben wird über die Mitspielerangaben in zahlreichen Wortartikeln auch Weltwissen, das mit diesem Lexem verbunden ist, transportiert, denn es gilt: „Die Grenze zwischen Sprach- und Weltwissen, die [...] ohnehin nicht eindeutig festgelegt werden kann [...], wird hier aufgehoben“ (Wegner 1989, S. 894). Im Stichwort Akte, Lesart ‘Sammlung von Schriftstücken’ (vgl. Abb. 5) erfährt man beispielsweise über die Angaben zur Rolle ‘Besitzer einer Akte’, dass Akten ganz allgemein im Besitz von Behörden 12 usw. sind, aber auch z. B. im Besitz der Gauck-Behörde oder der Bundesanwaltschaft. Mithilfe der Angaben zur Rolle ‘Aufbewahrungsort von Akten’ wird deutlich, dass Akten in Büros, in Kartons und auf Tischen usw. aufbewahrt werden. 11 Zum Standardrepertoire von Fragen zu jeder semantischen Klasse in elexiko vgl. Haß (2005b, S. 229). Zu den satzsemantischen Klassen in elexiko vgl. Haß (2005a). 12 Dieses Mitspielerwort und alle weiteren Mitspieler, die aus dem entsprechenden elexiko- Wortartikel stammen, werden hier kursiv hervorgehoben. Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 61 Abb. 5: Ausschnitt aus den lexikalischen Mitspielern im Wortartikel Akte, Lesart ‘Sammlung von Schriftstücken’ Mit Akte bezeichnet man im Deutschen und mit Bezug auf die versprachlichte Realität eine „Sammlung von Schriftstücken, die gebündelt z. B. Dokumente, Urkunden [...] enthält“ (so die Bedeutungserläuterung in elexiko), also eine Zusammenstellung verschiedener dinglicher Schriftstücke. Welche diese typischerweise sind, erfährt man unter der Frage „Was enthält eine Akte? “ (Brief, Dokument usw.). Dass ein Zuviel an Akten offensichtlich von Sprechern im elexiko-Korpus negativ bewertet wird, verdeutlichen die Mengenbeschreibungen wie meterweise oder stapelweise. Dass dicke Akten mühsam zu sichten oder zu bearbeiten, ja sogar zu wälzen sind, wirkt sich so aus, dass Akten unbearbeitet und unerledigt bleiben. Und dass Akten zwar offensichtlich angelegt werden, um Dokumente auf längere Sicht aufzubewahren, bedeutet nicht, dass sie in der Wirklichkeit nicht doch manipuliert, geschwärzt, vernichtet werden oder verschwinden. Was dieses Beispiel neben vielen anderen Mitspielerangaben in Wortartikeln des Lexikons zum öffentlichen Sprachgebrauch zeigt, ist also eigentlich „eine situationsbezogene Repräsentation semantischen Wissens“ (Wegner 1989, Annette Klosa / Petra Storjohann 62 S. 894) bzw. der Strukturen des mentalen Lexikons. Versteht man die Mitspielerangaben als Repräsentation von Frames, ist Wegner (Wegner 1989, S. 896) zuzustimmen: „[Die Frames] enthalten die Komponenten, die in natürliche lexikographische Paraphrasen einzugehen haben, d. h. sie sind der Konstruktion von lexikalischen Paraphrasen forschungslogisch vorgeordnet.“ Allerdings können in der Praxis nicht alle Komponenten eines Frames in die Bedeutungserläuterung eingehen, wie das Beispiel Café verdeutlicht. In der Paraphrase im Wortartikel Café wird erklärt, dass Personen eine solche gastronomische Einrichtung besuchen, um dort etwas (meist Kaffee) gegen Bezahlung zu verzehren. Damit ist die Bedeutung des Lexems Café vollständig beschrieben. Die Mitspielerangaben in diesem Wortartikel (vgl. Abb. 6) erweitern dagegen diese Kernbedeutung von Café um typische Kontexte. Hier erfährt man, dass ein Café auch als Veranstaltungsort oder Treffpunkt genutzt wird (es werden also weitere, aber für das Konzept ‘Café’ periphere Zwecke erwähnt). Andere Personen, die das Konzept ‘Café’ mit Leben erfüllen (nämlich im Café arbeitende Menschen), werden genannt. Dass ein Café ein Ort ist, der mit bestimmten Gegenständen eingerichtet ist und den man hinsichtlich seines Aussehens charakterisieren kann, muss in der Bedeutungserläuterung nicht erwähnt werden, da solche Angaben sowieso eher zum übergeordneten Konzept ‘Einrichtung’ im Allgemeinen bzw. hier zum engeren Konzept der ‘gastronomischen Einrichtung’ gehören. Abb. 6: Mitspielerangaben im Wortartikel Café, Lesart ‘gastronomische Einrichtung’ Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 63 3.2 Stereotype Dass die Angaben zur semantischen Umgebung und den lexikalischen Mitspielern nicht nur ganz allgemein „Interessantes über Wörter und Wortschatz“ (Haß 2005b, S. 227) transportieren, sondern auch Stereotype wiedergeben, zeigt sich deutlich, wenn man die Wortartikel zu Personenbezeichnungen wie Mann (Lesart ‘erwachsene männliche Person’) und Frau (Lesart ‘erwachsene weibliche Person’) miteinander vergleicht. In Tabelle 2 werden hierfür zunächst die Antworten auf die Frage „Wie ist ein Mann? “ bzw. „Wie ist eine Frau? “ in beiden Wortartikeln einander gegenübergestellt. Wie ist eine Frau? Wie ist ein Mann? Bei Frau und Mann agil arm alt alleinerziehend bärtig deutsch alleinstehend betrunken heterosexuell arbeitslos bewaffnet jung behindert gefragt nackt berufstätig groß schön betroffen klein stark blond mächtig unbekannt emanzipiert maskiert engagiert muskulös evangelisch reich geschieden schmächtig hässlich schwul hochschwanger tot hübsch verdächtig katholisch vermummt kinderlos vorbestraft kompetent krank ledig lesbisch muslimisch mutig Annette Klosa / Petra Storjohann 64 Wie ist eine Frau? Wie ist ein Mann? Bei Frau und Mann resolut schwanger türkisch unverheiratet verschleiert zierlich Tab. 2: Adjektivische Mitspieler im Wortartikel Frau, Lesart ‘erwachsene weibliche Person’, und Mann, Lesart ‘erwachsene männliche Person’ Es springt sofort ins Auge, dass es offensichtlich deutlich mehr Adjektivattribute zur Bezeichnung Frau als zur Bezeichnung Mann gibt. Während bei Mann Adjektive, die das äußerliche Erscheinungsbild betreffen (z. B. bärtig, groß, muskulös), dominieren, fällt bei Frau auf, dass hier relativ häufig auf den gesellschaftlichen Status der bezeichneten Person Bezug genommen wird (z. B. alleinerziehend, arbeitslos, berufstätig, geschieden, unverheiratet). Solche Charakterisierungen fehlen bezogen auf Männer praktisch völlig. 13 Dafür zeigen Adjektive wie bewaffnet, maskiert, verdächtig, vermummt, die nur im Wortartikel Mann erscheinen, wie sich auch hier wieder das zeitungssprachliche elexiko-Korpus, das naturgemäß relativ viel Berichterstattung über Kriminalität bzw. militärische Einsätze enthält, auswirkt. Auf der anderen Seite spiegelt es aber auch die gesellschaftliche Realität, dass Männer häufiger kriminell werden als Frauen. 14 Interessant ist auch ein Vergleich der Mitspielersets als Ganzes, der in Tabelle 3 vorgenommen wird. Während bestimmte Fragen sowohl für Frau wie für Mann beantwortet werden können, werden die mithilfe der statistischen Kollokationsanalyse ermittelten weiteren Mitspielerwörter aus dem Korpus für Frau bzw. Mann auf völlig unterschiedliche Sets aufgeteilt. Männer werden in den Texten des Korpus (und damit auch in den Köpfen der Sprecher und Schreiber) offensichtlich (auch) dadurch charakterisiert, dass sie etwas besitzen (z. B. Auto), Frauen dagegen werden dadurch charakterisiert, dass sie spezieller Unterstützung oder Angebote bedürfen (z. B. Beratung, Selbstverteidigung). Hervorhebenswert, und deshalb hier sogar in einem eigenen Mitspielerset verbucht, scheint auch (immer noch) zu sein, dass Frauen bestimmte Funktionen übernehmen können (z. B. Bundespräsidentin, Senatorin). 13 Dieses Bild im Korpus stimmt mit der Darstellung in gedruckten Wörterbüchern zum Gegenwartsdeutschen weitgehend überein (vgl. hierzu näher Nübling 2009, z. B. S. 616). 14 Vgl. hierzu die polizeilichen Kriminalstatistiken unter www.bka.de . Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 65 Gemeinsame Sets Fragesets in Frau Fragesets in Mann Wie ist eine Frau/ ein Mann? Wodurch werden Frauen gefördert? Was hat ein Mann? Was macht eine Frau/ ein Mann? Was gibt es speziell für Frauen? Was geschieht mit einer Frau/ einem Mann? Welche Funktionen können Frauen übernehmen? Was wird im Zusammenhang mit Frau/ Mann thematisiert? Tab. 3: Vergleich der Mitspielersets in den Wortartikeln Frau, Lesart ‘erwachsene weibliche Person’ und Mann, Lesart ‘erwachsene männliche Person’ 3.3 Diskurse Schon bei der Erarbeitung des elexiko-Demonstrationswortschatzes war erkannt worden, dass diskursive Rollen zu berücksichtigen sind, die „typischerweise bei der Frage ‘Was wird im Zusammenhang mit X thematisiert? ’“ (Haß 2005b, S. 229) in den Wortartikel eingeordnet werden. Unter einem Diskurs wird hier ein öffentlicher themenkohärenter, kommunikativer Akt [verstanden], der von einer oder mehreren Gruppen von Diskursbeteiligten realisiert wird, der in unterschiedlichen textuellen Mustern und kommunikativen Praktiken repräsentiert ist und der sich insbesondere in einem diskurstypischen bzw. diskursrelevanten Vokabular verdichtet. 15 Dass öffentliche Diskurse in den Zeitungstexten des elexiko-Korpus ihren Niederschlag finden, ist aufgrund der Zusammensetzung zu erwarten. Und dass wiederum die Angaben zur semantischen Umgebung und den lexikalischen Mitspielern eine der Stellen in den elexiko-Wortartikeln sind, an der das diskursrelevante Vokabular öffentlicher Debatten erfasst wird, versteht sich von selbst. 16 Ein typisches Beispiel sind etwa die Mitspielerangaben zum Stichwort Kampf in der Lesart ‘Gefecht’ (vgl. Abb. 7). 17 Im Diskursvokabular rund 15 Vgl. die Projektseiten des Diskurswörterbuchs 1945-55 (2007) unter www.owid.de . 16 Diskursrelevantes Vokabular kann auch bei den paradigmatischen Partnern, und zwar besonders bei den inkompatiblen (vgl. Storjohann 2007), zu finden sein. Diskursangaben stehen daneben im Angabebereich „Besonderheiten des Gebrauchs“ (vgl. hierzu den Beitrag „‘Themengebundene Verwendung(en)’ als neuer Angabetyp unter der Rubrik ‘Besonderheiten des Gebrauchs’“ von Ulrich Schnörch in diesem Band). 17 Zu weiteren Beispielen vgl. Abschnitt 2.2. Annette Klosa / Petra Storjohann 66 um Kampf in dieser Lesart sind folgende Bezeichnungen enthalten: für diejenigen, die den Kampf führen (z. B. Armee, Feind, Milizen), Verben, die bezeichnen, was der Kampf macht (z. B. abflauen, sich verschärfen), und Verben, die bezeichnen, was man mit einem Kampf macht (z. B. fortsetzen, gewinnen), Adjektive, die den Kampf charakterisieren (z. B. aussichtslos, hart, ungleich) und schließlich Eigennamen, die Orte, an denen der Kampf stattfindet, bezeichnen (z. B. Afghanistan, Grosny). Für den Diskurs rund um Kämpfe (in der Lesart ‘Gefecht’) ist aber nicht nur eine Rolle, die auch syntaktisch als Agens interpretiert werden könnte (Frage „Wer führt einen Kampf? “) von Bedeutung, sondern es gehören eben auch Wörter zum Diskursvokabular, die im Wortartikel Kampf, Lesart ‘Gefecht’ als Antworten auf die Frage „Was wird zu Kampf thematisiert? “ erscheinen, und zwar Front, Tote und Waffe. Abb. 7: Mitspielerangaben im Wortartikel Kampf, Lesart ‘Gefecht’ Im Wortartikel Abgeordnete, Lesart ‘Vertreterin’ verweisen beispielsweise die Mitspielerwörter Diäten, Eid und Verhaltensregeln (auf die Frage „Was wird in Zusammenhang mit Abgeordnete thematisiert? “) auf einen anderen Diskurs. Bei der maskulinen Form Abgeordneter, Lesart ‘Vertreter’, wird die entsprechende Frage mit Altersvorsorge, Beifall, Bezüge, Einkünfte, Gesetz, Legislaturperiode, Nebeneinkünfte, Nebentätigkeit und Parteiaustritt noch Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 67 umfänglicher beantwortet. Ganz offensichtlich gibt es einen öffentlichen Diskurs rund um Abgeordnete und ihre Entlohnung und um einen Verhaltenskodex, der Nebentätigkeiten und daraus resultierende Einkünfte der Abgeordneten regelt. Vergleicht man die Mitspielerangaben in Wortartikeln zu männlichen und weiblichen Personenbezeichnungen, werden nicht nur Stereotype deutlich (vgl. Abschnitt 3.2), sondern ggf. feine Unterschiede im diskurskonstituierenden Vokabular. So erscheinen in den Wortartikeln zu den entsprechenden Stichwörtern sehr unterschiedliche Mitspieler im Set „Was wird im Zusammenhang mit Bundeskanzler/ Kanzler bzw. Bundeskanzlerin/ Kanzlerin thematisiert? “. Neben den zahlreichen Mitspielern, die das politische Tagesgeschäft charakterisieren, wie Haushaltsdebatte, Kabinettssitzung, Reformpolitik, Steuerreform, die bei allen Bezeichnungen für einen Regierungsleiter/ eine Regierungsleiterin gleichermaßen vorkommen (vgl. Tabelle 4), treten im Wortartikel Bundeskanzlerin/ Kanzlerin weitere Mitspieler wie Führungsschwäche, Führungsstärke etc. auf. Bundeskanzler/ Kanzler Bundeskanzlerin/ Kanzlerin Loyalität Führungsschwäche Richtlinienkompetenz Führungsstärke Rückendeckung Kritik Vertrauensfrage Machtbasis [...] Machtwort Richtlinienkompetenz Umfragewerte [...] Tab. 4: Vergleich der Mitspielersets zur Thematisierung aus den Wortartikeln Bundeskanzler/ Kanzler, Lesarten ‘Regierungsleiter’ bzw. ‘männlicher Regierungsleiter’, und Bundeskanzlerin/ Kanzlerin, Lesarten ‘Regierungsleiterin’ Aufgabe des Lexikografen ist es nur, solche Unterschiede zu erfassen und mittels der lexikografischen Angaben zu beschreiben, ihre Interpretation muss dem Wörterbuchbenutzer überlassen werden. 18 Festzuhalten bleibt aber, dass die männlichen und die weiblichen Bezeichnungen durchaus eine unterschied- 18 In einem Diskurswörterbuch (vgl. Diskurswörterbuch 1945-55 (2007)) liegt der Fall allerdings anders: Hier erfasst der Lexikograf das Diskursvokabular nicht nur, sondern beschreibt das relevante, einen Diskurs konstituierende und realisierende Vokabular nach spezifischen lexikografischen Prinzipien genauer. Annette Klosa / Petra Storjohann 68 liche semantische Umgebung aufweisen und dass also auch die Diskurse über männliche bzw. weibliche Regierungsleiter mit leicht unterschiedlichem Vokabular realisiert werden. 3.4 Fazit Das Informationspotenzial der Angaben zu den lexikalischen Mitspielern ist, wie anhand der Beispiele gezeigt wurde, hoch: Sie vermitteln enzyklopädische Informationen und Sachwissen, informieren über Stereotype und gewähren Einblick in Diskurse und ihren Wortschatz. Dabei hat sich die Entscheidung bewährt, die lexikalischen Mitspieler in unterschiedlichen semantischen Typen (Argumenten) anzuordnen und nicht z. B. ausschließlich nach ihrer Wortart. Wie in Hanks (2008, S. 102) gefordert, entscheidet also der semantische Typ eines Kollokators darüber, unter welcher Frage er im Angabebereich „Semantische Umgebung und lexikalische Mitspieler“ erscheint. Das in elexiko angewandte Verfahren ist darüber hinaus „pattern-driven“ und nicht „meaningdriven“ (vgl. ebd., S. 109), sodass Kollokatoren mit vergleichbarem Muster, anders als beispielsweise im COBUILD -Wörterbuch, unter der gleichen Frage erscheinen: Cobuild is also ‘corpus-driven’. Patterns are discovered through corpus analysis. It is therefore disappointing to have to note that, in terms of the distinction being made in this paper, the entry structure [of the entry propose] of Cobuild is meaning-driven rather than pattern-driven. Proposing an idea and proposing a theory, for example, are treated as separate senses. If the compilers had focused on patterns rather than senses, this dubious semantic distinction might have been treated as a single pattern. (Hanks 2008, S. 109). Dies führt unter anderem auch dazu, dass die vorgenommene Disambiguierung der Lesarten eines polysemen Stichworts anhand der Fragesets und der Eingruppierung der lexikalischen Mitspieler überprüft werden kann. 4. Verknüpfung mit und Abgrenzung zu anderen Angabebereichen Wie alle anderen Angabebereiche in elexiko, so sind auch die Informationen zur semantischen Umgebung und den lexikalischen Mitspielern in vielfältiger Weise mit anderen Angabebereichen innerhalb der Wortartikel vernetzt. Am Beispiel Café, Lesart ‘gastronomische Einrichtung’ ist unter Abschnitt 3.1 schon auf die Verbindung zur Paraphrase hingewiesen worden 19 und unter 3.3 19 Zur weiteren Vernetzung der Angaben zur semantischen Umgebung und den lexikalischen Mitspielern vgl. den Beitrag „Die semantische Paraphrase in elexiko“ von Antje Töpel in diesem Band. Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 69 wurde auf die Beziehung zwischen den Mitspielerangaben und den thematischen Informationen unter den „Besonderheiten des Gebrauchs“ verwiesen. Am Beispiel Café (vgl. Abb. 8) wird auch deutlich, dass die Angaben zu den typischen Verwendungen eng mit den Mitspielerangaben verbunden sind. 20 Im Typ „Café mit Attribut“ werden die adjektivischen Mitspielerwörter auf die Frage „Wie ist ein Café? “ aufgenommen (z. B. gemütlich), im Typ „Café in Verbalphrasen und Sätzen“ zeigen sich Antwortwörter auf die Frage „Was geschieht in einem bzw. mit einem Café? “ (z. B. stattfinden, eröffnen), aber auch solche auf die Frage „Was verzehrt man im Café? “ (z. B. Espresso, Torte), und im Typ „Café als Attribut“ sind Antworten auf die Fragen „Was gehört zu einem Café? “ (z. B. Terrasse) bzw. „Wer arbeitet im Café bzw. wer hält sich dort auf? “ (z. B. Gäste) verzeichnet. Abb. 8: Typische Verwendungen im Wortartikel Café, Lesart ‘gastronomische Einrichtung’ Die Angaben im Bereich der sinn- und sachverwandten Wörter verhalten sich dagegen eher komplementär zu den Angaben unter der Rubrik der lexikalischen Mitspieler: Beide Angabebereiche bilden zwei unterschiedliche Arten von semantischen Netzen (vgl. Abschnitt 1). Im Wortartikel Café, Lesart 20 Zu weiteren Beispielen vgl. den Beitrag „Die typischen Verwendungen in elexiko“ von Christine Möhrs in diesem Band. Annette Klosa / Petra Storjohann 70 ‘gastronomische Einrichtung’ werden dem Stichwort die in Abbildung 9 gezeigten paradigmatischen Relationspartner zugewiesen, von denen keiner bei den Mitspielerangaben erscheint. Ein Teil der inkompatiblen Partner wird dagegen innerhalb der typischen Verwendungen im Typ „Sonstige Verwendungen“ in Paarformeln wie Bars und Cafés, Café und Bistro gezeigt. Abb. 9: Paradigmatische Partner im Wortartikel Café, Lesart ‘gastronomische Einrichtung’ Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 71 Bei der Sichtung der Listen zu den Kookkurrenzpartnern, die mithilfe des Korpustools „Statistische Kollokationsanalyse und -clustering“ (Belica 1995) erstellt werden, besteht eine Aufgabe der Lexikografen darin, die einzelnen Partner entweder den paradigmatischen Sinnrelationen (in Abb. 10 durch graue Pfeile markiert) oder den Angaben zu den lexikalischen Mitspielern und der semantischen Umgebung (in Abb. 10 durch weiße Pfeile markiert) zuzuordnen. Abb. 10: Paradigmatische Partner (markiert durch graue Pfeile) und lexikalische Mitspieler (markiert durch weiße Pfeile) in der Kookkurrenzanalyse (Ausschnitt zu Café) 5. Überlegungen zu Präsentations- und Recherchemöglichkeiten Zurzeit werden die Angaben zur semantischen Umgebung und den lexikalischen Mitspielern in den Online-Artikelansichten in Sets aus jeweils einer Frage und den zugehörigen Mitspielern in alphabetisch sortierter Listenform angeboten. Dabei erscheint nur das erste Frage-Antwort-Set schon geöffnet, alle anderen Sets sind zunächst nur durch ihre Frage repräsentiert, die durch Klicken ebenfalls um die zugehörigen Antwortwörter erweitert werden kann. Annette Klosa / Petra Storjohann 72 Die Reihenfolge der Sets im Wortartikel ist redaktionell weitgehend festgelegt und abhängig von der Prädikatorenklasse der jeweiligen Lesart. 21 So erscheint z. B. bei Individuativa zunächst ein Set „Wie ist X? “, weil bei Individuativa die Charakterisierung mittels Adjektiven in der Regel am deutlichsten in den Kontexten hervortritt. Verschiedene andere Präsentationsmöglichkeiten sind denkbar, die idealerweise nach Nutzerinteresse individuell einstellbar sein sollten: Alle Sets sind sofort geöffnet. Alle Sets sind zunächst geschlossen. Die Auflistung der Mitspielerwörter innerhalb eines Sets erfolgt nicht alphabetisch, sondern nach Frequenz im elexiko-Korpus. Die Mitspielerwörter erscheinen nicht in Listenform, sondern in einem netzartigen Graphen, in dessen Zentrum das Stichwort steht. Durch Klicken auf eine Frage öffnen sich die zugehörigen Mitspieler (vgl. Abb. 11). Abb. 11: Mitspielerangaben im Wortartikel Café, Lesart ‘gastronomische Einrichtung’ in einer möglichen netzartigen Präsentationsform Neben anderen Präsentationsformen sind auch erweiterte Suchmöglichkeiten für den Angabebereich der semantischen Umgebung und der lexikalischen Mitspieler zu überlegen. Grundsätzlich könnte eine Abfrage nach allen Lesarten oder Lesartenspezifierungen in bestimmten Stichwörtern interessant sein, in denen dieser Angabebereich nicht ausgefüllt ist. Es handelt sich hierbei z. B. um im elexiko-Korpus sehr niedrig frequente Lesarten oder Lesartenspezifi- 21 Zu den Prädikatorenklassen in elexiko vgl. Haß (2005a); die Reihenfolge der Fragen pro Prädikatorenklasse ist im elexiko-Redaktionshandbuch (vgl. Abschnitt 2 der Einleitung in diesem Band) festgehalten. - - - - Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 73 zierungen, bei denen aus den wenigen Textbelegen keine lexikalischen Mitspieler ermittelt werden konnten (z. B. Wortartikel Arbeit, Lesart ‘Werk’, Spezifizierung ‘schriftliche Prüfung’). Von Interesse könnte auch eine Volltextsuche über die lexikalischen Mitspieler sein. Ein Benutzer könnte z. B. das Wort Gast in elexiko nachschlagen. Dieses Stichwort ist derzeit noch mit automatischen Belegen versehen, aus denen u. a. ermittelt werden kann, dass es bei einem Sommerfest Gäste gibt. Will der Nutzer mehr darüber erfahren, wo es überall Gäste geben kann, könnte dies über eine Suche in den Mitspielerangaben der redaktionell bearbeiteten Wortartikel geschehen. Eine solche Recherche würde Treffer in den Wortartikeln Café, Hotel und Restaurant liefern, wo Gast jeweils als Mitspieler unter der Frage „Wer hält sich in einem Café/ Hotel/ Restaurant auf? “ verzeichnet ist. Die Umsetzung einer auf bestimmte Angabebereiche beschränkten Volltextsuche ist allgemein wünschenswert und soll mittelfristig realisiert werden. 6. elexiko als Kollokationswörterbuch Ob für die Beschreibung von Verwendungsweisen, zur Disambiguierung eines Stichwortes oder zum Erlernen von lexikalisch-syntagmatischen Kombinationsmöglichkeiten, Kollokationen spielen sowohl für die Linguistik als auch für den Fremdsprachenerwerb eine große Rolle. Um so erstaunlicher ist, dass es bis dato für das Deutsche kein Kollokationswörterbuch, wie etwa das OCD (Oxford Collocation Dictionary) oder das BBI ( Dictionary of English Word Combination) für das Englische, 22 gibt, obwohl inzwischen umfangreiche Korpora zur Verfügung stehen, aus denen mit entsprechenden Werkzeugen Kollokationen, geordnet nach statistischer Signifikanz, ermittelt werden können. 23 Aber warum braucht man ein Kollokationswörterbuch, wenn Computerwerkzeuge Kollokationen aus umfangreichen Korpora ermitteln können? 24 Kollokationen werden in elexiko als typisches lexikalisches Miteinandervorkommen in gemeinsamen Kontexten verstanden. Es handelt sich in Anlehnung an Sinclair (1991) um semantisch transparente binäre Wortkombinationen, die vor allem auf der Basis des „Open Choice Principle“ miteinander auftauchen. Das heißt, dass die kombinatorischen Möglichkeiten und nicht die in idio- 22 Für einen Vergleich englischer Kollokationswörterbücher siehe Nuccorini (2003) und Herbst/ Klotz (2009). 23 Ein deutsches Kollokationswörterbuch ist von Uwe Quasthoff bei de Gruyter für das Jahr 2010 angekündigt. 24 Zu Kookkurrenzen und Kollokationen in diversen deutschen Wörterbüchern und den Möglichkeiten korpusgeleiteter Arbeit für die lexikografische Dokumentation siehe Steyer (2008). Annette Klosa / Petra Storjohann 74 matisch-phraseologischer Hinsicht festen Verknüpfungen im Vordergrund stehen. In elexiko stellen also die Informationen zur semantischen Umgebung und ihren lexikalischen Mitspielern im weitesten Sinne eine Angabe zum allgemeinen Kollokationsprofil eines Stichworts dar. Dokumentiert werden wichtige und vor allem typische Kollokatoren, die für frequente Stichwörter und für typische Kontexte über das korpusgesteuerte Verfahren gewonnen werden. Der Vorteil eines Wörterbuchs wie elexiko gegenüber einer rein korpusgesteuerten Kollokationsanalyse liegt besonders in der interpretatorischen Aufschlüsselung der Kollokationen und der Zuordnung einzelner Partnerwörter zu Lesarten und auch zu entsprechenden syntagmatischen Funktionen (semantischen Rollen), die ein kontextuelles Partnerwort bei gemeinsamen Auftreten mit dem Suchbzw. Stichwort aufweist. Korpuswerkzeuge, die eine Kollokationsanalyse durchführen, liefern dagegen nur lemmabasierte Kookkurrenzen, die für elexiko zunächst der systematische Zugang zum Stichwort allgemein sind, da sie einen wichtigen Beitrag zur Verwendung und damit zur Bedeutung eines Ausdrucks leisten. Darüber hinaus erlauben die Ergebnisse solcher computergestützten Verfahren wichtige Einschätzungen zum Grad der Signifikanz einer lexikalischen Kombination. Der Angabebereich „Semantische Umgebung und lexikalische Mitspieler“ in elexiko ist kein Kollokationswörterbuch strikt nach englischem Vorbild, denn er konzentriert sich stärker auf die semantischen und weniger auf die syntaktischen Zusammenhänge zwischen binären Strukturen. Ähnlich wie das OCD listet elexiko für jedes Stichwort systematisch Kollokationsmitspieler auf, im OCD syntaktisch gruppiert nach Wortarten, in elexiko geordnet nach semantischen Funktionen, was in der Regel auch mit einer Gruppierung nach Wortarten einhergeht. Der Hauptzweck eines Kollokationswörterbuchs wird im OCD anhand eines Beispiels wie folgt erklärt: Pollution is a problem, but what needs to be done about it? Looking up the entry for pollution in the Oxford Collocations Dictionary and skimming down the verbs section offers a choice of avoid/ prevent/ combat/ control/ fight/ tackle, cut/ limit/ minimize/ reduce or monitor. With the back-up help of a good monolingual learner's dictionary if need be, the student can choose the most appropriate verb, the one that expresses most exactly what she wants to say. ( OCD , Introduction, S. VII) Auch im Angabebereich „Semantische Umgebung und lexikalische Mitspieler“ in elexiko können solche Fragen beantwortet werden, z. B. für das Stichwort Umwelt in der Lesart ‘Lebensraum’: „Was macht man mit der Umwelt? “. Die entsprechenden Verben aus dem Korpus sind belasten, entlasten, schonen, schützen, verpesten, verschmutzen, zerstören. Sie sind zwar nicht explizit für Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 75 Nutzer als Verben markiert, aber die übergeordnete Frage, die in Zusammenhang mit den verbalen Mitspielern in elexiko erscheint („Was macht man mit der Umwelt? “), impliziert die Forderung nach Verben bzw. Nominalisierungen aus Verben für die Beantwortung der Frage. Mit dieser Frageformulierung, die für die Nutzer immer sichtbar ist, soll auf den semantischen Gehalt des Kollokators und ebenso auf seine semantische Beziehung zum Stichwort hingedeutet werden. Hier geht elexiko also einen anderen Weg als das OCD . Ähnlich wie im OCD besitzen die aufgenommenen Kollokatoren einen unterschiedlichen Grad an Idiomatizität und Bindungsfestigkeit, womit eine Bandbreite an Wortverbindungen abgedeckt werden soll. Die Angabe schließt sehr lose und semantisch vollständig durchsichtige Assoziationen (z. B. ein Zimmer aufräumen) bis hin zu festeren Bindungen wie etwa einen Beruf ausüben, Beifall ernten ein. Damit vertritt elexiko einen Beschreibungsansatz, der an das Sinclair'sche Verständnis von Kollokationen anknüpft (vgl. Sinclair 1991). 25 Während im OCD genau markiert ist, welche kontextuelle Position ein Kollokator zusammen mit dem Stichwort einnimmt, ob er also vor dem Stichwort erscheint oder ihm im Kontext folgt, muss diese Information anhand der gestellten Frage erkannt werden, also etwa ob im Zusammenhang mit einem Verb nach einem Subjekt bzw. einen Objekt gefragt wird. Anhand der Fragestellung ist auch erkennbar, ob das Objekt etwa ein Dativ- oder ein Akkusativobjekt ist (siehe Beispiel vorschlagen ‘empfehlen’ in Abb. 12). Abb. 12: Subjekt- und Objektkollokatoren des Stichwortes vorschlagen, Lesart ‘empfehlen’ 25 Die Anlehnung an das Sinclair'sche Konzept ist für elexiko aus zwei Gründen sehr vorteilhaft: Der englischen Kollokationslexikografie (z. B. dem OCD ) liegt ebenfalls ein loseres Verständnis zugrunde, sodass, abgesehen von der Adressatengruppe und der entsprechenden Aufbereitung der Informationen, die elexiko-Angaben durchaus vergleichbar mit einem englischen Kollokationswörterbuch sind. Darüber hinaus sind ebenfalls zahlreiche korpuslinguistische Grundlagen und Annahmen in elexiko konzeptuell eingeflossen, die auf dem Sinclair'schen Ansatz beruhen. Dies hat zur Folge, dass bei der Erarbeitung eines Wörterbuchartikels mit einem relativ homogenen korpuslinguistisch-methodologischen Verfahren vorgegangen werden kann. Annette Klosa / Petra Storjohann 76 Die explizite Angabe von Präpositionen mit konkreten Textbeispielen im OCD ist besonders im Sinne eines Fremdsprachenlernenden. Da die Angabe der kontextuellen Mitspieler in elexiko stärker semantisch ausgerichtet ist und sich auch nicht primär an Deutschlernende richtet, sind Präpositionalanschlüsse ausschließlich im Angabebereich der Grammatik angesiedelt. Die Beziehung zwischen Stichwort und Kollokatoren, die durch eine Präposition miteinander verbunden sind, wird aber in elexiko, anders als im OCD , gebucht. Die verbindende Präposition wird dabei in der Fragestellung durch Fragewörter wie etwa wobei, worauf, woraus, wofür, womit, wozu etc. aufgenommen. Der folgende Vergleich soll das verdeutlichen. Im OCD erscheint unter dem verbalen Eintrag support in der Lesart ‘help/ encourage/ agree with sb/ sth’ unter der Präpositionalgruppe folgendes Detail (S. 773): PREP : in Very few countries supported the United States in its action. Jeder individuellen Präposition folgt im OCD ein konkretes Korpusbeispiel. Dieses demonstriert exemplarisch, was nach der Präposition an Kontext möglich ist. In elexiko dagegen werden die Positionen nach der Präposition ermittelt und mit usuellen Kollokatoren angegeben. Die Mitspieler, die in Konstruktionen wie jemand unterstützt jemanden bei/ mit X in der Position X ihren Platz einnehmen, werden in elexiko demzufolge ebenso berücksichtigt, weil die konkreten lexikalischen Realisierungen hier eine wichtige semantische Rolle beim Verb einnehmen (vgl. Abb. 13). Abb. 13: Präpositionalanschlüsse in Frageformulierungen beim Stichwort unterstützen, Lesart ‘helfen’ Bei Verben gibt es daher häufig Frage-Antwort-Sets, die Kollokatoren enthalten, die mit dem Stichwort durch Präpositionen verbunden sind. 26 26 In diesem Zusammenhang kommen häufig Ausdrücke mit unterschiedlichen syntaktischen Anschlüssen vor, die gleiche semantische Funktionen ausüben. Wie die Integration unterschiedlicher syntaktischer Informationen lexikografisch besser in einer semantisch ausgerichteten Beschreibung erfolgen könnte, ist das Ziel künftiger Überlegungen. Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 77 Die Angabe der semantischen Mitspieler dokumentiert vor allem binäre Kollokationsstrukturen, ohne darauf zu verzichten, Rollen bzw. Funktionen sowie Bindeglieder und entsprechende grammatische Informationen im zugrunde liegenden gemeinsamen Syntagma implizit einzuflechten. Sie kann damit für Nachschlagende, und besonders für Deutschlernende, ein geeignetes Hilfsmittel in Situationen der Textproduktion darstellen. Allerdings sei angemerkt, dass ein Kollokationswörterbuch, das sich speziell an Fremdsprachenlernende richten soll, über weitere nötige Ergänzungen verfügen sollte, wie etwa Korpusbeispiele, explizitere syntaktische Angaben bzw. andere Präsentationsformen. Den gezielten Anforderungen dieser Benutzergruppe wird elexiko derzeit nicht gerecht. Das zeigt sich u. a. auch an der derzeit strikt alphabetischen Auflistung der Kollokatoren unter einer einzelnen Frage (vgl. Abb. 14). Abb. 14: Alphabetische Auflistung adjektivischer Kollokatoren im Wortartikel Zusammenarbeit, Lesart ‘Kooperation’ Das OCD wählt hier ein Anordnungsprinzip, das z. B. Synonyme oder andere intuitive Gruppen zusammenstellt. Wieder in Bezug auf das englische Beispiel pollution wird das Anordnungsprinzip der dazugehörigen Verben wie folgt erläutert: The groups are arranged in an order that tries to be as intuitive as possible: in this case from the ‘strongest’ form of an action (avoid/ prevent) to the ‘mildest’ (monitor). ( OCD , Einleitung, S. X) Anhand dieses Beispiels wird deutlich, welche Rolle die interpretatorischen redaktionellen Leistungen bei der Aufbereitung der Korpusdaten spielen und dass diese umso wichtiger werden, wenn die Angabe der Kollokationen für unterschiedliche Benutzergruppen hilfreiche Informationen liefern soll. Bessere Einblicke in die unterschiedlichen Nachschlagebedürfnisse und die damit zusammenhängenden nötigen wie möglichen Veränderungen in diesem Bereich sind daher auch von den Ergebnissen der laufenden Forschung im Projekt BZV elexiko abhängig. Der Angabebereich „Semantische Umgebung und lexikalische Mitspieler“ bietet zahlreiche Möglichkeiten, die bisher nur wenig ausgeschöpft wurden und mit denen elexiko zukünftig lexikografisches Neuland betreten könnte. Annette Klosa / Petra Storjohann 78 7. Literaturverzeichnis 7.1 Wörterbücher BBI = Benson, Morton/ Benson, Evelyn/ Ilson, Robert (Hg.) (1997): The BBI Dictionary of English Word Combinations. Amsterdam/ Philadelphia. COBUILD = Sinclair, John et al. (2001): Collins COBUILD English Language Dictionary. 3. Aufl. London. Diskurswörterbuch 1945-55 (2007). In: Institut für Deutsche Sprache (Hg.): OWID - Online-Wortschatz-Informationssystem Deutsch. Mannheim. Internet: www.owid.de (Stand: 30.04.2010). DWDS - Das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts. Internet: http: / / beta.dwds.de/ (Stand: 30.04.2010). elexiko (2003ff.). In: Institut für Deutsche Sprache (Hg.): OWID - Online-Wortschatz-Informationssystem Deutsch. Mannheim. Internet: www.elexiko.de (Stand: 30.04.2010). OCD = Crowther, Jonathan et al. (Hg.) (2002): Oxford Collocations Dictionary for students of English. Oxford. 7.2 Forschungsliteratur Atkins, Sue/ Rundell, Michael (2008): The Oxford guide to practical lexicography. Oxford. Barlow, Michael/ Kemmer, Suzanne (Hg.) (2000): Usage-based models of language. Stanford. Bybee, Joan (1995): Regular morphology and the lexicon. In: Language and Cognitive Processes 19, S. 425-455. Croft, William/ Cruse, Alan (2004): Cognitive linguistics. Cambridge. Fillmore, Charles (1977): Scenes and frames semantics. In: Zampolli, Antonio (Hg.): Linguistic structures processing. Amsterdam/ New York, S. 55-83. Fillmore, Charles (1995): The hard road from verbs to nouns. In: Chen, Matthew Y./ Tzeng, Ovid J. L. (Hg.): Interdisciplinary studies on language and language change. In honor of William S. Wang. Taipei, S. 105-129. Goldberg, Adele (1995): Constructions: a construction grammar approach to argument structure. Chicago. Hanks, Patrick (2008): Lexical patterns: from Hornby to Hunston and beyond. In: Bernal, Elisenda/ DeCesaris, Janet (Hg.): Proceedings of the Thirteenth EURALEX International Congress, Barcelona, Spain, July 15th-19th, 2008. (= Sèrie Activitats 20). Barcelona, S. 89-129. Haß, Ulrike (2005a): Das Bedeutungsspektrum. In: Haß (Hg.), S. 163-181. Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern 79 Haß, Ulrike (2005b): Semantische Umgebung und Mitspieler. In: Haß (Hg.), S. 227- 234. Haß, Ulrike (Hg.) (2005): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz. (= Schriften des Instituts für Deutsche Sprache 12). Berlin/ New York. Herbst, Thomas/ Klotz, Michael (2009): Syntagmatic and phraseological dictionaries. In: Cowie, Anthony P. (Hg.): The Oxford history of Englisch lexicography. Bd. II: Specialized dictionaries. Oxford, S. 219-244. Hoey, Michael (2005): Lexical priming: a new theory of words and language. London. Hunston, Susan/ Francis, Gill (2000): Pattern grammar. A corpus-driven approach to the lexical grammar of English. (= Studies in Corpus Linguistics 4). Amsterdam/ Philadelphia. Kay, Paul/ Fillmore, Charles (1999): Grammatical constructions and linguistic generalizations: the What's X doing Y? construction. In: Language 72, S. 1-33. Langacker, Ronald (1988): Usage-based model. In: Rudzka-Ostyn, Brygida (Hg.): Topics in cognitive linguistics. (= Amsterdam Studies in the Theory and History of Linguistic Science, Series IV: Current Issues in Linguistic Theory 50). Amsterdam/ Philadelphia, S. 127-161. Langacker, Ronald (2000): A dynamic usage-based model. In: Barlow/ Kemmer (Hg.), S. 1-63. Nübling, Damaris (2009): Zur lexikografischen Inszenierung von Geschlecht. Ein Streifzug durch die Einträge von Frau und Mann in neueren Wörterbüchern. In: Zeitschrift für germanistische Linguistik 37, S. 593-633. Nuccorini, Stefania (2003): Towards an ‘ideal’ dictionary of English collocations. In: Sterkenburg, Piet van (Hg.): A practical guide to lexicography. (= Terminology and Lexicography Research and Practice 6). Amsterdam/ Philadelphia, S. 366-387. Sinclair, John (1991): Corpus, concordance, collocation. Oxford. Sinclair, John (1996): The search for units of meaning. In: Textus 9, S. 75-106. Steyer, Kathrin (2008): Kollokationen in deutschen Wörterbüchern und in der deutschen Wörterbuchforschung. In: Lexikographica 24, S. 185-207. Storjohann, Petra (2005a): Das elexiko-Korpus: Aufbau und Zusammensetzung. In: Haß (Hg.), S. 55-70. Storjohann, Petra (2005b): Paradigmatische Relationen. In: Haß (Hg.), S. 249-264. Storjohann, Petra (2007): Incompatibility: A no-sense relation? In: Proceedings of the 4th Corpus Linguistics Conference, Birmingham. Internet: http: / / corpus.bham. ac.uk/ corplingproceedings07/ paper/ 36_Paper.pdf (Stand: 30.04.2010). Tomasello, Michael (2003): Constructing a language: a usage-based theory of language acquisition. Harvard. Annette Klosa / Petra Storjohann 80 Wegner, Immo (1989): Lexikographische Definition und Frame-Theorie im allgemeinen einsprachigen Wörterbuch. In: Hausmann, Franz Josef et al. (Hg.): Wörterbücher. Ein internationales Handbuch zur Lexikographie. 1. Teilbd. (= Handbücher zur Sprach- und Kommunikationswissenschaft ( HSK ) 5.1). Berlin/ New York, S. 893-899. 7.3 Internetressourcen Belica, Cyril (1995): Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode. Mannheim. Internet: http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: 30.04.2010). FrameNet - Das Berkeley FrameNet Projekt. Internet: http: / / framenet.icsi.berkeley.edu/ (Stand: 30.04.2010). Polizeiliche Kriminalstatistiken - Zeitreihen 1987 bis 2008. Internet: http: / / www.bka.de (Stand: 30.04.2010). SALSA - The Saarbrücken Lexical Semantics Acquisition Project. Internet: http: / / www.coli.uni-saarland.de/ projects/ salsa/ page.php? id=index (Stand: 30.04.2010). Wortschatzportal. Internet: http: / / wortschatz.uni-leipzig.de/ (Stand: 30.04.2010). Christine Möhrs Die typischen Verwendungen in elexiko 1. Einleitung In vielen Wörterbüchern gibt es einen Angabebereich, der ein Stichwort in phrasen- oder satzartigen Verwendungen zeigt. Je nach zugrunde gelegter Konzeption wird dieser Bereich unterschiedlich, häufig aber „Beispiel(e)“ genannt. In metalexicographic literature, the term EXAMPLE has a very wide range of meaning. It usually comprises all types of indications consisting of word combinations (phrases, clauses, sentences) that contain a form of the lemma sign […]. (Svensén 2009, S. 281) Zwei Beispiele aus anderen Online-Wörterbüchern sollen dies verdeutlichen. So arbeitet die Betaversion des DWDS (Das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts) mit dem Terminus „Beispiel“. Hierunter finden sich sowohl Zweierkombinationen, komplexere Verbindungen als auch Sätze (vgl. Abb. 1). Abb. 1: Wortartikelausschnitt des Stichworts Fußball aus der Betaversion des DWDS In ELDIT ( Elektronisches Lernerwörterbuch Deutsch-Italienisch/ Dizionario elettronico per apprendenti Italiano-Tedeschi ) gibt es pro Einzelbedeutung eines Wortes einen Angabebereich, der „Verwendung“ heißt. Darin finden sich unter der Überschrift „Wörter verbinden“ sowohl Zweierkombinationen (Fußball spielen im Artikel calcio/ Fußball in der Bedeutung ‘Mannschaftsspiel’) und komplexere Verbindungen (der italienische, europäische, [...] Fußball ) als auch Wortbildungsprodukte (ein Fußballspiel oder eine Fußballmannschaft ). Christine Möhrs 82 Die Form der Muster in elexiko ist der aus dem DWDS -Wortartikelausschnitt (vgl. Abb. 1 und im Vergleich Abb. 5) und manchen Verbindungen aus dem Angabebereich „Verwendung“ in ELDIT sehr ähnlich. Die typischen Verwendungen in elexiko orientieren sich in erster Linie an einem statistisch geprägten Kollokationsbegriff. Er wird von der „computerlinguistischen Kollokationsanalyse bestimmt“ (Storjohann 2005, S. 236), unterscheidet sich aber auch von der binären Definition von Kollokation wie sie z. B. in Hausmann (2004) beschrieben wird (vgl. Storjohann 2005, S. 236). 1 Die Rubrik „Typische Verwendungen“ in elexiko - bei der Benennung wird hier bewusst nicht mit den Begriffen „Beispiel“ oder „Kollokation“ gearbeitet - umfasst „prototypische, usuelle phrasale Muster mit konkreten korpusbasierten Lexemelementen, sprich mehrgliedrige, lexiko-syntaktische Realisierungen“ (ebd.). Die Auswahl und Struktur der typischen Verwendungen (Abschnitt 2.1) sowie die Sortierung und Präsentation (Abschnitt 2.2) sollen vor dem Hintergrund der konzeptionellen Veränderungen im Verlauf der Wörterbucharbeit von elexiko beschrieben werden. Die inhaltliche Vernetzung der typischen Verwendungen mit anderen Angabebereichen wird in Abschnitt 3 thematisiert. 2. Die Konzeption des Angabebereichs „Typische Verwendungen“ In der Wörterbuchrubrik „Typische Verwendungen“ finden Nutzer Informationen zu syntagmatischen Gebrauchsmustern, sprich mehrgliedrige Wortverbindungen eines Stichwortes […]. (Hahn et al. 2008, S. 58) Bei den typischen Verwendungen handelt es sich also um „syntagmatische Verbindungen, die häufig und in genau der angegebenen Form im elexiko- Korpus [...] belegt sind und die als typisch gelten“ (Storjohann 2005, S. 236). Idiomatische Wendungen und Phraseologismen werden im Rahmen der typischen Verwendungen in elexiko nur selten berücksichtigt, da der Übergang zu solchen Wortverbindungen manchmal fließend ist. Kollokatoren, die in binären Verbindungen vorkommen (z. B. attraktiver Fußball zum Stichwort Fußball, Lesart ‘Mannschaftsspiel’ oder kühles Bier zum Stichwort Bier, Lesart ‘Getränk’) werden im Angabebereich „Semantische Umgebung und lexikalische Mitspieler“ 2 erfasst. In der Rubrik „Typische Verwendungen“ hingegen werden Muster aufgenommen (z. B. [Eigenschaft: z. B. guten, attraktiven] Fußball spielen zum Stichwort Fußball, Lesart ‘Mannschaftsspiel’ oder bei einem kühlen Bier zum Stichwort Bier, Lesart ‘Getränk’), die ein Stichwort in festeren syntagmatischen Verbindungen zeigen. 1 Vgl. zum Kollokationsbegriff z. B. Lehr (1993), Bahns (1996) oder auch Steinbügl (2005). 2 Vgl. den Beitrag „Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern“ von Annette Klosa und Petra Storjohann in diesem Band. Die typischen Verwendungen in elexiko 83 Im Rahmen der Wortartikelarbeit bedarf es eines Wechselspiels aus unterschiedlichen lexikografischen Arbeitsschritten, bis ein Verwendungsmuster in den Angabebereich „Typische Verwendungen“ aufgenommen wird, was in Abschnitt 2.1 näher beleuchtet werden soll. 2.1 Auswahl und Struktur Die Basis für die lexikografischen Arbeiten an Wortartikeln bei elexiko bildet das elexiko-Korpus. 3 Mit Hilfe der Kookkurrenzanalyse, 4 die als Tool in COSMAS II 5 zur Verfügung steht, werden Kollokationen und syntagmatische Muster des zu untersuchenden Wortes aus dem Korpus automatisch herausgefiltert und stehen den Lexikografen in Form einer Liste zur Verfügung. Diese dient als Grundlage für verschiedene lexikografische Analysen. Die Einstellungen für die Kookkurrenzanalyse, wie sie bei redaktionell zu bearbeitenden Stichwörtern im Lexikon zum öffentlichen Sprachgebrauch 6 gewählt werden, sind vor allem folgende: Mit einem Analyseabstand von 5 Wörtern rechts und 5 Wörtern links vom Wort werden Kookkurrenzen und syntagmatische Muster zu einem Wort ermittelt und zwar bezogen auf einen Satz. Hierbei wird also die Größe des zu analysierenden Kontextes gewählt. 7 In Abbildung 2 ist ein vereinfachter Ausschnitt aus der Kookkurrenzliste zum Wort Schwester zu sehen. Die Lexikografen analysieren, interpretieren, wählen aus, abstrahieren und konkretisieren die Informationen, die die Kookkurrenzliste liefert, um Angaben für den Bereich der Typischen Verwendungen zu gewinnen. Insbesondere muss die Fülle an syntagmatischen Mustern analysiert werden. Der Lexikograf hält sich dabei immer Folgendes vor Augen: Typische Verwendungen dienen in erster Linie dazu, den typischen (nicht zwangsläufig den mustergültigen und auch nicht den möglichen) Gebrauch des Stichworts im syntagmatischen Zusammenhang zu veranschaulichen. (Storjohann 2005, S. 237) 3 Vgl. hierzu Abschnitt 2 der Einleitung in diesem Band. 4 Vgl. Belica (1995). 5 COSMAS steht für Corpus Search, Management and Analysis System. Näheres siehe unter www.ids-mannheim.de/ cosmas2/ . 6 Vgl. hierzu Abschnitt 3 der Einleitung in diesem Band. 7 Andere Parameter sind beispielsweise Granularität (Angabe, wie viele der nach Signifikanz sortierten Kookkurrenzpartner als mögliche Kandidaten eines Kookkurrenzpartners in Frage kommen), Zuverlässigkeit (Einstufung von Abweichungen), Vernachlässigung von Funktionswörtern. Zu diesen und anderen Einstellungen vgl. im Detail Perkuhn/ Belica (2004). Christine Möhrs 84 Abb. 2: Ausschnitt der Kookkurrenzliste 8 zu Schwester Bei der Auswahl der typischen Verwendungsmuster orientiert sich der Lexikograf an den Häufigkeitsangaben zu den einzelnen syntagmatischen Mustern, die zusätzlich zu den Angaben aus Abbildung 2 zur Verfügung stehen. Tritt ein Muster statistisch signifikant auf, ist dies ein Indiz für Typizität. In welcher Form, also Struktur, das typische Verwendungsmuster in den Wortartikel aufgenommen wird, legt der Lexikograf in einem weiteren Schritt fest. Besonders bei diesen Arbeitsschritten befindet sich der Lexikograf in einem Spannungsfeld: Er sollte einerseits das Korpus „sprechen“ lassen und andererseits in Bezug auf die Form des Musters, wie es in den Wortartikel aufgenommen werden soll, gleichzeitig auch seine sprachliche Intuition nicht außer Acht lassen. So stellt auch Steinbügl fest: Selbst auf weite Sicht werden Korpusuntersuchungen die Intuition des Sprachwissenschaftlers oder die des Lexikografen nicht ersetzen. Dennoch beruhen maschinell gewonnene Daten auf einer breiteren Grundlage und sind daher verlässlicher als die Intuition eines einzelnen Muttersprachlers. (Steinbügl 2005, S. 4) 8 Die eckigen Klammern in der linken Spalte ( LLR Kookkurrenzen) stehen für weitere Einträge, die aus Platzgründen hier nicht aufgeführt sind. Die typischen Verwendungen in elexiko 85 Das Muster wird - bezogen auf eine bestimmte Lesart 9 - direkt bzw. abstrahiert auf bestimmte Grundformen (z. B. bei Verben der Infinitiv) aus der Kookkurrenzliste in den Angabebereich des Wortartikels übernommen. Aus den in Abb. 2 gezeigten syntagmatischen Mustern des Wortes Schwester wurden beispielsweise die in Abb. 3 gezeigten typischen Verwendungen in die Lesart ‘Verwandte’ des Stichworts Schwester aufgenommen. Abb. 3: Typische Verwendungen im Wortartikel Schwester, Lesart ‘Verwandte’ In einigen Fällen wurde dabei das syntagmatische Muster in fast identischer Form als typische Verwendung aufgenommen, z. B. die [Eigenschaft: z. B. große, kleine] Schwester (in Abb. 2 der hellgraue Pfeil und in Abb. 3 die hellgraue Hinterlegung 10 ). Variiert ein Element innerhalb eines Musters, wird ein Klammerelement eingefügt. Beim Muster [Person] wuchs mit [Zahl] Schwestern auf (in Abb. 2 der dunkelgraue Pfeil und in Abb. 3 die dunkelgraue Hinterlegung) divergieren 9 Die Bezeichnung Lesart wird in elexiko anstelle von Einzelbedeutung oder Bedeutungsvariante verwendet (vgl. Haß 2005, S. 164). 10 In den Abbildungen, die ausschnittsweise Wortartikel aus elexiko zitieren, werden aus Anschaulichkeitsgründen bestimmte Teile in Graustufen hervorgehoben. Dies entspricht nicht der Online-Darstellung. Gleiches gilt für die Abbildungen, die mehrere, in der Online-Darstellung nicht gleichzeitig rezipierbare Angabebereiche wiedergeben. Die Reihenfolge der Angabebereiche in den Abbildungen orientiert sich dabei an der Darstellung im Internet. Christine Möhrs 86 beispielsweise die Angaben zu Personen sowie zur Anzahl der Schwestern, mit denen eine Person aufwuchs, in der Kookkurrenzliste. Diese Angaben können zwei Kategorien zugeordnet werden: Personen = [Person] und Anzahl der Schwestern = [Zahl]. In der Ausgangskonzeption enthielten einige wenige Klammerelemente Bezeichnungen für semantische Kategorien wie [Person], [Land] oder [Einheit], die meisten aber nicht. Die Funktion eines Klammerelements besteht darin zu verdeutlichen, dass z. B. variable Personenbezeichnungen, Ländernamen oder Einheiten an dieser Position auftauchen können. Die Kategorien sollten die Art des darin befindlichen Musterelements semantisch-referentiell näher charakterisieren. (Storjohann/ Möhrs 2007, S. 14) Nach einer Auswertung aller bis 2007 entstandenen Wortartikel in elexiko unter diesem Gesichtspunkt wurde deshalb ein Kategorienkatalog entwickelt, der neben den oben genannten Kategorien auch neue wie [Eigenschaft], [Zahl] oder [Personenname] enthält. Um dem Benutzer ein typisches Verwendungsmuster mit einem Klammerelement so anschaulich wie möglich zu machen, wurde die Konzeption des Klammerelements auch dahingehend erweitert, als dass in das Klammerelement „konkrete korpusgestützt gewonnene sprachliche Realisierungen“ (Storjohann/ Möhrs 2007, S. 14) integriert werden können. Das typische Verwendungsmuster die [Eigenschaft: z. B. große, kleine] Schwester , das in Abbildung 3 zu sehen ist, ist ein Beispiel dafür. Im Korpus tritt sowohl groß als auch klein als Adjektivattribut zu Schwester statistisch signifikant auf. Diese Adjektive werden der Kategorie [Eigenschaft] zugeordnet und als Beispiele für konkrete, korpusgesteuert gewonnene sprachliche Realisierungen gezeigt. 11 Das Verfahren zur Gewinnung und Darstellung typischer Verwendungsmuster hat sich in dieser Form bewährt und kann so in den meisten Fällen angewendet werden. 12 Es gibt aber auch Fälle, in denen die Kookkurrenzanalyse an ihre Grenzen stößt. Die Wortartikelarbeit im elexiko-Projekt der letzten Jahre hat zwei Fälle aufgedeckt, bei denen typische Verwendungen nicht direkt aus der Kookkurrenzliste abgelesen werden können: niedrigfrequente Stichwörter und schwach belegte Lesarten. Wörter aus dem elexiko-Demonstrationswortschatz 13 können niedrig frequent sein, und einzelne Lesarten von Stichwörtern des Lexikons zum öffentlichen Sprachgebrauch sind manchmal nur schwach 11 Zur Konzipierung des Klammerelements vgl. auch Storjohann/ Möhrs (2007) und Hahn et al. (2008). 12 Näheres zur Gewinnung typischer Verwendungen siehe auch in Storjohann (2005, S. 244). 13 Vergleiche Abschnitt 3 der Einleitung in diesem Band. Die typischen Verwendungen in elexiko 87 belegt. Niedrigfrequent im Sinne von elexiko ist ein Stichwort dann, wenn es im Korpus weniger als 500-mal vertreten ist. In einem solchen Fall, oder wenn es zu einer Lesart nur wenige Belege gibt, werden alle Belege im elexiko-Korpus redaktionell analysiert. Bei dieser Analyse wird auch deutlich, in welchen Verwendungen das Stichwort typischerweise vorkommt, und die entsprechenden Muster können in den Wortartikel aufgenommen werden. Für das Stichwort Anhänger z. B. sind Kollokatoren und syntagmatische Muster zu den Lesarten ‘Verfechter’, ‘Beiwagen’ und ‘Schmuckstück’ in der Kookkurrenzliste vertreten, sodass dem Lexikografen Material zur Auswahl typischer Verwendungen zur Verfügung steht. Kollokatoren, die Kontexte rund um die Lesart ‘Schild’ andeuten, tauchen hingegen in der Kookkurrenzliste nicht auf. Ein Abgleich mit anderen Wörterbüchern zeigt diese Lesart aber auf, sodass der Lexikograf hierzu eine gezielte Suche im Korpus startet. Schwach belegte Lesarten spürt der Lexikograf z. B. im Korpus auf, indem er das Stichwort mit entsprechenden Schlüsselwörtern sucht. Im Fall von Anhänger in der Lesart ‘Schild’ kann Anhänger zusammen mit Gepäck, Koffer, Schild, abreißen, befestigen o.Ä. im Korpus gesucht werden. So wird für Anhänger in der Lesart ‘Schild’ eine Reihe von Belegen gefunden, aus denen die typischen Verwendungen, die in Abbildung 4 zu sehen sind, gewonnen werden können. Abb. 4: Typische Verwendungen im Wortartikel Anhänger, Lesart ‘Schild’ Die Kookkurrenzanalyse ist also dann ein gewinnbringendes Werkzeug, wenn es um die Extrahierung von typischen Verwendungsmustern hochfrequenter Stichwörter bzw. häufig belegter Lesarten geht. Das Herausfiltern von Mustern niedrigfrequenter Stichwörter bzw. nur schwach belegter Lesarten hingegen erfordert meist eine gezielte Korpusrückprüfung sowie die redaktionelle Auswertung von Belegen zur Auswahl und Formulierung der Muster. Zusätzlich zu den schon genannten Punkten sei auf einen Aspekt hingewiesen, der die technischen Einstellungen des Analysetools betrifft. Bei der Standardeinstellung zur Kookkurrenzanalyse in COSMAS II , wie sie auch für die Wort- Christine Möhrs 88 recherchen zum Lexikon zum öffentlichen Sprachgebrauch angewandt wird, werden die Funktionswörter ignoriert. Hilfsverben und Präpositionen beispielsweise werden deshalb nicht selbst als Kookkurrenzpartner, sondern nur indirekt innerhalb syntagmatischer Muster in der Kookkurrenzliste gezeigt. Das bedeutet, dass auch typische Verwendungsmuster z. B. mit Hilfsverben (etwa typische Modalverb- oder Passivkonstruktionen) oder mit Präpositionen (etwa typische Präpositionalanschlüsse bei Nomen) gezielt im Korpus gesucht werden müssen. Methodisch ist festzuhalten, dass bei der Gewinnung von typischen Verwendungen - wie auch bei der Gewinnung anderer lexikografischer Angaben in elexiko - die korpusgesteuerte und die korpusbasierte Methode kombiniert werden. Für die Gewinnung von typischen Verwendungsmustern ist dies wichtig und dieses Vorgehen hat sich in der Artikelarbeit bewährt. 2.2 Sortierung und Präsentation In der Anfangsphase von elexiko wurden die typischen Muster zunächst nach Komplexität geordnet untereinander aufgelistet. Diese Form der Darstellung war von Anfang an eine vorläufige, und es war auch von Beginn der Artikelarbeit an klar, dass es bei der Auflistung der Muster nach Komplexität nicht bleiben sollte: Das derzeitige Auflistungssystem der typischen Verwendungen vermag es nicht, semantisch zusammengehörige Verwendungen gemeinsam aufzulisten, wenn diese eine unterschiedliche Komplexität aufweisen. Auch syntaktischstrukturell ähnliche Muster, die z. B. durch Attribuierung komplexer werden, erscheinen in der momentanen Anordnung auseinander gerissen. (Storjohann 2005, S. 242) Das Sortierungskonzept, das seit Ende 2006 Anwendung findet, trägt den im Zitat genannten Aspekten Rechnung. So werden die Muster nun überwiegend nach syntaktischen Kriterien redaktionell sortiert. Dies hat zunächst die Überarbeitung sämtlicher bis dahin fertiggestellter Wortartikel erfordert (vgl. hierzu auch Hahn et al. 2008). Die jetzige redaktionelle Sortierung benötigt aber auch mehr Arbeitszeit - mehr als die Auflistung der Muster nach Komplexität gefordert hatte. Die Neusortierung der Muster hat jedoch einen großen Mehrwert: ähnliche Muster werden nun zusammen gezeigt (vgl. Abb. 5). ‘Ähnlich’ sind z. B. die Muster eines Nomens, in denen immer ein attributives Adjektiv vor dem Nomen steht. ‘Ähnlich’ sind z. B. auch adjektivische Muster, die entweder den attributiven, prädikativen oder adverbialen Gebrauch des Adjektivs zeigen. Solche ‘ähnlichen’ Muster werden gebündelt, aber je nach syn- Die typischen Verwendungen in elexiko 89 taktischer Funktion getrennt voneinander präsentiert. Bei Verben sieht der Benutzer so beispielsweise auf einen Blick, welche Muster im elexiko-Korpus typischerweise im Infinitiv und welche typischerweise in finiten Verwendungen auftreten. Abb. 5: Ausschnitt aus den typischen Verwendungen im Wortartikel Fußball, Lesart ‘Mannschaftsspiel’ Christine Möhrs 90 Damit der Benutzer zwischen den invarianten Bestandteilen eines typischen Musters und möglicherweise vorhandenen variablen Teilen, die im Klammerelement enthalten sind, unterscheiden kann, ist das Klammerelement typografisch hervorgehoben (Schriftfarbe grau). Innerhalb der Klammer steht die Kategorie in einer anderen Schriftart ( Eigenschaft ), und konkrete, aus dem Korpus gewonnene Füllungen erscheinen kursiv (vgl. in Abb. 5 das Muster in der ersten Gruppe von oben: im [ Eigenschaft : z.B. deutschen , internationalen ] Fußball ). Grundsätzlich orientiert sich die neue Sortierung für jede Wortart an den jeweils für diese Wortart typischen syntaktischen Kriterien. Bei Nomen gibt es beispielsweise einen Typ „Stichwort mit Attribut“, bei Adjektiven einen Typ „ Stichwort in prädikativen Verwendungen“ oder bei Verben einen Typ „ Stichwort in finiten Verwendungen“. Mit „Typ“ wird die obere Sortierungseinheit bezeichnet, also z. B. beim Nomen Fußball „Fußball in Verbalphrasen und Sätzen“. Innerhalb der Typen werden Gruppen anhand weiterer syntaktischer Kriterien gebildet. Diese Gruppen werden in der Online-Darstellung der Artikel mit einer Leerzeile voneinander abgegrenzt (vgl. auch Abb. 5). Ausgehend von diesen syntaktischen Kriterien rücken dabei nun auch semantisch zusammengehörige Muster zusammen. 14 3. Vernetzung mit anderen Angabebereichen Typische Verwendungen können [...] sowohl Wörterbuchbenutzer(inne)n über den typischen kotextuellen Gebrauch eines Wortes informieren als auch Lexikograf(inne)n Erkenntnisse über Gebrauchs- und Verwendungsregeln auf der lexikalischen und syntaktischen Ebene liefern, welche wiederum als Angaben (z. B. grammatische Kommentare) in die Stichwortbeschreibung mit einfließen können. (Storjohann 2005, S. 237) Typische Verwendungen enthalten also verschiedene Arten von lexikalischen Informationen. Diese Informationen tauchen mit unterschiedlichem Fokus auch in verschiedenen anderen Angabebereichen in den elexiko-Wortartikeln auf. Um solche Verknüpfungen bzw. Vernetzungen, die es innerhalb eines Wortartikels zwischen dem Angabebereich „Typische Verwendungen“ und verschiedenen anderen Angabebereichen gibt, geht es in diesem Abschnitt. Bei der Wortartikelarbeit in elexiko steht die gebrauchsorientierte Beschreibung der Sprache im Vordergrund. Syntaktische und semantische Informationen über ein Wort sind dabei immer eng miteinander verknüpft. Deshalb 14 Eine ausführlichere Darstellung zu den wortartenabhängigen Sortierungskriterien und den Klammerelementen innerhalb der Muster findet sich in Storjohann/ Möhrs (2007) und Hahn et al. (2008). Die typischen Verwendungen in elexiko 91 greifen prinzipiell alle Angaben innerhalb eines Wortartikels in elexiko ineinander. Allerdings besteht zwischen den eher abstrakt formulierten Satzbauplänen aus dem Bereich „Grammatik“ 15 und den Angabebereichen „Typische Verwendungen“ und „Semantische Umgebung und lexikalische Mitspieler“ eine besonders enge Verbindung. Wie diese Vernetzung aussieht, wird im Folgenden an drei Beispielen (einem Verb, einem Nomen und einem Adjektiv) erläutert. Abb. 6: Ausschnitte aus dem Wortartikel malen, Lesart ‘ein Bild machen’ 15 Vgl. hierzu den Beitrag „Korpusgestützte Angaben zu Grammatik und Wortbildung“ von Annette Klosa in diesem Band. Christine Möhrs 92 Während im Satzbauplan in den Angaben zur Grammatik die obligatorischen und fakultativen Komplemente des Verbs malen in der Lesart ‘ein Bild machen’ abstrahiert aufgeführt sind, finden sich dagegen bei den typischen Verwendungen und in den Angaben zu den lexikalischen Mitspielern viele konkrete aus dem Korpus gewonnene Beispiele (vgl. Abb. 6). Die typischen Verwendungen demonstrieren z. B. die Realisierung des obligatorischen Subjekt- Komplements JEMAND . Derartige Subjekt-Komplemente werden beispielsweise unter „malen in finiten Verwendungen“ in den Klammerelementen [Name: z. B. Max Beckmann] oder [Name: z. B. Vermeer] als konkrete Beispiele aus dem Korpus genannt. Eine Verbindung besteht auch zwischen den typischen Verwendungen und den lexikalischen Mitspielern, indem Benutzer bei den Mitspielern unter der Frage „Welche Künstler malen? “ weitere Korpusbeispiele finden, welche die oben genannten Klammerelemente füllen könnten. Die lexikalischen Mitspieler und die typischen Verwendungen illustrieren auch die Realisierung des fakultativen Objekts ETWAS im Satzbauplan. Im Bereich „Semantische Umgebung und lexikalische Mitspieler“ findet man unter der Frage „Was malt man bzw. in welcher Technik malt man? “ hierzu unterschiedliche im Korpus statistisch signifikant auftretende Kollokatoren: z. B. Aquarell, Bild oder Gemälde . Im Bereich „Typische Verwendungen“ werden verschiedene Realisierungen des Komplementes in unterschiedlichen Mustern oder aber auch in einem Klammerelement dargestellt: z. B. ein Bild malen oder [z. B. ein Porträt, Stillleben] malen . Im Wortartikel Wunsch, in der Lesart ‘Begehren’ gibt es im Angabebereich der lexikalischen Mitspieler die Frage „Was macht man mit einem Wunsch? “ (vgl. Abb. 7). Antworten auf diese Frage sind Verben oder Substantivierungen, z. B. äußern , befriedigen oder Erfüllung. Äußern wird unter den typischen Verwendungen im Typ „Wunsch in Verbalphrasen und Sätzen“ wieder aufgegriffen: z. B. in dem Muster [Person] hat mehrfach den Wunsch geäußert, [...] . Ein anderes Beispiel ist der Präpositionalanschluss „ Wunsch NACH ETWAS “ aus den grammatischen Angaben, der in den typischen Verwendungen in einem Muster im Typ „Wunsch mit Attribut“ in der konkreten Realisierung Wunsch nach Veränderung gezeigt wird. Wonach ein Wunsch besteht, wird im Angabebereich der semantischen Umgebung und ihrer lexikalischen Mitspieler unter der Frage „Wonach gibt es einen Wunsch? “ z. B. mit Frieden , Selbstbestimmung oder Unabhängigkeit beantwortet. Ist bei Adjektiven im Bereich „Grammatik“ angegeben, dass das Adjektiv attributiv, prädikativ und adverbial verwendet werden kann, dann sollte der Benutzer im Angabebereich „Typische Verwendungen“ Beispiele zu allen drei Die typischen Verwendungen in elexiko 93 syntaktischen Funktionen finden, weshalb sich auch die Überschriften im Bereich „Typische Verwendungen“ an diesen syntaktischen Funktionen orientieren. So findet man im Wortartikel lustig in der Lesart ‘amüsant’ das attributive Muster lustige Geschichten erzählen , das prädikative Muster [z. B. die Geschichte] ist lustig genug oder auch das adverbiale Muster das klingt lustig (vgl. Abb. 8). Sucht man nach weiteren Nomen, die durch lustig attribuiert werden, findet man bei den Angaben zur semantischen Umgebung als Beispiele unter der Frage „Was gilt als lustig? “ Anekdoten, Film oder auch Witze. Unter der Frage „Was macht man oder was geschieht lustig? “ sind verschiedene weitere Verben wie aussehen oder klingen verbucht. Abb. 7: Ausschnitte aus dem Wortartikel Wunsch, Lesart ‘Begehren’ Christine Möhrs 94 Abb. 8: Ausschnitte aus dem Wortartikel lustig, Lesart ‘amüsant’ Auch zwischen dem Angabebereich „Typische Verwendungen“ und den Angaben zu sinnverwandten Wörtern gibt es Verknüpfungen. Die Neukonzipierung der typischen Verwendungsmuster sieht in jeder Wortart einen Typ „Sonstige Verwendungen“ vor. In diesem Typ ist auch das Anlegen einer Gruppe (zu den Bezeichnungen „Typ“ und „Gruppe“ siehe oben Abschnitt 2.2) möglich, in die so genannte Paarformeln aufgenommen werden (z. B. Teilnehmerinnen und Teilnehmer oder Bier und Sekt ). Diese Paarformeln treten, wie in den gezeigten Beispielen, häufig in und-Verbindungen auf. In der Rubrik „Sinnverwandte Wörter“ können die Bestandteile solcher Paarformeln als paradigmatische Relationspartner aufgeführt sein, und zwar z. B. als komplementäre oder auch als inkompatible Partnerwörter (vgl. die Markierungen in Abb. 9 und 10). Die typischen Verwendungen in elexiko 95 Abb. 9: Ausschnitte aus dem Wortartikel Teilnehmer, Lesart ‘Beteiligter’ Abb. 10: Ausschnitte aus dem Wortartikel Bier, Lesart ‘Getränk’ Christine Möhrs 96 4. Schlussbemerkungen Der Einsatz der Kookkurrenzanalyse zur Gewinnung typischer Verwendungen für elexiko hat sich besonders für die Stichwörter des Lexikons zum öffentlichen Sprachgebrauch bewährt, die alle hochfrequent sind. Bei solchen Stichwörtern bzw. sehr häufig belegten Lesarten ist die Kookkurrenzanalyse ergiebig, sodass den Lexikografen viel Material zur Gewinnung von typischen Verwendungsmustern zur Verfügung steht. Bei niedrigfrequenten Stichwörtern (wie im elexiko-Demonstrationswortschatz) bzw. nur wenig belegten Lesarten ist das Vorgehen bei der Wortartikelarbeit ein anderes. In solchen Fällen werden gezielte Korpusrückprüfungen durchgeführt und ausschließlich redaktionelle Auswertungen von Belegen vorgenommen. Wie unterschiedlich die Wortartikelarbeit abläuft, ist ein überaus spannendes und umfangreiches Thema, das am Beispiel der typischen Verwendungen hier nur angedeutet werden konnte. Bei der Erweiterung der Konzeption zu den typischen Verwendungsmustern haben folgende Aspekte eine Rolle gespielt, die insgesamt die Benutzerfreundlichkeit dieses Angabebereiches verbessern sollten: Die Klassifizierung und Sortierung der Muster trägt vor allem dem (in Hinblick auf eine gute Benutzbarkeit) von Anfang an bestehenden Wunsch Rechnung, semantisch und syntaktisch zusammengehörige Verwendungen gemeinsam aufzulisten. Die redaktionelle Sortierung der Muster nach bestimmten Kriterien bedeutet zwar einen höheren redaktionellen Arbeitsaufwand als die Auflistung nach Komplexität. Und da die Muster in ihrer Form sehr unterschiedlich sein können, ist die Zuordnung zu einem Typ bzw. einer Gruppe in manchen Fällen nicht eindeutig. Aber insgesamt bietet die jetzige Sortierung dem Benutzer durch Überschriften und Gruppierungen übersichtliche syntaktische und semantische Informationen zu den typischen Verwendungen. Diese satzfunktionale Orientierung kommt auch den Bedürfnissen von Deutschlernern besonders entgegen. Variable Elemente innerhalb eines Musters können Kategorien zugeordnet werden und durch konkrete Beispiele aus dem Korpus in der Klammer veranschaulicht werden. Damit können Nutzer nicht nur zwischen invariablen und variablen Bestandteilen eines Musters leicht unterscheiden, sondern auch die Art eines variablen Elementes sofort erkennen. Die Präsentation der Muster in der Online-Ansicht von elexiko schafft durch Überschriften, Leerzeichen zwischen Gruppen und der typografischen Hervorhebung der Klammerelemente bzw. der Füllungen Transparenz. 1) 2) 3) Die typischen Verwendungen in elexiko 97 Die Angaben aus den Bereichen „Grammatik“, „Semantische Umgebung und lexikalische Mitspieler“ und „Typische Verwendungen“ sind eng und vielfältig miteinander vernetzt. Die drei oben genannten Beispiele (malen, Wunsch, lustig) haben dies verdeutlicht. Es ist davon auszugehen, dass eine starke Vernetzung die Qualität eines Wortartikels insofern steigert, als der Benutzer bei der Rezeption von Angabebereich zu Angabebereich bestimmte Aspekte wiederfindet. 5. Literaturverzeichnis 5.1 Wörterbücher DWDS - Das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts. Internet: http: / / www.dwds.de/ (Stand: 30.04.2010). ELDIT - Elektronisches Lernerwörterbuch Deutsch-Italienisch/ Dizionario elettronico per apprendenti Italiano-Tedeschi ( EURAC Research Bozen). Internet: http: / / dev. eurac.edu: 8081/ MakeEldit1/ Eldit.html (Stand: 30.04.2010). elexiko (2003ff.). In: Institut für Deutsche Sprache (Hg.): OWID - Online-Wortschatz-Informationssystem Deutsch. Mannheim. Internet: www.elexiko.de (Stand: 30.04.2010). 5.2 Forschungsliteratur Bahns, Jens (1996): Kollokationen als lexikographisches Problem. Eine Analyse allgemeiner und spezieller Lernerwörterbücher des Englischen. (= Lexicographica. Series Maior 74). Tübingen. Hahn, Marion/ Klosa, Annette/ Müller-Spitzer, Carolin/ Schnörch, Ulrich/ Storjohann, Petra (2008): elexiko - das elektronische, lexikografisch-lexikologische korpusbasierte Wortschatzinformationssystem. Zur Neukonzeption, Erweiterung und Revision einzelner Angabebereiche. In: Klosa, Annette (Hg.): Lexikografische Portale im Internet. (= OPAL - Online publizierte Arbeiten zur Linguistik 1/ 2008). Mannheim, S. 57-85. Internet: www.ids-mannheim.de/ pub/ laufend/ opal/ privat/ pdf/ opal 08-1_hahn-klosa-mueller-spitzer.pdf (Stand: 18.05.2010). Haß, Ulrike (2005): Das Bedeutungsspektrum. In: Haß (Hg.), S. 163-181. Haß, Ulrike (Hg.) (2005): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz. (= Schriften des Instituts für Deutsche Sprache 12). Berlin/ New York. Hausmann, Franz Josef (2004): Was sind eigentlich Kollokationen? In: Steyer, Kathrin (Hg.): Wortverbindungen - mehr oder weniger fest. Jahrbuch 2003 des Instituts für Deutsche Sprache 2003. Berlin u.a., S. 309-334. Lehr, Andrea (1993): Kollokationsanalysen - Von der Kollokationstheorie des Kontextualismus zu einem computergestützten Verfahren. In: Zeitschrift für germanistische Linguistik 21, S. 2-19. Christine Möhrs 98 Steinbügl, Birgit (2005): Deutsch-englische Kollokationen. Erfassung in zweisprachigen Wörterbüchern und Grenzen der korpusbasierten Analyse. (= Lexicographica. Series Maior 126). Tübingen. Storjohann, Petra (2005): Typische Verwendungen. In: Haß (Hg.), S. 235-248. Storjohann, Petra/ Möhrs, Christine (2007): Das elexiko-Wörterbuch im Wandel - Typische Verwendungen neu beleuchtet. In: Sprachreport 3/ 2007, S. 12-16. Svensén, Bo (2009): A handbook of lexicography. The theory and practice of dictionary-making. Cambridge u.a. 5.3 Internetressourcen Belica, Cyril (1995): Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode. Mannheim. Internet: http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: 30.04.2010). COSMAS II. Internet: http: / / www.ids-mannheim.de/ cosmas2/ (Stand: 30.04.2010). Perkuhn, Rainer/ Belica, Cyril (2004): Eine kurze Einführung in die Kookkurrenzanalyse und syntagmatische Muster. Institut für Deutsche Sprache, Mannheim. Internet: http: / / www.ids-mannheim.de/ kl/ misc/ tutorial.html (Stand: 30.04.2010). Petra Storjohann Paradigmatische Konstruktionen in Theorie, lexikografischer Praxis und im Korpus 1. Einleitung Der Angabebereich der sinn- und sachverwandten Ausdrücke in elexiko ist im Laufe der lexikografischen Praxis stetig modifiziert, erweitert und umstrukturiert worden. Die Änderungen basierten dabei gleichermaßen auf Erkenntnissen der praktischen Wörterbucharbeit als auch auf Forschungsergebnissen theoretisch-lexikologischer Betrachtungen. Dieses Zusammenspiel prägt auch gegenwärtig den Wörterbuchbereich der paradigmatischen Beziehungen bezüglich der Beschreibung und Darstellung. Das Wechselspiel von Reflexionen aus Theorie und Praxis stellt gewissermaßen die Leitlinie dar. Der Anspruch, neueste lexikologische Erkenntnisse direkt in die Wörterbucharbeit einfließen zu lassen und diese Nachschlagenden angemessen zu vermitteln, zeichnet elexiko in diesem Angabebereich besonders aus. Das Bemühen um die Erfassung sämtlicher relevanter Sinnrelationen ist dabei mittlerweile nicht einzigartig für elexiko. Besonders elektronische Nachschlagewerke, deren Informationen automatisch aus einem Korpus extrahiert werden, versuchen, mehrere Beziehungsarten zu einem Stichwort zu gewinnen. Aber kein Wörterbuch beschreibt sämtliche für einen spezifizischen Kontext eines Stichworts, genauer einer Lesart, gebräuchlichen Beziehungsarten. Denn dies setzt nicht nur ein großes Korpus und geeignete Korpusverfahren, sondern vor allem auch eine Analyse, Interpretation und ein hohes Maß an lexikografischer Erfahrung voraus. Deshalb liegt die Stärke von elexiko in diesem Bereich vor allem in der Zuverlässigkeit der Informationen, der sprachlichen Authentizität, in der Darstellung des Sprachgebrauchs durch ausgewählte Belege, der Strukturierung der Informationen und in den lexikografischen Erläuterungen. Sämtliche relevanten Beziehungen eines Stichworts in einem bestimmten Kontext aus einem Korpus zu ermitteln, zu analysieren, zu interpretieren, zu ordnen, zu beschreiben und zu belegen, bedeutet vor allem einen hohen Zeitaufwand. Und da elexiko nicht auf der Grundlage eines bereits existierenden Wörterbuches aufbaut, sondern Schritt für Schritt seine ausdifferenzierten Informationen für jedes Stichwort neu erarbeitet, ist die Benutzbarkeit für Nachschlageakte zu sinnverwandten Wörtern allein aufgrund der augenblicklich noch geringen Anzahl bearbeiteter Artikel noch stark eingeschränkt. Petra Storjohann 100 In diesem Beitrag soll für die paradigmatischen Angaben eine Bilanz aus der bisherigen lexikografischen Praxis und dem Versuch, „der lexikologischen Forschung der letzten 30 Jahre gerecht zu werden“ (Haß 2005, S. 10), gezogen werden. elexikos Umgang mit dem Korpus und den verschiedenen Korpusverfahren, wie sie in Storjohann (2005a) erläutert wurden, werden ausgewertet. Dabei wird geklärt, wo die Vor- und Nachteile der Arbeit mit umfangreichen elektronischen Quellen liegen. Kurz skizziert wird auch, wie dieser Wörterbuchbereich mithilfe des zugrunde liegenden Korpus erarbeitet wird. Das Korpus als Spiegelbild der sprachlichen Wirklichkeit zwingt aber auch zur kritischen Auseinandersetzung mit Fragen der theoretischen Klassifikation und der traditionellen Beschreibung von Sinnrelationen. Dieser Beitrag zeigt dementsprechend, inwieweit bestehende Modelle den Sprachgebrauch berücksichtigen und welche Konsequenzen sich daraus für die lexikografische Praxis ergeben. Da elexiko kein abgeschlossenes Projekt ist, sind die folgenden Ausführungen einerseits ein Werkstattbericht, in dem auf die gegenwärtige Arbeit referiert wird, aber andererseits werden auch abgeschlossene Untersuchungen und deren Ergebnisse beschrieben sowie künftige Aufgabenbereiche skizziert. Um die lexikologischen und lexikografischen Fragestellungen zu verdeutlichen, werden konkrete Artikelbeispiele herangezogen. 2. Ein Korpus als Arbeitsgrundlage Für die Gewinnung sinnrelationaler Partnerwörter wird, wie für andere Angabenbereiche auch, ausschließlich das speziell für die Zwecke von elexiko zusammengesetzte „Allzweck“-Monitorkorpus (General Purpose Corpus) herangezogen, das in seiner Zusammensetzung dynamisch ist (vgl. Storjohann 2005b). 1 Die Veränderungen, die das Korpus in den vergangenen Jahren erfahren hat, wirken sich dabei positiv auf die tägliche Artikelarbeit aus. 2.1 Vorteile der Korpusarbeit Die Vorteile der Arbeit mit einem Korpus liegen in der Möglichkeit, den tatsächlichen Sprachgebrauch untersuchen zu können, Massendaten zur empirischen Analyse zur Verfügung zu haben, sowie Aussagen zu statistischer Signifikanz und Kookkurrenzen treffen zu können. Genau diese drei Aspekte spielen in der gegenwärtigen semantisch-lexikologischen Erforschung paradigmatischer Konstruktionen eine entscheidende methodologische Rolle. Die Analyse von sprachlichen Daten, die allgemeine Diskurse einer Sprechergemeinschaft darstellen, zeigt Sinnrelationen im Kontext, sodass auf elektronischer Basis grö- 1 Näheres zum Korpus siehe Abschnitt 2 der Einleitung in diesem Band. Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 101 ßere textuelle Rahmen für eine Beziehung genauer untersucht werden können. Ist eine Beziehung gebräuchlich, liegt in einem großen Korpus umfangreiches Material vor, um diese Relation nicht nur anhand weniger, sondern anhand zahlreicher Kontexte in ihrem Vorkommen und hinsichtlich ihrer Konstruktion im Text studieren zu können. Nicht singuläre Erscheinungen, sondern rekurrente Strukturen sind Ausdruck von Regelhaftigkeit und Musterhaftigkeit, und anhand empirischer Untersuchungen, wie sie mit einem großen Korpus möglich sind, erfasst elexiko die Kontextualität von Relationen. Seit Beginn der Artikelarbeit kamen für die Ermittlung und Beschreibung sinnverwandter Ausdrücke zwei Methoden zur Anwendung: die korpusgeleitete/ -gesteuerte (corpus-driven) und die korpusbasierte (corpus-based) Methode, die ausführlicher in Storjohann (2005a) beschrieben wurden. Durch die korpusgesteuerte Methode konnten signifikante paradigmatische Partnerwörter über Kollokationen ermittelt werden. Durch die korpusbasierte Methode wurden primär Informationen aus anderen Nachschlagewerken einer gezielten Korpusrückprüfung unterzogen. Aufgrund kontinuierlicher korpuslinguistischer Entwicklungen wurde ab 2006 ein weiteres Verfahren 2 (Belica i. Dr.) eingesetzt, das Stichwörter mit ähnlichen Kookkurrenzprofilen ermittelt und so potenzielle paradigmatische Relationswörter aufdeckt (vgl. dazu Hahn et al. 2008). Das Zusammenspiel mehrerer zueinander komplementärer Verfahren hat sich in der Vergangenheit als besonders vorteilhaft erwiesen. Die Unterschiede der Ergebnisse zwischen elexiko und Nachschlagewerken, die andere Methoden einsetzen, werden bei Wörterbuchabgleichen deutlich. elexiko erfasst als korpusgestütztes Wörterbuch systematisch Lücken anderer Synonym- oder Gegensatzwörterbücher. 3 Es ist häufig das Unerwartbare, das elexiko mit Korpusunterstützung aufdeckt und somit Beziehungen dokumentiert, die nicht in anderen Wörterbüchern gebucht sind. There might be a large number of potentially meaningful patterns that escape the attention of traditional linguists; these will not be recorded in traditional reference works and may not even be recognised until they are forced upon the corpus analyst by the sheer visual presence of the emerging patterns in a concordance page. (Tognini-Bonelli 2001, S. 86) Die Arbeit mit einem Korpus ermöglicht aber auch eine Einschätzung darüber, was statistisch signifikant ist und was nicht. Es können reflektiert Beziehungen angegeben werden, die nachweislich häufig vorkommen, und es kön- 2 Zu diesem Modul „Related Collocation Profiles“ siehe http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: 15.06.2010) (vgl. Belica 2004 und 2001-2007). 3 Z. B. Duden 8, WSA , WGDS . Petra Storjohann 102 nen Erläuterungen zu Beziehungen vorgenommen werden, die selten belegt sind. Aussagen darüber, welche Konstellationen zwischen zwei lexikalisierten Konzepten typisch sind und welche nicht, sind ohne Korpusauswertungen nicht möglich. Die Arbeit mit einem Korpus verdeutlichte bisher aber auch, dass manche in anderen Nachschlagewerken gebuchten Relationswörter nicht als Synonyme oder Gegensatzwörter im Sprachgebrauch nachzuweisen sind, sondern entweder eine andere Art Beziehung zueinander eingehen oder gar nicht miteinander in gemeinsamen Kontexten vorkommen. 4 Den Vorteil, auf den Tognini-Bonelli (2001) in Hinblick auf Korpusauswertungen hinweist, nämlich regelhafte semantische Strukturen mittels Korpora und den entsprechenden Werkzeugen aufzudecken und Aussagen aufgrund empirischer Analysen treffen zu können, macht sich elexiko zunutze. 2.2 Nachteile der Korpusarbeit Wie bereits erwähnt, kommen für eine umfassende Einschätzung und Interpretation der Datenlage mehrere Korpusverfahren zur Ermittlung sinn- und sachverwandter Ausdrücke zum Einsatz. Zwar unterstützen die Recherche- und Analysetools diese Arbeit, indem sie einen systematischen Zugang zu den Wortschatzstrukturen öffnen, doch der Arbeits- und Zeitaufwand für die eigentliche lexikografische Leistung bleibt erheblich. Im Allgemeinen wird erwartet, dass ein Korpus die Arbeit akkurater macht und vereinfacht sowie zusätzlich die Artikelarbeit beschleunigt. Wie sich zeigt, unterliegt man hier schnell einem Irrtum (siehe auch Klosa 2007). At the start of the Cobuild project in 1980 I assumed that the use of a corpus would improve accuracy and comprehensiveness, and it would speed up the process of lexicography because of the clarity of the descriptions and the organising power of the computer. Some of this proved to be correct, but I grossly underestimated the effect of the new information that the corpus supplied, and in particular the total lack of fit between the evidence coming from the corpus and the accepted categories of English lexicography. (Sinclair 2004, S. 9) Zum einen ist es die schiere Menge an Daten, die bewältigt werden muss, auch wenn sie bereits visuell vorstrukturiert angeboten wird, z. B. von einer Kollokationssoftware (siehe Belica 1995). Von einem kleinen Korpus als Arbeitsgrundlage - dies scheint auf den ersten Blick eine naheliegende Lösung zur Reduzierung der Datenflut - sollte dennoch abgeraten werden, denn ein allgemeines Monitor-Korpus für lexikografische Zwecke sollte so umfangreich wie möglich sein, um die sprachliche Realität umfassender in ihrer Vielfalt abbilden zu können. Nur mit einem großen Korpus können einigermaßen hin- 4 Konkrete Wörterbuchbeispiele zu diesen Unterschieden siehe Storjohann (2006b). Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 103 reichend usuelle Strukturen aufgedeckt werden. Zum anderen wurde auch in elexiko Sinclairs Aussage bestätigt, dass man bei der Untersuchung von paradigmatischen Mustern auf Strukturen stößt, die in keine konventionell definierten Kategorien passen. Aufgrund der großen Diskrepanzen bedeutete das für den Bereich der Sinnrelationen, dass gleichzeitig die Suche nach neuen Kategorien unabdingbar wurde. Auch hier wiederum stellt zwar das Unerwartbare einen Erkenntnisgewinn dar, aber die Lexikografie kämpft umso mehr mit Phänomenen, die in der Lexikologie nicht ausreichend beschrieben wurden oder für die es keine bewährten Verfahren zur praktischen Vermittlung in Wörterbüchern gibt. In lexikologischer als auch lexikografischer Hinsicht mussten Lösungen gefunden werden, die kompatibel zueinander sind. Aber sieht man von den Fällen ab, die solche Diskrepanzen aufwerfen und Lösungen erfordern, bleibt auch für klare Fälle von semantischen Beziehungen der Bearbeitungsaufwand groß. Die Gründe hierfür sind vielfältig und gehen auf die unterschiedlichsten Arbeitschritte zurück, die zur Erfassung und Dokumentation von Sinnrelationen notwendig sind. 2.3 Einblicke in die Arbeitsabläufe Im Vergleich zu anderen Angabebereichen in elexiko ist der Zeit- und Arbeitsaufwand für die Erarbeitung der Informationen zu sinnverwandten Wörtern oft erheblich höher. Die bisherige Praxis hat dafür mehrere Gründe aufgezeigt: Es ist vorteilhaft, mehrere komplementäre Verfahren zur Ermittlung der paradigmatischen Partnerwörter einzusetzen, um das Korpus möglichst hinreichend explorativ zu nutzen (siehe dazu Storjohann 2005a, 2006a, b; Hahn et al. 2008). Für einen Großteil der bisher erarbeiteten Wörterbuchartikel konnten nur durch den Einsatz mehrerer Methoden die verschiedensten Beziehungsarten umfassend erkannt werden. Die Notwendigkeit des Einsatzes unterschiedlicher, meist nachgelagerter Verfahren liegt z. T. in den syntagmatischen Besonderheiten einzelner Wortarten, aber auch in der Existenz weniger prototypischer Lesarten polysemer Stichwörter begründet, für die bei der Suche nach Kollokatoren keine repräsentativen Kontexte ermittelt werden können. Derzeit werden aber hochfrequente Stichwörter untersucht, das heißt Stichwörter mit mehr als 10.000 Treffern im Korpus. 5 Unter diesen befinden sich vorwiegend polyseme Ausdrücke. Die unterschiedlichen Verwendungen und damit auch die Bedeutungsbreite spiegeln sich z. T. stark in der Paradigmatik eines Ausdrucks wider. Im Allgemeinen besteht die Tendenz, 5 Vgl. Abschnitt 3 der Einleitung in diesem Band. 1) 2) Petra Storjohann 104 dass dieser Angabebereich umso schneller ausgefüllt ist, je weniger Belege im Korpus vorhanden sind und je weniger Lesarten ein Stichwort aufweist. Für das derzeitig in Arbeit befindliche Lexikon zum öffentlichen Sprachgebrauch bedeutet das, dass für mehrere Lesarten eines zahlreich belegten Wortes Informationen gesucht, geprüft und bestätigt werden müssen, bevor sie als Angabe aufgenommen werden können. Aufwendig ist auch das Prüfen von potenziellen Partnerwörtern, die keinen Eingang ins Wörterbuch finden. Der Arbeitschritt des Aussortierens durch Korpusvalidierung spiegelt sich ja gerade nicht in den Wörterbuchinhalten wider und kann daher schnell unterschätzt werden. Der Bereich der Paradigmatik ist auch dadurch charakterisiert, dass jede aufgenommene Beziehung belegt wird. Die Suche nach geeigneten Belegen, die möglichst ideale kontextuelle lexikografische Bedingungen erfüllen, bleibt trotz computergestützter Methoden aufwendig. Eine Anforderung an die lexikografische Kompetenz ist es daher, möglichst sehr präzise und gleichzeitig variable Anfragen an das Korpus stellen zu können, um in einer großen Datenmenge vergleichsweise wenige, aber relevante und sehr deutliche Belege zu finden. Dies betrifft Fragen der Illustration von paradigmatischen Konstruktionen (siehe dazu Abschnitt 4.1), von ähnlichen Referenzbezügen sowie Anforderungen an die allgemeine, gute Verständlichkeit. Und zuletzt steht neben der gezielten Suche nach illustrativen Belegen auch die allgemeine Durchsicht der Belege an, um Hinweise auf Verwendungseinschränkungen zu einer Sinnrelation zu bekommen. Dabei können nicht hunderte oder gar tausende Belege durchgesehen werden, vielmehr muss man sich ein Verfahren aneignen, mit dem Tendenzen zu bestimmten Gebrauchsmustern möglichst effektiv bei der Durchsicht von Konkordanzen erkannt werden. Die Summe dieser Verfahren und Arbeitsschritte führt dazu, dass die gewünschten Inhalte für diesen Bereich einen gewissen Zeitaufwand benötigen. Ein Korpus und seine Tools ermöglichen entgegen allgemeiner Annahmen kein schnelleres, sondern ein systematischeres Arbeiten, ein Arbeiten mit realen Sprachdaten, ein Arbeiten, das aufgrund großer Datenmengen bessere Verallgemeinerungen zulässt und sicherere Aussagen zur Relevanz und Verbreitung eines Relationspartners trifft. Es sind diese Vorteile, die elexiko für die Informationen zu Sinnrelationen ausschöpft und womit es sich in seinem Ergebnis der Dokumentation von lexikalisch-semantischen Beziehungen von anderen Nachschlagewerken abhebt. 3) 4) 5) Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 105 2.4 Möglichkeiten der automatischen Datenfüllung Das Zusammenspiel der unterschiedlichen Ansätze ist sehr arbeitsintensiv. Mit der Frage, ob bestimmte Wörterbuchinformationen automatisch ermittelt werden können und dadurch das Schreiben der Wörterbucheinträge beschleunigt werden kann, setzte sich elexiko in der Vergangenheit und setzt es sich auch gegenwärtig regelmäßig auseinander. Dabei ist die Arbeitsgruppe zu der Überzeugung gekommen, dass eine wesentliche Beschleunigung bezüglich des Zeitaufwands nur dann möglich ist, wenn die gewonnenen Informationen keiner oder nur minimaler linguistischer Analyse und Interpretation unterzogen werden. Die Internetnachschlagewerke bzw. -ressourcen 6 für die deutsche Gegenwartssprache, die maschinell berechnete semantische Relationswörter anbieten, arbeiten ohne lexikografisches Nachprüfen oder Korrekturgang. Das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts ( DWDS ( WDG )) 7 beschränkt sich auf automatisch ermittelte Beziehungen der Synonymie und Hyperonymie/ Hyponymie. Der Deutsche Wortschatz 8 gibt außerdem rein automatisch ermittelte Gegensatzwörter an. Eine erste kritische Einschätzung der Ergebnisse derartig generierter Angaben zu Sinnrelationen erfolgte in Storjohann (2006b). Zweifelsohne lassen sich mithilfe der genutzten Algorithmen schnell Informationen für eine große Wortschatzstrecke extrahieren. Aber die Frage, die man sich bei jedem automatisierten Arbeitsschritt stellen muss, ist, wie man mit den Resultaten umgeht. Man sollte doch die gewonnene Zeitersparnis immer auch den durch die Software verursachten Fehlern gegenüberstellen. Welchen Fehlergrad möchte man als linguistisch-lexikografisch ausgerichtetes Projekt vertreten können oder inwieweit soll eine weitere lexikografische Analyse als Folgearbeitsschritt erfolgen? Warum wurden bisher keine automatisch gewonnenen Synonyme, wie sie beispielsweise im DWDS ( WDG ) oder im Deutschen Wortschatz dokumentiert werden, in elexiko aufgenommen? In den untersuchten Online-Nachschlagewerken werden alle automatisch extrahierten bedeutungsäquivalenten Ausdrücke für ein Stichwort und seine Wortformen angegeben. Diese Art der Angabe widerspricht vollständig dem heutigen semantischen Grundgedanken, dass Relationen zwischen Konzepten manifestiert werden, die mittels bestimmter Konstruktionen lexikalisiert werden und sich immer auf einen speziellen Kontext 6 Zur Klassifizierung von Internetwörterbüchern siehe Müller-Spitzer (2004). 7 Vgl. hierzu www.dwds.de (Stand: 15.06.2010). Die derzeit angegebenen automatisch ermittelten Relationswörter basieren auf der Wörterbuchgrundlage des Wörterbuchs der deutschen Gegenwartsprache ( WDG ). In einer künftigen Beta-Version werden externe Daten aus einem Open-Thesaurus integriert, die auf einer anderen Datenbasis beruhen. 8 Vgl. hierzu das Wortschatzportal http: / / wortschatz.uni-leipzig.de/ (Stand: 15.06.2010). Petra Storjohann 106 beziehen (vgl. Murphy 2003, 2006; Croft/ Cruse 2004). Eine Beziehung der Synonymie beispielsweise sollte daher nie auf Lexemebene angegeben werden, wie es z. B. im DWDS ( WDG ) bzw. beim Deutschen Wortschatz erfolgt (siehe Abb. 1 und 2), weil sie die relationskonstituierenden Aspekte der konzeptuellen und semantisch-kontextuellen Komponenten ignoriert. Beispiel Praxis aus DER DEUTSCHE WORTSCHATZ Synonyme: Anwaltskanzlei, Arztpraxis, Behandlungsräume, Berufserfahrung, Erfahrung, Fakten, Kontor, Leben, Ordination, Realität, Routine, Sprechstunde, Sprechzimmer, Vertrautheit, Wirklichkeit ist Synonym von: Arbeitsweise, Arztpraxis, Behandlungsräume, Berufserfahrung, Beschlagenheit, Einsicht, Erfahrenheit, Erfahrung, Fachkenntnis, Faktenwissen, Fertigkeit, Gelehrsamkeit, Gelehrtheit, Kenntnis, Know-How, Kunstfertigkeit, Leben, Lebenserfahrung, Materie, Methode, Ordination, Praktik, Praktik, Routine, Sachkenntnis, Sprechstunde, Technik, Übung, Weitblick, Wirklichkeit, Wissen Abb. 1: Automatisch gewonnene Synonyme im DEUTSCHEN WORTSCHATZ Beispiel Praxis aus DWDS ( WDG ) Synonyme: Berufserfahrung Praktik Handhabung Abb. 2: Automatisch gewonnene Synonyme im DWDS ( WDG ) Auch wenn z. T. eine Vielzahl semantisch ähnlicher Ausdrücke aufgedeckt werden, widerspricht ein Wörterbuch, das die lexikologischen Beschreibungen oder die rein alphabetischen Auflistungen von Beziehungen zwischen Wörtern auf Stichwortebene und nicht auf Lesartenebene angibt, nicht nur gängiger semantischer Theorie, sondern vermittelt auch Nachschlagenden keine korrekte Vorstellung von kontextuellen Bezügen und Einschränkungen. Derartige Angaben sind besonders für Fremdsprachenlernende ungeeignet. Hier bietet jedes gedruckte, lexikografisch bearbeitete Wörterbuch (z. B. Duden 8), das in der Regel zwar weniger Informationen enthält, dafür aber seine Synonyme lesartendifferenziert angibt und damit eine verlässlichere Nachschlagequelle darstellt, einen besseren Ansatz. Besonders kritisch müssen die Ergebnisse der automatischen Ermittlung von Gegenwörtern gesehen werden. Die Resultate lassen erahnen, dass gezielte Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 107 Algorithmen das Korpus nach Negierungspräfixen wie z. B. Anti-, Nicht-, Un-, Widerabsuchen. Storjohann (2006b) kritisierte den Beispielartikel Leben, der als Gegensatzwörter Nichtleben und Antileben 9 angibt. Gebräuchliche und typische Gegenwörter wie Ableben, Absterben, Ende, Sterben, Tod, Verscheiden, die nicht automatisch ermittelt bzw. konstruiert werden konnten, werden hingegen nicht erfasst. Auch die automatische Suche nach Unterbegriffen beschränkt sich auf die Suche nach Komposita mit dem Suchwort als Grundwort. Hier liegt eine stark vereinfachte Annahme zugrunde, dass solche Komposita immer speziellere Fälle des Konzeptes sind, das mit dem Grundwort ausgedrückt wird. So listet der Deutsche Wortschatz auch Städtenamen auf, die -leben als Bestandteil des Namen aufweisen, z. B. Gorleben, Oschersleben, Eisleben. Aber auch Nominalisierungen wie das Erleben und das Überleben tauchen bei den automatischen Angaben auf. In einer Beziehung der Hyponymie müssten diese lexikalisierten Konzepte als eine Art „Leben“ interpretierbar sein. Das DWDS (WDG ) nutzt hier andere Algorithmen und beschränkt sich nicht nur auf reine Buchstabenfolgen, die in Texten abgefragt werden. Aber auch hier sind einige Hyponyme dokumentiert, die nicht nachvollziehbar sind, z. B. Erde, Lebenskunst, Lebenskünstler und Wüstling, also teilweise Personenbezeichnungen als Hyponym zu Leben. Das Fazit, das elexiko bisher aus automatischen Angaben zog, lautet: Diese Art der Angabe weist eine zu hohe Fehlerquote bezüglich des Inhalts auf. Aufgrund fehlender lexikografischer Kontextzuordnung erfolgt keine angemessene lexikologisch-semantische Darstellung von paradigmatischen Beziehungen. Es erfolgt kein Abbild des Sprachgebrauchs und typische Strukturen werden oft gar nicht erfasst. Es wird häufig ein sehr unrealistisches Bild der sprachlichen Wirklichkeit vermittelt. Zusätzliche sprachliche Informationen hinsichtlich kontextueller Verwendungseinschränkungen können nicht angegeben werden. Für eine Nutzung der Ergebnisse automatisierter Verfahren ist folglich eine lexikografische Nacharbeit unverzichtbar. Automatisierte Verfahren sollten durchaus eine günstige Möglichkeit der Datenermittlung darstellen, aber nicht 9 Das Gegenwort Antileben ist heute nicht mehr als Antonym im Wortschatzlexikon gelistet (Stand: Dezember 2009). Für weitere in Storjohann (2006b) kritisierte Beispiele sind heute keine Details zur Beziehung des Bedeutungsgegensatzes mehr aufgeführt. 1) 2) 3) 4) 5) Petra Storjohann 108 alleiniges Instrument der sprachlichen Beschreibung bleiben. elexiko hat sich 2006 entschlossen, ein zusätzliches methodologisches Verfahren zur Ermittlung von Ausdrücken mit ähnlichen Kollokationsprofilen 10 hinzuzunehmen. Mittels des Moduls „Related Collocation Profiles”, das auf der Basis der CCDB -Kookkurrenzdatenbank 11 des Instituts für Deutsche Sprache arbeitet, werden Ausdrücke absteigend nach Grad der semantischen Ähnlichkeit ermittelt. Diese werden in elexiko zunächst als potenzielle Kandidaten betrachtet, die einer anschließenden Korpusuntersuchung unterzogen werden, um sie ggf. als relevante Beziehungswörter im Wörterbuchartikel an entsprechender lesartenbezogener Position aufzunehmen (siehe Hahn et al. 2008). Welche Erfahrungen hat elexiko mit der automatisierten Suche in Bezug auf potenzielle Sinnrelationen gemacht? Die Arbeit mit dem Modul „Related Collocation Profiles“ ist in den vergangenen Jahren zum unerlässlichen Arbeitsschritt bei der Ermittlung sinnrelationaler Ausdrücke geworden. Erfasst werden keine kontextuellen Mitspieler, die links und rechts in bestimmtem Abstand miteinander vorkommen (wie sie durch die Kollokationsanalyse gewonnen werden), sondern Ausdrücke, die ähnliche kontextuelle Mitspieler haben, also semantisch ähnliche Verwendungen aufweisen. Die Erfahrung hat gezeigt, dass auf diese Weise in der Datenbank vor allem Synonyme und unterschiedliche Arten von Gegensatzrelationen ermittelt werden können, die häufig auch mit gezielter Korpusrückprüfung im elexiko-Korpus als relevant verifiziert und ins Wörterbuch aufgenommen werden. Die Suche nach Ausdrücken mit ähnlichen Kollokationsprofilen bringt vor allem bei Verben einen besonderen Gewinn. Da Verben stärker dazu neigen, syntaktische Beziehungen mit Ausdrücken anderer Wortarten einzugehen, tauchen kaum verbale Synonyme oder verbale Gegenwörter als unmittelbare Kollokatoren im elexiko-Korpus auf. Und das korpusgeleitete Verfahren zur Analyse von paradigmatischen Partnerwörtern geht primär von den Ergebnissen der Kollokationsanalyse aus - einer Methode, die vor allem für Verben nicht immer gewinnbringend eingesetzt werden kann. Derartige syntaktische Charakteristika spielen bei der Ermittlung von semantisch ähnlichen Ausdrücken aufgrund von ähnlichen Kollokationsprofilen keine Rolle. Es ließ sich beobachten, dass elexiko mit 10 Die Ergebnisse der automatischen Analysen des WDG und vor allem des Deutschen Wortschatzes lassen vermuten, dass andere Suchalgorithmen für sinnverwandte Ausdrücke zugrunde liegen. Hierzu gibt es leider keine Publikationen, die die dort genutzten Verfahren näher beschreiben. Der Hintergrund eines korpusgeleiteten, empirisch-linguistischen Ansatzes zur Ermittlung von Ausdrücken mit semantischer Nähe aufgrund von ähnlichen Kollokationsprofilen wird in Belica (i. Dr.) näher erläutert. 11 Vgl. hierzu http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: 16.06.2010). Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 109 seiner Methode regelmäßig Ausdrücke aufdeckt, die nicht in anderen Wörterbüchern gebucht, aber nach einer Korpusauswertung als typisch für den Sprachgebrauch einzustufen sind. Generell liegt der Zusatzgewinn bei dieser Methode sowohl bei dem Erwartbaren, das verifiziert werden kann, als auch beim Unerwartbaren, das zusätzlich als Information gewonnen wird. Auch in Zukunft wird elexiko sinnverwandte Ausdrücke anbieten, die aus einem sehr umfangreichen Korpus gewonnen wurden und anhand eines konkreten, lexikografisch ausgewählten sprachlichen Beispiels nachvollzogen werden können. Nachschlagende sollen Angaben erhalten, die verlässlich sind, weil sie einer Analyse und Interpretation unterzogen wurden. Sie sollen sprachliche Informationen finden, die typisch sind und die kontextbezogen angegeben werden und damit die entsprechenden Sinnrelationen in ihrem referenziellen Verwendungsbereich einordnen. Darüber hinaus bemüht sich elexiko um eine Beschreibung der Sinnrelationen, die generell auch Fremdsprachenlernende hilfreich finden. 12 All diese Aspekte kann man mit deutlich weniger Arbeitsaufwand oder anderen Methoden und Verfahren derzeit nicht abdecken. Sie erfordern ein hohes Maß an Wissenschaftlichkeit und Reflexion. 3. Lexikologische Betrachtungen In den vergangenen Jahren begleitete die lexikografische Praxis der Erfassung und Beschreibung sinnrelationaler Ausdrücke auch immer eine theoretischlexikologische Auseinandersetzung mit dem Thema. Die lexikografische Erfahrung spielte eine besonders wichtige Rolle für den Erkenntnisgewinn, auch deshalb, weil sie auf der Basis der Korpusarbeit, also der empirischen Untersuchung des Sprachgebrauchs, gesammelt wurde. So konnten zahlreiche Beobachtungen bezüglich der Strukturen, der Konstruktionsmöglichkeiten, aber auch der Funktionen und der kognitiven Prinzipien von paradigmatischen Beziehungen gemacht und ausgewertet werden. 13 Ziel war es dabei immer, die gewonnenen Erkenntnisse auch im Wörterbuch widerzuspiegeln und Nachschlagenden näherzubringen. Traditionelle Klassifikationsmuster, die als theoretischer Rahmen die Angaben in elexiko stützen sollten, kristallisierten sich zunehmend als wesentlichster Kritikpunkt heraus (siehe dazu bereits Hahn et al. 2008, S. 68ff.). 12 Zur Kritik an der Benutzbarkeit von deutschen Synonymwörterbüchern für Deutschlernende siehe z. B. Durrell (2001). 13 Siehe hier vor allem Storjohann (2006c, 2009 und 2010). Petra Storjohann 110 3.1 Sinnrelationen in Text und Diskurs 3.1.1 Untersuchungsziele und Methoden Ungeachtet der semantischen Strömung verfolgten traditionelle semantische Ansätze das Ziel, Sinnrelationen für die Beschreibung von Wortschatzstrukturen zu definieren, zu formalisieren und zu klassifizieren (vgl. Lyons 1968; Cruse 1986; Lutzeier 1981). Wenn auch kontextuelle Aspekte immer eine wesentliche Rolle für die Manifestierung von Beziehungen spielten, basierten die Beschreibungen auf der Konstruierung eigener, intuitiver Beispielsätze. Es sind erst die Methoden und Ausrichtungen der Korpuslinguistik, die sich um empirische Untersuchungen bemühen. Denn obwohl besonders unter Wortfeldtheoretikern das Interesse an Sinnrelationen stark ausgeprägt war (z. B. Trier 1931; Weisgerber 1954; Wotjak 1970), blieb die Anzahl umfangreicher empirischer Studien von Sinnrelationen sehr gering (vgl. auch Kühlwein 2002, S. 534). Korpora als Arbeitsgrundlagen und korpuslinguistische Verfahren zur Erforschung des tatsächlichen Sprachgebrauchs - also Forschung, die als usagebased definiert wird - prägen heute die semantischen Arbeiten zu Sinnrelationen (vgl. Jones 2002; Murphy 2006; Paradis et al. 2010). Aber nicht nur die Methoden und die Arbeitsbasis, mit denen paradigmatische Strukturen untersucht werden, haben sich verändert, sondern vor allem das Untersuchungsziel. Der kognitive Ansatz der Linguistik ist ein integrativer Ansatz, der linguistische und konzeptuelle Strukturen miteinander verknüpft. Daher geht dieser sprachwissenschaftliche Ansatz über eine bloße deskriptive Analyse und Beschreibung von Sprache hinaus und beschäftigt sich verstärkt mit der Frage, wie Sprache funktioniert. Gegenwärtig steht in der allgemeinen Forschung nicht die Kategorisierung und Definition von Beziehungsarten im Vordergrund der semantischen Betrachtung. Vielmehr geht es aktuell um das Bemühen, zum einen die Konstruktionen von lexiko-semantischen Beziehungen im Sprachgebrauch (vgl. Murphy 2006) und deren Funktionen im Text und Diskurs zu erfassen (vgl. Jones 2002 und Murphy et al. 2009). Zum anderen werden psycholinguistische Ansätze mit einbezogen, die die zugrunde liegenden konzeptuellen und kognitiven Prinzipien bei der Etablierung von Sinnrelationen untersuchen (vgl. Paradis 2008; Paradis et al. 2010). Die Forschungsergebnisse neuester Studien bieten vielversprechende Resultate besonders hinsichtlich der Erklärung des Zustandekommens von semantischen Relationen. Der Fokus der angeführten Arbeiten liegt auf der Untersuchung englischer und schwedischer Sinnrelationen. Ähnlichen Untersuchungszielen hat sich elexiko bei der theoretischen Auseinandersetzung mit Sinnrelationen im deutschen Sprachgebrauch verpflichtet. Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 111 3.1.2 Klassifikationen paradigmatischer Strukturen Klassifikationen von Beziehungsarten der Paradigmatik entstanden vor allem während des Strukturalismus (Lyons 1968; Cruse 1986; Lutzeier 1981). Die meisten strukturalistischen Ansätze und Perspektiven stimmen in der Meinung überein, dass Sinnrelationen einen integrativen Bestandteil der Wortschatzstruktur bilden. In den entwickelten Klassifikationsschemata spiegelt sich stark der Gedanke eines zugrunde liegenden klar gliederbaren Systems wider, in das alles eingeordnet werden kann. So wurden Sinnrelationen generell in horizontale und vertikale Beziehungen getrennt, und die zahlreichen Gegensatzbeziehungen wurden auf verschiedene Art subkategorisiert. Besonders die Wortfeldtheorie machte sich um das Erfassen und Abgrenzen lexikalisch-semantischer Felder verdient, bei dem die Definition von paradigmatischen Beziehungen eine bedeutende Rolle zur Strukturierung des Feldsystems spielte. Die Kategorien solcher Systeme waren relativ starr und eindeutig abgrenzbar, folgten logisch-formalen Theorien und konnten tatsächlich auch zahlreiche Beispiele für Sinnrelationen abdecken. Auffällig war aber, dass es sich häufig um Beziehungen zwischen Bezeichnungen für konkrete Konzepte handelte. So dienten etwa Gattungsnamen immer wieder zur Veranschaulichung von Hyperonymiebeziehungen. Die wenigen, maßgeschneiderten Beispiele wiederholten sich häufig in der Literatur, zahlreiche schwierige Fälle blieben unberücksichtigt und ohne Beispieldarstellungen. Nur in stärker kontextuell ausgerichteten Arbeiten (z. B. Cruse 1986) wurde immer wieder betont, dass es keine starren Grenzen zwischen den Gruppierungen und Arten von paradigmatischen Sinnrelationen geben kann. Bestimmte Gruppen von Sinnrelationen sind bei Cruse gedanklich auf einem Kontinuum angesiedelt und gehen fließend ineinander über. Sinnrelationen können auch zwischen zwei Ausdrücken innerhalb einer Lesart kontextuell variieren, wenn bestimmte semantische Merkmale fokussiert oder ausgeblendet werden. Auch wenn Cruse (2004) selbst die Theorie semantischer Beziehungen weiterentwickelt, mit einem kognitiven Ansatz verknüpft und entscheidende Konstruktionsprozesse beim eigentlichen Sprachgebrauch ansiedelt, bleibt der Sprachgebrauch bei ihm ein Prozess auf rein theoretischer Ebene. Umfangreiche empirische Arbeiten, die die Grenzen der Klassifikationen genauer aufdecken, fehlen daher bis heute. Die Grenzen vorgefertigter Kategorien eines zugrunde liegenden Sprachsystems wurden der elexiko-Gruppe bei der täglichen lexikografischen Praxis schnell deutlich. Die empirischen korpusgestützten Ergebnisse, wie sie elexiko für die Analyse von Sinnrelationen erhält, stellten in der Vergangenheit immer Petra Storjohann 112 wieder eine Herausforderung für bestehende Klassifikationssysteme dar. Häufig tauchten folgende grundlegende Probleme bei der Einordnung von Sinnrelationen auf: Zum einen konnten die formal-logischen Bedingungen, die für bestimmte Relationen definiert waren, nicht immer vollständig nachgewiesen werden, z. B. die beiderseitige semantische Graduierbarkeit/ Relativierbarkeit bei Antonymen wie häufig - nie, knapp - exakt. Während die Konzepte, die mit häufig und knapp bezeichnet werden, innerhalb eines < HÄUFIGKEITS >- Spektrums variieren können, also die Bedingung erfüllen, antonym zu sein, beziehen sich die Ausdrücke nie und exakt dagegen auf deutlich festere Größen, die bestimmt und nicht semantisch graduierbar sind. Diese Problematik gibt es z. B. bei häufig - selten nicht, weil beide zugrunde liegenden Konzepte gleichermaßen relativ sind. Bei anderen Adjektiven wie intelligent - unintelligent, gefährlich - ungefährlich bezeichnet die negierte Form einen semantisch nicht relativierbaren Zustand bzw. eine semantisch nicht variable Eigenschaft, während die nicht negierte Form semantisch steigerbar oder als konzeptuelle Größe variabel ist. 14 In folgendem Beispiel (1) stellt sich die Frage, ob solche Paare aufgrund ihrer Steigerbarkeit als Antonyme oder aufgrund ihrer Nichtsteigerbarkeit als komplementäre Gegensatzwörter zu buchen sind. (1) Die Grippe sei nicht anders als in den Jahren davor: weder gefährlicher noch völlig ungefährlich. (Tiroler Tageszeitung, 20.01.2000, Grippewelle grassiert) Des Weiteren konnte bereits eine Vielzahl von unterschiedlichen Beziehungen nachgewiesen werden, für die es in traditionellen Klassifikationen keine Kategorie gibt, z. B. für Beziehungen, in denen modale Gegensätze betont werden wie Aufforderung - Bitte oder für evaluative Beziehungen kausaler Art, z. B. gefährlich - unberechenbar (siehe Beispiel (2) und (3)). (2) „Machen Sie Platz, Monsieur“ ist keine höfliche Bitte, sondern eine Aufforderung. (Züricher Tagesanzeiger, 07.02.1996, S. 1) (3) Gerade die Gewalttäter, die zuerst Familienangehörige, aber dann auch Freunde und Bekannte angreifen, seien besonders unberechenbar und deshalb gefährlich, fand Adler heraus. (die tageszeitung, 24.12.1993, S. 34) Die Beobachtung, die beispielweise Lutzeier (1995, S. 85) macht, dass „im Sprachgebrauch offensichtlich mit den Sinnrelationen relativ flexibel umgegangen werden kann“, machen u. a. auch Cruse (1986) und Partington (1998). 14 Die syntaktische Steigerbarkeit ist kein Kriterium der Antonymie. Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 113 Aufgrund mangelnder empirischer Untersuchungen wird dieses Phänomen aber nicht weiter ausführlich besprochen. Hier handelt es sich häufig um Relationen, die traditionell der Synonymie zugeschrieben werden, deren beteiligte Relationspartner aber gleichzeitig für die Herstellung einer impliziten Beziehung zwischen den Konzepten genutzt werden können. Derartige Beziehungen sind aufgrund von Kausalität oder Konditionalität zwischen den bezeichneten Konzepten möglich (siehe Storjohann 2006c und 2010). Für Fälle der deutschen Plesionymie konnte beobachtet werden, dass diese ebenfalls traditionell der Synonymie zugeordnet werden, sie aber variieren und Kontrastivität zum Ausdruck bringen können, z. B. zwischen ernst - kritisch, sauber - rein (siehe dazu Storjohann 2009). (4) Die Gänge sind, wie der Lokalaugenschein zeigt, sauber. Nicht so rein sind hingegen die Schächte der U-Bahnen. (Die Presse, 16.03.1996, Mißachtetes Rauchverbot in öffentlichen Gebäuden) (5) Sydney, die kosmopolitische Millionenstadt, wirkt so herausgeputzt, daß sie nicht nur sauber ist, sondern rein [...]. (die tageszeitung, 27.01.1988, S. 7, Its great to be Australian) Die praktische lexikografische Arbeit der vergangenen Jahre bestätigte, dass Sinnrelationen mithilfe bestimmter Prozesse und Mechanismen kontextuell konstruiert werden und entsprechend dynamisch und variabel sein können. Für die lexikgrafische Präsentation stellt das eine besondere Herausforderung dar (siehe Abschnitt 4.4). Bei einigen Fällen handelt es sich um ein sehr systematisches Variieren. Die Erkenntnisse der praktischen Artikelarbeit deuten darauf hin, dass für solche Konstruktionsprozesse sowohl semantisch-lexikalisches als auch nichtsprachliches Wissen eine Rolle spielt und dass auch Fragen von Konzepten und kognitiven Prinzipien zusätzlich zur Erklärung von Beziehungen herangezogen werden sollten. Dass heißt vor allem, dass bestimmte formal-logisch definierte Kategorien möglicherweise der Eingruppierung von Sinnrelationen dienen, diese aber in ihrem kontextuellen Zustandekommen nicht erklären. Die empirischen Befunde können teilweise nicht angemessen in traditionelle Klassifikationsmodelle eingeordnet werden. Aber sie gewähren Einblicke in sprachliche Konstruktionen, die uns Aufschlüsse über mögliche zugrunde liegende mental-kognitive Mechanismen einer kontextuell produzierten Beziehung geben, um Erklärungsmodelle für die Manifestation einer Beziehung daraus ableiten zu können Petra Storjohann 114 3.1.3 Paradigmatik vs. Syntagmatik? Traditionelle Theorien gingen von einer Trennung von paradigmatischen und syntagmatischen Mustern aus, die z. T. bis heute als etablierte Kategorien bestehen: Paradigmatic relations between linguistic units, of whatever level, are established in the basis of intersubstitutability (in a given environment of construction), syntagmatic relations, on the basis of co-occurrence (in a given environment or construction). (Lyons 2002, S. 467) Neuere semantische, vor allem kognitive Ansätze haben sich dagegen von starren Dichotomien, wie z. B. der Trennung zwischen Kategorien der Grammatik und Lexik oder aber auch zwischen Paradigmatik und Syntagmatik, losgelöst. Mittlerweile gibt es zahlreiche Studien vor allem für die englische Sprache (z. B. Jones 2002; Murphy 2006), und hier bevorzugt für Antonyme, die zeigen, dass sinnrelationale Beziehungen im Sprachgebrauch keine strikt paradigmatischen Muster sind, sondern dass sämtliche Beziehungsarten kontextuell auf der syntagmatischen Ebene realisiert werden und sich auch auf der Basis von Kookkurrenzen etablieren. 15 Antonymy has traditionally been regarded as a paradigmatic opposition permanently available in the lexicon of the language. However, it is better seen in addition as a syntagmatic relation, which is realized in co-text. (Stubbs 2001, S. 39) Korpusgestützte Untersuchungen von englischen Antonympaaren zeigten, dass syntagmatische Rahmen immer wieder als typische Muster bei Gegensatzrelationen nachweisbar sind und dass diese bestimmte diskursive Funktionen für eine Beziehung ausüben (vgl. Jones 2002). Murphy (2006) führt den Gedanken fort, dass Paradigmatik und Syntagmatik für die Manifestierung einer Sinnrelation auf das engste miteinander verflochten sind. Sie schlägt aufgrund empirischer Untersuchungsergebnisse vor, Gegensatzbeziehungen als Konstruktion im Sinne der Konstruktionsgrammatik zu beschreiben, ein Vorschlag, der aber insgesamt nur skizziert wird. By not tying grammatical explanation to the notion of constituency, Construction Grammar can account for structures at every level from the morphological to the textual. This is particularly apt for the treatmeant of antonym pairs, which co-occur both within (hot and cold ) and across ( from hot to cold ) constituent boundaries. (Murphy 2006, S. 2) 15 Gegensatzrelationen sind in unterschiedliche diskurs-funktionale syntagmatische Frames eingebaut, z. B.: Unemployment may rise more quickly now, but more slowly later (Jones 2002, S. 46) oder It's a strength and, obviously a weakness (ebd., S. 69). Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 115 Diese jüngsten Ansätze wurden bisher weder bezüglich ihrer Anwendbarkeit für die unterschiedlichen Gegensatzbeziehungen noch für Ähnlichkeitsbeziehungen umfassend getestet. Das gilt sowohl für das Englische als auch für das Deutsche. Der Frage, ob Sinnrelationen im Sinne einer Konstruktion erklärbar sind, hat sich elexiko in den letzten Jahren verstärkt gewidmet. Auch wenn bisher keine abschließende Antwort dafür gefunden werden konnte, scheint Murphys Vorschlag auf besondere Weise die syntagmatischen Bedingungen für eine paradigmatische Bindung zu berücksichtigen - ein Vorschlag, der auch von elexiko akzeptiert wird. Bei Fällen der deutschen Inkompatibilität (Storjohann 2007), der Plesionymie (Storjohann 2009) und der Synonymie (Storjohann 2006c, 2010) wurde ebenfalls für eine Betrachtung von Sinnrelationen außerhalb einer strikt paradigmatischen Perspektive plädiert und auf musterhafte syntagmatische Rahmen mit speziellen Diskursfunktionen hingewiesen. 16 In lexikografischer Hinsicht hatte dies Auswirkungen auf die Wahl der Korpusverfahren sowie auf die Wahl der illustrativen Belege (siehe Abschnitt 4) im Wörterbuchbereich „Sinnverwandte Wörter“. 3.1.4 Lexikalische oder konzeptuelle Beziehungen In den letzten Jahrzehnten sind Fragen des mentalen Lexikons und kognitiver Prozesse in Verbindung mit Sprache immer mehr in den Mittelpunkt semantischer Theorien gerückt. Die Bedeutung wird dabei in direktem Zusammenhang mit der menschlichen Kognition gesehen, d. h. mit der Art und Weise, wie wir die Welt um uns herum und auch uns selbst wahrnehmen, in Konzepte einordnen und mit Hilfe der Sprache beschreibbar machen. In der kognitiv ausgerichteten Semantik wird Sprache als sprachlich-kulturelles Phänomen betrachtet, als mental-interaktiver Prozess, bei dem die Trennung zwischen Sprachlichem und Außersprachlichem aufgehoben ist. In Bezug auf die Sinnrelationen wird heute im Unterschied zu den Strukturalisten eine stärkere Beziehung zu kognitiven Prozessen bei der Konstruierung von paradigmatischen Mustern erforscht. Es wird insbesondere der Frage nachgegangen, inwieweit Sinnrelationen tatsächlich wortschatzstrukturierende Relationen sind, oder ob sie sich nicht vielmehr auf konzeptuelle Repräsentationen beziehen, mit denen im konkreten Sprachgebrauch etwa Konzepte des Bedeutungsunterschieds oder der Bedeutungsinklusion zum Ausdruck gebracht werden. Diese sprachwissenschaftliche Ausrichtung lehnt daher die Auffassung traditioneller Strukturalisten ab, dass Sprache ein von der Realität, der 16 Strukturen wie nachhaltig und dauerhaft, optimale, sprich bestmögliche […], von billig bis preiswert illustrieren einige solcher musterhaften Templates. Petra Storjohann 116 Erfahrung und der Kognition unabhängiges und geschlossenes System darstellt. Dass konzeptuelle Aspekte bei der Manifestierung von Sinnrelationen eine wichtige Rolle spielen, wurde in elexiko vor allem anhand kontextuell variabler Beziehungen deutlich, die mithilfe von Ausdrücken lexikalisiert werden. Es scheint, dass besonders solche Beziehungen, die in ihrer Verwendung systematisch variieren, bestimmten kognitiven Prozessen unterliegen und dass zur Ermöglichung solcher Variabilität sowohl Lexikalisch-Semantisches wie auch Konzeptuelles und Nichtsprachliches im mentalen Lexikon gespeichert ist und entsprechend für unterschiedliche Fokussierungen aktiviert wird. Erste kognitive Mechanismen, die bei der Herstellung von lexikalisch-semantischen Beziehungen eine mögliche Rolle spielen, wurden in Storjohann (2009) für Fälle der Plesionymie und in Storjohann (2010) in Bezug auf Synonyme beschrieben. Zahlreiche dort aufgeführte Beispiele gehen auf die lexikografische Artikelarbeit in elexiko zurück. 4. Lexikografische Abbildung der Erkenntnisse Das Zusammenspiel zwischen lexikografischer Praxis und lexikologischer Erkenntnisgewinnung hat sich als besonders vorteilhaft erwiesen. Der Anspruch von elexiko, ein Stichwort anhand von Daten des tatsächlichen Sprachgebrauchs umfassend im Gebrauch erfassen zu können, ermöglichte es, bestimmte theoretische Annahmen zu entkräften oder zu stützen. Gleichzeitig war es auch immer das Bestreben von elexiko, bestimmte Erkenntnisse in die lexikografische Praxis zurückfließen zu lassen. Es ist genau diese Richtung, lexikologische Forschungsergebnisse möglichst schnell auch für die Wörterbuchdokumentation zu berücksichtigen, die in der Regel nicht eingeschlagen wird. Besonders für Wörterbücher, die sinnverwandte Ausdrücke enthalten, ist die Diskrepanz zwischen Theorie und Praxis oft groß und dem Anschein nach unüberwindbar. Da sich die theoretischen und lexikografischen Arbeiten gegenseitig bedingen, war der Angabebereich „Sinnverwandte Wörter“ in elexiko mehrfach kleineren und größeren Veränderungen ausgesetzt (siehe Hahn et al. 2008), denn Neuerungen im Bereich der Darstellung sowie inhaltliche Neuerungen sollten stets vom Bemühen zeugen, eine Brücke zwischen Theorie und Praxis zu schlagen. Dies wird im Folgenden dargestellt. 4.1 Belege mit typischen Konstruktionen Die Erkenntnis, dass zahlreiche lexiko-semantische Beziehungen über syntagmatische Konstruktionen im Kontext etabliert werden, wird in elexiko den Nachschlagenden insofern näher gebracht, als dass in den obligatorischen Belegen zu einer Sinnrelation nach Kontexten gesucht wird, die solche bezie- Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 117 hungseinbettenden und -manifestierenden Muster verdeutlichen. Je nach Beziehungsart und je nach Stichwort gestaltet sich das mehr oder weniger schwierig. Generell gilt aber, dass gezielte Korpussuchen nach bestimmten Musterindikatoren gute Ergebnisse bringen; zum einen deshalb, weil das Korpus sehr groß ist, und zum anderen, weil viele Muster zur Konstruktion einer Sinnrelation prototypisch sind und damit auch sehr regelhaft vorkommen. Bei Gegensatzrelationen etwa wird in der Regel nach Belegen gesucht, die folgende Strukturen bzw. Konstruktionen aufweisen: nicht X, sondern Y; nicht X, aber Y; sowohl X wie/ als auch Y (vgl. Beispiele (6) und (7)). (6) Die Stadtzeitung ist nicht mehr die einzige, die über den lokalen Öko-Skandal berichtet; Radio Dreyeckland funkt nicht mehr illegal aus Frankreich, sondern darf jetzt offiziell senden […]. (die tageszeitung, 22.11.1988, S. 14, Trotz alledem: Alternative Medien als Lernprozeß) (7) „Solwodi“ kümmert sich um Migrantinnen, sowohl illegale wie auch legale, die Opfer von Menschenhandel geworden sind. (Rhein-Zeitung, 25.10.2005, „Die Ware Frau“) Hyponymiebzw. Hyperonymiebeziehungen lassen sich gut anhand der Strukturen X ist ein Y; X als eine (Art) Y; X eine Form von Y; X wie z. B. Y; X und andere Y; X, darunter Y, Z, etc. demonstrieren. Diese Strukturen setzen aber häufig voraus, dass die lexikalischen Einheiten X und Y für Substantive stehen. Deshalb sind für andere Wortarten kaum typische Muster zu finden. (8) Die gleichzeitige „Liberalisierung“ bedeutet, daß nicht mehr die Post das Endgerät stellt; in Zukunft sollen die Postkunden ihre Telefone und alle anderen Apparate bei Firmen kaufen. (die tageszeitung, 11.03.1987, S. 8) Besonders bei der Angabe zu verbalen Ausdrücken, die übergeordnete Konzepte beschreiben, werden Belege genutzt, die mehrere Hyponyme enthalten, unter denen das Stichwort eine von mehreren Alternativen zum Ausdruck bringt (vgl. Beispiel (9)). (9) Wenn wir anerkennen, daß jede Übersetzung durch den simplen Prozeß, einen Text von der einen in die andere Sprache, in andere Räume und Zeiten zu bringen, ihn tatsächlich verändert, verbessert oder verschlechtert, müssen wir auch akzeptieren, daß jede Übersetzung - Übertragung, Neuerzählung, Umwidmung - dem Original eine Pret-a-porter-Lesart [sic! ] hinzufügt, einen impliziten Kommentar. Und an genau dieser Stelle tritt Zensur ein. (die tageszeitung, 27.03.1996, S. 15-16, Keine mindere Kunst) Petra Storjohann 118 Steigerungsrelationen sind häufig in Mustern wie von X bis hin zu Y und X oder gar/ sogar Y eingebettet (vgl. Beispiele (10), (11)). Beziehungen, bei denen eine semantisch-konzeptuelle Abstufung betont wird, kommen dagegen in syntagmatischen Rahmen wie nicht X, nur Y vor. (10) Der Politologe Donato Tangredi hat ein gutes Dutzend in- und ausländischer Definitionen aufgelistet: Sie reichen von illegalen bis kriminellen Tätigkeiten wie Schmuggel oder Menschenhandel über die Beschäftigung ohne Versicherung und Steuerabgaben, unerlaubte Nebentätigkeiten, Herstellung von Produkten außerhalb vorgeschriebener Richtlinien bis zur Ausführung von Facharbeiten durch Nicht-Facharbeiter, etwa Installationen oder Bauarbeiten, die nicht von angemeldeten Firmen getätigt werden. (die tageszeitung, 09.05.1992, S. 7) (11) Wenn ein Priester bei der Beichte sein „Beichtkind“ zu einer sexuellen Verfehlung verführt, soll dieses Vergehen laut Kirchenrecht nach Angaben des Experten mit der Suspendierung und in schweren Fällen sogar mit der Entlassung aus dem Klerikerstand bestraft werden. (Vorarlberger Nachrichten, 11.03.1998, In Causa Groer Spekulationen um „automatische Exkommunikation“) Die Arbeit an den elexiko-Stichwörtern hat auch gezeigt, dass zahlreiche Kausalbeziehungen zwischen Ausdrücken hergestellt werden, die z. B. voneinander abhängige Abläufe bezeichnen. Typische Konnektoren wie weil, deshalb verknüpfen hier die Elemente der Beziehung. Bei Konstruktionen, in denen final-zweckbezogene Prozesse miteinander verbunden werden, fungieren damit und um als Signalwörter (Beispiel (12)): (12) Die EU , die für Reisimporte aus Drittländern bestimmte Kontingente vorsieht, hatte kurz vor dem Beitritt Österreichs, Schwedens und Finnlands den drei Ländern die Verpflichtung auferlegt, ihren Lagerbestand zu erfassen, um so einen allfälligen Überbestand zu ermitteln und diesen mit Abschöpfungssätzen zu belegen. (Salzburger Nachrichten, 08.02.1995, Massiver Widerstand gegen „Reiszählung“) Schwieriger sind dagegen Synonymkonstruktionen. Obwohl sie kontextuell häufig durch syntagmatische Rahmen wie X und Y (z. B. ökologisch und umweltfreundlich) gekennzeichnet sind, eignen sich solche Muster nicht unbedingt zur Veranschaulichung von Ähnlichkeitsbeziehungen. In der Regel erfolgt hier die gezielte Suche nach gleichen Bezugswörtern von Stichwort und synonymem Partnerwort, um eine mögliche Identität der kontextuellen Referenz zu signalisieren (siehe Beispiel (13)). Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 119 (13) Am Rande der Weltmeisterschaften in Melbourne ist gestern in einem Hotel eine Schachtel mit gefüllten Ampullen gefunden worden. Die Polizei hat bereits eine Untersuchung eingeleitet. «Die Ampullen wurden untersucht. Die Flüssigkeit war allerdings keine illegale Droge. Allerdings konnte eine Spur verbotener Drogen in der Schachtel festgestellt werden», erklärte die Polizei gegenüber den Medien. (Die Südostschweiz, 22.03.2007, Schweiz ohne Medaillenchance) Der obligatorische Beleg zu einer paradigmatischen Beziehung in elexiko illustriert in erster Linie die Beziehung in einem speziellen Kontext/ einer Verwendungsweise und damit einer speziellen Lesart. Indem ein Kontext angeboten wird, in den die in Beziehung stehenden Ausdrücke sprachlich eingebettet sind, zeigt der Beleg gleichzeitig lexikalisch-semantische und syntaktische Einschränkungen. Der Beleg hat zugleich auch die Funktion, Nachschlagenden zu verdeutlichen, dass auch mittels bestimmter syntagmatischer Muster Beziehungen hergestellt werden. Deshalb bemüht sich elexiko, typische syntagmatische Strukturen zur Konstruktion einer paradigmatischen Beziehung auch in den Belegen nachzuweisen und damit auch der Erkenntnis gerecht zu werden, dass es keine strikte Trennung zwischen Syntagmatik und Paradigmatik gibt. 4.2 Diskursgruppen Besonders die Beziehung der Inkompatibilität 17 weist diskursstrukturierende oder -fokussierende Funktionen auf (siehe Storjohann 2007). Dies ist vor allem der Fall bei so genannten „brisanten“ Wörtern oder bei Stichwörtern, die umstrittene Diskurse in der Öffentlichkeit bezeichnen. Die strukturierende Funktion spiegelt sich z. T. in den Inkompatibilitätsgruppen eines Stichworts wider, die immer gewisse diskursive Teilaspekte andeuten (vgl. das Stichwort Globalisierung in Abb. 3). Die Erfassung und Beschreibung der inkompatiblen Gruppen eines Stichworts in einer entsprechenden Lesart ist einzigartig in elexiko. Ihre Rolle zur Lesartenbeschreibung kann u. U. wichtig sein, ihre Funktion zur Konstituierung eines Diskurses wird bei der Arbeit mit einem Korpus besonders deutlich. Dass es sich bei der Beziehung der Inkompatibilität um äußerst regelhafte Strukturen handelt, zeigten die empirischen Studien rund um elexiko (Storjohann 2007). Eine komplexere Untersuchung dieser Beziehung und ihrer diskursiven Funktionen fehlt bisher in der semantischen Theorie. In der Lexi- 17 Die Beziehung der Inkompatibilität schließt in elexiko sowohl Kohyponyme, Quasihyponyme ohne gemeinsames lexikalisiertes Hyperonym (Cruse 1986, S. 97), Ausdrücke parahyponymer Art (ebd., S. 99) als auch Kotaxonyme (ebd., S. 137) ein. Petra Storjohann 120 kografie findet die Dokumentation dieser Relation bisher ebenfalls keine Berücksichtigung. Hier versuchte elexiko eine Lücke zu schließen. Welche Rolle diese Angabe spielt und wie eng diese Angabe mit anderen Wörterbuchangaben verzahnt ist, wird im Beitrag „‘Themengebundene Verwendung(en)’ als neuer Angabetyp unter der Rubrik ‘Besonderheiten des Gebrauchs’“ von Ulrich Schnörch in diesem Band thematisiert. Abb. 3: Gruppierung inkompatibler Partnerwörter im Wortartikel Globalisierung, Lesart ‘Internationalisierung’ 4.3 Explizite Kommentare Die heutige lexikologische Vorstellung, dass Sinnrelationen nicht zwischen Wörtern oder Wörtern und ihren Lesarten entstehen, sondern eher variable Konstrukte auf der Basis von konzeptuellen und sprachlichen Prozessen sind, stellt bezüglich der Darstellung in einem Wörterbuch eine besondere Heraus- Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 121 forderung dar. Dieser Aufgabe haben sich gängige Synonymiken und Gegensatzwörterbücher bisher nicht gestellt. Das heißt für elexiko, dass es in der Lexikografie im Allgemeinen kaum Orientierungsmöglichkeiten für neue Ansätze der Darstellung gibt. Werden Synonyme oder Antonyme alphabetisch aufgelistet, entsteht schnell der Eindruck, dass ein Wort in synonymer Beziehung zu einem anderen Wort steht - eine Tatsache, die Wörterbuchlaien bei der Suche nach bedeutungsähnlichen Ausdrücken nachvollziehbar erscheint. elexiko versucht aber auch zu vermitteln, dass lexikalisch-semantische Beziehungen zwischen Konzepten hergestellt werden, die mittels lexikalischer Ausdrücke, also mit Wörtern im Wörterbuch repräsentiert bzw. zum Ausdruck gebracht werden. Die angegebenen paradigmatischen Relationswörter sind also Mittel zum Zweck. Dies zeigt sich z. B. in Überschriften und Kommentaren, bei denen mit Formulierungen gearbeitet wird, in denen der Aspekt betont wird, dass die Sinnrelation zwischen den Konzepten besteht, die mit den entsprechenden Ausdrücken lexikalisiert werden (vgl. Abb. 4). Abb. 4: Kommentar zur Beziehung Ursache ‘Auslöser’ - Auswirkung ‘Effekt’ im Wortartikel Auswirkung, Lesart ‘Effekt’ 4.4 Kontextuell variable Relationen In Hahn et al. (2008) wurde erstmals eine Neuerung beschrieben, die in elexiko 2006 eingeführt wurde. Die lexikografische Arbeit am elexiko-Demonstrationswortschatz und später am Lexikon zum öffentlichen Sprachgebrauch zeigte, dass in einigen Fällen regelhaftes Variieren einer Beziehung zwischen zwei Ausdrücken innerhalb einer Lesart in den Korpusdaten zu beobachten ist. Diese Beobachtung bestätigt die Annahme, dass entsprechend kontextueller Erfordernisse bestimmtes Wissen aktiviert wird und mittels entsprechender syntagmatischer Rahmen zwei Ausdrücke X und Y jeweils zwei unterschiedliche Beziehungen betonen können. Mithilfe von Tooltips wurde eine entsprechende Verweisinformation integriert (vgl. Abb. 5). Petra Storjohann 122 Abb. 5: Kommentar zur Beziehung ernst - kritisch ‘bedrohlich’ im Wortartikel kritisch, Lesart ‘bedrohlich’ 4.5 Neue Kategorien In Hahn et al. (2008) wurden neue Kategorien für Sinnrelationen in elexiko, die sich vor allem aus den Lücken bestehender Klassifizierungen ergaben, vorgestellt. Unter der allgemeinen Überschrift „Sonstige Beziehungen“ werden seit 2006 Sinnrelationen eingeordnet, die nicht in das Korsett traditioneller Schemata passen und die auffällig im Korpus zutage treten. Bisher hatte diese Kategorie den Status einer temporären Datensammlung. Während damals noch Auswertungen darüber fehlten, welche Arten von Beziehungen typischerweise hier aufgenommen werden sollten, liegen heute die ersten Übersichten vor. Die in Hahn et al. (2008) aufgeführten, zunächst selten anmutenden Beispiele haben sich mittlerweile als systematisch vorkommende Beziehungsarten herauskristallisiert, die sich auch nachfolgend immer wieder belegen ließen. Die Sinnrelationen, die unter traditionellen semantischen Theorien fast völlig unberücksichtigt blieben und durch Untersuchung des Sprachgebrauchs regelhaft aufgedeckt werden, sind vor allem resultative Beziehungen Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 123 (investieren und daraus profitieren), responsive Beziehungen ( fragen und daraufhin antworten), temporale Folgebeziehungen (überleben und sich dann vermehren), konditionale/ kausale Beziehungen (wenn [...] schwinden, dann fehlen [...]; weil immer mehr [...] schwinden, fehlen [...]), Beziehungen des modalen Gegensatzes (ist kein Gesetz, nur eine Empfehlung), Beziehungen semantischer Steigerung bzw. Abstufung (nicht nur unterschiedlich, sondern gegensätzlich; unterschiedlich, ja geradezu konträr) und final-zweckgerichtete Relationen ([...] schützen, um [...] zu sichern). 18 In Hahn et al. (2008, S. 70) wurde folgendes Ziel festgehalten: Liegen künftig umfangreichere Untersuchungsergebnisse vor, könnte das klassische Klassifikationsmodell um neue differenzierte Kategorien ergänzt werden. Auch wenn heute keine weiteren Änderungen bezüglich der Darstellung dieser Beziehungsarten vorliegen, verfügt elexiko nun über einen besseren Überblick über das Inventar an Beziehungsarten. Die kontinuierliche Artikelarbeit lieferte die Basis für eine bessere Datensammlung, die künftig Untersuchungsgegenstand lexikologischer Forschung sein wird. Im Gegensatz zu dem noch 2008 festgehaltenen Ziel, die Klassifikationsmodelle möglicherweise ergänzen zu wollen, rücken heute eher die Untersuchung diskursiver Funktionen und Konstruktionsmechanismen solcher Beziehungen in den Vordergrund der Betrachtung. Das Eingruppieren in Klassifikationsmodelle ist nicht mehr Ziel gegenwärtiger lexikologischer Forschungen, und Klassifikationsschemata sind nicht mehr Beschreibungsgegenstand semantischer Beziehungen in elexiko. Ob künftige Forschungsergebnisse Konsequenzen für die lexikografische Darstellung in elexiko haben werden, ist derzeit nicht abzuschätzen. Den aktuellen Wert der Dokumentation solcher Beziehungen sollte man dennoch nicht unterschätzen. Unter diesen Beziehungen befinden sich auch statistisch signifikante Kollokatoren und wie in Hahn et al. (2008, S. 70) bereits betont wurde, „ist die Beschreibung solcher Partnerwörter eine sinnvolle Ergänzung zur allgemeinen Beschreibung der Bedeutung und Verwendung eines lexikalischen Ausdrucks“. Darüber hinaus sind genau in dieser Kategorie zahlreiche Beziehungen, die unter kontextuellen Veränderungen zur Synonymie neigen und die die Flexibilität der Konstruktionsmöglichkeiten zum Ausdruck bringen. 18 Diese Kategorien sind nicht als starre Größen zu verstehen. Je nach Kontext kann eine Sinnrelation auch in ihrer Art variieren und mehreren Kategorien zugeordnet werden. Petra Storjohann 124 4.6 Konsequentes Verlinken Wie auch in gedruckten Wörterbüchern lag elexikos Schwäche bisher in der mangelnden Konsistenz von Querverweisen und Verlinkungen zwischen paradigmatischen Relationspartnern. Links auf Synonyme etwa wurden immer auf das Stichwort und ggf. auch dessen relevante Lesart oder Lesartspezifizierung gesetzt. Das größte Problem war dabei die Tatsache, dass zu einem bestimmten Zeitpunkt grundsätzlich nicht alle Stichwörter detailliert redaktionell bearbeitet sind und die Verlinkung auf diese notwendigerweise nur auf Stichwortebene (ohne Angabe einer zugehörigen Lesart) erfolgen kann. elexiko verfügte bisher nicht über Nachtrag- und Kontrollmechanismen, die es ermöglicht hätten, konsequent mitzuverfolgen, welche Stichwörter in den vergangenen Jahren umfangreich ausgearbeitet wurden, die möglicherweise in einem anderen Artikel als Verweise angelegt waren und die zu einem späteren Zeitpunkt um die Angabe der entsprechenden Lesart hätten ergänzt werden müssen. Aber es mangelte der Angabe der oft zahlreichen sinnverwandten Ausdrücke nicht nur an Konsistenz bei der Verlinkung, sondern auch an einer konsequenten Rückverlinkung. Besteht beispielsweise eine Synonymie zwischen zwei Stichwörtern X und Y, von denen X gerade in Bearbeitung war, Y aber erst zu einem deutlich späteren Zeitpunkt erarbeitet wurde, kam es unter Umständen vor, dass beim Stichwort Y diese Beziehung nicht eingetragen wurde. Hier handelt es sich in der Regel um ein Versehen, die Rückverlinkung wurde schlicht vergessen. Dieser Umstand wurde umso deutlicher in elexiko, je mehr Einträge im Wörterbuch vorhanden waren. Derzeit wird im Projekt BZV elexiko 19 ein Programm entwickelt, das die Redaktionsumgebung dahingehend verbessert, dass bei der Bearbeitung eines Stichwortes alle anderen Stichwörter und ihre Lesarten angezeigt werden, bei denen ein Link auf das jetzt in Bearbeitung stehende Stichwort vorhanden ist (mit detaillierten Angaben bezüglich des Verweisursprungs und des Verweisziels etc.). Dieses Programm kommt künftig zum Einsatz, und mit ihm kann Konsistenz für den Bereich der Paradigmatik hergestellt werden, und zwar genau da, wo sie beginnen sollte: am lexikografischen Arbeitsplatz direkt bei der Artikelarbeit. Für die bestehenden Artikel bedeutet das eine Nacharbeitung, bei der jedes Stichwort erneut auf seine Relationspartner und deren Verlinkung hin geprüft werden muss. 19 Zum Projekt BZV elexiko vgl. das Vorwort in diesem Band. Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 125 5. Schlussbemerkungen Mit der Erarbeitung des Demonstrationswortschatzes begann bei elexiko 2003 die praktische Artikelarbeit. 2005 folgte der Beginn der Arbeit an hochfrequenten Stichwörtern aus dem Lexikon zum öffentlichen Sprachgebrauch, an dem bis heute gearbeitet wird. Während dieser Zeit kam es zu zahlreichen kleineren inhaltlichen und auch methodologischen Neuerungen und einer größeren Neukonzeption (siehe Hahn et al. 2008), die vor allem die bisherigen Erkenntnisse aus der Korpusarbeit einbinden sollten und sowohl inhaltliche Änderungen als auch Neuerungen in der Darstellung betrafen. Die regelmäßigen Änderungen im Wörterbuchbereich „Sinnverwandte Wörter“ könnten auf den ersten Blick als problematisch eingeschätzt werden. Andererseits sind wohl Nachschlagende des Mediums Internet viel stärker auf stetige Veränderungen eingestellt. Auf diese Weise wurde es jedenfalls der elexiko-Gruppe ermöglicht, sowohl ihre lexikologischen Forschungsergebnisse als auch ihre lexikografische Erfahrung im Bereich der lexikalisch-semantischen Beziehungen kontinuierlich in das wachsende Wörterbuch einzuarbeiten. elexiko hebt sich in diesem Angabebereich von herkömmlichen Synonymiken bzw. Gegensatzwörterbüchern ab. Es dokumentiert nicht nur alle für eine Lesart relevanten Relationspartner, diese werden vielmehr obligatorisch belegt, auf Verwendungseinschränkungen wird explizit und in erläuterndem Stil hingewiesen, semantisch-diskursive Gruppen werden dargestellt und kommentiert bzw. mit Überschriften versehen. Zahlreiche bedeutungskonstituierende Beziehungen, die bisher nicht lexikografisch dokumentiert wurden, werden in elexiko dargestellt, vorausgesetzt, sie sind regelhaft im Korpus belegt. Darüber hinaus bemüht sich elexiko, dem Gedanken gerecht zu werden, flexible kontextuelle Konstruktionsmöglichkeiten und variable Beziehungen zu buchen, die die Dynamik und das Überlappen von sprachlichen Strukturen verdeutlichen (vgl. Tognini-Bonelli 2001). It is hoped that more studies will systematically show interrelations and the overlaps [...] and these will be reflected and reported accordingly in the reference works [...]. (ebd., S. 110) Mit dieser Art der Beschreibung werden nicht nur idealerweise neue Informationen für Nachschlagende angeboten, sondern möglicherweise bereits vorhandenes passives Wissen wird aktiviert bzw. bewusst gemacht (vgl. Hunston/ Francis 2000). Möchte man die Kluft zwischen semantischer Theorie und praktischer Wörterbucharbeit schließen, müssen lexikologische Forschung und lexikografi- Petra Storjohann 126 sche Praxis miteinander verknüpft werden, ein Anspruch, der generell selten erfüllt wird. Bisher hat elexiko besonders im Bereich der lexikalisch-semantischen Beziehungen danach gestrebt, aus der lexikografischen Praxis mit einem Korpus Erkenntnisse über Beziehungen im Sprachgebrauch zu gewinnen und umgekehrt diese Erkenntnisse auch lexikografisch in den Angabebereich „Sinnverwandte Wörter“ einzubinden. Es ist genau diese symbiotische Strategie, die elexiko zu neuen Ergebnissen verhilft und die diesen Informationsbereich des Wörterbuchs besonders auszeichnet. 6. Literaturverzeichnis 6.1 Wörterbücher Duden 8 - Das Synonymwörterbuch. Ein Wörterbuch sinnverwandter Wörter (2004). 3., völlig neu erarb. Aufl. Mannheim u.a. DWDS ( WDG ) - Das digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts. Internet: www.dwds.de (Stand: 30.04.2010). elexiko (2003ff.). In: Institut für Deutsche Sprache (Hg.): OWID - Online-Wortschatz-Informationssystem Deutsch. Mannheim. Internet: www.elexiko.de (Stand: 30.04.2010). WDG = Wörterbuch der deutschen Gegenwartssprache (1980). Hrsg. v. Klappenbach, Ruth/ Steinitz, Wolfgang. 10., bearb. Aufl. Berlin. Internet: www.dwds.de (Stand: 30.04.2010). WGDS = Petasch-Molling, Gudrun (Hg.) (1989): WGDS - Antonyme: Wörter und Gegenwörter der deutschen Sprache. Eltville. WSA = Bulitta, Erich/ Bulitta, Hildegard (Hg.) (2003): WSA - Wörterbuch der Synonyme und Antonyme. Sinn- und sachverwandte Wörter und Begriffe sowie deren Gegenteil und Bedeutungsvarianten. Frankfurt a.M. 6.2 Forschungsliteratur Belica, Cyril (i. Dr.): Semantische Nähe als Ähnlichkeit von Kookkurrenzprofilen. In: Abel, Andrea (Hg.): Korpusinstrumente in Lehre und Forschung. Bozen. Croft, William/ Cruse, Alan (2004): Cognitive linguistics. Cambridge. Cruse, Alan (1986): Lexical semantics. Cambridge. Cruse, Alan et al. (Hg.) (2002): Lexikologie. Ein internationales Handbuch zur Natur und Struktur von Wörtern und Wortschätzen. 1. Teilbd. (= Handbücher zur Sprach- und Kommunikationswissenschaft ( HSK ) 21.1). Berlin/ New York. Cruse, Alan (2004): Meaning in language. An introduction to semantics and pragmatics. 2. Aufl. Oxford. Durrell, Martin (2001): Using German synonyms. Cambridge. Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 127 Hahn, Marion/ Klosa, Annette/ Müller-Spitzer, Carolin/ Schnörch, Ulrich/ Storjohann, Petra (2008): elexiko - das elektronische, lexikografisch-lexikologische korpusbasierte Wortschatzinformationssystem. Zur Neukonzeption, Erweiterung und Revision einzelner Angabebereiche. In: Klosa, Annette (Hg.): Lexikografische Portale im Internet. (= OPAL - Online publizierte Arbeiten zur Linguistik 1/ 2008). Mannheim, S. 57-85. Internet: www.ids-mannheim.de/ pub/ laufend/ opal/ privat/ pdf/ opal 08-1_hahn-klosa-mueller-spitzer.pdf (Stand: 18.05.2010). Haß, Ulrike (2005): elexiko - Das Projekt. In: Haß (Hg.), S. 1-17. Haß, Ulrike (Hg.) (2005): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz. (= Schriften des Instituts für Deutsche Sprache 12). Berlin/ New York. Hunston, Susan/ Gill, Francis (2000): Pattern grammar. A corpus-driven approach to the lexical grammar of English. (= Studies in Corpus Linguistics 4). Amsterdam. Jones, Steven (2002): Antonymy: a corpus-based perspective. (= Routledge Advances in Corpus Linguistics 2). London. Klosa, Annette (2007): Korpusgestützte Lexikographie: besser, schneller, umfangreicher? In: Kallmeyer, Werner/ Zifonun, Gisela (Hg.): Sprachkorpora - Datenmengen und Erkenntnisfortschritt. Jahrbuch 2006 des Instituts für Deutsche Sprache. Berlin/ New York, S. 105-122. Kühlwein, Wolfgang (2002): Beschreibungsansätze für Sinnrelationen I: Strukturalistische (Merkmals-)Ansätze. (Models for the description of sense relations (distinctive feature) models). In: Cruse et al. (Hg), S. 533-542. Lutzeier, Peter Rolf (1981): Wort und Feld. Wortsemantische Fragestellungen mit besonderer Berücksichtigung des Wortfeldbegriffs. (= Linguistische Arbeiten 103). Tübingen. Lutzeier, Peter Rolf (1995): Lexikologie: ein Arbeitsbuch. Tübingen. Lyons, John (1968): Introduction to theoretical linguistics. Cambridge. Lyons, John (2002): Lexical structures based on sense relations I: general overview, inclusion and identity. In: Cruse et al. (Hg.), S. 466-472. Müller-Spitzer, Carolin (2004): Ordnende Betrachtungen zu elektronischen Wörterbüchern und lexikographischen Prozessen. In: Lexicographica 19/ 2003, S. 140-168. Murphy, Lynne (2003): Semantic relations and the Lexicon. Cambridge. Murphy, Lynne (2006): Antonyms as lexical constructions: or, why paradigmatic construction is not an oxymoron. In: Constructions - Special Volume 1: Constructions all over: case studies and theoretical implications. Internet: www.constructions -online.de (Stand: 30.04.2010). Murphy, Lynne et al. (2009): Discourse functions of antonymy: a cross-linguistic investigation of Swedish and English. In: Journal of Pragmatics 41, 11, S. 2159- 2184. Petra Storjohann 128 Paradis, Carita (2008): Configurations, construals and change: expressions of DEGREE . In: English Language and Linguistics 12.2, S. 317-343. Paradis, Carita et al. (2010): Antonyms in English. Cambridge. Partington, Alan (1998): Patterns and meanings: using corpora for English language research and teaching. (= Studies in Corpus Linguistics 2). Amsterdam/ New York. Sinclair, John (2004): Introduction. In: Sinclair, John (Hg.): How to use corpora in language teaching. (= Studies in Corpus Linguistics 12). Amsterdam/ Philadephia, S. 1-10. Storjohann, Petra (2005a): Paradigmatische Relationen. In: Haß (Hg.), S. 249-264. Storjohann, Petra (2005b): Das elexiko-Korpus: Aufbau und Zusammensetzung. In: Haß (Hg.), S. 249-264. Storjohann, Petra (2006a): Sinnrelationen in Wörterbüchern - Neue Ansätze und Perspektiven. In: EliSe 2/ 2005, S. 35-61. Internet: www.uni-due.de/ imperia/ md/ content/ elise/ ausgabe_2_2005_storjohann.pdf (Stand: 30.04.2010). Storjohann, Petra (2006b): New lexicographic approaches to the description of sense relations. In: Corino, Elisa/ Marello, Carla/ Onesti, Cristina (Hg.): Proceedings of the 12th EURALEX International Congress (Atti del XII. Congresso Internazionale di Lessicografia), EURALEX 2006, Turin, Italy, September 6th-9th, 2006. Bd. 2. Turin, S. 1201-1212. Storjohann, Petra (2006c): Kontextuelle Variabilität synonymer Relationen. (= OPAL - Online publizierte Arbeiten zur Linguistik 1/ 2006). Mannheim. Internet: www. ids-mannheim.de/ pub/ laufend/ opal/ privat/ pdf/ opal2006-1.pdf (Stand: 18.06.2010). Storjohann, Petra (2007): Incompatibility: A no-sense relation? In: Proceedings of the 4th Corpus Linguistics Conference, Birmingham. Internet: http: / / corpus.bham.ac.uk/ corplingproceedings07/ paper/ 36_Paper.pdf (Stand: 30.04.2010). Storjohann, Petra (2009): Plesionymy: A case of synonymy or contrast? In: Journal of Pragmatics 41, 11, S. 2140-2158. Storjohann, Petra (2010): Synonymy in corpus texts - conceptualisation and construction. In: Storjohann, Petra (Hg.): Lexical-semantic relations from theoretical and practical perspectives. (= Lingvisticæ Investigationes Supplementa 28). Amsterdam/ Philadelphia, S. 69-94. Stubbs, Michael (2001): Words and phrases: Corpus studies of lexical semantics. Oxford. Tognini-Bonelli, Elena (2001): Corpus linguistics at work. (= Studies in Corpus Linguistics 6). Amsterdam/ Philadelphia. Trier, Jost (1931): Der deutsche Wortschatz im Sinnbezirk des Verstandes. Die Geschichte eines sprachlichen Feldes. Heidelberg. Paradigmatische Konstruktionen in Theorie, Praxis und im Korpus 129 Weisgerber, Leo (1954): Die Sprachfelder in der geistigen Erschließung der Welt. In: Wiese, Benno von/ Borck, Karl Heinz (Hg.): Festschrift für Jost Trier zu seinem 60. Geburtstag. Meisenheim/ Glan, S. 34-49. Wotjak, Gerd (1970): Zur semantischen Struktur deutscher Verben des Besitzes und Besitzwechsels. In: Linguistische Arbeitsberichte 3, S. 58-72. 6.3 Internetressourcen Belica, Cyril (1995): Statistische Kollokationsanalyse und -clustering. COSMAS - Korpusanalysemodul. Internet: http: / / www.ids-mannheim.de/ kl/ projekte/ methoden/ ka (Stand: 30.04.2010). Belica, Cyril (2001-2007): Kookkurrenzdatenbank CCDB - V3.2. Eine korpuslinguistische Denk- und Experimentierplattform für die Erforschung und theoretische Begründung von systemisch-strukturellen Eigenschaften von Kohäsionsrelationen zwischen den Konstituenten des Sprachgebrauchs. Mannheim. Internet: http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: 30.04.2010). Belica, Cyril (2004): Analyse von Verwandtschaftsrelationen zwischen Kookkurrenzprofilen. Korpusanalytische Methode. Mannheim. Internet: http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: 30.04.2010). CCDB - Kookkurrenzdatenbank - V3.2. Internet: http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: 30.04.2010). Modul Related Collocation Profiles. Internet: http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: 30.04.2010). Wortschatzportal. Internet: http: / / wortschatz.uni-leipzig.de/ (Stand: 30.04.2010). Ulrich Schnörch „Themengebundene Verwendung(en)“ als neuer Angabetyp unter der Rubrik „Besonderheiten des Gebrauchs“ 1. Ausgangslage und Fragestellung In elexiko gibt es neben Angabebereichen wie „Bedeutungserläuterung“, „Typische Verwendungen“ oder „Grammatik“ auch die Rubrik „Besonderheiten des Gebrauchs“, unter der Informationen gebündelt werden, die man klassischerweise als ‘wörterbuchpragmatische Angaben’ bezeichnet. Hier kann man bei redaktionell bearbeiteten Wortartikeln Auskunft darüber erhalten, ob Wörter in einer bestimmten Bedeutung bzw. Lesart beispielsweise nur von bestimmten Sprechergruppen, in bestimmten Textsorten, in speziellen Sachgebieten oder in wertender Absicht verwendet werden (vgl. für weitere Details Schnörch 2008a und b). Im Zuge der fortschreitenden lexikografischen Arbeit an elexiko wuchs mit der Erfahrung die Einsicht, dass die Ursprungskonzeption (vgl. Haß 2005) an einigen Stellen noch optimiert werden kann. Ein solcher Schritt muss nicht verwundern, vor allem wenn man bedenkt, dass es sich bei elexiko um die völlige Neuentwicklung eines ausschließlich online veröffentlichten Wörterbuchs bzw. Wortschatzinformationssystems handelt. So schrieb die Initiatorin und damalige Projektleiterin Ulrike Haß bereits nach der ersten Testphase: „Änderungen der Kategorien- und damit der Artikelstruktur sind in Zukunft nicht auszuschließen“ (ebd., S. 275). Die vielleicht auffälligste Änderung unter der Rubrik „Besonderheiten des Gebrauchs“ ist die Gestaltung eines völlig neuen Angabetyps, der mit „Themengebundene Verwendung(en)“ überschrieben ist. Damit werden lexikografische Informationen angeboten, die man in traditionellen Wörterbüchern nicht findet. Was verbirgt sich hinter diesem Angabetyp und welche konzeptionelle Entwicklung hat er durchlaufen? Auf welche Weise werden die einschlägigen sprachlichen Daten ermittelt und lexikografisch verwertet? Wie sind die themengebundenen Verwendungen konzeptionell ins Spektrum der lexikografischen Angaben von elexiko eingebunden? 1) 2) 3) Ulrich Schnörch 132 Die Beantwortung dieser Fragen steckt den Rahmen der nachfolgenden Ausführungen ab. Dabei geht es ausschließlich um die inhaltlichen, nicht um die texttechnologischen Aspekte (z. B. Änderungen der elexiko- DTD ). Freilich sollte man stets im Hinterkopf behalten, dass die an eine DTD geknüpfte lexikografische Artikelstruktur von elexiko auch inhaltliche Vorgaben macht und umgekehrt. 1 2. „Themengebundene Verwendungen“: Methodische Grundlagen und lexikografische Konsequenzen elexiko ist dem Prinzip der Korpusbasiertheit verpflichtet, d. h. die Informationen für einen Wortartikel werden durch die Analyse des elexiko-Korpus gewonnen. 2 Das ist die Grundvoraussetzung, um Besonderheiten beim Gebrauch eines Wortes in einer Lesart ganz allgemein und so genannte themengebundene Verwendung(en) im Besonderen überhaupt dokumentieren zu können. In der ursprünglichen Konzeption zu Beginn der Artikelarbeit war die Beschreibung von Gebrauchsbesonderheiten, nicht aber die eigenständige Dokumentation themengebundener Verwendungsweisen vorgesehen. Allerdings umfasste die damalige Oberkategorie „Sachgebiet(e)“ von der Konzeption her Informationen dieser Art, denn diese diente seinerzeit nicht nur zur lexikografisch erwartbaren Markierung fachsprachlichen Gebrauchs. Die Arbeit mit Textkorpora lässt [...] oft eine Sachgebietsbindung des Wortgebrauchs erkennen, ohne dass diese Spezifik fachsprachlicher Natur ist, vor allem beim Sport, aber auch bei vielen öffentlich diskutierten Themen [...] werden Wörter gebildet, die themenspezifisch sind, ohne zugleich zur fachsprachlichen Lexik zu gehören. (Haß 2005, S. 270) In der lexikografischen Praxis zeigte sich alsbald, dass eine ganze Reihe vollständig ausgearbeiteter Wortartikel nötig war, um weitreichendere Erfahrungen mit dieser Angaberubrik zu sammeln. Dafür lassen sich mindestens zwei Gründe anführen: Nach Beginn der korpusbasierten Wortartikelarbeit war es grundsätzlich nötig, Erfahrungen mit dem elexiko-Korpus zu sammeln. Zunächst wusste man einfach nicht, was sich dort überhaupt diskursiv widerspiegeln würde; da sich das elexiko-Korpus vorwiegend aus Zeitungen zusammensetzt, konnte man natürlich mutmaßen, dass öffentliche Themen besonders stark fokussiert würden. Dennoch: „Natural language is full of unexpected findings 1 Vgl. hierzu auch den Beitrag „Der Einsatz einer maßgeschneiderten, feingranularen XML - Modellierung im lexikografischen Prozess“ von Carolin Müller-Spitzer in diesem Band. 2 Vgl. hierzu Abschnitt 3 der Einleitung in diesem Band. „Themengebundene Verwendung(en)“ als neuer Angabetyp 133 which a corpus might help to tease out.“ (Hanks 1990, S. 40). Und dieses Unerwartbare ist selbstredend nicht intuitiv fassbar bzw. vorhersehbar. Es lässt sich aber in der lexikografischen Arbeit auf der Basis von Empirie ermitteln. Dabei geht es nicht nur um die Themen als solche; je kontroverser ein Thema in der Öffentlichkeit diskutiert wird, desto größer wird auch das Spektrum unterschiedlicher Meinungen sein. Das Schwierige besteht in solchen Fällen darin, den diskursiven Kern, der sich in vielfältiger Weise in einer Sprechergemeinschaft manifestiert, auszumachen und lexikografisch zu erläutern (vgl. Teubert/ Čermáková 2004 und Teubert 2006). Als grundlegender Faktor, um einen Diskurs in der angedeuteten Komplexität besser erfassen und ihn objektiver beschreiben zu können, erwies sich daher die wachsende praktische Erfahrung im Umgang mit den Massendaten des Korpus sowie den Korpusanalysewerkzeugen. Ein weiterer, ganz simpler Grund für die ausgeprägte Testphase ist im konzeptionellen Ansatz von elexiko zu suchen: Da elexiko eine am Gebrauch orientierte Semantikauffassung zu Grunde liegt und die semantische Beschreibung damit ohnehin schon vieles Pragmatische einbezieht, ist der Angabetyp Besonderheiten des Gebrauchs bei vielen Stichwörtern/ Lesarten [...] gar nicht realisiert. (Haß 2005, S. 275) Nach der Testphase ließ sich dann folgende Zwischenbilanz ziehen: Die Konzeption und die Artikelstruktur ( DTD ) im Bereich ‘Besonderheiten des Gebrauchs’ hat sich insgesamt bewährt. Die konzeptionellen Änderungen, die in diesem Bereich notwendig wurden, sind vor allem empirisch und erst in zweiter Linie theoretisch-konzeptionell begründbar. Auf eine Reihe kleinerer Anpassungen muss hier nicht näher eingegangen werden, ebenso sei der nachträglich ergänzte Angabetyp mit dem selbsterklärenden Namen „Verwendung in mehrteiligen Eigennamen“ hier nur der Vollständigkeit halber erwähnt (vgl. ausführlicher Hahn et al. 2008, S. 77f.). Das Verfassen und gegenseitige Korrekturlesen von Wortartikeln ließ also die Einsicht reifen, dass es sinnvoll wäre, Angaben zu(r) themengebundenen Verwendung(en) eines Wortes bzw. einer Lesart gesondert zu beschreiben. Während der lexikografischen Arbeit mutierte die ursprüngliche Sachgebietsangabe zu einem Sammelbecken, in dem unterschiedlichste Informationen zum im weitesten Sinne fachsprachlichen, aber auch zum thematischen Gebrauch eines Stichwortes bzw. einer Lesart angegeben wurden. Wie eine Bestandsaufnahme zeigte, dominierte bald die Dokumentation auffälliger, an einen Diskurs gebundener Verwendungsweisen. Es war folglich nur konsequent, Daten zum Gebrauch von Stichwörtern bzw. Lesarten in Fachsprachen im enge- Ulrich Schnörch 134 ren Sinne 3 von Daten zu deren Thematisierung, also der signifikanten und usuellen Verwendung von Stichwörtern bzw. Lesarten in bestimmten und näher zu bestimmenden thematischen Bereichen, zu trennen. Mit dieser separaten Angabe zum diskursiven Gebrauch eines Wortes bzw. einer Lesart betrat man in elexiko lexikografisches Neuland. Um den Weg dorthin besser nachvollziehen zu können, soll hier wenigstens ein schemenhafter Einblick in die Artikelwerkstatt von elexiko gegeben werden, um zu zeigen, welches methodische Vorgehen dem Verfassen von Wortartikeln zugrunde liegt (im Detail dazu vgl. auch Schnörch 2005). Dreh- und Angelpunkt ist die Ableitung der lexikografisch relevanten Daten aus dem elexiko-Korpus, die sich auf die Frage zuspitzen lässt: „Wie wird das Prinzip der Korpusbasiertheit bei den Angaben zu den Besonderheiten des Gebrauchs realisiert? “ (Haß 2005, S. 275). Am Beginn der Arbeit zu einem Wortartikel steht eine Rechercheanfrage, deren Ergebnis alle im elexiko-Korpus vorkommenden Wortformen des Stichworts auflistet. Diese Zusammenstellung wird einer Kollokationsanalyse unterzogen. 4 Eine solcherart durchgeführte automatische Strukturierung erleichtert bzw. ermöglicht erst die systematische redaktionelle lexikografische Analyse des häufig viele Tausend Treffer umfassenden Sprachdatenmaterials. Die Auswertung kann je nach inhaltlichem Erkenntnisinteresse unter variierenden Vorzeichen erfolgen. Was die Aufdeckung von Gebrauchsbesonderheiten betrifft, so schreibt Ulrike Haß dazu: Bei der Arbeit mit KWIC -Zeilen [...] und Kookkurrenzlisten, aber besonders und oft erst bei der Suche nach Belegen zur Illustration der semantischen Paraphrase und der paradigmatischen Relationen ergeben sich pragmatisch relevante ‘Verdachtsmomente’. Auch aus der eigenen Sprachkompetenz der Lexikografen heraus können sich entsprechende Hypothesen über pragmatische Besonderheiten ergeben. Diese werden dann anhand weiterer Belegrecherchen gezielt überprüft. Hierbei kommt der Usualität einer pragmatischen Besonderheit große Beachtung zu. Die LexikografInnen müssen entscheiden, wie viele Belege eines hochfrequenten und wie viele Belege eines niedrig frequenten Stichworts bzw. einer Lesart hinreichend und notwendig sind, um z. B. die Sprechereinstellung, die Sachgebietsbindung oder die Textsortenbindung nicht als okkasionell aus der Darstellung herauszuhalten, sondern als usuell und damit 3 Vgl. etwa die entsprechenden Einträge in den Wortartikeln Abschiebegewahrsam in der Lesart ‘Haft’, Art in der Lesart ‘Sorte’, Spezifizierung ‘Spezies’, Mannschaft ‘militärische Einheit’, Masse ‘Materie’, Mord ‘Straftat’, Vergangenheit ‘Zeitform des Verbs’. 4 Zu den Arbeitsgrundlagen von elexiko, besonders dem Korpustool COSMAS II , vgl. Abschnitt 2 der Einleitung in diesem Band. Wichtigstes Instrument zur Vorstrukturierung der Korpusmassendaten ist dabei das Werkzeug ‘Statistische Kollokationsanalyse und -clustering’ (vgl. auch Belica 1995). „Themengebundene Verwendung(en)“ als neuer Angabetyp 135 ‘wörterbuchwürdig’ einzustufen. Es gibt immer wieder Grenzfälle. Objektive Standards sind hier kaum möglich, sodass die Lexikografen ihre eigene Sprachsowie ihre fachliche Kompetenz einbringen müssen. (Haß 2005, S. 275) Bei der redaktionellen Analyse der Korpusdaten lässt sich in der Regel auch erkennen, ob der Gebrauch eines Wortes in einem bestimmten Themengebiet oder mehreren von besonderer Signifikanz sowie Usualität ist, und daher möglicherweise auch lexikografische Relevanz besitzt. Meist ist dies aufgrund der Wortbedeutung erwartbar - so verwundert es nicht, dass beispielsweise Innenminister häufig im Bereich Politik verwendet wird. Das kann für onomasiologische Zugriffsstrukturen auf das Wörterbuch durchaus interessant sein, nicht jedoch im Sinne einer themengebundenen Verwendung - verstanden als Besonderheit des Gebrauchs. Anders verhält es sich hingegen im Falle von Schriftsteller in der Lesart ‘Autor’ (vgl. Abb. 1). Abb. 1: Kommentar zur themengebundenen Verwendung von Schriftsteller, Lesart ‘Autor’ Dieser themengebundene Gebrauch ist nicht - quasi bedeutungsinhärent - vom Stichwort bzw. der Lesart vorgegeben und somit nicht erwartbar. Daher ist es sinnvoll, eine derartige Thematisierung im elexiko-Korpus als lexikografisch relevante Information, nämlich als Gebrauchsbesonderheit diskursiver Art zu verzeichnen. Eine vergleichbare Besonderheit ist die Verwendung von Innenminister im politischen Kontext gerade nicht. Diskurs wird in diesem Kontext forschungspraktisch im Sinne von Busse/ Teubert (1994, S. 14) verstanden als „virtuelle Textkorpora, deren Zusammensetzung durch im weitesten Sinne inhaltliche (bzw. semantische) Kriterien bestimmt wird“ (ebd., vgl. dort auch weitere Details). Analog zu dieser Auffassung von Diskurs ist es folgerichtig, dass für ein korpusbasiert erstelltes elektronisches Wörterbuch nicht nur Angaben zur Bedeutung, Paradigmatik, Grammatik usw. erarbeitet werden. Die Methodik musste zwangsläufig auch Angaben zur themengebundenen Verwendung oder eben des diskursiven Gebrauchs hervorbringen, was ein Blick auf die Arbeitsweise in elexiko unter diesem speziellen Fokus nochmals verdeutlicht. Ulrich Schnörch 136 Die semantische Strukturierung und inhaltlich-thematische Gruppierung der durch die Kookkurrenzanalyse gewonnenen signifikanten Partnerwörter zu einem Stichwort dient im lexikografischen Prozess zunächst als Indikator für die Lesartendisambiguierung (vgl. Schnörch 2010). Darüber hinaus wird die weitere Analyse der Kollokatoren unmittelbar oder mittelbar auch zur Gewinnung von Daten für andere Angabetypen genutzt, beispielsweise für Mitspieler in der Rubrik „Semantische Umgebung und lexikalische Mitspieler“ sowie für inkompatible, synonyme usw. Relationspartner in der Rubrik „Sinnverwandte Wörter“. Im Zuge der redaktionellen Strukturierung bzw. Gruppierung von Kollokatoren kristallisieren sich häufig auch thematische Schwerpunkte heraus, in denen das Stichwort in statistisch signifikanter Weise verwendet wird (vgl. musterhaft dazu auch Storjohann 2007, S. 140ff., die derartige Analyseverfahren und Erkenntnisprozeduren am Beispiel Globalisierung ausführlich darlegte; allgemein haben Heidrun Kämper et al. mit der „Konzeption eines Wörterbuchs des Nachkriegsdiskurses“ die Tragfähigkeit des Beschreibungsansatzes für einen gänzlich neuen Wörterbuchtypus nachgewiesen, vgl. u. a. Kämper 2006, 2008 und Diskurswörterbuch 1945-55). Die einzelnen inhaltlichen Schwerpunkte in elexiko werden weitestgehend getrennt voneinander erarbeitet. Trotzdem greift es etwas zu kurz, von einer bloßen Abfolge einzelner Arbeitsschritte während der fortschreitenden Korpusbzw. KWIC -Analyse zu sprechen. Es handelt sich vielmehr um Analysevorgänge, die sich wechselseitig ergänzen. Die Beziehungen zu erkennen, der Vernetzung von Sprachdaten gerecht zu werden, d. h. sie lexikografisch für einen Wortartikel aufzubereiten, erfordert einerseits ein erhebliches Maß an Aufwand bei der korpusbasierten Wörterbucharbeit. Diese mit fortschreitender Projektdauer eher komplexer werdenden Kohärenz- und Vernetzungsstrategien gehören andererseits im redaktionellen lexikografischen Kontext zu jenem Erfahrungsschatz, der nur in der Praxis - und zwar mit jedem verfassten Wortartikel - kontinuierlich wächst. Insofern scheint es in der Tat konsequent, dass eine Diskursangabe (i.w.S.) als solche erst nach einer relativ umfangreichen Testbzw. Arbeitsphase entwickelt und ergänzt werden konnte, eben erst dann, als die entsprechenden praktischen Erfahrungen gemacht waren. Unter der Überschrift „Themengebundene Verwendung(en)“ kann nun das zusammengefasst und so auf den Punkt gebracht werden, was explizit dem korpusbasierten Ansatz von elexiko gerecht wird, was tendenziell und indirekt vor allem bei den semantischen Mitspielern und bei den paradigmatischen Partnern unter entsprechend anderen inhaltlichen Vorzeichen in diskursiver Hinsicht aus den konkreten Korpus- „Themengebundene Verwendung(en)“ als neuer Angabetyp 137 texten durchscheint. Insgesamt finden Personen, die elexiko nutzen, mittlerweile in ca. 300 elexiko-Wortartikeln (Stand: Ende 2009) Informationen unter der Überschrift „Themengebundene Verwendung(en)“ - selbstverständlich nur dann, wenn sie als Besonderheit(en) des Gebrauchs interpretierbar sind. Einige konkrete, besonders deutliche Beispiele vermögen jene thematische Vernetzung (als speziellen Reflex korpusbasierten, lexikografischen Arbeitens in elexiko) innerhalb eines Wortartikels und zugleich den Angabetyp als solchen zu veranschaulichen. 3. Beispiele In die relativ allgemein gehaltene semantische Umschreibung von Konsum in der Lesart ‘Genuss’ (vgl. Abb. 2) fließen zentrale Ergebnisse der Kollokationsanalyse ein, genauer: der semantischen Gruppierung von Kollokatoren nach ihrer Zusammengehörigkeit. Dadurch wird eine Lesart maßgeblich konstituiert und ggf. von anderen Lesarten abgegrenzt. Abb. 2: Semantische Paraphrase zu Konsum, Lesart ‘Genuss’ Die Mehrzahl der Kollokatoren, die einer Lesart zugeordnet werden können, findet man unter der Rubrik „Semantische Umgebung und lexikalische Mitspieler“ als Antworten auf Fragen nach satzsemantischen Rollen wieder. Im vorliegenden Fall etwa Fett, Fleisch, Getränk als Antwort auf die Frage „Worauf bezieht sich der Konsum? “. Daneben stößt man unter dieser Frage aber auch auf Cannabis, Ecstasy, Heroin und anderes, was sich mit dem Oberbegriff ‘Droge’ zusammenfassen ließe. Unter der Rubrik „Sinnverwandte Wörter“ sind als inkompatible Partner 5 ausschließlich solche angeführt, die im Zusammenhang mit (illegalen) Drogen erscheinen. In den Belegen mit den üblicherweise paarformelartig verwendeten inkompatiblen Partnerwörtern geht es sinngemäß stets um Anbau/ Besitz/ 5 „Inkompatibilität ist die allgemeinste Art des Bedeutungsgegensatzes. Sie existiert zwischen zwei Wörtern, die innerhalb eines bestimmten Textzusammenhangs zueinander kohyponym sind, d. h. inkompatible Wörter gehören zwei unterschiedlichen Kategorien an, zu denen es eine gemeinsame, allgemeinere, übergeordnete Kategorie („Oberbegriff“) gibt. So sind z. B. relativ zu der übergeordneten Kategorie ‘Obst’ die folgenden Wörter inkompatibel: Apfel, Birne, Pflaume, Kirsche. Ebenso sind die Verben gehen, rennen, fahren, schwimmen, flie- Ulrich Schnörch 138 Handel/ Verkauf/ Weitergabe und Konsum von Ecstasy/ Cannabis/ Heroin (vgl. Wortartikel Konsum, Lesart ‘Genuss’). Konsum wird dabei im elexiko-Korpus 6 häufig im Zusammenhang mit Berichten über Gerichtsverhandlungen oder im Zuge der Diskussion über den liberaleren Umgang mit bestimmten Suchtmitteln verwendet. Diese besondere Thematisierungstendenz fällt also in (mindestens) zwei der Informationsrubriken von elexiko auf, was bis zu einem bestimmten Grad gewiss auch der Dominanz von Zeitungstexten im elexiko-Korpus geschuldet ist. In diesem gewählten Bezugsrahmen ist sie jedoch usuell und signifikant, und deshalb gibt es eine entsprechende, mit Beleg gestützte Angabe unter der Rubrik „Besonderheiten des Gebrauchs“ (vgl. Abb. 3). Abb. 3: Kommentar zur themengebundenen Verwendung von Konsum, Lesart ‘Genuss’ Zwischen den genannten Angabetypen bestehen also Wechselbeziehungen in der erläuterten Art: Bestimmte (mittels statistischer Kookkurrenzanalyse) ermittelte Mitspieler bzw. Relationspartner sind zugleich Indikatoren für die themengebundene Verwendung eines Wortes bzw. einer Lesart, verstanden als lexikografisch relevante Gebrauchsbesonderheit. Diese methodische wie konzeptionelle Vernetzung der erwähnten Angabetypen lässt sich natürlich auch an anderen Beispielen zeigen: Wirft man beim Wortartikel Politiker einen Blick auf die Rubrik „Sinnverwandte Wörter“, so findet man eine ganze Reihe aus dem elexiko-Korpus gewonnener, statistisch signifikanter inkompatibler Relationspartner. Deren große Anzahl würde eine bloße alphabetische Aufzählung sehr unübersichtlich erscheinen lassen. Daher werden die Partnerwörter in solchen Fällen nach inhaltlich-thematischen Gesichtspunkten strukturiert. Durch diese Gruppierung gewinnt der Korpusbzw. thematische Bezug zusätzlich an Transparenz. Falls außerdem Themengebundenheit im Sinne von elexiko festgestellt und an entsprechender Stelle dokumentiert wird, sind wechselseitige Beziehungen direkt auszumachen. gen in Bezug auf eine übergeordnete Kategorie ‘Fortbewegung’ inkompatibel zueinander. Die inkompatiblen Partner in elexiko sind aus dem Korpus ermittelt worden.“ (Benutzungshinweise/ Glossar auf den Internetseiten des Projektes elexiko). 6 Zum elexiko-Korpus vgl. Abschnitt 2 der Einleitung in diesem Band. „Themengebundene Verwendung(en)“ als neuer Angabetyp 139 Die in inkompatibler Relation zu Politiker stehenden Personenbezeichnungen lassen sich zwei Bereichen zuordnen, die durchaus erwartbar sind, nämlich ‘Wirtschaft’ (z. B. Banker, Industrieller, Manager) sowie ‘Verwaltung, Recht und Militär’ (z. B. Beamter, Diplomat, General ). Diese Personenbezeichnungen werden üblicherweise in Paarformeln mit Politiker verwendet, z. B. Politiker und Banker/ Beamte. Gleich oder ähnlich verwendet werden Partnerwörter wie Journalist, Publizist, Schriftsteller bzw. Künstler, Umweltschützer, Wissenschaftler. Dabei handelt es sich um Personenbezeichnungen aus dem Bereich der schreibenden Zunft sowie aus den Bereichen ‘Kunst, Wissenschaft und öffentliches Leben’. Im Gegensatz zu den Partnerwörtern der beiden erstgenannten Gruppen können die Partnerwörter aus den zweitgenannten Bereichsgruppen als weniger erwartbar interpretiert werden, was den inhaltlichen Kontext betrifft, aus dem sie stammen. Das deutet in der Konsequenz auf eine besondere themengebundene Verwendung hin, und tatsächlich findet man im Wortartikel Politiker, Lesart ‘(Amts-)Person’ in der Rubrik „Besonderheiten des Gebrauchs“ eine entsprechende Angabe hierzu (vgl. Abb. 4). Abb. 4: Themengebundene Verwendung(en) von Politiker, Lesart ‘(Amts-)Person’ Urlaub, in der Lesart ‘dienstfreie Zeit’ wird im elexiko-Korpus häufig mit inkompatiblen Relationspartnern wie Geschäftsreise, Krankenstand, Krankheit, Überstunden, Arbeitszeit und Lohn paarformelartig verwendet. Diese können gleichwohl als Indikatoren für eine diskursive Besonderheit im Gebrauch betrachtet werden (vgl. Abb. 5). Ulrich Schnörch 140 Abb. 5: Themengebundene Verwendung(en) von Urlaub, Lesart ‘dienstfreie Zeit’ Zu Flexibilität in der Lesart ‘Anpassungsfähigkeit’ wurden zwei Gruppen inkompatibler Relationspartner zusammengestellt, die inhaltlich den ‘Vergleich mit anderen beruflichen Anforderungen’ (z. B. Ausdauer, Eigeninitiative, Kreativität) und den ‘Vergleich mit anderen wirtschaftlichen Anforderungen’ (z. B. Effizienz, Kundennähe, Transparenz) widerspiegeln. Auch hier ließen sich diese inkompatiblen Partner als Indikatoren für themengebundene Verwendungen interpretieren, und der entsprechende Befund wurde als Besonderheit des Wortgebrauchs festgehalten (vgl. Abb. 6). Abb. 6: Themengebundene Verwendung(en) von Flexibilität, Lesart ‘Anpassungsfähigkeit’ „Themengebundene Verwendung(en)“ als neuer Angabetyp 141 Als weitere Besonderheit des Gebrauchs erhalten Interessierte ausführliche Informationen darüber, dass Flexibilität im elexiko-Korpus von Sprechenden oder Schreibenden in bestimmten thematischen Bezugsrahmen gerne positiv oder negativ wertend verwendet wird (vgl. Abb. 7). Abb. 7: Einstellung des Sprechers bei Flexibilität, Lesart ‘Anpassungsfähigkeit’ (graue Hinterlegung: Anm. d. Autors) Auch bei dieser streng genommen nur aus konkreten Texten ableitbaren Angabe zur Sprechereinstellung sind einzelne Ankerpunkte (vgl. die grauen Hinterlegungen im Kommentar in Abb. 7) auszumachen, die mit Daten an anderer Stelle des Wortartikels korrelieren - was hier jedoch nur angedeutet und nicht weiter vertieft wird. Damit sollte abschließend der Fokus erweitert und zumindest noch angedeutet werden, dass das Prinzip der Korpusbasiertheit als methodische Basis für die Vernetzung und Kohärenz zahlreicher Angaben und Angabetypen in elexiko maßgebend ist. Damit ist der Kreis zu den einleitenden theoretisch-methodischen Gedanken geschlossen. Die inhaltliche Gruppierung der mittels statistischer Kollokationsanalyse ermittelten Kollokatoren stellt nicht nur den Zugang zu lexikografisch verwertbaren, redaktionell interpretierbaren Korpusdaten dar, sie ermöglicht es schließlich auch, im Rahmen von Gebrauchsbesonderheiten diskursive Verwendung(en) einer Lesart im Sinne einer Gebrauchsbesonderheit zu erfassen. 4. Fazit Die lexikografische Dokumentation von Themengebundenheit als „Besonderheit des Gebrauchs“ lässt sich in elexiko als Konsequenz des lexikografischen Arbeitsprozesses auf Korpusbasis interpretieren. Dieser konzeptionelle Ansatz ermöglicht, ja fordert die Vernetzung der einzelnen Angabearten von der Ulrich Schnörch 142 semantischen Paraphrase über die lexikalischen Mitspieler und sinnrelationalen Partnerwörter bis hin zur Beschreibung von Gebrauchsbesonderheiten, insbesondere themengebundener Verwendung(en). Die eingangs aufgeworfenen Fragen sind - soweit als möglich - beantwortet. Ein neuer Typ lexikografischer Informationen in elexiko wurde begründet, erklärt und illustriert. Er steht - wie alle anderen Angaben - mit jedem redaktionell erarbeiteten Wortartikel erneut auf dem Prüfstand. Der in elexiko eingeschlagene Weg, der sich um die lexikografische Beschreibung auffälliger, nicht erwartbarer diskursiver Verwendung(en) einzelner Wörter bzw. Lesarten bemüht, führt schlussendlich in Richtung einer Beschreibungsebene, die bisher in allgemeinen einsprachigen Wörterbüchern nicht berücksichtigt wurde. Der vorgestellte Teilbereich, insbesondere dessen Genese, zeigt auch, dass elexiko zwar primär ein Wortschatzinformationssystem ist, in dessen fortlaufend zunehmendem Datenbestand recherchiert werden kann. Gleichzeitig sollte elexiko aber auch als ein Forschungsgegenstand verstanden werden, der im Zuge seines (redaktionellen) Ausbaus auch einer kontinuierlichen konzeptionellen Verifizierung und Optimierung unterliegt - insbesondere bei den Typen von Angaben, die naturgemäß ein gewisser Grad an Vagheit auszeichnet, und die breitere Interpretationsspielräume bieten. 5. Literaturverzeichnis 5.1 Wörterbücher Diskurswörterbuch 1945-55 (2007). In: Institut für Deutsche Sprache (Hg.): OWID - Online-Wortschatz-Informationssystem Deutsch. Mannheim. Internet: www.owid.de (Stand: 30.04.2010). elexiko (2003ff.). In: Institut für Deutsche Sprache (Hg.): OWID - Online-Wortschatz-Informationssystem Deutsch. Mannheim. Internet: www.elexiko.de (Stand: 30.04.2010). 5.2 Forschungsliteratur Busse, Dietrich/ Teubert, Wolfgang (1994): Ist Diskurs ein sprachwissenschaftliches Objekt? Zur Methodenfrage der historischen Semantik. In: Busse, Dietrich et al. (Hg.): Begriffsgeschichte und Diskursgeschichte. Methodenfragen und Forschungsergebnisse der historischen Semantik. Opladen, S. 10-28. Hahn, Marion/ Klosa, Annette/ Müller-Spitzer, Carolin/ Schnörch, Ulrich/ Storjohann, Petra (2008): elexiko - das elektronische, lexikografisch-lexikologische korpusbasierte Wortschatzinformationssystem. Zur Neukonzeption, Erweiterung und Revision einzelner Angabebereiche. In: Klosa, Annette (Hg.): Lexikografische „Themengebundene Verwendung(en)“ als neuer Angabetyp 143 Portale im Internet. (= OPAL - Online publizierte Arbeiten zur Linguistik 1/ 2008). Mannheim, S. 57-85. Internet: www.ids-mannheim.de/ pub/ laufend/ opal/ privat/ pdf/ opal 08-1_hahn-klosa-mueller-spitzer.pdf (Stand: 18.05.2010). Hanks, Patrick (1990): Evidence and intuition in lexicography. In: Tomaszczyk, Jerzy/ Lewandowska-Tomaszczyk, Barbara (Hg.): Meaning and lexicography. (= Linguistic & Literary Studies in Eastern Europe 28). Amsterdam/ Philadelphia, S. 31-41. Haß, Ulrike (2005): Besonderheiten des Gebrauchs. In: Haß (Hg.), S. 265-276. Haß, Ulrike (Hg.) (2005): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz. (= Schriften des Instituts für Deutsche Sprache 12). Berlin/ New York. Kämper, Heidrun (2006): Diskurs und Diskurslexikographie. Zur Konzeption eines Wörterbuchs des Nachkriegsdiskurses. In: Deutsche Sprache 34, S. 334-353. Kämper, Heidrun (2008): Sprachgeschichte - Zeitgeschichte - Umbruchgeschichte - Sprache im 20. Jahrhundert und ihre Erforschung. In: Kämper, Heidrun/ Eichinger, Ludwig M. (Hg.): Sprache - Kognition - Kultur. Sprache zwischen mentaler Struktur und kultureller Prägung. Jahrbuch 2007 des Instituts für Deutsche Sprache. Berlin/ New York, S. 198-224. Schnörch, Ulrich (2005): Der Autoren-Arbeitsplatz: Ein elexiko-Wortartikel entsteht. In: Haß (Hg.), S. 105-130. Schnörch, Ulrich (2008a): Nicht ‘gehoben’, ‘verhüllend’, ‘fachsprachlich’: Ein neues Konzept zur lexikografischen Beschreibung von Kultur- und Diskursabhängigkeit des Wortgebrauchs in elexiko. In: Valentin, Jean-Marie (Hg.) (unt. Mitarb. v. Hélène Vinckel): Akten des XI. Internationalen Germanistenkongresses Paris 2005 „ Germanistik im Konflikt der Kulturen“. Bd. 4. (= Jahrbuch für Internationale Germanistik: Reihe A, Kongressberichte 80). Bern u. a., S. 337-344. Schnörch, Ulrich (2008b): Von der Markierung zur Beschreibung: Besonderheiten des (Wort-)Gebrauchs in elexiko. In: Bernal, Elisenda/ Cesaris, Janet (Hg.): Proceedings of the Thirteenth EURALEX International Congress, Barcelona, Spain, July 15th-19th, 2008. (= Sèrie Activitats 20). Barcelona, S. 607-616. Schnörch, Ulrich (2010): Lesartendisambiguierung in elexiko. Vortrag beim 6. Arbeitstreffen deutschsprachiger Akademiewörterbücher Berlin 2.-5. September 2009. Internet: http: / / dwb.bbaw.de/ tagung09/ index.html (Stand: 30.04.2010). Storjohann, Petra (2007): Der Diskurs ‘Globalisierung’ im öffentlichen Sprachgebrauch. In: Aptum. Zeitschrift für Sprachkritik und Sprachkultur 2, S. 139-155. Teubert, Wolfgang (2006): Korpuslinguistik, Hermeneutik und die soziale Konstruktion der Wirklichkeit. In: Linguistik online 28, 3. Internet: www.linguistik-online.com/ 28_06/ teubert.html (Stand: 30.04.2010). Teubert, Wolfgang/ Čermáková, Anna (2004): Directions in corpus linguistics. In: Halliday, Michael et al. (Hg.): Lexicology and corpus linguistics: an introduction. London/ New York. S. 113-166. Ulrich Schnörch 144 5.3 Internetressourcen Belica, Cyril (1995): Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode. Mannheim. Internet: http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: 30.04.2010). COSMAS II. Internet: http: / / www.ids-mannheim.de/ cosmas2/ (Stand: 30.04.2010). Statistische Kollokationsanalyse und -clustering, COSMAS -Korpusanalysemodul. Internet: http: / / www.ids-mannheim.de/ kt/ projekte/ methoden/ bzw. http: / / www.ids-mannheim. de/ kl/ projekte/ methoden/ ka (beide Stand: 30.04.2010). Annette Klosa Korpusgestützte Angaben zu Grammatik und Wortbildung Angaben zu Grammatik und Wortbildung haben eine lange Tradition in Wörterbüchern. Dies liegt unter anderem daran, dass viele Nutzer Wörterbücher zur Beantwortung grammatischer Fragen heranziehen (vgl. Bergenholtz 1983 und 1984; Mugdan 1989; Wiegand 1985). Angaben zur Wortbildung informieren daneben darüber, welche Wörter durch Wortbildung in Wortfamilien miteinander verbunden sind (vgl. Augst 1992; Kempcke 1992). Wortbildungsangaben dienen außerdem der Erweiterung des Wortschatzes eines Nutzers (vgl. Barz 1995; Bergenholtz 2000), indem sie „einen Beitrag zur Durchsichtigkeit und Erschließbarkeit des Wortschatzes leisten“ (Holly 1986, S. 204). Bei der Konzeption dieser Angabebereiche ist elexiko teilweise von tradierten Darstellungsmöglichkeiten oder Verfahren abgewichen. So werden grammatische Angaben nicht in stark verkürzter Form, sondern explizit und ausführlich dargestellt. Grundsätzlich werden Stichwörter oder Lesarten 1 eines Stichworts in Abhängigkeit von ihrer Wortart mit unterschiedlichen grammatischen Informationen versehen. Als Beispiel sollen hier die Adjektive dienen (vgl. das Beispiel lebendig in Abb. 1), bei denen festgehalten wird, ob sie deklinierbar sind oder nicht, ob sie steigerbar sind (es werden alle, auch die regelmäßigen Formen erfasst) und in welchen Funktionen im Satz (attributiv, prädikativ, adverbial) sie belegt sind. Abb. 1: Grammatische Angaben im Wortartikel lebendig, Lesart ‘pulsierend’ 1 Die Bezeichnung Lesart wird in elexiko anstelle von Einzelbedeutung oder Bedeutungsvariante verwendet (vgl. Haß 2005a, S. 164). Annette Klosa 146 Angaben zur Gebildetheit eines Stichwortes sind nicht nur sporadisch, sondern konsequent bei allen Stichwörtern, die Wortbildungsprodukte sind, zu finden. Stichwörter, die nicht das Produkt von Wortbildung sind, werden entsprechend als solche markiert. Die Angaben zur Wortbildung umfassen die Bestimmung der Wortbildungsart (Ableitung, Zusammensetzung, Kurzwortbildung, Präverbfügung) und der Wortbildungsbedeutung 2 (vgl. im Einzelnen Klosa 2005c). Die Bestandteile, die in die Bildung eingegangen sind (z. B. Ableitungsbasis, Affix, Kompositionsbestandteile) werden einzeln erfasst und ggf. nach ihrer Wortart bestimmt; wo möglich, wird auf die entsprechenden Stichwörter in elexiko verlinkt (vgl. die entsprechenden Informationen zur Bildung Lehrerin in Abb. 2). Abb. 2: Angaben zur Wortbildung im Wortartikel Lehrerin Bei der Konzeption der Angaben zu Grammatik und Wortbildung in elexiko wurde auch bedacht, dass sie zum Zweck der besseren Recherchierbarkeit so fein differenziert und streng modelliert wie möglich gestaltet sein sollten. Schließlich werden die grammatischen Angaben dem generell in elexiko geltenden Prinzip der Korpusbasiertheit 3 gerecht, indem sie ausschließlich aus den Texten des elexiko-Korpus 4 gewonnen werden. Auch Ausnahmen und Varianten werden im elexiko-Korpus gefunden und in den Wortartikeln festgehalten, wobei außerdem die relative Frequenz der Varianten zueinander beschrieben wird. Erläuternde Kommentare und Hinweise auf abweichende Befunde in Wörterbüchern begleiten diese Angaben (vgl. Klosa 2005a und 2005c; zu weiteren Beispielen vgl. Abschnitt 2). Besonders grammatische Angaben werden so in einem Spannungsfeld zwischen lang tradierten Kategorien und vielfältig davon abweichenden Korpusbefunden erarbeitet. Aus den Erfahrungen in der praktischen Artikelarbeit heraus sind inzwischen manche Ergänzungen oder Verbesserungen in den Angabebereichen Grammatik und Wortbildung hervorgegangen, die im Folgenden ebenso interessieren 2 Die Angaben zur Wortbildungsbedeutung werden online derzeit nicht angezeigt, sollen aber zukünftig für Recherchezwecke zur Verfügung stehen (vgl. Abschnitt 4). 3 Vgl. hierzu Abschnitt 3 der Einleitung in diesem Band. 4 Vgl. hierzu Abschnitt 2 der Einleitung in diesem Band. Korpusgestützte Angaben zu Grammatik und Wortbildung 147 wie die Frage danach, mit welchen anderen Angaben in den Wortartikeln die grammatischen Angaben vernetzt sind. Daneben sollen als Ausblick einige interessante Recherchemöglichkeiten vorgestellt werden. 1. DTD -Änderungen Die Modellierung der grammatischen Angaben und der Angaben zur Wortbildung in elexiko wurden im Zuge der Artikelarbeit in den letzten Jahren in manchen Bereichen ergänzt, in anderen umgearbeitet. Solche Änderungen sind einerseits aus den Erfahrungen bei der praktischen Arbeit hervorgegangen und andererseits durch konzeptionelle Änderungen im Bereich des Stichwortansatzes bedingt. Abb. 3: DTD -Ausschnitt für Deklinationssonderfälle der Nomen am Beispiel Abgeordneter Annette Klosa 148 Ausgelöst durch die Entscheidung, Nomen vom Typ (ein) Abgeordneter/ (eine) Abgeordnete sowohl in der maskulinen wie in der femininen Form zu lemmatisieren (vgl. Schnörch 2005, S. 86), wurde beispielsweise die DTD bei den grammatischen Angaben der Nomen für solche Stichwörter ergänzt, sodass nun die Formen im Nominativ Singular und Plural sowie im Genitiv Singular 5 sowohl nach bestimmtem wie unbestimmtem Artikel erfasst und online präsentiert werden können (vgl. Abb. 3). Daneben gibt es Änderungen, bei denen in der DTD aufgrund erkennbarer Lücken die ursprüngliche Konzeption und Modellierung modifiziert werden musste. Davon sind solche Fälle zu unterscheiden, bei denen erst die Korpusbefunde darauf aufmerksam machten, dass im vorgesehenen Angabeninventar nicht alle Befunde adäquat erfasst und beschrieben werden konnten. Am umfangreichsten waren die Änderungen im Bereich der Angaben zur Verbvalenz. Wie sich im Lauf der Bearbeitung der ersten etwa 100 Verben gezeigt hatte, war die Unterscheidung nach obligatorischen und fakultativen Komplementen bei den Verben nur in unbefriedigender Weise möglich, sodass hier nachgebessert werden musste, auch damit online die Markierung fakultativer Komplemente durch runde Klammern umgesetzt werden konnte (vgl. im Detail Hahn et al. 2008, S. 78). Eine wichtige Änderung bei den Angaben zur Wortbildung ist, dass diese nicht mehr nur bezogen auf das Stichwort als Ganzes, sondern auch bezogen auf einzelne Lesarten erfolgen kann (vgl. Klosa 2005c, S. 144). Diese Möglichkeit wurde inzwischen vor allem dann genutzt, wenn semantisch als nicht verwandt einzustufende Lesarten unter einer Lemmazeichengestaltangabe (d. h. eigentlich unter ein und demselben Formativ) zusammengefasst (und nicht als Homonyme angesetzt) sind (vgl. Haß 2005b, S. 174f.). Dies ist z. B. in den Wortartikeln bereiten mit den Lesarten ‘erleben lassen’ (schwaches Verb) und ‘herstellen’ (schwaches Verb) einerseits, deren Gebildetheit synchron nicht mehr analysiert werden kann, und den Lesarten ‘ein Pferd ausbilden’ (starkes Verb) und ‘auf einem Pferd überqueren’ (starkes Verb) andererseits der Fall, die Derivate aus reiten und dem Präfix besind. Im Wortartikel sieben mit den Lesarten ‘Zahl’ (Adjektiv) und ‘körnige Substanzen trennen’ (Verb) wird nur bei der verbalen Lesart die Bildung analysiert (Ableitung aus Sieb + -en). 6 5 Die Formen des Genitiv Singular werden erfasst, damit der spezielle Flexionstyp dieser Nomen besser verdeutlicht werden kann. 6 Im Übrigen bietet die DTD inzwischen auch die Möglichkeit, durch Eintrag im Element <besonderheiten> an einer Lesart unterschiedliche Wortartenzugehörigkeit einzelner Lesarten (z. B. im Wortartikel sieben: Adjektiv und Verb), unterschiedliches Genus bei Nomen (z. B. im Wortartikel Bord: maskulinum oder neutral) oder unterschiedliche Verbklas- Korpusgestützte Angaben zu Grammatik und Wortbildung 149 Inzwischen wird auch die neue Möglichkeit häufiger genutzt, zur Wortbildung als Ganzes einen Kommentar zu geben, ohne die Gebildetheit des Stichwortes im Einzelnen zu analysieren. In der praktischen Arbeit hat sich nämlich rasch gezeigt, dass bei einigen Stichwörtern die Entscheidung darüber, ob diese in synchroner Sicht als gebildet einzustufen sind, nicht leicht zu treffen ist. Diesen Befund kann man nun in der Artikelstruktur festhalten, ein Wörterbuchhinweis wie im Beispiel Dienst (vgl. Abb. 4) ergänzt die Information. Abb. 4: Kommentar zur Wortbildung im Wortartikel Dienst Abb. 5: Kommentar zum Artikelgebrauch im Wortartikel Tennis, Lesart ‘Ballspiel’ Als ein Beispiel dafür, wie sich Befunde im elexiko-Korpus auf die DTD - Modellierung der grammatischen Angaben ausgewirkt haben, können die Angaben zum Artikelgebrauch der Nomen angeführt werden. Hier waren nur die Attribute „immer mit bestimmtem Artikel“ (z. B. für Nomen wie [der] Irak) bzw. „meist ohne Artikel“ (z. B. für Nomen wie Multimedia) vorgesehen. Dieses Inventar musste auf die folgenden Attribute erweitert werden: „immer mit bestimmtem Artikel“, „meist unbestimmter Artikel“, „immer mit unbestimmtem Artikel“, „ohne Artikel“, „meist ohne Artikel“ und „andere“. Bei Aussen (z. B. im Wortartikel bereiten: starkes oder schwaches Verb) zu erfassen, damit die Nutzer beim Blick auf das Lesartenspektrum als Ganzes schnell auf diese Unterschiede aufmerksam gemacht werden können. Annette Klosa 150 wahl des Wertes „andere“ wird gleichzeitig ein Verwendungshinweis eingetragen, in dem beschrieben und belegt wird (wie im Beispiel Tennis in Abb. 5), welche Auffälligkeit zum Artikelgebrauch im Korpus beobachtet wurde. 2. Nutzung von Hinweisen, Kommentaren und Belegen Ein wichtiger Grundsatz bei der Erarbeitung der Wortartikel in elexiko war und ist die Deskriptivität: elexiko soll den aktuellen Sprachgebrauch zeigen bzw. beschreiben, wie die Sprecher der deutschen Sprachgemeinschaft gegenwärtig üblicherweise miteinander kommunizieren (vgl. Haß 2005a). Zugleich muss elexiko den Interessen solcher Benutzer gerecht werden, die nachschlagen, um bei Normunsicherheiten Klarheit zu erlangen. Vor diesem Hintergrund werden in elexiko „Abweichungen von geltenden Normen und Gebrauchsrestriktionen [...] transparent gemacht und kommentiert“ (Klosa 2005b, S. 300). So werden Schwankungen innerhalb bestimmter Flexionsparadigmen erfasst und mit Verwendungshäufigkeitsangaben versehen. Sprachreflexive Hinweise oder lexikografische Kommentare weisen auf Besonderheiten hin, und Belege illustrieren diese Beobachtungen. Dieses Vorgehen hatte sich schon bei der Erarbeitung des elexiko-Demonstrationswortschatzes bewährt, 7 wurde aber danach noch weiter ausgebaut. Beispielsweise gibt es inzwischen die Möglichkeit, direkt an der Lemmazeichengestaltangabe einen sprachreflexiven Hinweis zu ergänzen, in dem darauf hingewiesen wird, ob das betreffende Stichwort zu den Wörtern bzw. Unwörtern eines Jahres gewählt wurde (vgl. das Beispiel Aids in Abb. 6). Abb. 6: Sprachreflexiver Hinweis zum Stichwort Aids Am Beispiel der Formangaben, Kommentare und Hinweise in den grammatischen Angaben des Stichwortes Service, Lesart ‘das Bedienen’, wird deutlich, wie differenziert die Beschreibung auf der Basis der Korpusbefunde zu Fragen der Formenbildung und des schwankenden Genus erfolgen kann (vgl. Abb. 7). 7 Zu Beispielen aus dem elexiko-Demonstrationswortschatz vgl. Klosa (2005b). Zum elexiko- Demonstrationswortschatz vgl. Abschnitt 3 der Einleitung in diesem Band. Korpusgestützte Angaben zu Grammatik und Wortbildung 151 Abb. 7: Grammatische Angaben im Wortartikel Service, Lesart ‘das Bedienen’ 3. Vernetzung mit anderen Angabebereichen Bei der Erarbeitung der Wortartikel wird immer wieder deutlich, wie dicht bestimmte Angabebereiche miteinander vernetzt sind. Auf die grammatischen Angaben trifft dies (wie z. B. auch auf die typischen Verwendungsmuster oder die Bedeutungserläuterung) 8 in besonderem Maße zu. Am Beispiel des Verbs schützen in der Lesart ‘vor Gefahren bewahren’ soll dies illustriert werden: 8 Vgl. hierzu die Beiträge von Christine Möhrs („Die typischen Verwendungen in elexiko“) und Antje Töpel („Die semantische Paraphrase in elexiko“) in diesem Band. Annette Klosa 152 Als Satzbauplan wird in der Grammatik angegeben: JEMAND/ ETWAS schützt JEMANDEN/ ETWAS ( GEGEN/ VOR ETWAS ). 9 D. h. neben dem Subjektkomplement gibt es ein obligatorisches Objektkomplement, 10 das mit einer Akkusativnominalphrase realisiert wird, und ein fakultatives Objektkomplement, das in Form von Präpositionalphrasen mit gegen oder vor realisiert wird. Verschiedene Belege zu dem Satzbauplan illustrieren diese Möglichkeiten. In der Bedeutungserläuterung für schützen in dieser Lesart finden sich alle Komplemente wieder (vgl. Abb. 8). Abb. 8: Bedeutungserläuterung im Wortartikel schützen, Lesart ‘vor Gefahren bewahren’ In den Angaben zur semantischen Umgebung und den lexikalischen Mitspielern werden die Komplemente durch einzelne Fragesets aufgenommen, die jeweiligen Mitspieler zeigen die im elexiko-Korpus signifikantesten Realisierungen (vgl. Abb. 9). Schließlich finden sich unter den Angaben zu typischen Verwendungsmustern Phrasen wie „Kinder vor Übergriffen schützen“, „vor unliebsamen Überraschungen schützen“ oder „[z. B. ein Bernstein im Nacken] schützt vor bösen [z. B. Kräften]“, in denen der Satzbauplan bzw. die Komplemente wiederum erscheinen. Bei anderen Verben verdeutlichen die typischen Verwendungsmuster z. B. eine Tendenz zu passivischen Verwendungen. Im Wortartikel absagen in der Lesart ‘nicht stattfinden lassen’ etwa ergänzen solche Verwendungsmuster die Angabe zur Passivierbarkeit in der Grammatik sowie die bei den Angaben zur semantischen Umgebung festgehaltene Beobachtung, dass das Verb im elexiko- Korpus häufig in Passivkonstruktionen verwendet wird. 9 In der folgenden Abbildung, die ausschnittsweise Wortartikel aus elexiko zitiert, werden aus Anschaulichkeitsgründen bestimmte Teile in Graustufen hervorgehoben; dies entspricht nicht der Online-Darstellung. 10 Das akkusativische Objektkomplement ist in den Kontexten des elexiko-Korpus praktisch immer realisiert, so dass es hier als obligatorisch angenommen wurde. Grundsätzlich werden in den elexiko-Wortartikeln nur die im Korpus signifkanten Satzbaupläne beschrieben, eine vollständige Erfassung aller Satzbaupläne muss einem Valenzwörterbuch wie z. B. E-VALBU , dem elektronischen Valenzwörterbuch deutscher Verben, vorbehalten bleiben. Korpusgestützte Angaben zu Grammatik und Wortbildung 153 Abb. 9: Ausschnitt aus den lexikalischen Mitspielern im Wortartikel schützen, Lesart ‘vor Gefahren bewahren’ 4. Neue Recherchemöglichkeiten Dem ursprünglichen Konzept für die Angaben zu Grammatik und Wortbildung in elexiko liegt nicht nur das Prinzip der Korpusbasiertheit zugrunde, sondern die Grundidee war auch, mithilfe der sehr granularen Auszeichnung der Angaben interessante Abfragemöglichkeiten zu eröffnen (vgl. Müller- Spitzer 2005 und Klosa/ Müller-Spitzer 2007). Von diesen wurde bislang im Online-Angebot von elexiko unter dem Menüpunkt „Erweiterte Suche“ nur ein Teil realisiert. Dies liegt unter anderem daran, dass Recherchen, die keine oder nur sehr wenige Treffer liefern, nicht angeboten werden sollten. Da gegenüber dem elexiko-Demonstrationswortschatz inzwischen ein Vielfaches an Wortartikeln redaktionell bearbeitet wurde, sollen die Abfragemöglichkeiten zur Grammatik in absehbarer Zeit wie folgt ergänzt werden: Abfrage nach den Wortarten: Ergänzung um die Wortarten Artikel, interaktive Einheit, Junktor, Partikel, Präposition und Pronomen; Grammatik der Adjektive: deklinierbar bzw. nicht deklinierbar; Grammatik der Adverbien: steigerbar bzw. nicht steigerbar; Skopus auf den Satz oder auf das Verb; auch attributiv oder auch prädikativ verwendet; Grammatik der Artikel: nur singularisch oder nur pluralisch verwendet; - - - - Annette Klosa 154 Grammatik der Nomen: mit Besonderheiten beim Artikelgebrauch; mit Pluralbildung mit Umlaut; mit schwankendem Genus in einer Lesart; mit unterschiedlichem Genus bei unterschiedlichen Lesarten; Grammatik der Pronomen: deklinierbar bzw. nicht deklinierbar; nur singularisch oder nur pluralisch verwendet; Grammatik der Verben: mit defektem Flexionsparadigma; zwischen starker und schwacher Flexion schwankende Verben. Vor dem Hintergrund der korpusgestützten Erarbeitung der Wortartikel in elexiko sind besonders die oben genannten neuen Abfragemöglichkeiten zu Nomen und Verben interessant, da durch sie der Zugang zu solchen Stichwörtern eröffnet wird, bei denen morphologische Schwankungen im elexiko-Korpus und damit im tatsächlichen Sprachgebrauch besonders auffällig werden. Daneben wäre ein weiterer Ausbau der Recherchemöglichkeiten wünschenswert, der die Beantwortung von solchen Anfragen erlaubt, bei denen mehrere Suchen hintereinander laufen müssen (z. B. zunächst die Suche nach allen Nomen, in dieser Teilmenge nach allen Derivaten, in dieser Teilmenge nach Suffixbildungen und schließlich in dieser Teilmenge nach solchen mit der Wortbildungsbedeutung „moviert“). 11 Für den Bereich der Wortbildung könnten zu elexiko z. B. Anfragen wie die folgenden interessant sein: Welche nominalen Komposita mit verbalem Bestimmungswort gibt es (z. B. Abschiebegewahrsam)? Welche Nomenderivate sind mit dem Suffix -er gebildet (z. B. Amerikaner, Hersteller)? Welche Verben haben ein adjektivisches Präverb (z. B. feststellen, weißwaschen)? Welche Adjektivkomposita sind aus zwei Adjektiven zusammengesetzt (z. B. achtzehn, größtmöglich)? Welche negierten Adjektive gibt es (z. B. grenzenlos, illegal, unabhängig)? Welche Wortbildungsprodukte enthalten ein Konfix (z. B. Ökoterror)? In welchen Komposita tritt beim Bestimmungswort Vokalalternation auf (z. B. Hühnerkäfig, Städteatlas)? 11 Die derzeit angebotenen Suchmöglichkeiten zu Grammatik und Wortbildung fragen jeweils nur ein inhaltliches Merkmal innerhalb einer bestimmten Wortart ab. Wie komplexere Abfragemöglichkeiten an der Benutzeroberfläche gestaltet werden könnten, ist noch zu diskutieren. - - - - - - - - - - Korpusgestützte Angaben zu Grammatik und Wortbildung 155 Die Modellierung der Wortbildungsangaben (wie auch der übrigen Angaben in elexiko) erlaubt die Beantwortung solcher Fragen, allerdings könnten sie derzeit nur für redaktionell bearbeitete Artikel beantwortet werden. Auf diese Weise wären zwar jeweils Beispiele für die erfragten Phänomene zu ermitteln, aber keine Information dazu, wie häufig das Phänomen im Rahmen der gesamten elexiko-Stichwortliste vorkommt. Deshalb wird im Projekt BZV elexiko 12 derzeit an der automatischen Analyse der Wortgebildetheit aller Stichwörter in elexiko gearbeitet. Die gewonnenen Analysen werden in absehbarer Zeit in die elexiko-Artikelstruktur integriert werden und so für Abfragen wie den oben genannten zur Verfügung stehen. 5. Literaturverzeichnis 5.1 Wörterbücher E-VALBU - das elektronische Valenzwörterbuch deutscher Verben. Internet: http: / / hypermedia2.ids-mannheim.de/ evalbu/ index.html (Stand: 30.04.2010). 5.2 Forschungsliteratur Augst, Gerhard (1992): Das lexikologische Phänomen der Wortfamilie in alphabetisch-semasiologischen Wörterbüchern. In: Zeitschrift für germanistische Linguistik 20, S. 24-36. Barz, Irmhild (1995): Komposita im Großwörterbuch Deutsch als Fremdsprache. In: Pohl, Inge/ Ehrhardt, Horst (Hg.): Wort und Wortschatz. Beiträge zur Lexikologie. Tübingen, S. 13-24. Bergenholtz, Henning (1983): Grammatik im Wörterbuch: Zur Terminologie und zur empirischen Basis. In: Kopenhagener Beiträge zur Germanistischen Linguistik 21, S. 70-92. Bergenholtz, Henning (1984): Grammatik im Wörterbuch: Syntax. In: Wiegand, Herbert Ernst (Hg.): Studien zur neuhochdeutschen Lexikografie V. (= Germanistische Linguistik 3-6/ 84). Hildesheim, S. 1-46. Bergenholtz, Henning (2000): Lexikographie und Wortbildungsforschung. In: Barz, Irmhild et al. (Hg.): Praxis- und Integrationsfelder der Wortbildungsforschung. (= Sprache - Literatur und Geschichte 18). Heidelberg, S. 19-30. Hahn, Marion/ Klosa, Annette/ Müller-Spitzer, Carolin/ Schnörch, Ulrich/ Storjohann, Petra (2008): elexiko - das elektronische, lexikografisch-lexikologische korpusbasierte Wortschatzinformationssystem. Zur Neukonzeption, Erweiterung und Revision einzelner Angabebereiche. In: Klosa, Annette (Hg.): Lexikografische Portale im Internet. (= OPAL - Online publizierte Arbeiten zur Linguistik 1/ 2008). Mannheim, S. 57-85. Internet: www.ids-mannheim.de/ pub/ laufend/ opal/ privat/ pdf/ opal 08-1_hahn-klosa-mueller-spitzer.pdf (Stand: 18.05.2010). 12 Zum Projekt BZV elexiko vgl. das Vorwort in diesem Band. Annette Klosa 156 Haß, Ulrike (2005a): Das Bedeutungsspektrum. In: Haß (Hg.), S. 163-181. Haß, Ulrike (2005b): elexiko - Das Projekt. In: Haß (Hg.), S. 1-17. Haß, Ulrike (Hg.) (2005): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz. (= Schriften des Instituts für Deutsche Sprache 12). Berlin/ New York. Holly, Werner (1986): Wortbildung und Wörterbuch. In: Lexicographica 2, S. 195-213. Kempcke, Günter (1992): Organisationsprinzipien und Informationsangebote in einem Lernerwörterbuch. In: Brauße, Ursula/ Viehweger, Dieter (Hg.): Lexikontheorie und Wörterbuch. Wege der Verbindung von lexikalischer Forschung und lexikographischer Praxis. (= Lexicographica. Series Maior 44). Tübingen, S. 165-243. Klosa, Annette (2005a): Grammatik. In: Haß (Hg.), S. 277-298. Klosa, Annette (2005b): Sprachkritik und Sprachreflexion. In: Haß (Hg.), S. 299-314. Klosa, Annette (2005c): Wortbildung. In: Haß (Hg.), S. 141-162. Klosa, Annette/ Müller-Spitzer, Carolin (2007): Grammatische Angaben in elexiko und ihre Modellierung. In: Gottlieb, Henrik/ Mogensen, Jens Erik (Hg.): Dictionary visions, research and practice. Selected papers from the 12th International Symposium on Lexicography. Copenhagen 2004. Amsterdam, S. 13-37. Mugdan, Joachim (1989): Grundzüge der Konzeption einer Wörterbuchgrammatik. In: Hausmann, Franz Josef et al. (Hg.): Wörterbücher. Ein internationales Handbuch zur Lexikographie. 1. Teilbd. (= Handbücher zur Sprach- und Kommunikationswissenschaft ( HSK ) 5.1). Berlin/ New York, S. 732-749. Müller-Spitzer, Carolin (2005): Die Modellierung lexikografischer Daten und ihre Rolle im lexikografischen Prozess. In: Haß (Hg.), S. 20-54. Schnörch, Ulrich (2005): Die elexiko-Stichwortliste. In: Haß (Hg.), S. 71-90. Wiegand, Herbert Ernst (1985): Fragen zur Grammatik in Wörterbuchbenutzungsprotokollen. Ein Beitrag zur empirischen Erforschung der Benutzung einsprachiger Wörterbücher. In: Bergenholtz, Henning/ Mugdan, Joachim (Hg.): Lexikografie und Grammatik, Akten des Essener Kolloquiums zur Grammatik im Wörterbuch 28.-30.06.1984. (= Lexicographica. Series Maior 3). Tübingen, S. 20-98. Annette Klosa Von Abbildung bis Wortelement: Weitere Ergänzungen und Änderungen in elexiko elexiko ist ein im Aufbau befindliches Online-Wörterbuch, d. h. es ist ständigen Änderungen in Form von Korrekturen oder Ergänzungen unterworfen. 1 Diese betreffen sowohl die Stichwortliste als auch die lexikografischen Angaben. In diesem Beitrag sollen einige kleinere konzeptionelle Entscheidungen und offene Fragen, die in den anderen Beiträgen in diesem Sammelband noch nicht thematisiert wurden, zusammengefasst werden. Neuerungen, aber auch noch offene Punkte bestehen bezüglich der Frequenzangaben (vgl. Abschnitt 1.1), der Ausspracheangaben (vgl. Abschnitt 1.2), der Illustrationen (vgl. Abschnitt 1.3) und der Angaben zu Wortbildungsprodukten (vgl. Abschnitt 1.5) in elexiko. Andere Angaben wie die Referenzbereichsangabe, die Teil der semantischen Beschreibung ist und auch zur Unterscheidung der Lesarten herangezogen wird, sind zwar in den Wortartikeln erfasst worden (vgl. Abschnitt 1.4), sollen aber noch metalexikografisch ausgewertet werden. Von den Fragen zur Stichwortliste wurde neben der Frage der Lemmatisierung von Eigennamen 2 auch die Lemmatisierung von Pronomen, Artikeln und adjektivischen Sonderformen geklärt (vgl. Abschnitt 2.1). Offen ist dagegen nach wie vor, ob bzw. wie Wortverbindungen und Wortelemente in elexiko lemmatisiert werden sollen (vgl. Abschnitt 2.2). 1. Ergänzungen und Änderungen bei den lexikografischen Angaben 1.1 Frequenzangaben Im Zuge der Ermittlung der Stichwortkandidaten wurde bei Projektbeginn auch deren Frequenz (und zwar die Summe aller Vorkommen der jeweiligen Grundform und die Summe aller dieser Grundform zugeordneten Flexionsformen) in DEREKO , dem Deutschen Referenzkorpus des IDS , festgestellt. 1 Vgl. hierzu Klosa (i. Vorb.) und Hahn et al. (2008). 2 Vgl. hierzu den Beitrag „Die lexikografische Behandlung von Eigennamen in elexiko“ von Annette Klosa und Sabine Schoolaert in diesem Band. Annette Klosa 158 Auf diesen Frequenzangaben basierte die Auswahl der endgültigen Stichwörter in elexiko (Kandidaten mit einer Frequenz unter 8 wurden nicht in die Stichwortliste aufgenommen; vgl. Schnörch 2005, S. 76). Die absolute Frequenz eines Stichwortes wird momentan allerdings nicht online angezeigt, weil mittlerweile das elexiko-Korpus, ein virtuelles Korpus aus DEREKO , als lexikografische Grundlage dient. Frequenzangaben müssten nun aus diesem Korpus gewonnen werden. Das elexiko-Korpus selbst ist zwischenzeitlich wiederum stark angewachsen. 3 Dies bedeutet, dass die ursprünglich ermittelten, absoluten Frequenzangaben heute keine Gültigkeit mehr haben; eine Frequenzangabe kann bei einem dynamischen Monitorkorpus wie dem elexiko-Korpus immer nur eine Momentaufnahme sein. Es ist daher nicht sinnvoll, in den Wortartikeln die absolute Frequenz anzugeben. Auf der Basis der ursprünglich ermittelten Frequenzen wurden für elexiko auch Frequenzschichten definiert (vgl. Tab. 1), die vor allem dazu dienen, die Stichwörter sinnvoll zu gruppieren und darauf basierend in Bearbeitungsteilwortschätze einzuteilen. 4 Bei diesen Frequenzschichten handelt es sich also nicht um Häufigkeitsklassen, wie sie etwa das Projekt „Wortschatz-Portal“ definiert: „In (natürlichen) Sprachen kommen die einzelnen Wörter in unterschiedlicher Häufigkeit vor und zwar so, dass relativ wenige Wörter sehr häufig und sehr viele Wörter sehr selten vorkommen. Diesen Umstand spiegeln die Häufigkeitsklassen wider.“ In Relation zum häufigsten Wort wird etwa das Wort normal in die Häufigkeitsklasse 10 „(d. h. der ist ca. 2 10 mal häufiger als das gesuchte Wort)“ ( http: / / wortschatz.uni-leipzig.de/ help.html ) eingeordnet. Die für elexiko definierten Frequenzschichten wurden wiederum in einzelne Gruppen zusammengefasst: niedrigfrequente, durchschnittlich frequente, hochfrequente und höchstfrequente Stichwörter. Die niedrigfrequenten Stichwörter machen etwa 92% der Gesamtmenge (ca. 300.000 Stichwörter) aus, die hoch- und höchstfrequenten Stichwörter zusammen etwa 1%, die durchschnittlich frequenten Stichwörter etwa 7%. Mit ca. 21.000 Stichwörtern entspricht die Menge der durchschnittlich frequenten Stichwörter in etwa einem kleineren einbändigen Bedeutungswörterbuch. 3 Zum elexiko-Korpus vgl. Abschnitt 2 der Einleitung in diesem Band. 4 Zu den Bearbeitungsteilwortschätzen in elexiko vgl. Abschnitt 3 der Einleitung in diesem Band. In absehbarer Zeit müsste die Zugehörigkeit der Stichwörter zu den einzelnen Frequenzschichten im elexiko-Korpus überprüft werden, da dieses anders zusammengesetzt ist als das Deutsche Referenzkorpus ( DEREKO ) des IDS. Von Abbildung bis Wortelement 159 Frequenzschicht Stichwortfrequenzsummen Gruppen Teilwortschätze zur Bearbeitung I 0 niedrigfrequente Stichwörter Stichwörter mit automatisch generierten Angaben 5 II 1-9 III 10-50 IV 51-100 V 101-500 VI 501-1.000 durchschnittlich frequente Stichwörter VII 1.001-5.000 VIII 5.001-10.000 IX 10.001-50.000 hochfrequente Stichwörter „Lexikon zum öffentlichen Sprachgebrauch“ 6 X 50.001-100.000 XI 100.001-500.000 XII 500.001-1.000.000 höchstfrequente Stichwörter XIII 1.000.001-8.900.000 Tab. 1: Frequenzschichten und -gruppen in elexiko Eine Angabe zur Zugehörigkeit zu einer der Frequenzschichten erfolgt derzeit bei solchen Wörtern, die noch nicht redaktionell bearbeitet sind, zusammen mit anderen automatisch ermittelten Angaben (vgl. Abb. 1). 7 Abb. 1: Angaben zur Frequenzschicht und der Korpusbelegung im Wortartikel glücklich Neben der Zuordnung zu einer Frequenzschicht wird außerdem angegeben, in wie vielen verschiedenen Quellen und aus wie vielen verschiedenen Jahrgängen das Wort im elexiko-Korpus belegt ist (Stand 2009), damit die Nutzer einen Eindruck davon bekommen können, wie verbreitet das Wort ist. Da sich das Korpus auch weiterhin verändern wird, müssen diese Werte nach einer gewissen Zeit im Korpus überprüft und gegebenenfalls in den Wortartikeln aktualisiert werden. 5 Zu Stichwörtern mit automatisch ermittelten Angaben vgl. Abschnitt 3 der Einleitung in diesem Band. 6 Zum Lexikon zum öffentlichen Sprachgebrauch vgl. Abschnitt 3 der Einleitung in diesem Band. 7 Vgl. hierzu auch Abbildung 1 in Abschnitt 3 der Einleitung in diesem Band. Annette Klosa 160 Bei redaktionell bearbeiteten Wörtern wird auf diese Angabe verzichtet, da fast alle Wörter, die derzeit bearbeitet sind bzw. werden, zwischen 10.000 und 500.000 mal im Korpus belegt sind, und also zu den hochfrequenten Stichwörtern zählen. Durch die Zugehörigkeit eines Stichwortes zum Lexikon zum öffentlichen Sprachgebrauch wird die Einordnung des entsprechenden Stichwortes in die Frequenzschichten IX bis XI also impliziert, weshalb die Frequenzschichten online nicht extra angezeigt werden. Zukünftig wäre vorstellbar, nach dem Vorbild der Angaben zur zeitlichen Verteilung der Gebrauchshäufigkeiten der Stichwörter im Neologismenwörterbuch (2005ff.) die Frequenzangaben auch in elexiko mit ihrer zeitlichen Entwicklung in Diagrammform zu gestalten. 8 Auch hierbei würde auf die Angabe absoluter Frequenzen verzichtet, weil deren Aussagekraft bei hochgradig polysemen Stichwörtern eher eingeschränkt ist. Aus den Angaben zur relativen Wortfrequenz könnten sich die Nutzer aber einen Eindruck von der Erstbelegung und der Verteilung im elexiko-Korpus verschaffen. Da das elexiko-Korpus sich zukünftig weniger vom Umfang her als in der Zusammensetzung verändern wird, könnten aus einer Darstellung der Entwicklung der relativen Frequenzen über einen bestimmten Zeitraum hinweg unter Umständen auch Schwankungen deutlich werden. 1.2 Ausspracheangaben Von Anfang an wurde in der Struktur der elexiko-Wortartikel eine lesartenbezogene Ausspracheangabe vorgesehen, durch die lesartenbezogene Aussprachevarianten berücksichtigt werden können (z. B. Tenór ‘Sänger in der höchsten Stimmlage’ versus Ténor ‘Grundgehalt einer Äußerung’). Allerdings wurde während der Konzeptionsphase von elexiko noch nicht entschieden, ob die Aussprache mithilfe von Lautschriftumschreibungen, Tondateien oder beidem erfolgen soll. Ebenso war offengeblieben, ob das Stichwort in isolierter Aussprache oder in Aussprache im Satzzusammenhang gezeigt werden soll. Eine Sichtung der Praxis in anderen Online-Wörterbüchern 9 ergab, dass hier sowohl phonetische Umschrift als auch Hörbeispiele als auch die Kombination beider Alternativen vorkommen, wobei eine Kombination aus phonetischer Umschrift und Tondateien grundsätzlich am sinnvollsten erscheint, weil nicht alle Nutzer immer die Möglichkeit haben dürften, eine Audiodatei 8 Solche Diagramme, so genannte „Verlaufsstatistiken“, finden sich beispielsweise auch im DWDS - dem Digitalen Wörterbuch der deutschen Sprache des 20. Jahrhunderts. 9 Ausgewertet wurden: American Heritage Dictionary bei Dictionary.com , Cambridge Dictionaries Online, DWDS , LEO , Merriam-Webster Online und PONS - Das Sprachenportal. Von Abbildung bis Wortelement 161 abspielen oder rezipieren zu können. Sind Audiodateien vorhanden, verdeutlichen diese häufig das Stichwort in isolierter Aussprache. Meist werden solche Ausspracheangaben gezielt hergestellt, sind also nicht das Ergebnis natürlicher Sprachproduktion. Die isolierte Aussprache eines Wortes kann für Lerner des Deutschen sinnvoller sein, weil das Phänomen der Koartikulation, welches die Aussprache verwischen oder undeutlich machen kann, nicht auftritt. Andererseits widerspricht die Angabe einer isolierten, gezielt hergestellten Aussprache eines Stichworts dem sonst in elexiko geltenden Prinzip, dass alle Angaben auf natürlichsprachlichen Äußerungen beruhen (vgl. Haß 2005b, S. 7). Für eine natürlichsprachliche Angabe der Aussprache kann diese nur aus Tonausschnitten aus gesprochensprachlichen Korpora bestehen. Außerdem würde es dem Ansatz von elexiko, Vielfältigkeit und Varianz der Sprache zu beschreiben, widersprechen, wenn nur eine isolierte, gezielt hergestellte Ausspracheangabe zu einem Stichwort gegeben würde. Vor diesem Hintergrund wurde mit der Auswahl von Hörbelegen für redaktionell bearbeitete Stichwörter aus der „Datenbank Gesprochenes Deutsch“ im „Archiv für Gesprochenes Deutsch (2009)“ des IDS begonnen. Dabei werden ein bis drei Hörbelege ausgewählt, die das Stichwort möglichst in Hochlautung, gleichmäßiger, natürlicher Sprechweise und guter Tonqualität enthalten sollen. Der gewählte Tonausschnitt isoliert das Stichwort nicht, sondern bietet 5 Sekunden Kontext vor und 5 Sekunden Kontext nach dem Stichwort, sodass die jeweilige Lesart kontextuell aufscheinen kann. Vorerst werden diese Hörbelege allerdings nicht lesartenbezogen angeordnet werden können, da die Gesamtmenge an qualitativ guten Hörbelegen dafür nicht ausreicht. Online werden die Hörbelege in einem separaten Bildschirmfenster angezeigt (vgl. Abb. 2), das durch Klicken auf ein Lautsprechersymbol neben der Lemmazeichengestaltangabe in der normalen Artikelansicht zu öffnen ist. Die einzelnen Hörbelege können durch Auswahl eines Hörformats neben dem entsprechenden Transkriptausschnitt geöffnet werden, parallel kann der entsprechende Transkriptausschnitt gelesen werden. Über einen Link lassen sich weitere Hörbelege in der „Datenbank Gesprochenes Deutsch“ suchen. Für noch nicht bearbeitete Stichwörter ist in einem weiteren Schritt an die Anzeige automatisch ausgewählter Hörbelege gedacht, soweit das Stichwort überhaupt in den gesprochensprachlichen Korpora belegt ist. Eine begleitende Erarbeitung von Ausspracheangaben in phonetischer Umschrift ( IPA ) für alle Stichwörter wäre grundsätzlich wünschenswert, ist aus praktischen Gründen im Projekt aber derzeit nicht zu leisten. Annette Klosa 162 Abb. 2: Präsentation von Hörbelegen zum Wortartikel Bier 1.3 Illustrationen Einige Stichwörter im elexiko-Demonstrationswortschatz 10 enthalten auf der Grundlage der Vorüberlegungen zu Illustrationen für elexiko in Müller-Spitzer (2005) Fotos, welche die Bedeutungserläuterung begleiten (z. B. in den Wortartikeln Bahn [Lesart ‘Zug’], Kathedrale [Lesart ‘Bischofskirche’], Rollstuhl [Lesart ‘Gefährt’]). Jeweils ein oder mehrere Foto(s) können durch Klicken auf eine Schaltfläche „Abbildung(en)“ geöffnet werden und erscheinen dann mit der Legende „Beispiel(e) für [Stichwort]“ in einem separaten Bildschirmfenster (vgl. Abb. 3). Nach Abschluss der Arbeit am Demonstrationswortschatz wurden zunächst keine neuen Abbildungen in elexiko integriert, weil eine Überprüfung der lexikografischen Praxis in internationalen Online-Wörterbüchern (eingefordert in Müller-Spitzer 2005, S. 224) noch ausstand, die aber für ein gründliches Illustrationskonzept unabdingbar erschien. Zwischenzeitlich wurde diese Analyse in Reinhard (2007) vorgelegt, woraus sich einige Vorschläge für die Illustrationspraxis in elexiko und Online-Wörterbüchern allgemein ergeben haben, die allesamt unter den obersten Prinzipien der Benutzerfreundlichkeit und Übersichtlichkeit stehen: 11 Dichte und Auswahl: Bei allen Lemmata, die einer visuellen Ergänzung bedürfen, sollten Illustrationen erscheinen, da es online keine Platzbeschränkung gibt. Zu rein dekorativen Zwecken sind Abbildungen dagegen abzulehnen. 10 Zum elexiko-Demonstrationswortschatz vgl. Abschnitt 3 der Einleitung in diesem Band. 11 Vgl. hierzu ausführlicher Reinhard (2007, S. 255ff.). - Von Abbildung bis Wortelement 163 Platzierung: Die Illustrationen sollten in unmittelbarer Nähe der entsprechenden Bedeutungserläuterung stehen, am besten in einem vergrößerbaren, zusätzlichen Bildschirmfenster, sodass Bedeutungserläuterung und Illustration gemeinsam rezipiert werden können. Auf keinen Fall sollten Illustrationen lesartenübergreifend präsentiert werden. Größe und Format: Am besten sind Abbildungen in einem einheitlichen Layout, die nur so groß wie nötig angezeigt werden sollten. Gestaltung: Am besten sind Zeichnungen, weil die zu illustrierenden Gegenstände hierin in abstrahierter und typisierter Form präsentiert werden können. Aus Kostengründen sind auch Fotografien akzeptabel. Legenden sollten möglichst immer erscheinen, da eine Illustration für sich semantisch offen und unendlich deutbar ist. Ein Illustrationsindex ist ratsam. Illustrationstypen: Besonders unikale (d. h. nur einen Gegenstand zeigende) und strukturelle (d. h. einen Gegenstand in Beziehung zu einer größeren Struktur zeigende) Illustrationen sind empfehlenswert; daneben auch aufzählende (d. h. mehrere Beispiele für einen Gegenstand präsentierende) und nomenklatorische (d. h. einen Fachwortschatz darstellende) Illustrationen, wenn von diesen auf die entsprechenden Wortartikel verlinkt wird. 12 Abb. 3: Bedeutungserläuterung zu Kathedrale, Lesart ‘Bischofskirche’ mit zugehörigen Illustrationen 12 Zu diesen und anderen Typen von Illustrationen vgl. Hupka (1989a und b). - - - - - - Annette Klosa 164 Auf der Grundlage dieser Überlegungen, aber auch aufgrund praktischer Gegebenheiten (s. u.) wird die Illustrationspraxis im elexiko-Demonstrationswortschatz nun auf das Lexikon zum öffentlichen Sprachgebrauch ausgeweitet. Wenn das Stichwort sinnvollerweise einer visuelle Ergänzung bedarf, sollen mehrere Abbildungen (vorzugsweise Fotos) in einem möglichst einheitlichen Layout ergänzt werden. Dabei wird unikalen oder strukturellen Abbildungen der Vorzug gegeben. Zunächst war allerdings zu überprüfen, welche redaktionell bearbeiteten Stichwörter überhaupt illustriert werden können: 13 über 250 Nomen, circa 75 Verben, über 50 Adjektive und 20 Adverbien wären demzufolge derzeit Kandidaten für Illustrationen (Stand 2010). Weil in elexiko Illustrationen weiterhin nur parallel zu Bedeutungserläuterungen und lesartenbezogen angeboten werden sollen, werden nicht bearbeitete Stichwörter dagegen auch zukünftig nicht illustriert werden. Daneben wurde überprüft, welche Möglichkeiten es zur kostenlosen Gewinnung von Illustrationen gibt. Hierbei sind verschiedene Online-Datenbanken mit Zeichnungen, Fotografien, Comics und Videos ausgewertet worden (z. B. pixelio.de, Wikimedia Commons). Das Ergebnis ermutigt, was die Menge kostenlos zur Verfügung stehender Illustrationen (vor allem Fotos) betrifft, wirft aber auch einige neue Probleme auf: So sind die Fotos hinsichtlich ihrer Art, Qualität, Auflösung und Größe sehr unterschiedlich. Ebenso unterschiedlich sind die Vorgaben dazu, wie die Quellenangabe erfolgen muss. Wichtig bei der Integration in die elexiko-Wortartikel ist auch, dass ein weiterer Download der Abbildungen verhindert werden müsste, weil das die Nutzungsbedingungen der Bilddatenbanken vorschreiben können. Nach der Klärung dieser eher technischen Fragen sollen die schon bearbeiteten Stichwörter im Lexikon zum öffentlichen Sprachgebrauch illustriert werden, daneben wird Bildmaterial für die noch zu bearbeitenden Wortartikel gesammelt und den Lexikografen zur Auswahl vorgeschlagen. Ziel ist, das ganze Lexikon zum öffentlichen Sprachgebrauch mit möglichst vielen, qualitativ hochwertigen Illustrationen zu versehen, wobei diese zunächst aus praktischen Gründen eher auf unikale Abbildungen beschränkt bleiben müssen. Wünschenswert ist auch der Ausbau um strukturelle Illustrationen, z. B. für Stichwörter wie Kopf (Lesart ‘Teil des Körpers’), Haupt (Lesart ‘Kopf’), Arm (Lesart ‘Körperteil’), Bein (Lesart ‘Körperteil’), Fuß (Lesart ‘Teil des Beins’) als Teile von Körper (Lesart ‘Gestalt’) oder Auge (Lesart ‘Sehorgan’), Mund 13 Eine lesartenbezogene Überprüfung steht noch aus; die Zahl der möglichen Illustrationen wird sich vermutlich noch erhöhen, wenn nicht einzelne Stichwörter, sondern einzelne Lesarten gezählt werden. Von Abbildung bis Wortelement 165 (Lesart ‘Teil des Gesichts’), Ohr (Lesart ‘Hörorgan’), Nase (Lesart ‘Sinnesorgan’), Gesicht (Lesart ‘Vorderseite des Kopfes’) als Teile von Kopf (Lesart ‘Teil des Körpers’). 14 Mithilfe der Beschriftung der einzelnen Teile des gezeigten Ganzen und einer Verlinkung dieser Bezeichnungen auf die entsprechenden Wortartikel würden die Wortartikel nicht nur über die Illustration stärker vernetzt werden, sondern es würde den Nutzern auch eine onomasiologische Zugriffsmöglichkeit angeboten. 1.4 Referenzbereichsangabe Die Referenzbereichsangabe, die von Anfang an in der Wortartikelstruktur von elexiko vorgesehen war, soll u. a. dazu dienen, zwischen Lesarten eines Lexems zu disambiguieren, wenn diese auf unterschiedliche, größtenteils ontologische Bereiche verweisen (vgl. hierzu Haß 2005a, S. 172). Eine erste projektinterne Prüfung hatte ergeben, dass bestehende Ontologien als Kategorieninventar für die lexikografische Arbeit zu begrenzt sind. Diese Angaben wurden und werden daher derzeit relativ frei und eher experimentell ausgefüllt. So ist im Wortartikel Bord für die Lesart ‘Rand’ der Referenzbereich „Schiffsteil“, für die Lesart ‘Brett’ der Referenzbereich „Möbelstück“ und für die Lesart ‘Böschung’ der Referenzbereich „Landschaftsteil“ eingetragen. Für bestimmte Stichwörter (z. B. Abstrakta) kann nur schwer ein Referenzbereich angegeben werden, und die Klassifizierung von Eigenschaftsprädikatoren ist beispielsweise (noch) sehr grob. Diese Angabe wird daher online vorerst nicht angezeigt, obwohl sie großes Potenzial bietet. Wird etwa bei Stichwörtern wie Universität, Fachhochschule, Schule, Gymnasium, Realschule in den Lesarten ‘Bildungseinrichtung’ usw. als Referenzbereich „Bildungseinrichtung“ erfasst, könnte diese Angabe zukünftig dazu dienen, onomasiologische Zugriffe auf die Wortartikel zu ermöglichen. Die redaktionell bearbeiteten Wortartikel sollen deshalb unter diesem Gesichtspunkt im Rahmen des Projektes BZV elexiko 15 geprüft werden. Außerdem soll hier eingehender untersucht werden, ob - und wenn ja, in welcher Weise - bestehende Ontologien doch als Grundlage für ein festeres Kategorieninventar für die Referenzbereichsangaben dienen können. 1.5 Angaben zu Wortbildungsprodukten Die Ermittlung von Wortbildungsprodukten und ihre Erfassung in den Wortartikeln war zwar in der Anfangsphase des elexiko-Projektes konzipiert wor- 14 Die genannten Stichwörter sind alle redaktionell bearbeitet. 15 Zum Projekt BZV elexiko vgl. das Vorwort in diesem Band. Annette Klosa 166 den, 16 musste dann aber aus praktischen Gründen zunächst zurückgestellt werden (vgl. Haß 2005b, S. 12). Geplant ist, im Angabebereich „Wortbildungsproduktivität“ solche Wörter aus der elexiko-Stichwortliste einzutragen (und mit den entsprechenden Stichwörtern zu verlinken), zu denen das Stichwort selbst die Ableitungs- oder Kürzungsbasis ist, oder in denen das Stichwort als Teil einer Zusammensetzung auftritt. Die Angaben sollen dabei im besten Fall lesartenbezogen erfolgen, weil zu verschiedenen Lesarten eines Stichworts unterschiedliche Wortbildungsprodukte vorliegen können (vgl. van der Colff 1998 und Holly 1986). In der Zwischenzeit konnte die Arbeit an diesem Angabebereich im Rahmen des Projektes BZV elexiko aufgenommen werden. Ziel dieser Arbeiten ist es, zu möglichst vielen Stichwörtern (zunächst aber vor allem zu einfachen, d. h. nicht gebildeten Wörtern) Wortbildungsprodukte wie Komposita und Derivate in der elexiko-Stichwortliste automatisch zu ermitteln und in geeigneter, ohne redaktionellen Eingriff realisierbarer Form darzustellen. Die Wortbildungsprodukte könnten beispielsweise sortiert nach Wortbildungsarten angezeigt werden (zum Stichwort Computer etwa die Derivate computerisieren oder Computerei und Komposita wie Computerfachmann oder Bordcomputer) oder nach Frequenz der Wortbildungsprodukte im elexiko-Korpus. 17 Besonders bei lexikografisch noch nicht bearbeiteten Stichwörtern können Nutzer auf diese Weise einen Eindruck von den durch Wortbildung entstehenden Vernetzungen im Wortschatz bekommen. 18 Die Angaben zu Wortbildungsprodukten in elexiko sollen daneben auch neuartige Formen des Zugriffs eröffnen. 2. Fragen der Lemmatisierung 2.1 Die Lemmatisierung von Pronomen, Artikeln und adjektivischen Sonderformen Im Zuge der praktischen Artikelarbeit wurde deutlich, dass für bestimmte Wortgruppen die Frage des Stichwortansatzes (vgl. hierzu generell Schnörch 2005) in der ursprünglichen Konzeption offengeblieben war oder den tatsächlichen Anforderungen nicht entsprach. Hiervon waren insbesondere Artikel und Pronomen und eine Reihe von Adjektiven betroffen. 16 Vgl. hierzu genauer Klosa (2005, S. 151ff.). 17 Zu weiteren Einzelheiten vgl. die Internetseiten des Projektes BZV elexiko ( www.ids-mannheim. de/ lexik/ BZVelexiko ). 18 Warum Angaben zur Wortbildungsproduktivität sonst noch sinnvoll sind, beschreiben z. B. Barz (1995) und Bergenholtz (2000). Von Abbildung bis Wortelement 167 Da für ein Online-Wörterbuch generell nicht die Notwendigkeit besteht, Platz einsparen zu müssen, wurde entschieden, nach dem Genus unterscheidende Pronomen und Artikel einzeln zu lemmatisieren. Bei den Artikeln und Pronomen werden also jeweils alle Formen des Nominativ Singular als einzelne Lemmata angesetzt (z. B. der, die, das; dein, deiner, deine, deines). Zugleich ermöglicht das Medium Internet, dass diese Artikel über Hyperlinks so verbunden werden, dass den Nutzern der Zusammenhang zwischen den einzelnen Wörtern bewusst wird. Derzeit geschieht dies mithilfe der Bedeutungserläuterung, in der auf die Formen in den anderen Genera hingewiesen wird (vgl. Abb. 4); zugleich sind diese Formen mit den entsprechenden Wortartikeln verlinkt. Zusätzlich wird auf den entsprechenden Eintrag in grammis, dem grammatischen Informationssystem des IDS , verlinkt, wo weitere morphologische, syntaktische und semantische Informationen aufgerufen werden können. In den grammatischen Angaben zu diesen Pronomen und Artikeln wird in elexiko das gesamte Flexionsparadigma im jeweiligen Genus abgebildet. Abb. 4: Bedeutungserläuterung im Wortartikel deine, Lesart ‘Pronomen’ Adjektive vom Typ innere, innerer, inneres oder linke, linker, linkes oder äußerste, äußerster, äußerstes werden anders behandelt: Sie werden unter einer Lemmazeichengestaltangabe zusammengefasst, die ohne die Endungen erscheint, also z. B. inner-, link-, äußerst-. Damit wird die Tatsache berücksichtigt, dass die Formen aller Genera sich in ihrer Bedeutung und Verwendung nicht unterscheiden. Bei diesen Autosemantika liegt der Fokus im Wortartikel auf den semantischen Angaben. Bei den Artikelwörtern und Pronomen hingegen, die als grammatische Wörter in elexiko der Klasse der Synsemantika zugeordnet werden (vgl. Haß 2005a, S. 170), liegt der Schwerpunkt insbesondere auf ihrer grammatischen Beschreibung, sodass hier die getrennte Lemmatisierung vorzuziehen ist. Annette Klosa 168 Der Vergleich zwischen den Stichwortstrecken Deichwache - Deixel und linieren - Linksabbieger in Tabelle 2 verdeutlicht die unterschiedlichen Lemmatisierungsprinzipien, mit denen für beide Gruppen im Rahmen des allgemeinen Konzeptes Ausnahmeregelungen gefunden wurden, die die jeweiligen Eigenheiten und Anforderungen berücksichtigen. Deichwache - Deixel linieren - Linksabbieger Deichwache linieren Deichwesen liniert deiktisch Linierung dein link deindustrialisiert Link Deindustrialisierung linkdeine Linke deiner linken deines Linker deinesteils linkerseits deinethalben linkisch deinetwegen Linkohr deinetwillen Linkrusta Deismus links Deist links außen deistisch links orientiert Deixel Linksabbieger Tab. 2: Unterschiedliche Lemmatisierung von Pronomen und adjektivischen Sonderformen in elexiko 2.2 Die Lemmatisierung von Wortverbindungen und Wortelementen Ursprünglich wurde bei der Planung von elexiko davon ausgegangen, dass dieses als umfassendes Informationssystem zur deutschen Gegenwartssprache sowohl Einwortlemmata wie Stichwörter zu Mehrwortverbindungen und Wortbildungsmitteln enthalten sollte (vgl. Haß 2005b, S. 12). Die Beschreibung von usuellen Wortverbindungen und Mehrwortlemmata sollte innerhalb eines eigenen Moduls in elexiko, das damals noch als Portal fungierte, 19 geschehen 19 Vgl. Klosa (2008, S. 3). Von Abbildung bis Wortelement 169 (vgl. ebd, S. 16). Deshalb wurden und werden z. B. in den elexiko-Wortartikeln feste Wortverbindungen wie Phraseologismen (z. B. „der ganz normale Wahnsinn“ zum Stichwort normal, Lesart ‘üblich’) oder Redensarten (z. B. „Lieber reich und gesund als arm und krank“ zum Stichwort gesund, Lesart ‘wohlauf’) explizit weitgehend ausgeklammert. In den elexiko-Wortartikeln werden dagegen nicht idiomatische, feste Verbindungen (z. B. „unter normalen Bedingungen“ zum Stichwort normal, Lesart ‘üblich’, oder „organisch völlig gesund sein“ zum Stichwort gesund, Lesart ‘wohlauf ’) im Angabebereich „Typische Verwendungen“ 20 erfasst. Kollokatoren aus binären Verbindungen (z. B. „normaler Unterricht“ zum Stichwort normal, Lesart ‘üblich’, oder „gesunde Kinder“ zum Stichwort gesund, Lesart ‘wohlauf ’) werden in den Wortartikeln schließlich im Angabereich „Semantische Umgebung und lexikalische Mitspieler“ 21 dargestellt. In der Zwischenzeit ist aus diesem ursprünglichen Modul das Projekt „Usuelle Wortverbindungen“ entstanden, das Artikel zu solchen Festen Wortverbindungen innerhalb von OWID , dem Online-Wortschatzinformationssystem Deutsch des Instituts für Deutsche Sprache, veröffentlicht und usuelle Wortverbindungen auf den eigenen Internetseiten „Wortverbindungen online“ beschreibt. Vor diesem Hintergrund muss entschieden werden, ob sich elexiko auch weiterhin auf die Beschreibung von Einzellexemen (bzw. zukünftig auch von Wortbildungsmitteln, s. u.) beschränken wird, oder ob zumindest die Mehrwortlexeme in elexiko aufgenommen werden, die bei der Arbeit mit den Korpusbelegen und -befunden zu einem Einzellexem auftauchen. Dies hätte den Vorteil, dass stärker als bislang feste Wortverbindungen zu in elexiko bearbeiteten Stichwörtern auf der gleichen Korpusbasis lexikografisch beschrieben werden könnten. Auf der anderen Seite ist das Projekt mit der Beschreibung der Einzelwörter auf Jahre ausgelastet. Eine grundsätzliche Entscheidung zu dieser Frage sollte aber noch vor Ende der Bearbeitung des Lexikons zum öffentlichen Sprachgebrauch getroffen werden. Die Frage der Behandlung von Wortelementen (d. h. Wortbildungsmitteln) in elexiko ist nach wie vor offen (vgl. hierzu Haß 2005b, S. 12): Weder konnte bislang entschieden werden, welche Wortbildungsmittel in elexiko als Stichwörter (so genannte Wortelementlemmata) aufgenommen, noch, in welcher Form sie lexikografisch beschrieben werden sollen. Dabei würde elexiko 20 Vgl. hierzu den Beitrag „Die typischen Verwendungen in elexiko“ von Christine Möhrs in diesem Band. 21 Vgl. hierzu den Beitrag „Neue Überlegungen und Erfahrungen zu den lexikalischen Mitspielern“ von Annette Klosa und Petra Storjohann in diesem Band. Annette Klosa 170 mit der lexikografischen Behandlung von Wortbildungsmitteln „sowohl den Forderungen der Wörterbuchforschung 22 nachkommen wie auch eine in vielen gegenwartssprachlichen Wörterbüchern verbreitete Tradition fortsetzen“ (Klosa 2005, S. 154f.). Aus der Arbeit an der automatischen Analyse der Wortgebildetheit der Stichwörter 23 sind aber Erkenntnisse dazu zu erhoffen, welche Wortbildungsmittel (Affixe, Konfixe) wie häufig für die Bildung der elexiko-Stichwörter genutzt werden. Außerdem werden besonders häufige, Reihen bildende Bestandteile von Zusammensetzungen zu erkennen sein. Die Auswahl und Beschreibung der Wortbildungsmittel in elexiko kann daher auf diesen Materialien fußen. Grundsätzliches Ziel bleibt also, dass elexiko die Wortbildungsmittel lemmatisieren und beschreiben soll, „wie sie in der Sprache der öffentlichen Diskussion realisiert werden“ (Klosa 2005, S. 157); mit der praktischen Umsetzung kann vermutlich aber erst nach Ende der Bearbeitung des Lexikons zum öffentlichen Sprachgebrauch begonnen werden. 3. Literaturverzeichnis 3.1 Wörterbücher American Heritage Dictionary - bei Dictionary.com. Internet: http: / / dictionary.reference. com/ (Stand: 30.04.2010). Cambridge Dictionaries Online. Internet: http: / / dictionary.cambridge.org (Stand: 30.04. 2010). DWDS - Das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts. Internet: http: / / www.dwds.de/ (Stand: 30.04.2010). elexiko (2003ff.). In: Institut für Deutsche Sprache (Hg.): OWID - Online-Wortschatz-Informationssystem Deutsch. Mannheim. Internet: www.elexiko.de (Stand: 30.04.2010). Feste Wortverbindungen (2007ff.). In: Institut für Deutsche Sprache (Hg.): OWID - Online-Wortschatz-Informationssystem Deutsch. Mannheim. Internet: www.owid.de (Stand: 30.04.2010). LEO - Web-Angebot mit Online-Wörterbüchern Deutsch-Englisch, Deutsch-Französisch, Deutsch-Spanisch, Deutsch-Italienisch, Deutsch-Chinesisch. Internet: www. leo.org (Stand: 30.04.2010). Merriam-Webster Online. Internet: www.merriam-webster.com (Stand: 30.04.2010). 22 Vgl. z. B. Barz (2002) oder Schmidt (2000). 23 Vgl. hierzu Abschnitt 3 der Einleitung in diesem Band. Von Abbildung bis Wortelement 171 Neologismenwörterbuch (2005ff.). In: Institut für Deutsche Sprache (Hg.): OWID - Online-Wortschatz-Informationssystem Deutsch. Mannheim. Internet: www.owid.de (Stand: 30.04.2010). PONS - Das Sprachenportal. Internet: http: / / de.pons.eu/ (Stand: 30.04.2010). 3.2 Forschungsliteratur Barz, Irmhild (1995): Komposita im Großwörterbuch Deutsch als Fremdsprache. In: Pohl, Inge/ Ehrhardt, Horst (Hg.): Wort und Wortschatz. Beiträge zur Lexikologie. Tübingen, S. 13-24. Barz, Irmhild (2002): Die Wortbildungsmittel im de Gruyter Wörterbuch Deutsch als Fremdsprache. In: Wiegand, Herbert Ernst (Hg.): Perspektiven der pädagogischen Lexikographie des Deutschen II. Untersuchungen anhand des „de Gruyter Wörterbuchs Deutsch als Fremdsprache“. (= Lexicographica. Series Maior 110). Tübingen, S. 105-121. Bergenholtz, Henning (2000): Lexikographie und Wortbildungsforschung. In: Barz, Irmhild et al. (Hg.): Praxis- und Integrationsfelder der Wortbildungsforschung. (= Sprache - Literatur und Geschichte 18). Heidelberg, S. 19-30. Colff, Ari van der (1998): Die Komposita in Langenscheidts Großwörterbuch Deutsch als Fremdsprache. In: Wiegand, Herbert Ernst (Hg.): Perspektiven der pädagogischen Lexikographie des Deutschen. (= Lexicographica. Series Maior 86). Tübingen, S. 193-207. Hahn, Marion/ Klosa, Annette/ Müller-Spitzer, Carolin/ Schnörch, Ulrich/ Storjohann, Petra (2008): elexiko - das elektronische, lexikografisch-lexikologische korpusbasierte Wortschatzinformationssystem. Zur Neukonzeption, Erweiterung und Revision einzelner Angabebereiche. In: Klosa (Hg.), S. 57-85. Internet: www.ids -mannheim.de/ pub/ laufend/ opal/ privat/ pdf/ opal08-1_hahn-klosa-mueller-spitzer.pdf (Stand: 18.05.2010). Haß, Ulrike (2005a): Das Bedeutungsspektrum. In: Haß (Hg.), S. 163-181. Haß, Ulrike (2005b): elexiko - Das Projekt. In: Haß (Hg.), S. 1-17. Haß, Ulrike (Hg.) (2005): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz. (= Schriften des Instituts für Deutsche Sprache 12). Berlin/ New York. Holly, Werner (1986): Wortbildung und Wörterbuch. In: Lexicographica 2/ 1986, S. 195- 213. Hupka, Werner (1989a): Wort und Bild. Die Illustrationen in Wörterbüchern und Enzyklopädien. (= Lexicographica. Series Maior 22). Tübingen. Hupka, Werner (1989b): Die Bebilderung und sonstige Form der Veranschaulichung im allgemeinen einsprachigen Wörterbuch. In: Hausmann, Franz Josef et al. (Hg.): Wörterbücher. Ein internationales Handbuch zur Lexikographie. 1. Teilbd. (= Handbücher zur Sprach- und Kommunikationswissenschaft ( HSK ) 5.1). Berlin/ New York, S. 704-726. Annette Klosa 172 Klosa, Annette (2005): Wortbildung. In: Haß (Hg.), S. 141-162. Klosa, Annette (2008): Vorwort. In: Klosa (Hg.), S. 3-4. Internet: www.ids-mannheim.de/ pub/ laufend/ opal/ privat/ pdf/ opal08-1_vorw.pdf (Stand: 11.05.2010). Klosa, Annette (Hg.) (2008): Lexikografische Portale im Internet. (= OPAL - Online publizierte Arbeiten zur Linguistik 1/ 2008). Mannheim. Internet: www.ids-mannheim. de/ pub/ laufend/ opal/ privat/ opal08-1.html (Stand: 30.04.2010). Klosa, Annette (i. Vorb.): The lexicographical process II: online dicitonaries. In: Gouws, Rufus H. et al. (Hg.): Dictionaries. An international encyclopedia of lexicography. Supplementary volume: Recent developments with special focus on computational lexicography. Berlin/ New York. Müller-Spitzer, Carolin (2005): Vorüberlegungen zu Illustrationen in elexiko. In: Haß (Hg.), S. 204-226. Reinhard, Christina-Doreen (2007): Untersuchungen zu Illustrationen in Online-Wörterbüchern. Unveröffentlichte Magisterarbeit an der Ruprecht-Karls-Universität Heidelberg, Abteilung Germanistische Sprachwissenschaft. Schmidt, Rosemarie (2000): Grammatik und Lexikographie. Wortbildungsmittel im zweisprachigen Wörterbuch anhand deutscher, schwedischer und russischer Beispiele. In: Bayer, Josef/ Römer, Christine (Hg.): Von der Philologie zur Grammatiktheorie. Peter Suchland zum 65. Geburtstag. Tübingen, S. 303-313. Schnörch, Ulrich (2005): Die elexiko-Stichwortliste. In: Haß (Hg.), S. 71-90. 3.3 Internetressourcen Archiv für Gesprochenes Deutsch. Internet: http: / / agd.ids-mannheim.de/ html/ index.shtml (Stand: 30.04.2010). BZV elexiko - Benutzeradaptive Zugänge und Vernetzungen in elexiko. Internet: www. ids-mannheim.de/ lexik/ BZVelexiko (Stand: 30.04.2010). Datenbank Gesprochenes Deutsch ( DGD ). Internet: http: / / dsav-wiss.ids-mannheim.de/ DSAv/ DSAVINFO.HTM (Stand: 30.04.2010). DEREKO - Das deutsche Referenzkorpus. Internet: www.ids-mannheim.de/ kl/ projekte/ korpora (Stand: 30.04.2010). grammis - das grammatische Informationssystem des Instituts für Deutsche Sprache. Internet: http: / / hypermedia.ids-mannheim.de/ index.html (Stand: 30.04.2010). pixelio.de - Deine kostenlose Bilddatenbank für lizenzfreie Fotos. Internet: www.pixelio.de (Stand: 30.04.2010). Wikimedia Commons - a database of 6,237,097 freely usable media files. Internet: http: / / commons.wikimedia.org/ wiki/ Main_Page (Stand: 30.04.2010). Wortschatz-Portal der Universität Leipzig. Internet: http: / / wortschatz.uni-leipzig.de (Stand: 30.04.2010). Wortverbindungen online - Plattform des Projekts Usuelle Wortverbindungen. Internet: http: / / wvonline.ids-mannheim.de (Stand: 30.04.2010). Carolin Müller-Spitzer Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung im lexikografischen Prozess 1. Zum Hintergrund dieses Beitrags In elexiko sollen die Wortartikel so erarbeitet und kodiert werden, dass sie im elektronischen Medium flexibel dargestellt und abgefragt werden können. Die Entwicklung einer Modellierung, die diesen Ansprüchen genügte, nahm von Anfang an im Projekt eine wichtige Stellung ein, sollte sie doch die Voraussetzung dafür schaffen, dass ein innovatives Internetwörterbuch entwickelt werden konnte. Der vorliegende Beitrag soll die lexikografische Praxis im Vergleich mit der theoretischen Konzeption und den damit verbundenen Ansprüchen an die Modellierung beleuchten. Zum besseren Verständnis sollen dafür zunächst die grundlegenden Eigenschaften des Modellierungskonzeptes zusammengefasst werden. Die in XML (eXtensible Markup Language, siehe unten ad 1) strukturierte Inhaltsstruktur in elexiko basiert auf einem Modellierungskonzept, das folgende grundlegende Eigenschaften aufweist: Die Modellierung wird in XML - DTD s (Document Type Definitions, siehe unten ad 1) abgebildet. Diese DTD s wurden maßgeschneidert für das Projekt elexiko entwickelt und entsprechen damit keiner Standard-Modellierung wie z. B. der TEI . 1 Die Modellierung ist streng inhaltsorientiert, d. h. sie klammert alle darstellungsbezogenen Informationen so weit als möglich aus. Die Modellierung ist so feingranular wie möglich, d. h. kodiert alle lexikografischen (Vor-)Angaben einzeln. 1 Die TEI (= Text Encoding Initiative) wurde Ende der 80er Jahre als Forschungsprojekt mit dem Ziel ins Leben gerufen, Richtlinien für die Auszeichnung verschiedener Texttypen aus dem geisteswissenschaftlichen Bereich zur Verfügung zu stellen. 1994 erschienen die „Guidelines for Electronic Text und Interchange“, bekannt als TEI P 3 (= TEI Proposal Number 3) (Sperberg-McQueen/ Burnard 1995), worin auch ein Inventar für die Kodierung von Wörterbuchdaten enthalten ist. Da die TEI -Wörterbuchstruktur allerdings den Anspruch hat, für alle Wörterbücher der westlichen Welt anwendbar zu sein, ist sie für die meisten Projekte, die viele individuelle Zugriffsmöglichkeiten auf lexikografische Daten entwickeln wollen, zu allgemein gehalten. 1) 2) 3) 4) Carolin Müller-Spitzer 174 Die DTD s sind in enger Zusammenarbeit zwischen den Verantwortlichen für die lexikografischen Inhalte einerseits sowie den Verantwortlichen für die XML -Struktur andererseits entwickelt worden. Die Gründe für diese Ausrichtung der Modellierung sind folgende: ad 1) Der Einsatz von XML bietet sich an, da XML ein softwareunabhängiger (Industrie-)Standard ist, der eine langlebige Datenhaltung garantiert und mit dessen Anwendung eine strikte Trennung von inhaltlicher Strukturierung und Präsentation erreicht werden kann. The use of a single, internationally agreed syntax was not the only reason why a generic markup language was the appropriate solution for publishers that wanted to publish to multiple media. A fundamental concept in the use of generic markup languages is a move from formatting markup to content markup. (Gennusa 1999, S. 28) Stefan Freisler spricht in diesem Zusammenhang auch von einer „Explizierung“ bzw. „Formalisierung der logischen Textstruktur“ (Freisler 1994, S. 41). Dabei kann XML als Metasprache gelten, mit der eigene Auszeichnungssprachen definiert werden können. Zu XML gehört ein Grammatikformalismus, mit dem man in Form von so genannten Document Type Definitions ( DTD s) kontextfreie Grammatiken [...] erstellen kann, um die Struktur einer Klasse von Dokumenten formal zu beschreiben. Eine DTD legt die erlaubten Tags fest und gibt Regeln an, wie sie verschachtelt werden dürfen. Dadurch kann mit einem Parser die Gültigkeit von Dokumenten bezüglich einer DTD -Grammatik festgestellt werden, um nicht nur die Wohlgeformtheit zu garantieren, sondern die Zuverlässigkeit zur Verarbeitung durch eine eingegrenzte Klasse von Softwaresystemen. (Hedtstück 2003, S. 132) Mit der Bestimmung der Tags wird dabei in der DTD auch das Auszeichnungsvokabular festgelegt. In diesem Sinne ist eine DTD wiederum eine Metasprache zur Beschreibung einer Klasse von Dokumenten. Somit ist es mit XML möglich, eine individuell maßgeschneiderte Modellierung für ein konkretes lexikografisches Projekt zu entwickeln. Außerdem gibt es mittlerweile für XML zahlreiche flankierende Standards, wie die XML Path Language (XPath) oder XML Query Language (Xquery) zur Abfrage von XML -Dokumenten, oder die XML Stylesheet Language Transformations ( XSLT ) zur Transformation und damit auch zur Darstellung von XML -Dokumenten. The key to understanding to revolutionary potential of XML is that it is just one piece of a larger picture. XML by itself can provide standardized interchange formats for databases and spreadsheets. This is significant. But XML and XSL together can replace existing word processing and desktop publishing formats as well. It can give us, in effect, a single, completely internationalized format 5) Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung 175 of almost unlimited power for both print and online publishing that is fully interoperable across all products and all platforms. The implications of this go far beyond data exchange and far beyond the Web. (Bosak 1998, S. 3) ad 2) Eine maßgeschneiderte Modellierung erlaubt eine genaue Ausrichtung auf das jeweilige lexikografische Projekt. So kann sichergestellt werden, dass die lexikografische Mikrostrukturengrammatik so genau in eine XML -Modellierung überführt wird, dass sich ein Instruktionsbuch hinsichtlich der formalen Artikelstruktur in weiten Strecken erübrigt (vgl. Wiegand 1998, S. 232 und Müller-Spitzer 2007b, S. 70ff.). D. h., die Reihenfolge der Angaben etc. muss nicht von den Lexikografen selbst im Kopf behalten werden, sondern wird maschinell durch die Validierung im XML -Editor geprüft. Auch bestand die Annahme, dass die strenge, maßgeschneiderte Modellierung die Einarbeitung neuer Kollegen erleichtert. Darüber hinaus ist elexiko in ein Wörterbuchportal eingebunden: OWID , 2 das Online-Wortschatz-Informationssystem Deutsch des IDS . Die anderen Wörterbücher in OWID sind grundsätzlich nach dem gleichen Modellierungskonzept erarbeitet, sodass von der Modellierung her ein echtes Wörterbuchnetz geschaffen wurde, soweit dies die Inhalte zulassen (vgl. auch Müller-Spitzer 2007a). Sollte es im Kontext eines Projektverbundes sinnvoll und notwendig sein, könnten diese maßgeschneidert strukturierten Daten allerdings auch in ein standardkonformes Format wie z. B. die TEI migriert werden. ad 3) Die Ausblendung jeder darstellungsbezogenen Information und stattdessen die Konzentration auf die Inhalte ist die Voraussetzung dafür, eine lexikografische Datenbasis zu erarbeiten, die für verschiedene Benutzungssituationen und -gruppen unterschiedlich darstellbar ist. Genau dies war für elexiko von Anfang an geplant. ad 4) Auch die feingranulare Auszeichnung der lexikografischen Daten ist eine Voraussetzung für eine benutzeradaptive Darstellung. Außerdem soll so sichergestellt werden, dass alle Angaben potenziell recherchierbar sind und möglichst alle Teil-Ganzes-Beziehungen im Wortartikel maschinell kodiert sind, sodass interessante erweiterte Suchfunktionen entwickelt werden können (vgl. Müller-Spitzer 2007b, S. 124f.). ad 5) Die XML -Modellierung als Teil der Kernaufgabe in einem lexikografischen Projekt zu begreifen, soll gewährleisten, dass die zu entwickelnde Struktur tatsächlich den Inhalten angemessen ist. Außerdem sind XML - DTD s als Notation auch für nicht in Modellierung geschulte Linguisten relativ leicht lesbar. Deshalb eignet sich XML prinzipiell gut als ‘Kommunikationsformat’. 2 Zu OWID vgl. http: / / www.owid.de und Müller-Spitzer (2010). Carolin Müller-Spitzer 176 Die Syntax von XML - DTD s ist leicht zu verstehen, was ein elementarer Vorteil für die Strukturentwicklung ist. Gerade diese leichte Verständlichkeit ermöglicht die gemeinsame Diskussion über die zu entwickelnde Struktur unter allen Projektbeteiligten, auch und gerade mit denen, die für die Inhalte maßgeblich verantwortlich sind, für die die technische Umsetzung jedoch von geringem Interesse ist. Diese Kommunikation läuft nicht über Alltags- oder Fachsprache, sondern direkt anhand der Modellierung. Es ist in Projekten häufig zu beobachten, dass erst dann die Verständigung über die Modellierung detaillierter wird, wenn man gemeinsam den Entwurf einer DTD diskutiert. Erst die formale Syntax lässt es oft augenscheinlich werden, dass hier und da die entworfene Struktur doch den Inhalten nicht angemessen ist, dass es an bestimmten Stellen nicht berücksichtigte aber wohl begründete Ausnahmen gibt etc. (Müller-Spitzer 2007b, S. 86). Um einen Eindruck zu bekommen, wie ein Wortartikel auf Ebene der Datenbasis in XML kodiert aussieht, ist im Folgenden ein Auszug des Wortartikels abmahnen zu sehen, der die Kodierung der Angaben zur Valenz illustriert (vgl. Abb. 1). Über die theoretischen Grundlagen dieses Modellierungskonzeptes und seine Umsetzung wurde bereits Einiges publiziert (vgl. Müller-Spitzer 2005; 2007b, S. 243ff.; 2007c; 2007d). Hier soll es nun darum gehen, die praktischen Erfahrungen darzulegen, die alle Beteiligten im Team mit dieser Art der Modellierung gemacht haben. Um diese Erfahrungen detailliert nach verschiedenen Aspekten abzufragen, haben alle Kollegen, die Wortartikel in elexiko verfassen, einen Fragebogen rund um ihre Erfahrung beim Arbeiten mit der Modellierung beantwortet. Viele Passagen in diesem Beitrag beruhen auf diesen Antworten. 3 Sind im Text Zitate angeführt und nicht namentlich belegt, sind es Passagen aus den einzelnen Fragebögen. Im Fokus stehen dabei die Erfahrungen bei der Wortartikelerarbeitung, daneben werden aber auch Aspekte wie die Umarbeitung bereits geschriebener Artikel nach konzeptionellen inhaltlichen Änderungen, Erfahrungen bei der Weiterverarbeitung der Daten für die Darstellung sowie für die Entwicklung von Suchfunktionen ausgeführt. Insgesamt soll dieser Beitrag die lexikografische Praxis im Vergleich mit der oben zusammengefassten theoretischen Konzeption und den damit verbundenen Ansprüchen beleuchten und damit - wie die anderen Beiträge in diesem Band auch - einen Blick hinter die Kulissen bieten. 3 An dieser Stelle möchte ich mich dafür bei den elexiko-Kollegen nochmals ausdrücklich bedanken. Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung 177 Abb. 1: Auszug der XML -Datei des elexiko-Artikels abmahnen mit den Angaben zur Valenz 2. Erfahrungen bei der Erarbeitung der XML -Struktur im lexikografischen Team Der Prozess der DTD -Entwicklung hat sich in elexiko über einen langen Zeitraum erstreckt und lief damit Hand in Hand zur inhaltlichen Konzeptionsphase. Dadurch wurde das inhaltliche Konzept in den verschiedenen Angabebereichen immer parallel in eine formale Notation überführt, inhaltliche Änderungen, Nachbesserungen und auch erste Erfahrungen in der praktischen lexikografischen Arbeit mussten sich wiederum in den DTD s spiegeln. Im Nachhinein wird diese Vorgehensweise von allen noch im Projekt verbliebenen Kollegen, die seit Beginn der DTD -Entwicklung dabei waren, als guter und sinnvoller Carolin Müller-Spitzer 178 Weg eingeschätzt. Bei der Befragung nach Vor- und Nachteilen dieser Vorgehensweise wurde vor allem die Rückkopplung zwischen inhaltlichem Konzept und Überführung in die DTD positiv hervorgehoben, gerade Überlegungen dazu, inwieweit bestimmte theoretische Konstrukte überhaupt in eine Struktur wie die einer DTD abbildbar sind. Als einziger Nachteil ist der Zeitaufwand zu nennen, den eine solche Vorgehensweise verlangt. Denn natürlich wurden in Tests immer wieder Mängel in den DTD s entdeckt, die jedoch oft nicht in der Modellierung selbst begründet waren, sondern in der Neuartigkeit der inhaltlichen Konzeption. Wie eine Kollegin es ausdrückt: Mängel an der DTD haben sich dann später gezeigt, einerseits, weil die Konzeption nicht alles bedacht hatte und andererseits, weil die Praxis mit lexikografischen Daten zusätzliche Fälle oder anders geartete Fälle zum Vorschein brachte. Die Ursache für die meisten Nachbesserungen sehe ich hier: Die Konzeption beruhte hauptsächlich auf sprachtheoretischen, oftmals konventionellen, traditionellen sprachsystematischen Überlegungen, unsere Arbeit hingegen war dann am Sprachgebrauch orientiert. Das kontinuierliche Nachbessern war unumgänglich, war immer eingeplant und brachte stetig unsere eigene Erfahrung ein. Diesen ganzen Prozess sehe ich als einen an der Praxis ausgerichteten Prozess, den keiner zum Anfang hätte besser lösen können. Voraussetzung für diese engmaschige Verbindung von Konzeption und Modellierung ist natürlich, dass alle Beteiligten eng kommunizieren und Verständnis für die unterschiedlichen inhaltlichen und informationstechnologischen Aufgaben entwickeln. Ist dies gegeben, entsteht ein interessanter Prozess, von dem beide - Lexikografen wie Informationstechnologen - profitieren können. Auf diese Weise kann daneben am besten sichergestellt werden, dass die Modellierung, auch wenn sie möglichst genau und streng die formale Artikelstruktur abbildet, keine unangenehme und unangemessene Gängelung der Lexikografen darstellt. Denn die Lexikografen sind selbst Teil der DTD -Entwicklungsgruppen und können damit von Anfang an großen Einfluss auf die Modellierung ausüben. „Unterm Strich erhält man eine ‘ideal’ auf die lexikografischen Erfordernisse ausgerichtete DTD , die man besser als eine vorgesetzte verstehen und nachvollziehen kann“, wie eine Kollegin es ausdrückt. Insgesamt hat sich diese enge Kopplung von inhaltlicher lexikografischer Konzeption und Entwicklung der XML -basierten Inhaltsstrukturengrammatik (vgl. Müller-Spitzer 2007b, S. 129) für elexiko demnach als sinnvoll erwiesen. Die andere Frage ist die, ob sich die XML - DTD s im Nachhinein wirklich als ‘Schnittstellenformat’ bewährt haben oder nicht. Wie oben gesagt, war ein Grund für die gemeinsame DTD -Entwicklung die These, dass XML - DTD s ein geeignetes Kommunikationsformat zwischen Geisteswissenschaft und Informatik sind. Dazu ist allerdings zu sagen, dass in der Praxis wenige Kollegen Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung 179 die Modellierung wirklich nur durch das Lesen der entworfenen DTD geprüft haben, dafür war die Syntax, obwohl an sich nicht komplex, doch zu „gewöhnungsbedürftig“. Vermehrt wurde deshalb die entworfene Struktur dadurch getestet, dass die Test- DTD in einen XML -Editor geladen wurde und so ein Teilbaum der künftigen Artikelstruktur ausgetestet wurde. Allerdings resümiert eine Kollegin auch: Die XML -Technologie ist für mich gut verständlich, und ich hätte keinesfalls weniger Einblick in die Technik haben wollen. Ich finde es zum besseren Verständnis der Modellierung für den Lexikografen unabdingbar, dass er die DTD mindestens einmal zu Gesicht bekommen hat. Für mich war und ist es von Vorteil, viel von der DTD -Entwicklung mitzubekommen, weil mir das jetzt, wenn ich mir neue Angaben oder Änderungen überlege, dabei hilft, gleich zu überlegen, wo man das wie in der DTD einbauen könnte. Ich kann jetzt besser abschätzen, was modelliertechnisch möglich ist und was nicht. Insgesamt kann man zusammenfassen, dass die Diskussion eines Modellierungsentwurfes nicht - wie vielleicht erwartet oder erhofft - hauptsächlich anhand der formalen Notation der DTD geführt wurde, weil die Notation dafür manchen zu ungewohnt ist. Im Nachhinein empfanden es aber alle als hilfreich, dass sie sich durch das Beschäftigen mit XML und durch die regelmäßigen Tests der entworfenen DTD s mehr mit der Technologie befasst haben und sich so diese Technik zu eigen gemacht haben. Letzteres ist für ein Projekt wie elexiko eigentlich unerlässlich, denn je mehr die Lexikografen die XML -Modellierung als Fremdkörper empfinden, desto mehr besteht die Gefahr, dass sie sich in der Artikelarbeit von den ursprünglichen Ideen, die zu einer bestimmten Modellierung geführt haben, entfernen. Haben sie sich mit den Intentionen der Modellierung vertraut gemacht, werden die Inhalte mancher Auszeichnungen zwar trotzdem im Laufe der Artikelarbeit unbemerkt nach und nach verändert, aber doch in geringerem Maße, als dies möglicherweise sonst der Fall wäre. Bei elexiko hat sich vor allem gezeigt, dass diese Entfremdung von ursprünglich etwas anders gedachten Angabetypen sich vor allem in einem Bereich verselbstständigt hat, für den keiner speziell die inhaltliche Verantwortung trug, nämlich im Bereich der Angabezusätze wie Belege, Hinweise oder Kommentare. In allen anderen Bereichen, in denen jeweils einer aus der Projektgruppe gemeinsam mit der informationstechnologischen Seite die Verantwortung getragen hat, ist dies sehr viel weniger zu beobachten, da insbesondere die inhaltliche Verantwortlichkeit für einen Angabebereich auch bedeutet, die lexikografische Praxis hinsichtlich dieser Angaben besonders im Auge zu behalten. Auch das zeigt, dass sich das in elexiko gewählte Modell bei der Entwicklung der XML -Struktur zumindest für eine solch reiche Mikrostruktur, wie sie ein bearbeiteter elexiko-Artikel hat, bewährt hat. Carolin Müller-Spitzer 180 3. Erfahrungen bei der Einarbeitung neuer Kollegen Ein Grund, weshalb in elexiko eine maßgeschneiderte, strenge Modellierung gewählt wurde, war die Erwartung, dass eine solche Modellierung die Einarbeitung neuer Kollegen erleichtern würde und somit für ein langfristiges Projekt mit wechselnder personeller Besetzung von Vorteil ist. Deshalb wurden bei der Befragung nach den Erfahrungen mit der XML -Modellierung diejenigen Kollegen, die später zum Projektteam hinzugekommen sind, explizit nach ihren Erfahrungen bei der Einarbeitung hinsichtlich der XML -Struktur befragt. Hilfreich fanden diese Kollegen vor allem, dass sie durch die Modellierung in der Einhaltung der formalen Artikelstruktur stark unterstützt wurden und so „die inhaltlichen Aspekte bei der Einarbeitung im Vordergrund stehen“ konnten. Auch wurde die explizite Benennung der XML -Tags (vgl. Müller- Spitzer 2005, S. 32ff.) als Unterstützung empfunden: Hilfreich fand ich vor allem, dass die Tags [Auszeichnungen, Anm.d.Verf.] oft sprechende Namen haben und sich nach einem bestimmten System richten - beispielsweise, dass der Begriff Angabe mit einem großen A abgekürzt wird. In dieser Hinsicht haben sich die Anfangserwartungen damit erfüllt. Schwierigkeiten gab es rückblickend kaum im Bereich der eigentlichen Modellierung, sondern mehr in der Arbeit mit einem standardisierten, nicht an die Projektbedürfnisse angepassten XML -Editor. Zwar fanden auch die neuen Kollegen die Arbeit in der Tag-Ansicht nicht schwierig, sehr wohl aber z. B. den Umgang mit Fehlern in der Struktur, die bei der Validierung aufgezählt werden, oder die Unterscheidung, welche Elemente der Wortartikelstruktur obligatorisch und welche fakultativ sind. Hier bestanden Schwierigkeiten darin, die angemerkten Fehler auch wirklich zu finden (z. B. unterscheiden zu lernen, welche Fehlermeldungen sich auf Elemente oder Informationen über Elemente, in XML Attribute genannt, beziehen) und sie entsprechend zu beheben. Auf die Frage, was man rund um die XML -Struktur für die Einarbeitung verbessern könne, wurden dementsprechend eher Wünsche geäußert, die nicht direkt etwas mit der XML -Struktur für elexiko zu tun haben, sondern mehr mit der Anpassbarkeit des XML -Editors (z. B. visuell deutlicher zwischen obligatorischen und fakultativen Elementen zu unterscheiden) oder mit Informationen rund um die XML -Struktur, z. B. die inhaltlichen Richtlinien stärker im Redaktionshandbuch zu dokumentieren. Eine weitere Frage in Hinsicht auf die Einarbeitung war auf die Benutzung dieses Redaktionshandbuches gerichtet. Das Redaktionshandbuch von elexiko ist von der Organisation her eine DTD -Dokumentation, die mit Hilfe der Soft- Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung 181 ware DTD help automatisch aus der DTD generiert wird, d. h. aus der XML - DTD wird durch das Tool eine DTD -Dokumentation in Form einer XML -Datei generiert. Diese Dokumentation kann in zwei Formaten (zur internen Benutzung) ‘ publiziert’ werden: als HTML - oder RTF -Format. In elexiko wird ausschließlich die HTML -Version der Modellierung genutzt, zum einen, weil sie als kontextsensitive Hilfe in den XML -Editor eingebunden und so beim Wortartikelschreiben komfortabel aufgerufen werden kann, zum anderen, weil das Abb. 2: Eintrag zum Element form aus dem elexiko-Redaktionshandbuch Carolin Müller-Spitzer 182 Redaktionshandbuch kontinuierlich aktualisiert wird und ein immer neuer Ausdruck von aktuell etwa 500 Seiten Dokumentation alles andere als sinnvoll erscheint. Als feste Bestandteile finden sich in diesem Redaktionshandbuch zu jedem Element aus der DTD ein Namensfeld, ein Navigationsfeld, über das zu Oberbzw. Unterelementen navigiert werden kann, sowie weitere frei zu definierende Felder. In elexiko sind dies immer ein Feld zur Kommentierung der Modellierung (falls nötig) sowie ein Feld, in dem inhaltliche Richtlinien festgehalten werden (vgl. Abb. 2). Die inhaltliche Füllung des Redaktionshandbuchs nimmt dabei die meiste Zeit in Anspruch. Das Redaktionshandbuch wird jedoch von den meisten Kollegen im Projekt nicht als DTD -Dokumentation verwendet, sondern vor allem in Hinsicht auf die inhaltlich-redaktionellen Richtlinien, die bestimmten DTD -Elementen zugeordnet sind. Die eigentliche DTD -Dokumentation ist nur für diejenigen nützlich, die selbst an der Modellierung arbeiten, sowie für die Formulierung von umfangreichen erweiterten Suchen mittels XPath, um den entsprechenden Pfad herauszusuchen (vgl. Abschnitt 7). Insgesamt kann man also sagen, dass sich die strenge, maßgeschneiderte und kontinuierlich angepasste Modellierung für die Einarbeitung neuer Kollegen gut bewährt hat. Allerdings muss betont werden, dass sich diese Erleichterung nur auf die formalen Aspekte der Artikelstruktur beschränkt. Inhaltliche Richtlinien zur Füllung dieser Struktur kann keine noch so strenge Modellierung transportieren. Die Erarbeitung dieses Wissens kann durch die Art der Modellierung daher kaum unterstützt werden. 4. Erfahrungen bei der Wortartikelerarbeitung 4.1 Vor- und Nachteile bei der täglichen Artikelarbeit Entgegen der oft formulierten Annahme ‘klassischer’ Lexikografen, eine strenge Struktur würde die Arbeit an einem Wortartikel zu stark gängeln und die Mitarbeiter einengen, empfinden die elexiko-Lexikografen die sehr umfangreiche, granulare und strenge XML -Struktur laut ihren Antworten im Fragebogen gerade als Vorteil. So schreibt eine Kollegin auf die Frage, worin sie einen Vorteil beim Arbeiten in der XML -Struktur sieht: Struktur und Gliederung - man hat ‘Stationen’, an denen man geschickterweise unterbrechen und wieder beginnen kann. Da lexikografische Arbeit immer auch einen Anteil (lästiger) Routine mit sich bringt, vergisst man deutlich weniger: Man wird geführt, auch mal erinnert. Die Informationsdichte/ -verteilung bleibt in einer ausgewogenen Relation - innerhalb der eigenen Artikel Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung 183 und auch im Verhältnis der einzelnen Autoren zueinander. Die klare Unterscheidung in einzelne Informationsbereiche hilft auch beim konzeptionellen Gliedern der Daten/ Informationen eines Gesamtartikels - und letztlich auch beim methodischen Aufarbeiten der Korpusanfragen. Auch die Möglichkeit der relativ detaillierten Validierung, die eine so feingranulare Modellierung ermöglicht, wird als Vorteil gesehen: Die Option der Validierung finde ich besonders wichtig und schön, da man wirklich nichts vergessen kann, denn das würde mir regelmäßig passieren, mit ein paar kleineren Attributen vor allem. Wenn ich am Ende validiere, gibt es immer etwas, das fehlt. Die DTD bzw. ihre Umsetzung im XML -Editor führt einen an vielen Stellen durch die vorgesehene Struktur. Obligatorische Angaben kann man nicht vergessen. Durch die Auswahlmöglichkeit bei Attributwerten ist Verschreibungen (nicht aber Verklickungen! ) vorgebeugt. Die expliziten Tag-Benennungen helfen dabei zu verstehen, was man wo eintragen soll. Gefragt nach Nachteilen, konnten die Lexikografen erfreulicherweise wenig anführen. Als einziger Nachteil wird gesehen, dass man bestimmte Korpusbefunde nicht spontan eintragen kann, sondern erst, wenn man sich an die entsprechende Stelle in der Artikelstruktur geklickt hat. Diesem Bedürfnis müsste allerdings mehr durch eine Ergänzung der Redaktionsumgebung Rechnung getragen werden, indem z. B. eine Art Notizfunktion für einen Wortartikel eingeführt wird, in die zunächst unstrukturiert Ideen oder Korpusbefunde etc. eingetragen werden können. Als lästig werden weiterhin bestimmte (fehlende) Komponenten in der Redaktionsumgebung empfunden, wie z. B., dass es nicht möglich ist, einen im XML -Editor verfassten Artikel direkt als Online- Preview anzusehen. An solchen Verbesserungen der redaktionellen Umgebung wird allerdings im Projekt BZV elexiko 4 gerade gearbeitet. In einem standardisierten XML -Editor zu arbeiten stört (auch entgegen häufig formulierter Bedenken externer Kollegen) die beteiligten Lexikografen prinzipiell wenig. Auch in diesem Bereich ist es die Aufgabe des BZV elexiko- Projektes, die pure und standardisierte Funktionalität des eingesetzten XML - Editors komfortabler für die Lexikografen zu gestalten (z. B. zur Verwaltung der Vernetzungen, dem Einsatz von Templates für bestimmte Angabebereiche etc.), u. a. um die oben geschilderten, eher unkomfortablen Eigenschaften der Redaktionsumgebung zu verbessern. 4 Zum Projekt BZV elexiko vgl. das Vorwort in diesem Band. Carolin Müller-Spitzer 184 4.2 Granularität der Struktur Wie in Abschnitt 4.1 bereits beschrieben wurde, empfinden die Lexikografen die Granularität der elexiko-Modellierung als vorteilhaft bei der Artikelarbeit in der Hinsicht, dass keine Angaben vergessen werden können und die formale Konsistenz der Wortartikel durch die Validierung sichergestellt wird. Allerdings spiegelt die elexiko-Modellierung die theoretische Konzeption und damit auch Annahmen über die Struktur sprachlicher Befunde wider, die sich im Laufe der korpusbasierten Arbeit nicht immer so bestätigt haben. Dieses Thema - theoretische Vorannahmen im Verhältnis zu den empirisch gewonnenen Befunden - zieht sich durch alle Beiträge dieses Sammelbandes und spielt auch im Kontext der Modellierung eine große Rolle. Ein kleines Beispiel dazu: Bei der Grammatik von Nomina ist vorgesehen, dass zur Singular- und Pluralverwendung die Angaben ‘Singular + Plural’, ‘nur Singular’ oder ‘nur Plural’ gegeben werden können. Dazu sagt die für die Grammatik verantwortliche Kollegin heute: Wir haben fast keine Fälle, die in die harten Abweichungskategorien passen (bei Pluraletantum z. B. nur Eltern oder Ferien) und aber einige Fälle, bei denen man korpusgestützt gerne eine gewisse Auffälligkeit beschreiben würde. Deshalb wäre es vielleicht besser gewesen zu sagen: Singular + Plural ist das Normale. Das Normale muss aber nicht obligatorisch ausgefüllt werden, sondern es gibt auch die Möglichkeit, einen freieren Text einzugeben (z. B. „meist im Plural“, „auffällig oft im Singular“, „immer nur Plural“). Vor diesem Hintergrund wäre es angebracht gewesen, bestimmte Kategorien, die sich im Laufe der empirischen Arbeit als nicht sinnvoll erwiesen haben, im Nachhinein zu modifizieren und durch freiere, dem tatsächlichen Sprachgebrauch angemessene Kategorisierungen zu ersetzen. In einem Wörterbuchprojekt wie elexiko bedeutet dies jedoch immer einen nicht zu unterschätzenden Aufwand für die nachträgliche Umarbeitung bereits geschriebener Artikel. 5. Erfahrungen bei der nachträglichen Umarbeitung der Wortartikel elexiko ist ein Wörterbuchprojekt, das kontinuierlich weiterentwickelt wird, nicht nur in Bezug auf den Umfang, sondern auch konzeptionell. Dies hat zur Folge, dass die dem elexiko-Demonstrationswortschatz 5 zugrunde gelegte Artikelstruktur hinsichtlich mancher Angabebereiche erhebliche Änderungen erfahren hat, z. B. im Bereich der typischen Verwendungsmuster (vgl. Storjohann/ Möhrs 2007 und den Beitrag „Die typischen Verwendungen in elexiko“ von Christine Möhrs in diesem Band), in der Valenz oder in der Paradigma- 5 Vgl. hierzu Abschnitt 3 der Einleitung in diesem Band. Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung 185 tik (vgl. insgesamt Hahn et al. 2008). Dabei war es immer der Anspruch von elexiko, alle bearbeiteten Artikel auf einem gleichen inhaltlichen Stand zu halten, d. h. nicht nur die nach einer konzeptionellen Änderung neu erarbeiteten Artikel entsprechend der neuen Vorgaben zu schreiben, sondern auch die bereits verfassten entsprechend nachzubearbeiten. Dies hat vor allem inhaltliche Gründe, nämlich dass Benutzer eine konsistente Datenstruktur bei allen bearbeiteten Wortartikeln vorfinden sollen. Daneben gibt es auch eher technische Gründe, die für diese Umarbeitungen sprechen: Würden die bereits verfassten Wortartikel nicht in die neue Struktur gebracht, würden sie auch nicht der gleichen DTD gehorchen und dementsprechend auch nicht mit dem gleichen Stylesheet anzuzeigen sein. Diese Heterogenität zu verwalten wäre nicht ganz unproblematisch. Solche Nachbearbeitungsschritte sind in elexiko allerdings mit einem hohen Arbeitsaufwand verbunden, weil viele Schritte vollzogen werden müssen: Die DTD muss der neuen Konzeption angepasst werden. Die neue DTD muss getestet werden. Bereits fertige Wortartikel müssen inhaltlich der veränderten Konzeption angepasst werden. Das Stylesheet muss der veränderten DTD angeglichen werden (vgl. ausführlicher Hahn et al., S. 78ff.). Insbesondere der letzte Schritt war bei einigen Änderungen, z. B. bei den typischen Verwendungen und bei veränderten inhaltlichen Festlegungen in der Paradigmatik, sehr aufwendig. Zwar können manche Veränderungen rein in der XML -Struktur durch automatische Konvertierung aufgefangen werden, aber das eigentlich Aufwendige, nämlich die inhaltliche Nachbearbeitung der Wortartikel, kann kaum automatisch unterstützt werden. Darüber hinaus ist an solchen Punkten die schlichte Redaktionsumgebung von elexiko von großem Nachteil: Es können bislang weder Artikelstrecken noch partielle Wortartikel aus der Datenbank ausgecheckt (d.h. zur Bearbeitung entnommen) werden. Jeder Artikel muss einzeln ausgecheckt, im XML -Editor geöffnet, validiert und wieder eingecheckt werden. Hier zeigt sich auch ein Nachteil der granularen XML -Struktur: Fast jede inhaltliche Änderung hat auch eine DTD -Änderung und dementsprechend eine Stylesheetänderung zur Folge. Im Nachhinein muss man daher konstatieren: Es wäre sinnvoll gewesen, nach der Erarbeitung des elexiko-Demonstrationswortschatzes eine noch deutlichere Zäsur zu machen und zu diesem Zeitpunkt vor dem Hintergrund der bis dahin erfolgten lexikografischen Arbeit die XML -Struktur einer grundlegenden Revi- - - - - Carolin Müller-Spitzer 186 sion zu unterziehen. Manche konzeptionellen Änderungen hätten zu diesem Zeitpunkt noch wesentlich weniger Aufwand an Nachbearbeitung erfordert als zu einem späteren Zeitpunkt. Auf der anderen Seite bleibt es bei einem Projekt wie elexiko, das den Anspruch hat, lexikologische und metalexikografische Forschungsergebnisse möglichst schnell in die lexikografische Arbeit einfließen zu lassen, nicht aus, auch im laufenden Wörterbuchbetrieb Änderungen an der Wortartikelstruktur vorzunehmen und die entsprechend notwendigen Änderungen an bereits geschriebenen Artikeln in Kauf zu nehmen. Der Arbeitsaufwand für diese Umarbeitungen ist jedoch erheblich. 6. Erfahrungen bei der Entwicklung der XSLT -Stylesheets Sehr viel aufwendiger als am Anfang gedacht war auch die Entwicklung des XSLT -Stylesheets. Bei der Entwicklung der Modellierung war zunächst nur die lexikologisch-lexikografische Konzeption von Interesse - Fragen der Darstellung blieben weitestgehend ausgeklammert. So wurde auch die Reihenfolge der Angaben in den DTD s nur danach ausgerichtet, was inhaltlich zusammengehört und von der Bearbeitung her sinnvoll zueinander passt. Wie im ersten Kapitel in den Grundlagen der Modellierung beschrieben, war dabei die Vorgabe, alle Angaben separat auszuzeichnen, um sie recherchierbar und adaptiv darstellbar zu machen. Die elexiko-Wortartikelstruktur wurde als DTD damit sehr umfangreich: Sie umfasst etwa 400 Elemente und 300 Attribute, für die alle eine Behandlung im Stylesheet definiert werden muss. Dabei wurde zunächst (und bis heute) eine Standardansicht entwickelt. Hätte man von vornherein eine benutzeradaptive Ansicht entwickeln wollen, d. h. unterschiedliche Ansichten der gleichen XML-Elemente und Attribute je nach Benutzungssituation und Benutzergruppe, hätte sich dieser Aufwand potenziert. Abgesehen von dem Aufwand fehlte es bislang an empirischen Erkenntnissen über die Benutzung von Wörterbüchern im Bereich der Online-Lexikografie, die jetzt allerdings im BZV elexiko-Projekt in umfangreichen empirischen Studien erhoben werden. Da zum elexiko-Team bedauerlicherweise kein Informatiker zählte, wurden die Stylesheets extern entwickelt. Dies war zu diesem Zeitpunkt die pragmatisch beste Lösung, barg langfristig jedoch einige Schwierigkeiten: Beispielsweise konnte die DTD -Entwicklung nicht hinreichend mit der Stylesheetentwicklung abgestimmt werden. Deshalb finden sich in den DTD s Konstruktionen, die mit der XSLT -Technologie schwierig umzusetzen sind. Ein Beispiel für ein solches Element ist der so genannte Angabe-Zusatz. Dieses Element enthält Belege, Hinweise und Kommentare. Diese werden nicht an Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung 187 einer Stelle in der Artikelstruktur gesammelt, sondern immer explizit einzelnen Angaben oder Angabegruppen zugeordnet. Auch dies war die Einlösung eines in der metalexikografischen Forschung formulierten Desiderats, nämlich dass Belege und andere Zusätze zu Angaben auch von ihrem Skopus her genau diesen Angaben zugeordnet sein sollten (vgl. Müller-Spitzer 2007b, S. 152ff.). Dieser Ansatz führte allerdings dazu, dass in der elexiko- DTD an extrem vielen Stellen ein Angabe-Zusatz vorgesehen ist, da man theoretisch an allen möglichen Stellen das Bedürfnis haben könnte, eine Angabe oder Angabegruppe zu kommentieren, einen Hinweis zu geben etc. Da alle diese Zusätze in der DTD zu einem Element zusammengefasst sind (Belege, Hinweise und Kommentare) führt dies zu einer eigentlich nicht erwünschten Aufweichung der strengen Struktur. Denn in diesen Zusätzen können beliebig viele Kombinationen von Belegen und Hinweisen bzw. Kommentaren gegeben werden, d. h. teilweise textuell lange Angaben. Hier wäre es eine bessere Strategie gewesen, nur an den Stellen, an denen in der praktischen Artikelarbeit wirklich das Bedürfnis auftritt, eine Angabe zu kommentieren, zu belegen oder einen Hinweis zu geben, diese Möglichkeit vorzusehen, anstatt sie an allen theoretisch denkbaren Stellen präventiv einzubauen. Abgesehen davon stellen diese Angabe-Zusätze an hierarchisch ganz unterschiedlichen Orten ein erhebliches Problem bei der Stylesheeterstellung dar, da sie an unterschiedlichen Stellen in sehr unterschiedlicher Länge mit z. T. unterschiedlichen Funktionen auftauchen. Wäre dies aufgrund eines Austauschs im Team bekannt gewesen, wäre die Modellierung der Angabe-Zusätze rechtzeitig geändert und so entsprechende Schwierigkeiten vermieden worden. Auch in anderer Hinsicht wäre es besser gewesen, die Stylesheetentwickler in das Projektteam zu integrieren. Es wäre einfacher gewesen, Änderungswünsche direkt zu besprechen, es wäre mehr Kontinuität gewährleistet gewesen und solche Entwickler hätten sich auch um andere eher technologische Belange kümmern können, die jetzt - zu einem wesentlich späteren Zeitpunkt - im BZV elexiko-Projekt beispielsweise mit der Entwicklung eines Vernetzungsmanagers realisiert werden. Dies ist demnach auch eine Lehre: Man kann ein Online-Wörterbuch mit einer so ambitionierten und aufwendigen Form der Datenmodellierung, ohne entsprechend fähige technische Mitarbeiter, die für alle Belange rund um diese Datenmodellierung - nötige Konvertierungen, Entwicklung der Stylesheets, Verbesserung der Redaktionsumgebung - zuständig sind, nicht gut in die Praxis umsetzen. Carolin Müller-Spitzer 188 7. Erfahrungen bei der Entwicklung von Suchfunktionen Wie anfangs erläutert, war der Grund für die feingranulare Modellierung auch der Wunsch, möglichst viele erweiterte Suchmöglichkeiten entwickeln zu können. Intern ist dies mit der Umstellung auf das neue Datenbanksystem EDAS (Electronic Dictionary Administration System, vgl. Müller-Spitzer/ Schneider 2009) inzwischen möglich. Die Lexikografen können selbst mittels XPath detaillierte Anfragen über die bearbeiteten Artikel stellen. Gesucht werden kann nach allen Elementen und allen Attributen, auch in kombinierter Form und mit bestimmten Inhaltsbeschränkungen. Ein Beispiel für eine relativ schlichte erweiterte Suche ist z. B. die nach allen Artikeln, in denen in der Bedeutungsparaphrase „Computer*“ vorkommt. Diese Anfrage zeigt als Suchergebnis Stichwörter wie „mobil“, „Endanwender“, „Netz“ oder „Platte“ an. Spezialisiertere Anfragen sind z. B. solche nach allen Verben, die ein nichtobligatorisches Objekt-Komplement haben, welches als Präpositionalphase mit der Präposition an realisiert wird (vgl. Abb. 3). Abb. 3: Beispiel einer erweiterten Suche in EDAS Auf der Benutzeroberfläche kommt dieses Potenzial der feingranularen Modellierung allerdings noch nicht zur Geltung. Zwar gibt es erweiterte Suchen zu elexiko, diese sind aber sehr beschränkt und bieten den Benutzern nicht annähernd die Zugriffsstrukturen, die von der XML -Modellierung möglich und auch für die Wörterbuchbenutzung sinnvoll wären. Auch hier hat sich gezeigt, dass die mangelnde technische Kompetenz im elexiko-Team von großem Nachteil war. Denn es ist eine Sache, die Voraussetzungen für detaillierte Suchanfragen auf Seiten der Modellierung und Datenauszeichnung zu Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung 189 schaffen, wie es in elexiko gemacht wurde, aber eine andere Sache, diese Voraussetzungen und Möglichkeiten auch in Funktionalitäten für Benutzer umzusetzen. Letzteres setzt voraus, eine Art der Speicherung und eine Art des Retrievals der XML -Instanzen in der Datenbank zu entwickeln, die detaillierten und trotzdem noch performanten Zugriff auf die XML -Instanzen erlaubt. Allerdings werden auch hier aufgrund besserer personeller Ausstattung in absehbarer Zeit Verbesserungen vorgenommen werden können. 8. Resümee Der Einsatz einer feingranularen, maßgeschneiderten Modellierung hat sich insgesamt für elexiko bewährt. Die Lexikografen kommen bei der Wortartikelerarbeitung gut mit der Struktur zurecht, sie erleichtert ihnen das Arbeiten, soweit das eine formale Struktur kann, sie hilft bei der Einarbeitung neuer Kollegen und schafft die Voraussetzungen für einen flexiblen Umgang mit lexikografischen Daten, z. B. für einen benutzeradaptiven Zugang zum Wörterbuch. Sollte es im Austausch mit anderen Projekten nötig sein, könnte diese maßgeschneiderte Modellierung jederzeit in ein standardkonformes Format wie die TEI überführt werden. Am Anfang zu wenig beachtet wurde in elexiko der technologische Aufwand, der mit dem Einsatz einer solchen Modellierung verbunden ist. Hätte das Projektteam von Anfang an einen Informatiker als Mitglied gehabt, hätten sicherlich manche Arbeitsprozesse, die viel Zeit gekostet haben, optimiert werden können. Doch damit teilt elexiko sicher das Schicksal vieler Projekte, die einen neuen Weg zu gehen wagen. Außerdem musste an einem Institut wie dem IDS wie sicher auch in vielen anderen geisteswissenschaftlich ausgerichteten Instituten ein Prozess des Umdenkens stattfinden in der Hinsicht, dass die Erstellung eines Online-Wörterbuchs auch ein technologisches Projekt ist, in dem die technologischen Arbeiten nicht nur ein periphärer und punktueller Bestandteil der Arbeit, sondern ein substanzieller Teil davon sind. Hat dieser Prozess stattgefunden, können auch die entsprechenden Konsequenzen gezogen werden, nämlich ein Projektteam zusammenzustellen, das nicht ausschließlich aus Linguisten besteht, sondern genauso Informatiker oder Computerlinguisten umfasst. Das Zusammenspiel dieser unterschiedlichen Kompetenzen und Herangehensweisen ist dann wiederum ein Lernprozess, der für beide Seiten spannend und bereichernd ist und dem gemeinsam erarbeiteten Produkt unbedingt zugute kommt. Carolin Müller-Spitzer 190 9. Literaturverzeichnis 9.1 Forschungsliteratur Bosak, Jon (1998): Media-independent publishing: four myths about XML . Internet: www.ibiblio.org/ pub/ sun-info/ standards/ xml/ why/ 4myths.htm (Stand: 30.04.2010). Freisler, Stefan (1994): Hypertext - Eine Begriffsbestimmung. In: Deutsche Sprache 22, S. 19-50. Gennusa, Pamela L. (1999): Evolution and use of generic markup languages. In: Möhr, Wiebke/ Schmidt, Ingrid (Hg.): SGML und XML . Anwendungen und Perspektiven. Berlin/ Heidelberg/ New York, S. 27-50. Hahn, Marion/ Klosa, Annette/ Müller-Spitzer, Carolin/ Schnörch, Ulrich/ Storjohann, Petra (2008): elexiko - das elektronische, lexikografisch-lexikologische korpusbasierte Wortschatzinformationssystem. Zur Neukonzeption, Erweiterung und Revision einzelner Angabebereiche. In: Klosa, Annette (Hg.): Lexikografische Portale im Internet. (= OPAL - Online publizierte Arbeiten zur Linguistik 1/ 2008). Mannheim, S. 57-85. Internet: www.ids-mannheim.de/ pub/ laufend/ opal/ privat/ pdf/ opal 08-1_hahn-klosa-mueller-spitzer.pdf (Stand: 18.05.2010). Hedtstück, Ulrich (2003): Einführung in die theoretische Informatik. Formale Sprachen und Automatentheorie. 2., überarb. Aufl. München/ Wien. Müller-Spitzer, Carolin (2005): Die Modellierung lexikografischer Daten und ihre Rolle im lexikografischen Prozess. In: Haß, Ulrike (Hg.): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz. (= Schriften des Instituts für Deutsche Sprache 12). Berlin/ New York, S. 20-54. Müller-Spitzer, Carolin (2007a): Das elexiko-Portal: Ein neuer Zugang zu lexikografischen Arbeiten am Institut für Deutsche Sprache. In: Rehm, Georg et al. (Hg.): Datenstrukturen für linguistische Ressourcen und ihre Anwendungen. Proceedings of the Biennial GLDV Conference 2007, 11.-13. April, 2007. Tübingen, S. 179-188. Müller-Spitzer, Carolin (2007b): Der lexikografische Prozess. Konzeption für die Modellierung der Datenbasis. (= Studien zur Deutschen Sprache 42). Tübingen. Müller-Spitzer, Carolin (2007c): Das Konzept der Inhaltsstruktur. Eine Auseinandersetzung mit dem Konzept der Mikrostrukturen im Kontext der Modellierung einer lexikografischen Datenbasis. In: Lexicographica 22, S. 72-94. Müller-Spitzer, Carolin (2007d): Vernetzungsstrukturen lexikografischer Daten und ihre XML -basierte Modellierung. In: Hermes 38, S. 137-171. Müller-Spitzer, Carolin (2010): OWID - A dictionary net for corpus-based lexicography of contemporary German. In: Dykstra, Anne/ Schoonheim, Tanneke (Hg.): Proceedings of the XIV EURALEX International Congress (Leeuwarden, 6-10 July 2010). Ljouwert (Leeuwarden), S. 445-452. Der Einsatz einer maßgeschneiderten, feingranularen XML -Modellierung 191 Müller-Spitzer, Carolin/ Schneider, Roman (2009): Ein XML -basiertes Datenbanksystem für digitale Wörterbücher - Ein Werkstattbericht aus dem Institut für Deutsche Sprache. In: it-Information Technology 51, 4, S. 197-206. Sperberg-McQueen, Carl M./ Burnard, Lou (1995): The design of the TEI encoding scheme. In: Ide, Nancy/ Véronis, Jean (Hg.): Text Encoding Initiative. Background and context. Dordrecht, S. 17-39. Storjohann, Petra/ Möhrs, Christine (2007): Das elexiko-Wörterbuch im Wandel - Typische Verwendungen neu beleuchtet. In: Sprachreport 3, 2007, S. 12-16. Wiegand, Herbert Ernst (1998): Wörterbuchforschung. Untersuchungen zur Wörterbuchbenutzung, zur Theorie, Geschichte, Kritik und Automatisierung der Lexikographie. 1. Teilbd. Berlin/ New York. 9.2 Internetressourcen OWID - Online-Wortschatz-Informationssystem Deutsch (2008ff.). Institut für Deutsche Sprache (Hg.). Mannheim. Internet: www.owid.de (Stand: 30.04.2010). XPath = Clark, James/ DeRose, Steve (Hg.) (1999): XPath -- XML Path Language (XPath) Version 1.0. World Wide Web Consortium, W3C Recommendation 16. November 1999. Internet: www.w3.org/ TR/ xpath . Deutsche, kommentierte Übersetzung. Internet: www.edition-w3c.de/ TR/ 1999/ REC-xpath-19991116 (beide Stand: 30.04.2010). XSL = Berglund, Anders (Hg.) (2006): Extensible Stylesheet Language Version 1.1. World Wide Web Consortium, W3C Recommendation 05. Dezember 2006. Internet: www.w3.org/ TR/ xsl/ (Stand: 30.04.2010). XSLT = Clark, James (Hg.) (1999): XSL Transformations ( XSLT ) Version 1.0. World Wide Web Consortium, W3C Recommendation 16. November 1999. Internet: www.w3.org/ TR/ xslt . Deutsche Übersetzung. Internet: www.edition-w3c.de/ TR/ 1999/ REC-xslt-19991116 (beide Stand: 30.04.2010). Annette Klosa / Sabine Schoolaert Die lexikografische Behandlung von Eigennamen in elexiko 1 1. Einleitung Eigennamen sind, wie schon der Mann auf der Straße weiß, keine Wörter und gehören deshalb, strenggenommen, auch nicht in Wörterbücher. (Harweg 1999, S. 61) Dass Eigennamen dennoch Eingang in allgemeinsprachige Wörterbücher gefunden haben, liegt vor allem daran, dass es ein Nachschlagebedürfnis nach ihnen gibt, z. B. in Bezug auf ihre Schreibung. Daneben haben Eigennamen einen nicht unerheblichen Anteil am deutschen Wortschatz, den man nicht einfach ignorieren kann. Wie Eigennamen in Wörterbüchern berücksichtigt werden sollen, ist allerdings strittig. Dies hat seine Ursachen sicherlich auch darin, dass es verschiedene Auffassungen davon gibt, wie Eigennamen definiert werden und inwieweit sie sich von Gattungsnamen abgrenzen. In elexiko sind Eigennamen (z. B. geografische Namen oder Personennamen) Teil der korpusgestützt ermittelten Stichwortliste (vgl. Abschnitt 4.2). Unter den lexikografisch bearbeiteten Stichwörtern (vgl. Abschnitt 4.3) gibt es etliche, die sowohl als Gattungsbezeichnung wie als Eigenname (hierunter besonders Familiennamen, z. B. Fischer, Hirsch) im Korpus 2 belegt sind. Der Schwerpunkt der lexikografischen Beschreibung in elexiko liegt grundsätzlich auf der Bedeutung und Verwendung der Stichwörter. Vor diesem Hintergrund ist zu fragen: Sollen Eigennamen nur dann lemmatisiert werden, wenn sie auch als Gattungsbezeichnung verwendet werden? Sollen die Eigennamen in einer anderen Form als die Gattungsbezeichnungen präsentiert werden und durch spezielle Recherchemöglichkeiten auffindbar sein? Welche Informationen sollen Nutzer zu Eigennamen erhalten bzw. welche Informationen sind sinnvoll? Diesen Fragen will der Beitrag nachgehen und dabei sowohl die Literatur zur Namenlexikografie wie die Praxis in anderen Wörterbüchern berücksichtigen. 1 Eine ausführliche Diskussion der Frage der lexikografischen Behandlung von Eigennamen in elexiko erfolgte in Haß (Hg.) (2005) noch nicht, da der Schwerpunkt hierin auf den Gattungsbezeichnungen lag. Dieser Beitrag legt nun eine Konzeption für die Behandlung der Eigennamen vor und ist daher nicht, wie die meisten anderen Beiträge in diesem Band, ein Bericht aus der lexikografischen Praxis in elexiko. 2 Zum elexiko-Korpus vgl. Abschnitt 2 der Einleitung in diesem Band. Annette Klosa / Sabine Schoolaert 194 2. Was ist ein Eigenname? Eigennamen werden neben Gattungsnamen und Stoffnamen als Unterart des Nomens klassifiziert (Zifonun/ Hoffmann/ Strecker 1997, S. 32) und leisten Folgendes: Eigennamen dienen der konstanten Bezeichnung bestimmter Individuen (insbesondere von Personen, Orten, Ländern, Regionen, Flüssen, Waren usw.) gemäß einer (mindestens zu unterstellenden) Vereinbarung (Taufakt usw.). Besteht eine entsprechende Verbindung zwischen Individuum und Eigenname und kann sie im Sprecher- und Hörerwissen abgerufen werden, so ist mit der Verwendung des Eigennamens ein Verweis auf den Träger unproblematisch möglich. Eigennamen haben - anders als Gattungs- und Stoffnamen - keine Charakterisierungsfunktion, sie erlauben allenfalls Rückschlüsse auf wenige Eigenschaften der Individuen (etwa das Geschlecht). (Zifonun/ Hoffmann/ Strecker 1997, S. 32) Das heißt, Eigennamen werden in der Regel als situationsunabhängiges Referenzmittel definiert, das sich auf ein Individuum bezieht und das über den bloßen referenziellen Charakter hinaus keine lexikalische Bedeutung hat. Der Grund hierfür ist, dass Eigennamen zu dem sprachhistorischen Zeitpunkt, zu dem sie aus Appellativa zu Eigennamen geworden sind, ihre lexikalische Bedeutung verloren haben (vgl. Willems 1996). Dabei ist es durchaus umstritten, ob Eigennamen wirklich keine Bedeutung besitzen: Lebhafte Diskussionen löste immer wieder die Frage aus, ob Eigennamen (im Gegensatz zu den Appellativen) eine Bedeutung (einen Sinn, einen Inhalt) haben. Die Antworten lauten von strikter Ablehnung über einen Kompromiß (teils - teils, mehr - oder weniger je nach Namenart, ferner: reduzierte Bedeutung) bis zur vollen Zustimmung (Maximum an Bedeutung). (Koß 1995, S. 458; vgl. hierzu auch Reimer 2006) Für die Frage der Behandlung von Eigennamen in elexiko ist festzuhalten: Eigennamen sind Nomen. Sie referenzieren auf Individuen (sind also Referenzwörter) und leisten starre Kennzeichnungen. Eigennamen haben darüber hinaus keine Bedeutung und insbesondere keine satzsemantische Funktion, sie sind keine Prädikatoren (wie Gattungsbezeichnungen). Es gibt allerdings zahlreiche Fälle, in denen Gattungsnamen aus Eigennamen abgeleitet wurden, wobei deren ursprünglicher Charakter als Eigenname - meist handelt es sich um Familiennamen - nicht mehr unbedingt zu erkennen ist. Dies trifft besonders auf Fachtermini in der Botanik zu, z. B. Pflanzenbezeichnungen wie Forsythie, Fuchsie oder Robinie, die nach ihren Züchtern oder Entdeckern benannt wurden, in den allgemeinen Sprachgebrauch übernommen wurden und nun als Gattungsbezeichnungen fungieren. Klassische Bei- Die lexikografische Behandlung von Eigennamen in elexiko 195 spiele sind auch Zeppelin, die Bezeichnung für ein Luftschiff, das den Namen seines Erfinders bekommen hat, oder Baedeker, die Bezeichnung für einen Reiseführer, der den Namen seines Autors erhalten hat. 3 Oftmals kann die Abgrenzung von Name und Appellativ „nur auf dem Hintergrund des so genannten ‘Alltagswissens’ der an einer sprachlichen Interaktion beteiligten Partner vorgenommen werden“ (Ris 2002, S. 226). Dies wird anhand der Beispiele Krösus und Nestor deutlich. So gilt die Bezeichnung Krösus für die Mehrzahl der Sprachteilnehmer als Appellativ mit der Bedeutung ‘jmd., der über große Reichtümer verfügt’, während die historische Herleitung vom Namen eines lydischen Königs aus dem 6. Jahrhundert v. Chr. nicht immer oder nur begrenzt bekannt ist. Die Bezeichnung Nestor wiederum, die ebenfalls als Appellativ in der Bedeutung ‘herausragender ältester Vertreter einer Wissenschaft’ verwendet wird, ist laut Ris nur auf einen relativ kleinen Verwenderkreis beschränkt. In diesem Fall ist die historische Herleitung von einem Eigennamen noch weniger verbreitet als dies bei Krösus der Fall ist. Je standardisierter eine Sprache ist, um so mehr wird sie - durch die Etablierung textlinguistischer Regeln [...] - dahin tendieren, das im Zwischenbereich zwischen Namen und Appellativ durch den Prozeß der Metaphorisierung sich spontan immer wieder bildende Chaos in geordnete Bahnen zu lenken. (Ris 2002, S. 226) Viele namenähnliche Bezeichnungen nehmen im deutschen Wortschatz eine Sonderrolle ein. Dazu gehören z. B. Farbbezeichnungen, Wochentags- und Monatsnamen, Pflanzennamen und Krankheitsnamen. Diese Bezeichnungen werden zwar eindeutig den Gattungsbezeichnungen zugeordnet (auch in elexiko), da sie eine kategorisierende Funktion haben und in der Regel in andere Sprachen übersetzbar sind. Sie weisen jedoch auch Merkmale von Eigennamen auf. Dazu gehört zum einen, dass sie begrifflich nicht oder nur schwer zu definieren sind und eine Pluralbildung nicht oder nur selten möglich ist. Auch das Kriterium der Eindeutigkeit lässt nicht automatisch den Schluss zu, dass es sich um Eigennamen handelt. Denn dieses Kriterium trifft auch auf Pronomina und Deiktika und auf einige Substantive wie z. B. Sonne und Mond zu. Diese so genannten Monosemantika stehen auf der Grenze zwischen Eigennamen und Gattungsbezeichnungen, denn sie weisen die Besonderheit auf, dass Gattung und Individuum zusammenfallen. So bezieht sich der Sprecher bei Sonne, Mond und Erde eindeutig auf einen spezifischen Referenten, was ein Charakteristikum für Eigennamen ist, jedoch werden Sonne, Mond und 3 Solche Namen, so genannte Eponyme, werden auch in speziellen Wörterbüchern erfasst, vgl. z. B. Latour (1996) oder Müller (1969). Annette Klosa / Sabine Schoolaert 196 Erde den Gattungsbezeichnungen zugeordnet. Was sie von den Eigennamen unterscheidet, ist die Tatsache, dass es zu ihnen keinen normalsprachlichen Oberbegriff gibt, d. h. für die Gattung, die sie konnotieren, in diesem Fall ‘Sonne’ und ‘Mond’, wird derselbe Gattungsname wie für das denotierte Individuum verwendet. Anders verhält es sich mit den Gestirnnamen wie Saturn, Venus oder Mars. Sie zeichnen sich zwar auch, wie die Monosemantika, dadurch aus, dass sie sich auf einen spezifischen Referenten beziehen. Doch sollten sie eher den Eigennamen zugeordnet werden, weil die Gattung, die sie konnotieren, in diesem Fall ‘Planet’, einen anderen Namen hat als das denotierte Individuum (vgl. Harweg 1997). Diese Beispiele zeigen, dass eine Abgrenzung von Gattungsbezeichnungen und Eigennamen nach wie vor schwierig bleibt und eine eindeutige Zuordnung nicht immer möglich ist: „Grenzen und Übergänge sind fließend, sie werden es bleiben, solange die Sprache bleibt, was sie so faszinierend macht: ein nach allen Seiten offenes System.“ (Bauer 1996, S. 1620). 3. Die lexikografische Behandlung von Eigennamen in Wörterbüchern Die lexikografische Behandlung von Eigennamen erfolgt üblicherweise in eigenen Nachschlagewerken (Namenbüchern, Namenlexika, Namenatlanten; vgl. Möller 1995, S. 324). Für eine lexikografische Behandlung in eigenen Namenbüchern spricht: (a) proper names are not language specific; once coined, a name can be used universally in all languages (i.e. they are cross-linguistic lexical items); (b) proper names have no lexical meaning that can be defined; (c) other parts of speech are categorized in classes and are defined in standard lexicography according to the function of the class (e.g. verbs, adjectives, adverbs, nouns), whereas all toponyms and anthroponyms are proper nouns; (d) toponyms and anthroponyms are specific in their function as identifying reference labels, each is applied to an individual entity, therefore distinguishing details, i.e. encyclopaedic information, of that entity may be included [...]; (e) to include the etymology of names is optional in onomastic lexicography, considering the type of dictionary being compiled; (f) variant spellings of the name form may occur and should be indicated; and (g) compared to current words, historical names, new spelling rules and writing systems where applicable may be indicated. (Möller 1995, S. 324) Trotzdem hat sich (nicht nur im Deutschen) die Tradition herausgebildet, vor allem Personennamen und geografische Namen auch in allgemeinsprachige Wörterbücher aufzunehmen. Wichtig ist dabei, dass sich die Darstellung und Die lexikografische Behandlung von Eigennamen in elexiko 197 Beschreibung der Namen deutlich von der der anderen Stichwörter unterscheidet (vgl. Nicolaisen 1995, S. 387). Eigennamen anders zu behandeln als alle anderen Prädikatoren, ist sinnvoll, denn: The divergent treatment applied by dictionary makers to words and names (or to appellatives and names, in the jargon of the accepted terminology) is a practical reflection of the realisation that names, whether one accords them primarily linguistic status or not, have properties which are not shared by words. (Nicolaisen 1995, S. 387) Lexikografische Angaben zu Eigennamen können lexikalischer, onomastischer oder enzyklopädischer Natur sein (vgl. Möller 1995, S. 326). Im Einzelnen zählen hierzu: lexikalische Angaben: Schreibvarianten, grammatische Angaben, Ableitungen zu dem Namen (z. B. brandenburgisch zu Brandenburg, röntgen zu Röntgen); onomastische Angaben: Bestimmung des Namentyps, Etymologie des Namens, Nennung der Herkunftssprache; enzyklopädische Angaben: z. B. geografische Einordnung eines Ortes, Nennung berühmter Namensträger bei Personennamen. Wenn die Stichwortauswahl nicht streng frequenzbasiert und korpusgestützt erfolgt, ist es unabdingbar, andere Kriterien für die Stichwortauswahl hinzuzuziehen. Dazu gehört „zum einen die Frage, welche Klassen von Namen auszuwählen sind, und zum anderen, wie die jeweilige Auswahl innerhalb einer Klasse vorzunehmen ist“ (Bergenholtz 1989, S. 775). Dies ist vor allem in Hinblick auf die Nutzer und ihre Bedürfnisse wichtig. So mag es für manche Nutzer durchaus von Bedeutung sein, Informationen zur Schreibung und zur Grammatik von Eigennamen (z. B. Genus und Numerus) in einem Wörterbuch vorzufinden. Auch eine bestimmte Auswahl an geografischen Namen (z. B. alle EU -Staaten mit ihren Hauptstädten) kann interessant sein. Dahingegen scheint es fraglich, ob die Aufnahme von Vornamen sinnvoll ist, insbesondere dann, wenn die Paraphrase nur sprachliche Informationen wie ‘männlicher Vorname’ bzw. ‘weiblicher Vorname’ liefert (vgl. Bergenholtz 1989). Werden Eigennamen in Wörterbücher aufgenommen, dann sollte auch berücksichtigt werden, inwieweit sich diese Wortartikel von Einträgen in Namenlexika unterscheiden bzw. inwieweit sich die Bedeutungserläuterung für Eigennamen in Wörterbüchern und Lexika unterscheidet. [...] nimmt man die Eigennamenforschung ernst [...], dann muß in der lexikographischen Praxis - soll der Benutzer nicht irregeführt werden - das nomen proprium grundsätzlich anders beschrieben werden als das nomen appellati- - - - Annette Klosa / Sabine Schoolaert 198 vum. Dies gilt nicht nur für die morphologischen Angaben, sondern vor allem für die Bedeutungserläuterungen, die bei Eigennamen einen ganz anderen Status und eine andere Funktion haben als bei Gattungsbezeichnungen [...]. (Strauß 1989, S. 788) Diese Trennung wird jedoch nicht immer eingehalten, wie Harweg (1999) anhand verschiedener Beispiele im Duden - Die deutsche Rechtschreibung (Duden 2009) zeigt. Harweg unterscheidet zwischen metasprachlichen (das Sprachwissen betreffenden) und nichtmetasprachlichen (das Sachwissen betreffenden) Einträgen und macht dies an verschiedenen Beispielen deutlich. So werden im Rechtschreibduden einige biblische Vornamen mit metasprachlichen Einträgen versehen wie z. B. Abraham („biblischer männlicher Eigenname“), andere wiederum mit nichtmetasprachlichen Einträgen, wie z. B. Moses („jüdischer Gesetzgeber im Alten Testament“). Auch die Einträge zu Familiennamen weisen Inkonsistenzen auf. So sind die Einträge zu Böcklin („schweizerischer Maler“) und Heidegger („deutscher Philosoph“) in nichtmetasprachlicher Form verfasst, während sie zu Humboldt („Familienname“) in metasprachlicher Form verfasst sind (vgl. detailliert Harweg 1999). In das Wörterbuch der deutschen Gegenwartssprache werden Eigennamen „nur dann aufgenommen, wenn sie über ihren ursprünglichen Bereich hinaus verwendet werden (z. B. Adam Riese, Adonis)“ ( WDG 1980, S. 020). Allerdings werden geografische Namen, wenn auch nur in begrenztem Umfang, ebenfalls lemmatisiert (vgl. die Beispiele Deutsch- und Europa in Abb. 1). Abb. 1: Wortartikel Deutsch- und Europa im Wörterbuch der deutschen Gegenwartssprache Auffällig ist, dass hier ebenfalls zwei unterschiedliche Beschreibungsarten für ein und dieselbe Wortklasse gewählt werden. So ist „Ländername“ zu Deutschland eine metasprachliche Umschreibung, während „Erdteil“ zu Europa eine nichtmetasprachliche bzw. enzyklopädische Erläuterung ist. Die lexikografische Behandlung von Eigennamen in elexiko 199 4. Die lexikografische Behandlung von Eigennamen in elexiko Warum Eigennamen in elexiko grundsätzlich erfasst wurden (also in der Stichwortliste) bzw. werden (in lexikografisch bearbeiteten Wortartikeln), wird im Folgenden erläutert. Die in elexiko angewandte Namenklassifikation wird dargestellt und in Hinblick auf Eigennamen in der Stichwortkandidatenliste (vgl. Schnörch 2005b, S. 76) angewandt. Außerdem werden die Möglichkeiten der lexikografischen Beschreibung in elexiko vorgeführt. Hierbei wird zwischen zwei Fällen unterschieden: erstens den (noch) nicht bearbeiteten Stichwörtern, die nur automatisch generierte Angaben erhalten, und zweitens solchen Namen, die lexikografisch untersucht wurden bzw. werden und bei denen es eine Verschränkung von Gattungsbezeichnung und Eigenname gibt. Abschließend folgen einige Überlegungen zu Rechercheoptionen für die Namen in elexiko. 4.1 Erfassung und Klassifizierung von Eigennamen Wie bereits erwähnt, gibt es verschiedene Gründe, die für eine lexikografische Behandlung von Eigennamen sprechen. Praktische Gründe sind das Nachschlagebedürfnis der Nutzer in Bezug auf Orthografie und Grammatik (z. B. Unsicherheiten bei Genus und Numerus). Doch auch der für die Bedeutungsbeschreibung der Gattungsbezeichnungen interessante Aspekt der Verschränkung zwischen ihnen und den Eigennamen und die Schwierigkeit, sie voneinander abzugrenzen bzw. eine eindeutige Zuordnung vorzunehmen, sprechen dafür, Eigennamen lexikografisch zu erfassen. Die wichtigste Entscheidung bezüglich der Eigennamen in elexiko liegt daher darin, dass sie bei der Prüfung der Stichwortkandidaten nicht aus der Stichwortliste aussortiert wurden. Dies wurde auch mit ihrer Frequenz im Korpus begründet: [...] Hintergrund ist allerdings der Wunsch, diesen in elektronischen Korpora sehr frequenten Wortschatzbereich [der Eigennamen, Anm. d. Verf.] zukünftiger Forschung korpusbasiert zugänglich und annotierbar zu machen. Für die Korpuslinguistik ist die verlässliche Unterscheidung zwischen Appellativa und Propria ein Desiderat, das elexiko schließen helfen kann. Und für die lexikalische Semantik ergeben sich vielleicht neue Fragen in Bezug auf die Verschränkung von Appellativa und Propria, die insbesondere bei Gruppen-, Firmen- und Institutionennamen keineswegs nur ausdrucksseitig (z. B. wie bei Mark, Kohl und Schneider), sondern semantisch-pragmatisch relevant ist. (Haß 2005, S. 168) Annette Klosa / Sabine Schoolaert 200 Geografische Namen Namen von Flüssen (z. B. Neckar, Rhein) Namen von Seen (z. B. Chiemsee) Namen von Meeren (z. B. Ostsee, Pazifik) Namen von Bergen (z. B. Zugspitze) Namen von Gebirgen (z. B. Alpen, Ural ) Namen von Kontinenten (z. B. Afrika) Namen von Inseln (z. B. Rügen) Namen von Regionen und Landschaften (z. B. Brandenburg, Preußen, Elsass) Staatennamen (z. B. Deutschland ) Ortsnamen (z. B. Mannheim) Flurnamen (z. B. Silberpappel) Namen von Straßen und Plätzen (z. B. Lindenallee, Gendarmenmarkt) Namen von Himmelskörpern (außer Sonne, Mond, Erde; z. B. Venus) Personennamen Vornamen und Rufnamen, historische Individualnamen (z. B. Hans, Liese, Anakreon, Attila) Familiennamen (z. B. Müller) mythologische, religiöse und literarische Namen (z. B. Europa, Moses, Aschenputtel, Zauberflöte) Künstlernamen (z. B. Abba, Madonna) Beinamen (z. B. Cäsar, Cicero) Völker-/ Stammesnamen (z. B. Sioux, Nubier) Sonstige Namen Produkt- und Warennamen (z. B. Bärenmarke) Namen von Fortbewegungsmitteln (z. B. Columbia, Titanic) Firmennamen (z. B. Siemens) Namen von Institutionen/ Organisationen/ Vereinigungen (z. B. Europarat) Namen von Gebäuden (z. B. Eiffelturm) Namen von Texten, Filmen, Musik und Gemälden (z. B. Nibelungenlied ) Namen von Ereignissen und militärischen Aktionen (z. B. Oktoberrevolution) Namen von Naturphänomenen (z. B. Golfstrom, Mistral ) Tab. 1: Klassifikation der Eigennamen in elexiko Die lexikografische Behandlung von Eigennamen in elexiko 201 Die Eigennamen in elexiko sind durchweg Einwortlemmata; mehrteilige Namen werden grundsätzlich nicht lemmatisiert 4 (z. B. nicht Karl der Kahle, Französische Revolution), außerdem keine Abkürzungen, 5 die als Name fungieren (z. B. CDU , dtv). Da Eigennamen auf ein einziges Objekt in der Welt Bezug nehmen (d. h. referieren), gehören sie in elexiko zusammen mit anderen referierenden Wörtern wie z. B. den Pronomina in die Wortklasse der Referenzwörter (vgl. Haß 2005, S. 167f.). In der elexiko-Artikelstruktur wird der jeweilige Namentyp erfasst (zur Klassifikation siehe Tabelle 1), 6 was vor allem für differenzierte Rechercheoptionen wichtig ist. Schließlich gibt es in der Artikelstruktur die Möglichkeit, zum Stichwort Korpusbelege zu ergänzen oder auf entsprechende Einträge in Namenbüchern hinzuweisen (zu Beispielen siehe Abschnitt 4.3). 4.2 Eigennamen in der Stichwortliste Bei der Erstellung der elexiko-Stichwortliste wurden 3.763 Stichwortkandidaten als Namen markiert und in die Liste übernommen. Das heißt, gut 1% der Stichwörter in elexiko sind mit Sicherheit Eigennamen. Es ist aber insofern von einem höheren Anteil an Eigennamen in elexiko auszugehen, als in etlichen Fällen Gattungsbezeichnungen auch als Namen vorkommen. Solche Fälle wurden bei der Sichtung der Stichwortkandidaten nicht erfasst. Wie hoch der Prozentsatz an Eigennamen in der elexiko-Stichwortliste tatsächlich ist, könnte erst dann exakt beantwortet werden, wenn alle Stichwörter lexikografisch bearbeitet wären. Die als Namen markierten Stichwörter wurden inzwischen redaktionell kontrolliert, um den Namenstatus zu verifizieren und die Namen zu klassifizieren. Diese Überprüfung ergab, dass 3.689 Stichwörter wirklich Namen sind, von denen 3.229 genau einem Namentyp zugeordnet werden können. Die anderen 460 Namen gehören mehreren Namentypen an (z. B. Abraham: Vorname und Familienname). Die Namen verteilen sich auf die einzelnen Namentypen wie in Tabelle 2 gezeigt. 4 Zur Lemmatisierung von Mehrwortverbindungen in elexiko vgl. Abschnitt 2.2 im Beitrag „Von Abbildung bis Wortelement: Weitere Ergänzungen und Änderungen in elexiko“ von Annette Klosa in diesem Band. Mehrteilige Namen werden aber für manche Stichwörter, die auffallend häufig in solche Verbindungen eingehen, im Angabebereich „Besonderheiten des Gebrauchs“ festgehalten, z. B. im Stichwort Platte, Lesart ‘Teil der Erdkruste’ die namenähnlichen Verbindungen Parndorfer Platte und Schynige Platte. 5 Zum weitgehenden Ausschluss von Abkürzungen aus der elexiko-Stichwortliste vgl. Schnörch (2005b, S. 89). 6 Die Tabelle zeigt die Klassifikation in Haß (2005, S. 168) mit kleineren Ergänzungen. Annette Klosa / Sabine Schoolaert 202 Namentyp Anzahl Familiennamen 1334 Ortsnamen 1065 Namen von Regionen und Landschaften 332 Vornamen/ Rufnamen/ historische Individualnamen 267 Staatennamen 189 Namen von Gebäuden 176 mythologische/ literarische/ religiöse Namen 171 Namen von Inseln 106 Namen von Flüssen 87 Namen von Bergen 85 Flurnamen 78 Firmennamen 70 Produkt- und Warennamen 48 Namen von Texten, Filmen, Musik, Gemälden 38 Namen von Himmelskörpern 35 Künstlernamen 30 Namen von Institutionen/ Vereinigungen/ Organisationen 29 Namen von Fortbewegungsmitteln 24 Namen von Seen 21 Namen von Gebirgen 19 Namen von Straßen und Plätzen 17 Namen von Kontinenten 10 Namen von Meeren 8 Völker- und Stammesnamen 8 Namen von Ereignissen und militärischen Aktionen 6 Namen von Naturphänomenen 2 Tab. 2: Häufigkeit der Namentypen in der gesamten elexiko-Stichwortliste 4.3 Eigennamen im Lexikon zum öffentlichen Sprachgebrauch In einem weiteren Schritt wurde die Stichwortliste des Lexikons zum öffentlichen Sprachgebrauch 7 (mit einem Umfang von etwa 2.700 Stichwörtern) daraufhin überprüft, ob Eigennamen in ihr enthalten sind. Sie enthält gut 100 reine Eigennamen, z. B. Europa, Deutschland, Stuttgart, Hans, Hitler, Siemens, aber auch Familiennamen wie Weber, Töpfer, Fischer, Stich, die ebenfalls als Gattungsbezeichnung vorkommen. 7 Vgl. hierzu Abschnitt 3 der Einleitung in diesem Band. Die lexikografische Behandlung von Eigennamen in elexiko 203 Daneben wurden Eigennamen im Lexikon zum öffentlichen Sprachgebrauch im Zusammenhang mit der Bearbeitung von Gattungsbezeichnungen sichtbar, wenn die Durchsicht der Liste an Kookkurrenzpartnern zu dem jeweiligen Stichwort im Zuge der Lesartendisambiguierung (vgl. Storjohann 2003; Schnörch 2005a, S. 112ff.; Schnörch 2010) entsprechende Hinweise lieferte (z. B. Sims: Familienname, Garant: Name einer Firma, August: männlicher Vorname und Familienname). Wenn ein Name in der Liste an Kookkurrenzpartnern zu dem jeweiligen Stichwort nicht enthalten ist (und also statistisch nicht signifikant im Korpus auftritt), wird nicht notiert, dass das Stichwort auch als Name im elexiko-Korpus belegt ist. Dies gilt selbst dann, wenn dem bearbeitenden Lexikografen bewusst ist, dass das Stichwort auch ein Eigenname ist, weil eine Erfassung als Eigenname ohne stützenden Korpusbefund dem Prinzip der Korpusbasiertheit in elexiko widersprechen würde. 8 Dies hat zur Folge, dass in elexiko nicht vollständig erfasst wird, welche Stichwörter auch als Eigennamen belegt sind; seltenere Namen sind nicht gekennzeichnet und können damit auch nicht für Recherchezwecke zur Verfügung gestellt werden. Angesichts der Fülle der in elexiko zu leistenden Aufgaben und wegen des Fokus auf der ausführlichen Beschreibung der Bedeutung und Verwendung von Appellativa ist eine gezielte Suche nach Eigennamen im Korpus, die eine vollständige Erfassung gewährleisten könnte, im Projekt jedoch nicht möglich. Die bislang schon gesammelten Daten sind dennoch interessant, z. B. weil sie erkennen lassen, welche Namentypen mit welcher Häufigkeit beobachtet werden konnten (vgl. Tab. 3). Namentyp Anzahl Familiennamen 69 Staatennamen 30 Ortsnamen 21 Namen einer Institution/ Organisation/ Vereinigung 7 Namen von Regionen und Inseln 6 Namen von Flüssen/ Seen/ Meeren 4 Produkt- oder Warennamen 3 Vornamen 2 Name eines Naturphänomens 1 mythologischer, religiöser oder literarischer Name 1 Name eines Fortbewegungsmittels 1 Tab. 3: Häufigkeit der Namentypen in den schon bearbeiteten Stichwörtern im Lexikon zum öffentlichen Sprachgebrauch 8 Zum Prinzip der Korpusbasiertheit vgl. Abschnitt 3 der Einleitung in diesem Band. Annette Klosa / Sabine Schoolaert 204 Dass die Familiennamen im Lexikon zum öffentlichen Sprachgebrauch, aber auch insgesamt in der Stichwortliste (vgl. Tabelle 2), stark dominieren, ist leicht nachzuvollziehen. Insgesamt ist der Bestand an Familiennamen im Deutschen im Vergleich zu anderen Namenarten am größten; er wird auf mehrere Hunderttausend Namen geschätzt. Ob ein Familienname in der Stichwortliste des Lexikons zum öffentlichen Sprachgebrauch auftaucht, hängt natürlich nicht nur mit der Häufigkeit des Namens selbst zusammen, sondern auch damit, ob es prominente Namensträger gibt, die in Zeitungstexten (aus denen das elexiko- Korpus zusammengesetzt ist) entsprechend häufig genannt werden. So ist z. B. der Familienname Klima wegen des Politikers Viktor Klima oder der Familienname Stich wegen des Tennisspielers Michael Stich im Korpus sehr präsent. Dass auch Staatennamen und Städtenamen häufig vertreten sind, hängt ebenfalls mit dem elexiko-Korpus zusammen: In der politischen Berichterstattung eines fast ausschließlich aus Zeitungen bestehenden Korpus werden naturgemäß viele Staaten, Bundesländer oder Städte mit Regierungssitz genannt. Zu Beginn der Erarbeitung des Lexikons zum öffentlichen Sprachgebrauch wurde versucht, die Eigennamen im Rahmen der auch für Gattungsbezeichnungen vorgesehenen Artikelstruktur zu erfassen und zu beschreiben. Dabei traten verschiedene Probleme auf: Zum einen erbringt die zur Erfassung eines Stichwortes genutzte Methode der Kollokationsanalyse im elexiko-Korpus für einen Eigennamen statistisch Relevantes zum Namensträger bzw. zum Denotat, nicht aber zum Namenwort selbst. Würde man auf der Basis dieser Korpusanalysen die in elexiko vorgesehenen Angaben erarbeiten, würden im Angabenbereich „Semantische Umgebung und lexikalische Mitspieler“ zum Namen Bulgarien beispielsweise Sets wie „Was hat Bulgarien? - Außenminister, Präsident, Sozialisten, Staatspräsident“ aufgeführt werden, die im Prinzip bei vielen anderen Staatennamen auch erscheinen könnten. Bei den „Typischen Verwendungen“ gäbe es solche wie „der aus Bulgarien stammende Schriftsteller [Personenname]“ oder „der Beitritt Bulgariens in die EU “, die prinzipiell auch bezogen auf andere Staaten formuliert werden könnten. Im Bereich der „Sinnverwandten Wörter“ entstünde das Problem, dass Bezeichnungen wie Land oder Staat Hyperonyme zum Denotat ‘Staat Bulgarien’ sind, nicht aber zum Eigennamen Bulgarien. Die grammatischen Angaben wurden für Gattungsbezeichnungen entwickelt und müssten für Eigennamen anders konzipiert werden. Hinzu kommt die Frage, welchen Informationswert Paraphrasen wie „Bulgarien ist der Name eines Staates in Europa“ hätten: Die lexikografische Behandlung von Eigennamen in elexiko 205 What definitions of place or personal names can be given? Except for typological definitions for classification purposes (e. g., “Egoli is a place name of a city”, “John is a personal name, usually referring to boys”, etc. This information says nothing about the characteristics or attributes of the place named Egoli, or the person named John). (Möller 1995, S. 327) Zum anderen wären Nachteile in Kauf zu nehmen, wenn man für Gattungsbezeichnungen und Eigennamen generell die gleichen Online-Ansichten vorsehen würde: Die für die Oberfläche gewählte Terminologie würde den Eigennamen nicht gerecht. So ist z. B. der Terminus „Bedeutungserläuterung“ mit Bezug auf Eigennamen kritisch, geht man davon aus, dass Eigennamen keine Bedeutung haben (vgl. Abschnitt 2). Vor dem Hintergrund dieser praktischen Erfahrungen und der Berücksichtigung der in Abschnitt 3 referierten Vorschläge zur lexikografischen Behandlung von Eigennamen im Allgemeinen wurde deshalb entschieden, Eigennamen in elexiko möglichst anders zu behandeln als Gattungsbezeichnungen. Hierbei muss allerdings zwischen Namen, die nicht zugleich als Gattungsbezeichnung belegt sind, und solchen, bei denen das Lemmazeichen auch als Gattungsbezeichnung belegt ist, unterschieden werden. Bei den Stichwörtern, die sowohl als Eigenname wie als Gattungsbezeichnung im Korpus belegt sind, werden nur die Lesarten für die Gattungsbezeichnungen lexikografisch erarbeitet. Bei den Staatennamen gibt es beispielsweise gegebenenfalls eine zum Eigennamen metonymische Gattungsbezeichnung mit der Bedeutung ‘Gesamtheit der Personen’ oder ‘Bevölkerung’ (vgl. Beispiel Brandenburg in Abb. 2). Um jedoch die Erwartungshaltung der Nutzer nicht zu enttäuschen, die bei einem Wort wie Brandenburg sicherlich nicht in erster Linie eine Lesart ‘Gesamtheit der Personen’ erwarten, wird unter der Überschrift „Zu den Lesarten“ vermerkt, dass es sich bei Brandenburg auch um den Namen eines Bundeslandes bzw. Ortes handelt. Die Namen erscheinen außerdem mit einer Etikettierung (z. B. „Name eines Ortes“, „Name eines Produkts“, „Familienname“; vgl. Storjohann 2005, S. 199ff.) in der Übersichtsliste zu den Lesarten des Stichwortes. Auf die Bezeichnung „Lesart“ in Bezug auf Eigennamen wird dabei verzichtet. Es lassen sich auch keine weiteren Informationen zu den Namen abrufen. Der Nutzer erfährt hier also nur, dass es sich bei dem Stichwort auch um einen Eigennamen handelt und welche Art von Eigenname vorliegt. Unter der Überschrift „Zu den Lesarten“ wird aber der Zusammenhang zwischen der Lesart und dem Namen hergestellt: Lesarten wie ‘Gesamtheit der Personen’ sind generell Metonymisierungen des Namens. Bei Namen, die sich Annette Klosa / Sabine Schoolaert 206 aus Gattungsbezeichnungen entwickelt haben, wird dagegen vermerkt, dass der Name aus der Gattungsbezeichnung entstanden ist. Dies ist häufig bei Familiennamen aus Berufsbezeichnungen (z. B. Fischer, Weber) und bei Familiennamen als Übernamen zu Adjektiven (z. B. Grün, Schön) sowie bei Produktnamen (z. B. Papiertaschentuch Tempo) oder Firmennamen (z. B. Garant; vgl. Abb. 3) der Fall. Außerdem können Belege erscheinen, die den Namen in einem typischen Kontext zeigen, der möglichst den Namentyp verdeutlicht und darüber hinaus enzyklopädische Informationen liefert. 9 Enzyklopädische Informationen zum Namensträger werden auch unter der Überschrift „Weitere Informationen“ aus sachbezogenen Nachschlagewerken zitiert (z. B. im Wortartikel Brandenburg; vgl. Abb. 2). Abb. 2: Wortartikel Brandenburg mit lexikografisch erarbeiteten Informationen zu den Eigennamen Eigennamen, die in den Belegen des elexiko-Korpus nicht zugleich als Gattungsbezeichnung vorkommen, werden dagegen nur mit automatisch generierten Angaben (insbesondere mit orthografischen Angaben und Belegen) 9 Zur Funktion von Belegen in elexiko allgemein vgl. Klosa (2005, S. 97ff.). Die lexikografische Behandlung von Eigennamen in elexiko 207 versehen (vgl. Beispiel Stuttgart in Abb. 4). 10 Sie werden damit wie nur mit automatischen Angaben versehene appellativische Lemmata behandelt, obwohl eine unterschiedliche lexikografische Bearbeitung von Appellativa und Propria generell vorgeschlagen bzw. gefordert wird (vgl. Abschnitt 3) und auch für elexiko wo möglich gelten soll. In elexiko kann diese Unterscheidung aber nur bei lexikografisch bearbeiteten Stichwörtern deutlich werden. Auch hier wirkt sich aus, dass der Schwerpunkt im Projekt elexiko auf der angemessenen, korpusgestützten Erfassung der Gattungsbezeichnungen liegen muss. Immerhin vermitteln die automatisch ausgewählten Belege häufig enzyklopädische Informationen zum Namensträger (im Beispiel Stuttgart etwa, dass Stuttgart im Südwesten Deutschlands liegt), und die orthografischen Angaben befriedigen ein generell häufiges Nachschlagebedürfnis bei Rechtschreibunsicherheiten, das keinen Unterschied zwischen Gattungsbezeichnungen und Eigennamen macht. Abb. 3: Wortartikel Garant mit Informationen zum Eigennamen Von den in Abschnitt 3 vorgestellten Angaben zu Eigennamen in allgemeinsprachigen Wörterbüchern wird also derzeit im Lexikon zum öffentlichen Sprachgebrauch nur ein Teil erarbeitet, und zwar die zu den lexikalischen Angaben zählende Lemmazeichengestaltangabe selbst, die Informationen zu Schreibvarianten oder ggf. morphologischen Varianten des Namens (z. B. im Wortartikel Apollo die Varianten Apollon und Apoll) und zur Worttrennung enthält. Grammatische Angaben sind dagegen beim derzeitigen Konzept nicht vorgesehen, und die Erfassung von Bildungen zu einem Namen wird erst dann 10 Zu den automatisch generierten Angaben in elexiko allgemein vgl. Abschnitt 3 der Einleitung in diesem Band. Annette Klosa / Sabine Schoolaert 208 möglich sein, wenn die automatische Ermittlung von Wortbildungsprodukten zu allen Stichwörtern abgeschlossen ist. 11 Bei den onomastischen Angaben ist die Bestimmung des Namentyps in elexiko realisiert (über die in der Angabenstruktur verankerte Klassifikation und online über die Nennung des Namentyps), auf etymologische Angaben oder die Nennung der Herkunftssprache wird jedoch verzichtet, weil diese Angaben nicht auf der Basis des elexiko- Korpus ermittelt werden können. In Form von Zitaten aus Enzyklopädien oder Namenbüchern können solche Angaben aber unter Umständen ergänzt werden. Solche Zitate, ebenso wie entsprechend ausgewählte Belege aus dem elexiko-Korpus, liefern daneben weitere enzyklopädische Angaben, z. B. zur geografischen Einordnung eines Ortsnamens oder zu berühmten Namensträgern eines Personennamens. Abb. 4: Wortartikel Stuttgart mit automatisch generierten Angaben 11 Vgl. hierzu Abschnitt 1.5 im Beitrag „Von Abbildung bis Wortelement: Weitere Ergänzungen und Änderungen in elexiko“ von Annette Klosa in diesem Band. Die lexikografische Behandlung von Eigennamen in elexiko 209 4.4 Ausblick Für die Bearbeitungsdauer des Lexikons zum öffentlichen Sprachgebrauch werden Namen in der unter Abschnitt 4.3 beschriebenen Weise behandelt. Es wird zu prüfen sein, ob dieses Konzept auch darüber hinaus tragfähig ist. Daneben sollen spezifische Abfragen sowohl über die lexikografisch bearbeiteten als auch die noch unbearbeiteten Stichwörter hinsichtlich der Eigennamen entwickelt werden: So könnte die Klassifikation der Namen, die bei der Durchsicht der Stichwortkandidatenliste aufgefallen waren (vgl. Abschnitt 4.2), die Grundlage für eine Recherche über die noch unbearbeiteten Stichwörter nach einzelnen Namentypen und außerdem nach nur einfach und mehrfach klassifizierten Eigennamen bilden. Eine Suche über die redaktionell bearbeiteten Stichwörter nach solchen Eigennamen, zu denen durch Metonymisierung Gattungsbezeichnungen entstanden sind, liefert sicherlich interessante, korpusgestützte Beispiele für das Phänomen der Verschränkung zwischen appellativem und proprietärem Wortschatz. Sucht man nach solchen Stichwörtern, bei denen ein Eigenname zu einer Gattungsbezeichnung entstanden ist, und bezieht dann solche Fälle ein, in denen Stichwörter auffallend häufig in mehrteilige Eigennamen eingehen (auch dies wäre über eine entsprechende erweiterte Suche möglich), dann würde anhand der gefundenen Wortartikel deutlich, in welchem Umfang diese Verschränkung in wechselseitiger Richtung besteht. 5. Literaturverzeichnis 5.1 Wörterbücher Duden (2009) = Duden - Die deutsche Rechtschreibung (2009). Hrsg. v. d. Dudenredaktion. Red. bearb. v. Scholze-Stubenrecht, Werner et al. 25., völlig neu bearb. und erw. Aufl. Mannheim u.a. DWDS - Das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts. Internet: http: / / www.dwds.de/ (Stand: 30.04.2010). elexiko (2003ff.). In: Institut für Deutsche Sprache (Hg.): OWID - Online-Wortschatz-Informationssystem Deutsch. Mannheim. Internet: www.elexiko.de (Stand: 30.04.2010). WDG = Wörterbuch der deutschen Gegenwartssprache (1980). Hrsg. v. Klappenbach, Ruth/ Steinitz, Wolfgang. 1. Bd. 10., bearb. Aufl. Berlin. Internet: www.dwds.de (Stand: 30.04.2010). Annette Klosa / Sabine Schoolaert 210 5.2 Forschungsliteratur Bauer, Gerhard (1996): Übergangsformen zwischen Eigennamen und Gattungsnamen. In: Eichler, Ernst et al. (Hg.): Namenforschung. Ein internationales Handbuch zur Onomastik. 2. Teilbd. (= Handbücher zur Sprach- und Kommunikationswissenschaft ( HSK ) 11.2). Berlin/ New York, S. 1616-1621. Bergenholtz, Henning (1989): Probleme der Selektion im allgemeinen einsprachigen Wörterbuch. In: Hausmann et al. (Hg.), S. 772-779. Eichler, Ernst et al. (Hg.) (1995): Namenforschung. Ein internationales Handbuch zur Onomastik. 1. Teilbd. (= Handbücher zur Sprach- und Kommunikationswissenschaft ( HSK ) 11.1). Berlin/ New York. Harweg, Roland (1997): Namen und Wörter: Aufsätze. 1. Bd. (= Bochumer Beiträge zur Semiotik 50). Bochum. Harweg, Roland (1999): Eigennamen als Einträge in Wörterbüchern und Lexika. In: Harweg, Roland: Studien zu Eigennamen: Aufsätze. (= Bochumer Beiträge zur Semiotik, N.F. 4). Aachen, S. 61-123. Haß, Ulrike (2005): Das Bedeutungsspektrum. In: Haß (Hg.), S. 163-181. Haß, Ulrike (Hg.) (2005): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz. (= Schriften des Instituts für Deutsche Sprache 12). Berlin/ New York. Hausmann, Franz Josef et al. (Hg.) (1989): Wörterbücher: Ein internationales Handbuch zur Lexikographie. 1. Teilbd. (= Handbücher zur Sprach- und Kommunikationswissenschaft ( HSK ) 5.1). Berlin/ New York. Klosa, Annette (2005): Belege in elexiko. In: Haß (Hg.), S. 96-104. Koß, Gerhard (1995): Die Bedeutung der Eigennamen: Wortbedeutung/ Namenbedeutung. In: Eichler et al. (Hg.), S. 458-463. Latour, Susanne (1996): Namen machen Marken: Handbuch zur Entwicklung von Firmen- und Produktnamen. Frankfurt a.M. u.a. Möller, Lucie A. (1995): Methods and problems in proper name lexicography. In: Eichler et al. (Hg.), S. 324-328. Müller, Fritz. C. (1969): Namen, die Begriffe wurden. Frankfurt a.M./ Hamburg. Nicolaisen, Wilhelm F. H. (1995): Name and appellative. In: Eichler et al. (Hg.), S. 384-393. Reimer, Marga (2006): Proper names: philosophical aspects. In: Brown, Keith (Hg.): Encyclopedia of language & linguistics. 2. Aufl. Oxford, S. 137-141. Ris, Roland (2002): Typen im Zwischenbereich von Eigennamen und Appellativ. In: Kremer, Dieter (Hg.): Onomastik. Bd. 5: Onomastik und Lexikographie, Deonomastik. (= Patronymica romanica 18). Tübingen, S. 225-235. Die lexikografische Behandlung von Eigennamen in elexiko 211 Schnörch, Ulrich (2005a): Der Autoren-Arbeitsplatz: Ein elexiko-Wortartikel entsteht. In: Haß (Hg.), S. 105-130. Schnörch, Ulrich (2005b): Die elexiko-Stichwortliste. In: Haß (Hg.), S. 71-90. Schnörch, Ulrich (2010): Lesartendisambiguierung in elexiko. Vortrag beim 6. Arbeitstreffen deutschsprachiger Akademiewörterbücher, Berlin 2.-5. September 2009. Internet: http: / / dwb.bbaw.de/ tagung09/ index.html . (Stand: 04.03.2010). Storjohann, Petra (2003): Computergestützte Lesartendisambiguierung. In: Deutsche Sprache 31, S. 3-28. Storjohann, Petra (2005): Semantische Paraphrasen und Kurzetikettierungen. In: Haß (Hg.), S. 182-203. Strauß, Gerhard (1989): Angabe traditioneller Wortarten oder Beschreibung nach funktionalen Wortklassen im allgemeinen einsprachigen Wörterbuch? In: Hausmann et al. (Hg.), S. 788-796. Willems, Klaas (1996): Eigenname und Bedeutung. Ein Beitrag zur Theorie des nomen proprium. (= Beiträge zur Namenforschung: Beiheft, N.F. 47). Heidelberg. Zifonun, Gisela/ Hoffmann, Ludger/ Strecker, Bruno (1997): Grammatik der deutschen Sprache. 3. Bd. (= Schriften des Instituts für Deutsche Sprache 7.3). Berlin/ New York. 022510 Auslieferung März 2010.indd 11 20.04.10 17: 45 Narr Francke Attempto Verlag GmbH + Co. KG Postfach 25 60 · D-72015 Tübingen · Fax (0 7071) 97 97-11 Internet: www.narr.de · E-Mail: info@narr.de 022510 Auslieferung März 2010.indd 11 20.04.10 17: 45 In der vorliegenden Arbeit wird mit ethno analytischen und gesprächsrhetorischen Methoden der kommu nikative Sozialstil der „emanzipatorischen Migranten“ untersucht. Ein wesentliches Kennzeichen dieses Milieus von Migranten der zweiten Generation ist, dass seine Akteure offensiv und provokativ mit Rassismen umgehen und sich nicht ethnisch (als „Türken“, „Italiener“, „Griechen“ etc.) definieren. Des Weiteren betrachten sie - neben der dominanten Verwen des Deutschen als gruppeninterner Kommunikationssprache - (deutsch-türkisches) Code-switching und Code-mixing als wich tigen Ausdruck ihrer migrantischen Identität. Da Potenziale und Konturen von Stilen erst im Kontrast eindeutig hervortreten, werden diese Befunde mit der kommunikativen Praxis einer anderen Sozialwelt von Migranten der zweiten Genera tion verglichen, derjenigen der „akademischen Europatürken“. Hierbei zeigt sich, dass dieses sich ethnisch und als „Elite“ der türkischen Migranten definierende Milieu moderat auf Diskriminie rungen reagiert und deutsch-türkische Sprachvariation als Aus druck von ,Halbsprachigkeit‘ ablehnt. Ibrahim Cindark Migration, Sprache und Rassismus Der kommunikative Sozialstil der Mannheimer „Unmündigen“ als Fallstudie für die „emanzipatorischen Migranten“ Studien zur deutschen Sprache, Band 51 2010, 283 Seiten, €[D] 72,00/ SFr 121,00 ISBN 978-3-8233-6518-1 Narr Francke Attempto Verlag GmbH + Co. KG Postfach 25 60 · D-72015 Tübingen · Fax (0 7071) 97 97-11 Internet: www.narr.de · E-Mail: info@narr.de Die Untersuchung präsentier t die multimodale Struktur und Komplexität eines besonderen Kooperationstyps, des „Pitchings“. Dabei handelt es sich um eine Mischfor m aus Arbeits- und Lehr-Lern-Diskurs, bei der vier Studierende gemeinsam mit zwei Dozenten Filmideen entwickeln. Als empirische Grundlage dient ein Datenkorpus von 72 Stunden Videoaufnahmen, das methodisch mit einer Kombination aus ethnographischer Gesprächsanalyse, ethnomethodologischer Konversationsanalyse und deren Er weiterung um eine multimodale Analyseperspektive untersucht wird. Dabei wird detailliert der komplexe Gesamtzusammenhang von Verbalität, Mimik, Gestik, Körperpositur und anderen körperlichen Ausdrucksformen in seiner Bedeutung für die gemeinsame Arbeit ersichtlich. Basierend auf den beiden zentralen Konzepten „Kooperation“ und „Handlungsschema“ werden die spezifischen Situationsmerkmale des Pitchings sowie die typischen Aufgaben und Probleme rekonstruiert, die von den Interaktionsbeteiligten durch unterschiedliche Ver fahren bearbeitet werden. Aufgrund einer longitudinalen Perspektive gibt die Untersuchung zudem Einblicke in die Professionalisierung der Studierenden im Studienverlauf. Daniela Heidtmann Multimodalität der Kooperation im Lehr-Lern-Diskurs Wie Ideen für Filme entstehen Studien zur deutschen Sprache, Band 50 2009, 340 Seiten, €[D] 78,00/ SFr 132,00 ISBN 978-3-8233-6471-9 019609 Auslieferung Ma rz 2009.indd 11 24.03.2009 16: 14: 30 Uhr Narr Francke Attempto Verlag GmbH + Co. KG Postfach 25 60 · D-72015 Tübingen · Fax (0 7071) 97 97-11 Internet: www.narr.de · E-Mail: info@narr.de Wechselseitige Verständigung ist eine Grundvoraussetzung für das Gelingen von Kooperation. Die Art und Weise des Verstehens richtet sich dabei nicht nur nach den zu verstehenden Äußerungen des Gesprächspartners, sondern ebenso nach den Zwecken der Interaktion und den Beteiligungsrollen der Akteure. Die Autoren zeigen, wie in unterschiedlichen Typen institutioneller Interaktion (in Arzt-Patient-Gesprächen, in der Migrationsberatung und beim Dreh eines F ilms) Verstehen im G espräch angezeig t und ausgehandelt wird. Auf Grundlage von Audio - und Videoaufnahmen werden die sprachlich-kommunikativen und kinesischen Verfahren der Dokumentation von Verstehen untersucht. Besonderes Augenmerk gilt dabei dem Zuschnitt auf den jeweiligen Gesprächskontext und der Art und Weise, wie sozialstrukturelle Sachverhalte (institutionelle Routinen, Beteiligungsrechte und -pflichten, professionelle Identitäten) durch Verstehensdokumentationen in der Interaktion enaktiert werden. Dabei wird deutlich, dass Verstehen in der Interaktion nicht nur retrospektiv, sondern ganz wesentlich auch antizipatorisch ausgerichtet ist. Welches Verstehen wem in welcher Weise angezeigt wird, ist dabei nicht nur kognitiven und kooperativen Belangen geschuldet. Verstehensdokumentationen haben auch handlungssteuernde Funktionen, die rhetorisch genutzt werden können. Arnulf Deppermann / Ulrich Reitemeier / Reinhold Schmitt Thomas Spranz-Fogasy Verstehen in professionellen Handlungsfeldern Studien zur Deutschen Sprache, Band 52 2010, 392 Seiten €[D] 88,00/ SFr 149,00 ISBN 978-3-8233-6519-8 022510 Auslieferung März 2010.indd 11 20.04.10 17: 45 Narr Francke Attempto Verlag GmbH + Co. KG Postfach 25 60 · D-72015 Tübingen · Fax (0 7071) 97 97-11 Internet: www.narr.de · E-Mail: info@narr.de Die Beiträge der Festschrift für Rainer Wimmer anlässlich seines 65. Geburtstags dokumentieren die Vielschichtigkeit seines sprachwissenschaftlichen Wirkens: Eine große Anzahl der Artikel widmet sich einer seiner zentralen Forschungstätigkeiten, der Sprachkritik. Seine interdisziplinären und anwendungsorientierten Arbeitsfelder sowie seine frühen Arbeiten zu Eigennamen werden durch spezifische Beiträge ebenso gewürdigt, wie in einem Themenblock hervorgehoben wird, dass es „die“ Sprache nicht gibt, sondern dass Sprachen nur neben Sprachen, d.h. in einem Miteinander, existieren können. Auf diese Weise entsteht ein Einblick in die wichtigsten Strömungen und Ansätze der zeitgenössischen interpretativen Semantik, zu deren Entwicklung Rainer Wimmer durch sein Schaffen wesentlich beigetragen hat. Wolf-Andreas Liebert Horst Schwinn (Hrsg.) Mit Bezug auf Sprache Festschrift für Rainer Wimmer Studien zur deutschen Sprache, Band 49 2009, 584 Seiten, €[D] 98,00/ SFr 165,00 ISBN 978-3-8233-6470-2 003609 Auslieferung Januar 2009.indd 11 20.01.2009 15: 34: 00 Uhr