Der lexikografische Prozess

Carolin Müller-Spitzer

eBooks

Der lexikografische Prozess

2007

978-3-8233-7357-5

Gunter Narr Verlag

Carolin Müller-Spitzer

Durch die Medienrevolution des Computerzeitalters hat auch die Lexikografie tiefgreifend verändert. Es stellen sich neue Fragen wie: Kann aus einer Datenbasis gleichzeitig ein gedrucktes und ein elektronisches Wörterbuch entwickelt werden? Welche innovativen Funktionalitäten können den Wörterbuchbenutzern im elektronischen Medium angeboten werden? Wie kann die Erarbeitung der Daten im lexikografischen Prozess bestmöglich unterstützt werden? Die Basis für die Möglichkeiten im Umgang mit den lexikografischen Daten bildet dabei die Datenmodellierung und -aufbereitung. Daher ist für die Erarbeitung eines Wörterbuchs eine Konzeption zur Modellierung und Aufarbeitung der zugrunde liegenden Daten von entscheidender Bedeutung. Die vorliegende Arbeit stellt nachdrücklich dar, wie eine wohlüberlegte, methodisch fundierte und vor allem anwendbare Datenmodellierung zu weitreichenden Verbesserungen der lexikografischen Praxis führt. Dazu wird ein Modell für den lexikografischen Prozess entwickelt, welches die Erarbeitung der Daten und die Recherchierbarkeit sowohl für lexikografen als auch Wörterbuchbenutzer optimiert.

Carolin Müller-Spitzer Der lexikografische Prozess Konzeption für die Modellierung der Datenbasis Gunter Narr Verlag Tübingen Studien zur Deutschen Sprache F O R S C H U N G E N D E S I N S T I T U T S F Ü R D E U T S C H E S P R A C H E S T U D I E N Z U R D E U T S C H E N S P R A C H E 4 2 Studien zur Deutschen Sprache F O R S C H U N G E N D E S I N S T I T U T S F Ü R D E U T S C H E S P R A C H E Herausgegeben von Arnulf Deppermann, Ulrich Hermann Waßner und Stefan Engelberg Band 42 · 2007 Carolin Müller-Spitzer Der lexikografische Prozess Konzeption für die Modellierung der Datenbasis Gunter Narr Verlag Tübingen Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http: / / dnb.d-nb.de> abrufbar. Dissertation, Neuphilologische Fakultät der Universität Heidelberg, 2005. Ursprünglicher Titel: Der lexikografische Prozess. Konzept für die Modellierung einer lexikografischen Datenbasis. © 2007 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Gedruckt auf säurefreiem und alterungsbeständigem Werkdruckpapier. Internet: http: / / www.narr.de E-Mail: info@narr.de Satz: Hohwieler, Mannheim Druck und Bindung: Hubert & Co., Göttingen Printed in Germany ISSN 0949-409X ISBN 978-3-8233-6357-6 Inhalt Vorwort............................................................................................. 9 1. Das neue Medium und die Lexikografie: Eine Bandbreite an Möglichkeiten ............................................................................ 11 2. Zur Verortung und Eingrenzung des Themas dieser Arbeit ..... 15 3. Ordnende Betrachtungen zu elektronischen Wörterbüchern und lexikografischen Prozessen .................................................... 21 3.1 Zum Thema des Kapitels ................................................................. 21 3.2 Arten elektronischer Wörterbücher.................................................. 23 3.2.1 Müller, Edelmüller und Sondermüller ............................................. 23 3.2.2 Unterscheidungsmöglichkeiten elektronischer Wörterbücher: Bereits vorgelegte Typologien ......................................................... 27 3.2.3 Was ist ein elektronisches Wörterbuch? .......................................... 29 3.2.4 Elektronisches Wörterbuch - Wortschatzinformationssystem ........ 32 3.2.5 Automatisch erstellte vs. lexikografisch bearbeitete Wortschatzinformationssysteme ...................................................... 33 3.3 Arten von lexikografischen Prozessen ............................................. 42 3.3.1 All in one: Die Duden-Ontologie..................................................... 42 3.3.2 Arten von lexikografischen Prozessen nach H.E. Wiegand............... 43 3.3.3 Arten von lexikografischen Prozessen. Eine erweiterte Übersicht .... 46 3.4 Ebenen im lexikografischen Prozess................................................ 53 3.5 Relevanz der getroffenen Unterscheidungen ................................... 56 4. Anforderungen an die Modellierung lexikografischer Daten ....... 59 4.1 Funktionalitäten von Wortschatzinformationssystemen .................. 60 4.2 Unterstützung im lexikografischen Prozess ..................................... 68 4.3 Schnittstelle zur automatischen Sprachverarbeitung ....................... 72 4.4 Allgemeine Eigenschaften der Datenhaltung................................... 73 5. Die XML-basierte Modellierung einer lexikografischen Datenbasis ....................................................................................... 77 5.1 Begründung der Wahl von XML und verwandten Standards ........... 79 5.1.1 Was ist XML? ................................................................................... 79 5.1.2 Vorteile des Einsatzes von XML ...................................................... 82 5.1.3 Einige Bemerkungen zum Gesamtaufbau einer XML-basierten Redaktionsumgebung....................................................................... 87 Der lexikografische Prozess 6 5.1.4 XML als „Piece of a Larger Picture“ ................................................ 89 5.1.5 Notwendigkeit von Richtlinien für die Anwendung von XML ........ 91 5.2 Differenzierung verschiedener Ansätze einer DTD-Entwicklung ...... 95 5.2.1 Maßgeschneiderte vs. Standard-DTD............................................... 95 5.2.2 Strukturierung eines bestehendes Datenbestandes vs. Neuerstellung eines Datenbestandes ................................................ 99 5.2.3 Layoutorientierte vs. inhaltsorientierte Datenauszeichnung .......... 100 5.2.4 Layoutbasierte vs. konzeptuelle Inhaltsmodellierung.................... 103 5.2.5 Angemessenheit der Modellierung ................................................ 106 5.2.6 Strenge vs. weiche Struktur ........................................................... 107 5.3 Rahmenbedingungen und Zielsetzungen des Modellierungskonzeptes ................................................................ 109 5.4 Modellierung des Inhaltsstrukturenprogramms ............................. 117 5.4.1 Inhaltliche Konzeption................................................................... 117 5.4.2 Standardbasierte Ausdrucksmöglichkeit: XML-DTDs ................... 132 5.4.2.1 Graphen und Bäume .................................................... 132 5.4.2.2 Kurzeinführung in die Syntax von XML ...................... 135 5.4.2.3 „The Well-Dressed-DTD“: einige Voraussetzungen für eine von Menschen lesbare DTD ............................ 146 5.4.2.3.1 Optische Gestaltung ........................................................ 146 5.4.2.3.2 Verteilung von Elementen, Attributen und Entities ............ 148 5.4.2.3.3 Modularisierung von DTD s .............................................. 149 5.4.2.3.4 Kommentierung der DTD ................................................. 150 5.4.2.3.5 Dokumentation der DTD .................................................. 151 5.4.2.3.6 Sprache.......................................................................... 152 5.4.3 Richtlinien für die XML-basierte Modellierung des Inhaltsstrukturenprogramms .......................................................... 152 5.4.3.1 Modellierung des hierarchischen Aufbaus des Inhaltsstrukturenprogramms ........................................ 153 5.4.3.2 Modellierung der terminalen Elemente........................ 158 5.4.3.2.1 Unterscheidung in Angaben V , Kommentare und Hinweise ... 158 5.4.3.2.2 Modellierung von Angaben V ............................................ 160 5.4.3.2.3 Modellierung von Kommentaren...................................... 167 5.4.3.2.4 Modellierung von Hinweisen ........................................... 168 5.4.3.2.5 Nicht gekennzeichnete terminale Elemente ....................... 169 5.5 Modellierung des Vernetzungsstrukturenprogramms .................... 169 5.5.1 Inhaltliche Konzeption................................................................... 170 5.5.2 Standardbasierte Ausdrucksmöglichkeit: XLink ........................... 180 5.5.3 Richtlinien für die XML-basierte Modellierung des Vernetzungsstrukturenprogramms ................................................. 190 Inhalt 7 5.6 Mehr als ein Instruktionenbuch: Die Anwendung des Modellierungskonzeptes im lexikografischen Prozess .................. 204 5.7 Flexibilität der Darstellung der entsprechend modellierten Daten .... 210 5.7.1 Grundsätzliches.............................................................................. 210 5.7.2 Standardbasiertes Verfahren: Darstellung mit XSL(T) .................. 212 5.7.3 Veranschaulichung anhand eines Beispiels ................................... 216 5.7.4 Umgang mit Verdichtung in medienneutral konzipierten lexikografischen Prozessen ............................................................ 229 5.8 Perspektive Wörterbuchverbund.................................................... 233 6. Modellierung einer lexikografischen Datenbasis im Projekt elexiko : ein Werkstattbericht ........................................ 243 6.1 Kurzbeschreibung des Projekts ...................................................... 243 6.2 Rolle des Modellierungskonzeptes bei der DTD-Entwicklung ........ 246 6.3 Vorgehensweise bei der DTD-Entwicklung ................................... 248 6.4 Skizze der technischen Redaktionsumgebung ............................... 249 6.5 Die Modellierung des Inhaltsstrukturenprogramms....................... 250 6.5.1 Grundsätzliche Aufteilung der DTDs ............................................. 250 6.5.2 Grundstruktur eines Artikels im elexiko-Wörterbuch (bearbeitete Artikel) ....................................................................... 253 6.5.3 Anwendung der Richtlinien zur Modellierung des Inhaltsstrukturenprogramms .......................................................... 259 6.5.3.1 Modellierung des hierarchischen Aufbaus des Inhaltsstrukturenprogramms ........................................ 259 6.5.3.2 Modellierung der terminalen Elemente........................ 261 6.5.3.2.1 Unterscheidung in Angaben V , Kommentare und Hinweise ........................................................................ 261 6.5.3.2.2 Modellierung von Angaben V ............................................ 264 6.5.3.2.3 Modellierung von Kommentaren...................................... 271 6.5.3.2.4 Modellierung von Hinweisen ........................................... 273 6.6 Modellierung des Vernetzungsstrukturenprogramms .................... 276 6.7 Weitere Aspekte einer „Well-Dressed-DTD“................................. 287 6.7.1 Benennung der Objekte.................................................................. 287 6.7.2 Anordnung der Entities, Elemente und Attribute und Kommentierung der DTDs ............................................................. 288 6.7.3 Dokumentation der DTDs............................................................... 289 6.8 Darstellung der Artikel und Perspektiven für die Recherche......... 292 6.9 Die DTD-Entwicklung im Spannungsfeld zwischen theoretischen Richtlinien und ihrer praktischen Umsetzung ......... 298 Der lexikografische Prozess 8 7. Schlussbemerkung ....................................................................... 301 8. Literatur ....................................................................................... 303 8.1 Wörterbücher ................................................................................. 303 8.2 Forschungsliteratur ........................................................................ 303 Vorwort Dieses Buch ist eine überarbeitete Fassung meiner im Juni 2005 an der Heidelberger Universität eingereichten Dissertation. Zum Gelingen dieser Arbeit haben viele Menschen beigetragen, bei denen ich mich hiermit - zumindest auszugsweise - bedanken möchte: Zunächst bedanke ich mich bei Herbert Ernst Wiegand für die interessanten, spannenden und auf gewisse Weise auch unterhaltsamen Seminare während meiner Studienzeit, die mich auf die Fährte der (Meta-)Lexikografie gebracht haben. Dabei habe ich besonders seine breit angelegte fachliche Neugierde schätzen gelernt, die auch einer solchen Arbeit auf der Grenze zwischen Metalexikografie und Texttechnologie offen gegenübersteht. Außerdem möchte ich meinen Kollegen und Kolleginnen am Institut für Deutsche Sprache für Anregungen, Unterstützung und kollegiale Kritik danken; genauso den anderen in- und ausländischen Kollegen im Arbeitsfeld der Wörterbuchforschung und Lexikografie. Ein großes Projekt wie eine Doktorarbeit, die einige Zeit in Anspruch nimmt, wird jedoch auch immer vom persönlichen Umfeld getragen. Deshalb möchte ich mich als erstes bei meinen Eltern bedanken, die mich meinen eigenen Weg haben gehen lassen und dabei immer ein sicheres Netz für mich waren und sind. Ihnen habe ich viel zu verdanken. Ich bedanke mich nicht weniger bei meinem Mann Sebastian, der im Alltag durch Unterstützung in vielerlei Hinsicht sicher den größten Beitrag zum Gelingen der Arbeit geleistet hat. Auch möchte ich mich bei unseren Töchtern Marie und Anna bedanken, die auf ihre Weise die Entstehung der Doktorarbeit und die anschließenden Prüfungen befördert haben. Nicht zuletzt bedanke ich mich bei meinen Freundinnen und Freunden, insbesondere bei Eva und Ingrid, für ihre Zuneigung und Verbundenheit. Und schon im Voraus bedanke ich mich bei allen Lesern des Buches für ihr Interesse und wünsche allen nach soviel Dankesworten eine hoffentlich anregende Lektüre. Ich widme diese Arbeit meiner Familie. Carolin Müller-Spitzer Plankstadt, September 2007 1. Das neue Medium und die Lexikografie: Eine Bandbreite an Möglichkeiten Der Computer kann [...] Wörterbücher rationalisieren, systematisieren, präzisieren, symmetrisieren, parametrisieren, modularisieren, homogenisieren, technisieren, operationalisieren, automatisieren und propagandieren - mit einem Wort, optimieren. Francis Knowles Die guten Leute, die sich über die technischen Fortschritte unserer Zeit so entsetzen, verwechseln, wie mir scheint, Zweck und Mittel. Wer nur um Gewinn kämpft, erntet nichts, was der Mühe wert ist. Aber die Maschine ist kein Ziel und darum ist auch das Flugzeug kein Zweck, sondern ein Werkzeug, ein Gerät, nichts anderes als der Pflug. Antoine de Saint-Exupéry Das elektronische Medium, welches so neu gar nicht mehr ist, hat die gesamte Publikationslandschaft tiefgreifend verändert. Es verheißt auch der Lexikografie eine Bandbreite an Möglichkeiten. Dabei kann der Computer jedoch nicht selbst aktiv werden, um diese Möglichkeiten zu nutzen; der Computer selbst kann nichts. Aktor bleibt der Mensch, der den Rechner als neues technisches Werkzeug zur Erreichung der von ihm definierten Handlungsziele einsetzen kann. Es gilt daher zu prüfen, wie der Einsatz des neuen Mediums so gestaltet werden kann, dass er nicht Selbstzweck, sondern sinnvoller Gebrauch dieses neuen Werkzeuges ist. Das gilt auch für die Sprachlexikografie als eigenständige kulturelle Praxis, die hier Gegenstand der Betrachtung ist. 1 Hier wird das Potenzial des elektronischen Mediums für Wörterbücher besonders hoch eingeschätzt. [...] It should not come as a surprise that nearly everyone involved in presentday dictionary making is enthusiastic about the potential of the electronic medium. ED [Electronic Dictionary, Anm. d. Verf.] dreams are indeed not without a solid basis. (Schryver 2003, S. 162) 1 Vgl. Wiegand (1998a, S. 41). Näheres dazu siehe Kapitel 2. Der lexikografische Prozess 12 Als Gründe werden - sehr allgemein formuliert - in der Forschung u.a. folgende Eigenschaften und Gebrauchsweisen von Wörterbüchern genannt: Wörterbücher werden nicht linear gelesen, sondern in ihnen wird punktuell nachgeschlagen, Wörterbuchartikel sind auf komplexe Weise miteinander vernetzt, was auf Papier oft nicht hinreichend umgesetzt werden kann, und Artikel von Sprachwörterbüchern sind in der Regel standardisiert in einzelne Positionen aufgeteilt, die meist nicht alle von einem Benutzer zur Beantwortung einer Suchanfrage zur Kenntnis genommen werden. In der Umsetzung dieser Eigenschaften wird dem elektronischen Medium ein potenzieller Mehrwert gegenüber dem Druckmedium zugesprochen. 2 Neue Möglichkeiten hinsichtlich der Funktionalität werden in der Praxis jedoch nur langsam genutzt, wie es bei großen Medienveränderungen durch die Geschichte fast immer zu beobachten ist (vgl. Faulstich 1997). Sicherlich hat sich in den letzten Jahren in der lexikografischen Praxis viel verändert, sodass man nicht mehr unbedingt sagen kann, dass es sich bei den meisten elektronischen Wörterbüchern um eine Widerspiegelung der Printwörterbücher auf „reduziertem Niveau“ (Feldweg 1997, S. 110) handelt. Doch elektronische Wörterbücher ziehen gerade ihre Berechtigung daraus, sich sehr deutlich von gedruckten zu unterscheiden, indem sie die Möglichkeiten des neuen Mediums wirklich sinnvoll nutzen (vgl. auch Lehr 2000). Jedoch sind Beispiele für ganz grundsätzlich andere, neue Funktionalitäten elektronischer Wörterbücher gegenüber Printwörterbüchern, so wie sie z.B. Atkins fordert, nach wie vor kaum zu finden: If new methods of access (breaking the iron grip of the alphabet) and a hypertext approach to the data stored in the dictionary do not result in a product light years away from the printed dictionary, then we are evading the responsibilities of our profession. (Atkins 1992, S. 521; zitiert nach Schryver 2003, S. 144) Das neue Medium spielt in der Lexikografie jedoch nicht nur als Publikationsmedium eine Rolle. Ein wichtiger Bereich ist auch der Einsatz neuer Technologien in der Herstellung von Wörterbüchern, also im lexikogra- 2 Einen sehr guten Überblick über das, was in der Literatur in Bezug auf die Möglichkeiten des elektronischen Mediums für die Lexikografie formuliert wird, bietet Schryver (2003). Aus der deutschsprachigen Wörterbuchforschung sind u.a. Storrer (2001) und die Beiträge aus Lemberg/ Schröder/ Storrer (Hg.) (2001) zu nennen. Zahlreiche Beispiele für Online-Wörterbücher sind über das Wörterbuchportal von Robert Beard und Paul J.J. Payack, www.yourdictionary.com (Stand: Februar 2007), zu finden. Das neue Medium und die Lexikografie 13 fischen Prozess. Dabei geht es nicht nur um die Herstellung von elektronischen Wörterbüchern, sondern genauso um die Herstellung von gedruckten Wörterbüchern oder von Wörterbüchern, die gleichzeitig in beiden Medien erscheinen. Ziel ist auch hier, im lexikografischen Prozess qualitative Verbesserungen durch den Einsatz des Computers zu erreichen, nicht nur quantitative Erleichterungen im Sinne einer schnelleren und reibungsloseren Herstellung. Doch können aus einfachen Quantitätssteigerungen nicht direkt Qualitätssteigerungen erwartet werden. [...] Im computerunterstützten lexikografischen Prozess kann die Quantität niemals in Qualität (sozusagen ‘von allein’) umschlagen. Vielmehr kommt die Qualitätssteigerung im Beispiel dadurch zu Stande, dass ein aufgabengerechter und intelligenter Einsatz des Computers erfolgte, sodass die Datenverarbeitung zu einer Organisation des Materials führte, die eine bessere und zusammenhängende Wahrnehmung dieses Materials unter verschiedenen, für die Lösung der Aufgabe relevanten Perspektiven erlaubte, was eine wichtige Voraussetzung für eine adäquate Materialinterpretation durch die beiden Lexikografen darstellte. Es wäre wohl falsch zu folgern, die Qualitätssteigerung sei allein das Ergebnis der Materialinterpretation der beiden Lexikografen, auch wenn diese präzise Fragen stellten; vielmehr ist sie das Ergebnis einer gelungenen Mensch-Maschine-Kommunikation. (Wiegand 1998a, S. 160) Das elektronische Medium bietet der Lexikografie also nicht schon an sich eine schöne neue Welt, sondern es muss etwas dafür getan werden, dass diese vielversprechenden Möglichkeiten die lexikografische Praxis verbessern und so zum Entstehen innovativer Produkte beitragen können. Dabei sind die beiden Bereiche - neue technische Möglichkeiten im lexikografischen Prozess und neues Potenzial bei der Publikation lexikografischer Daten - nicht losgelöst voneinander zu betrachten, sondern stehen in einem engen Verhältnis zueinander. Denn erst durch einen sinnvollen Einsatz des Computers im lexikografischen Prozess liegen die lexikografischen Daten in der Regel so vor, dass sie ‘mediengerecht’ im elektronischen Medium präsentiert werden können und - falls gewünscht - gleichzeitig auch ein gedrucktes Wörterbuch entstehen kann. Es geht in dieser Arbeit daher allgemein um die Frage: Wie können neue technische Möglichkeiten so im lexikografischen Prozess eingesetzt werden, dass der Computer eine gute Unterstützung für die lexikografische Arbeit bietet und gleichzeitig eine Datenbasis entsteht, aus der neuartige elektronische Produkte entwickelt werden können? Eine Fragestellung ist in dieser Form jedoch noch ein zu ‘weites Feld’. Ein wesentlicher Punkt im lexikogra- Der lexikografische Prozess 14 fischen Prozess ist die Frage der Datenorganisation. Speziell die Aufgabe der Datenmodellierung ist, je nachdem, wie man Datenmodellierung definiert, als Aufgabe neu hinzugekommen bzw. hat sich grundlegend verändert. Meines Erachtens werden dabei in der Ausgestaltung der Datenmodellierung die entscheidenden Weichen dafür gestellt, ob die lexikografischen Daten am Ende so vorliegen, dass aus ihnen ein innovatives elektronisches Wörterbuch entwickelt werden kann und gleichzeitig eine gedruckte Präsentation dieser Daten grundsätzlich möglich ist. Darüber hinaus kann eine bestimmte Form von Datenmodellierung und entsprechender Datenerfassung wesentliche Qualitätsverbesserungen für die lexikografische Arbeitsumgebung bewirken. Allerdings ist bisher noch nicht umfassend aufgezeigt worden, wie eine solche Datenmodellierung und die darauf aufbauenden Verbesserungsmöglichkeiten in der lexikografischen Praxis aussehen können. Wie man eine solche Datenmodellierung entwickeln kann, welchen Richtlinien man dabei folgen sollte, welcher technischen Möglichkeiten man sich bei der Entwicklung bedienen kann, sind daher hier zu klärende Fragen. Das Thema dieser Arbeit ist somit darauf eingegrenzt, ein Konzept für die Modellierung einer lexikografischen Datenbasis zu entwickeln, die in benannten Bereichen Verbesserungsmöglichkeiten bewirken kann, und exemplarisch aufzuzeigen, wie solche Verbesserungen aussehen können. Diese allgemeine Themenbeschreibung soll nun genauer eingegrenzt und innerhalb der Lexikografie und Wörterbuchforschung verortet werden. 2. Zur Verortung und Eingrenzung des Themas dieser Arbeit Im Laufe meiner Beschäftigung mit Wörterbüchern [...] bin ich allmählich zu der Überzeugung gelangt, dass eine möglichst weitgehende theoretische und methodologische Durchleuchtung einer althergebrachten [...], pragmatisch eingespielten Praxis zu einem vertieften Verständnis dieser Praxis, zu einem höheren Grad ihrer Beherrschung und damit in manchen Bereichen auch zu ihrer Erneuerung führen kann. Herbert Ernst Wiegand Gegenstand dieser Untersuchung ist der lexikografische Prozess, genauer die Datenmodellierung im lexikografischen Prozess. Dabei sind nicht beliebige Arten von lexikografischen Prozessen im Blickpunkt, sondern solche, die zu Sprachnachschlagewerken führen. Unter diesen stehen wiederum die wissenschaftlichen Wörterbuchprojekte im Vordergrund, da hier eher der Raum für eine fundierte Konzeption bei der Modellierung der lexikografischen Daten gegeben ist. Für die genaue Erläuterung des Aufbaus dieser Arbeit ist es hilfreich, dieses Thema innerhalb der Lexikografie und Wörterbuchforschung zu verorten. Dazu sollen zunächst - anschließend an Wiegand - Sprachlexikografie und Wörterbuchforschung gegeneinander abgegrenzt werden. Die wissenschaftliche Form der Sprachlexikografie kann mit Wiegand als eine „eigenständige kulturelle und wissenschaftliche Praxis“ (Wiegand 1998a, S. 62) charakterisiert werden. Sprachlexikografie als solche ist danach keine Wissenschaft, da „das Ziel der Sprachlexikographie [...] nicht darin“ besteht, „wissenschaftliche Theorien zu erarbeiten“ (ebd., S. 23). Natürlich können Lexikografen auch sprachwissenschaftliche Tätigkeiten ausführen. Dazu bringt Wiegand das Beispiel der Etymologie. Wenn ein etymologisches Wörterbuch erarbeitet würde, dann sei die „Erarbeitung einer Etymologie und damit die von etymologischem Wissen eine sprachwissenschaftliche Tätigkeit“, die damit „auch eine Tätigkeit eines bestimmten Lexikographen sein“ kann. Die lexikographische Tätigkeit besteht u.a. in einer Verarbeitung des verfügbaren etymologischen Wissens zu einem lexikographischen Text. Die Erarbeitung einer Etymologie einerseits und deren Darstellung in einem Wörterbuchartikel andererseits sind (auch wenn sie von einer Person ausgeführt werden und ineinander greifen können) zwei verschiedene und deutlich unterscheidbare Dinge. (Wiegand 1998a, S. 23) Der lexikografische Prozess 16 In der wissenschaftlichen Sprachlexikografie werden „in unterschiedlichem Ausmaß wissenschaftliche Methoden aus verschiedenen Wissenschaften angewendet und wissenschaftliche Ergebnisse aus verschiedenen Wissenschaften genutzt“ (Wiegand 1998a, S. 40). Nicht nur Ergebnisse z.B. aus der Lexikologie können demnach angewandt werden, sondern wie später zu sehen sein wird, auch Ergebnisse beispielsweise aus dem Bereich der Texttechnologie. Von lexikografischen Tätigkeiten deutlich zu unterscheiden sind aber solche Tätigkeiten, die nicht als Teil eines lexikographischen Prozesses darauf ausgerichtet sind, daß Sprachnachschlagewerke entstehen, sodaß sie nicht mit dem Schreiben von Wörterbüchern in einem erkennbaren Handlungszusammenhang stehen (ebd., S. 45). Diese Tätigkeiten solle „man nicht Lexikografie nennen“, da man „Wörterbücher nicht theoretisch schreiben“ kann (ebd., S. 45). Selbstverständlich enthält lexikografische Tätigkeit reflexive Komponenten, die aber immer noch zur praktischen Tätigkeit der Sprachlexikografie gezählt werden sollen (ebd., S. 46). Die verschiedenen wissenschaftlichen Formen der Beschäftigung mit Sprachlexikografie sind daher nicht selbst Teil der Sprachlexikografie, sondern bilden den wissenschaftlichen Metabereich hierzu (Wiegand 1998a, S. 64). Die Sprachlexikografie ist demnach der „Gegenstandsbereich“, „aus dem für die verschiedenen Forschungsgebiete der Wörterbuchforschung die wissenschaftlichen Gegenstände gewonnen werden“ (ebd., S. 46). Ein Bereich der Wörterbuchforschung ist dabei auch der Einsatz des Computers im lexikografischen Prozess. „In diesem Sinne kann die Wörterbuchforschung als die Gesamtheit aller, im Schrifttum nachweisbaren, wissenschaftlichen Bemühungen aufgefaßt werden, die darauf abzielen, diejenigen theoretischen, methodischen, terminologischen, historischen, dokumentarischen, didaktischen und kulturpädagogischen Fragen zu beantworten, die sich stellen“ u.a. „beim Einsatz des Computers in der Lexikographie und Wörterbuchforschung“ (ebd., S. 79). Sinn und Ziel dieser Unterteilung von Sprachlexikografie und Wörterbuchforschung ist bei Wiegand nicht die „unfruchtbare Aufteilung in Praktiker und Theoretiker“, sondern „die Unterscheidung zweier Arten von Tätigkeiten“ (ebd., S. 88). Die Abgrenzung dieser beiden Arten von Tätigkeiten nach Wiegand ist deshalb referiert, um das hier behandelte Thema den verschiedenen Bereichen zuordnen zu können. Zur Verortung und Eingrenzung des Themas dieser Arbeit 17 Einen großen Teil dieser Arbeit macht die Entwicklung eines Konzepts für die Modellierung einer lexikografischen Datenbasis aus, die nicht auf einen bestimmten lexikografischen Prozess bezogen ist, sondern auf möglichst viele konkrete lexikografische Prozesse anwendbar sein sollte. Dabei soll das Konzept so theoretisch fundiert sein, dass es nachvollziehbar wird. Die Entwicklung dieses Konzepts für eine Datenmodellierung ist daher der Wörterbuchforschung zuzurechnen, da sie nicht mit dem Ziel verbunden ist, ein konkretes Wörterbuch zu erarbeiten. Insofern ist die Arbeit auch als „Beitrag zur Neuordnung lexikographischer Theoriebildung unter Bezugnahme auf die Möglichkeiten des Rechnereinsatzes“ (Geeb 2001, S. 56) zu sehen. Da die Intention, die hinter der Entwicklung dieses Konzepts steht, die Verbesserung der lexikografischen Praxis ist, wird die Umsetzung dieses Konzepts an einem konkreten sprachlexikografischen Projekt illustriert. Diese Entwicklung einer Datenmodellierung in einem konkreten lexikografischen Prozess kann der Sprachlexikografie zugeordnet werden, denn sie ergänzt und ersetzt teilweise die früheren Instruktionsbücher und Arbeitsanweisungen. Zu Letzteren bemerkt Wiegand: Die Ergebnisse der lexikographischen Tätigkeiten werden zum lexikografischen Prozeß gerechnet, und zwar nicht nur die Endprodukte, die Wörterbücher, sondern auch - und dies gilt speziell für die wissenschaftliche Lexikographie - alle Teil- oder Zwischenergebnisse wie Arbeitsanweisungen, Instruktionen, Protokolle, Konzeptionspapiere, Probeartikel, Musterartikel, Korrekturunterlagen, Werkstattberichte usw., also alle jene Schriftstücke, in denen auch die selbstreflexive Komponente der Lexikographie als einer eigenständigen, kulturellen Praxis konkret faßbar wird. (Wiegand 1998a, S. 77) Nun ist z.B. die Modellierung einer Datenbank nicht ein Schriftstück wie eine Arbeitsanweisung, aber sie ist Teil eines konkreten lexikografischen Prozesses; ihre Entwicklung ist daher als lexikografische Tätigkeit aufzufassen. Der Werkstattbericht im sechsten Kapitel dieser Arbeit ist damit der Sprachlexikografie zuzuordnen, da es sich hier um den Bericht über Ausschnitte aus einem konkreten lexikografischen Prozess handelt. Das Thema dieser Arbeit ist damit sowohl ein metalexikografisches als auch ein lexikografisches: Einerseits die Entwicklung eines Konzepts für die Modellierung einer lexikografischen Datenbasis; andererseits die Anwendung dieses Konzeptes an einem konkreten Fallbeispiel. Das Modellierungskonzept soll dabei dazu dienen, Der lexikografische Prozess 18 - die Lexikografen im lexikografischen Prozess, d.h. bei der Datenerarbeitung und Dateneingabe zu unterstützen, - die so erarbeiteten lexikografischen Daten in innovativer Weise für Wörterbuchbenutzer im elektronischen Medium zugreifbar zu machen, und - den Weg offen zu halten, die so erarbeitete lexikografische Datenbasis in gedruckter Form präsentieren zu können. Um das Konzept zu entwickeln, werden zunächst im folgenden Kapitel einige terminologische und ordnende Überlegungen angestellt, die den Themenbereich dieser Arbeit betreffen, jedoch auch über ihn hinausweisen (vgl. auch Müller-Spitzer 2003). Sie sind deshalb notwendig, um eingrenzen und benennen zu können, welche Arten von elektronischen Nachschlagewerken hier Gegenstand der Betrachtung sind, um welche Arten von lexikografischen Prozessen es geht und welche Ebenen im lexikografischen Prozess im Rahmen dieser Arbeit unterschieden werden. Im vierten Kapitel werden in einem Forschungsüberblick Anforderungen an die Modellierung lexikografischer Daten aufgezeigt. Dieser Überblick soll zusätzlich zu den oben formulierten grundsätzlichen Zielen der Modellierung einer lexikografischen Datenbasis sehr viel detaillierter zusammentragen, was in diesem Zusammenhang von (Meta-)Lexikografen gefordert wird und welchen Ansprüchen damit das in dieser Arbeit entwickelte Konzept genügen muss. Im darauf folgenden Hauptkapitel 5 werden die Richtlinien für die XML-basierte Modellierung einer lexikografischen Datenbasis entwickelt. Wie dabei genau vorgegangen wird und wie die Gliederung des Hauptkapitels motiviert ist, wird am Anfang des Kapitels erläutert. In Kapitel 6 wird in einem Werkstattbericht exemplarisch gezeigt, wie dieses Konzept im Projekt elexiko des Instituts für Deutsche Sprache 3 umgesetzt worden ist. Ziel dieser Arbeit ist es damit, bekannte Forschungen aus dem Bereich der Printlexikografie mit neuen Verfahren und Techniken aus dem Bereich der XML-Modellierung zu einem eigenständigen, praxisorientierten und theoretisch fundierten Ansatz für ein Konzept der maßgeschneiderten Modellierung einer lexikografischen Datenbasis zusammenzubringen und dabei die Relevanz und Auswirkungen eines solchen Ansatzes für die und anhand der lexikografischen Praxis aufzuzeigen. Damit eng verbunden ist das Ziel, 3 Für Projektinformationen siehe www.elexiko.de (Stand: Februar 2007). Zur Verortung und Eingrenzung des Themas dieser Arbeit 19 Wege aufzuzeigen, wie bessere elektronische Wörterbücher hergestellt werden können, mit der zusätzlichen Möglichkeit, aus der dafür erarbeiteten Datenbasis auch ein gedrucktes Wörterbuch herzustellen. Die Arbeit bietet damit keine Analyse des Bestehenden, sondern entwickelt einen Leitfaden für eine Modellierung, die zu einer verbesserten lexikografischen Praxis unter Ausnutzung der heutigen technischen und medialen Bedingungen führen soll. 3. Ordnende Betrachtungen zu elektronischen Wörterbüchern und lexikografischen Prozessen Es gibt nichts rundum Zutreffendes, Eindeutiges und Stichhaltiges, das ich über mich sagen, gar ohne Wenn und Aber in einem einzigen Wort ausdrücken könnte. Ich unterscheide, dies ist das A und O meiner Logik. Michel de Montaigne, Essais 3.1 Zum Thema des Kapitels Wie eingangs schon gesagt, hat sich die Wörterbuchlandschaft durch das Hinzukommen des elektronischen Mediums in den letzten ein bis zwei Jahrzehnten massiv verändert. Waren es erst zaghafte Versuche, gedruckte Wörterbücher in sehr ähnlicher Form einfach elektronisch verfügbar zu machen, so steht dem heute eine sehr große Vielfalt an elektronischen Wörterbüchern, Wortschatzinformationssystemen - oder wie immer man sie auch bezeichnen mag - gegenüber. Das elektronische Medium spielt darüber hinaus an den verschiedensten Stellen im lexikografischen Prozess eine Rolle, ob bei der computerunterstützten Erarbeitung gedruckter Wörterbücher, bei der Datengewinnung aus elektronischen Textkorpora oder als Publikationsmedium bei elektronischen Wörterbüchern. Diese neuen Produkte stellen eine Herausforderung an die Wörterbuchforschung dar. Vor allem die Wörterbuchkritik hat hier ein stark erweitertes Feld vor sich und Fragen zu beantworten wie: Können Bewertungsmaßstäbe, die sich für gedruckte Wörterbücher herausgebildet haben, auf elektronische Wörterbücher übertragen werden? Und wenn dies gelten soll, gilt das für alle Arten elektronischer Wörterbücher? Oder wie soll man elektronische Nachschlagewerke klassifizieren, damit hier besser differenziert werden kann? Ist die automatische Gewinnung von Daten aus elektronischen Textkorpora als lexikografische Tätigkeit zu bezeichnen? Was ist mit der Verwendung lexikografischer Daten in der maschinellen Sprachverarbeitung? Gehört Letzteres auch zu Themen der Wörterbuchforschung? Gerade die letzte Frage ist auch für diese Arbeit wichtig. Denn es ist zu klären, inwiefern in dem hier zu entwickelnden Konzept für die Modellierung einer lexikografischen Datenbasis Belange der automatischen Sprachverarbeitung zu berücksichtigen und zu integrieren sind. Jedoch können und sollen auch die anderen Fragen in diesem Kapitel nicht außer acht gelassen werden. Dabei wird vor allem die Perspektive der möglichen Einordnung elektronischer Wörterbücher eingenommen. Der lexikografische Prozess 22 Die hier dargestellten Überlegungen gliedern sich in drei Themenbereiche mit unterschiedlicher Gewichtung: Abschnitt 2 des Kapitels beschäftigt sich mit der Unterscheidung von automatisch erstellten vs. menschlich bearbeiteten elektronischen Wörterbüchern und den Herausforderungen, die so entstehende Produkte u.a. an die Wörterbuchkritik stellen. Warum gerade diese Art der Wörterbucherarbeitung eine besondere Schwierigkeit für die metalexikografische Kritik darstellt, wird an einem vorangestellten Ausgangsbeispiel veranschaulicht. In diesem Zusammenhang wird auch der Versuch von terminologischen Klärungen in Bezug auf elektronische Wörterbücher unternommen, die für den weiteren Verlauf der Arbeit wichtig sind. Der zweite Themenbereich zeigt in einer Gesamtschau Arten lexikografischer Prozesse, wie sie heute in der Wörterbuchlandschaft vorzufinden sind. Auch hier wird ein Beispiel vorangestellt, welches veranschaulichen soll, wie heute lexikografische Prozesse aussehen können und in welche Richtung demnach ein Gesamtüberblick über Arten lexikografischer Prozesse erweitert werden muss. Daneben soll dieser Teil deutlich machen, für welche Arten lexikografischer Prozesse das Modellierungskonzept entwickelt wird. In Abschnitt 4 wird ein Thema herausgegriffen, welches besonders für den medienneutral konzipierten lexikografischen Prozess (zu diesem Terminus siehe 3.3) und den computerlexikografischen Prozess relevant ist: eine mögliche Sicht der Ebenen im lexikografischen Prozess. Dieser Abschnitt ist wiederum die Voraussetzung dafür, anschließend in Kapitel 4 zwei wichtige Vorgaben des hier entwickelten Modellierungskonzepts verdeutlichen zu können. Alle drei Themenbereiche bieten darüber hinaus Einordnungsmöglichkeiten für die Wörterbuchkritik. Dabei sind sie nicht für alle Arten elektronischer Wörterbücher gleichermaßen relevant. Um es deutlich herauszustellen: Es geht in diesem Kapitel insgesamt nicht um einzelne Kriterien, nach denen elektronische Wörterbücher bewertet werden können. Vorschläge dazu sind u.a. in Lehr (1996), Klosa (2001) und Engelberg/ Lemnitzer (2001, bes. S. 194ff.) genannt. Die hier entwickelten terminologischen Unterscheidungen verstehen sich als Ergänzung zu diesen Arbeiten in dem Sinne, dass ein elektronisches Wörterbuch - bevor es im Einzelnen bewertet wird - nach den hier zu entwickelnden Unterscheidungen eingeordnet werden kann. Insgesamt handelt es sich demnach um Betrachtungen, die helfen sollen, den neuen und sehr vielfältigen Gegenstandsbereich der elektronischen Wörterbücher und lexikografischer Prozesse aus verschiedenen Perspektiven zu ordnen. Ordnende Betrachtungen zu Wörterbüchern und Prozessen 23 3.2 Arten elektronischer Wörterbücher 3.2.1 Müller, Edelmüller und Sondermüller Die automatische Analyse elektronischer Textkorpora macht die Entwicklung ganz neuer Produkte möglich. Dies ist ein neuer Gegenstandsbereich für die Wörterbuchforschung, da die Möglichkeit, überhaupt solche wortschatzbezogenen Daten in der Weise automatisch erarbeiten zu können, durch die umfassende Anwendung des neuen Mediums bedingt ist. Hinzu kommt, dass durch das Internet eine sehr preiswerte Publikationsmöglichkeit zur Verfügung steht, die zudem eine sehr hohe Verbreitung garantiert. Dadurch kommen Produkte auf den Markt, die in der Weise oder in der Form nicht gedruckt worden wären. Welche neuen Fragen dies für die Wörterbuchkritik aufwerfen kann, soll am folgenden Beispiel, dem Projekt Deutscher Wortschatz der Universität Leipzig, 4 demonstriert werden. Es handelt sich nach Projektinformationen hierbei um ein „umfangreiches Vollformenwörterbuch des Deutschen“ (Quasthoff/ Wolff 1999, S. 1), in dem die typischen Inhalte und Funktionen unterschiedlicher Wörterbuch- und Lexikontypen [...] zur Verfügung stehen (Nachschlagen von Begriffen; Querverweise; morphologische, syntaktische, semantische und pragmatische Information, statistische Daten; Einarbeitung von Ontologien) und durch die zusätzlichen Möglichkeiten des elektronischen Mediums (automatische linguistische Analyseverfahren, Recherche, Hypertextualisierung, automatische Generierung unterschiedlich strukturierter Einträge, Visualisierung von Relationen zwischen Einträgen) ergänzt werden. (ebd.) Auf der Webseite wird das Produkt auch allgemein als ein „Nachschlagewerk für Wörter und ihren Gebrauch“ bezeichnet. 5 Interessiert man sich nun beispielsweise für seinen Nachnamen, so wie ich hier für „Müller“, so erhält man den in Abbildung 1 gezeigten Eintrag. Die Lemmatisierung von Eigennamen kann für allgemeine, einsprachige Wörterbücher als unüblich angesehen werden, so heißt es z.B. in der Einleitung zum Duden-Universalwörterbuch: „Personennamen“ wurden nur „aufgenommen, wenn sie als Appellativa (Gattungsbezeichnungen) [...] gebraucht werden, z.B. Casanova“ (DUW, S. 7). Diese Regel kann als gängige Praxis angesehen werden. Im Duden-Universalwörterbuch findet sich dementspre- 4 Siehe http: / / wortschatz.uni-leipzig.de/ (Stand: Februar 2007). 5 Siehe http: / / wortschatz.uni-leipzig.de/ html/ inhalt (Stand: Februar 2007). Der lexikografische Prozess 24 Abb. 1: Eintrag „Müller“ aus dem Wortschatz-Lexikon (Stand: 27. März 2003) chend auch unter „Müller“ nur die Erläuterung der Berufsbezeichnung (DUW, S. 1041). Das Wortschatz-Lexikon wird von den eigenen Mitarbeitern, wie oben zitiert, jedoch als „Vollformenwörterbuch“ bezeichnet; wobei anscheinend Eigennamen zu den Vollformen gerechnet werden. Wirklich überraschend wird es aber unter der Rubrik „Links zu anderen Wörtern“. Beispielsweise steht da zu „Müller“: „falls positiv bewertet: Obermüller, Sondermüller, [...] Edelmüller“. Verfolgt man diese Angabe und klickt z.B. auf „Edelmüller“, so erhält man den in Abbildung 2 gezeigten Eintrag. Als Sachgebiet für „Edelmüller“ wird „Nachname“ angegeben; das einzige Beispiel, was aufgeführt wird, stammt aus dem Telefonbuch, welches anscheinend in das Korpus aufgenommen wurde. Daneben sind „MÜLLER“ und „müller“ als separate Einträge im Wortschatz-Lexikon zu finden, wobei „müller“ auf die Grundform „müll“ zurückgeführt wird und als „signifikante Kookurrenzen“ „heiner“ und „traumtext“ aufgeführt sind. Ordnende Betrachtungen zu Wörterbüchern und Prozessen 25 Abb. 2: Eintrag „Edelmüller“ aus dem Wortschatz-Lexikon (Stand: 27. März 2003) Dieses einzeln herausgegriffene, bewusst strittige Beispiel soll in diesem Zusammenhang zeigen: Wollte man das Wortschatz-Lexikon rezensieren und würde ganz allgemein die Bewertungsmaßstäbe, die sich für gedruckte Wörterbücher etabliert haben, übertragen, 6 dann müsste diese Kritik verheerend ausfallen. Denn die Vernetzung, die oben gezeigt wurde, ist unter lexikografischen Gesichtspunkten nicht nachvollziehbar. Aber ist es überhaupt legitim, diese Anforderungen an das Wortschatz-Lexikon zu stellen? Dafür ist der Passus unter den jeweiligen Einträgen zu beachten. Dort heißt es: „Die Daten werden aus sorgfältig ausgewählten öffentlich zugänglichen Quellen automatisch erhoben [...].“ Es gilt also bei den Einträgen nicht - wie sonst üblich - zu fragen: Wie kommen die Lexikografen dazu, diese Angabe in der Form anzusetzen? Sondern vielmehr müssen die Fragen in folgende Richtung gehen: Mit welchen Analysemethoden werden die Textkorpora analysiert? Wie werden die Angaben im Detail automatisch erstellt? Wie ist 6 In diesem Sinne z.B. Engelberg/ Lemnitzer (2001, S. 194): „Auch für elektronische Wörterbücher gelten deshalb zunächst die Bewertungskriterien und -maßstäbe, die wir weiter oben für Printwörterbücher aufgezählt und kommentiert haben.“ Der lexikografische Prozess 26 das zu Grunde gelegte Textkorpus zusammengesetzt? Ist diese Zusammensetzung nachvollziehbar? Welche Ziele verfolgen die Projektverantwortlichen mit ihrem Produkt? etc. Die Fragen stimmen also zum großen Teil vom Ansatzpunkt nicht mit denen überein, die man üblicherweise bei einer Wörterbuchrezension stellt (vgl. z.B. Engelberg/ Lemnitzer 2001, S. 161ff.). Leider finden sich zu der Gewinnung der einzelnen Angaben auf der Webseite relativ wenig Hinweise, jedoch schreiben Wolff und Quasthoff: Die Angaben zu Flexion, Morphologie, Sachgebiet, Synonymie etc., die vor allem aus strukturierten Quellen wie Lexika und durch computerlinguistische Analyseprogramme ermittelt werden, sind der jeweiligen Grundform eines Wortes zugeordnet [...]. Momentan haben diese Angaben noch nicht überall die gewünschte Qualität, da sie teilweise mit automatischen Mitteln erzeugt wurden und bei der Anzahl der Einträge eine vollständige intellektuelle Überarbeitung nicht möglich ist. (Quasthoff/ Wolff 1999, S. 2) Aus diesem Grund sollte man natürlich auch vorsichtig mit der Behauptung sein, das Wortschatz-Lexikon erfülle die Funktionen eines üblichen Wörterbuchs, denn zu denen gehört - zumindest im Rahmen der wissenschaftlichen Lexikografie (vgl. Wiegand 1998a, S. 40ff.) - auch die Verantwortung für die Zuverlässigkeit der lexikografischen Daten (vgl. Wiegand 1997, S. 195). Doch allein vom Produkt her kann man den Anspruch an eine solche Zuverlässigkeit der Daten nicht stellen, da deutlich gekennzeichnet ist, dass die Daten rein automatisch erhoben sind und nicht intellektuell nachbearbeitet wurden. Hier scheinen also übliche Maßstäbe - wie sie sich für die (Print-)Lexikografie etabliert haben - nicht angemessen. Deshalb ist es notwendig, terminologische Unterscheidungsmöglichkeiten zu entwickeln, mit denen man deutlich machen kann, dass es sich beim Wortschatz-Lexikon um eine andere Art von elektronischem Nachschlagewerk handelt als beispielsweise bei einer elektronischen Version des „Großen Wörterbuchs zur deutschen Sprache“ aus dem Dudenverlag und dementsprechend auch andere Bewertungsmaßstäbe angelegt werden müssen. Solche begrifflichen Unterscheidungen bieten dabei selbst noch keine Bewertungsmöglichkeiten, sondern sollen mögliche Ordnungsvorstellungen liefern, nach denen dann Bewertungskriterien entwickelt oder schon entwickelte gruppiert werden können. Im Folgenden wird es daher um erweitertes ‘terminologisches Handwerkszeug’ für die Wörterbuchkritik gehen. Bevor die Form der Erarbeitung der lexikografischen Daten in eine mögliche Unterscheidung elektronischer Wörterbücher eingearbeitet wird, sollen nun zunächst kurz einige grundlegende Typologisierungsmöglichkeiten elektronischer Wörterbücher referiert werden. Ordnende Betrachtungen zu Wörterbüchern und Prozessen 27 3.2.2 Unterscheidungsmöglichkeiten elektronischer Wörterbücher: Bereits vorgelegte Typologien Die Bewertung und Einordnung elektronischer Wörterbücher ist für die Wörterbuchforschung ein neuer wichtiger Bereich. Den aktuellsten Vorschlag einer Typologie mit umfangreicher Zurkenntnisnahme der internationalen (meta-)lexikografischen Literatur bietet Schryver in seinem bereits einmal zitierten Aufsatz „Lexicographer's Dreams in the Electronic-Dictionary Age“ (Schryver 2003). Schryver konstatiert darin, dass die bisherigen Typologien für die heutige Variabilität elektronischer Wörterbücher nicht hinreichend seien. Er schlägt daher eine eigene dreistufige Typologie vor, die nach einer dreigliedrigen Grundfrage entwickelt ist: We would therefore like to suggest a typology based on one main, rigid criterion: the way in which dictionaries are accessed. More particularly, in designing this typology, we had one question in mind: ‘Who accesses what where? ’ The resulting three-step typology is thought to be flexible enough to cater for future innovations. (Schryver 2003, S. 147) Abb. 3: Dreistufige Typologie zur Einordnung elektronischer Wörterbücher nach Schryver (Schryver 2003, S. 150) Der lexikografische Prozess 28 In einem ersten Schritt wird demnach gefragt, wer auf das Wörterbuch zugreift. Hier bestehen nach dieser Typologie zwei grundsätzliche Möglichkeiten: Ein Mensch oder eine Maschine greift auf die Daten zu. 7 Der zweite Teil der Frage ist, worauf zugegriffen wird - „What is accessed? “ (Schryver 2003, S. 149) - d.h. wie das physikalische Objekt beschaffen ist. Im dritten Schritt wird dann geklärt, wie die Daten gespeichert sind, d.h.: „Where does one access the dictionary data? “ (ebd., S. 149). Diese Frage zielt damit auf den „type of storage“ (ebd.). Ein elektronisches Wörterbuch kann mit dieser Typologie nach vielen Aspekten klassifiziert und eingeordnet werden. Zusätzlich zu dieser Typologie kann nach Schryver eine von Lehr vorgeschlagene metalexikografische Bewertung vorgenommen werden: „In addition, for each of the EDs one could add what Lehr (1996) termed a ‘metalexicographic evaluation’.“ (Schryver 2003, S. 150). Dies soll kurz erläutert werden: Zur Eröffnung der neuen Lexicographica-Rubrik „Electronic Dictionaries“ wurde von Andrea Lehr die sinnvolle und für Rezensionen schon mehrfach angewandte Unterscheidung zwischen papierorientierten vs. innovativ gestalteten elektronischen Wörterbüchern getroffen: In (meta-)lexikographischer Hinsicht müssen wir zwischen elektronischen Wörterbüchern, die auf ein Papierwörterbuch zurückgehen und solchen, die Neuentwicklungen sind, unterscheiden. Erstere lassen sich außerdem danach subklassifizieren, ob sie eine wesentliche Veränderung bezüglich der Erscheinungsform ihrer Wörterbuchartikel erfahren haben oder nicht, und letztere danach, ob bei der Gestaltung der Wörterbuchartikel an traditionelle lexikographische Formen angeknüpft oder ob ein neuer Weg beschritten wurde - wir sprechen beide Male von papierorientierten vs. innovativen elektronischen Wörterbüchern. (Lehr 1996, S. 314) Diese Art der Bewertung kann daher als eine weitere Folie über die Typologie Schryvers gelegt werden. Genauso sollen die im Folgenden vorgestellten terminologischen Klärungen als eine Ergänzung zu der eben ausgeführten Typologie gesehen werden, da hier ein Aspekt aufgegriffen wird - nämlich die Art der Erarbeitung der lexikografischen Daten, der bisher noch nicht in Unterscheidungsmöglichkeiten 7 Schryver versteht damit unter einem „electronic dictionary“ sowohl ein Produkt für Menschen als auch für Maschinen, auch wenn er an einer Stelle sagt, dass „the term ‘ ED ’ will therefore stand for ‘human-oriented electronic dictionary’“ (Schryver 2003, S. 146). Dies unterscheidet sich von der hier vorgeschlagenen Auffassung, dass unter einem elektronischen Wörterbuch nur ein Produkt für Menschen verstanden werden soll (vgl. Abschnitt 3.2.3). Ordnende Betrachtungen zu Wörterbüchern und Prozessen 29 elektronischer Wörterbücher eingearbeitet ist. Um eine solche Unterscheidung in verschiedene Arten der Erarbeitung elektronischer (Sprach-) Nachschlagewerke vornehmen zu können, soll zunächst geklärt werden, was in diesem Untersuchungsrahmen unter einem elektronischen Wörterbuch verstanden werden soll und was nicht. 3.2.3 Was ist ein elektronisches Wörterbuch? Die Bezeichnung elektronisches Wörterbuch ist - allgemeinsprachlich formuliert - genau genommen nicht passend für den Bezugsgegenstand, da ein elektronischer Datenträger kein Buch ist. Die Übertragung der Bezeichnung Wörterbuch auf die Publikation lexikografischer Daten auf einem elektronischen Datenträger kann aber dann hilfreich sein, wenn damit auch bestimmte Eigenschaften des gedruckten Wörterbuchs auf das elektronische Wörterbuch übertragen werden können, d.h., wenn damit zur kommunikativ adäquaten Verwendung beigetragen wird. Dies ist dann gegeben, wenn die übertragenen Eigenschaften dem Bezugsgegenstand entsprechen. 8 Um genauer zu prüfen, inwiefern und auch für welche Art von elektronisch publizierten lexikografischen Daten die Bezeichnung elektronisches Wörterbuch sinnvoll ist, ist zunächst zu fragen, wie ein gedrucktes Sprachwörterbuch charakterisiert werden kann. Wiegand 9 definiert zunächst ein Nachschlagewerk: Def. 1: „Ein Nachschlagewerk ist ein Buch (hier verstanden als etwas Gedrucktes) mit wenigstens einer definierten äußeren Zugriffsstruktur, dessen genuiner Zweck darin besteht, daß ein potentieller Benutzer aus den lexikographischen Textdaten Informationen zum Gegenstandsbereich des Nachschlagewerkes gewinnen kann.“ (Wiegand 1998a, S. 58) 8 Vgl. zu Metaphern im Bereich einer neuen Technologie Freisler (1994, S. 33, Anm. 37); hier in Bezug auf Sprachmetaphern im Bereich Computer: „Weingarten weist mit Recht darauf hin, daß die enorme Vielfalt der Dialogmetaphern, die in bezug auf den Computer existieren, wohl am besten als Deutungsversuche betrachtet werden können, um eine neue Technologie dem alltäglichen und wissenschaftlichen Verstehenshorizont zugänglich zu machen. Es ist bekannt, daß solche Eingliederungsversuche bzw. die Subsumtion von Unbekanntem unter Vertrautes in einer ersten Phase meist mit Hilfe von metaphorischen Übertragungen vorgenommen werden.“ Insofern könnte auch die Benennung elektronischer Sprachnachschlagewerke als elektronische Wörterbücher eine Übergangserscheinung sein. 9 Die folgenden Überlegungen gehen im Wesentlichen von Wiegands Wörterbuchforschung (Wiegand 1998a) aus, da die Ausführungen dort meines Wissens die ausführlichsten und genauesten Überlegungen zu der Frage darstellen, was ein Sprachwörterbuch ist. Der lexikografische Prozess 30 Darauf aufbauend definiert Wiegand ein Sprachwörterbuch: Def. 2: „Ein Sprachwörterbuch ist ein Nachschlagewerk, dessen genuiner Zweck darin besteht, daß ein potentieller Benutzer aus den lexikographischen Textdaten Informationen zu sprachlichen Gegenständen gewinnen kann.“ (Wiegand 1998a, S. 58) Folgt man dieser Definition, ist der Terminus elektronisches Wörterbuch demnach nur dann für eine kommunikativ adäquate Verwendung im fachsprachlichen Kontext hilfreich, wenn die Definitionen Wiegands für gedruckte Nachschlagewerke und Sprachwörterbücher folgendermaßen auf die Definitionen für elektronische Nachschlagewerke und Wörterbücher übertragen werden können: Def. 3: Ein elektronisches Nachschlagewerk ist ein elektronisch verfügbares Werk mit wenigstens einer definierten äußeren Zugriffsstruktur, dessen genuiner Zweck darin besteht, dass ein potenzieller Benutzer aus den lexikografischen Textdaten Informationen zum Gegenstandsbereich des elektronischen Nachschlagewerkes gewinnen kann. Def. 4: Ein elektronisches Sprachwörterbuch ist ein elektronisches Nachschlagewerk, dessen genuiner Zweck darin besteht, dass ein potenzieller Benutzer aus den lexikografischen Textdaten Informationen zu sprachlichen Gegenständen gewinnen kann. Nun bezeichnet aber Wiegand z.B. auch Komponenten eines Sprachübersetzungssystems, welche als eine Art Wörterbuch fungieren, als Wörterbuch, genauer als Maschinenwörterbuch (Wiegand 1998a, S. 241), bei dem es entweder keine Benutzer gibt oder der Computer sozusagen der Benutzer ist. Ist es sinnvoll, auch in diesem Fall von einem Wörterbuch zu sprechen? Der Benutzer in den Definitionen 1-4 ist ein Handelnder, der „Informationen gewinnen“ kann; er muss daher ein Aktor mit kognitiven Fähigkeiten sein. Der Computer ist jedoch kein Aktor mit kognitiven Fähigkeiten, sondern eine Maschine, die vom Menschen dazu programmiert werden kann, Daten zu verarbeiten; ein Computer kann aus Daten keine Informationen gewinnen. 10 Davon ausgehend ist es meines Erachtens sinn- 10 Vgl. Wiegand (1998a, S. 171): „Menschen verarbeiten Daten zu Informationen und Informationen, über welche sie bereits verfügen, zu anderen Informationen; sie erarbeiten sich Informationen (und damit Kenntnisse von etwas) in Wahrnehmungs- und Denkprozessen, um sich in der Welt orientieren und insbesondere, um zielorientiert handeln zu können. Ordnende Betrachtungen zu Wörterbüchern und Prozessen 31 voll, elektronische Wörterbücher nur dann als Wörterbücher zu bezeichnen, wenn sie für einen menschlichen Benutzer gemacht sind. Nur dann können grundsätzliche Eigenschaften eines gedruckten Wörterbuchs sinnvoll auf ein elektronisches Wörterbuch übertragen werden. Ist der Computer als Benutzer gedacht, sollte besser von „lexikalischen Ressourcen für sprachtechnologische Produkte“ (Engelberg/ Lemnitzer 2001, S. 230) 11 gesprochen werden, z.B.: ein automatisches Übersetzungsprogramm basierend auf einer lexikalischen Ressource. Die Definitionen 1-4 sollten demnach dahingehend ergänzt werden, dass mit „potenziellem Benutzer“ immer ein Mensch gemeint ist. Dass damit die Verwendung des Terminus elektronisches Wörterbuch an die Verwendung des Terminus Wörterbuch in der printlexikografisch orientierten Wörterbuchforschung angelehnt werden soll, ist dabei nicht primär durch den angestrebten Anschluss an diese Forschungen motiviert. Vielmehr scheint mir diese Einengung deshalb angemessen, weil nur so grundsätzliche Eigenschaften und Kriterien, die Wörterbücher ausmachen und die über die Präsentation in verschiedenen Medien Bestand haben, sinnvoll übertragen werden können. Nun wurde der Terminus (elektronisches) Wörterbuch in seiner Verwendung dahingehend eingegrenzt, dass als Benutzer immer ein Mensch vorausgesetzt wird; d.h., dass es ein Produkt für Menschen ist. Das Beispiel aus dem Wortschatz-Lexikon hatte jedoch mehr zum Gegenstand, inwieweit die Daten von Menschen erarbeitet wurden. Letzteres soll in Abschnitt 3.2.5 in die Unterscheidung von automatisch erstellten vs. lexikografisch, d.h. menschlich bearbeiteten elektronischen Wörterbüchern aufgenommen werden. Zunächst wird jedoch ein alternativer Benennungsvorschlag für ein elektronisches Wörterbuch eingeführt. Wahrnehmungs- und Denkprozesse gelten daher als informationsverarbeitende, intraindividuelle Prozesse. Computer werden in Handlungszusammenhängen als handlungsunterstützendes Mittel zur Erreichung von Handlungszielen von Menschen derart eingesetzt, daß sie in datenverarbeitenden extraindividuellen Prozessen Daten zu anderen Daten verarbeiten. Da alle computerinternen Daten als Mengen von numerischen Zeichenexemplaren aufgefaßt werden können, sind datenverarbeitende niemals informationsverarbeitende Prozesse.“ 11 Engelberg/ Lemnitzer sprechen in diesem Zusammenhang neben der genannten Redeweise auch von „lexikalischen Komponenten sprachverarbeitender Systeme“ (Engelberg/ Lemnitzer 2001, S. 204). Der lexikografische Prozess 32 3.2.4 Elektronisches Wörterbuch - Wortschatzinformationssystem Wie anfangs dieses Kapitels herausgestellt, ist die Benennung elektronisches Wörterbuch genau genommen nicht passend, da mit dem bezeichneten Bezugsgegenstand kein Buch vorliegt. Im vorhergehenden Abschnitt wurde die Benennung von der Definition her jedoch so eingegrenzt, dass sie zumindest hilfreich für die kommunikativ adäquate Verwendung im fachsprachlichen Kontext sein kann. Trotz dieser Eingrenzung bleibt das oben genannte ‘Defizit’ bestehen. Aus diesem Grund soll hier eine mögliche alternative Benennung eingeführt werden. Wie könnte also ein wortschatzbezogenes elektronisches Nachschlagewerk genannt werden, wenn man die Bezeichnung Wörterbuch darin nicht verwenden will? Mein Vorschlag lautet: Als grundsätzliche Bezeichnung für sprachbezogene elektronische Nachschlagewerke soll Wortschatzinformationssystem dienen. Diese Benennung hat zwei wesentliche Vorteile: Sie bedient sich nicht der Buchmetapher und die Einordnung als Informationssystem kommt von der Bezeichnung her der neuen Art des Arbeitens mit einem elektronischem Sprachnachschlagewerk näher, da sie mehr Dynamik in der Datenabfrage vermuten lässt. Wichtig ist jedoch zu beachten, dass Informationssystem hier in dem Sinne gemeint ist, dass in einem solchen System Daten dargeboten sind, aus denen sich die Benutzer Informationen erschließen können. Durch die Sortierung sind die Daten zu potenzieller Information aufbereitet. Das Wortschatzinformationssystem enthält somit keine Informationen, es enthält nur Daten, die zu potenzieller Information aufbereitet sind. Das unterscheidet diese Daten z.B. von den Daten in den elektronischen Textkorpora. Demnach ist zunächst ein Informationssystem zu definieren: Def. 5: Ein Informationssystem ist eine elektronisch verfügbare Datensammlung mit wenigstens einer definierten äußeren Zugriffsstruktur, dessen genuiner Zweck darin besteht, dass ein potenzieller menschlicher Benutzer aus den zugreifbaren Daten Informationen zum Gegenstandsbereich des Informationssystems gewinnen kann. Ein Wortschatzinformationssystem ist darauf aufbauend folgendermaßen zu definieren: Def. 6: Ein Wortschatzinformationssystem ist ein Informationssystem, dessen genuiner Zweck darin besteht, dass ein potenzieller menschlicher Benutzer aus den zugreifbaren Daten Informationen zu sprachlichen Gegenständen gewinnen kann. Ordnende Betrachtungen zu Wörterbüchern und Prozessen 33 Der Terminus Wortschatzinformationssystem kann damit von seiner Definition her in der metalexikografischen Forschung synonym mit dem Terminus elektronisches Wörterbuch verwendet werden, auch wenn evtl. andere Konnotationen damit verbunden sind. Hier wird im Folgenden - vor allem in diesem Kapitel - meist die Benennung Wortschatzinformationssystem verwendet; sie könnte jedoch an allen Stellen durch elektronisches Wörterbuch ersetzt werden. Analog zu elektronischen Wörterbüchern können darüber hinaus auch nähere Einordnungen eines Wortschatzinformationssystems vorgenommen werden, z.B. ein allgemeines, einsprachiges Wortschatzinformationssystem oder ein zweisprachiges Wortschatzinformationssystem englischdeutsch/ deutsch-englisch. Alternative Bezeichnungen zu Wortschatzinformationssystem könnte ein zweigliedriger Ausdruck wie lexikografisches Informationssystem sein. Der Nachteil bei einem zweigliedrigen Ausdruck liegt jedoch darin, dass nähere Einordnungen hinsichtlich des inhaltlichen Typs vom Ausdruck her schwieriger sind, beispielsweise ein zweisprachiges lexikografisches Informationssystem deutsch-englisch. Es bleibt jedoch abzuwarten, welcher Ausdruck sich durchsetzen kann. 3.2.5 Automatisch erstellte vs. lexikografisch bearbeitete Wortschatzinformationssysteme Im Ausgangsbeispiel wurde die Frage aufgeworfen, ob und wie man Wortschatzinformationssysteme, deren Daten rein automatisch aus Textkorpora erhoben wurden, von solchen Wortschatzinformationssystemen unterscheiden kann, die von Lexikografen erarbeitet wurden. In dem in 3.2.1 genannten Beispiel spielen die Menschen im Erarbeitungsprozess zwar auch eine wichtige Rolle, aber eine andere Rolle als üblicherweise Lexikografen: nämlich vor allem in der Entwicklung der Korpusanalysemethoden und auch in der Zusammenstellung der zu Grunde gelegten Korpora. Der Unterschied zwischen rein automatisch erstellten vs. menschlich bearbeiteten Wortschatzinformationsssystemen ist, dass die automatisch gewonnenen Daten nicht von Lexikografen sortiert und bewertet werden. Dabei sind diese Formen der Datenerarbeitung keine sich gegenseitig ausschließenden Erarbeitungsformen. Im Gegenteil: Sie können sich aneinander anschließen oder sogar im Zuge der Erarbeitung in einem wechselseitigen Prozess immer wieder angewandt werden. Hier interessiert jedoch vordringlich nicht der Verlauf und die Phasen der automatischen oder automatisch unterstützten Erarbeitung von Wortschatzin- Der lexikografische Prozess 34 formationssystemen, sondern der Status der Daten in einem Wortschatzinformationssystem, wenn es publiziert, also z.B. im Internet der Öffentlichkeit zugänglich gemacht wird. Wortschatzinformationssysteme, die Ergebnis eines solchen automatisch unterstützten lexikografischen Prozesses 12 sind, können analog zu ihrer Datenbasis wie in Abbildung 4 gezeigt unterschieden werden. Abb. 4: Arten von Wortschatzinformationssystemen unterschieden nach ihrer Datenbasis „ “ bedeutet soviel wie: „wird aus dieser Datenbasis entwickelt“ Die Abbildung zeigt einen fiktiven Datenpool, der aus automatisch erstellten und lexikografisch bearbeiteten (Sprach-)Daten besteht. Die gepunktete Linie innerhalb der Datenbasis veranschaulicht die Trennung in automatisch erstellte und lexikografisch bearbeitete Daten. Aus diesem fiktiven Datenpool wird eine konkrete Datenbasis herausgegriffen, die jeweils durch eine breite Linie veranschaulicht wird; aus dieser konkreten Datenbasis wird ein Wortschatzinformationssystem entwickelt. Diese Wortschatzinformationssysteme können aufgrund der Art ihrer Datengrundlage unterschieden werden. Das erste Wortschatzinformationssystem besteht nur aus automatisch 12 Der automatisch unterstützte lexikografische Prozess ist dabei als eine Spezialform des computerlexikografischen oder des medienneutral konzipierten lexikografischen Prozesses anzusehen (zu dieser Gliederung siehe Abschnitt 3.3.3); es ist also eine spezielle Form, ein Wortschatzinformationssystem zu erstellen. Ordnende Betrachtungen zu Wörterbüchern und Prozessen 35 erstellten Daten, das zweite sowohl aus automatisch erstellten als auch aus lexikografisch bearbeiteten Daten und das Wortschatzinformationssystem 3 nur aus lexikografisch bearbeiteten Daten. Dieser fiktive Datenpool kann in einem konkreten Projekt von oben nach unten betrachtet den zeitlichen Verlauf dieses Projektes darstellen, wenn zunächst eine Menge automatisch erstellter Daten vorliegt, die dann sukzessive lexikografisch bearbeitet werden. Es ist aber auch ein Projekt denkbar, bei dem nur ein Wortschatzinformationssystem der ersten Art entsteht. Unter ‘lexikografischer Bearbeitung’ wird dabei hier jede Art der reflektierten menschlichen Bearbeitung der automatisch erstellten Daten verstanden, vom Überprüfen über das Umsortieren bis hin zum Kommentieren. Es ist also mit lexikografischer Bearbeitung nicht gesagt, dass das objektsprachliche Material durch Kommentierungen o.Ä. angereichert wird. 13 Die lexikografische Bearbeitung steht allein dafür, dass die Daten von Experten reflektiert gesichtet und überprüft wurden und darüber hinaus eventuell kommentiert sind. Das Wortschatz-Lexikon, so wie es oben gezeigt wurde, ist der ersten Art eines Wortschatzinformationssystems zuzuordnen, besteht also nur aus automatisch erstellten Daten. Manche Artikel des Wortschatz-Lexikons sind eventuell auch menschlich bearbeitet, allerdings ist dem Benutzer nicht ersichtlich, ob Angaben schon überprüft wurden oder nicht. Nach der einheitlichen Angabe unter den Einträgen im Wortschatz-Lexikon kann das Produkt als Ganzes nur der ersten Art zugeordnet werden. Wichtig ist festzuhalten: Diese verschiedenen Arten von Wortschatzinformationssystemen sollen nicht als qualitative Stufen verstanden werden, etwa im Sinne von: Ein Nachschlagewerk von der ersten Art ist ein schlechtes und dann wird es Stufe für Stufe besser. Innerhalb jeder dieser Arten kann es große graduelle Unterschiede in der Qualität geben. Sind z.B. bei einem zunächst automatisch erstellten Wortschatzinformationssystem schon das zu Grunde gelegte Textkorpus und vor allem die angewandten Analysemethoden nicht gut, dann kann an den Daten sehr viel bearbeitet werden, ohne dass das Produkt wirklich überzeugend wird. Was hier aber Gegenstand der Betrachtung ist und zu der 13 Eine menschliche Überprüfung von Daten und eine ggf. vorzunehmende Korrektur ist in ihrem Wert jedoch nicht zu unterschätzen. Vgl. dazu beispielsweise Bolter (1989, S. 132): „The computer makes visible what writers have always known: that the identifying and arranging of topics is itself an act of writing.“ (zitiert nach Freisler 1994, S. 42). Der lexikografische Prozess 36 vorgeschlagenen Aufteilung in drei Arten führt, ist eine Klassifikation nach dem Status der Daten im Wortschatzinformationssystem. Dieser ist in jeder dieser Arten unterschiedlich, ganz gleich, von welcher Qualität die Daten sind. Wortschatzinformationssysteme der ersten und zweiten Art können Phasen in einem Herstellungsprozess sein, in dem das Ziel verfolgt wird, ein Wortschatzinformationssystem zu erarbeiten, welches vollständig aus lexikografisch bearbeiteten Daten besteht. Wiegand sagt - für die Printlexikografie - zur Einordnung von Zwischenprodukten in einem lexikografischen Prozess: Es ist unbedingt zu beachten, daß erweiterte lexikographische Listen keine Wörterbücher sind, sondern Zwischenprodukte in einem computerunterstützten lexikographischen Prozeß, dessen Endprodukt ein gedrucktes Wörterbuch ist. (Wiegand 1998a, S. 199) Und um Zwischenprodukte nicht mit Endprodukten zu verwechseln, sollten Zwischenprodukte nicht mit „-wörterbuch“ oder „-lexikon“ bezeichnet werden, z.B. nicht „Maschinenwörterbuch“ (ebd., S. 201) für einen automatisch erstellten Index. Im vorliegenden Fall - beim Wortschatz-Lexikon der Universität Leipzig - ist es aber nicht richtig, dass jetzt im Internet zur Verfügung stehende Produkt als ein Zwischenprodukt anzusehen, denn es ist nicht die Intention der Projektverantwortlichen, alle Einträge von Menschen überprüfen oder sogar bearbeiten zu lassen. Sobald ein Wortschatzinformationssystem also publiziert wird, ist es als (vorläufiges) Endprodukt anzusehen. Trotzdem erfüllen die dort dargebotenen Einträge nicht die traditionellen Eigenschaften der Lexikografie, die medienübergreifend gelten können, wie: Lexikografie ist nicht nur die vermeintlich objektive Präsentation von sprachlichen Fakten, nicht nur interessenloses Zusammenstellen von Daten, sondern auch interessenverhaftetes Schreiben von Texten, damit geistige Verarbeitung von Daten zu neuen Informationen und damit Selektion. (ebd., S. 60) Auch wenn Daten, die mit komplexen Analysemethoden aus Korpora gewonnen werden und automatisch verknüpft werden können, in ihrem Wert nicht mit Listen verglichen werden können, und auch wenn diese Analyse nicht „interessenlos“ ist, so ist diese Form der Datenerarbeitung zunächst eine andere und die Menschen spielen darin eine andere Rolle, nämlich nur bis zur automatischen Erstellung der Daten, nicht in ihrer weiteren Bearbeitung. Allein die menschliche Bearbeitung der Daten soll daher explizit als lexikografische Bearbeitung gelten. Der gesamte Gegenstandsbereich der Lexikografie und auch der Wörterbuchforschung hat sich mit den neuen Möglichkeiten Ordnende Betrachtungen zu Wörterbüchern und Prozessen 37 der computerunterstützten oder computerlexikografischen Erarbeitung von lexikografischen Produkten allerdings erweitert. Gerade durch die Kostengünstigkeit der elektronischen Publikation von Daten und die Möglichkeit ihrer ständigen Aktualisierung kommen ganz neue lexikografische Produkte auf den Markt. Automatisch erstellte Wortschatzinformationssysteme sind damit auch Gegenstand der Wörterbuchforschung. Dies schon allein deshalb, weil man vermuten kann, dass die Benutzer dieser Gebrauchsgegenstände hier keine genuinen Unterschiede in den Produkten sehen, da der Zweck, weshalb solche Gebrauchsgegenstände erarbeitet werden, sich auf einer allgemeinen Ebene gleichen: nämlich, dass sie benutzt werden können, um aus den lexikografischen Textdaten Informationen über den jeweiligen Gegenstand des Sprachnachschlagewerkes zu gewinnen. 14 Insofern müssen sie in den Gegenstandsbereich der Wörterbuchkritik einbezogen werden. Die Eigenschaften von Lexikografie als eigenständiger kultureller und wissenschaftlicher Praxis (Wiegand 1998a, S. 41), so wie sie sich in der Printlexikografie entwickelt haben, sind zu großen Teilen jedoch nur auf lexikografisch bearbeitete Wortschatzinformationssysteme übertragbar. Rein automatisch erstellte Wortschatzinformationssysteme sollten daher deutlich davon abgegrenzt werden. Um es noch einmal herauszustellen: Für automatisch erstellte Wortschatzinformationssysteme bzw. automatisch erstellte elektronische Wörterbücher gilt meines Erachtens, dass sie dem Gegenstandsbereich der Lexikografie zuzuordnen sind, da sich die Ergebnisse hinsichtlich ihres grundsätzlichen Herstellungszweckes gleichen; auch ist hier anzuwenden, dass „Lexikografie aus menschlichen Handlungen und ihren Ergebnissen“ (ebd., S. 52) besteht, denn die Menschen spielen wie gesagt im Erarbeitungsprozess eine Rolle. Die Art dieser menschlichen Handlungen unter- 14 Konsequent vom Benutzer auszugehen, wird z.B. in der Funktionslehre von Bergenholtz und Tarp (z.B. Bergenholtz/ Tarp 2002; vgl. auch Wiegand 2001) gefordert. Die Benutzer werden das Wortschatz-Lexikon wie schon gesagt vermutlich prinzipiell genauso benutzen wie ein anderes Wortschatzinformationssystem, in dem die Daten lexikografisch bearbeitet sind. Für die Wörterbuchforschung scheint eine deutliche Unterscheidung aber dennoch notwendig zu sein. Und auch von Benutzerseite ist diese Unterscheidung zu motivieren: denn auch hier wäre es wichtig, bei jedem Eintrag transparent zu machen, ob es sich um von Menschen überprüfte Daten handelt oder nicht, da die Daten dadurch ein verschiedenes Maß an Verbindlichkeit haben. Außerdem unterscheidet sich die Vorgehensweise und die Rolle der Lexikografen, was auch für die moderne lexikografische Funktionslehre eine Rolle spielt. Ob und wie die hier getroffenen Unterscheidungen in diesem Zusammenhang relevant sind, muss jedoch noch geprüft werden. Der lexikografische Prozess 38 scheidet sich jedoch sehr stark von bisherigen lexikografischen Tätigkeiten und demnach unterscheiden sich auch die Maßstäbe, wie die Ergebnisse dieser Handlungen beurteilt werden können. Hier wird demnach die These vertreten, dass sich das Praxisfeld der Lexikografie mit den neuen Möglichkeiten des elektronischen Mediums erweitert hat und damit auch die dazugehörige Forschung einen erweiterten Gegenstandsbereich hat, dass diese Erweiterung jedoch erfordert, dass innerhalb dieses Praxis- und Forschungsfeldes deutliche Unterschiede gezogen werden. Es ist daher notwendig, den Wortschatzinformationssystemen, deren Daten nicht von Menschen bearbeitet wurden, eine Zusatzbezeichnung zu geben, die diesen Unterschied deutlich macht. Dies soll - wie hier schon praktiziert - über Attribute geschehen, die die einzelnen Formen von Wortschatzinformationssystemen spezifizieren. Aufgeteilt in die oben genannten Arten sieht das wie in Abbildung 5 gezeigt aus. Abb. 5: Arten von Wortschatzinformationssystemen unterschieden nach ihrer Datenbasis „ “ bedeutet soviel wie: „wird aus einer solchen Datenbasis entwickelt“ Diese verschiedenen Arten von Wortschatzinformationssystemen sind daher folgendermaßen zu definieren: Def. 7: Ein automatisch erstelltes Wortschatzinformationssystem ist ein Wortschatzinformationssystem, dessen zugreifbare Daten rein automatisch erstellt sind. Ordnende Betrachtungen zu Wörterbüchern und Prozessen 39 Def. 8: Ein semiautomatisch erstelltes Wortschatzinformationssystem ist ein Wortschatzinformationssystem, dessen zugreifbare Daten automatisch erstellt und teilweise menschlich bearbeitet sind. 15 Def. 9: Ein lexikografisches Wortschatzinformationssystem ist ein Wortschatzinformationssystem, dessen zugreifbare Daten lexikografisch bearbeitet sind. Ist die Datengrundlage eines lexikografisch bearbeiteten Wortschatzinformationssystems zunächst aus elektronischen Korpora automatisch erstellt, so könnte dieses beispielsweise als „zunächst automatisch erstelltes, vollständig lexikografisch bearbeitetes Wortschatzinformationssystem“ näher spezifiziert werden. Die Differenzierung in automatisch erstellte vs. lexikografisch bearbeitete Daten ist in den oben entwickelten Unterscheidungen auf der Ebene des gesamten Produktes angesetzt. Bei Wortschatzinformationssystemen, in denen die Daten automatisch erstellt und z.T. menschlich bearbeitet sind, also bei semiautomatisch erstellten Wortschatzinformationssystemen, muss diese Unterscheidung bei genauer Betrachtung auf einzelne Einträge und vielleicht sogar auf die Ebene einzelner Angaben bezogen werden. Sind beispielsweise Einträge zu einem Teil der Lemmastrecke rein automatisch erstellt, andere aber schon menschlich bearbeitet, dann kann für einen Teil des Wortschatzinformationssystems von einem automatisch erstellten, bei dem anderen von einem lexikografisch bearbeiteten Wortschatzinformationssystem gesprochen werden. Damit sind terminologische Grundunterscheidungen für Arten von Wortschatzinformationssystemen analog zu der Art ihrer Datenbasis getroffen und zugehörige Benennungen präzisiert. Dem Benutzer eines Wortschatzinformationssystems sollte jederzeit transparent sein, welchen Status die Daten haben, die er vor sich hat und wie verlässlich die Angaben daher sind. Und auch um ein elektronisches Sprachnachschlagewerk zu beurteilen, sollte dies 15 Man kann in den meisten Fällen davon ausgehen, dass in semiautomatisch erstellten Wortschatzinformationssystemen die Daten zunächst grundsätzlich automatisch erstellt werden und diese dann im Zuge der lexikografischen Bearbeitung z.T. überprüft, korrigiert und ggf. ergänzt werden und nicht, dass ein Teil der Daten automatisch erstellt und ein anderer Teil der Daten ganz ohne automatische Unterstützung erstellt wird. Wäre Letzteres üblicher, wäre es deutlicher von einem teilweise automatisch erstellten, teilweise lexikografisch bearbeiteten Wortschatzinformationssystem zu sprechen. Der lexikografische Prozess 40 geklärt werden, da - wie oben schon mehrfach erwähnt - für verschiedene Arten von Wortschatzinformationssystemen jeweils andere Beurteilungsmaßstäbe herangezogen werden müssen. Dabei ist die Unterscheidung von Wortschatzinformationssystemen nach der Art ihrer Datenbasis eine von vielen möglichen Klassifizierungen, die für die Lexikografie und Wörterbuchforschung relevant sind. Die oben genannte Unterscheidung in Arten von Wortschatzinformationssystemen ist noch kein Bewertungsmaßstab für die Wörterbuchkritik. Die in den Abbildungen 4 und 5 dargestellte Verteilung in automatisch erstellte Daten einerseits und lexikografisch bearbeitete Daten andererseits kann jedoch eventuell operationalisiert werden in dem Sinne, dass man folgende These aufstellen kann: Je mehr Daten nicht menschlich bearbeitet sind, desto mehr spezielles Zusatzwissen ist von potenziellen Benutzern entsprechender Wortschatzinformationssysteme gefordert. Denn bei automatisch erstellten Daten muss der potenzielle Benutzer selbst in der Lage sein, in einer Benutzungssituation ‘Schrott’ auszusortieren, falsch zugeordnete Angaben als solche zu erkennen, etc. Veranschaulicht an einem Beispiel: Am Institut für Deutsche Sprache werden im Projekt Usuelle Wortverbindungen (siehe Steyer 2004) 16 über eine große Lemmastrecke mithilfe des Analysewerkzeuges Statistische Kollokationsanalyse und Clustering (Belica 1995) Kookkurrenzangaben automatisch erstellt, teilweise lexikografisch bearbeitet und daraus gewonnene feste usuelle Wortverbindungen in einzelnen Artikeln lexikografisch beschrieben. Für potenzielle Benutzer mit sprachwissenschaftlichem und insbesondere korpuslinguistischem Hintergrund kann es in einer Benutzungssituation, in der sie sich entweder über die Güte der automatischen Analysemethode informieren oder sich die Daten zur Entwicklung eines eigenen Kollokationsmodells anschauen wollen, sehr wünschenswert sein, mit den rein automatisch gewonnenen, ‘unverfälschten’ Daten zum Kookkurrenzverhalten einzelner Lemmata oder Wortformen arbeiten zu können. Hat ein potenzieller Benutzer dieses Hintergrundwissen nicht bzw. ein ganz anders geartetes Informationsbedürfnis - möchte sich z.B. ein nichtmuttersprachlicher Benutzer-in-actu schnell darüber informieren, was die Wortverbindung „Tacheles reden“ bedeutet -, dann ist es notwendig für ihn, dass die Daten lexikografisch beschrieben sind. Mit den rein automatisch gewonnenen Angaben wäre ihm in diesem Fall nicht geholfen. Ein 16 Siehe auch www.ids-mannheim.de/ lexik/ UsuelleWortverbindungen/ (Stand: Februar 2007). Ordnende Betrachtungen zu Wörterbüchern und Prozessen 41 weiteres Beispiel aus diesem Projekt, an dem demonstriert werden kann, dass nicht nur das eigene Verfassen von Angaben, sondern auch das menschlich reflektierte Kennzeichnen und Einordnen von automatisch gewonnenen Angaben schon einen Wert darstellt, ist Folgendes: Innerhalb des gesamten automatisch gewonnenen Kookkurrenzpotenzials zu einem Ausgangswort, d.h. bei allen Einheiten, die sich kohäsiv zum Ausgangswort verhalten, wird in Usuelle Wortverbindungen gekennzeichnet, welche Einheiten Basen bzw. Kollokatoren im Hausmannschen Sinne sind (vgl. u.a. Hausmann 2004). Besonders nichtmuttersprachliche Benutzer interessieren sich meist für diese sprachsystematisch gebundenen Einheiten, die sie zum Sprachenlernen elementar benötigen. So können sich solche Benutzer in einer Benutzungssituation, in der sie sich über die Kollokatoren der Basis „Hund“ informieren wollen, aus dem gesamten Kookkurrenzpotenzial zu „Hund“, in denen auch solche Partner wie „Auto“, „Herr“ oder „Pawlow“ zu finden sind, die für sie in dieser Benutzungssituation relevanten Partner wie „beißen“, „bellen“ oder „ausführen“ gesondert anzeigen lassen. Nach der oben genannten These können also bestimmte Suchanfragen nicht erfolgreich beantwortet werden, wenn Daten wie in einem automatisch erstellten Wortschatzinformationssystem den potenziellen Benutzern roh und unbearbeitet zur Verfügung gestellt werden. Ein automatisch erstelltes Wortschatzinformationssystem, welches nach außen nicht deutlich als solches etikettiert ist und das darüber hinaus den potenziellen Benutzern die Daten ohne weitere Erklärung zur Verfügung stellt, kann demnach problematisch sein. Ob bzw. inwiefern diese These zutrifft oder inwiefern sie nützlich für die Wörterbuchkritik sein kann, ist jedoch nur in empirischen Tests zu erforschen. Für den weiteren Verlauf der Arbeit ist festzuhalten: Das Konzept für die Modellierung einer lexikografischen Datenbasis zielt auf die Herstellung von (elektronischen) Wörterbüchern, d.h. auf Produkte für menschliche Benutzer, und kann erst dann in vollem Umfang zur Anwendung kommen, wenn die Daten lexikografisch bearbeitet werden. Einige Grundprinzipien oder Teile des Modellierungskonzepts können zwar auch schon bei automatisch erstellten Daten zur Anwendung kommen, grundsätzlich setzen die hier vorzustellenden Richtlinien aber eine menschliche Bearbeitung der Daten voraus. Nun soll - wie eingangs in diesem Kapitel angekündigt - die Perspektive geändert werden und es sollen Arten lexikografischer Prozesse in der Gesamtschau Gegenstand der Betrachtung sein. Der lexikografische Prozess 42 3.3 Arten von lexikografischen Prozessen 3.3.1 All in one: Die Duden-Ontologie An dem nun folgenden Beispiel soll gezeigt werden, wie lexikografische Prozesse heute aussehen können. Daher bietet es sich an, eine neuartige Form der Wörterbucherarbeitung anzuführen, die eine besondere Herausforderung bezüglich der Einbindung in eine Klassifikation lexikografischer Prozesse darstellt. Ein solches Beispiel ist das Projekt der „Duden ontology“ (Alexa et al. 2002). Die Wörterbücher aus dem Dudenverlag sind sicherlich die bekanntesten in Deutschland. Schon früh hat man im Bibliographischen Institut den Computer zur Unterstützung im lexikografischen Prozess eingesetzt. Auch die ersten elektronischen Wörterbücher kamen recht früh auf den Markt. Als vorrangig wurden jedoch - und werden auch heute noch - die gedruckten Versionen der Wörterbücher gesehen, vor allem aus Gründen der Wirtschaftlichkeit (vgl. Klosa 2001, S. 98). Seit einiger Zeit werden im Dudenverlag jedoch auch sprachtechnologische Produkte, z.B. Rechtschreibkorrekturprogramme entwickelt. Um diese verschiedenen Herstellungsprozesse und vor allem die teilweise gleichen Daten, die in verschiedenen Produkten verwendet werden, besser einheitlich pflegen zu können, will der Verlag einen für die gängige Praxis sehr innovativen Weg beschreiten. Alle Daten für die verschiedenen Wörterbücher sollen perspektivisch in einem Datenpool vorgehalten werden, aus dem die verschiedenen Wörterbücher in gedruckter und elektronischer Form wie auch sprachtechnologische Produkte entwickelt werden sollen; diese Datenbasis wird als „Duden ontology“ bezeichnet (Alexa et al. 2002). Als Basis aller Produkte dient also eine Datenbasis, in der alle Daten gepflegt werden. Dies ist eine sehr neuartige Form eines lexikografischen Prozesses, da hier aus einer Datenbasis unterschiedliche Wörterbuchtypen - z.B. ein Rechtschreibwörterbuch oder ein Bedeutungswörterbuch - als auch Wörterbücher auf unterschiedlichen Medien wie auch sprachtechnologische Produkte entwickelt werden. Es versteht sich von selbst, dass diese Form eines lexikografischen Prozesses erst mit der weiten Verbreitung und Anwendung des elektronischen Mediums in der Lexikografie denkbar wurde. Von daher ist es spannend, wie dieses Beispiel in eine Übersicht von Arten lexikografischer Prozesse einzubauen ist. Dafür soll zunächst von der Übersicht zu lexikografischen Prozessen, so wie sie in Wiegands Wörterbuchforschung dargestellt ist, ausgegangen werden; denn die dortigen Ausführungen sind meiner Meinung nach die ausführlichsten zu diesem Thema. Ordnende Betrachtungen zu Wörterbüchern und Prozessen 43 3.3.2 Arten von lexikografischen Prozessen nach H.E. Wiegand Bei Wiegand werden im Rahmen der wissenschaftlichen Lexikografie zunächst lexikografische Prozesse ohne Computereinsatz von denen mit Computereinsatz unterschieden. Die lexikografischen Prozesse mit Computereinsatz werden wiederum unterteilt in computerunterstützte lexikografische Prozesse mit dem Ziel des gedruckten Wörterbuchs und computerlexikografische Prozesse mit dem Ziel des elektronischen Wörterbuchs. 17 Neben vielen anderen Unterschieden in den letztgenannten Arten von Prozessen führt Wiegand als wesentlichen Unterschied die unterschiedliche fachliche Ausbildung der beteiligten Personen an, die den jeweiligen Prozess hauptsächlich steuern: Während im computerunterstützten lexikographischen Prozeß neben den Lexikographen ein Informatiker benötigt wird, wird im computerlexikographischen Prozeß neben Informatikern und Computerlinguisten ein Lexikograph benötigt bzw. jemand, der lexikographische und metalexikographische Kenntnisse besitzt. (Wiegand 1998a, S. 244) Diese Feststellung Wiegands ist für ihn der Grund, die beiden Arten von Prozessen dem Gegenstandsbereich verschiedener wissenschaftlicher Disziplinen zuzuordnen: Die Tatsache, dass die beiden Arten von lexikographischen Prozessen jeweils überwiegend von Wissenschaftlern in Gang gehalten werden, welche eine unterschiedliche akademische Ausbildung erfahren haben, ist der erste deutliche Hinweis darauf, daß es angebracht ist, die computerlexikographischen Prozesse nicht zum Gegenstandsbereich der Wörterbuchforschung zu rechnen. [...] Die computerlexikographischen Prozesse gehören meines Erachtens daher zu einer anderen, eigenständigen wissenschaftlichen Praxis, der Computerlexikographie. Der Metabereich zu dieser Praxis wäre ein Forschungsfeld, welches Computerlexikologie heißen könnte. (ebd., S. 244f.) Die Meinung Wiegands, dass im computerlexikografischen Prozess wenig lexikografische Kompetenz benötigt wird, lässt sich nur dann nachvollziehen, wenn man annimmt, dass die meisten computerlexikografischen Prozesse auf schon vorhandene lexikografische Daten aus einem computerunterstützten lexikografischen Prozess zurückgreifen. Denn wenn in einem computerlexikografischen Prozess lexikografische Daten neu erarbeitet wür- 17 Siehe Wiegand (1998a, S. 242, Abbildung 1-43). Zu lexikografischen Prozessen allgemein siehe Wiegand (ebd., S. 38ff.). Zur Erläuterung der Herstellung von Wörterbüchern siehe auch Engelberg/ Lemnitzer (2001, S. 197ff.). Der lexikografische Prozess 44 den, wäre dort genauso viel lexikografische Kompetenz nötig wie im computerunterstützten lexikografischen Prozess. Dass der computerunterstützte Prozess i.d.R. als abgeschlossen vorausgesetzt wird, zeigt sich auch daran, dass Wiegand die Wiederverwendung der Satzbänder eines Printwörterbuchs in einem computerlexikografischen Prozess sowohl für die maschinelle Weiterverarbeitung als auch für die Überführung in ein PC-Wörterbuch als mögliche Nahtstellen betrachtet, an denen die beiden Arten von lexikografischen Prozessen in fruchtbarer Weise zusammenwirken können (Wiegand 1998a, S. 245). In beiden Arten der Weiterverwendung ist die inhaltliche lexikografische Arbeit schon im Zuge der Erarbeitung des gedruckten Wörterbuchs getan; für die weitere Verwendung werden laut Wiegand lediglich lexikografische und metalexikografische Kenntnisse benötigt, um die Daten angemessen zu verstehen, damit sie dann adäquat weiterverwendet werden können. Die strikte Trennung des computerunterstützten lexikografischen Prozesses vom computerlexikografischen Prozess geht also i.d.R. von einem abgeschlossenen computerunterstützten lexikografischen Prozess aus, an den sich ein computerlexikografischer Prozess anschließen kann. Schematisch kann dieser von Wiegand dargestellte Zusammenhang folgendermaßen veranschaulicht werden: Abb. 6: Veranschaulichung zum möglichen Zusammenwirken computerunterstützter lexikografischer Prozesse und computerlexikografischer Prozesse nach H.E. Wiegand. „ “ bedeutet soviel wie „Ergebnisse werden übernommen für“ Kritisch anzumerken ist: Wiegand geht davon aus, dass unterschiedliche Publikationsmedien unterschiedliche Herstellungsprozesse bedingen; dies ist auch unbestritten. Diese Herstellungsprozesse werden jedoch darüber hinaus in unterschiedlichen Wissenschaften angesiedelt, obwohl die lexikografischen Daten, d.h. die Inhalte, sich gleichen können. Jedes Medium verlangt, um es sinnvoll einsetzen zu können, bestimmte Kenntnisse. Dass die Eigenschaften des Druckmediums in der Herstellung von Wörterbüchern von den Lexikografen mitgedacht werden, hat sich kulturell herausgebildet, obwohl die Setzerkunst und das gesamte Handwerk der Buchherstellung nicht im Praxisfeld der Lexikografie anzusiedeln sind. Das elektronische Medium ist gedrucktes Wörterbuch als Ergebnis eines computerunterstützten lexikografischen Prozesses elektronisches Wörterbuch als Ergebnis eines computerlexikografischen Prozesses Ordnende Betrachtungen zu Wörterbüchern und Prozessen 45 neu hinzugekommen. Seine Eigenschaften werden daher von Lexikografen heute oft noch nicht selbstverständlich mitgedacht. Dies muss sich erst in Form neuer Prozesse kulturell herausbilden. Dies ist jedoch meines Erachtens noch kein hinreichender Grund dafür, die Arbeiten rund um eine elektronische Publikation lexikografischer Daten in einen anderen Wissenschaftsbereich zu verlegen. Eine solche Darstellung verkennt die zentrale Rolle der lexikografischen Daten und damit auch die der Lexikografen. Außerdem haben viele Erfahrungen gezeigt, dass gerade diese strikte Trennung in diejenigen, die Wörterbücher erarbeiten, um sie in gedruckter Form zu publizieren und diejenigen, die diese dann elektronisch weiterverarbeiten, zu einer schlechten Qualität elektronischer Wörterbücher bzw. Wortschatzinformationssystemen 18 führen kann. Die Frage ist außerdem, ob diese scharfe Trennung zwischen computerunterstütztem lexikografischem Prozess und computerlexikografischem Prozess so noch sinnvoll Bestand haben kann, wenn aus einer Datenbasis in einem Prozess sowohl ein gedrucktes als auch ein elektronisches Wörterbuch entwickelt werden soll, wie es heute schon oft Realität in lexikografischen Projekten ist (s.o.). Diese strikte Trennung von computerunterstütztem lexikografischen Prozess und computerlexikografischem Prozess kommt bei Wiegand vor allem deshalb zu Stande, weil er die Eigenschaften des computerlexikografischen Prozesses überwiegend an den von ihm so genannten „Maschinenwörterbüchern“ festmacht, also an Wörterbüchern, die den Computer als ‘Benutzer’ haben. Unter Ergebnissen von computerlexikografischen Prozessen werden allerdings auch bei ihm alle Arten der Präsentation lexikografischer Daten auf elektronischen Datenträgern verstanden. Wie unter 3.2.3 ausgeführt wurde, sollen hier allerdings nur solche Produkte als Wörterbücher bezeichnet werden, die für einen menschlichen Benutzer entwickelt sind. „Maschinenwörterbücher“ sollen nicht mehr als Wörterbücher klassifiziert werden. In eine erweiterte Übersicht für lexikografische Prozesse muss demnach eingearbeitet werden, dass es Prozesse gibt, in denen elektronische Wörterbücher entstehen zusammen mit evtl. gleichzeitig zu entwickelnden lexikalischen Ressourcen sprachtechnologischer Produkte (i.S.v. Wiegands Maschinen- 18 Im Folgenden wird oft die Bezeichnung elektronisches Wörterbuch statt Wortschatzinformationssystem verwendet, um einen verständlicheren Anschluss an die bisherigen Forschungen über lexikografische Prozesse zu gewährleisten. Es gilt jedoch auch hier, dass die Bezeichnung elektronisches Wörterbuch immer durch Wortschatzinformationssystem ersetzt werden könnte. Der lexikografische Prozess 46 wörterbüchern) und dass es auch Prozesse gibt, in denen gleichzeitig ein gedrucktes und ein elektronisches Wörterbuch entsteht; und eventuell auch hier zusätzlich als ein Ergebnis lexikalische Ressourcen sprachtechnologischer Produkte entwickelt werden, so wie es am Beispiel der „Duden ontology“ gezeigt wurde. 3.3.3 Arten von lexikografischen Prozessen. Eine erweiterte Übersicht Es bleibt zunächst festzuhalten: Für eine sinnvolle Unterscheidung von lexikografischen Prozessen, auch gerade hinsichtlich ihrer Verankerung in wissenschaftlichen Disziplinen, ist es wichtig zu klären, ob die daraus entstehenden Produkte für einen menschlichen Benutzer entwickelt werden oder nicht. 19 Wenn Wörterbücher für einen menschlichen Benutzer gemacht werden, unterscheiden sich die Handlungen, die zu der Herstellung des Wörterbuchs vollzogen werden, nicht grundsätzlich - egal ob eine gedruckte oder eine elektronische Ausgabe publiziert werden soll. Dass vermehrter interdisziplinärer Austausch nötig ist und dass sich Anforderungen an die beteiligten Personen verändern, wenn elektronische Wörterbücher publiziert werden sollen, ist dabei unbestritten. 20 Wie oben schon gesagt wurde, muss in eine erweiterte Übersicht lexikografischer Prozesse eine neue Art eingeführt werden, nämlich ein lexikografischer Prozess, in dem gleichzeitig ein gedrucktes und elektronisches Wörterbuch 19 Mit der Unterscheidung von Mensch oder Computer als Benutzer belegt auch Angelika Storrer die oben genannten Termini anders als Wiegand: „Die computerunterstützte Lexikographie beschäftigt sich mit den Möglichkeiten, den lexikographischen Arbeitsprozeß in all seinen Phasen durch den Computer zu unterstützen. Endprodukt dieses Prozesses sind Wörterbücher für menschliche Benutzer, die als Buch oder mit „Neuen Medien“ vertrieben werden. [...] Die Computerlexikographie befaßt sich mit der Spezifikation lexikalischen Wissens für Systeme der maschinellen Sprachverarbeitung, z.B. Systeme zur Generierung gesprochener Sprache.“ (Storrer 1996, S. 240). Die andere Verwendung der gleichen Termini scheint jedoch zur Klärung hier nicht günstig. 20 Vgl. dazu auch Klosa (2001, S. 100): Sie konstatiert, dass Lexikografen in Zukunft mehr können müssen. „Sie müssen die Bereitschaft mitbringen, in elektronischen Redaktionssystemen die Daten noch konsistenter und penibler einzugeben, als das auf Papier nötig war, damit diese Daten für elektronische Publikationen geeignet sind. Und sie müssen bereit sein, sich gewisse technische und didaktische Kenntnisse anzueignen, damit sie mit Vertreter(inne)n anderer Disziplinen gute CD - ROM -Wörterbücher entwickeln können. Hier zeigt sich, dass sich die Lexikografie insgesamt in einer Phase des Umbruchs befindet. Der Bereich des elektronisches Publizierens entwickelt sich, und damit entwickeln sich auch die Anforderungen an diejenigen, die in diesem Bereich arbeiten.“ Ordnende Betrachtungen zu Wörterbüchern und Prozessen 47 bzw. ein Wortschatzinformationssystem entwickelt wird. Solche lexikografischen Prozesse sind damit medienneutral konzipiert. Diese Einordnung soll zunächst näher erläutert werden. Medienneutralität ist ein Schlagwort, welches immer häufiger verwendet wird in z.T. wenig sinnvollen Verbindungen, wie z.B. als ‘medienneutrales Publizieren’. Eine Publikation setzt immer ein Medium als Träger voraus und kann daher nicht medienneutral sein. Warum wird dieses Schlagwort in der Verbindung „medienneutrale Konzeption“ hier trotzdem verwendet? Das Adjektiv bezeichnet hier - so kurz wie kein anderes Wort oder eine Wortverbindung - eine bestimmte Form der Datenhaltung. Eine Form, die die grundlegende Eigenschaft hat, dass die Daten nicht untrennbar mit den Eigenschaften eines bestimmten Mediums verbunden sind, d.h. nicht an einem Medium ‘kleben’, sondern möglichst unabhängig davon sind. Medienneutrale Datenhaltung heißt damit, dass die Daten so aufbereitet sind, dass aus einer Datenbasis Publikationen in verschiedenen Medien entwickelt werden können. Dies impliziert, dass nicht zunächst eine Publikation in einem Medium abgeschlossen wird und dann - in Form einer Zweitverwertung - eine weitere Publikation in einem anderen Medium entwickelt wird, sondern dass zwei Publikationen in zwei verschiedenen Medien parallel entwickelt werden. Der Unterschied zum in Abbildung 6 dargestellten Zusammenwirken computerunterstützter und computerlexikografischer Prozesse ist hier, dass aus einer gemeinsamen lexikografischen Datenbasis sowohl ein gedrucktes wie ein elektronisches Wörterbuch entwickelt wird. Dies kann folgendermaßen veranschaulicht werden: Abb. 7: Veranschaulichung zur Funktion der Datenbasis bei einer gleichzeitigen Entwicklung eines gedruckten und eines elektronischen Wörterbuchs; 21 „ “ bedeutet soviel wie: „aus der Datenbasis wird entwickelt“ 21 Dies stellt das grundlegende Prinzip eines medienneutral konzipierten lexikografischen Prozesses dar. Genauer siehe Abbildung 9 in Abschnitt 3.4 unten. Der lexikografische Prozess 48 Mit medienneutraler Datenhaltung ist darüber hinaus meist der Anspruch verbunden, dass die Form der Datenaufbereitung möglichst auch bei künftigen Veränderungen in der Medienlandschaft ihre Gültigkeit behält. Sie darf sich also nicht an einzelnen Satzprogrammen, an speziellen elektronischen Datenträgern oder Publikationsmöglichkeiten wie CD-ROM oder Internet orientieren. Die medienneutrale Datenaufbereitung muss sich hingegen an einer Konstante orientieren, die unabhängig von den verschiedenen Medien Gültigkeit besitzt. Diese Konstante ist - so lautet hier die These - der inhaltliche Gehalt der Daten. Dies wird in Kapitel 5 weiter ausgeführt. Aufbauend auf 3.3.2 kann die Gliederung lexikografischer Prozesse nach Wiegand nun erweitert werden: Innerhalb der lexikografischen Prozesse mit Computereinsatz treten neben die computerunterstützten lexikografischen Prozesse mit dem Ziel des gedruckten Wörterbuchs und die computerlexikografischen Prozesse mit dem Ziel der Publikation oder Verarbeitung lexikografischer Daten auf elektronischen Datenträgern die medienneutral konzipierten lexikografischen Prozesse mit dem Ziel des gedruckten und elektronischen Wörterbuchs. Außerdem ist die gleichzeitige Verarbeitung der lexikografischen Daten als lexikalische Ressource in sprachtechnologischen Produkten zu integrieren. Nun ist es allerdings eine Illusion anzunehmen, Daten könnten völlig losgelöst von den Traditionen, die mit den Eigenschaften eines Mediums zusammenhängen, erarbeitet werden. Auch hier sind die Duden-Wörterbücher, so wie sie bisher entwickelt wurden, ein Beispiel: „Altough the majoritiy of the Duden dictionary data are in SGML format, the markup of each dictionary is strongly print orientied rather than content oriented.“ (Alexa et al. 2002, S. 1). In manchen Stellungnahmen klingt es allerdings, als sei dies ein triviales Problem; beispielsweise schreibt Petelenz zu Ausgaben in verschiedenen Medien, die auf einer Datengrundlage aufbauen: Derzeit noch vorrangiges Ziel ist jedoch oft eine Produktionsumgebung, die gleichermaßen die Herstellung einer Printversion ermöglicht. Liegen die Daten in der von mir skizzierten hochstrukturierten Form vor, ist dies ein untergeordnetes Problem, da Standard-Generatoren für die marktüblichen Paper- Engines bereits vorhanden sind. (Petelenz 1999, S. 59) So einfach ist die Sache jedoch in der Regel nicht. Die medienneutral konzipierten lexikografischen Prozesse werden daher nochmals unterschieden in Ordnende Betrachtungen zu Wörterbüchern und Prozessen 49 diejenigen, in denen vorrangig das gedruckte Wörterbuch geplant wurde und die, in denen vorrangig das elektronische Wörterbuch geplant wurde. Diese Unterscheidung innerhalb der medienneutral konzipierten lexikografischen Prozesse betrifft Form und Inhalt der lexikografischen Daten, nicht das Konzept der Datenaufbereitung. Dieses Konzept sollte deshalb immer noch klar unterschieden sein von der Datenaufbereitung lexikografischer Daten, die ausschließlich für die Publikation als gedrucktes oder als elektronisches Wörterbuch konzipiert sind. 22 Abb. 8: Erweiterte Übersicht zu Arten von lexikografischen Prozessen „ “ bedeutet soviel wie: „bilden ein Unterklasse von/ sind eine Oberklasse zu“ Die erweiterte Übersicht zu Arten lexikografischer Prozesse ist in Abbildung 8 gezeigt. Aus Platzgründen wurde es hier unterlassen, überall zum „elektroni- 22 Es ist zum jetzigen Zeitpunkt noch nicht möglich, den medienneutral konzipierten lexikografischen Prozess schon genau zu charakterisieren, wie Wiegand es fordert: „Es hängt viel davon ab, daß man die spezifisch lexikographischen Tätigkeiten genau charakterisiert, denn nur dann wird Sprachlexikographie lehrbar.“ (Wiegand 1998a, S. 47). Um das leisten zu können, muss diese Form des lexikografischen Prozesses zunächst in vielen Anwendungen in der Praxis näher untersucht werden. Der lexikografische Prozess 50 schen Wörterbuch“ das „Wortschatzinformationssystem“ 23 zu ergänzen. Außerdem handelt es sich an den Stellen, an denen in der Abbildung „Ziel: gedrucktes Wörterbuch“ steht, um eine verkürzte Redeweise. Ausführlich und korrekt müsste es heißen: „Ziel: lexikografische Datenbasis, die als gedrucktes Wörterbuch publiziert wird“. Dies gilt auch für alle anderen oben dargestellten Arten lexikografischer Prozesse. Als Ergebnis eines lexikografischen Prozesses wird hier also eine lexikografische Datenbasis vorausgesetzt. Warum diese Datenbasis vom publizierten Wörterbuch unterschieden wird, ist Thema des vierten Abschnitts dieses Kapitels. In der Forschungsliteratur werden anstelle von „lexikografische Datenbasis“ oft andere Bezeichnungen verwendet. Engelberg und Lemnitzer sprechen beim Ergebnis eines lexikografischen Prozesses z.B. von einer „lexikalischen Datenbank“ (Engelberg/ Lemnitzer 2001, S. 230) und auch von einer „lexikalischen Ressource“ (ebd., S. 197). 24 Meines Erachtens wird oft nicht von lexikografischen Daten gesprochen, um zu betonen, dass die Daten nicht in der wie früher für Printwörterbücher üblichen Form vorliegen oder vorliegen sollten, sondern dass die Datenaufbereitung sich vielmehr am Wörterbuchgegenstand ausrichtet oder ausrichten soll. Um dies, und auch um die Vernetzung der Daten und die verschiedenen Zugriffsmöglichkeiten zu betonen, wird daher oft von lexikalischen Daten, lexikologischer Strukturierung etc. gesprochen. So z.B. Knowles (1987, S. 25): „Der maschinenlesbare Text eines Wörterbuchs ist bei weitem keine lexikalische Datenbank, da die innere Struktur und das Netzwerk fehlen.“ In diese Richtung auch Storrer (2001, S. 61): die Beschreibung linguistischer Merkmale erfordere „ein höheres Maß an Formalisierung als die Erfassung entsprechender Merkmale im gedruckten Wörterbuch“; von daher könne man bei „umsichtiger Modellierung“ direkt eine lexikalische Datenbank aufbauen, aus denen dann Produkte für den menschlichen Benutzer genau- 23 Bei medienneutral konzipierten lexikografischen Prozessen wird es sich bei dem Ergebnisprodukt meist um ein lexikografisch bearbeitetes Wortschatzinformationssystem handeln. Bei computerlexikografischen Prozessen sind alle Arten von Wortschatzinformationssystemen als Ergebnis denkbar. 24 Sie sprechen allerdings z.T. auch von lexikografischen Datenbasen. So wie hier: „Zum einen werden mit der stärkeren Verbreitung des Mediums und damit steigenden Marktanteilen dieser Produkte lexikografische Datenbasen entstehen, die sowohl in eine Präsentation im Printmedium als auch für eine Präsentation im elektronischen Medium, unter jeweiliger Berücksichtigung der Möglichkeiten und Grenzen beider Medien, geeignet sind.“ (Engelberg/ Lemnitzer 2001, S. 194). Ordnende Betrachtungen zu Wörterbüchern und Prozessen 51 so „herausgegriffen und in jeweils adäquater Form präsentiert werden“ können wie Anwendungen für die maschinelle Sprachverarbeitung. Oder auch Gloning/ Welter (2001, S. 118): Das elektronische Wörterbuch als komplex strukturierte lexikologische Datenbasis kann sehr viel mehr sein: ein Abbild der komplexen Zusammenhänge im Wortschatz und ein Informationssystem für sehr unterschiedliche Benutzerinteressen. Was hier für die Datenaufbereitung in computerlexikografischen und medienneutral konzipierten lexikografischen Prozessen empfohlen wird, ist sicherlich richtig (siehe z.B. auch Schmidt/ Müller 2001). Meiner Ansicht nach spricht jedoch nichts dagegen - trotz einer Datenstrukturierung, die sich nicht an den Gegebenheiten eines einzelnen Mediums orientiert - von einer lexikografischen Datenbasis zu sprechen. Denn was in einer solchen Datenbasis meist Gegenstand der Datenmodellierung ist, ist der genuine Zweck der lexikografischen Angaben. Dieser ist unabhängig vom Publikationsmedium und ist in dieser expliziten Strukturierung auch hilfreich für die Entwicklung sprachtechnologischer Produkte. Der Unterschied zwischen primär rein lexikalischen Ressourcen und lexikografischen Datenbasen scheint mir deshalb noch nicht aufgehoben. Für den Mehrwortterminus lexikografische Datenbasis sprechen daher im Rahmen dieses Themas verschiedene Gründe: Das zweite Glied, die Datenbasis, ist eine passende Bezeichnung, da sie unspezifisch ist, was die Form der Datenhaltung betrifft. Die Bezeichnung Datenbank bezieht dagegen eine bestimmte Form der Speicherung mit ein. Das erste Glied des Mehrwortausdrucks - lexikografisch - betont erstens, dass es um lexikografische Prozesse geht, deren Ziel lexikografische Produkte sind, und ermöglicht zweitens die Abgrenzung dieser Prozesse gegen solche Projekte wie GermaNet oder WordNet, die als Ziel eine lexikalisch-semantische Datenbasis vor allem für sprachtechnologische Anwendungen entwickeln (vgl. Kunze/ Wagner 2001). Diese terminologische Entscheidung hat nichts damit zu tun, dass die lexikografische Datenbasis vielfältige lexikologisch motivierte Auszeichnungen enthält. Das Ziel soll nur klar herausgestellt werden: Primäres Ziel eines lexikografischen Prozesses ist es, Wörterbücher bzw. Wortschatzinformationssysteme als Gebrauchsgegenstände herzustellen. Aus solchen lexikografischen Datenbasen können - wie in Abbildung 8 gezeigt - auch lexikalische Ressourcen für die Anwendung in der natürlichen Sprachverarbeitung abgeleitet werden; dies ist jedoch nicht primäres Ziel lexikografischer Prozesse. Für das, was aus der Der lexikografische Prozess 52 lexikografischen Datenbasis für sprachtechnologische Produkte abgeleitet wird, ist die Bezeichnung der lexikalischen Ressource passend. Diese Unterscheidung zwischen primär rein lexikalischen Ressourcen und lexikografischen Datenbasen ist auch wichtig, um die Berührungspunkte zwischen Lexikografie und natürlicher Sprachverarbeitung klarer sehen zu können. Lexikografische Daten können dann gut in sprachtechnologischen Produkten verwendet werden, wenn ihre Angaben explizit strukturiert sind und so lexikalische Ressourcen daraus abgeleitet werden können. Das Zusammenwirken kann in dieser Weise sehr fruchtbar sein. 25 Insofern ist hier die Intention entscheidend, ob etwas als lexikografischer Prozess zu bezeichnen ist oder nicht. Ein Herstellungsprozess ist nur dann als lexikografischer Prozess zu bezeichnen, wenn das primäre Ziel die Erarbeitung einer lexikografischen Datenbasis ist, die als gedrucktes und/ oder elektronisches Wörterbuch bzw. als Wortschatzinformationssystem publiziert wird. Die Weiterverwendung der lexikografischen Datenbasis als lexikalische Ressource in sprachtechnologischen Produkten ist dabei eine zusätzliche Möglichkeit. 26 Die Entwicklung lexikalischer Ressourcen bzw. insgesamt die Entwicklung sprachtechnologischer Produkte ist dabei nicht Gegenstand der Sprachlexikografie und der Wörterbuchforschung: Hier trifft das zu, was Wiegand auf den gesamten computerlexikografischen Prozess bezogen hat, nämlich, dass die Anforderungen an beteiligte Personen in einem anderen Fachbereich liegen. Dieser ‘Zweig’ ist in Abbildung 8 daher in kursiver Schrift dargestellt. Trotzdem ist natürlich eine konstruktive Zusammenarbeit zwischen diesen beiden Bereichen - wie bereits herausgestellt - sehr wichtig und hilfreich. 25 Vgl. Kilgariff (2000, S. 107): „ NLP needs dictionaries, and dictionary-makers can use NLP to make better dictionaries, so there is a great potential for synergy between the two activities.“ Weiter (ebd., S. 110): „My purpose in saying this is not to put fear of redundancy in the hearts of lexicographers but to indicate how much more satisfactory their work will become when the tools at their disposal are so much powerful. The techniques tend to find many plausible hypotheses for how a word behaves in a corpus, but are unable to sort the weat from the the chaff, or evidently, to assign meanings to the patterns they find. The lexicographer's task is as before but with less drudgery.“ 26 Vgl. dazu in ähnlicher Weise Wiegand (1998a, S. 37): „Die Bedingung [dass von Sprachlexikografie gesprochen werden kann; Anm. d Verf.] dafür ist vielmehr die, daß Tätigkeiten ausgeführt wurden mit dem Ziel, ein Wörterbuch zu machen. Daher wird man die Sprachlexikographie als eine Praxis zu charakterisieren haben, die darauf ausgerichtet ist, dass Sprachnachschlagewerke entstehen. Auf die Intention kommt es an.“ Ordnende Betrachtungen zu Wörterbüchern und Prozessen 53 Nun kann man sich fragen, inwiefern diese Übersicht über Arten lexikografischer Prozesse unmittelbar für die Wörterbuchkritik relevant ist. Denn diese Übersicht dient nicht direkt der Einordnung z.B. verschiedener Arten von Wortschatzinformationssystemen, sondern hat allein zum Gegenstand, wie man lexikografische Herstellungsprozesse in einer Gesamtschau einordnen kann. Diese Einordnung kann jedoch trotzdem hilfreich für die Wörterbuchkritik sein. Ist ein Wörterbuch bzw. ein Wortschatzinformationssystem zu rezensieren, kann es zunächst einer Art von lexikografischem Prozess zugeordnet werden. An ein Wortschatzinformationssystem, welches Ergebnis eines computerlexikografischen Prozesses ist, sind z.B. andere Erwartungen zu richten als an ein Wortschatzinformationssystem, welches das Ergebnis eines medienneutral konzipierten lexikografischen Prozesses ist, in dem vorrangig ein Buch geplant wurde. Bei Letzterem restringiert schon die Art des Herstellungsprozesses die Möglichkeiten der Präsentation. So können also auch entlang dieser Einordnung schon entwickelte oder noch zu entwickelnde Kriterien zur Bewertung von Wortschatzinformationssystemen spezifisch zugeordnet werden. Für das Modellierungskonzept ist aus der obigen Abgrenzung Folgendes zu schließen: Die Belange der automatischen Sprachverarbeitung sind für diese Arbeit nur am Rande von Bedeutung. Im Sinne eines möglichen konstruktiven Zusammenwirkens an den Schnittstellen beider Bereiche und einer möglichen Weiterverarbeitung der lexikografischen Daten in der automatischen Sprachverarbeitung sollen diese Anforderungen zwar nicht ganz außer acht gelassen werden, doch da sie nicht zur Sprachlexikografie und Wörterbuchforschung gehören, sind sie kein zentraler Teil des zu entwickelnden Modellierungskonzeptes. Wie angekündigt beschäftigt sich der nun folgende dritte Bereich mit einem bestimmten Aspekt der Betrachtung von medienneutral konzipierten und computerlexikografischen Prozessen: eine Sicht auf Ebenen im lexikografischen Prozess. 3.4 Ebenen im lexikografischen Prozess In Abschnitt 3.2.2 wurde die Unterscheidung von Andrea Lehr zwischen papierorientierten vs. innovativ gestalteten elektronischen Wörterbüchern referiert (Lehr 1996). Anhand dieser Unterscheidung soll verdeutlicht werden, dass es sinnvoll ist, verschiedene Ebenen im lexikografischen Prozess differenziert zu betrachten. Der lexikografische Prozess 54 Hierfür sei ein fiktives elektronisches Wörterbuch gegeben, auf das diese Unterscheidung angewandt werden soll. Dieses elektronische Wörterbuch sei Ergebnis eines medienneutral konzipierten lexikografischen Prozesses, in dem vorrangig das Buch geplant wurde. Die Daten in den Wörterbuchartikeln im elektronischen Wörterbuch gleichen weitgehend denen im gedruckten Wörterbuch: Verdichtungen sind zum größten Teil nicht aufgelöst, Ausspracheangaben nach wie vor in Lautschrift und nicht als Tondatei u.v.m. Die Daten scheinen also weitgehend mit denen im gedruckten Wörterbuch übereinzustimmen. Das elektronische Wörterbuch ist daher als papierorientiert zu bezeichnen. Diese Einordnung scheint in anderer Hinsicht jedoch nicht angemessen, denn in der elektronischen Version des Wörterbuchs sind die Zugriffsmöglichkeiten auf die Wörterbuchartikel sehr vielfältig. Es kann gezielt in einzelnen Angaben des Wörterbuchartikels gesucht werden, beispielsweise nur in der Bedeutungsparaphrasenangabe, einzelne Teile der Mikrostruktur können vom Benutzer selektiv zur Anzeige ausgewählt werden etc. In dieser Hinsicht scheint das elektronische Wörterbuch also innovativ gestaltet, da es die Möglichkeiten des neuen Mediums nutzt. Dieses Beispiel soll demonstrieren, dass man zwischen der Ebene der Datengrundlage eines einzelnen Produkts vs. der Präsentationsebene dieses Produkts, nämlich dem eigentlichen Wörterbuch, unterscheiden sollte, so wie es in Abbildung 9 veranschaulicht wird. Abb. 9: Ebene der Datenbasis, des produktbezogenen Ausschnitts und des Produkts im lexikografischen Prozess; „ “ bedeutet soviel wie: „als Ausschnitt wird definiert“ „ “ bedeutet soviel wie: „als Produkt wird entwickelt“ Ordnende Betrachtungen zu Wörterbüchern und Prozessen 55 In Abbildung 9 27 wird die Ebene der Datenbasis, des produktbezogenen Ausschnitts und des Produkts an einem medienneutral konzipierten lexikografischen Prozess verdeutlicht, aus dem gleichzeitig eine lexikalische Ressource für sprachtechnologische Produkte abgeleitet wird. Letzteres ist aus oben genannten Gründen auch in dieser Abbildung grau dargestellt. Diese Unterscheidung der Ebenen des produktbezogenen Ausschnitts und der Präsentation der Daten im Wörterbuch ist deshalb hilfreich, weil sie der Wörterbuchkritik verschiedene Analyseebenen bereitstellt. Denn die Wörterbuchkritik kann so auf zwei Ebenen ansetzen: Auf der ersten Analyseebene können die produktbezogenen Ausschnitte PA 1 und PA 2 verglichen werden, d.h. welche Daten in den beiden Arten von Wörterbüchern enthalten sind. Folgende Vergleiche können z.B. vorgenommen werden: - Ist PA 1 gleich PA 2 ? - Ist PA 1 eine Teilmenge von PA 2 ? - Wenn PA 1 eine Teilmenge von PA 2 ist, welche Daten sind dann zusätzlich in PA 2 enthalten? Zum Beispiel könnte für das oben dargestellte fiktive Beispiel festgestellt werden, dass die produktbezogenen Ausschnitte, also die Datengrundlage für beide Versionen des Wörterbuchs sich gleichen, also PA 1 = PA 2 ist. Die zweite Analyseebene ist die der Präsentation der beiden Wörterbücher. Hier kann die Umsetzung der Daten in die Präsentation beurteilt werden, z.B.: Wie sind die Zugriffsmöglichkeiten auf die Daten? Können Angaben selektiv angezeigt werden? Kann der Benutzer selbst Notizen machen? So kann u.a. die von Lehr entwickelte Unterscheidung „papierorientiert vs. innovativ gestaltet“ getrennt auf beide Ebenen bezogen werden. Diese Unterscheidung der Ebenen der Datenbasis, des produktbezogenen Ausschnitts und des Produkts ist nicht nur für den medienneutral konzipierten lexikografischen Prozess, sondern auch für den computerlexikografischen relevant. Denn die produktbezogenen Ausschnitte können z.B. auch die Datengrundlagen von zwei verschiedenen elektronischen Wörterbüchern darstellen. 27 Zu dem grundsätzlichen Modell in einem anderen Projektzusammenhang siehe auch Schmidt/ Müller (2000). Der lexikografische Prozess 56 Die Differenzierung dieser Ebenen ist darüber hinaus sehr wichtig, um die Modellierung einer lexikografischen Datenbasis zu verorten und grundsätzliche Vorgaben deutlich zu machen: Die Modellierung wird für die Ebene der Datenbasis entwickelt; darin finden sich die entsprechend aufbereiteten Daten. Dabei soll hier - die Ebene der Datenbasis von der des Produkts strikt getrennt werden und - die Auszeichnung der Daten und dementsprechend das Modellierungskonzept so angelegt sein, dass die Daten so granular und flexibel ausgezeichnet sind, dass sie möglichst selektiv zugreifbar sind und daher auf der Ebene des Produktes möglichst viele Benutzungssituationen ‘bedient’ werden können. Diese grundsätzlichen Anforderungen werden ausführlicher in Kapitel 4 aufgenommen, in dem es um Grundannahmen zur Modellierung lexikografischer Daten geht. 3.5 Relevanz der getroffenen Unterscheidungen Zusammenfassend können nach diesen ordnenden Betrachtungen folgende Spezifizierungen für die Modellierung einer lexikografischen Datenbasis, so wie sie hier Thema ist, vorgenommen werden: Das Konzept bezieht sich auf die Modellierung von Daten, die lexikografisch bearbeitet werden und nicht allein automatisch gewonnen sind. Die Produkte, die aus den bearbeiteten Daten entwickelt werden, sind Produkte für menschliche Benutzer, d.h. Wörterbücher bzw. Wortschatzinformationssysteme. Da anfangs gesagt wurde, dass es in dieser Arbeit um die Erarbeitung elektronischer Wörterbücher und auch um die gleichzeitige Entwicklung von elektronischen und gedruckten Wörterbüchern geht, ist dieses Modellierungskonzept nach der Klassifikation von 3.3.3 für medienneutral konzipierte lexikografische Prozesse und computerlexikografische Prozesse relevant. Die Belange der automatischen Sprachverarbeitung gehören dabei nicht zur Wörterbuchforschung und werden daher nur im Sinne einer offenen Schnittstelle mitbehandelt. Die Modellierung findet außerdem auf der Ebene der Datenbasis statt, die von der Ebene der Daten für ein konkretes Produkt und dessen Präsentation getrennt werden muss. Wie zuvor schon gesagt, sollten diese ordnenden Betrachtungen zu Wortschatzinformationssystemen bzw. elektronischen Wörterbüchern auch hilfreich für die Wörterbuchkritik sein. Analog zur unterschiedlichen Breite des Ordnende Betrachtungen zu Wörterbüchern und Prozessen 57 Betrachtungsgegenstandes sind die hier aufgezeigten Themenbereiche unterschiedlich relevant für die Einordnung einzelner Wortschatzinformationssysteme. Die Praxis muss nun zeigen, inwiefern die hier getroffenen Unterscheidungen für die Gruppierung von Kriterienkatalogen zur Bewertung verschiedener Arten von Wortschatzinformationssystemen bzw. elektronischen Wörterbüchern fruchtbar angewandt werden können. 4. Anforderungen an die Modellierung lexikografischer Daten Consider a future device for individual use, which is a sort of mechanized private file and library. It needs a name, and, to coin one at random, ‘memex’ will do. A memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory. Vannevar Bush Träume oder visionäre Vorstellungen bezüglich des Einsatzes neuer Medien hat es bei jeder tiefgreifenden Medienveränderung gegeben; so auch bezogen auf elektronische Wörterbücher gegenüber Printwörterbüchern. Schryver stellt fest: „the most frequent collocate of ED is probably advantage“ (Schryver 2003, S. 152). Hier geht es jedoch nicht um die möglichen Vorteile von Wortschatzinformationssystemen und um die Wege, wie diese im Gesamten erreicht werden können, sondern nur um die Aspekte, die die Modellierung der lexikografischen Daten betreffen. In der Literatur werden diese Aspekte allerdings meist nicht unter dem Stichwort der Modellierung von lexikografischen Daten diskutiert, sondern eher im Zusammenhang mit der erwünschten Funktionalität von Wortschatzinformationssystemen. Einige dieser Funktionalitätsanforderungen implizieren jedoch eine bestimmte Form der Datenmodellierung und -aufbereitung. Sofern das so ist, werden diese in der Literatur genannten Anforderungen hier aufgeführt. Daneben werden Punkte aufgegriffen, die die Computerunterstützung im lexikografischen Prozess betreffen, insofern sich aus ihnen Rückschlüsse auf Anforderungen bezüglich der Datenmodellierung ziehen lassen. Genauso werden Aspekte genannt, die die Schnittstelle zwischen Sprachlexikografie und automatischer Sprachverarbeitung betreffen. Denn diese Schnittstelle wird zwar nicht weiterverfolgt, wie in Kapitel 3 herausgestellt wurde, aber sie sollte im Sinne eines konstruktiven Zusammenwirkens nicht ganz außer acht gelassen werden. Außerdem werden noch einige allgemeine Punkte bezüglich der Eigenschaften der Datenhaltung aufgeführt, die auch in der (meta-)lexikografischen Diskussion ein Thema sind. Die folgenden Überlegungen lassen sich daher in vier Teilbereiche gliedern: erwünschte Funktionalitäten von Wort- Der lexikografische Prozess 60 schatzinformationssystemen, aus denen sich Rückschlüsse auf die Anforderungen an die Modellierung lexikografischer Daten ziehen lassen, erwünschte Computerunterstützung im lexikografischen Prozess, aus der sich Rückschlüsse auf die Anforderungen an die Modellierung lexikografischer Daten ableiten lassen, Anforderungen an die Aufbereitung lexikografischer Daten, die zu einer guten Weiterverarbeitung in der maschinellen Sprachverarbeitung notwendig sind und weitere allgemeine Eigenschaften, denen eine Datenhaltung genügen soll. 4.1 Funktionalitäten von Wortschatzinformationssystemen The direction in which electronic lexicography is moving is exactly this: towards more content, more flexibility and customisation, more user-friendliness, better access and more connectivity with other sources of knowledge, lexicographic and beyond. (Sobkowiak 1999, S. 275; zitiert nach Schryver 2003, S. 188) Der wichtigste Punkt für die Datenmodellierung ist in diesem Zusammenhang sicherlich der Zugriff auf die lexikografischen Daten in Wortschatzinformationssystemen. Denn bei der Modellierung der Daten und einer entsprechenden Datenaufbereitung wird der Grundstein dafür gelegt, wie gezielt und genau auf diese Daten später zugegriffen werden kann. „What you mark is what you get“, so formulieren es Gloning/ Welter bezogen auf eine XMLbasierte Modellierung (Gloning/ Welter 2001, S. 128). Der Zugriff auf die lexikografischen Daten wird daher auch immer wieder als eine der wichtigsten Punkte aufgeführt, in denen sich Wortschatzinformationssysteme von gedruckten Wörterbüchern unterscheiden (sollten). „From a user's perspective, the most innovative aspect of EDs is probably the retrieval system“ (Schryver 2003, S. 146). Dabei geht es nicht allein um die Formulierung von bestimmten Suchanfragen, sondern auch um die flexible Präsentation der Suchergebnisse. Es gilt als nicht besonders benutzerfreundlich, im elektronischen Wörterbuch zwar flexible äußere Zugriffsstrukturen auf die Wörterbuchartikel zu bieten, aber als Ergebnis nach wie vor den gesamten Wörterbuchartikel zu zeigen. Denn damit reicht die Nachschlagehandlung - wie beim gedruckten Wörterbuch - bis zum Artikelanfang. Der Wörterbuchartikel selbst muss gelesen werden; der Lesevorgang wird bestenfalls durch Suchzonen erleichtert. 28 Der Bildschirm ist zum Lesen jedoch schlecht ge- 28 Zu Suchbereichsstrukturen siehe Bergenholtz/ Tarp/ Wiegand (1999). Anforderungen an die Modellierung lexikografischer Daten 61 eignet. Daher wird gefordert, abhängig von Benutzungssituationen aus einem Wörterbuchartikel nur die gesuchten Angaben anzeigen zu können. „It is one thing to be able to store ever more data, but another thing entirely to present just the data users want to response to a particular look-up.“ (Schryver 2003, S. 178). Ähnlich auch Klosa (2001, S. 97): Ein gutes CD - ROM -Wörterbuch lässt die Benutzer(innen) aus einer Fülle von Informationen diejenigen auswählen, die momentan für sie am wichtigsten sind, z.B. einmal die Orthographie eines Wortes, einmal seine Herkunft, seine Aussprache [...]. In diesem Sinne auch Engelberg/ Lemnitzer (2001, S. 224): Einzelne Segmente der Mikrostruktur von Wörterbuchartikeln sollten ausgeblendet werden können. Ist ein Benutzer zum Beispiel nie an Belegbeispielen interessiert, dann würde deren Anzeige ein überflüssiges Lesehindernis darstellen. Dem Benutzer müssen Mittel an die Hand gegeben werden, aus dem Informationsangebot die für ihn günstigste Mikrostruktur zusammenzustellen. Dies kann auch bedeuten, dass er die Reihenfolge der Textsegmente nach ihrer subjektiven Wichtigkeit verändern oder auch einzelne Segmente optisch besonders hervorheben können sollte. „Die Benutzerschnittstelle von digitalen Wörterbüchern“ sollte daher „an Typen von Benutzungssituationen adaptierbar sein.“ (Storrer 2001, S. 64; ähnlich auch Büchel/ Schröder 2001, S. 8; Thielen/ Breidt/ Feldweg 1998, S. 191 und Steindler 1995, S. 238). Dabei beziehen sich diese Forderungen sowohl auf äußere wie innere Zugriffsstrukturen. 29 Yet he [Knowles (1990); Anm. d. Verf.] foresaw the day when it would become possible to search all database fields, as a kind of Ali Baba's open sesame to both the left-hand fields (macrostructure) and the right-hand fields (microstructure). This, together with the opinion of filtered searches and the use of Boolean operators, has indeed become fairly standard today. (Schryver 2003, S. 175) Grundsätzlich mag diese Grundfunktionalität schon in die Praxis umgesetzt 30 worden sein, doch eine sehr flexible Kombination von inhaltlichen Kriterien, durch die ein potenzieller Benutzer auf eine Gruppe von Artikeln zugreifen kann, ist nach wie vor ein Desiderat. Engelberg/ Lemnitzer stellen daher bezüglich der „Präsentation eines ganzen Artikels im Kontext einer Gruppe von Artikeln, die alle einem Kriterium genügen (Wortfamilie, semantisches Feld etc.)“ fest: 29 Zu Zugriffsstrukturen allgemein siehe Wiegand (1988). 30 Vgl. auch die Übersicht bei Schryver (2003, S. 174 und 176f.). Der lexikografische Prozess 62 Dies würde eine große Variabilität der Makrostruktur bedeuten. Ein exaktes Suchziel würde in einem Kontext von Informationen angezeigt, die für die Suchabfrage ebenfalls relevant sein könnten, etwa als Formulierungsalternativen bei der Textproduktion. Dieses Modell flexibler Sichten auf die Daten scheint uns sehr benutzerfreundlich zu sein. Uns ist allerdings noch keine entsprechende Applikation [...] bekannt. (Engelberg/ Lemnitzer 2001, S. 223) Die Voraussetzungen für diese flexiblen Zugriffsmöglichkeiten müssen bei der Modellierung geschaffen werden. Lexikalische Daten können so modelliert werden, dass in Abhängigkeit von Nutzerinteressen und Nutzungssituationen die jeweils relevanten lexikografischen Angaben und Verweise herausgegriffen und in ästhetisch ansprechender Weise am Bildschirm dargestellt werden. (Storrer 2001, S. 53f.) In ähnlicher Weise auch Gloning/ Welter (2001, S. 118): Elektronische Datenbasen erlauben es nunmehr, auf einen Datenbestand, z.B. eine Wortschatzdokumentation, nach unterschiedlichen Kriterien zuzugreifen und dabei auch ganz unterschiedliche ‘Ansichten’ des Datenbestandes je nach Interesse und Fragestellungen von Benutzern hervorzubringen. Voraussetzung ist, dass die entsprechenden Informationen [...] in expliziter Weise im Datenbestand enthalten sind. Mit einer solchen Modellierung kann damit der Widerspruch zwischen der Multifunktionalität des Produkts und der monofunktionalen Nutzung dadurch aufgelöst werden, daß, entsprechende Strukturierung vorausgesetzt, der Wörterbuchbenutzer eine seiner Verwendung gerechte Sichtweise auf des Wörterbuchmaterial auswählen oder sogar selbst definieren kann. (Feldweg 1997, S. 112) Wie man aus diesen Stellungnahmen unabhängig von z.T. unterschiedlichen Terminologien herauslesen kann, wird eine deutliche Trennungslinie zwischen der lexikografischen Datenbasis und der Präsentationsebene eines Wortschatzinformationssystems gezogen. Die Datenbasis enthält Daten, die so strukturiert sein sollen, dass auf der Präsentationsebene eine spezifische Auswahl präsentiert werden soll. Genau dies wird als eine der wesentlichen Vorteile gesehen. Dazu z.B. Storrer (2001, S. 60): [Es wurde] bereits gezeigt, dass die zunächst nahe liegende Analogie von Wörterbuch und Hypertext einen zentralen Mehrwert des digitalen Mediums außer acht lässt: Die Art und Weise, wie Daten in einem Datenbank- oder Hypertextsystem strukturiert sind, muss nicht der Art und Weise entsprechen, wie diese Daten dem Benutzer am digitalen Lesegerät [...] präsentiert werden. Die Zielsetzung der Informationsmodellierung besteht vielmehr ge- Anforderungen an die Modellierung lexikografischer Daten 63 rade darin, Daten so zu strukturieren, dass aus ein und demselben Datenpool für verschiedene Anwendungszwecke und Nutzungskontexte die jeweils relevanten Informationen herausgegriffen und in geeigneter Weise präsentiert werden können. Voraussetzung für eine solche Modellierung ist dabei auch, dass die Funktionalitäten des Computers von Anfang an mitberücksichtigt werden. „Electronic Dictionaries would be most effective if they were designed from scratch with computer capabilities and computer search mechanisms in mind.“ (Nesi 2000, S. 140; zitiert nach Schryver 2003, S. 163). Das heißt in aller Regel auch, dass nicht allein ein bereits gedrucktes Wörterbuch ohne angestrebte Ergänzung oder Überarbeitung Ausgangspunkt der Überlegungen sein sollte. Hierin liegt einer der Gründe dafür, dass eine solche Modellierung und eine darauf aufbauende Entwicklung von Wortschatzinformationssystemen noch wenig in die Praxis umgesetzt ist. Denn gedruckte Wörterbücher sind nach wie vor vor allem für die kommerzielle Verlagslexikografie sehr viel wichtiger als elektronische Wörterbücher (vgl. Klosa 2001). Daher stellt auch Storrer zu der Umsetzung der oben genannten Zugriffsmöglichkeiten fest: Dass es sich bislang nur um Prototypen handelt, liegt weniger daran, dass nicht bekannt wäre, für welche usuellen Benutzungssituationen typischerweise welche Klassen von Angaben relevant werden. Die Ursache liegt vielmehr darin, dass eine kontextadaptive Präsentation lexikalischer Informationen eine linguistisch motivierte und feinkörnige Modellierung der lexikografischen Daten voraussetzt. Eine derartige Modellierung erfordert, wenn sie auf der Grundlage eines gedruckten Wörterbuchs erfolgt, einen relativ hohen Auf- und Nachbearbeitungsaufwand und lässt sich deshalb am schnellsten realisieren, wenn ein digitales Wörterbuch unabhängig von einer vorhandenen Printvorlage konzipiert werden kann. (Storrer 2001, S. 64) An dieser Stelle kann eine Definition von Geeb angeführt werden, die für diese Arbeit gut angewandt werden kann. Geeb unterscheidet Datenmodellierung von Datenstrukturierung: Def. 10: „Datenmodellierung sei verstanden als der Entwurf von (lexikografischen) Dateneinheiten und ihren funktionalen Beziehungen ohne Rücksichtnahme auf bereits bestehendes Datenmaterial. Datenmodellierung (in Datenbanken und in Auszeichnungssprachen) ermöglicht dabei einen erheblich höheren Freiheitsgrad als Datenstrukturierung.“ (Geeb 2001, S. 29) Der lexikografische Prozess 64 Def. 11: „Datenstrukturierung sei im Folgenden verstanden als die Tätigkeit, bei der eine Struktur auf bestehendem (lexikografischen) Material aufgesetzt wird. Hauptkennzeichen der Datenstrukturierung ist damit die Analyse bestehenden Datenmaterials und dann die folgende Erstellung von strukturellen Einheiten, die in einer Struktur funktional verbunden werden.“ (Geeb 2001, S. 29) Diese Festlegungen können weitgehend übernommen werden mit dem einzigen Unterschied, dass nicht nur die Datenstrukturierung, sondern auch die Datenmodellierung explizit als Tätigkeit definiert werden sollte. Insofern soll die erste Definition folgendermaßen modifiziert werden: Def. 12: Datenmodellierung sei im Folgenden verstanden als die Tätigkeit, bei der ein Entwurf von (lexikografischen) Dateneinheiten und ihren funktionalen Beziehungen ohne Rücksichtname auf bereits bestehendes Datenmaterial angefertigt wird. Datenmodellierung (in Datenbanken und in Auszeichnungssprachen) ermöglicht dabei einen erheblich höheren Freiheitsgrad als Datenstrukturierung. Damit ist deutlich gemacht, dass das hier zu entwickelnde Konzept für die Modellierung einer lexikografischen Datenbasis nicht von einer schon bestehenden Datenbasis ausgeht, denn dann wäre es nach den obigen Festlegungen als ein Konzept für die Strukturierung einer solchen Datenbasis zu bezeichnen. Insofern gehört auch die Diskussion um die Hypertextualisierung gedruckter Wörterbücher nicht zum Thema dieser Arbeit. 31 Nach der in Kapitel 3 entwickelten Unterscheidung von Ebenen im lexikografischen Prozess kann man den Aspekt des Zugriffs auf lexikografische Daten als Anforderung an die Modellierung folgendermaßen formulieren: Die Modellierung der lexikografischen Datenbasis und eine entsprechende Datenaufbereitung muss auf der Ebene der Datenbasis die Voraussetzung dafür schaffen, dass die lexikografischen Daten so granular und gezielt zugreifbar sind, dass eine Untermenge dieser lexikografischen Datenbasis als produktbezogener Ausschnitt für ein Wortschatzinformationssystem erstens überhaupt gezielt definiert werden kann und zweitens wiederum so als Produkt-Datenbasis für ein Wortschatzinformationssystem fungieren kann, dass auf der Ebene der Präsentation diese oben genannten flexiblen Zugriff- und Auswahlmöglichkeiten abhängig von Benutzungssituationen möglich sind. 31 Dazu siehe u.a. die entsprechenden Beiträge in Lemberg/ Schröder/ Storrer (Hg.) (2001), Kammerer (1998), Gloning/ Schlaps (1999) und Speer (1994). Anforderungen an die Modellierung lexikografischer Daten 65 Das heißt auch, dass sich die Modellierung an einer Konstante orientieren muss, die unabhängig von Präsentationsgesichtspunkten, von einzelnen Benutzungssituationen etc. ist. Genau in diesem Ansatz liegt ein wesentlicher Unterschied zu dem Ansatz, nach dem Geeb eine Auszeichnungssprache - leXeML- für lexikografische Anwendungen entwickelt hat (leXeML). Zunächst liegt ein grundlegender Unterschied darin, dass mit leXeML eine Standard-Modellierung angestrebt ist, deren grundlegendes Ziel mit Initiativen wie der der TEI (Text Encoding Initiative) zu vergleichen ist. Die grundlegende Intention der Auszeichnungssprachen im Namensraum leXeML [...] ist vergleichbar mit den drei von Burnard zur Text Encoding Initiative genannten Maximen: Wiederverwendbarkeit, Integrierbarkeit und Austauschbarkeit von Informationen. (Geeb 2001, S. 29; siehe dazu auch 5.2.1 und Schmidt/ Müller 2001, bes. S. 37ff.) Von daher liegt eine grundlegend andere Intention vor als bei dem hier entwickelten Konzept, sodass sich beides nur bedingt vergleichen lässt. Ein grundlegender inhaltlicher Unterschied ist aber zu benennen: Während in dieser Arbeit versucht wird, die lexikografischen Daten so zu modellieren, dass die Modellierung zunächst unabhängig von einer potenziellen Benutzungssituation ist, damit gerade für möglichst viele Benutzungssituationen Daten herausgegriffen werden können, ist gerade die Einbindung des Benutzers in die Modellierung das Ziel von leXeML. Ziel ist hier [...] die Modellierung noch nicht bestehender Daten auf der Grundlage einer Definition der Benutzer dieser Daten - und damit eine erwartete Diskursbedeutung auf der Ausdrucks- und auf der Inhaltsseite. (Geeb 2001, S. 35) Insofern ist bereits die Modellierung an die anvisierten Benutzergruppen gebunden, wie das folgende Beispiel zeigt: Wenn ein Lexem für mehrere Stufen der Benutzervoraussetzung (z.B. Laie und Fachmann eines benachbarten fachlichen Zusammenhangs) gelten soll und für beide dieselben Angaben zum Lexemwissen gemacht werden können, ist dies durch ein mehrfaches Auftreten des BprFx [Benutzerprofil in einem fachlichen Zusammenhang; Anm. d. Verf.] im Lx [Lexem; Anm. d. Verf.] gewährleistet. Wenn diese beiden Gruppen verschiedene Informationen zum Lx fordern, muss das Lx damit mehrfach kodiert werden, da der Grundstein der Lexeminformationen, die Bedeutungsangaben in Relation zum BprFx diese beiden Lexemangaben differenziert. (Geeb 2001, S. 43; zu dem zu Grunde gelegten Modell siehe Geeb 1998) Der lexikografische Prozess 66 Eine gewisse Redundanz ist daher nicht auszuschließen. Sicherlich sollten lexikografische Daten immer benutzerbezogen erarbeitet werden. Dies betrifft aber vor allem die inhaltlichen Entscheidungen, welche Daten erarbeitet werden und in welcher Form. Trotzdem muss diese Benutzergruppenbezogenheit nicht Grundlage der Modellierung werden, denn dann ist eine deutliche Trennung von lexikografischer Datenbasis und Präsentation nur bedingt möglich. Auch über die Modellierung der inhaltlichen und funktionalen Zusammenhänge der lexikografischen Daten auf Ebene der Datenbasis können die Daten für eine Präsentation benutzergruppen- und benutzungssituationsbezogen ausgewählt werden Welche Eigenschaften der lexikografischen Daten daher genau Gegenstand der Modellierung werden sollen, wird im Detail in Kapitel 5 ausgeführt. Neben dem Zugriff auf die lexikografischen Daten werden allerdings auch noch andere Punkte als erwünschte Funktionalitäten von Wortschatzinformationssystemen diskutiert, die für die Modellierung relevant sind. Eines ist die Integration verschiedener Medien in ein Wortschatzinformationssystem. Von lexikografischem Interesse sind [...] die Optionen zur mehrkanaligen Informationsvermittlung. Eine erste, vom Nutzwert aber bereits sehr wertvolle Anreicherung rein textbasierter Wörterbücher besteht darin, phonetische Umschriften um Audiodateien mit vertonten Ausspracheangaben zu ergänzen. [...] Vertonte Ausspracheangaben sind jedoch erst ein erster Schritt hin zu Wörterbüchern, die [...] Text-, Bild, Ton-, und Videoelemente nutzen, um die Verständlichkeit und Anschaulichkeit von Bedeutungserläuterungen zu verbessern. (Storrer 2001, S. 57) Weitere zahlreiche Beispiele für solche Forderungen in der Literatur und auch Beispiele für Umsetzungen nennt Schryver im Abschnitt „Dreams Revolving around Multimedia“ (Schryver 2003, S. 165ff.). Auch wenn für den sinnvollen Einsatz solcher multimedialer Mittel inhaltlich hier für die Lexikografie noch „erheblicher Forschungsbedarf“ (Storrer 2001, S. 66) besteht, bleibt für das Modellierungskonzept zu diesem Punkt festzuhalten: Es muss in dem Konzept für die Modellierung einer lexikografischen Datenbasis gewährleistet sein, dass medial unterschiedliche Daten in die Datenbasis integriert werden können. Ein weiterer Punkt, der auch für die Modellierung relevant ist, ist der Wunsch nach einer Verbindung zwischen den lexikografisch bearbeiteten Daten und dem zu Grunde gelegten Analysematerial, also die Anbindung bzw. Vernetzung zu externen Ressourcen wie Textkorpora. Zwar gilt die Feststellung Schryvers - Anforderungen an die Modellierung lexikografischer Daten 67 Far from being science fiction, electronic corpora have been used in lexicography for at least three decades, and no serious compiler would undertake a large dictionary project nowadays without having one (and preferably several) at hand. (Schryver 2003, S. 167) - mehr für den angloamerikanischen Raum, doch ist auch in der deutschen Wörterbuchlandschaft das grundsätzliche Quellen- und Belegprinzip ein zentrales Thema lexikografischer Arbeit. Lexikografen können und sollen sich bei der Erarbeitung von lexikografischen Angaben nicht vor allem auf ihre eigene Sprachkompetenz verlassen, sondern sich auf authentisches Sprachmaterial stützen. Dies wird nach verschiedenen Methoden und in unterschiedlichem Umfang getan (vgl. u.a. Steyer 2004). Bei gedruckten Wörterbüchern ist für den Benutzer jedoch „selbst im günstigen Fall“ nur „ein Bruchteil dieser Arbeit“ (Storrer 2001, S. 63), d.h. des zu Grunde gelegten Sprachmaterials, zu sehen. Bei elektronischen Wörterbüchern ist es dagegen möglich, die „Verbindung zwischen lexikografischen Beschreibungen und lexikografischen Quellen [...] für die Benutzer transparent und nachvollziehbar“ (ebd.) zu machen. Dies ist dann der Fall, wenn der Benutzer selbst in diesem zu Grunde gelegten Sprachmaterial recherchieren kann. Wie diese Funktionalität sinnvoll auszugestalten ist, kann hier nicht diskutiert werden. Festzuhalten ist jedoch, dass im Modellierungskonzept die mögliche Realisierung einer solchen Anbindung an externe Ressourcen vorgesehen werden muss. Das hier zu entwickelnde Modellierungskonzept soll - wie bereits gesagt - nicht ausschließlich auf die Erarbeitung von Wortschatzinformationssystemen ausgerichtet sein, sondern auch auf die gleichzeitige Publikation eines gedruckten und elektronischen Wörterbuchs aus einer lexikografischen Datenbasis. Dabei ist es bei gedruckten Wörterbüchern üblich und notwendig, die lexikografischen Daten stark zu verdichten, um Druckraum zu sparen. 32 Diese Verdichtung ist jedoch im elektronischen Medium nicht in dem Maße notwendig: Speicherplatz ist im digitalen Wörterbuch nicht annähernd so teuer wie Druckraum im gedruckten Wörterbuch. Viele Techniken der Textverdichtung, insbesondere die Textkomprimierung, die in der Printlexikografie notwendig und zum Teil auch sinnvoll waren, um auf möglichst wenig Platz möglichst viel lexikografische Information unterzubringen, werden im digitalen Medium überflüssig. (Lemberg/ Schröder/ Storrer 2001, S. 1; in ähnlichem Sinne Storrer 2001, S. 56f. und Schryver 2003, S. 182) 32 Zu Verdichtung allgemein siehe Wiegand (1998b). Der lexikografische Prozess 68 Da die korrekte Entschlüsselung stark verdichteter Wörterbuchartikel für manche Wörterbuchbenutzer eine schwierige Hürde darstellt und im elektronischen Medium keine Notwendigkeit besteht Platz zu sparen, sollten die lexikografischen Daten elektronisch daher möglichst unverdichtet präsentiert werden. Das heißt für die Modellierung in einem medienneutral konzipierten lexikografischen Prozess, dass hier die Voraussetzungen dafür geschaffen werden müssen, dass die gleichen lexikografischen Daten im gedruckten Medium verdichtet und elektronisch unverdichtet präsentiert werden können (genauer siehe Abschnitt 5.7.4). Damit sind die wesentlichen Anforderungen, die sich aus erwünschten Funktionalitäten von Wortschatzinformationssystemen für die Modellierung einer lexikografischen Datenbasis ableiten lassen, ausgeführt. Zusammengefasst sind es: - der flexible und möglichst gezielte Zugriff auf lexikografische Daten, - die Integration medial unterschiedlicher Daten in die Datenbasis, - die Anbindung der lexikografischen Daten an externe Ressourcen wie z.B. Textkorpora und - die Möglichkeit, dass in einem medienneutral konzipierten lexikografischen Prozess die gleichen Daten im gedruckten Wörterbuch verdichtet und im elektronischen Wörterbuch unverdichtet präsentiert werden können. 4.2 Unterstützung im lexikografischen Prozess Die Computertechnik verändert auch den lexikografischen Arbeitsprozess. Der Computereinsatz in der Wörterbuchwerkstatt erlaubt es bei entsprechender technischer Infrastruktur, Abläufe effizienter und flexibler zu gestalten und damit gerade umfangreiche Wörterbuchprojekte schneller, qualitätvoller und kostengünstiger abzuschließen. (Lemberg/ Schröder/ Storrer 2001, S. 2) Dabei sind auch hier flexible und gezielte Zugriffsmöglichkeiten auf die lexikografischen Daten für die Lexikografen ein wichtiger Punkt. Denn je besser man in dem bereits erarbeiteten Material suchen kann, desto besser lassen sich z.B. inhaltliche Inkonsistenzen vermeiden. Beispielsweise kann es für einen Lexikografen hilfreich sein, einen Überblick darüber zu bekommen, wo er überall das Hyperonym „Gebäude“ angesetzt hat. Auch können gezielte Querschnittsabfragen z.B. nach allen Artikeln, in denen zur Lemmazeichengestaltangabe eine orthografische Variante in alter Recht- Anforderungen an die Modellierung lexikografischer Daten 69 schreibung angegeben ist, einen besseren Überblick und bessere Korrekturmöglichkeiten verschaffen. Dabei arbeiten die Lexikografen - anders als die Wörterbuchbenutzer - direkt auf der lexikografischen Datenbasis. In einer Erweiterung zu Abbildung 9 kann das wie in nachfolgender Abbildung gezeigt veranschaulicht werden: Abb. 10: Ebene der Datenbasis, des produktbezogenen Ausschnitts und des Produkts im lexikografischen Prozess; ergänzt um Lexikografen und Wörterbuchbenutzer 33 „ “ bedeutet soviel wie: „als Ausschnitt wird definiert“ „ “ bedeutet soviel wie: „als Produkt wird entwickelt“ „ “ bedeutet soviel wie „interagieren mit“ Das lexikografische Team und die Wörterbuchbenutzer arbeiten also auf unterschiedlichen Datenbeständen. Dabei kann der produktbezogene Ausschnitt eines Wörterbuchs auch der lexikografischen Datenbasis gleichen, doch werden sicherlich meist interne Kommentare, noch nicht fertiggestelltes Material u.Ä. nicht zur Publikation freigegeben. Den produktbezogenen Ausschnitt kann man sich daher als einen virtuellen Ausschnitt aus der gesamten lexikografischen Datenbasis vorstellen. Er kann natürlich auch ein konkret auf einem Datenträger fixierter Datenbestand sein, wenn z.B. die Daten für ein gedrucktes Wörterbuch auf CD-ROM an eine Setzerei geliefert werden. 33 Der Teil der Abbildung, der den Zweig der Sprachtechnologie darstellt, ist hier aus oben genannten Gründen weggelassen. Lexikografische Datenbasis ( LD ) Produktbezogener Ausschnitt PA 1 aus LD elektronisches Wörterbuch gedrucktes Wörterbuch Produktbezogener Ausschnitt PA 2 aus LD Wörterbuchbenutzer Wörterbuchbenutzer Lexikografen Der lexikografische Prozess 70 Auch können die Funktionalitäten, mit denen ein Lexikograf auf das Material zugreifen kann, sich mit denen gleichen, die der Benutzer eines Wortschatzinformationssystems zur Verfügung hat. In der Praxis ist es jedoch meist so, dass die Lexikografen speziellere und umfangreichere Recherchemöglichkeiten haben. Deshalb ist es wichtig, sich die unterschiedlichen Ebenen, auf denen Lexikografen und Wörterbuchbenutzer mit dem Datenmaterial arbeiten, deutlich zu machen. Bei dem Konzept für die Modellierung einer lexikografischen Datenbasis muss den Bedürfnissen beider Personengruppen Rechnung getragen werden: denen des lexikografischen Teams und denen der potenziellen Wörterbuchbenutzer. Auf der Ebene der Datenbasis werden dabei wie gesagt schon die gesamten Voraussetzungen von Seiten der Modellierung und Aufbereitung dafür geschaffen, wie Lexikografen und später Wörterbuchbenutzer auf die Daten zugreifen können; hier muss sozusagen das sinnvolle Maximum an Datenauszeichnung angestrebt werden. Auf dem Weg aus der lexikografischen Datenbasis hin zum produktbezogenen Ausschnitt können davon nur Untermengen definiert werden, d.h., man kann einem Wörterbuchbenutzer z.B. nur weniger oder eingegrenzte Zugriffsmöglichkeiten geben. Als Anforderung an das Modellierungskonzept bleibt festzuhalten, dass auch für die Lexikografen ein flexibler und gezielter inhaltlicher Zugriff auf die lexikografischen Daten möglich sein sollte. Ein weiterer wichtiger Punkt im lexikografischen Prozess, aus dem Anforderungen an das Modellierungskonzept abgeleitet werden können, ist der vielfach formulierte Wunsch nach Unterstützung der Lexikografen in der formalen Einhaltung der Artikelstruktur. „Die Verantwortung für die Einhaltung des Artikelformats kann an ein Computerprogramm abgetreten werden. Bei anspruchsvollen Wörterbüchern bedeutet dies eine Entlastung für den Lexikographen.“ (Wiegand 1998a, S. 232). Traditionell werden Schreibanweisungen für die Artikelarbeit in Instruktionsbüchern oder Manuals festgehalten (Engelberg/ Lemnitzer 2001, S. 211). Das Problem in der lexikografischen Praxis ist jedoch oft, dass besonders eine komplexe Artikelstruktur ohne umfangreiche technische Unterstützung kaum einzuhalten ist. Konventionen, die die standardisierten Wörterbuchartikel erfüllen müssen, werden normalerweise in Instruktionsbüchern festgehalten. Das Einhalten dieser Konventionen wird manuell und oft nur stichprobenartig überprüft. In Anbetracht der hochkomplexen Textform ‘Wörterbuchartikel’ ist eine redaktionelle Betreuung eines Wörterbuchs mit mehr als 60000 Artikeln allerdings sehr schwierig und letztendlich sind inhaltliche und formale Mängel kaum auszuschließen. (Heyn 1992, S. 187) Anforderungen an die Modellierung lexikografischer Daten 71 Wiegand entwirft daher das Szenario eines „Mikrostrukturengenerators“ (Wiegand 1998a, S. 215), einem Programm, welches abhängig vom Lemmazeichentyp die entsprechende abstrakte hierarchische Mikrostruktur aufruft. Zu jeder der Mikrostrukturen gibt es genau ein Artikelformular, welches als Beschreibungsmuster für Wörterbuchartikel zu einem Lemmazeichen eines bestimmten Typs fungiert. [...] Ein Artikelformular ist eine linear geordnete Menge [...] von Artikelpositionen. (Wiegand 1998a, S. 216) Der Lexikograf gibt dabei nur „Vor-Angaben ein; das sind Angaben mit einer vorläufigen Angabeform.“ Auf ein konkretes Beispiel bezogen heißt es weiter: Die Setzung der beiden nichttypographischen Strukturanzeiger, also die Setzung des Kommas und des Semikolons, und damit den Übergang von der Vor-Angabe zur Angabe besorgt ein besonderes Programm automatisch, sodass absolute Konsistenz im Bereich der Klassen von Strukturanzeigern gewährleistet ist. (Wiegand 1998a, S. 217f.) Neben der Anforderung, die Lexikografen in der Einhaltung der Artikelstruktur zu unterstützen, ist hier ein zweites Desiderat formuliert: die lexikografischen Daten sollen ohne Strukturanzeiger 34 eingegeben werden; diese sollen für die Präsentation automatisch generiert werden können. Diese Unterstützungen können eine wesentliche Erleichterung für die lexikografische Arbeit darstellen. In diesem Sinne formuliert Heyn: Ein integrativer Bestandteil zukünftiger Instruktionsbücher muß eine formale Grammatik für Wörterbuchartikel im Sinne einer Dokumenttypdefinition sein, mit der für jeden Typ von Artikel festgehalten wird, wie die erlaubten Bausteine seiner Architektur aussehen können. Das legt dem Lexikographen nicht nur zusätzliche Fesseln an, sondern erleichtert im Gegenteil die Arbeit zur Konsistenzhaltung und erlaubt eine Konzentration auf die eigentliche deskriptive Arbeit. (Heyn 1992, S. 192) Zusammenfassend sind also hinsichtlich der Unterstützung im lexikografischen Prozess drei Anforderungen an die Modellierung festzuhalten, wobei die ersten beiden Punkte die zentralen Anforderungen bilden: - Für die lexikografische Arbeit sind gezielte und flexible Zugriffsmöglichkeiten auf die lexikografischen Daten wichtig. 34 Zu Strukturanzeigern siehe Wiegand (1989a, S. 428). Der lexikografische Prozess 72 - Die Modellierung und die entsprechende Dateneingabe sollte so sein, dass die Lexikografen in der Einhaltung des formalen Artikelformats unterstützt werden. - Die typografischen und nicht-typografischen Strukturanzeiger sollten nicht auf der Ebene der Datenbasis eingegeben werden müssen, sondern sollten für die Präsentation automatisch generiert werden können. 4.3 Schnittstelle zur automatischen Sprachverarbeitung Für die Schnittstelle zwischen Sprachlexikografie und der automatischen Sprachverarbeitung sind meines Erachtens zwei wesentliche Anforderungen an die Modellierung zu benennen. Zum einen ist auch hier wieder eine konsistente Strukturierung der lexikografischen Daten wichtig; zum anderen ist eine Form der Kodierung anzustreben, die - sehr allgemein formuliert - den inhaltlichen Gehalt der Daten explizit macht, sodass dieser für weitere Anwendungen genutzt werden kann. Bezüglich von Inkonsistenzen bei der Strukturierung der lexikografischen Daten bemerkt Heyn: Für den menschlichen Benutzer kann dies problematisch sein, falls Inkonsistenzen nicht durch die kognitiven Fähigkeiten des Menschen aufgedeckt und korrigiert werden können. Für die Belange einer Wiederverwendung der Informationen eines Wörterbuchs durch sprachverarbeitende Systeme ist dies problematisch, selbst wenn einige der Inkonsistenzen durch den Einsatz mehr oder weniger aufwendiger Methoden bei der Umsetzung behoben werden können. (Heyn 1992, S. 187) Diese Problematik gilt allerdings nicht nur für die Weiterverarbeitung in der automatischen Sprachverarbeitung, sondern auch für die Entwicklung von Wortschatzinformationssystemen. Denn auch hier ist eine konsistente Strukturierung der lexikografischen Daten Voraussetzung dafür, dass entsprechende Recherchemöglichkeiten erfolgreich entwickelt werden können. Bezüglich der Art der Kodierung wird in der entsprechenden Literatur gefordert, eine Modellierung so zu entwickeln, dass aus einer Datenbasis sowohl lexikografische Produkte wie auch sprachtechnologische Anwendungen entwickelt werden können. So z.B. im oben schon erwähnten Projekt der „Duden ontology“: We report on a data model developed for the representation of lexical knowledge for the Duden ontology. [...] Our general aim is to create an asset pool in which all the information present in the Duden dictionaries is integrated in Anforderungen an die Modellierung lexikografischer Daten 73 order to support reusability for different print and electronic products, provide solutions for language technology applications as well as support the efficient maintenance of the Duden dictionary data. (Alexa et al. 2002, S. 1) Auch Storrer stellt heraus, dass man bei „umsichtiger Modellierung“ direkt eine lexikalische Datenbank aufbauen“ kann, aus denen dann Produkte für den menschlichen Benutzer genauso „herausgegriffen und in jeweils adäquater Form präsentiert werden“ können wie Anwendungen für die maschinelle Sprachverarbeitung (Storrer 2001, S. 61). Eine solche Modellierung müsse sich an den linguistischen Merkmalen der Daten orientieren (ebd.). Dabei ist es meines Erachtens fraglich, ob eine solche benutzer- und produktorientierte Praxis wie die Sprachlexikografie nur durch eine entsprechende Modellierung gleichrangig die Bedürfnisse der automatischen Sprachverarbeitung abdecken kann, oder ob hier nicht doch Schwerpunktsetzungen vorgenommen werden müssen. Ziel des hier entwickelten Modellierungskonzepts sind - wie in Kapitel 3 begründet wurde - lexikografische Anwendungen. Deshalb wird zwar darauf einzugehen sein, inwiefern diese oben genannten Forderungen in dem hier entwickelten Modellierungskonzept Eingang finden, dies wird allerdings nicht im Detail geprüft und weiterverfolgt. Im Sinne einer konstruktiven Schnittstelle ist für das Modellierungskonzept festzuhalten: - Die Strukturierung der lexikografischen Daten sollte konsistent sein. - Die Modellierung sollte den ‘inhaltlichen Gehalt’ der lexikografischen Daten explizit machen. 4.4 Allgemeine Eigenschaften der Datenhaltung Neben den spezifischen aus der (meta-)lexikografischen Diskussion abzuleitenden Anforderungen an das Modellierungskonzept gilt es vor allem für die Auswahl der geeigneten Modellierungssprache und des davon abhängenden Datenformats, allgemeine Anforderungen von guter Datenhaltung zu berücksichtigen. Einen guten Überblick darüber, „welche Anforderungen an ein adäquates Kodierungssystem für strukturierte textuelle Information zu stellen sind“ (Büchel/ Schröder 2001, S. 9), bieten Büchel und Schröder. Sie halten dabei folgende sechs Anforderungen für wesentlich: Mächtigkeit, Eindeutigkeit, Interpretierbarkeit, Nachhaltigkeit, Portierbarkeit und Softwareunterstützung. Der lexikografische Prozess 74 Je nach Projekt wird man mit unterschiedlicher Gewichtung fordern, dass das gewählte Kodierungssystem hinreichend mächtig ist, die zu kodierenden Strukturen eindeutig repräsentiert, gut maschinell zu interpretieren ist, dass die Kodierung nachhaltigen Bestand hat und auf andere Computersysteme portierbar ist, ferner, dass benutzerfreundliche Werkzeuge zur Arbeit mit dem Kodierungssystem bereitstehen. (Büchel/ Schröder 2001, S. 9) Ohne auf diese einzelnen Punkte näher einzugehen (dazu siehe ebd., S. 9ff.), leuchtet es gerade für die wissenschaftliche Lexikografie unmittelbar ein, dass es wichtig ist, ein Kodierungssystem zu wählen, welches auf lange Sicht Bestand hat und auf andere Computersysteme zu übertragen ist, also möglichst eine nicht-proprietäre Datenhaltung ermöglicht. Denn gerade umfangreiche wissenschaftliche lexikografische Projekte entstehen oft über einen sehr langen Zeitraum, der die Lebensdauer einzelner proprietärer Systeme leicht übersteigt. Diese Schnelllebigkeit ist gerade eines der großen Probleme des Softwaremarktes und auch elektronischer Produkte, was bei gedruckten Wörterbüchern - abgesehen von den angewandten Satzprogrammen - weniger ein Thema war. „Wenn in Jahrzehnten niemand mehr weiß, was eine CD-ROM überhaupt ist, werden Menschen diese Bücher noch nutzen können - Konvertierung unnötig.“ (Schult 1999, S. 88). Diesem schnellen Wechsel muss daher in der Auswahl einer Modellierungssprache dahingehend Rechnung getragen werden, dass man ein Datenformat wählt, von dem eine möglichst lange Geltungsdauer zu erwarten ist. Vor diesem Hintergrund muss ein Kodierungsschema auch daraufhin untersucht werden, ob man berechtigterweise prognostizieren kann, dass es auch in einigen Jahrzehnten noch ohne großen Eigenaufwand zur Herstellung von Kompatibilität und ohne Informationsverlust zu verwenden ist. (Büchel/ Schröder 2001, S. 11) Auch ist es für die wissenschaftliche Lexikografie sicherlich sinnvoll, ein Kodierungssystem zu wählen, zu dem schon geeignete Software zur Dateneingabe auf dem Markt zur Verfügung steht. „Es ist für eine ergonomisch sinnvolle Erfassung der Daten wichtig, dass geeignete Softwarewerkzeuge, Spezialeditoren, zur Verfügung stehen.“ (ebd.). So sind die Projektbeteiligten unabhängiger vom Softwaremarkt, als wenn sie ein System von einem konkreten Anbieter einsetzen. Nach den Ausführungen der vorangegangenen Abschnitte ist diesen oben genannten Anforderungen in diesem Zusammenhang noch ein weiterer wichtiger Punkt hinzuzufügen: Die Modellierung muss die strikte Trennung Anforderungen an die Modellierung lexikografischer Daten 75 von Inhalt und Layout ermöglichen. Denn diese Möglichkeit gilt als eine der zentralen Voraussetzungen dafür, dass die Ebene der Datenbasis von der des Produkts klar getrennt werden kann. Außerdem müssen die Daten in einem Format vorliegen, aus denen sowohl ein gedrucktes Wörterbuch als auch ein ‘mediengerechtes’ Wortschatzinformationssystem entwickelt werden kann. Denn das Modellierungskonzept soll nicht nur für computerlexikografische Prozesse (mit dem Ziel eines Produkts für menschliche Benutzer), sondern auch für medienneutral konzipierte lexikografische Prozesse Geltung haben. Darüber hinaus sollten die Modellierungssprache und die entsprechende Datenauszeichnung so passend für die Anwendung im lexikografischen Prozess sein, dass nicht das technisch Notwendige inhaltliche Entscheidungen determiniert, sondern dass die inhaltlichen Bedürfnisse die technischen Aspekte dominieren können. Nur so kann eine qualitative Verbesserung der lexikografischen Praxis erreicht werden (vgl. auch Wiegand 1998a, S. 234f.). Zusammengefasst lauten daher die Anforderungen an die Modellierung aus diesem Abschnitt: - Das Kodierungssystem muss hinreichend mächtig sein, eine eindeutige Kodierung ermöglichen, gut maschinell interpretierbar sein, eine nachhaltige Datenhaltung gewährleisten, auf andere Systeme portierbar sein und eine gute Softwareunterstützung bieten. - Die Modellierungssprache muss die strikte Trennung von Inhalt und Layout ermöglichen. - Das Datenformat muss die Präsentation der Daten in gedruckter und elektronischer Form erlauben. - Das Kodierungssystem muss so passend sein, dass das technisch Mögliche i.d.R. keine inhaltlichen Entscheidungen determiniert. In diesem Kapitel sind damit zahlreiche Anforderungen zusammengestellt worden, an denen das Konzept für die Modellierung einer lexikografischen Datenbasis gemessen werden kann. Ausgehend vom letzten Abschnitt dieses Kapitels ist nun zunächst zu prüfen, ob XML (und verwandte Standards) die geeigneten Auszeichnungssprachen für dieses Modellierungskonzept sind. 5. Die XML -basierte Modellierung einer lexikografischen Datenbasis Mit dem Begriff der Abzählbarkeit lassen sich einige interessante Folgerungen über die Mächtigkeit von Computern schließen. Da Computerprogramme endliche Folgen eines Alphabets wie ASCII sind, können sie als Wörter über diesem Alphabet aufgefasst werden. Unter dieser Betrachtungsweise ist die Menge der Computerprogramme eine Sprache über dem Alphabet ASCII . Wir haben gesehen, dass Sprachen immer abzählbar sind, folglich gibt es nur abzählbar viele Computerprogramme. Da jedes Computerprogramm in gewissem Sinne ein Problem löst, können also nur abzählbar viele Probleme durch Computer gelöst werden. Dies ist ein (im wahrsten Sinne des Wortes, wie wir zeigen werden) verschwindend geringer Anteil der Menge der existierenden Probleme, denn es gibt überabzählbar viele Probleme. Ulrich Hedtstück In diesem Kapitel werden Richtlinien für die XML-basierte Modellierung einer lexikografischen Datenbasis entwickelt. In 5.1 wird zunächst begründet, weshalb im Modellierungskonzept XML und verwandte Standards angewandt werden. In diesem Zusammenhang wird erläutert, was XML ist, worin die Vorteile des Einsatzes von XML liegen, wie eine XML-basierte Redaktionsumgebung aufgebaut sein kann und warum Richtlinien für die Anwendung von XML notwendig sind. Im darauf folgenden Abschnitt 5.2 werden verschiedene Ansätze zu DTD-Entwicklungen 35 gegenübergestellt, um das hier entwickelte Modellierungskonzept danach einordnen zu können. In 5.3 werden Rahmenbedingungen und Zielsetzungen der Entwicklung des Modellierungskonzeptes genannt. Anders als in Kapitel 4, in dem Anforderungen an das Modellierungskonzept aus der Forschung zusammengestellt wurden, werden hier eigene Vorbedingungen und Zielvorgaben formuliert, die für das Verständnis der Intention und des Nutzens des hier entwickelten Konzeptes von grundlegender Bedeutung sind. In den Ab- 35 Zur Erläuterung, was DTD s sind, siehe Abschnitt 5.4.2. Der lexikografische Prozess 78 schnitten 5.4 und 5.5 werden die Richtlinien für die Modellierung des Inhaltsstrukturenprogramms [zu diesem Terminus siehe 5.4] lexikografischer Daten und ihres Vernetzungsstrukturenprogramms [zu diesem Terminus siehe 5.5] entwickelt. Dazu wird zunächst in beiden Abschnitten die inhaltliche Konzeption vorgestellt, die Grundlage für die Modellierungsrichtlinien ist. Im zweiten Unterabschnitt wird jeweils die standardbasierte Ausdrucksmöglichkeit im Rahmen von XML und verwandten Standards vorgestellt und die jeweilige Syntax erläutert. Durch diese Erläuterung werden die hier gezeigten Beispiele auch ohne umfangreiche Vorkenntnisse verständlich. Außerdem dienen diese Abschnitte dazu, weiterführende Literatur für diejenigen zusammenzutragen, die sich - z.B. weil sie selbst eine Modellierung für eine lexikografische Datenbasis entwickeln wollen - weiter mit XML und verwandten Standards vertraut machen wollen. Dabei wird die Vorstellung von XML-DTDs und XML-Instanzen in 5.4 ausführlicher sein als die Vorstellung von XLink in 5.5, da XML 1.0 „die syntaktischen Grundbausteine für die anderen Standards der Familie“ (Rothfuss/ Ried 2001, S. 129) bereitstellt. Auch sind hier bestimmte Eigenschaften von DTD-Entwicklungen auszuführen. In den letzten direkten Unterabschnitten von 5.4 und 5.5 werden dann die Richtlinien für die Modellierung des Inhaltsstrukturenbzw. des Vernetzungsstrukturenprogramms zusammengefasst. Im darauf folgenden Abschnitt 5.6 wird auf den Einsatz einer solchen XML-basierten Modellierung im lexikografischen Prozess eingegangen, um die Auswirkungen und die damit verbundenen Verbesserungsmöglichkeiten der lexikografischen Praxis aufzuzeigen. Des Weiteren werden im Abschnitt 5.7 Perspektiven für die Darstellung der so modellierten lexikografischen Daten erläutert. Auch hier werden die entsprechenden XML-verwandten Standards ausgeführt: XSL und XSLT zur Darstellung bzw. Transformation der lexikografischen Daten. Der abschließende Abschnitt dieses Kapitels geht auf die Möglichkeiten eines Wörterbuchverbunds ein, da es in der heutigen Wörterbuchlandschaft immer wichtiger wird, verschiedene Wörterbücher in einem Verbund gemeinsam elektronisch zugreifbar zu machen. Daher soll gezeigt werden, wie verschiedene lexikografische Datenbasen, in denen das zuvor beschriebene Modellierungskonzept angewandt wird, zusammengeführt werden könn(t)en. Die Anforderungen an das Modellierungskonzept aus Kapitel 4 werden dabei immer an den jeweils relevanten Punkten mit aufgenommen und das entwickelte Konzept daran geprüft. Die XML -basierte Modellierung einer lexikografischen Datenbasis 79 5.1 Begründung der Wahl von XML und verwandten Standards 5.1.1 Was ist XML? Die Autoren des XML-Standards charakterisieren XML folgendermaßen: Extensible Markup Language, abbreviated XML , describes a class of data objects called XML documents and partially describes the behavior of computer programs which process them. XML is an application profile or restricted form of SGML , the Standard Generalized Markup Language ( ISO 8879). ( XML Standard) Im diesem Zitat wird SGML erwähnt. XML ist dabei eine Untermenge der Standard Generalized Markup Language (SGML), die seit 1986 ISO 36 - Standard ist. XML hat gegenüber SGML eine wesentlich höhere Verbreitung gefunden, da der Syntax-Unfang sehr viel überschaubarer ist und XML- Anwendungen daher gegenüber SGML-Anwendungen leichter maschinell zu verarbeiten sind, ohne wesentlich an Mächtigkeit zu verlieren. XML retains the power, but with much less parsing overhead. That is because it eliminates almost all of SGML 's syntactic customization and options, while retaining the ability to create your own document types, element types, attributes and hyperlinks. (Goldfarb 1999, S. 10) Nach Gennusa ist XML damit zum „marketing star“ (Gennusa 1999, S. 40) avanciert. Die grundsätzliche Idee von SGML ist in XML allerdings erhalten: But the basic idea remains the same: XML [...] allows the creation of an unlimited number of different markup languages for different purposes. The point of XML - and the reason that it's becoming so popular - is that all the various special-purpose languages that can be defined using it can be parsed by a single standardized processor small enough to be built into every Web browser. (Bosak 1998, S. 2) 37 Dies entspricht den Zielen bei der Entwicklung von XML, wie sie im XML- Standard beschrieben werden: 36 International Standards Organization. 37 Die weite Verbreitung von XML liegt auch darin begründet, dass eine ganze Industriesparte rund um Dokumentenmanagement und Internetdienstleistungen XML zum Datenaustausch ‘entdeckt’ hat, da es zum einen ein standardisiertes Format und zum anderen einfach zu verarbeiten ist. Dieser Anwendungsbereich von XML ist mittlerweile so groß, dass Bosak es sogar schon als eine der „Four Myths about XML “ anführt, dass XML „just for data“ sei. (Bosak 1998, S. 3). Der Einsatz von XML zum Datenaustausch berührt jedoch kaum den Anwendungsbereich dieser Arbeit; deshalb wird hier nicht näher darauf eingegangen. Siehe z.B. Rothfuss/ Ried (2001, S. 134f.). Der lexikografische Prozess 80 The design goals for XML are: 1) XML shall be straightfowardly usable over the Internet. 2) XML shall support a wide variety of applications. 3) XML shall be compatible with SGML . 4) It shall be easy to write programs which process XML documents. 5) The number of optional features in XML is to be kept to the absolute minimum, ideally zero. 6) XML documents shall be human-legible and reasonably clear. 7) The design should be prepared qiuckly. 8) The design of XML shall be formal and concise. 9) XML documents shall be easy to create. 10) Terseness in XML markup is of minimal importance. ( XML Standard) XML ist damit wie SGML eine Metasprache. Metasprache ist dabei als ein(e) „Sprache oder Symbolsystem“ zu verstehen, die oder das „dazu dient, eine andere Sprache oder ein Symbolsystem zu beschreiben oder zu analysieren.“ (GWdS; vgl. auch Lorenz 1980, S. 5). XML bietet dabei einen „Sprachbaukasten zur Erzeugung von [...] Auszeichnungssprachen“ (Rothfuss/ Ried 2001, S. 132; zur näheren Einordnung von XML in die Theorie formaler Sprachen siehe die Literaturhinweise in Hedtstück 2003, S. 131). Auszeichnungssprachen definiert man nach Rothfuss und Ried am besten zunächst über das, was sie nicht sind: „Es sind keine Seitenbeschreibungssprachen wie z.B. Postscript, und es sind keine Programmiersprachen, weil sie keine Kontrollstrukturen und prozeduralen Bestandteile haben.“ (Rothfuss/ Ried 2001, S. 130). XML ist dabei allerdings keine einzelne Auszeichnungssprache wie HTML (HyperText Markup Language), sondern - wie bereits deutlich gemacht - eine Metasprache. Bosak spricht deshalb in Bezug auf HTML vs. XML von zwei verschiedenen Schichten oder Ebenen: „In fact, XML and HTML exist in entirely different layers of markup technology“ (Bosak 1998, S. 1). Mit XML können also eigene Auszeichnungssprachen definiert werden. Dies wird - bei validem XML 38 - in Form von sog. Dokumenttypdefintionen (DTDs) oder XML-Schemata gemacht. 38 Zum Unterschied zwischen well-formed und valid XML siehe Abschnitt 5.4.2. Siehe auch dort zur Möglichkeit, statt DTD s XML -Schemata einzusetzen. Die XML -basierte Modellierung einer lexikografischen Datenbasis 81 Zu XML gehört ein Grammatikformalismus, mit dem man in Form von so genannten Document Type Definitions ( DTD s) kontextfreie Grammatiken [...] erstellen kann, um die Struktur einer Klasse von Dokumenten formal zu beschreiben. Eine DTD legt die erlaubten Tags fest und gibt Regeln an, wie sie verschachtelt werden dürfen. Dadurch kann mit einem Parser die Gültigkeit von Dokumenten bezüglich einer DTD -Grammatik festgestellt werden, um nicht nur die Wohlgeformtheit zu garantieren, sondern die Zuverlässigkeit zur Verarbeitung durch eine eingegrenzte Klasse von Softwaresystemen. (Hedtstück 2003, S. 132) Mit der Bestimmung der Tags wird dabei in der DTD auch das Auszeichnungsvokabular festgelegt. In diesem Sinne ist eine DTD wiederum eine Metasprache zur Beschreibung einer Klasse von Dokumenten. „A document type definition spells out exactly what the allowable language is. A DTD is thus a metalanguage for a certain type document.“ (O'Meara/ Reeder 2005). Diese Möglichkeit, in DTDs eigene Auszeichnungssprachen zu definieren, macht das wesentliche Potenzial von XML (wie auch von SGML) für den Anwendungsbereich dieser Arbeit aus. In diesem Sinne auch Lobin: Entscheidend für die Leistung von SGML ist, daß Strukturinformationen zu einem bestimmten Datentyp durch eine Grammatik beschrieben wird, und zwar durch eine gewöhnliche kontextfreie Grammatik. Diese Struktur-Grammatik, die Document Type Definition ( DTD ), bildet den wesentlichen Unterschied zu der rein listenförmigen Aneinanderreihung der Daten in herkömmlichen Textdokumenten oder der strikt tabellarischen in Datenbanken. (Lobin 1999, S. 3) Wie das Zusammenspiel von DTDs und XML-Instanzen funktioniert und wie eine DTD entwickelt werden kann, wird in Abschnitt 5.4.2 erläutert. Festzuhalten ist also allgemein, dass XML (als eine Untermenge von SGML) eine Metasprache zur Definition eigener XML-basierter Auszeichnungssprachen ist, im Gegensatz z.B. von HTML, welches eine einzelne festgelegte SGML-basierte Auszeichnungssprache ist. 39 39 Die verbindliche Quelle für die Anwendung von XML ist der XML -Standard ( XML Standard). Eine deutsche Übersetzung der zweiten Auflage des Standards von Stefan Mintert ist unter http: / / edition-w3c.de/ TR/ 2000/ RECxml/ 20000106 einzusehen. Eine gute Übersicht zum Thema XML bietet die Webseite von Robin Cover ( www.oasisopen.org/ cover/ sgml-xml.html , Stand: April 2007). Eine kurze, gut lesbare Einführung ist auch bei Martin Bryan („An Introduction to the Extensible Markup Language (XML)“; www.cacs.louisiana.edu/ ~mgr/ 404/ burks/ internet/ web/ xmlintro.htm , Stand: August 2007) zu finden; etwas ausführlicher ist die „Gentle Introduction to XML “ Der lexikografische Prozess 82 5.1.2 Vorteile des Einsatzes von XML In Abschnitt 4.4 wurde bezüglich der allgemeinen Anforderungen an Datenhaltung festgehalten, dass das Kodierungssystem eine nachhaltige Datenhaltung gewährleisten und verlustfrei auf andere Systeme portierbar sein solle und dass eine gute Softwareunterstützung geboten werden soll. Sind diese Punkte mit dem Einsatz von XML gewährleistet? Allen Auszeichungssprachen ist gemeinsam, dass sie im Text so genannte Tags (Marken) einbauen, die selbst wieder Text sind, d.h. auch von Menschen lesbar und interpretierbar sind (vgl. Rothfuss/ Ried 2001, S. 132). Der ursprüngliche Zweck von Auszeichnungssprachen war die Auszeichnung textbasierter Daten für den Satz. Heute geht die Verwendung von Auszeichnungssprachen jedoch weit über diesen ursprünglichen, druckorientierten Zweck hinaus. Mit dem Aufkommen der elektronischen Medien und der damit verbundenen Möglichkeit, Daten so aufzubereiten, dass die gleichen Daten in mehreren Medien publiziert werden können, wurde in der Publikationslandschaft der Ruf nach einer software- und plattformunabhängigen und damit medienneutralen Datenhaltung lauter: [...] when publishers wanted to produce their documents on multiple media, the publishers' tolerance level quickly fell. The use of an internationally agreed generic markup language meant that publishers could create information once and automate its reuse multiple ways, saving time and effort. (Gennusa 1999, S. 28) Die Idee war also, einen international standardisierten Formalismus bereitzustellen, der eine software- und plattformunabhängige Datenhaltung erlaubt. Eine solche plattform- und softwareunabhängige Datenhaltung wird mit dem Einsatz von XML erreicht. Der wesentliche Punkt ist dabei, dass XML-Dokumente in reinem Textformat, d.h. in reinem ASCII 40 , vorliegen, was für eine langlebige Datenhaltung die beste Voraussetzung ist. der TEI (Gentle Introduction). Eine gute Historie über SGML und den Weg zu XML findet sich bei Pamela Gennusa (Gennusa 1999). Eine umfangreiche Einführung aus dem linguistischen Bereich bietet Henning Lobin (Lobin 2001), einen Einblick in den praktischen Einsatz von XML und verwandten Standards enthält der Band „ XML in der Praxis“ von Henning Behme und Stefan Mintert (Behme/ Mintert 2000). Eine Übersicht über Anwendungsprojekte im deutschsprachigen Raum ist auch in dem Buch „ SGML und XML . Anwendungen und Perspektiven“ (Möhr/ Schmidt 1999) zu finden. 40 American Standard Code for Information Interchange. Die XML -basierte Modellierung einer lexikografischen Datenbasis 83 Der Witz ist vielmehr, dass XML -Dokumente in einem reinen Textformat vorliegen und deswegen prinzipiell die Möglichkeit zur manuellen Kontrolle bieten. Der Compiler Fachmann Prof. [...] Goos weist außerdem auf die empirische Tatsache hin, dass während der wirklich nicht gerade langen Geschichte der EDV nur die Textformate dauernden Bestand gehabt haben und somit vermutlich die beste Investitionssicherungsmethode für wertvolle Informationen darstellen. (Rothfuss/ Ried 2001, S. 135) Sowohl die Definition einer Auszeichnungssprache in XML in Form einer DTD als auch die nach dieser einzelnen Auszeichnungssprache strukturierten Dokumente können in jedem beliebigen einfachen Texteditor geöffnet und bearbeitet werden, sodass sie nicht an einzelne Betriebssysteme oder bestimmte Textverarbeitungssoftware gebunden sind. Für den Einsatz von XML ist allerdings XML-basierte Software hilfreich, die z.T. kostenlos, meist aber kostenpflichtig von verschiedenen Firmen angeboten wird. Diese Software benötigt man zum einen für die DTD-Erstellung, um die Korrektheit der DTD gegenüber dem XML-Standard zu prüfen und zum anderen um die Regeln, die in der DTD formuliert sind, für die Datenauszeichnung umzusetzen und deren Korrektheit zu prüfen. 41 Letzteres wird mit XML-Editoren gemacht (siehe auch 5.4.2 und 5.6). Damit kann der Eindruck entstehen, dass man letzten Endes doch wieder an proprietäre Software gebunden ist. Dies ist aber insofern nicht der Fall, da diese XMLbasierte Software von ihrer Grundfunktionalität her nichts anderes macht, als die international festgelegten Regeln von XML technisch umzusetzen, d.h., man sollte jederzeit von einem zum anderen Anbieter wechseln können. Hier liegt der wesentliche Unterschied z.B. zu einzelnen Textverarbeitungsprogrammen, deren Programmiergrundlagen nicht öffentlich zugänglich sind. Durch die weite Verbreitung von XML ist darüber hinaus sichergestellt, dass hinreichend viele Softwareanbieter auf dem Markt sind. Dazu Winfried Bader: Das Bedürfnis nach software- und plattformunabhängigen Textdokumenten ist [...] nicht nur ein inhaltliches Problem, ein Hinlenken der Gedanken auf das Wichtige und die eigentliche Arbeit, sondern will neue Möglichkeiten der Publikation ‘Cross-Media’ eröffnen. Dazu braucht es Software, von der man sich allerdings nicht abhängig machen sollte. Die weite Verbreitung von SGML , der Rang von SGML als ISO -Standard, sind der Garant für solche Software auch in der Zukunft. [...] Die endgültige Einführung des unter technischer Hinsicht einfacheren XML [...] wird die zur Verfügung stehende Software rasch vergrößern. (Bader 1999, S. 11) 41 Hier ist wiederum nur von valid XML die Rede; vgl. 5.4.2. Der lexikografische Prozess 84 Somit sind die oben genannten Anforderungen - Nachhaltigkeit, Systemunabhängigkeit und gesicherte Softwareunterstützung - mit dem Einsatz von XML erfüllt. Als wesentlich wurde in Kapitel 4 außerdem herausgestellt, dass die Trennung von Inhalt und Layout in der Kodierung möglich sein soll. Dies war genau eines der wesentlichen Ziele bei der Entwicklung von SGML bzw. XML: The use of a single, internationally agreed syntax was not the only reason why a generic markup language was the appropriate solution for publishers that wanted to publish to multiple media. A fundamental concept in the use of generic markup languages is a move from formatting markup to content markup. (Gennusa 1999, S. 28) XML ist so angelegt, dass die inhaltliche Struktur von Texten separat von der gestalterischen Umsetzung deutlich gemacht werden kann. Mit XML kann man daher - wie mit SGML - die eigentlichen Daten sowohl von ihrer Struktur als auch von ihrer Gestalt trennen, „sodass man beide nicht als Auszeichnungs-, sondern treffender als Inhaltsbeschreibungssprachen bezeichnen sollte“ (Rothfuss/ Ried 2001, S. 132). Genauer muss man allerdings sagen, dass SGML und XML zunächst nur Auszeichnungssprachen sind, die allerdings oft als Inhaltsbeschreibungssprachen eingesetzt werden. Dazu auch Lobin: Bei der Repräsentation von Texten für die verschiedenen Zwecke der Verarbeitung in digitalen Medien hat sich seit geraumer Zeit SGML als ein Ansatz in den Vordergrund geschoben, der im Gegensatz zur traditionellen Textverarbeitung auf einer strikten Trennung von Inhalt, Form und Struktur beruht [...]. Texte werden dabei mit Markierungen versehen, die ihre Struktur aus einer bestimmten Perspektive explizit zu machen erlauben, so daß die äußere Gestaltung je nach Zielmedium, Gestaltungsanspruch, Verarbeitungstechniken und Rezipienten als ein unabhängiges und wiederverwendbares Modul entwickelt werden kann. (Lobin 1999, S. 3) Stefan Freisler spricht in diesem Zusammenhang auch von einer „Explizierung“ bzw. „Formalisierung der logischen Textstruktur“: Durch SGML wird der Prozeß der Explizierung der logischen Struktur eines Textes, den ich als ‘Entlinearisierung’ bezeichne, noch eine Stufe weiterentwickelt. Mit einem Schlagwort könnte man diesen Schritt als den ‘Übergang von der Explizierung zur Formalisierung der logischen Textstruktur’ bezeichnen. Die klassische Typographie verläßt sich bei der Auszeichnung und Identifikation von Textteilen und deren Beziehungen auf bestimmte Traditionen und gewisse gestaltpsychologische Wahrnehmungsgesetze. Hierbei ist das ‘Was’ des Textes eng mit dem ‘Wie’ des Textes verknüpft. Diese beiden Die XML -basierte Modellierung einer lexikografischen Datenbasis 85 Ebenen sollen mit SGML streng getrennt werden. Mit den ‘Markups’ von SGML läßt sich die logische Struktur eines beliebigen Textes - unabhängig von Soft- und Hardware-Basis - deskriptiv definieren. Das konkrete Aussehen des Textes wird erst in einem weiteren davon unabhängigen Prozeß festgelegt. (Freisler 1994, S. 41) Durch diese strikte Trennung von Inhalt und Layout der Daten kann eine medienneutrale Datenhaltung verwirklicht werden. Insofern ist mit XML die Möglichkeit gegeben, dass zum einen die Ebene der lexikografischen Datenbasis strikt von der der Präsentation getrennt wird und dass die gleich ausgezeichneten Daten sowohl elektronisch wie gedruckt präsentiert und die Eigenheiten des jeweiligen Mediums ausgenutzt werden können. Wenn XML so angewandt wird, kann Medienneutralität nicht nur in technischem Sinne, sondern auch im Hinblick auf eine möglichst weitgehende inhaltliche Unabhängigkeit von Medien erreicht werden. In diesem Sinne formuliert Bader für den editionswissenschaftlichen Bereich: Plattform- und Softwareunabhängigkeit bedeutet in einem tieferen Sinne - den ich hier favorisieren und als den richtigen betrachten möchte - eine neue Denkweise losgelöst von Medium und Software der Präsentation. Das heißt aber genau genommen: Plattform- und Softwareunabhängigkeit ist eine alte Denkweise. So wie es die Wissenschaft früher nicht gekümmert hat, ob der konkrete Setzer das handwerkliche Geschick hatte, eine bestimmte Type zu gießen und zu feilen, so sollte auch in der computergestützten Textedition diese strikte Trennung im Blick sein: inhaltliche Erarbeitung der Daten und ihre Interpretation - Übertragung der Daten - Präsentation der Ergebnisse. Die Präsentation der Daten ist ein eigener unabhängiger Schritt und frei wählbar nicht nur im technischen Sinne von Cross Media Publishing, bei dem das Ergebnis auf Papier, auf CD - ROM oder im Netz präsentiert wird, sondern auch inhaltlich: je nach Erfordernissen wird z.B. nur der Obertext geboten, wird ein diplomatischer Text erstellt [...]. (Bader 1999, S. 10) Diese Form von medienneutraler Datenaufbereitung verlangt daher auch ein bestimmtes Denken: Im Zentrum müssen dabei die Inhalte stehen 42 und nicht Fragen wie: Wo kann man denn klicken? oder: Wie sieht denn genau die Schrift aus? Ein weiterer Vorteil von XML gegenüber anderen Modellierungssprachen, der meines Erachtens im linguistischen Anwendungsbereich zu wenig betont wird, ist, dass XML von Menschen lesbar und gleichzeitig von Maschinen interpretierbar ist (vgl. Gennusa 1999, S. 30). Die Daten sind somit „encoded 42 Zu einer genaueren Bestimmung vgl. 5.4. Der lexikografische Prozess 86 in a way that the computer can ‘understand’“ (Garshol 1999, S. 1). Die Syntax von XML-DTDs ist leicht zu verstehen, was ein elementarer Vorteil für die Strukturentwicklung ist. Gerade diese leichte Verständlichkeit ermöglicht die gemeinsame Diskussion über die zu entwickelnde Struktur unter allen Projektbeteiligten, auch und gerade mit denen, die für die Inhalte maßgeblich verantwortlich sind, für die die technische Umsetzung jedoch von geringem Interesse ist. Diese Kommunikation läuft nicht über Alltags- oder Fachsprache, sondern direkt anhand der Modellierung. Es ist in Projekten häufig zu beobachten, dass erst dann die Verständigung über die Modellierung detaillierter wird, wenn man gemeinsam den Entwurf einer DTD diskutiert. Erst die formale Syntax lässt es oft augenscheinlich werden, dass hier und da die entworfene Struktur doch den Inhalten nicht angemessen ist, dass es an bestimmten Stellen nicht berücksichtigte aber wohl begründete Ausnahmen gibt etc. Diese leichte Verständlichkeit von XML macht die Beschreibungssprache auch zu einem geeigneten ‘Kommunikationsformat’ zwischen Geisteswissenschaft und Informatik. Man kann die Modellierung in enger Zusammenarbeit mit den inhaltlich Verantwortlichen entwickeln und die Ergebnisse in formaler Sprache festhalten. Die auf dieser Basis ausgezeichneten Datenbestände können dann automatisiert weiter verarbeitet werden. XML bietet daher mehr als andere Modellierungssprachen auch die Möglichkeit, dass sich die Kompetenzen derer, die für die Inhalte verantwortlich sind, mit der von denen, die die XML-Struktur entwickeln, partiell überlappen. Dies birgt wiederum eine gute Chance, dass sich die teilweise noch neuen Prozesse, die mit dem Aufbau einer medienneutralen lexikografischen Datenbasis verbunden sind, erfolgreich herausbilden können. Die Syntax von XML ist leicht zu verstehen; gute XML-Strukturen selbst zu entwickeln, ist eine ganz andere Kompetenz, die mehr Beschäftigung und Erfahrung erfordert. Hilfreich sind dabei Richtlinien für bestimmte Gegenstandsbereiche, so wie sie hier für lexikografische Inhalte entwickelt werden. Die Kompetenz, gute XML-Strukturen für geisteswissenschaftliche Inhalte zu entwickeln, liegt damit an einer Schnittstelle zwischen Geisteswissenschaften und Informatik, an der sich für Linguisten ein interessantes Betätigungsfeld finden lässt (siehe auch 5.1.5). Damit sind die Anforderungen, die unter 4.4 genannt wurden, mit dem Einsatz von XML erfüllt. Dass XML darüber hinaus hinreichend mächtig und eindeutig für die Kodierung lexikografischer Daten ist - weitere Anforderungen, die unter 4.4 formuliert wurden - wird in den Abschnitten 5.4 und 5.5 gezeigt. Die XML -basierte Modellierung einer lexikografischen Datenbasis 87 5.1.3 Einige Bemerkungen zum Gesamtaufbau einer XML-basierten Redaktionsumgebung In der Literatur scheint teilweise unklar, wie das Verhältnis von XML zu Software ist. So bemerkt z.B. Petelenz kritisch: „Selbst Standards wie XLink sind noch keine anwendungsfreundliche Software, sondern nur Standards“ (Petelenz 1999, S. 44) oder „Kurzum: SGML und XML alleine sind Standards zur Erfassung und Speicherung von strukturierten Textdatenströmen und keine Redaktionssysteme, die die oben genannten Anforderungen auch nur ansatzweise einlösen würden.“ (ebd., S. 45). Wenn dies als Kritik an XML aufgefasst wird, liegt ein Missverständnis vor. Denn wie in den vorigen Abschnitten ausgeführt wurde, ist XML allein ein Formalismus zur Entwicklung eigener Auszeichnungssprachen, keine Software oder Redaktionsumgebung. Es ist gerade ein Vorteil der Sprachen SGML und XML und ihrer Anwendungen, software- und plattformunabhängig zu sein. In diesem Sinne äußert sich auch Geeb in Bezug auf einen Aufsatz, in dem von „Auswertungs- und Abfragemöglichkeiten einer SGML-Datenbasis“ gesprochen wird: [...] offenbar werden hier das Werkzeug der Datenlagerung ( SGML ) mit der darüber gelegten Benutzerschnittstelle [...] sowie dem Umfang, der Tiefe und der Qualität der gespeicherten Daten vermischt. SGML als Datenbasis hat keine Funktionalität. SGML verfügt daher über keinerlei ‘Auswertungs- und Abfragemöglichkeiten’. Erst die Software zu SGML kann diese Möglichkeiten implementieren. Datenbanken an sich haben ebenso keinerlei Funktionalität (als Datenbasis). Erst die Datenbankmanagementsoftware gibt diese Möglichkeiten (z.B. mit SQL ). (Geeb 2002, S. 230) Wenn eine komfortable Redaktionsumgebung angestrebt wird, sind daher weitere Komponenten erforderlich. Besteht eine Redaktionsumgebung vorher nur aus einem Textverarbeitungsprogramm und sind die Dateien einfach im Dateisystem abgelegt, so reicht der Einsatz eines XML-Editors. Dieser allein bringt die oben genannten Vorteile gegenüber üblichen Textverarbeitungsprogrammen. In der Regel sind jedoch Datenbanken das „Mittel der Wahl“, wenn es um die „Speicherung von strukturierten Informationen geht“ (Rothfuss/ Ried 2001, S. 237). Angefangen bei Netzwerkdatenbanken über relationale Datenbanken bis hin zu objektorientierten Datenbanken herrschte bis dato Konsens, dass strukturierte Informationen nicht im Dateisystem verwaltet werden sollten, sondern in dafür vorgesehenen Datenbankmanagementsystemen. (Rothfuss/ Ried 2001, S. 237) Der lexikografische Prozess 88 Zum Aspekt der Verwaltung von strukturierten Daten kommt der Aspekt großer Datenmengen hinzu, denn eine aufwändige Strukturierung wird meist nur bei großen Datenmengen gemacht, die wiederum schlecht ohne Datenbankmanagementsystem verwaltet werden können. Sind solche Datenbankmanagementsysteme eingesetzt, stellt sich daher die Frage, wie der Einsatz von XML damit zusammenpasst. Im Bereich der Datenbanken sind zwei Gruppen zu trennen: die objektorientierten und die relationalen Datenbanken. 43 Dabei scheinen die objektorientierten Datenbanken „wie geschaffen“ für die Speicherung von XML-Dokumenten; ein Grund, weshalb sich alle namhaften Hersteller von „OO-Datenbanken“ neuerdings als „XML Object Server“ preisen (Rothfuss/ Ried 2001, S. 248; siehe auch Mittermeier 2003). Allerdings führen objektorientierte Datenbanken auf dem gesamten Markt noch ein Nischendasein; die weitere Entwicklung bleibt abzuwarten. Wesentlich verbreiteter sind die relationalen Datenbanken. Auch hierin können XML-strukturierte Inhalte abgelegt werden, allerdings in unterschiedlicher Weise. Rothfuss und Ried unterscheiden dabei zwei wesentliche Ansätze: die elementbasierte vs. die dokumentbasierte Speicherung (Rothfuss/ Ried 2001, S. 246). Elementbasierte Speicherung heißt dabei, dass jedem XML-Element ein Attribut in einer Datenbanktabelle zugeordnet wird. Vorteil bei dieser Speicherungsart ist, dass auf jedes Element mit den datenbankzugehörigen Mitteln (z.B. SQL 44 ) zugegriffen werden kann. Der Nachteil ist jedoch, dass bei komplexen XML-Strukturen das Wiederzusammensetzen des Dokuments (was dann auf viele Tabellen verteilt sein kann) sehr aufwändig sein kann. Bei der dokumentbasierten Speicherung wird dagegen dem ganzen Dokument nur ein Attribut in einer Datenbanktabelle zugewiesen. Nachteilig ist dabei natürlich der fehlende Zugriff auf die einzelnen XML-Elemente mit datenbankzugehörigen Mitteln. Deshalb ist die Kombination beider Möglichkeiten, die oft als „Hybrider Ansatz“ (ebd., S. 248) bezeichnet wird, meist am besten geeignet. Dieser Ansatz ist z.B. auch in elexiko realisiert (siehe Kapitel 6, zum Speichern von XML- Inhalten in relationalen Datenbanken siehe auch Behme 2003). Neben den schon vor der weiten Verbreitung von XML vorhandenen relationalen und objektorientierten Datenbanken gibt es mittlerweile auch native XML-Daten- 43 Zu Datenbanken allgemein siehe beispielsweise Heuer/ Saake (1997). 44 SQL (Structured Query Language) ist die Abfragesprache für relationale Datenbanken. Das ursprünglich von IBM entwickelte SQL ist heute eine selbstständige Abfragesprache und international genormt. Die XML -basierte Modellierung einer lexikografischen Datenbasis 89 banken, die die Strukturbeschreibung von XML-DTDs oder XML-Schemata (vgl. 5.4.2) automatisch in eine Datenbankmodellierung überführen können. Sie sind z.T. auf der Grundlage von ‘normalen’ objektorientierten Datenbanken weiterentwickelt worden. Allerdings ist hier das Problem, dass diese Datenbanksysteme oft noch nicht ausgereift sind, sodass von üblichen Datenbankmanagementfunktionalitäten wie Versionsverwaltung, Verwaltung von Zugriffsberechtigungen etc. nicht selbstverständlich ausgegangen werden kann. Insgesamt lässt sich festhalten, dass in Redaktionsumgebungen, in denen vorher allein ein Textverarbeitungsprogramm eingesetzt war, dieses beim gewünschten Einsatz von XML lediglich durch einen XML-Editor ersetzt werden muss, der in der Regel nicht teurer ist als die verbreiteten Textverarbeitungsprogramme. Sind übliche weitergehende Funktionalitäten in einer Redaktionsumgebung notwendig, wie Versionsverwaltung, organisierte Sicherung der Daten, Recherchieren in den Daten, wird - wie auch ohne den Einsatz von XML - die Einbettung in ein Datenbankmanagementsystem erforderlich. Die weite Verbreitung von XML hat dabei insgesamt dazu geführt, dass alle führenden Hersteller von Datenbanken mittlerweile (in unterschiedlichem Umfang) XML-Funktionalität bieten. Insofern muss in der Regel nicht neben der systemunabhängigen Strukturbeschreibung in XML eine eigene Datenbankmodellierung entwickelt werden, sondern die Festlegungen in XML können zumindest teilweise automatisch umgesetzt werden. Eine Einbettung von XML-strukturierten Inhalten in eine Datenbankumgebung ist daher allgemein gut möglich. Im Rahmen dieses Modellierungskonzeptes wird davon ausgegangen, dass ein Datenbankmanagementsystem Teil der technischen Redaktionsumgebung ist, sonst wäre es beispielsweise kaum möglich, jeden Artikel in einer separaten Instanz abzuspeichern (vgl. auch Geeb 2001, S. 32f.). 5.1.4 XML als „Piece of a Larger Picture“ Mit XML kann der Inhalt eines Textes maschinenlesbar kodiert werden, ohne dass über das Aussehen bestimmter Textsegmente schon eine Aussage gemacht wird. Es stellt sich daher die Frage, wie die Präsentationseigenschaften und weitere Eigenschaften so strukturierter Texte festgelegt werden können. Es gibt verschiedene flankierende Standards zu XML, die bestimmte Eigenschaften der XML-Daten spezifizieren können oder die die Arbeit mit XML- Daten betreffen. Solche flankierenden Standards gab es auch schon zu Der lexikografische Prozess 90 SGML, jedoch waren diese meist wegen ihres großen Umfanges und der daher schwierigen Umsetzung in Programme nicht weit verbreitet. Daher war es schon bei der Vereinfachung von SGML zu XML das Ziel der dafür zuständigen W3C 45 -Working Group, auch die flankierenden Standards wie DSSSL (Document Style and Semantics Specification Language) zur Darstellung von SGML-Daten und HyTime (Hypermedia/ Time Based Structuring Language) zur Spezifizierung der Vernetzung von SGML-Daten so zu vereinfachen, dass sie wie XML weite Verbreitung finden können. Garshol beschreibt daher die Phasen der Arbeit der XML Working Group am W3C folgendermaßen: - „Define a standard for the creation of markup languages.“ - „Develop a common standard for linking in these markup languages.“ - „Develop a common standard for specifying the layout of documents encoded in these languages.“ (Garshol 1999, S. 1) XLink (XML Linking Language) als Vereinfachung von HyTime zur Kodierung der Vernetzung von XML-Daten und XSL (Extensible Stylesheet Language) als Vereinfachung von DSSSL zur Darstellung von XML-Daten wurden also schon von Anfang an in die Entwicklung von XML einbezogen. Diese Einbettung von XML in ein ganzes Netz von gut anzuwendenden flankierenden Standards macht das enorme Potenzial von XML wesentlich aus. The key to understanding to revolutionary potential of XML is that it is just one piece of a larger picture. XML by itself can provide standardized interchange formats for databases and spreadsheets. This is significant. But XML and XSL together can replace existing word processing and desktop publishing formats as well. It can give us, in effect, a single, completely internationalized format of almost unlimited power for both print and online publishing that is fully interoperable across all products and all platforms. The implications of this go far beyond data exchange and far beyond the Web. (Bosak 1999, S. 3) Die Kombination von system- und softwareunabhängiger Kodierung des Inhaltes von Daten kombiniert mit einer genauso system- und softwareunabhängigen Kodierung der Darstellung dieser Daten öffnet daher wesentlich neue Perspektiven. Dazu kommen weitere flankierende Standards z.B. zur Recherche und zum Zugriff auf XML-Daten. Diese flankierenden Standards werden in dieser Arbeit (mit unterschiedlicher Gewichtung) behandelt und in den entsprechenden Abschnitten vorgestellt. 45 World Wide Web Consortium. Die XML -basierte Modellierung einer lexikografischen Datenbasis 91 Dabei ist kurz zu bemerken, wie der Terminus ‘Standard’ hier verwendet wird: SGML ist ein echter ISO-Standard, genauso waren HyTime und DSSSL offiziell verabschiedete internationale ISO-Standards. XML ist dagegen eine „Recommendation“, also eine Empfehlung des W3C, kein ISO-Standard. Die Aufgaben des W3C werden auf der Webseite folgendermaßen umrissen: The World Wide Web Consortium (W3C) develops interoperable technologies (specifications, guidelines, software and tools) to lead the Web to ist full potential. W3C is a forum for information, commerce, communication, and collective understanding. (W3C-Website) Dementsprechend ist die Rolle des W3C bei der Entwicklung und Verbreitung des XML-Standards: „W3C's Role in making the Recommendation is to draw attention to the specification and to promote ist whitespread deployment.“ (XML-Standard (Third Edition)). Man kann jedoch mittlerweile auch bei XML von einem Standard sprechen, allerdings dann eher im Sinne eines Industrie-Standards. Denn die offizielle Empfehlung des W3C, wie XML zu verwenden ist, hat mittlerweile so breite Anwendung gefunden, dass XML als de-facto-Standard anzusehen ist. Bei den flankierenden Empfehlungen wie XLink und XSL hat sich in den ersten Jahren nach dem ersten Entwurf noch einiges verändert, doch auch diese Spezifikationen können mittlerweile als ausgereift gelten. Je neuer ein XML-verwandter Standard ist, desto mehr muss man davon ausgehen, dass er sich noch verändert. Umso mehr Anwendungen dann einen einzelnen Standard einbinden, desto eher kann man von einer Stabilisierung ausgehen. 5.1.5 Notwendigkeit von Richtlinien für die Anwendung von XML In 5.1.2 wurde als ein wesentlicher Vorteil einer Modellierung in XML angeführt, dass Inhalt und Layout von Daten getrennt festgelegt werden können. Ist also mit dem Einsatz von XML auch automatisch eine inhaltsorientierte Datenhaltung erreicht oder sind dafür bestimmte Richtlinien erforderlich? Auch wenn XML die Trennung von Inhalt und Layout ermöglicht, ist damit noch nicht gleich eine inhaltsorientierte Datenhaltung erreicht. So klingt es allerdings manchmal in der Literatur: Das Herz einer SGML -Anwendung bildet die so genannte DTD [...], die in formalisierter Weise das gültige Regelwerk für die Strukturierung eines Dokuments enthält und somit auf kompakte Weise nicht nur die möglichen Elemente eines Dokuments als solche festlegt, sondern in hierarchisierter Form auch die logischen Beziehungen zwischen diesen Elementen angibt, Der lexikografische Prozess 92 d.h., ausgehend von größeren Informationseinheiten schachtelt SGML immer kleinere Elemente in die jeweils nächstgrößeren ein und nimmt auf diese Weise eine hierarchische Auszeichnung des Textes nach seinen inhaltlichstrukturellen Bestandteilen vor. ( DWB Projektskizze; ähnlich Burch/ Fournier 2001, S. 135) Vergleichbare Redeweisen treten auch in anderen Kontexten im Zusammenhang mit neuen Medien auf. 46 Dabei ist oft die Software, das Modellierungskonzept oder die Auszeichnungssprache handelndes Subjekt; die Rolle des Menschen als Aktor wird nicht thematisiert. Dies kann legitim sein, wenn es lediglich eine verkürzte Sprechweise ist, aber trotzdem im Bewusstsein klar ist, dass der handelnde Mensch das Entscheidende ist und daher menschliche Richtlinien für den Einsatz neuer Technologien zu entwickeln sind. Diese Redeweise kann jedoch auch symptomatisch für eine bestimmte Blickweise sein, die zu wenig darauf gerichtet ist, wie bestimmte technische Möglichkeiten von Menschen eingesetzt oder gelenkt werden können. Ähnliches stellt auch Freisler fest, wenn er die Redeweise von einem Lernsystem als Interaktand kritisiert: Ich halte dies nicht nur für eine akzidentielle Erscheinung, sondern für eine theoretische Verkürzung, die in der Praxis nur negative Auswirkungen haben kann. Das Lernsystem sollte einfach deshalb nicht als eigenständiger Interaktand modelliert werden, weil es kein Interaktand ist. Das Lernsystem ist ein ‘interaktives Medium’, d.h., es ist ein Mittel zur Interaktion! Es handelt nicht, sondern reagiert allenfalls auf Handlungen. In diesem Punkt scheint mir der Hauptunterschied zwischen einem ‘künstlichen-Intelligenz-Ansatz’ und einem ‘natürlichen-Intelligenz-Ansatz’ zu bestehen. Der Intelligenzingenieur will einen Lehrer zusammenbauen, während der Pädagoge ein Medium nutzen will. (Freisler 1994, S. 32) Demnach gilt auch oft schon die Entscheidung für die Anwendung von XML als hinreichend; dabei ist es mindestens ebenso entscheidend, wie die Modellierung in XML genau entwickelt wird. Kein Programm, keine Modellierungssprache erledigt etwas von selbst; der Mensch kann diese Werkzeuge nur in bestimmter Weise zum Erreichen seiner Handlungsziele einsetzen. Genauso ist mit XML nicht automatisch eine inhaltsorientierte 46 Solche Ausdrucksweisen sind beispielsweise auch im Zusammenhang mit Hypertexten zu finden: „Hypertext bietet anhand verschiedener Verfahren die Möglichkeit, dem Benutzer Teilmengen nach zuvor definierten Kriterien anzeigen zu lassen.“ (Richter 2001, S. 184); „Es ist gerade die Stärke von Hypertextsoftware, aus ein und demselben Datenpool die Informationen herauszugreifen und in geeigneter Weise zu präsentieren, die für einen bestimmten Nutzungskontext typischerweise relevant sind.“ (Storrer 2001, S. 64). Die XML -basierte Modellierung einer lexikografischen Datenbasis 93 Datenhaltung gegeben, es bietet aber die Möglichkeit, von Anwendern genau dazu eingesetzt zu werden. Dies ist wichtig festzuhalten, um den Status der Metasprache XML und auch von Sprachen wie XLink besser einordnen zu können. Auch diese Standards oder Anwendungen wurden mit dem Ziel entwickelt, standardisierte Beschreibungsmittel bereitzustellen und nicht, um ein vorgefertigtes umfassendes Konzept von Datenauszeichnung vorzulegen. In diesem Sinne formulieren auch Gloning/ Welter zur Auszeichnung von Datenbeständen: All diese Ansichten und Auswahlen produziert ein Computer nicht ohne weiteres, sondern aufgrund der Markierungen, die kompetente Lexikographinnen und Lexikographen im Datenbestand vorher verankert haben. Zu den Stärken der beteiligten Menschen gehören im besten Fall Intelligenz, Sprachbeherrschung, vielschichtige Bildung, Konsequenz, Sitzfleisch und philologischer Feinsinn, die Stärke des Computers ist es, in kurzer Zeit riesige Datenbestände im Hinblick auf die markierten Zusammenhänge zwischen den Elementen zu durchforsten und die Ergebnisse in geordneter Form auszugeben, so daß die Menschen wieder intelligent mit den Ergebnissen weiterarbeiten können. So oder so ähnlich kann man die Verteilung der Arbeit Mensch/ Computer vielleicht sehen. (Gloning/ Welter 2001, S. 119f.) Es ist daher anzustreben, Richtlinien für die Entwicklung einer XML-Struktur festzulegen. Für die DTD-Erstellung fehlt dabei nach Lobin jedoch eine „verläßliche Methodologie“ (Lobin 1999, S. 4). 47 Ein Teil einer jeden DTD- Entwicklung ist jedoch immer die Analyse der strukturellen Gesetzmäßigkeiten bestehender Daten oder die Analyse struktureller Anforderungen an zu erstellende Daten. Dabei stellt Lobin die Frage, welche Rolle der Linguistik bei der Erstellung und Verarbeitung strukturierter Daten zukommen kann. Die Ermittlung des Wissens beispielsweise über die Struktur von Wörterbuchartikeln, das in einem Sachbuchverlag meistens fast ausschließlich in den Köpfen von Redakteuren und Autoren vorliegt, kann als ein Sonderfall des Wissenserwerbs interpretiert werden. (ebd., S. 5) Die Methoden der Linguistik, hier der Wörterbuchforschung, können also bei der DTD-Erstellung genutzt werden; LinguistInnen scheinen damit „prädestiniert“ dazu, „diesen Transfer konkret zu leisten“ (ebd.). Für Linguisten bietet sich bei solchen Modellierungen daher ein interessantes Anwendungsfeld, welches sich deutlich von dem sehr technischen Feld der Sprachtechnologie unterscheidet: 47 Als ein Standardwerk ganz allgemein zur ( SGML -) DTD -Entwicklung gilt das Buch „Developing SGML - DTD s“ von Eve Maler und Jeanne El Andaloussi (Maler/ El Andaloussi 1996). Der lexikografische Prozess 94 Insgesamt ist es sicher nützlich, von dem Zweig der Sprachtechnologie, der inzwischen starken Eigencharakter besitzt und sich deutlich in eine ingenieurswissenschaftliche Richtung bewegt hat, so daß genuin linguistische Aspekte zunehmend in den Hintergrund treten, den Zweig der Texttechnologie mit seiner anwendungsbezogenen Umsetzung als Textdesign und Hypertext Engineering zu unterscheiden. Diese Bereiche [...] greifen dabei nicht nur auf das Gebiet der Textlinguistik und Computerlinguistik zu, sondern machen auch von den Methoden anderer linguistischer Teilbereiche Gebrauch. Die strategische Bedeutung für die Linguistik ist darin zu sehen, dass eine Ausweitung des anwendungsnahen Bereichs von der bislang vorherrschenden reinen Sprachtechnologie zur Texttechnologie bis hin zur Informationstechnologie im oben beschriebenen Sinne unmittelbare Anwendungsrelevanz aufweist und zugleich auf einem noch offenen Gebiet Maßstäbe definieren und Kompetenzfunktionen besetzen kann, wodurch eine Chance gewahrt wird, die beginnende Entwicklung inhaltsbezogener Informationstechnologie mitgestalten zu können. (Lobin 1999, S. 5) Linguisten sind damit durch den professionellen Umgang mit Sprache und dem damit in der Regel verbundenen formalisierten Denken gut für bestimmte Aspekte der DTD-Erstellung vorbereitet (vgl. auch Sperberg-McQueen 1997). Allerdings muss dazu immer Neugier und Einarbeitungsbereitschaft für den zu modellierenden Themenbereich vorausgesetzt werden. In diesem Sinne wird in dieser Arbeit versucht, vor allem die Methoden der Wörterbuchforschung für das Konzept der Modellierung einer lexikografischen Datenbasis fruchtbar zu machen. Klare Richtlinien für die Anwendung von XML sind auch deshalb unabdingbar, da formale Sprachen - wie Rothfuss und Ried es ausdrücken - nur vermeintlich deutlich sind. Ob ein Team formale Sprachstrukturen erfolgreich einsetzen kann, hängt letztendlich am konsequenten, einheitlichen, verständigen gemeinsamen Gebrauch der formalsprachlichen Mittel, also daran, welche intersubjektive Bedeutung diese Mittel für die Gruppe haben. Diese Bedeutung muss offen gelegt werden, wenn sie dauerhaften Nutzen bringen, also zum Beispiel gelehrt werden soll. (Rothfuss/ Ried 2001, S. 128) Nur durch klare Richtlinien, die sich auf die Forschung und Praxis des zu modellierenden Gegenstandsbereiches stützen, können daher die Vorteile von XML zum Tragen kommen. Die XML -basierte Modellierung einer lexikografischen Datenbasis 95 5.2 Differenzierung verschiedener Ansätze einer DTD-Entwicklung Für die Entwicklung einer DTD ist es wichtig zu klären, an welchen Prinzipien diese ausgerichtet sein soll. Wie schon im vorangegangenen Abschnitt erwähnt wurde, ist eine Modellierung noch nicht dadurch hinreichend beschrieben, dass sie in Form einer XML-DTD erfolgt. Um für die Einordnung einer Modellierung ein Raster zu haben, sollen daher im Folgenden verschiedene allgemeine Ansätze für eine DTD-Entwicklung einander gegenübergestellt werden. Diese Ansätze beziehen sich nicht nur auf lexikografische Projekte, sondern insgesamt auf XML-Anwendungen im Publikationsbereich. Illustrierende Beispiele werden jedoch dem Bereich der Lexikografie entnommen. Die folgenden Ansätze bieten noch keine Richtlinien für die Modellierung einer lexikografischen Datenbasis. Sie dienen allein dazu, das hier vorgestellte Modellierungskonzept besser zu anderen Konzepten oder Vorschlägen aus der Literatur in Bezug setzen zu können. 5.2.1 Maßgeschneiderte vs. Standard-DTD Wenn in einem Projekt die Entscheidung für den Einsatz von XML gefallen ist, stellt sich als Nächstes die Frage, ob eine DTD individuell maßgeschneidert, d.h. selbst entwickelt werden soll, oder ob es sinnvoll ist, auf eine Standard-DTD zurückzugreifen. Im lexikografischen Bereich - wie in den Geisteswissenschaften generell - engt sich diese grundsätzliche Frage in der Regel auf die Entscheidung ein: Setzen wir die TEI ein oder nicht? 48 Die TEI (Text Encoding Initiative) wurde 1988 als Forschungsprojekt mit dem Ziel ins Leben gerufen, Richtlinien für die Auszeichnung verschiedener Texttypen aus dem geisteswissenschaftlichen Bereich zur Verfügung zu stellen. Da diese auch einen reibungslosen elektronischen Austausch von Dokumenten gewährleisten sollten, entschied man sich für den Einsatz des kurz zuvor verabschiedeten Standards SGML. Beteiligte Institutionen an der TEI waren: - Association for Computers and the Humanities (ACH), - Association for Computational Linguistics (ACL), - Association for Literary and Linguistic Computing (ALLC). 48 Für eine ausführlichere inhaltliche Auseinandersetzung mit der TEI siehe den entsprechenden Teil in dem gemeinsam mit Ingrid Schmidt publizierten Aufsatz (Schmidt/ Müller 2001, S. 37ff.). Der lexikografische Prozess 96 Beratend wirkten mehr als 15 weitere Organisationen aus den Geisteswissenschaften und dem Bibliothekswesen mit. Nach insgesamt sechsjähriger Arbeit erschienen 1994 die Guidelines for Electronic Text and Interchange, bekannt als TEI P 3 (TEI Proposal Number 3) (Sperberg-McQueen/ Burnard 1995). 49 Dieses 1300 Seiten umfassende Papier beschreibt das von der TEI entwickelte modulare System einer Dokumentenarchitektur und die einzelnen, darin eingebundenen DTDs. Das darauf folgende Proposal Number 4 war nicht mehr SGML-, sondern XML-basiert (Sperberg-McQueen/ Burnard 2002). Mittlerweile liegen die TEI-Richtlinien bereits als Proposal Number 5 vor. 50 Bei den TEI- Richtlinien ist zu bedenken, dass ihre Entwicklung vor über zehn Jahren begonnen wurde, sie also zumindest von ihren Anfängen her noch auf einem technologischen Verständnis basieren, welches sich von unserem heutigen wesentlich unterscheidet. Zu dieser Zeit wussten die Beteiligten beispielsweise noch nichts von der Bedeutung des Internets oder von der rapide wachsenden Bedeutung elektronischer Medien allgemein. Die gesamte Denkweise war im Wesentlichen auf das Papiermedium ausgerichtet; die Herausforderung war mehr, eine Austauschbarkeit von Daten zu gewährleisten, als Daten im Hinblick auf ein Buch und eine elektronische Publikation aufzubereiten. Eine wesentliche Eigenschaft der TEI-Richtlinien ist ihre Modularität. Das modulare System der TEI ermöglicht es einem Anwender, die TEI-DTDs den eigenen Bedürfnissen anzupassen. Die TEI-DTD für Printwörterbücher hat dabei den Anspruch, eine Struktur für alle Wörterbücher der westlichen Welt bereitzustellen. Sie ist die komplexeste Struktur der TEI und umfasst Auszeichnungsmöglichkeiten für die Wörterbuchartikel und für den Vor- und Nachspann eines Wörterbuchs. Das Ziel der Wörterbuchstruktur der TEI ist es damit zum einen, für möglichst alle Wörterbücher der westlichen Welt anwendbar zu sein und gleichzeitig die Struktur eines Wörterbuchs möglichst präzise zu beschreiben. 51 Sie bewegt sich damit im Spannungsfeld zwischen Generalität vs. Spezifität. Wenn eine Struktur die gesamte Bandbreite an Variationsmöglichkeiten zwischen verschiedenen Wörterbüchern, innerhalb eines Wörterbuchs und mitsamt allen Ausnahmen berücksichtigen soll, stellt 49 Zu einer ausführlichen Beschreibung der Geschichte der TEI siehe Ide/ Sperberg-McQueen (1995); eine Auseinandersetzung mit ausgewählten Aspekten der TEI -Wörterbuch- DTD bieten Ide/ Veronis (1995). 50 Siehe www.tei-c.org/ P5/ (Stand: März 2007). 51 Die Anwendung der TEI -Richtlinien für ein koreanisches, d.h. nicht-westliches, Wörterbuch zeigt Kang (1998). Die XML -basierte Modellierung einer lexikografischen Datenbasis 97 sich die Frage, inwiefern eine solche Struktur zu einem konsistenten Datenbestand beitragen kann. Denn Konsequenz einer solchen Varianz ist, dass zwar alle Strukturen eines Wörterbuchartikels abgebildet werden können, aber die Strukturkontrolle beim Eingeben der Artikel äußerst gering ist; damit ist wenig oder keine Softwareunterstützung für eine konsistente Dateneingabe im lexikografischen Prozess vorhanden. Gerade bei umfangreichen Wörterbuchprojekten oder solchen, an denen verschiedene Lexikografen arbeiten, kann dies jedoch gerade elementar wichtig sein, wenn die Daten am Ende in einer Form vorliegen sollen, die so konsistent ist, dass die Daten von Maschinen und damit für eine elektronische Publikation zu verarbeiten sind. Die TEI ist dabei so flexibel, dass fast alle lexikografischen Daten für Sprachwörterbücher nach den TEI-Richtlinien ausgezeichnet werden können. 52 Diese Flexibilität hat jedoch den Preis, dass die Struktur nicht so spezifisch auf ein Wörterbuch zugeschnitten ist, dass sie zur umfangreichen Unterstützung im lexikografischen Prozess eingesetzt werden kann. Weiterhin ist zu fragen, ob bei dieser möglichen Varianz der Datenauszeichnung eine Datengrundlage entstehen kann, aus der eine elektronische Ausgabe entwickelt werden kann, die den potenziellen Mehrwert des elektronischen Mediums ausnutzt. Denn Bedingung für verschiedene Formen des Zugriffs auf lexikografische Daten in einer elektronischen Ausgabe ist eine konsistente Datenauszeichnung. Ein Vorteil der TEI, der oft angeführt wird, betrifft die bessere Austauschbarkeit oder Zusammenführung von Daten, die nach TEI-Richtlinien strukturiert sind: Darüber hinaus - und das ist ein ganz entscheidender Vorteil der TEI - dürfte das zukünftige Einbeziehen weiterer Wörterbücher in den Wörterbuchverbund leicht möglich sein; eine Eigenentwicklung hingegen erfordert unablässige Erweiterungen und Modifikationen. (Burch/ Fournier 2001, S. 138) Hierfür ist jedoch die Modifizierbarkeit von TEI-Richtlinien problematisch: Die TEI-Richtlinien können individuell so weit modifiziert werden - bis hin zur Umbenennung der Elemente und Attribute und zur Veränderung von Inhaltsmodellen -, dass sie einer maßgeschneiderten DTD nahe kommen; die Struktur kann trotzdem TEI-konform genannt werden. „Die zur Anwendung kommende Auswahl der Elemente aus der gesamten TEI-DTD entspricht inhaltlich weitgehend einer maßgeschneiderten individuellen DTD.“ (Bader 52 Z.B. sind auch die mittelhochdeutschen Wörterbücher nach TEI -Richtlinien ausgezeichnet, siehe Burch/ Fournier (2001). Der lexikografische Prozess 98 1999, S. 18). Daher scheint es problematisch, grundsätzlich davon auszugehen, dass Daten aus unterschiedlichen Projekten, die die TEI anwenden, wirklich problemlos zusammengeführt werden können. Trotzdem erscheint die Anwendung der TEI z.T. leichter als die Entwicklung einer eigenen Struktur. „Die Anwendung der TEI ist jedoch wesentlich einfacher als die Erstellung einer eigenen DTD. Sie entlastet die Arbeit sehr.“ (Bader 1999, S. 18). Dies kann dann zutreffen, wenn keiner der Projektbeteiligten Kenntnisse in der Anwendung von XML besitzt; genau für diese Projekte wurde die TEI schließlich auch entwickelt. Gleichzeitig ist die individuelle Anpassung der TEI-Strukturen auch keine einfache Aufgabe. Außerdem kann der Umgang mit einer guten maßgeschneiderten Struktur, die besser auf die jeweiligen Inhalte zugeschnitten ist, oft einfacher sein als die Arbeit mit einer Struktur, die so weich und flexibel ist, dass sie umfangreicher Erfassungsrichtlinien bedarf. Es bleibt festzuhalten, dass die Anwendung der TEI-Richtlinien u.a. dann sinnvoll sein kann, - wenn die Projektbeteiligten nicht das Know-How für eine eigene DTD- Entwicklung besitzen, - wenn die Strukturführung durch die DTD bei der Dateneingabe nicht als wichtig erachtet wird, und - wenn elektronisch keine Zugriffsmöglichkeiten auf die lexikografischen Daten geboten werden sollen, die eine spezifischere Modellierung verlangen. Allerdings kann eine automatisch unterstützte Konsistenzsicherung der lexikografischen Daten nur durch eine umfassende Einengung und Modifizierung der TEI-Richtlinien erreicht werden, die dem Aufwand einer maßgeschneiderten Modellierung entspricht bzw. aufwändiger ist. Insofern erscheint es sehr fraglich, ob der Einsatz der TEI bei einem neuen lexikografischen Projekt als sinnvoll erachtet werden kann. Einen neueren Vorschlag einer Standard-Modellierung gibt Franziskus Geeb mit der schon erwähnten Auszeichnungssprache leXeML (Geeb 2001; vgl. Abschnitt 4.1). Auch dieser Vorschlag stimmt - wie bereits ausgeführt wurde - mit den in Kapitel 4 genannten Anforderungen an das hier entwickelte Modellierungskonzept nicht überein. Das Modellierungskonzept setzt damit eine maßgeschneiderte Modellierung voraus; eine bestehende Standard- Modellierung kann nicht eingesetzt werden. Die XML -basierte Modellierung einer lexikografischen Datenbasis 99 5.2.2 Strukturierung eines bestehendes Datenbestandes vs. Neuerstellung eines Datenbestandes Eine weitere Frage, die für eine DTD-Entwicklung eine wichtige Rolle spielt, ist, ob ein schon vorhandener Datenbestand nachträglich in eine zu entwickelnde Struktur gebracht werden soll, d.h. die Daten selbst auch nicht verändert werden sollen, oder ob neue Daten erfasst und eingegeben werden sollen. Im letzteren Fall soll in der Regel eine Struktur entwickelt werden, die die Regeln für die Datenauszeichnung bei der Dateneingabe festlegt. Diese verschiedenen Ausgangspunkte wurden in 4.1 schon mit den Bezeichnungen der Datenstrukturierung vs. Datenmodellierung differenziert. Eine bestehende Datengrundlage kann aus elektronisch gespeicherten Daten oder nicht elektronisch gespeicherten Daten bestehen. Wenn die Daten schon elektronisch vorliegen und nach XML überführt werden sollen, sind die Kernfragen bei der Datenstrukturierung: - Wie liegen die Daten vor, d.h. in welchem Format und in welchem Zustand? - Wie kann demgemäß eine Zielstruktur aussehen, in die die Daten ohne erheblichen manuellen Nachbearbeitungsaufwand gebracht werden können? Liegen die Daten nicht elektronisch vor, müssen sie retrospektiv digitalisiert werden. Dabei können z.B. folgende Fragen gestellt werden: - Durch welches Verfahren können die Daten digitalisiert werden? - Wie kann eine Zielstruktur aussehen, in die alle Daten ‘hineinpassen’? Wenn eine Datenbasis neu erstellt werden soll, also eine Datenmodellierung entwickelt wird, liegen die Schwerpunkte anders. Hier gilt es zu fragen: - Mit welchen Inhalten hat man es zu tun? Welche Struktur ist diesen angemessen? - Welche Funktionen soll die Struktur haben? Sollen die Daten lediglich in der Struktur archiviert werden? Baut der redaktionelle Prozess auf der Struktur auf? Diese Auflistung ist sicherlich nicht hinreichend, macht aber eines deutlich: Während bei der Strukturierung eines bestehendes Datenbestandes die Struktur von der Form der vorliegenden Daten maßgeblich bestimmt wird, ist die Struktur bei einer Neuerstellung nicht davon determiniert. Außerdem kann eine Datenmodellierung bei einer Neuerarbeitung von Daten strukturführende Der lexikografische Prozess 100 Funktionen im lexikografischen Prozess übernehmen. Die Hauptperspektive bei einer nachträglichen Strukturierung ist demnach: Können die Daten durch einen automatisierten Prozess in die Struktur überführt werden? Bei einer Neuerstellung ist der Blickwinkel hingegen eher: Welche Struktur ist angemessen für die Daten, für den Erstellungsprozess und für die Präsentation(en)? Wie schon an anderer Stelle herausgestellt wurde, ist das hier entwickelte Modellierungskonzept für eine Neuerstellung einer lexikografischen Datenbasis konzipiert. Es unterscheidet sich daher grundsätzlich von Modellierungen, die beispielsweise für die Retrodigitalisierung bestehender Wörterbücher entwickelt werden. 5.2.3 Layoutorientierte vs. inhaltsorientierte Datenauszeichnung Für eine Datenmodellierung ist es von zentraler Wichtigkeit festzulegen, nach welchem Prinzip sie erfolgt bzw. welche Eigenschaft der Daten ausgezeichnet werden soll. Zwei Möglichkeiten sollen hier betrachtet werden: die Modellierung des Layouts der Daten und die Modellierung des inhaltlichen Gehalts der Daten. Im ersten Fall werden vor allem die typografischen Eigenschaften, die die Daten in einer bestimmten Präsentation haben, ausgezeichnet. So wird es beispielsweise beim Frühneuhochdeutschen Wörterbuch (FWB; vgl. Müller 2001) gemacht. Hier sind bei der Dateneingabe neben den lexikografischen Daten Steuerzeichen einzugeben, die die typografische Realisierung im Druck bestimmen. Dies kann illustriert werden an dem folgenden Ausschnitt des Artikels „ 1 pes“, so wie er von den Lexikografen eingegeben wird: $1<h>1*pes,# wohl $kder#; lat. Flexion. [...] Die einzelnen hier vorkommenden Steuerzeichen bedeuten: - $1 Kennzeichnung des Lemmas (Einrückung + halbfett) - $k kursiv - Hochstellungen: <h> hoch - * wieder normal - # Auflösung der jeweils geltenden Kodierung Eine solche Datenauszeichnung soll layoutorientierte Datenauszeichnung heißen. Eine layoutorientierte Datenauszeichnung kann auch mit XML gemacht werden. Ein Ausschnitt aus einer XML-Instanz zu dem oben dargestellten Artikelausschnitt könnte dann folgendermaßen aussehen: Die XML -basierte Modellierung einer lexikografischen Datenbasis 101 <fwb-artikel> <halbfett><hochgestellt>1</ hochgestellt>pes,</ halbfett> wohl <kursiv>der</ kursiv>; lat. Flexion. [...] </ fwb-artikel> Eine layoutorientierte Datenauszeichnung ist immer an eine bestimmte Präsentationsgestalt und damit in der Regel an ein bestimmtes Medium gebunden. Sind die Daten beispielsweise layoutorientiert für eine Buchausgabe ausgezeichnet worden und sollen dann elektronisch publiziert werden, können sie, wenn sie nicht weiter bearbeitet werden, nur in derselben typografischen Gestalt dargestellt werden. Sie sind dann zwar in beiden Medien publiziert, von der Datenauszeichnung aber trotzdem auf das Druckmedium fixiert; die elektronische Version ist lediglich ein Imitat des Buches auf einem elektronischen Datenträger. Anders bei der inhaltsorientierten Datenauszeichnung: inhaltsorientierte Datenaufbereitung heißt hier, dass ein Mensch seine Kenntnisse über den Inhalt der Daten so maschinenlesbar kodiert, dass der Computer diese Kodierung in datenverarbeitenden Prozessen ausnutzen kann. Der Rechner kann dabei nur rein zeichenorientiert arbeiten; die Zeichenketten der Tags sind aber so gewählt, dass sie Aufschluss über den Inhalt der umschlossenen Zeichenketten geben. Diese Form der Datenaufbereitung soll inhaltsorientierte Datenauszeichnung heißen. Mit Weber kann diese Art der Datenauszeichnung auch als ein ‘Explizit-Machen’ des inhaltlichen Gehalts der Daten bezeichnet werden: ‘Explizit machen’ ist zu verstehen als: einem menschlichen Interpretanden IM oder einem künstlichen Simulationssystem IS semantische Interpretationen ermöglichen. Eine gelungene Interpretation kann mit Ausdrücken wie ‘(Wieder)erkennen’, ‘Realisieren’, ‘Verstehen’ bei Menschen und ‘kommunikativ adäquate Verwendung’ bei künstlichen Systemen belegt werden. (Weber 1999, S. 258). Nach dem inhaltsorientierten Strukturierungsprinzip könnte der oben dargestellte Artikel aus dem FWB in einem Ausschnitt einer XML-Instanz folgendermaßen aussehen: <fwb-artikel> <artikelkopf> <lemmaP> <lemma-ansatz><homK>1</ homK><lemmaA>pes</ lemmaA> Der lexikografische Prozess 102 </ lemma-ansatz> </ lemmaP> <wortart-morphologieP> <wortart wortartA="SUBST">wohl <objekt-text>der</ objekt-text> </ wortart> <morphologie>lat. Flexion</ morphologie> </ wortart-morphologieP></ artikelkopf> [...]</ fwb-artikel> Ohne auf Details einzugehen kann man hier sehen, dass nicht die typografischen Eigenschaften der Daten zum Gegenstand der Auszeichnung werden, sondern die Angaben, die sie darstellen. Hier wird die Eigenschaft der Daten ausgezeichnet, die ihre Funktion im Wörterbuchartikel bestimmt. Wenn also gesagt werden kann: Mit der Zeichenfolge „pes“ wird eine normalisierte Form als Lemma angesetzt; d.h. „pes“ ist eine Angabe zum Lemma-Ansatz, dann wird die Zeichenfolge in einer inhaltsorientierten Datenauszeichnung mit dem Element lemma-ansatz ausgezeichnet. Inhaltsorientierte Datenauszeichnung heißt bezogen auf lexikografische Daten daher: In der Datenauszeichnung wird der genuine Zweck, 53 zu welchem der Lexikograf eine bestimmte Angabe ansetzt, maschinenlesbar kodiert. Wieder verdeutlicht an einem Beispiel: Der Lexikograf Oskar Reichmann schreibt im Artikel „besacken“ an eine bestimmte Position die Zeichenfolge „besackung“, damit der potenzielle Benutzer sich Informationen zu einer Wortbildungseinheit erschließen kann. Dementsprechend wird diese Zeichenfolge in einer inhaltsorientierten Datenauszeichnung mit dem Element <wb-einheitA>besackung</ wb-einheitA> ausgezeichnet. Die typografische Realisierung der Daten kann dann extern festgelegt werden. Beispielsweise kann festgelegt werden, dass eine Zeichenfolge, die in der inhaltsorientierten Datenauszeichnung mit dem Element lemmaA ausgezeichnet wurde, in der gedruckten Ausgabe halbfett gesetzt wird. 53 Der genuine Zweck „eines funktionalen Textsegmentes [...] besteht darin, daß es anhand bestimmter Eigenschaften dem potentiellen Benutzer dazu dient, diejenigen Benutzungsziele erreichen zu können, um deren Erreichung willen der Lexikograph das funktionale Textsegment formuliert hat“ (Wiegand 1989a, S. 426). Vgl. auch Wiegand (1996a) und Abschnitt 5.4.1. Die XML -basierte Modellierung einer lexikografischen Datenbasis 103 Eine stringente inhaltsorientierte Datenauszeichnung gewährleistet daher zwei wesentliche Eigenschaften: - Die Datenauszeichnung ist an kein bestimmtes Medium gebunden. - Der inhaltliche Gehalt der Daten ist maschinenlesbar kodiert und damit auch maschinell zugreifbar. Für eine Datenhaltung mit dem Anspruch, medienneutral zu sein und in einer elektronischen Publikation vielfältige Zugriffsmöglichkeiten auf die Inhalte zu bieten, ist eine inhaltsorientierte Datenauszeichnung eine geeignete Lösung, denn die Inhalte ändern sich nicht grundsätzlich - egal, in welchem Medium sie publiziert werden. Im Folgenden sollen zwei Arten der inhaltsorientierten Datenauszeichnung bzw. der inhaltsorientierten Modellierung betrachtet werden. 5.2.4 Layoutbasierte vs. konzeptuelle Inhaltsmodellierung Zwei Wege zu einer Inhaltsmodellierung sollen hier unterschieden werden: die layoutbasierte Inhaltsmodellierung und die konzeptuelle Inhaltsmodellierung. Die erstgenannte Art der Modellierung kann z.B. bei der Retrodigitalisierung gedruckter Wörterbücher gegeben sein, bei der beispielsweise die Satzbänder geparst 54 werden (vgl. u.a. entsprechende Beiträge aus Lemberg/ Schröder/ Storrer (Hg.) 2001 oder Raymond/ Tompa 1988). Der Weg geht dabei über zunächst layoutorientiert ausgezeichnete Daten hin zu einer inhaltsorientierten Auszeichnung. Dies soll wiederum am ersten Abschnitt des Artikels „ 1 pes“ verdeutlicht werden. Die Datengrundlage ist zunächst die Form der Daten, wie sie derzeit beim FWB eingegeben werden: $1<h>1*pes,# wohl $kder#; lat. Flexion. Diese layoutorientierte Datenauszeichnung soll nun automatisch in eine inhaltsorientierte überführt werden, z.B. um eine elektronische Ausgabe des FWB mit Zugriffsmöglichkeiten auf einzelne Angaben entwickeln zu können. Diese Überführung kann allerdings nur dann automatisch erfolgen, wenn automatische Ersetzungs- oder Auszeichnungsregeln formuliert werden können. Diese Regeln können u.a. auf schon bestehende Steuerzeichen zurückgreifen. Das Ergebnis könnte folgendermaßen aussehen: 54 „Ein Wörterbuchparser ist ein Programmsystem, das einen auf Satzband gespeicherten Wörterbuchtext in seine zentralen Gliederungseinheiten, die Wörterbuchartikel, zerlegt und diesen dann, relativ zu einer vorgegebenen Artikelstrukturgrammatik, eine Strukturbeschreibung zuweist.“ (Storrer 1996, S. 245). Der lexikografische Prozess 104 <fwb-artikel><artikelkopf> <lemmaP> <lemma-ansatz><homK>1</ homK><lemmaA>pes</ lemmaA> </ lemma-ansatz></ lemmaP> wohl <objekt-text>der</ objekt-text> lat. Flexion. </ artikelkopf></ fwb-artikel> Hier sind die Steuerzeichen, die eine bestimmte Form der Darstellung im Druck bestimmen, in eine inhaltsorientierte Datenauszeichnung überführt. Die Typografie determiniert damit die Möglichkeiten für eine inhaltliche Auszeichnung der Daten: Das Ziel ist eine inhaltsorientierte Datenauszeichnung, die Basis aber eine layoutorientierte. Deshalb unterscheidet sich diese Auszeichnung von der oben gezeigten inhaltsorientierten Datenauszeichnung. Diese Form der Datenaufbereitung soll deshalb layoutbasierte Inhaltsmodellierung heißen. Dieser Weg ist meist dann einzuschlagen, wenn Daten zuerst für eine gedruckte Ausgabe, später für eine elektronische aufbereitet werden. Die Analysetiefe, die auf diesem Weg erreicht werden kann, ist dabei in der Regel sehr weit von der Tiefe entfernt, die bei einer intellektuellen Analyse erreicht werden kann. Weiterhin stellt sich bei der Übersetzung in die parserspezifische Grammatik auch oft heraus, daß die Tiefe, die bei der maschinellen Analyse der Artikelstruktur erreicht werden kann, begrenzt ist. Dies liegt daran, daß die maschinelle Identifikation der lexikographischen Textsegmente nur anhand der Strukturanzeiger erfolgen kann, die auf dem Satzband identifiziert werden können, und nicht - wie bei der intellektuellen Segmentation - durch das Verständnis des Wörterbuchgegenstands gestützt ist. Im Vergleich zur intellektuell erstellten Artikelstrukturgrammatik müssen deshalb meist Abstriche an die Analysetiefe in Kauf genommen werden. (Storrer 1996, S. 251f.) Ein anderer Weg ist es, die Daten von Anfang an von menschlicher Hand, d.h. auch intellektuell reflektiert, inhaltsorientiert auszuzeichnen. Eine Strukturentwicklung kann dann auf der Konzeption der Wörterbuchartikel aufbauen (genauer siehe 5.4). Die Modellierung sollte darüber hinaus selbst ein Konzept aufweisen, d.h. bestimmten Prinzipien folgen, bestimmte Regeln des Aufbaus haben etc. Eine solche Modellierung soll konzeptuelle Inhaltsmodellierung 55 heißen. Layoutbasierte Inhaltsmodellierung und konzeptuelle 55 Hier ist die Rede von konzeptueller statt von konzeptioneller Inhaltsmodellierung (was analog zur üblichen Bezeichnung konzeptionelle Datenmodellierung wäre), da konzeptio- Die XML -basierte Modellierung einer lexikografischen Datenbasis 105 Inhaltsmodellierung sind damit bestimmte Arten von Modellierung, die zu verschiedenen Formen von inhaltsorientierter Datenauszeichnung führen. Für einen medienneutral konzipierten lexikografischen Prozess und einen computerlexikografischen Prozess ist die konzeptuelle Inhaltsmodellierung die geeignete Art, weil bei dieser Form von Anfang an keine Gestaltungseigenschaften eines bestimmten Mediums Gegenstand der Modellierung sind. Denn wenn lexikografische Daten allein auf die Präsentation in einem gedruckten Wörterbuch hin erarbeitet werden, unterliegt diese Erarbeitung in der Regel vielerlei Restriktionen: Gedruckte Wörterbücher [...] sind hinsichtlich der Präsentation der Text- und Bilddaten - verglichen mit elektronischen Medien - erstens durch die materiellen Gegebenheiten des Datenträgers Papier und seiner Verarbeitungsmöglichkeiten zu einem Buch (oder: zu einer Loseblattsammlung) beschränkt. Sie sind zweitens durch die zu wählenden Datenfixierungssysteme (insbesondere durch das jeweils zu wählende Schriftsystem) beschränkt. Schließlich müssen sie als Ware kalkuliert werden. Dies hat drittens u.a. besonders Beschränkungen hinsichtlich des Druckraums zur Folge. Neben den substanziellen, semiotischen und ökonomischen Beschränkungen, die durch die Datenträger, durch die Datenfixierungssysteme und den Warencharakter von Wörterbüchern gegeben sind, gibt es Festlegungen, die durch die jeweiligen Wörterbuchtraditionen vorgegeben sind und die sich u.U. ebenfalls als Beschränkungen auswirken können. (Wiegand 1995, S. 1129f.) Noch ein weiterer Aspekt soll kurz betrachtet werden: Bei der Anwendung einer konzeptuellen Inhaltsmodellierung werden die Daten in der Regel von den Lexikografen selbst, z.B. in einem XML-Editor, entsprechend ausgezeichnet. Der Status der XML-Tags zu der von ihnen umschlossenen Zeichenfolge ist also (illustriert am oben gezeigten Beispiel): - <lemma-ansatz>pes</ lemma-ansatz> „Die Zeichenkette ‘pes’ ist die vom Lexikografen oder einer anderen autorisierten Person ausgezeichnete als Lemma angesetzte normalisierte Form.“ Bei der layoutbasierten Inhaltsmodellierung ist der Status der XML-Tags zu der von ihnen umschlossenen Zeichenfolgen ein anderer: nell laut DFWB bedeutet: „die Konzeption betreffend“, konzeptuell dagegen: „ein Konzept aufweisend“ ( DFWB ). Da eine Inhaltsmodellierung nach dem hier entwickelten Modellierungskonzept selber ein Konzept aufweisen sollte, ist daher die Bezeichnung konzeptuelle Inhaltsmodellierung treffender. Der lexikografische Prozess 106 - <lemma-ansatz>pes</ lemma-ansatz> „Die Zeichenkette ist von den typografischen Auszeichnungen her maschinell als Lemma-Ansatz erkannt worden.“ Die Anwendung einer layoutbasierten Inhaltsmodellierung und die einer konzeptuellen Inhaltsmodellierung führen daher auch zu einem unterschiedlichen Status der Datenauszeichnung: in dem einen Fall ist die Datenauszeichnung maschinell vorgenommen, im anderen Fall ist sie menschlich reflektiert. Daher können die Lexikografen bei der konzeptuellen Inhaltsmodellierung auch besser dem „formstrukturellen Aspekt der Textqualitätsverantwortung“ (Wiegand 1997, S. 192) gerecht werden. 5.2.5 Angemessenheit der Modellierung Ob eine Struktur angemessen ist oder nicht, ist eine Eigenschaft, die schwer nach klar nachvollziehbaren Kriterien bewertet werden kann. Dieser Aspekt soll hier trotzdem herausgestellt werden, weil er bei einer Modellierung immer berücksichtigt werden sollte. Die Anwendung einer XML-basierten Modellierung sollte im lexikografischen Prozess - abgesehen von der Beschreibungssprache, die von der Modellierung nicht beeinflusst wird - eine Standardisierung der hierarchischen Inhaltsstruktur bewirken. Deshalb gilt für die Modellierung das, was Wiegand allgemein zu Standardisierungen bemerkt: „Die Standardisierung kann gegenstandsadäquat und gegenstandsinadäquat sein [...].“ (Wiegand 2002c, S. 130). Wichtig ist zu diesem Punkt daher vor allen Dingen zu fragen, in welcher Hinsicht die Modellierung angemessen sein soll. Angemessen für eine elektronische Publikation, angemessen für die Darstellung in einer Druckausgabe, angemessen für hypertextuelle Darstellungsformen? Bei einer konzeptuellen Inhaltsmodellierung muss die Struktur primär den Inhalten angemessen sein. Dies ist dann der Fall, wenn die Modellierung den inhaltlichen Gehalt der Daten transparent, d.h. sie maschinell erschließbar macht. Sie ist nicht den Inhalten angemessen, wenn die Struktur ein einengendes Korsett für die inhaltliche Arbeit darstellt, denn dann ist sie gegenstandsinadäquat. Dies heißt auch - wie schon öfter betont - dass die Denkrichtung von den Inhalten ausgeht, nicht von der Präsentation. Dies birgt eine große Chance, da das Denken von der Präsentation die Gefahr birgt, dass schon bei der Erarbeitung „das Endmedium [...] die Forschung [...] diktiert.“ (Bader 1999, S. 9f.). Die XML -basierte Modellierung einer lexikografischen Datenbasis 107 Kammerer scheint diesen Punkt aufzugreifen, wenn er zum computergestützten lexikografischen Prozess bemerkt: An dem letzten Beispiel zeigt sich, wo die Nachteile des computergestützten lexikographischen Prozesses liegen. Angenommen, es sei ein System implementiert, das nur eine desultorisch-alphabetische Makrostruktur generieren kann. Dann könnte ein Wörterbuchartikel wie wa 12 , der wohl die beste Lösung zur Beschreibung einer solchen lexikalischen Einheit ist, nicht erzeugt werden. Der Lexikograph wäre gezwungen, sich für eine Wortart definitiv zu entscheiden und bei der anderen Wortart, u.U. mit einem Kommentar versehen, einen Verweisartikel zu schreiben. Diese Vorgehensweise würde beim Wörterbuchbenutzer eine Sicherheit der Wortartzugehörigkeit suggerieren, die faktisch nicht vorhanden ist. (Kammerer 1995, S. 25f.) Letzten Endes befürwortet Kammerer ein solches Vorgehen dennoch. Meines Erachtens ist ein System, welches Datenkonsistenz auf Kosten lexikografisch angemessener Beschreibung erkauft, den Inhalten gerade nicht angemessen. Die Dominanz von Modellierung, automatischen Erstellungs- oder Sortierungsprozessen etc. über die Inhalte sollte vermieden werden (vgl. auch Wiegand 1998a, S. 235). Diese Form von Angemessenheit sollte bei der Entwicklung einer konzeptuellen Inhaltsmodellierung immer im Auge behalten werden. 5.2.6 Strenge vs. weiche Struktur Ein weiterer etwas schwer zu greifender gradueller Unterschied bei XML- Strukturen ist, ob sie streng oder weich sind. Als grobe Leitlinie kann gelten, dass je mehr optionale Elemente in der DTD vorkommen, je weniger festgelegt ihre Reihenfolge ist und je mehr Attribute optional sind, die Struktur umso weicher ist. So pauschal ist diese Aussage allerdings schwer zu halten, denn es kann durchaus sein, dass die zu strukturierenden Inhalte nicht viel Strenge in der Struktur zulassen. Es ist also eher eine Haltung bei der Strukturentwicklung: Versucht man in der Struktur Richtlinien festzuhalten, wie die Inhaltsstruktur aussehen soll auf die Gefahr hin, dass man die Struktur modifizieren muss, falls nicht beachtete Phänomene auftreten oder geht man eher nach dem Motto ‘Sag niemals nie’ vor und versucht alle Eventualitäten von Anfang an abzubilden? Die Konsequenz bei letzterer Vorgehensweise ist in der Regel, dass eine konsistente Datenerfassung nicht durch die Struktur gestützt werden kann, da zu wenig obligatorische Elemente und zu wenig feste Reihenfolgen vorgegeben sind. Vorgaben können dann wiederum nur über Erfassungsrichtlinien gemacht werden, deren Einhaltung jedoch nicht Der lexikografische Prozess 108 mit Softwareunterstützung geprüft werden kann. Die Datenkonsistenz ist daher bei dieser Form der Dateneingabe oft nicht in dem Maße gegeben, wie es erwünscht ist (vgl. Heyn 1992, S. 27). Ein Beispiel für eine Modellierung, in der möglichst alle Eventualitäten abgebildet werden sollten, war die erste Version der Modellierung in elexiko (früher Wissen über Wörter). Hier wurde auch versucht, schon für alle möglichen kommenden Projekte, die diese Modellierung nutzen könnten, die potenziellen Bedürfnisse zu berücksichtigen. Die Konsequenz war allerdings, dass die Schicht der obligatorischen Angaben im Artikel äußerst schmal war. Hieraus resultierte demgemäß auch, dass den Lexikografen bei der Eingabe der Wörterbuchartikel fast keine Strukturführung geboten wurde. Die Probleme, die aus einer solchen Modellierung resultieren, wurden dabei offensichtlich: Es war weder die einheitliche Verwendung der Möglichkeiten von Datenauszeichung noch Datenkonsistenz gewährleistet. Daher wurde die Modellierung neu konzipiert und grundsätzlich überarbeitet (vgl. Kapitel 6). Das Spannungsfeld ist daher auch an diesem Punkt insgesamt wieder: so streng wie möglich, aber so weich wie nötig, vor allen Dingen angemessen und umsetzbar. Denn die Strenge der Struktur darf wiederum nicht dazu führen, dass für bestimmte Artikel oder Angaben im Artikel die Struktur gar nicht anwendbar ist, wie es z.B. Kammerer in Kauf nimmt, wenn er sagt: Da selbst bei dieser relativ genauen Untersuchung nicht sämtliche Eventualitäten berücksichtigt werden konnten, wäre zu überlegen, ob nicht für jede Position eine zusätzliche Objektart mit jeweils einem unbegrenzten Textfeld eingerichtet werden sollte, die der Lexikograph dann auswählen kann, wenn die alternativen Masken seinen Bedürfnissen nicht gerecht werden. Der Nachteil ist, daß der Lexikograph dann selbst sämtliche Formatierungzeichen eingeben muß, und daß das auf diese Weise erzeugte Textsegment nicht standardisiert ist, was bedeutet, daß auf sämtliche Einzeldaten weder in der Datenbank noch nach einem exhaustiven Parsingvorgang gezielt zugegriffen werden kann. (Kammerer 1995, S. 151) Eine solche Vorgehensweise hat einen inhomogenen Datenbestand zur Folge; dies kann also nicht die Lösung sein. Nach dieser allgemeinen Unterscheidung von Ansätzen einer DTD-Entwicklung sollte deutlich geworden sein, dass die Modellierung einer lexikografischen Datenbasis auch vor dem Hintergrund der in Kapitel 4 genannten Anforderungen vom Konzept her eine maßgeschneiderte Modellierung sein muss, die für die Neustrukturierung eines Datenbestandes entwickelt wird. Die XML -basierte Modellierung einer lexikografischen Datenbasis 109 Die Modellierung sollte eine inhaltsorientierte Datenauszeichnung festlegen und selbst eine konzeptuelle Inhaltsmodellierung sein. Diese allgemeinen Aussagen werden im folgenden Abschnitt als Rahmenbedingungen und Zielsetzungen für das Konzept der Modellierung einer lexikografischen Datenbasis präzisiert. 5.3 Rahmenbedingungen und Zielsetzungen des Modellierungskonzeptes In diesem Abschnitt soll deutlich gemacht werden, welche Rahmenbedingungen für die Entwicklung des Modellierungskonzeptes festgelegt wurden, für welche Art von lexikografischen Projekten es entwickelt wurde und welche Ziele dementsprechend damit verbunden sind und welche nicht. Diese Punkte sind teilweise in den vorangegangenen Kapiteln schon genannt, sollen hier jedoch zusammenfassend aufgeführt werden. Bei der Entwicklung des Modellierungskonzeptes wird vorausgesetzt, dass eine lexikografische Datenbasis neu erstellt werden soll. Die primäre Aufgabe ist also keine Strukturierung bestehender Daten, sondern eine Modellierung neu zu erarbeitender lexikografischer Daten (vgl. 4.1). Das heißt nicht, dass die Richtlinien, die für die Modellierung einer lexikografischen Datenbasis hier entwickelt werden, nicht auch auf die Strukturierung schon vorhandener lexikografischer Daten angewandt werden können. Es bedeutet nur, dass die Richtlinien zunächst für die Erarbeitung neuer lexikografischer Daten gelten und dass bei einer Strukturierung vorhandener Daten je nach Anwendungsfall geprüft werden muss, inwiefern sie anzuwenden sind. Insofern ist das Modellierungskonzept in erster Linie für zukünftige lexikografische Projekte gedacht. Auf bestehende lexikografische Projekte lässt sich das Modellierungskonzept grundsätzlich auch anwenden, allerdings müssen hier vermutlich Überarbeitungen der bestehenden lexikografischen Daten in Kauf genommen werden. Außerdem wird das Ziel verfolgt, die Modellierung einer lexikografischen Datenbasis so auszugestalten, dass aus einer Datenbasis potenziell mehrere Wörterbücher entwickelt werden können, und zwar nicht nur ein Wörterbuch in verschiedenen Medien, sondern auch Wörterbücher bzw. Wortschatzinformationssysteme von unterschiedlichem inhaltlichen Umfang. Darüber hinaus sollen die lexikografischen Daten adaptiv zu Benutzergruppen und Benutzungssituationen unterschiedlich präsentiert werden können. Dies trägt Der lexikografische Prozess 110 auch der in 4.1 genannten Anforderung Rechnung, dass lexikografische Daten flexibel aus einer Datenbasis herausgegriffen werden können sollen. Dies hat für die Modellierung zur Folge, dass eine strikte Trennung zwischen der Datenbasis und Ebene eines einzelnen Wörterbuchs oder Wortschatzinformationssystems vollzogen wird. Dies bedeutet wiederum nicht nur, dass gestalterische Eigenschaften der Daten möglichst aus der Modellierung ausgeklammert werden sollen, d.h., dass keine layoutorientierte Datenauszeichnung vorgenommen werden soll, sondern es bedeutet auch, dass die potenziellen Benutzer der lexikografischen Daten gerade nicht in die Modellierung einbezogen werden. Denn auch damit werden die lexikografischen Daten schon untrennbar mit bestimmten Präsentationsgesichtspunkten verbunden. Dies sind zusammenfassend die Gründe für den Einsatz einer maßgeschneiderten konzeptuellen Inhaltsmodellierung. Es geht hier um das Konzept für die Modellierung einer lexikografischen Datenbasis. Dabei soll auf Ebene dieser Datenbasis mit der Modellierung ein möglichst hohes Potenzial für eine inhaltlich wie gestalterisch möglichst flexible Präsentation der lexikografischen Daten geschaffen werden. Das Ziel ist daher grundsätzlich, zunächst unabhängig von der genauen Planung der Präsentation, mit der Strukturierung der Daten ein möglichst hohes Potenzial an später zu realisierenden Zugriffs- und Darstellungsmöglichkeiten zu erwirken. Im Folgenden wird daher weiter ausgeführt, durch welche Art der Modellierung und entsprechenden Strukturierung dieses Potenzial erreicht werden kann. Welche Auswirkungen dies für die Präsentation hat, wird ansatzweise demonstriert. Denn die Frage nach empfehlenswerten Präsentationsarten von lexikografischen Daten vor allem in einem dynamischen Wortschatzinformationssystem wäre das Thema einer eigenen Arbeit. Die Auszeichnung der lexikografischen Daten nach dem hier entwickelten Modellierungskonzept kann als eine Überführung von Daten zu potenziellen Informationen angesehen werden. Informationen selbst sollen als intraindividuelle Entitäten aufgefasst werden (vgl. Wiegand 1998a, S. 166ff., Wiegand 2000a und Wiegand 2002a). „Daten können allenfalls als potentielle Informationen für Menschen aufgefaßt werden, wenn letztere bestimmte Voraussetzungen erfüllen.“ (Wiegand 1998a, S. 170). Die hier entwickelte Art der Auszeichnung erfüllt meines Erachtens diese Voraussetzungen. Denn die beteiligten Menschen, in diesem Fall die Lexikografen, kodieren bei einer konzeptuellen Inhaltsmodellierung ihr Wissen über den inhaltlichen Gehalt der Daten so, dass aus den kodierten Daten diese Information über Die XML -basierte Modellierung einer lexikografischen Datenbasis 111 den inhaltlichen Gehalt wiederum von Menschen einfacher erschlossen werden kann, weil auch für den Rechner dieser inhaltliche Gehalt zugreifbar ist. So werden die Daten durch die Datenauszeichnung zu potenzieller Information. Trotzdem finden im Rechner nur datenverarbeitende Prozesse statt; der informationserarbeitende Prozess für die Benutzer wird jedoch erleichtert. Das Maximalprogamm der Strukturierung auf Ebene der lexikografischen Datenbasis ist daher auch deshalb sinnvoll, weil auf dem Weg von der Datenbasis zur Präsentation von der Menge der potenziellen Informationen nur die gleiche Menge oder eine Untermenge an potenzieller Information ‘transportiert’ werden kann, nie eine größere Menge. Dies schließt an die Deutung des Entropiebegriffs im 20. Jahrhundert und an die anschließende Deutung von Information an: Gefunden wurde sie zeitgleich durch Claude Shannon und Warren Weaver, die Begründer der Informationstheorie, und Norbert Wiener, den Begründer der Kybernetik. Ihrer Arbeit zufolge ist Information nichts anderes als Negentropie, also Abwesenheit von Unordnung. [...] d.h., dass Information in einem geschlossenen System nicht zunehmen kann. (Rothfuss/ Ried 2001, S. 27) 56 Strukturierung kann damit nicht aus dem Nichts entstehen, da potenzielle Information nicht aus dem Nichts entstehen kann. Um also möglichst flexibel für künftige Präsentationen zu sein, ist es sinnvoll, das Potenzial an Strukturierung auf Ebene der lexikografischen Datenbasis möglichst hoch zu halten. Nun kann man sich fragen, wann die Benutzer der lexikografischen Daten ins Spiel kommen, denn ihre Rolle wurde bisher wenig thematisiert. Es wurde lediglich gesagt, dass die potenziellen Benutzer erst auf Ebene der Präsentation konkret in Erscheinung treten; trotzdem müssen sie natürlich in die Wörterbuchkonzeption einbezogen werden. Daher einige Worte zum Arbeitsprozess und zu den Voraussetzungen für die Entwicklung einer Modellierung, so wie sie hier vorgeschlagen wird. Es wird vorausgesetzt, dass die grundsätzliche inhaltliche Konzeption des Wörterbuchs der Modellierung vorgelagert ist, d.h. dass in dieser Phase festgelegt wird, für welche Benutzerkreise und potenziellen Benutzungssituationen die lexikografischen Daten erarbeitet werden sollen und damit die grundsätzliche Wörterbuchkonzeption 56 Der Terminus Information im Zitat müsste nach der hier verwendeten, an Wiegand anschließenden Auffassung von Daten und Information durch „potenzielle Information“ ersetzt werden. Der lexikografische Prozess 112 festgelegt wird. Da Wörterbücher Gebrauchsgegenstände sind, steht dabei außer Frage, dass hier die potenziellen Benutzer die zentrale Größe bei diesen Überlegungen darstellen. Wiegand unterscheidet bei den „unter wissenschaftlichen Aspekten zentralen Handlungen“ in der Planungsphase „z.B. Handlungen vom Typ - eine Wörterbuchkonzeption erarbeiten - [...] ein Instruktionsbuch schreiben - ein Mikrostrukturenprogramm entwerfen.“ (Wiegand 1998a, S. 139) Da hier eine strikte Trennung der Datenbasis und Präsentation als Prämisse gesetzt wird, muss die Festlegung der Wörterbuchkonzeption deutlich von der Festlegung des Mikrostrukturenprogramms getrennt werden. Im Gegensatz dazu schreibt Kammerer: Eine „vollständig ausgearbeitete Wörterbuchkonzeption liegt vor“, wenn der anvisierte Benutzerkreis, die Inhalte und die Form für alle Texte des Textverbunds Wörterbuch festgelegt sind. [...] Dazu gehört die Bestimmung der Lemmazeichentypen sowie die Bestimmung der zugehörigen abstrakten hierarchischen Mikrostrukturen. (Kammerer 2001, S. 250) Im hier entworfenen Konzept wird dagegen davon ausgegangen, dass zunächst die grundsätzliche Wörterbuchkonzeption und dann ein erster Entwurf des Inhaltsstrukturenprogramms festgelegt wird, das in eine Modellierung überführt wird. Daran schließt sich ein iterativer Prozess an, in dem sich durch Tests des ersten Modellierungsentwurfes und ggf. inhaltlichen Überarbeitungen die letztendliche Modellierung des Inhaltsstrukturenprogramms und des Vernetzungsstrukturenprogramms herauskristallisiert. Dabei wird für die Modellierung zunächst als grundsätzliche Hypothese gesetzt, dass hier die Voraussetzungen dafür geschaffen werden sollen, dass a) potenziell jede angesetzte Angabe zugreifbar ist, b) abzuleiten ist, an welchen Teil eine Angabe adressiert ist, c) jeder Kommentar einer Angabe zugeordnet wird, d) die Vernetzung der Angaben untereinander explizit dargestellt werden kann. So lange ist daher ein konkreter Bezug zu potenziellen Benutzern nicht evident, außer eben der Hypothese, dass potenziell alles für einen Zugriff interessant sein kann und die oben genannten Beziehungen möglichst explizit in der Modellierung abgebildet werden. Dabei beziehen sich diese potenziellen Die XML -basierte Modellierung einer lexikografischen Datenbasis 113 Zugriffsmöglichkeiten zum einen auf die Lexikografen, die mit der lexikografischen Datenbasis arbeiten, zum anderen auf die potenziellen Benutzer der aus der Datenbasis entwickelten Wörterbücher oder Wortschatzinformationssysteme (vgl. Abbildung 10). Dieses Maximalprogramm an Strukturierung muss allerdings mit anderen Zielsetzungen und Rahmenbedingungen in Einklang gebracht werden. Zum einen ist eine möglichst umfangreiche Unterstützung der Lexikografen bei der Erarbeitung der lexikografischen Daten hinsichtlich der Einhaltung der formalen Artikelstruktur anzustreben. Dies passt, wie später zu zeigen sein wird, größtenteils gut mit der Forderung nach einer möglichst granularen Strukturierung der lexikografischen Daten zusammen. Denn auch für die Lexikografen ist eine genaue Vorgabe, wann welche Angabe in welcher Form eingegeben werden soll, von Vorteil. Das Ziel ist daher, dass das früher übliche Instruktionenbuch sich in Hinblick auf die formale Einhaltung der Artikelstruktur erübrigt. Allerdings kann eine zu granulare Strukturierung ab einem gewissen Punkt auch zu aufwändig für die Dateneingabe sein. Dies führt zu der zweiten Zielsetzung, die mit dem oben geforderten Maximalprogramm an Strukturierung zusammen gebracht werden muss: Das hier entwickelte Modellierungskonzept soll in der Praxis anwendbar sein. Ziel sind also nicht in erster Linie Visionen, wie mit lexikografischen Daten losgelöst von realen Bedingungen umgegangen werden kann, sondern die (auch zukunftsweisende) Entwicklung eines Konzeptes für die Modellierung einer lexikografischen Datenbasis, das in heutigen lexikografischen Prozessen angewandt werden kann und somit helfen soll, die aktuelle lexikografische Praxis in gewisser Hinsicht zu verbessern. Falls also ein Maximalprogramm an Strukturierung nicht in sinnvoller Weise umzusetzen ist, wird davon wiederum in sinnvollem Maß abgewichen. Dies betrifft auch die Anwendung bestimmter XML-verwandter Standards. Gibt es z.B. nur teure Softwareprogramme, die einen bestimmten Standard umsetzen, so muss auf den Einsatz dieses Standards im Rahmen des Modellierungskonzeptes verzichtet werden. Da dieses Modellierungskonzept vor allem auf wissenschaftliche Wörterbuchprojekte abzielt, soll damit den äußeren Rahmenbedingungen dieser Projekte Rechnung getragen werden. Für die Entwicklung der Modellierung werden die potenziellen Benutzer und ihre Nachschlagebedürfnisse daher genau dann konkret, wenn vom oben beschriebenen Maximalprogramm an Strukturierung abgewichen werden soll. Denn welche Abweichung als sinnvolles Maß gelten kann, Der lexikografische Prozess 114 kann nur in Beziehung zu den vorausgesagten Bedürfnissen der potenziellen Benutzer festgelegt werden. Der Benutzerbezug ist daher in allgemeiner Weise selbstverständlich immer gegeben, nämlich in der Richtlinie, dass potenziell jede inhaltliche Einheit so genau wie möglich zugreifbar und so flexibel wie möglich darstellbar sein soll. Wenn von dieser grundsätzlichen Richtlinie abgewichen wird, muss dieser allgemeine Bezug konkretisiert werden. Damit wird hier auch empfohlen, dass der- oder diejenige, der oder die für die Modellierung der lexikografischen Datenbasis verantwortlich ist, auf Dauer ein Mitglied des lexikografischen Teams ist. Denn ansonsten kann der Prozess zur Entwicklung des Inhaltsstrukturen- und des Vernetzungsstrukturenprogramms nicht in so enger Abstimmung und nicht so wechselseitig erfolgen, wie es oben skizziert wurde. Dies ist auch deshalb sinnvoll, da zur Entwicklung einer guten Modellierung sowohl texttechnologische und (meta-) lexikografische Kenntnisse vonnöten sind, als auch ein enger Kontakt zu den Lexikografen. Auch kann es günstig sein, wenn die Texttechnologin oder der Texttechnologe im Projekt auch (später) selbst als Lexikograf(in) arbeitet, denn die Hauptarbeit an Modellierung ist hauptsächlich in der Anfangsphase eines Projektes zu leisten. Aber auch im Laufe eines lexikografischen Projektes ist es von großem Vorteil, wenn die Modellierung auf Dauer betreut ist und notwendige Modifikationen immer wieder eingearbeitet werden können. Denn eine Modellierung nach diesem Konzept ist - wie später zu zeigen sein wird - kein einmaliger Aufwand, sondern ein sehr wesentlicher Teil eines lexikografischen Projektes, der auf Dauer auszufüllen ist. Dies gilt auch allgemein für Instruktionsbücher oder Manuals, die nach dem hier vorgelegten Konzept teilweise durch die Modellierung ersetzt werden: Es liegt in der Natur der Sache, dass das Manual kein abgeschlossener Text sein kann. Ein Manual muss parallel zum Fortgang der Arbeiten gepflegt und aktualisiert werden. Ein Manual ist erst abgeschlossen, wenn das lexikographische Projekt, das es begleitet, abgeschlossen ist. (Engelberg/ Lemnitzer 2001, S. 211) Es ist wichtig herauszustellen, dass es in dieser Arbeit nicht um die Entwicklung einer konkreten Software-Umgebung für lexikografische Projekte geht, sondern allein um ein theoretisch fundiertes Konzept zur Modellierung einer lexikografischen Datenbasis, welches anhand existierender Standards in seiner Umsetzung gezeigt wird. Ziel sind daher standardbasierte systemunabhängige Empfehlungen zur Modellierung. Die Einbindung dieser stan- Die XML -basierte Modellierung einer lexikografischen Datenbasis 115 dardbasierten, inhaltlich fundierten Richtlinien in ein konkretes Software- Szenario wäre zum einen zu einzelprojektbezogen und zum anderen würde sie dazu führen, dass das Modellierungskonzept so schnell veraltet wie die empfohlene Software. Dies kann bei der Schnelllebigkeit des Software- Marktes nicht das Ziel einer theoretisch fundierten Arbeit sein. Und genau hierin besteht der Vorteil in der Anwendung von XML und verwandten Standards. Anhand der Umsetzung des Konzeptes in eine XML-basierte Modellierung können die konkrete Anwendbarkeit und die praktische Umsetzung des Modellierungskonzeptes gezeigt werden, ohne an einzelne Software- Produkte gebunden zu sein. Außerdem ist der Aufbau einer Software-Umgebung größtenteils eine informatische Tätigkeit. Die Umsetzung der theoretisch fundierten Richtlinien in eine XML-basierte Modellierung soll anhand von Beispielen demonstriert werden. Allerdings ist es hier nicht sinnvoll, Beispiele aus bestehenden Wörterbüchern zu nehmen. Denn dann würden Beispiele von der Ebene der Präsentation bestehender Wörterbücher für die Illustrierung eines Modellierungskonzepts eingesetzt, welches für die Strukturierung noch zu erstellender lexikografischer Daten auf Ebene der Datenbasis entwickelt wird. Der oben beschriebene Weg würde damit verkehrtherum gegangen, sozusagen die ‘Katze sich in den Schwanz beißen’. Daher können nur einzelne fiktive Beispiele aufgeführt werden, die beispielhaft dafür sein sollen, wie so strukturierte lexikografische Daten aussehen können. Die Umsetzung des Modellierungskonzeptes in der lexikografischen Praxis wird außerdem in umfassender Weise in Kapitel 6 demonstriert. Die Richtlinien für die Modellierung lexikografischer Daten sind projektübergreifend angelegt, d.h., sie müssen auch projekt- und personenübergreifend nachvollziehbar sein. Diese Nachvollziehbarkeit kann u.a. durch ein methodisch klares Vorgehen erreicht werden. Gegenstand der Modellierung sind - wie in Kapitel 3 herausgestellt wurde - lexikografische Daten. Deshalb stellt sich die Frage, ob metalexikografische Forschungen, die die Printlexikografie zum Gegenstand haben und die eine formale Beschreibung der lexikografischen Daten im Wörterbuch bieten, für eine Fundierung von Richtlinien für die Modellierung einer lexikografischen Datenbasis herangezogen werden können. Hier bietet sich die Theorie lexikografischer Texte von Wiegand an. Dieser Theorie wurde zwar manchmal der Vorwurf gemacht, sie sei praxisfern, jedoch wird sie mittlerweile in zahlreichen lexiko- Der lexikografische Prozess 116 grafischen Projekten eingesetzt. „Die Metalexikographie, wie sie von Herbert Ernst Wiegand entwickelt wurde und die als Grundlage für die Planung der neuen Wörterbücher in Südafrika dienen soll, ist keine praxisferne, sondern eine praxisnahe Theorie.“ (Gouws 2001, S. 524; vgl. auch Smit 2002). Für die Modellierung bietet sich diese Theorie deshalb an, weil eines ihrer Ziele eine möglichst genaue, methodisch klare Beschreibung der verschiedenen Strukturen von Wörterbüchern ist. Für die Modellierung sind dabei vor allem die Teilbereiche der Mikrostrukturen (siehe 5.4) und Mediostrukturen relevant (siehe 5.5). Diese Teilbereiche werden daher in den Entwurf der inhaltlichen Konzeption zur Modellierung des Inhaltsstrukturenbzw. des Vernetzungsprogramms mit einbezogen. In Abschnitt 5.4 werden dabei sowohl grundsätzliche Gemeinsamkeiten als auch prinzipielle Unterschiede zwischen den Ansätzen der Theorie lexikografischer Texte nach Wiegand und denen des Modellierungskonzeptes erläutert. In diesem Zusammenhang sei kurz auf die Diskussion in der Wörterbuchforschung um Wörterbuchfunktionen hingewiesen: Im Moment herrscht ein Forschungsstreit zwischen Wiegand und seiner allgemeinen Theorie der Lexikografie (vgl. u.a Wiegand 1998a und 2001) und der modernen lexikografischen Funktionslehre, die vor allem von Bergenholtz und Tarp entwickelt wurde (vgl. u.a. Bergenholtz/ Tarp 2002 und 2003). Ohne dass zu diesem Forschungsstreit Position gezogen werden soll, ist in Bezug auf die Modellierung von lexikografischen Daten festzuhalten, dass sie meiner Meinung nach unabhängig von diesen unterschiedlichen Positionen vorzunehmen ist. Zwar ist es nach der modernen Funktionslehre so: […] functions are the basic elements of lexicographic theory and practice and constitute the leading principle of all dictionaries. Everything in a dictionary, absolutely everything, is to greater or smaller extent influenced by its respective functions. Neither the content nor the form of a dictionary can be conceived without taking the functions into account. (Bergenholtz/ Tarp 2003, S. 177; siehe auch Bergenholtz/ Tarp 2002) In einem Szenario eines lexikografischem Prozesses, wie es hier vorgesehen ist, ist es jedoch denkbar, dass entweder nach Wiegands Paradigma oder dem der modernen lexikografischen Funktionslehre die Daten ausgesucht werden, diese dann strikt nach inhaltlichen Gesichtspunkten - d.h. auch unabhängig von anvisierten Funktionen - modelliert werden, um dann beispielsweise abhängig von anvisierten Wörterbuchfunktionen, Benutzern- und Benutzungssituationen präsentiert zu werden. Dabei werden die inhaltlich klassifi- Die XML -basierte Modellierung einer lexikografischen Datenbasis 117 zierten Daten den jeweils relevanten Benutzungssituationen zugeordnet. Insofern ist das Modellierungskonzept sowohl für die Inhaltswie für die Vernetzungsstrukturen unabhängig von diesem Theorienstreit. Allerdings bietet sich zu einer Fundierung der Richtlinien für eine strikt inhaltsorientierte Auszeichnung der lexikografischen Daten die Theorie Wiegands an, da diese sich in detaillierter Weise mit den formalen Eigenschaften dieser Daten auseinandersetzt. Dies hat jedoch keine einschränkenden Auswirkungen auf den weiteren Umgang mit den Daten. Wie schon am Anfang dieser Arbeit deutlich gemacht wurde, bezieht sich dieses Modellierungskonzept zunächst auf die Sprachlexikografie. Dabei stehen lexikografische Daten für allgemeine, einsprachige deutsche Wörterbücher im Vordergrund. Auch hier heißt diese Einschränkung nicht, dass die Richtlinien nicht auch auf andere lexikografische Projekte übertragbar sind. Sie werden jedoch nur für den eben genannten Gegenstandsbereich ausführlich exemplifiziert. Innerhalb der Textverbundsorte Wörterbuch (vgl. Bergenholtz/ Tarp/ Wiegand 1999) sind die zentralen lexikografischen Daten in der deutschsprachigen Lexikografie in der Regel im Bauteil der Wörterbuchartikel enthalten. Dementsprechend sind die lexikografischen Daten und deren Vernetzung untereinander Gegenstand des Modellierungskonzeptes, die in der Präsentation in den Wörterbuchartikeln stehen (zur Frage, was ein Wörterbuchartikel ist, siehe Wiegand 2003). Jedoch kann dieses Modellierungskonzept auch angewandt werden, wenn ein Teil der lexikografischen Datenbasis beispielsweise als Wörterbuchgrammatik auf der Ebene der Präsentation ausgelagert werden soll. 5.4 Modellierung des Inhaltsstrukturenprogramms 5.4.1 Inhaltliche Konzeption Gegenstand der hierarchischen Inhaltsstruktur sind zunächst allgemein gesagt die lexikografischen Daten in der Datenbasis, die in einem einzelnen Wörterbuch oder Wortschatzinformationssystem in Wörterbuchartikeln präsentiert werden, d.h. eine Teilmenge der gesamten lexikografischen Datenbasis. Diese Teilmenge soll Lexikografische Datenbasis (Inhaltsstrukturen), abgekürzt LD (IS), genannt werden. Trägermenge dieser Teilmenge der lexikografischen Datenbasis sind die lexikografischen Daten, die zur Trägermenge aller konkreten hierarchischen Inhaltsstrukturen der Datenbasis gehören. Der lexikografische Prozess 118 Abb. 11: Veranschaulichung zum Verhältnis der Lexikografischen Datenbasis und der Lexikografischen Datenbasis (Inhaltsstrukturen) [= LD ( IS )] Für die Modellierung der hierarchischen Inhaltsstruktur müssen dabei aus dieser Datenmenge die einzelnen inhaltlichen Einheiten konstituiert und klassifiziert werden. Wie angekündigt wurde, soll für eine Fundierung von Modellierungsrichtlinien der Teilbereich der Mikrostrukturen aus der Theorie lexikografischer Texte von Wiegand ausgewertet werden. Dazu werden zunächst die Grundzüge dieses Teilbereiches der Theorie vorgestellt. Für die Modellierung ist die von Wiegand entwickelte formalisierte Analysemethode zur Segmentation von standardisierten Wörterbuchartikeln, und zwar die Methode der funktional-positionalen Segmentation, von zentraler Bedeutung. Die korrekte Anwendung dieser Methode „führt stets zu funktionalen Textsegmenten sowie zu einer expliziten Kennzeichnung ihrer Positionen innerhalb der linearen Reihenfolge aller Textsegmente eines Wörterbuchartikels“ (Wiegand 1989a, S. 438). Wichtig ist dabei, dass die Segmentation stufenweise erfolgt und auch so abgebildet wird, sodass das, was relativ zu einem möglichst einheitlichen sprachtheoretischen Hintergrund zusammengehört, auch als zusammengehörig erfaßt wird. Eine Strukturdarstellung, die alle unterschiedlichen Textelemente nur als unmittelbare Textkonstituenten des ganzen Artikels darstellt, wäre ganz unbefriedigend, weil sie zu wenig Einsichten in die Struktur vermittelt. (ebd, S. 437) Die funktionalen Textsegmente eines Wörterbuchartikels sind dabei folgendermaßen definiert: Ein funktionales lexikographisches Textsegment ist ein Teil eines Wörterbuchartikels, bestehend aus einer Form und wenigstens einem genuinen Zweck, höchstens aber endlich vielen genuinen Zwecken, der (bzw. die) der Form in ihrer Ganzheit vom Lexikographen zugeordnet wurde(n). (ebd., S. 425) LD (Inhaltsstrukturen) Lexikografische Datenbasis (LD) Die XML -basierte Modellierung einer lexikografischen Datenbasis 119 Unter der Form eines funktionalen Textsegmentes ist dabei seine spezifische grafische Gestalt zu verstehen. Der genuine Zweck eines funktionalen Textsegmentes [...] besteht darin, daß es anhand bestimmter Eigenschaften dem potentiellen Benutzer dazu dient, diejenigen Benutzungsziele erreichen zu können, um deren Erreichung willen der Lexikograph das funktionale Textsegment formuliert hat. (Wiegand 1989a, S. 426) Die wichtigsten Klassen von funktionalen Textsegmenten sind Angaben und Strukturanzeiger, wobei die Strukturanzeiger wiederum in typografische und nichttypografische zu unterteilen sind. Typografische Strukturanzeiger sind beispielsweise Kursiv- oder Fettdruck, nichttypografische Strukturanzeiger sind z.B. Kommata zwischen zwei Angaben. Der Begriff der Angabe ist dabei im Rahmen der Theorie sehr weit gefasst, sodass sein Gebrauch als Terminus nicht mehr unbedingt mit dem pragmatisch eingespielten innerhalb der lexikografischen Werkstattsprache übereinstimmt, z.B. sind auch lexikografische Hinweise oder Verweise als Angaben zu verstehen, die zu zwei besonderen Angabeklassen zusammengefasst werden können. Die Mikrostruktur eines Wörterbuchartikels besteht ausschließlich aus Angaben im Gegensatz zur Artikelstruktur, zu deren Trägermenge jede Klasse von funktionalen Textsegmenten gehören darf. Im Rahmen der Mikrostruktur wird dabei der Wörterbuchartikel formal als größte Angabe aufgefasst, ohne die Unterschiede hinsichtlich der Textualität zu beachten. Die Mikrostruktur eines standardisierten Wörterbuchartikels [...] ist daher diejenige Ordnungsstruktur, die festlegt, welche Angaben aus welchen Angabeklassen in welcher Reihenfolge der Artikel enthält. Die Mikrostruktur kann daher als besonders ausgezeichnete Teilstruktur der vollständigen Artikelstruktur [...] gelten, da sie - neben der Makrostruktur - die ‘Informationsverteilung’, d.h. die Verteilung der Angaben über den Wörterbuchgegenstandsbereich, regelt. (Wiegand 1989a, S. 443) Das Ergebnis einer mikrostrukturellen Analyse eines einzelnen Wörterbuchartikels nach der Methode der funktional-positionalen Segmentation ist die konkrete hierarchische Mikrostruktur eines Wörterbuchartikels. Wird von den konkreten Angaben zu Klassen von Angaben abstrahiert, wird von der abstrakten hierarchischen Mikrostruktur gesprochen. Der Unterschied zwischen konkreten und abstrakten Mikrostrukturen besteht darin, daß bei ersteren die Elemente der Trägermenge Angaben eines ganz bestimmten Artikels sind, aus dessen Analyse seine konkrete Mikrostruktur resultiert [...]. Die Elemente der Trägermenge von abstrakten Mikrostrukturen dagegen sind Mengen von Angaben (und zwar Klassen von Angaben gleichen Zwecks). (ebd., S. 440) Der lexikografische Prozess 120 Die Benennung von Angaben und auch ihre Zuordnung zu Angabeklassen wird aus ihrem genuinen Zweck abgeleitet, so wie er oben bestimmt wurde. „Sucht man nach einer Benennung für diese Klasse, also nach einem Klassennamen (einem einstelligen Prädikat), dann ist es günstig, das Klassifikationskriterium, also hier den Zweck Z, zu berücksichtigen“ (Wiegand 1989a, S. 415). Zur Darstellung des Ergebnisses der stufenweisen funktional-positionalen Segmentation eines Wörterbuchartikels bei gleichzeitiger Strukturierung und Klassifizierung eignen sich nach Wiegand die Mittel der Graphentheorie, genauer die Darstellung als Baumgraphen. Dabei sind die Baumgraphen so nach Konventionen erstellt, dass sich aus ihnen „drei Arten von Informationen über die Struktur eines Wörterbuchartikels erschließen“ lassen: (i) Informationen über die Zugehörigkeit einer Angabe zu einer Klasse von Angaben von gleichem genuinem Zweck (ii) Informationen über die Teil- Ganzes-Beziehungen, in denen die Angaben zueinander und zum Wörterbuchartikel stehen und (iii) Informationen über die lineare links-rechts-Ordnung der Angaben. (Wiegand 1989a, S. 439f.) Dabei können abstrakte und konkrete Strukturen durch ihr Verhältnis der Isomorphie in einem Strukturgraphen dargestellt werden. Der Isomorphismus - und auf Ebene der Strukturdarstellung die formalen Eigenschaften von Baumgraphen - sind die Voraussetzung dafür, daß eine abstrakte hierarchische zusammen mit der isomorphen konkreten hierarchischen Textkonstituentenstruktur eines Artikels in einem Strukturgraphen dargestellt werden können, in dem zwei Baumgraphen kombiniert sind. [...] Bei ihrer Präsentation werden von der konkreten Textkonstituentenstruktur lediglich die terminalen Elemente explizit berücksichtigt, so daß nur die präzedentive Textkonstituentenstruktur direkt erkennbar ist; alle nichtterminalen konkreten Textkonstituenten lassen sich aufgrund des Isomorphismus erschließen. (Wiegand 2002c, S. 121) Ergebnis dieser Methode zur mikrostrukturellen Analyse ist also eine vollständige Segmentierung der Daten in einem Wörterbuchartikel in Angaben mit mindestens einem genuinen Zweck. Gleichzeitig wird die lineare Anordnung der Angaben im gedruckten Wörterbuchartikel abgebildet (vgl. Abbildung 12). Die XML -basierte Modellierung einer lexikografischen Datenbasis 121 Abb. 12: Beispiel für die Darstellung des Ergebnisses einer funktional-positionalen Segmentation nach Wiegand (Wiegand 1989a, S. 439) Die Analysemethode der funktional-positionalen Segmentation wurde anhand von Printwörterbüchern entwickelt und legt die Artikel im Druckraum zu Grunde. Deshalb gilt es zu prüfen, ob sie für die Festlegung von Richtlinien für die Modellierung lexikografischer Daten auf Ebene der Datenbasis nutzbar gemacht werden kann, da letzteres eine strikte Trennung von Datenbasis und Präsentation voraussetzt. Der formalisierte Ansatz der mikrostrukturellen Analyse scheint jedoch vielversprechend für ein fundiertes Konzept zur Modellierung der hierarchischen Inhaltsstruktur. Denn durch formale Methoden werden Regeln für eine nachvollziehbare Modellierung festgelegt. Dies führt wiederum zu einer konsistenten Auszeichnung der lexikografischen Inhalte, die ihrerseits eine wichtige Voraussetzung für deren automatisierte Handhabung ist. Doch welche Teile der oben skizzierten Analysemethode können übernommen oder fruchtbar gemacht werden? Dazu sollen zunächst grundsätzliche Unterschiede zwischen den Ansätzen der Analysemethode und denen des Modellierungskonzeptes deutlich gemacht werden. - Ziel „Der Zweck einer Methode zur Segmentation von Wörterbuchartikels ist u.a. darin zu sehen, intuitives Wissen über Teile von Artikeln und ihre Zusam- Der lexikografische Prozess 122 menhänge in ein möglichst explizites und schriftlich dargebotenes (also exteriorisiertes) Wissen zu überführen“ (Wiegand 1989a, S. 437). Das Ziel ist dabei eine „präzise und nachvollziehbare Segmentation von Wörterbuchartikeln“ zu leisten, die eine der „elementaren Voraussetzungen für eine metalexikografische Textdeskription“ ist (ebd., S. 438). Die Segmentation von Wörterbuchartikeln soll dabei den Ansprüchen wissenschaftlichen Handelns genügen. Das Ziel ist daher insgesamt eine möglichst genaue wissenschaftliche Analyse bestehender Wörterbuchartikel mit dem Ergebnis einer genauen metalexikografischen Textdeskription, die ihrerseits wiederum dazu dienen soll, sowohl die zukünftige lexikografische Praxis verbessern zu helfen als auch die Wörterbuchforschung als wissenschaftliche Disziplin voranzutreiben. „Theoretische Überlegungen sind nützlich zur Veränderung der Praxis und ebenso zur Veränderung anderer Theorien“ (Wiegand 1988, S. 950). Mit dem Modellierungskonzept wird dagegen das Ziel verfolgt, theoretisch fundierte Richtlinien für die Modellierung einer lexikografischen Datenbasis (Inhaltsstrukturen) festzulegen, die praktisch im lexikografischen Prozess anzuwenden sind. Primäres Ziel ist also nicht, die Richtlinien so festzulegen, dass sie eine möglichst präzise Segmentierung der LD (IS) in einzelne Einheiten nach wissenschaftlichen Ansprüchen ermöglichen, sondern das Ziel ist die praktische Anwendbarkeit im lexikografischen Prozess mit den in den vorangegangenen Kapiteln und Abschnitten formulierten Zielen. Dabei sollen diese Richtlinien deshalb theoretisch fundiert sein, damit sie besser nachvollziehbar werden. Bewusst wird dabei jedoch nicht von einer Methode zur Modellierung einer lexikografischen Datenbasis (Inhaltsstrukturen) gesprochen, sondern von Richtlinien. Und diese sind nicht Teil einer Theorie, sondern theoretisch fundiert. Die Richtlinien für das Modellierungskonzept sollen daher so festgelegt sein, dass sie zwar zunächst eine genaue Vorgehensweise zur Konstituierung der einzelnen inhaltlichen Einheiten vorschreiben, von der dann aber Ausnahmen gemacht werden können, wenn sie relativ zum Handlungszweck wohlbegründet sind. Und auch die Beschreibung möglicher Ausnahmen und Vorschläge für den Umgang mit diesen Ausnahmen sind Teil der Richtlinien. In den grundsätzlichen Zielen unterscheiden sich also die Analysemethode und die Richtlinien zur Modellierung. Dies gilt nicht nur für den Teilbereich der Mikrostrukturen, sondern auch für die Mediostrukturen und andere Teiltheorien aus der Theorie lexikografischer Texte. Die XML -basierte Modellierung einer lexikografischen Datenbasis 123 - Ausgangsbasis Die Theorie lexikografischer Texte wurde anhand von bestehenden Printwörterbüchern entwickelt und dient zunächst deren genauer Analyse. D.h., die Aufteilung nach Reihenfolge der Daten, so wie sie im Printwörterbuch vorzufinden sind, bildet die Analysebasis. Die Richtlinien für die Modellierung einer LD (IS) werden dagegen für noch zu erarbeitende lexikografische Daten entwickelt. Diese lexikografischen Daten sollen sowohl als gedruckte wie als elektronische Wörterbücher präsentiert werden können. Die Ausgangsbasis sind auf der einen Seite also endlich viele Wörterbücher auf der Ebene der Präsentation, auf der anderen Seite noch zu erstellende lexikografische Datenbasen. - Ordnung in Teilbereiche Diese verschiedenen Ausgangsbasen haben Auswirkungen auf die Ordnung in Teilbereiche. Im Rahmen der Theorie lexikografischer Texte bestimmen die Eigenschaften der Daten im gedruckten Wörterbuch die Ordnung. Zum Beispiel bildet alles, was in einem Wörterbuchartikel steht, eine konkrete Artikelstruktur. Die Mediostruktur ist von dieser Struktur in dem Sinne abgegrenzt, dass ihre Trägermenge aus genau jenen Angaben besteht, die von den Lexikografen explizit als Verweis auf andere Teile des Wörterbuches angesetzt werden (genauer siehe Abschnitt 5.5). Im Rahmen der Modellierung kann keine Präsentation von lexikografischen Daten zu Grunde gelegt werden. Hier sind die Art der lexikografischen Daten, die Art ihres Aufbaus und ihrer Modellierung in der lexikografischen Datenbasis die entscheidenden Punkte. So entstehen andere Strukturen als die im Rahmen der Theorie lexikografischer Texte. Deshalb kann auch nicht - zumindest nicht im Rahmen dieses Modellierungskonzeptes - die Methode der funktional-positionalen Segmentation direkt auf die DTD-Entwicklung übertragen werden. Diesen Weg schlägt Kammerer jedoch in seinem Aufsatz „XML-getaggte Wörterbuchartikel“ (Kammerer 2001) vor. „Liegen die im Wörterbuch vorgesehenen abstrakten hierarchischen Mikrostrukturen erst einmal fest, kann von diesen jeweils systematisch zu einer DTD übergegangen werden“ (Kammerer 2001, S. 250). Damit nicht für jede abstrakte hierarchische Mikrostruktur eine separate DTD zu definieren sei, schlägt er als Grundlage die „Maximaldatenstruktur“ vor. Der lexikografische Prozess 124 Die Maximaldatenstruktur kann - grob gesehen - als die Überführung von mehreren abstrakten hierarchischen Mikrostrukturen in eine einzige Struktur angesehen werden. Diese Struktur kann weitere Knoten besitzen, die nicht Elemente der Trägermenge der zusammengeführten abstrakten hierarchischen Mikrostrukturen sind. Diese Knoten können beispielsweise dazu genutzt werden, um technische oder administrative Daten zu hinterlegen. (Kammerer 2001, S. 257) Sinn und Zweck dieser Maximaldatenstruktur ist es, „die Anzahl der in einem Wörterbuch potentiell möglichen abstrakten hierarchischen Mikrostrukturen auf ein handhabbares Maß [...] zu reduzieren“ (ebd.). Abgesehen davon, dass viele der in diesem Beitrag vorgeschlagenen Grundsätze nicht den Anforderungen des hier entwickelten Modellierungskonzeptes genügen (vgl. 5.4.3) und dass kein wechselseitiger Prozess zwischen Modellierung und Festlegung der potenziellen Angaben im Artikel angedacht ist, müssen die Ansätze grundsätzlich gegeneinander abgegrenzt werden. Bei Kammerer werden die abstrakten hierarchischen Mikrostrukturen zur Grundlage der Modellierung gemacht. Eine strikte Trennung von Datenbasis und Präsentation ist damit aufgehoben, da die Mikrostruktur gerade auf der Ebene der Präsentation anzusiedeln ist. Ein solcher direkter Weg vom Mikrostrukturenprogramm zur Modellierung kommt hier daher nicht in Frage. Bestimmte Elemente der Methode können jedoch für Richtlinien zur Modellierung der hierarchischen Inhaltsstruktur fruchtbar gemacht werden. Besonders der Teilbereich der funktionalen Segmentation von lexikografischen Daten ist hier interessant, wobei man im Rahmen der Modellierung besser von der funktionalen Aufgliederung der lexikografischen Daten sprechen sollte, da nicht schon bestehende lexikografische Daten, die im Rahmen eines Wörterbuchartikels als Einheit erscheinen, segmentiert werden. Der positionale Aspekt der Methode muss ausgegrenzt werden, da die Modellierung gerade unabhängig von der Präsentation der Daten im Druckraum sein sollte. Allerdings wird über die Präzedenzrelation nicht nur die Reihenfolge der Angaben im gedruckten Wörterbuchartikel abgebildet, sondern auch inhaltliche Zusammenhänge wie Skopus- oder Adressierungsbeziehungen verdeutlicht. Diese inhaltlichen Zusammenhänge, die durch den Textverdichtungsprozess in standardisierten gedruckten Wörterbüchern nicht mehr explizit sind, sind für potenzielle Benutzer jedoch zum Verständnis der Artikeltexte unabdingbar. Die XML -basierte Modellierung einer lexikografischen Datenbasis 125 Bei dem Textverdichtungsprozess geht die Kohäsion (i.S.v. Wiegand 1988, S. 79f.) weitestgehend verloren [...]. Für den durch die Textverdichtung entstehenden Verlust der kohäsiven Voraussetzungen, um die Konstituenten aufeinander zu beziehen, muß es einen lexikographischen Ersatz geben. Diesen liefern die artikelinternen Adressierungsbeziehungen. Ihre Kenntnis erlaubt, daß die Angaben richtig aufeinander bezogen werden; dies ist eine der notwendigen Voraussetzungen für die Gewinnung von lexikographischen Informationen anhand von Artikeltexten. (Wiegand 2002c, S. 129) Diese inhaltlichen Zusammenhänge sind auch für die Modellierung des Inhaltsstrukturenprogramms entscheidend, denn diese sind inhaltlich begründet und unabhängig von einer einzelnen Präsentation. Umso wichtiger ist es, bei der funktionalen Aufgliederung der lexikografischen Daten die Teil-Ganzes- Beziehungen so vollständig wie möglich inhaltlich abzubilden, damit die inhaltlichen Zugehörigkeiten explizit gemacht sind, und die Modellierung insgesamt so aufzubauen, dass diese Zusammenhänge abgebildet oder rekonstruierbar sind. Dieser Anspruch hat zur Folge, dass die lexikografischen Daten auf Ebene der Datenbasis teilweise anders geordnet werden müssen, als man das von gedruckten Wörterbüchern gewohnt ist. Zum Beispiel kann es sinnvoll sein, grammatische Angaben einzelbedeutungsbezogen anzulegen, damit ihr Geltungsbereich immer klar ist. Die hierarchische Inhaltsstruktur soll also so genau wie möglich schon durch ihren hierarchischen Aufbau die Skopusbeziehungen deutlich machen. Dies ist auch deshalb möglich, weil die Form und Reihenfolge, in der die lexikografischen Daten in der LD (IS) abgelegt werden, nicht der Form und Reihenfolge ihrer Präsentation entsprechen muss. Die hierarchische Inhaltsstruktur kann in eine konkrete hierarchische Inhaltsstruktur und in eine abstrakte hierarchische Inhaltsstruktur unterschieden werden. Die Trägermenge einer konkreten hierarchischen Inhaltsstruktur sind Vor-Angaben, die inhaltlich einem konkreten Lemmazeichen zuzuordnen sind. Von Vor-Angaben wird deshalb gesprochen, da Angaben in der Theorie Wiegands wohlbestimmt sind, und zwar als funktionale Textsegmente, die aus einer Angabeform und wenigstens einem genuinen Zweck bestehen (Wiegand 1989a, S. 412). Die Einheiten in der LD (IS) bestehen jedoch nur aus einem genuinen Zweck und natürlich einer schriftlichen Realisierung, die jedoch nicht mit der Angabeform auf Präsentationsebene zu verwechseln ist. Den Terminus Vor-Angabe verwendet auch Wiegand in seinem Szenario eines „Mikrostrukturengenerators“ (Wiegand 1998a, S. 215ff.), Der lexikografische Prozess 126 in dessen Artikelformulare die Lexikografen „nur Vor-Angaben“ eingeben; „das sind Angaben mit einer vorläufigen Angabeform“ (Wiegand 1998a, S. 217). Auf Ebene der Datenbasis wird entsprechend der Ausdruck Lemmazeichen statt Lemmazeichengestaltangabe verwendet, da das Lemmazeichen nur als Ordnungselement dient und andere Formeigenschaften wie die korrekte orthografische Form gemäß den Grundsätzen konzeptueller Inhaltsmodellierung gesonders kodiert werden. 57 Vor-Angaben werden im Folgenden - im Sinne einer kürzeren Ausdrucksweise - mit Angabe V bezeichnet. Trägermenge der abstrakten hierarchischen Inhaltsstruktur sind entsprechend Klassen von Angaben V , die inhaltlich einem Lemmazeichen zuzuordnen sind, und zwar Klassen von Angaben V gleichen genuinen Zwecks. Konkrete und abstrakte hierarchische Inhaltsstrukturen lassen sich als Baumstruktur darstellen. Auch lassen sie sich - wie für die Mikrostrukturen nach Wiegand gezeigt - in einem Strukturgraphen zusammenführen. Die Modellierung soll so aufgegliedert werden, dass die terminalen Elemente, d.h. die Blätter der erzeugten Bäume, nicht weiter aufgliederbare Klassen von funktionalen Textsegmenten mit mindestens einem genuinen Zweck sind. Auch hier soll der jeweilige genuine Zweck des funktionalen Textsegments - der darin besteht, dass es anhand bestimmter Eigenschaften dem potenziellen Benutzer dazu dient, diejenigen Benutzungsziele erreichen zu können, um deren Erreichung willen der Lexikograf das funktionale Textsegment formuliert hat - die Benennung für die jeweilige Klasse liefern. Dies entspricht dem Prinzip für die Datenauszeichnung nach einer konzeptuellen Inhaltsmodellierung, wie sie in 5.2.4 ausgeführt wurde. Die Benennung ist damit gleich motiviert wie im Rahmen der funktional-positionalen Segmentation von Wiegand, doch werden die Benennungen anders realisiert werden. Bei Wiegand sind die einzelnen Klassen von Angaben in Kürzeln benannt wie beispielsweise „BPA“ für „Bedeutungsparaphrasenangabe“. Dies ist im Rahmen der Theorie auch günstig, da hier die Benennungen entsprechend dem wissenschaftlichen Ansatz möglichst kurz, genau und in Schaubildern darstellbar sein sollen. Außerdem wird mit dieser Art der Benennung das Ziel verfolgt, wörterbuchspezifische Termini, die sich in einzelnen Projekten etabliert haben, in eine wörterbuchübergreifende, einheitliche Terminologie zu überführen (vgl. auch Storrer 1996, S. 249). In der Modellierung ist mit der Benennung der Angaben V jedoch ein anderer Handlungszweck verbun- 57 Zur Motivation des Terminus Lemmazeichengestaltangabe vgl. u.a. Wiegand (2002c, S. 134f.). Die XML -basierte Modellierung einer lexikografischen Datenbasis 127 den: Die Modellierung wird im lexikografischen Prozess eingesetzt, d.h., die Lexikografen arbeiten direkt mit diesen Benennungen. Insofern sollten diese möglichst nicht stark verkürzt und so selbsterklärend wie möglich sein. Es kann beispielsweise im Rahmen der Modellierung auch sinnvoll sein, den Lexikografen durch die Benennung in der Modellierung zu signalisieren, dass ein Element ein terminales Element in der Baumstruktur ist. Außerdem ist es im Rahmen dieses Modellierungskonzeptes gerade sinnvoll, wenn diese Benennungen wie die Modellierung insgesamt maßgeschneidert sind. Sie müssen allein unter den Projektbeteiligten eindeutig sein. Allerdings sollte die grundsätzliche Benennungsmotivation projektübergreifend dem hier ausgeführten Ansatz entsprechen (genaue Richtlinien dazu in Abschnitt 5.4.3). Abb. 13: Veranschaulichung zur Benennung einzelner Trägerelemente einer abstrakten hierarchischen Inhaltsstruktur In Abbildung 13 ist zur Veranschaulichung ein fiktiver Ausschnitt aus einer abstrakten hierarchischen Inhaltsstruktur als Baumgraph dargestellt. Dieser Ausschnitt soll vor allem der Veranschaulichung der möglichen Benennung der Trägerelemente einer abstrakten hierarchischen Inhaltsstruktur dienen. Hier ist zu sehen, dass der genuine Zweck (i.S.v. Wiegand 1989a, S. 426) die Benennung für die jeweilge Angabe V -Klasse liefert. Die Benennung ist dabei ausgeschrieben, sodass sie unmittelbar zu verstehen ist. Die terminalen Elemente sind jeweils entweder mit einem „A“ für Angabe oder „K“ für Kommentar gekennzeichnet. Diese Kennzeichnung signalisiert den Lexikografen beim Erarbeiten der Artikel im XML-Editor, dass in diese Felder etwas einzutragen ist (vgl. 5.4.3.2). Als Wurzelelement dient das Element artikel . Dabei ist es wichtig zu beachten, dass damit ein Artikel auf Ebene der lexikografischen Datenbasis bezeichnet ist, kein Wörterbuchartikel in einem artikel lemmazeichenA orthografie [...] form orthografischeA silbenA angabeK formvariante orthografischevarianteA silbenA angabeK [...] Der lexikografische Prozess 128 gedruckten Wörterbuch oder Wortschatzinformationssystem. Denn wie oben ausgeführt wurde, können aus einem Artikel aus der lexikografischen Datenbasis, d.h. allen Angaben, die inhaltlich einem Lemmazeichen zuzuordnen sind, mehrere Wörterbuchartikel auf Ebene der Präsentation werden. Auch die Reihenfolge der Angabe V -Klassen in dieser Baumstruktur sagt noch nichts darüber aus, wie die Daten in einem Wörterbuchartikel präsentiert werden, sondern bezieht sich allein auf die Datenerarbeitung. In diesem Beispiel ist auch zu erkennen, dass in einer konzeptuellen Inhaltsmodellierung verschiedene Angabe V -Klassen, die in gedruckten Wörterbüchern in einer Form zusammengeführt werden, in jeweils einzelne Elemente einzuordnen sind. Beispielweise ist es in allgemeinen, einsprachigen Wörterbüchern üblich, die Lemmazeichengestaltangabe, die korrekte Schreibung und die Silbenangabe in einer Form verdichtet darzustellen. Der Vorteil bei einer granularen Modellierung und dementsprechenden Datenauszeichnung ist jedoch, das u.a. für die Ansetzung des Lemmazeichens eigene Richtlinien angewandt werden können. Es ist beispielsweise denkbar, dass in einem strikt korpusbasierten Wortschatzinformationssystem immer die Schreibung, die in den Korpora am häufigsten nachzuweisen ist, als Lemmazeichen- Angabe angesetzt wird. Als orthografisch korrekte Form wird jedoch die nach der neuen Rechtschreibung gültige Form angegeben. Ein weiterer Vorteil bei einer solchen granularen Inhaltsmodellierung ist, dass Angabe- Kommentare von ihrer Adressierung genau zuzuordnen sind. Beispielweise ist im oben gezeigten Ausschnitt in der abstrakten hierarchischen Inhaltsstruktur vorgesehen, dass Angabe-Kommentare zu den einzelnen orthografischen Formen gegeben werden können. Genauso wie die Unterscheidung von abstrakten und hierarchischen Mikrostrukturen auf die hierarchische Inhaltsstruktur übertragen werden kann, kann auch der Terminus des Mikrostrukturenprogramms fruchtbar angewandt werden. Die linguistisch bestimmten Eigenschaften legen fest, welche Angabeklassen (mit Angaben, die sich auf den Wörterbuchgegenstand beziehen) zu berücksichtigen sind; zu jedem Lemmazeichentyp gehört daher eine Menge von Angabeklassen, auf der bestimmte Ordnungsrelationen definiert sind, so daß zu jedem Lemmazeichentyp eine abstrakte hierarchische Mikrostruktur gehört […]. Die Menge aller abstrakten Mikrostrukturen bildet das Mikrostrukturenprogramm des in P 2 [ein in Gang befindlicher lexikografischer Prozess, Anm. d. Verf.] zu erarbeitenden Wörterbuchs; dieses ist im Instruktionsbuch festgelegt. (Wiegand 1998a, S. 215) Die XML -basierte Modellierung einer lexikografischen Datenbasis 129 Genauso bildet die Menge aller abstrakten hierarchischen Inhaltsstrukturen das Inhaltsstrukturenprogramm einer lexikografischen Datenbasis (Inhaltsstrukturen). Mit dem Inhaltsstrukturenprogramm wird damit die Erzeugung aller zulässigen abstrakten hierarchischen Inhaltsstrukturen lizensiert. Daher ist genau dieses Inhaltsstrukturenprogramm Gegenstand der Modellierung. Man kann somit auch von der Erstellung einer Inhaltsstrukturengrammatik für eine lexikografische Datenbasis sprechen, d.h. der Erstellung einer kontextfreien Grammatik, die festlegt, welche abstrakten hierarchischen Inhaltsstrukturen erzeugt werden können. 58 Abb. 14: Veranschaulichung zu einem beispielhaften Ausschnitt aus einem Inhaltsstrukturenprogramm „x|y“ bedeutet soviel wie „x steht in einer exklusiven Oder-Verbindung zu y“ Die Stufen der funktionalen Aufgliederung der lexikografischen Daten können in einer Baumstruktur dargestellt werden. Dabei werden in dieser Baumstruktur nicht nur relativ zu Lemmazeichentypen die zugehörigen abstrakten hierarchischen Inhaltsstrukturen festgelegt, sondern an jeder 58 Vgl. Storrer (1996, S. 247). Sie sieht einen weiteren Abstraktionsschritt von abstrakten Mikrostrukturen zur „Mikrostrukturengrammatik, die idealiter alle wohlgeformten abstrakten hierarchischen Mikrostrukturen [aller] Wörterbuchartikel erzeugt, bzw. lizensiert“. Der lexikografische Prozess 130 beliebigen Stufe der Hierarchie können Alternativen relativ zu bestimmten zu beschreibenden Eigenschaften des Lemmazeichens abgebildet werden. Ein Beispiel: In einem lexikografischen Projekt wird festgelegt, dass die Grammatik immer einzelbedeutungsbezogen angegeben werden soll. Die Angaben in der Grammatik unterscheiden sich natürlich abhängig davon, welche Wortart dem Lemmazeichen zugeordnet wird. Dementsprechend sind im Inhaltsstrukturenprogramm hier unterschiedliche Äste im Baum angelegt (vgl. Abbildung 14). Genauso können die Verästelungen aufgrund anderer Kriterien innerhalb der Semantik etc. differenziert werden. Diese Differenzierung an den jeweils inhaltlich relevanten Stellen ist sinnvoll, da es viele verschiedene Eigenschaften eines Lemmazeichens gibt, die eine spezielle hierarchische Inhaltsstruktur verlangen. Daher können nicht nur auf der Ebene des Lemmazeichens Kriterien zur Differenzierung angewandt werden. Die Lexikografen arbeiten sich dabei beim Erarbeiten der lexikografischen Daten durch dieses Inhaltsstrukturenprogramm und die damit abgebildete Hierarchie hindurch (vgl. Abschnitt 5.6). Oben wurde gesagt, dass die unterschiedliche Ausgangsbasis - bei der Modellierung die lexikografische Datenbasis, bei der Theorie lexikografischer Texte einzelne Wörterbücher - zu einer verschiedenen Ordnung in Teilbereiche führt. Die hierarchische Inhaltsstruktur als Ordnungsstruktur lexikografischer Daten ist auf der Ebene der lexikografischen Datenbasis anzusiedeln. Aus einer konkreten hierarchischen Inhaltsstruktur können dabei auf dem Weg von der Datenbasis zum gedruckten Wörterbuch und zum Wortschatzinformationssystem eine oder mehrere konkrete hierarchische Mikrostrukturen abgeleitet werden, die auf Ebene der Präsentation zu sehen und ggf. zu analysieren sind. 59 (Vgl. auch 5.7). Dies soll an einem Beispiel verdeutlicht werden: Im Inhaltsstrukturenprogramm für ein bestimmtes lexikografisches Projekt ist vorgesehen, dass - falls es sich beim Lemmazeichen um ein starkes Verb handelt - innerhalb der Grammatik die Stammformen in der 3. Person Singular angeben werden sollen. Wird dann beispielsweise der Artikel zu „gehen“ verfasst, wird die Form „ging“ ein Element der konkreten hierarchischen Inhaltsstruktur des 59 Es ist die Frage, ob es sinnvoll ist, bei Wortschatzinformationssystemen noch von Mikrostrukturen etc. zu sprechen oder ob hier eine eigene Begrifflichkeit entwickelt werden müsste. Dies ist jedoch nicht Gegenstand dieser Arbeit, da diese Fragen auf die Ebene der Präsentation lexikografischer Daten bezogen sind. Die XML -basierte Modellierung einer lexikografischen Datenbasis 131 Lemmazeichens „gehen“ sein. Falls für die Präsentation im gedruckten Wörterbuch entschieden wird, dass alle Stammformen starker Verben als Verweisartikel angelegt werden sollen, dann kann aus dieser Modellierung ein Verweisartikel automatisch generiert werden; z.B. in der Form „ging: 3.P.Sg.Imp. gehen“. Auf Ebene des gedruckten Wörterbuchs handelt es sich dann um zwei Artikel mit jeweils einer konkreten hierarchischen Mikrostruktur, auf Ebene der LD (IS) ist es jedoch nur ein Lemmazeichen mit einer zugehörigen konkreten hierarchischen Inhaltsstruktur. Abb. 15: Veranschaulichung des Verhältnisses von hierarchischen Inhaltsstrukturen (auf Ebene der Datenbasis) und hierarchischen Mikrostrukturen (auf Ebene der Präsentation) (n 1) Damit ist die Modellierung des Inhaltsstrukturenprogramms zusammenfassend folgendermaßen konzipiert: Die Modellierung des Inhaltsstrukturenprogramms erfolgt in Form einer XML-DTD (bzw. eines XML-Schemas), in der alle zulässigen abstrakten hierarchischen Inhaltsstrukturen festgelegt sind. Die lexikografischen Daten zu einem Lemmazeichen in einer zu dieser DTD validen XML-Instanz bilden eine konkrete hierarchische Inhaltsstruktur. Für die Modellierung findet eine funktionale Aufgliederung der zu erstellenden lexikografischen Daten in Klassen von Angaben V mit mindestens einem genuinen Zweck statt. Dieser genuine Zweck bietet auch die Bezeichnung für die jeweilige Klasse. Die terminalen Elemente in der Modellierung, d.h. die Vaterknoten der Blätter des Baumes, sollten nicht weiter zerlegbare Klassen von Angaben V sein. So wird auch sichergestellt, dass alle einzelnen inhaltlichen Einheiten so granular modelliert sind, dass sie direkt maschinell zugreifbar sind. Dabei sollen die Stufen dieser funktionalen Aufgliederung, und damit die inhaltlichen Teil-Ganzes-Beziehungen, so vollständig wie möglich abgebildet werden. Der lexikografische Prozess 132 5.4.2 Standardbasierte Ausdrucksmöglichkeit: XML-DTDs Für die Beschreibung der Überführung eines Inhaltsstrukturenprogramms in eine XML-Modellierung ist die Kenntnis prinzipieller Eigenschaften von mathematischen Bäumen von zentraler Wichtigkeit, da - wie oben gezeigt wurde - abstrakte hierarchische Inhaltsstrukturen immer in einer Baumstruktur dargestellt werden können und auch „XML-Hierarchien im Sinne der Graphentheorie immer eine Baumstruktur aufweisen“ (Hedtstück 2003, S. 132). Bäume bilden daher die Brücke zwischen der inhaltlichen funktionalen Aufgliederung der lexikografischen Daten und ihrer XML-Modellierung. Bevor die Syntax von XML vorgestellt wird, sollen daher prinzipielle Eigenschaften von Bäumen erläutert und die entsprechende Terminologie eingeführt werden. Die folgenden Ausführungen stützen sich dabei wesentlich auf Rothfuss/ Ried (2001, S. 93ff.). 5.4.2.1 Graphen und Bäume Bäume sind spezielle Graphen, wobei die Beschäftigung hier auf gerichtete Graphen eingeschränkt werden soll. Dabei kann ein gerichteter Graph folgendermaßen bestimmt werden: „Ein gerichteter Graph besteht aus einer Menge {a,b,c,...} von Knoten (die gelegentlich auch Ecken genannt werden), zwischen denen Beziehungen bestehen, die gerichtete Kanten genannt werden“ (Rothfuss/ Ried 2001, S. 93). Eine gerichtete Kante wird vollständig beschrieben „durch den Knoten x, an dem sie beginnt, und den Knoten y, an dem sie endet. Sie wird also durch ein 2-Tupel (x, y) von Knoten, vulgo: ein geordnetes Knotenpaar, beschrieben“ (ebd.). Der Knoten x wird dabei als Startknoten, übergeordneter Knoten, direkter Vorgänger oder Vater benannt, der Knoten y dementsprechend als Endknoten, untergeordneter Knoten, direkter Nachfolger oder Sohn. Über die Knoten und Kanten wird nichts vorausgesetzt. Man kann sich allerdings prinzipiell beliebige Zusatzinformationen über Knoten und Kanten merken; in diesem Fall spricht man davon, dass der Graph attribuiert bzw. gefärbt ist. Eine besonders wichtige Art der Attribuierung ist die Ordnung. Ein Pfad durch einen Graphen ist eine Folge von zusammenhängenden Kanten. Ein Graph kann auch Zyklen enthalten. „Zyklen sind Pfade, deren Startknoten mit ihrem Endknoten übereinstimmen“ (ebd., S. 95). Eine wichtige Art von (gerichteten) Graphen sind die „(gerichteten) azyklischen Graphen, abgekürzt DAG für ‘directed acyclic graph’“ (ebd.). Der DAG ist - wie die Benennung vermuten lässt - ein Graph, der keine Zyklen enthält. Ein Baum ist ein spezieller DAG. Eine genaue Definition lautet: Die XML -basierte Modellierung einer lexikografischen Datenbasis 133 Ein Baum B ist ein gerichteter Graph mit einem ausgezeichneten Knoten R und folgenden Eigenschaften: - R ist kein Endknoten; es gibt also keine Kanten, die in R enden. - Alle anderen Knoten von B sind Endknoten von genau einer Kante und jeder Knoten ist von R zugänglich. - R heißt auch die Wurzel des Baums. (Rothfuss/ Ried 2001, S. 95) Folge dieser Definition ist damit unter anderem, dass ein Baum keine Zyklen enthalten kann und dass es von R zu jedem Knoten einen eindeutig bestimmten Pfad gibt. Der Baum ist damit offensichtlich die richtige Methode, um Hierarchien darzustellen. In einem Baum kann man auch Hierarchien verpflanzen, d.h. Teilbäume versetzen. Teilbäume entsprechen dabei „genau der intuitiven Vorstellung, die man sich von ihnen macht - man nehme eine scharfe Schere und schneide irgendeine Kante durch. Das, was aus dem Baum herausfällt, ist ein Teilbaum“ (Rothfuss/ Ried 2001, S. 96). Das Verpflanzen von Teilbäumen entspricht damit dem Verpflanzen von Hierarchien; beim Herausschneiden von Teilbäumen spricht man dabei von pruning, beim Einpflanzen von grafting. Dieses Verpflanzen von Teilbäumen wird wichtig, wenn es in 5.7 um die Darstellung der XML-Daten geht. Mathematische Bäume haben im Übrigen die Besonderheit, dass sie von oben nach unten wachsen. Die Wurzel ist damit der oberste Knoten. Diejenigen Knoten, die nur Endpunkt einer Kante sind, also keine Nachkommen haben, heißen Blätter des Baumes. Nun zur Ordnung von Graphen: Ein Graph heißt geordnet, wenn alle Kanten mit gleichem Startknoten linear geordnet sind. In einem geordneten Graphen kann man von jedem Knoten sagen, welcher seiner Nachbarn ihm unmittelbar vorausgeht und welcher ihm unmittelbar folgt. Dies ist wiederum die Voraussetzung für eine Anwendung wie XPath (XPath), einem XML-verwandten Standard zum ‘Auffinden’ von XML-Daten in einem Dokument. Diese Nachbarn heißen die nächsten linken und rechten Nachbarn. In einem ungeordneten Graphen kann man dagegen vom nächsten Nachbarn nicht sinnvoll sprechen. Ein Baum ist geordnet, wenn er als Graph geordnet ist. Im Gegensatz zu einem beliebigen geordneten Graphen können wir alle Knoten eines geordneten Baumes immer ohne zusätzliche Information in eine Ordnung bringen, die die vorhandene Ordnung ergänzt und alle Knoten untereinander vergleichbar macht. Diese Sortierung heißt topologische Sortierung, Plättung oder auch Serialisierung. Sie erzeugt eine lineare Sortierung aller Baumknoten. (Rothfuss/ Ried 2001, S. 97) Der lexikografische Prozess 134 Dabei gibt es verschiedene Arten der topologischen Sortierung, wovon jedoch die kanonische topologische Sortierung die wichtigste ist. Abb. 16: Kanonisch sortierter Baum Wenn man einen Baum sequenziell abspeichern möchte, muss man ihn zunächst plätten und dann die Knoten zusammen mit einer Beschreibung ihrer hierarchischen Abhängigkeit in der Reihenfolge der Plättung in das Dokument schreiben. Als Beispiel für einen geordneten Baum nennen Rothfuss und Ried ein Fachbuch. Das Inhaltsverzeichnis des Buches zeigt dabei, wie aus den Kapiteln und Unterkapiteln des Fachbuchs auf natürliche Weise eine kanonische lineare Ordnung des gesamten Inhaltsbaumes entsteht. Dieses Beispiel zeigt auch, weshalb Bäume eine natürliche Methode von (traditionell) strukturierten Texten sind. Die Verwandtschaft ist so offensichtlich, dass die Beschreibung als (geplätteter) Baum die wirklich einzige natürliche Datenmodellierung für einen strukturierten Text ist. (Rothfuss/ Ried 2001, S. 98) Dies lässt sich gut auf die Strukturierung lexikografischer Daten in einer Baumstruktur und ihrer Darstellung in Wörterbuchartikeln übertragen. Von diesen Textstrukturen, die ideal als geordnete Bäume dargestellt werden können, sind Elemente wie hypermediale Verknüpfungen deutlich abzutrennen: Ein Hypermedium mit Hyperlinks ist dagegen kein Baum mehr, da schon ein einziger Hyperlink dazu führt, dass das entstehende logische Gebilde zwei Wurzeln hat. Hypermedien enthalten typischerweise auch Zyklen, so dass die richtige Repräsentation des Hypermediums in jedem Fall ein voller Graph ist. (ebd.) An dieser Stelle kann daher formal festgehalten werden: Die hierarchische Inhaltsstruktur zu einem Lemmazeichen muss in einem geordneten Baum dargestellt werden können; alle abstrakten hierarchischen Inhaltsstrukuren können als geordnete Bäume dargestellt werden. Im Inhaltsstrukturenprogramm wird dabei festgelegt, welche abstrakten hierarchischen Inhaltsstrukturen erlaubt sind. Alle Elemente der Modellierung, die diese Baumstruktur durchbrechen, gehören zur Trägermenge der Vernetzungsstruktur. K 1 K 2 K 5 K 6 K 8 K 7 K 9 K 3 K 4 Die XML -basierte Modellierung einer lexikografischen Datenbasis 135 Abb. 17: Erste Veranschaulichung zur Differenzierung von Inhaltsstruktur und Vernetzungsstruktur „ “ bedeutet soviel wie: „gerichtete Kante, die Teil der Inhaltsstruktur ist“ „ “ bedeutet soviel wie: „gerichtete Kante, die Teil der Vernetzungsstruktur ist“ 5.4.2.2 Kurzeinführung in die Syntax von XML Oben wurde herausgestellt, dass Bäume die ideale Darstellungsmöglichkeit für strukturierte Texte sind. Dies gilt insbesondere für lexikografische Daten als hochstrukturierte Texte. Auch aus diesem Grund bietet XML ein sehr gutes ‘Repräsentationsformat’ für den inhaltlichen Aufbau lexikografischer Daten, da XML-Hierarchien im Sinne der Graphentheorie immer eine Baumstruktur aufweisen. Dies ist auch ein Grund für die schnelle Verbreitung von XML als Format zum Datenaustausch: „Programmierer wissen aus Erfahrung, wie leistungsfähig Bäume mit attributierten Knoten sind, und genau das ist die Attraktion von XML als Vehikel z.B. für Datenaustauschprozesse aller Art“ (Rothfuss/ Ried 2001, S. 139). Nun soll die Syntax von XML kurz eingeführt werden, damit zum einen deutlich wird, wie ein Inhaltsstrukturenprogramm in XML abgebildet werden kann und zum anderen die im Rahmen dieser Arbeit gezeigten Beispiele auch ohne vorherige Vorkenntnisse lesbar sind. In diesem Sinne soll der folgende Abschnitt auch als eine Kurzreferenz dienen, wenn im weiteren Teil der Arbeit Verständnisschwierigkeiten bei Beispielen aus XML-Modellierungen auftreten. Bei XML wird grundsätzlich unterschieden in well-formed XML und valid XML. Well-formed XML bedeutet, dass eine XML-Instanz keiner dazugehörigen XML-DTD gehorcht, sondern nur allgemein nach Vorgaben des Standards wohlgeformt ist, d.h., dass sich keine Auszeichnungen überschneiden Der lexikografische Prozess 136 und alle geöffneten Auszeichnungen wieder geschlossen werden. Valid XML setzt dagegen eine dazugehörige DTD voraus, eben um eine XML-Instanz gegenüber der Strukturvorgabe einer DTD validieren zu können. Bei SGML gab es diese Möglichkeit eines SGML-Dokumentes ohne DTD nicht. Es ist daher ungenau und verwirrend, wenn davon gesprochen wird, dass ein „typisches“ SGML-Dokument eine DTD enthalte (Burch/ Fournier 2001, S. 136) oder dass die Struktur „typischerweise“ in einer DTD festgelegt sei (Petelenz 1999, S. 43). Ein SGML-Dokument enthält immer eine DTD; ein XML-Dokument genau dann, wenn es sich um valides XML handelt. Wohlgeformtes XML wird vor allem für den reinen Datenaustausch angewandt. Wenn hier im Folgenden von XML die Rede ist, ist immer valides XML gemeint, da hier Daten nach den Regeln einer bestimmten DTD strukturiert werden sollen. Ein valides XML-Dokument besteht immer aus der XML-Deklaration, in der die Regeln des Standards festlegt sind, einer Dokumenttypdefinition (DTD), in der man die Struktur für eine Klasse auszuzeichnender Daten festlegt und einer XML-Instanz, in der die Daten nach Vorgabe der DTD strukturiert sind. 60 Durch die Möglichkeit, eigene DTDs definieren zu können, setzt sich XML wie SGML prinzipiell von einzelnen Anwendungen wie HTML ab. Der beschriebene Prozess zeigt, warum XML eine Metasprache genannt wird. Eine konkret vorgegebene DTD bildet zusammen mit den grammatischen Produktionen, den Wohlgeformtheits- und den Gültigkeitsbedingungen von XML die konkrete Grammatik, die auf das vorgelegte Dokument angewendet werden soll. Diese Grammatik enthält mehr Produktionen als XML selbst und erzeugt natürlich eine formale Sprache, die wir nennen wollen. Die Sprache baut zwar auf XML auf, aber die DTD und die Gültigkeitsbedingungen von XML liefern einen qualitativ neuen Beitrag. Deswegen können wohlgeformte XML -Dokumente und gültige Dokumente nicht direkt verglichen werden und kann nicht als Teilmenge von XML aufgefasst werden. Die formale Sprache wird folglich in der Literatur XML -Sprache, XML - Applikation oder XML -Anwendung genannt.“ (Rothfuss/ Ried 2001, S. 145) Diese formale Sprache , also eine einzelne XML-Anwendung, legt damit Regeln für die Erzeugung zulässiger Baumstrukturen fest. Die einzelnen XML-Instanzen, die gegenüber der DTD valide sind, sind als einzelne Bäume abzubilden. Für den Anwendungsbereich dieser Arbeit heißt das, dass mit 60 Damit ist im Kontext von XML der alltagssprachliche Terminus „Dokument“ anders belegt. XML -Dokument bezeichnet hier nicht ein einzelnes Dokument in einer Datei, sondern den Verbund von XML -Deklaration, DTD und Instanz; die einzelne Datei mit den Daten ist dabei die Instanz. Die XML -basierte Modellierung einer lexikografischen Datenbasis 137 einer XML-DTD ein Inhaltsstrukturenprogramm vollumfänglich abgebildet werden kann, da so die Regeln für die Erzeugung zulässiger abstrakter hierarchischer Inhaltsstrukturen festgelegt werden können. Wie bereits deutlich wurde, ist ein wichtiges Prinzip von XML das „Validieren“ bzw. „Parsen“. Diese Mechanismen werden in einem XML-Dokument an zwei Stellen angewandt: die einzelne DTD wird zunächst gegen die XML- Deklaration geprüft, d.h. auf ihre Richtigkeit in der Anwendung des Standards; danach kann die Instanz wiederum gegen die DTD geprüft werden, d.h. auf ihre Korrektheit in der Anwendung der DTD. Veranschaulicht kann das wie folgt dargestellt werden: XML-Deklaration DTD Instanz Abb. 18: Verfahren des Validierens innerhalb der unterschiedlichen Teile eines XML -Dokuments „ “ bedeutet soviel wie „wird geprüft auf Richtigkeit in Anwendung der“ Genau die Durchführung dieser Prüfvorgänge nach Regeln des Standards macht XML-Software aus. Software zum Erstellen einer DTD bietet eine Prüfung gegenüber der XML-Deklaration an; in Editoren zum Erstellen von Instanzen kann die jeweilige Instanz gegen eine auszuwählende DTD geprüft werden. Der Prüfmechanismus von einer Instanz gegenüber der zugehörigen DTD ermöglicht dann auch die Strukturführung für die Lexikografen bei der Eingabe der lexikografischen Daten, denn bei der Dateneingabe im XML- Editor kann geprüft werden, ob die eingegebenen lexikografischen Daten gegenüber den in der DTD festgelegten Struktureigenschaften konform sind. Es ist deshalb keinesfalls egal, ob für die Dateneingabe ein XML-Editor eingesetzt wird oder ob die Daten einem ‘normalen’ Textverarbeitungsprogramm eingegeben und später nach XML konvertiert werden. Denn im letzteren Fall kann die strukturführende Funktion der Datenmodellierung nicht ausgenutzt werden. Die Funktion von XML ist dann lediglich die eines Archivformats. Wie wichtig aber die Strukturführung bei der Dateneingabe sein kann, führen u.a. Wiegand (1998a, S. 217ff.) und Heyn (1992, S. 37ff.) aus (vgl. auch 5.6). Im Folgenden soll nun die Syntax von XML kurz vorgestellt werden; der Schwerpunkt liegt dabei auf der Syntax der DTD. Die wichtigsten Bestandteile einer XML-DTD sind Deklarationen und Operatoren. Es gibt Operatoren für die Reihenfolge von Elementen und für die Häufigkeit von Elementen: Der lexikografische Prozess 138 Abb. 19: Operatoren in XML Weiterhin gibt es in der DTD verschiedene Typen von Deklarationen. Der Typ steht immer als Schlüsselwort in Versalien. Generell sind alle Zeichenfolgen in der DTD, die hier in Versalien geschrieben sind, im Standard festgelegte Schlüsselwörter. Abb. 20: Auswahl von Deklarationstypen in XML Die XML -basierte Modellierung einer lexikografischen Datenbasis 139 Eine Element-Deklaration in der DTD setzt sich folgendermaßen zusammen: Abb. 21: Element-Deklaration in XML Ein Element kann - wie in Abbildung 21 gezeigt - aus anderen Elementen bestehen, die dann wiederum in der DTD definiert sein müssen: <! ELEMENT artikel (allgemein, einzelbedeutung+) > Ein Inhaltsmodell eines Elements kann auch aus Fließtext bestehen; dieser wird gekennzeichnet mit dem Schlüsselwort #PCDATA für „parsed character data“. <! ELEMENT lemmazeichenA (#PCDATA) > Ein Inhaltsmodell kann auch aus Fließtext oder aus anderen Elementen bestehen. Eine solche Art von Inhaltsmodell wird „mixed content“ genannt. <! ELEMENT belegtext (#PCDATA | belegwortA)* > Das „ * “ hinter der Klammer bedeutet, dass das Inhaltsmodell in der Klammer mehrfach interpretiert werden kann, d.h., dass in dieses Element in der Instanz direkt Fließtext geschrieben und Teile dieses Fließtextes als Belegwort ausgezeichnet werden können. Ein Beispiel dazu aus einer Instanz: <belegtext>Wilhelmsburg,Hamburgs <belegwortA>internationalster </ belegwortA>Stadtteil [...].</ belegtext> Der lexikografische Prozess 140 Die dritte Möglichkeit ist, dass ein Inhaltsmodell in der DTD als leer definiert ist. In dem Fall steht statt dem Inhaltsmodell das Schlüsselwort EMPTY . Leere Elemente werden häufig als Platzhalter für Standardtexte eingesetzt, die nicht manuell eingegeben werden sollen, sondern für eine Präsentation automatisch generiert werden können, z.B. für Auslassungskennzeichnungen. Sie können auch als Kennzeichnung für Stellen eingesetzt werden, an denen externe Dokumente wie Grafiken eingebunden werden sollen. Eine weitere Einsatzmöglichkeit für leere Elemente ist der Fall, dass die eigentliche Angabe über ein Attribut gemacht werden soll. Auch können leere Elemente zur Strukturführung eingesetzt werden, wenn beispielsweise Angaben als relativ obligatorisch modelliert werden sollen und damit ein Ausweichwert auszuwählen sein muss (siehe 5.4.3): <! ELEMENT keine-angabe EMPTY > In der XML-Instanz werden leere Elemente folgendermaßen dargestellt: <keine-angabe/ > Hedtstück fasst diesen grundsätzlichen syntaktischen Aufbau von XML-DTDs folgendermaßen zusammen: Die Element-Namen einer DTD sind die selbstgewählten Tag-Namen, die wie nichtterminale Symbole auf der linken Seite einer kontextfreien Grammatikregel stehen. Der Tag-Name der ersten Regel des Beispiels entspricht dem Startsymbol. Die Elementbeschreibung stellt die rechte Seite der Grammatikregel dar und besteht aus einem Ausdruck, der mit den von den regulären Ausdrücken her bekannten Operationen Konkatenation oder Sequenz (dargestellt durch das Komma , ), Alternative (senkrechter Strich | ) sowie drei Varianten der Verkettung, nämlich * für ‘nullmal und öfter’, + für ‘einmal oder öfter’ und ? für ‘null- oder einmal’ (Optionalität) gebildet wird. Ansonsten dürfen in den Ausdrücken der rechten Seite sowohl Tag-Namen (nichtterminale Symbole) als auch der Term # PCDATA (Parsed Character DATA ) verwendet werden, der stellvertretend für einen beliebigen unstrukturierten Textstring steht, in dem keine Tags vorkommen. Desweiteren sind runde Klammern als Strukturierungshilfe erlaubt [...]. (Hedtstück 2003, S. 133f.) Neben Elementen gibt es in XML-DTDs Attribute. Als Richtlinie kann dabei gelten, dass mit Elementen allgemein Daten oder Dateneinheiten ausgezeichnet werden. Attribute werden meist dann eingesetzt, wenn etwas über die Dateneinheit, die im Element steht, ausgesagt werden soll. Ein Sonderfall, der schon oben genannt ist, ist der Einsatz von Attributen bei leeren Elementen. Die XML -basierte Modellierung einer lexikografischen Datenbasis 141 Eine Attribut-Deklaration in der DTD setzt sich folgendermaßen zusammen: Abb. 22: Attributwert-Deklaration in XML Ein Attributwert kann über eine bestimmte Werteliste festgelegt werden, wie in der Abbildung oben. Wenn bei der Dateneingabe ein bestimmter Attributwert ausgewählt wurde, sieht das in der Instanz folgendermaßen aus: <genus genusA="neutrum"/ > Der ausgewählte Attributwert wird in der Instanz in Anführungszeichen gesetzt. Ein Attributwert kann auch z.B. aus einem uneingeschränkten Wertebereich bestehen, d.h., es kann freier Text eingegeben werden. In der DTD wird das Attribut dann folgendermaßen definiert: <! ELEMENT artikel (allgemein, einzelbedeutung+) > <! ATTLIST artikel autor CDATA #REQUIRED > Die dazugehörige Instanz sieht beispielsweise folgendermaßen aus: <artikel autor="CMS"> ... </ artikel> Der lexikografische Prozess 142 Am Ende einer Attribut-Deklaration werden Einstellungen festgelegt, von denen hier die häufigsten genannt werden sollen: Das Schlüsselwort #REQUIRED besagt, dass bei der Datenauszeichnung das Attribut immer ausgefüllt, bzw. immer ein bestimmter Wert festgelegt werden muss. #IMPLIED heißt dagegen, dass das Ausfüllen des Attributs fakultativ ist. Ein dritte Möglichkeit ist, einen sog. ‘Default’ für eine Werteliste anzugeben. Dieser Default-Wert steht in Anführungszeichen am Ende der Deklaration. <! ATTLIST artikel autor CDATA "CMS"> Die Festsetzung eines Defaults bedeutet, dass dieser Wert immer automatisch eingesetzt wird, wenn bei der Datenauszeichnung nichts Gegenteiliges ausgewählt wird. Diese Einstellung hat den Nachteil, dass man bei der Datenauszeichnung nicht aufgefordert wird, den Wert zu überprüfen und dass der Wert nicht in der Instanz erscheint. Der Einsatz eines Defaults empfiehlt sich daher ausschließlich dann, wenn nur in sehr wenigen Ausnahmefällen ein anderer Wert ausgewählt werden soll. Neben Elementen und Attributen sind Entities ein weiterer wichtiger Deklarationstyp in einer XML-DTD. Entities sind zu unterscheiden in General Entities und Parameter Entities. General Entities waren im Rahmen von SGML vor allem als ‘character entities’ von Bedeutung, d.h. zur Kodierung einzelner Zeichen. In SGML müssen alle Sonderzeichen, die über 7-Bit-ASCII hinausgehen, kodiert werden. Der 7-Bit-ASCII-Code umfasst 128 Zeichen, die Groß- und Kleinbuchstaben, arabische Ziffern, die üblichen Satzzeichen sowie einige Sonderzeichen abbilden. Sollte also sichergestellt werden, dass die Daten in fast allen Rechnersystemen gelesen werden können, d.h. dass Plattform- und Softwareunabhängigkeit gewährleistet war, mussten die Sonderzeichen und Umlaute als Kombinationen aus 7-Bit-ASCII-Zeichen dargestellt werden. Beispielsweise mussten die Umlaute „ä“, „ö“ und „ü“ und das „ß“ gesondert kodiert werden. Schwierig wird dieses System, wenn Texte verschiedener Kulturen in einem Dokument erscheinen sollen. Außerdem ist auch der ständige Bedarf an neuen Kombinationen für Sonderzeichen problematisch. Deshalb wurden die 1-Byte-Codierungen durch „standardisierte Zeichensätze erweitert, die gemeinsam - durchaus ungenau - als Unicode bezeichnet werden“ (Auer 2004, S. 2). Tatsächlich werden diese Zeichensätze nicht direkt verwendet, sondern es gibt mehrere Unicode transformation format ( UTF )-Algorithmen [...]. Diese bilden die als Zahlen aufgefassten Bitfolgen auf eindeutige Byte-Sequenzen ab und legen zu Beginn des Datenstromes mit der Byte Order Mark ( BOM ) fest, um welche Transformation es sich handelt. (ebd.) Die XML -basierte Modellierung einer lexikografischen Datenbasis 143 An XML-Software wurde daher die Anforderung formuliert, Unicode zu unterstützen. Dabei ist die Kodierung als UTF-8 gebräuchlich, mit dem alle üblichen Sonderzeichen dargestellt werden können, ohne dass grundsätzlich wesentlich mehr Speicherplatz benötigt wird (Auer 2004, S. 3). In XML wird diese gewünschte Kodierung am Anfang der XML-Instanz festgelegt, d.h., sie muss beim Abspeichern ausgewählt werden: <? xml version=‘1.0‘ encoding=‘UTF-8‘ ? > Damit ist das XML-interne Fundament zur vollständigen Unterstützung von Unicode geschaffen. Es bleibt jedoch die Aufgabe von Betriebssystem- Anbietern, Tastatur-Treiber bereitzustellen, welche direkte Unicode-Eingaben erlauben etc. (vgl. ebd., S. 4). Dies ist besonders bei seltenen Sonderzeichen wichtig. Zumindest müssen in XML Sonderzeichen nicht mehr über General Entities festgelegt werden. Insgesamt ist damit die Unterstützung von Sonderzeichen in XML gegenüber SGML deutlich verbessert. Parameter Entities werden in der DTD definiert und auch dort verwendet. Sie werden für Elemente, Attribute oder Inhaltsmodelle eingesetzt, die mehrmals in der DTD vorkommen und so durch eine Entity zusammengefasst werden können. Die Deklaration von Parameter Entities setzt sich folgendermaßen zusammen: Abb. 23: Deklaration von Parameter Entities in XML Der lexikografische Prozess 144 In den Anführungszeichen innerhalb der Entity wird die Zeichenfolge zusammengefasst, die an mehreren Stellen vorkommt. An den entsprechenden Stellen der DTD kann diese Zeichenfolge durch %[Name der Entity]; eingesetzt, bzw. aufgerufen werden. Ein Beispiel: <! ELEMENT bedeutungsparaphrase (paraphraseA, (%zusatz; )*) > Die aktivierte Entity referenziert dabei das Inhaltsmodell, welches in Abbildung 23 dargestellt ist. Aufgelöst ist also in der DTD definiert: <! ELEMENT bedeutungsparaphrase (paraphraseA, (beleg | hinweis | kommentar)*)> Der Einsatz von Parameter-Entities ermöglicht eine konsistentere Modellierung, denn im Falle notwendiger Änderungen müssen diese nur an einer Stelle - an der Entity - vorgenommen werden und nicht an allen Stellen, wo das jeweilige Element, Attribut oder Inhaltsmodell vorkommt. Kommentare dienen in der DTD verschiedenen Zwecken: Zum einen sollten sie zur Gliederung der DTD eingesetzt werden (vgl. 5.4.2.3.4), zum anderen zur Kommentierung eines Elements oder Attributs. Die Kommentierung von bestimmten Entscheidungen in der DTD-Entwicklung, Begründungen zu ihnen etc. sollten während der Entwicklung der Modellierung in der DTD dokumentiert werden. Das ist vor allem dann wichtig, wenn mehrere Projektbeteiligte eine DTD-Arbeitsgruppe bilden. Durch die Kommentare sollte allen der Stand der Überlegungen nachvollziehbar sein. Wenn die DTD abgeschlossen wird, sollten diese Kommentare anschließend in eine DTD-Dokumentation überführt werden (vgl. auch 5.4.2.3.5), sonst wird die DTD zu unübersichtlich. Damit sind alle wichtigen Elemente der Syntax von XML-DTDs eingeführt. Statt in einer DTD können in XML Datenstrukturen auch in einem XML- Schema festgelegt werden. Diese Möglichkeit wurde vor allem von den XML-Anwendern gefordert, die aus dem Datenbank-Bereich kommen, und die vorher wenig mit der Vorgängersprache SGML gearbeitet hatten. Aus dem Bereich der Datenbanken waren diese Entwickler wesentlich mehr Möglichkeiten der Datentypisierung gewohnt, die in XML-DTDs nicht zur Verfügung stehen. Zum Beispiel kann für ein Datum in den üblichen Datenbanken beispielsweise festgelegt werden, dass es die Form (2 Ziffern . 2 Ziffern . 4 Ziffern) haben muss. In dieser Genauigkeit ist dies in XML-DTDs nicht möglich. Eine Antwort auf diese Forderungen nach mehr Datentypisierungsmöglich- Die XML -basierte Modellierung einer lexikografischen Datenbasis 145 keiten in XML-basierter Modellierung ist der XML-Schema-Standard. Rothfuss und Ried sehen daher als Aufgabe für XML (und dementsprechend XML-DTDs) die Modellierung von „Inhalten und deren Struktur“, dagegen für XML-Schemata eher „Kernaufgaben des Content-Management, nämlich Bestandsanfragen und leistungsfähige Typisierung“ (Rothfuss/ Ried 2001, S. 129). Auch im Bereich der Modellierung lexikografischer Daten wird gefordert, die Modellierung in Form eines XML-Schema vorzunehmen (vgl. Geeb 2001). Allerdings ist der Umfang einer Schemadefiniton sehr viel umfangreicher als eine entsprechende DTD. Zum Beispiel würde die Elementdefinition <! ELEMENT bedeutungsparaphrase (paraphraseA, (beleg | hinweis | kommentar)*)> in einem XML-Schema ausgedrückt folgendermaßen aussehen: <Schema xmlns="urn: schemas-microsoft-com: xml-data"> <ElementType name="bedeutungsparaphrase" content="eltOnly" order="seq"> <element type="paraphraseA"/ > <group order="one" minOccurs="0" maxOccurs="*"> <element type="beleg"/ > <element type="hinweis"/ > <element type="kommentar"/ ></ group> </ ElementType> </ Schema> Die Schema-Defition ist daher schwieriger zu lesen. Dies ist meines Erachtens ein hinreichender Grund dafür, eine Modellierung in der Form, wie sie hier empfohlen wird, zunächst in einer XML-DTD auszudrücken. Denn die Modellierung sollte im lexikografischen Team verstanden und gemeinsam besprochen werden können. Dies ist bei XML-DTDs leichter möglich als bei einem XML-Schema. Außerdem können XML-DTDs auch nachträglich - z.T. automatisch - in XML-Schemata umgewandelt werden. Eine Modellierung zunächst in Form von XML-DTDs auszudrücken, ist es also keine Einbahnstraße. Allerdings müssen im Falle einer Umwandlung nachträglich die erwünschten Datentypisierungen oder andere Restriktionen manuell festgelegt werden, die in einer DTD nicht spezifiziert werden können. Der lexikografische Prozess 146 5.4.2.3 „The Well-Dressed-DTD“: einige Voraussetzungen für eine von Menschen lesbare DTD In 5.1.2 wurde als ein Vorteil von XML herausgestellt, dass die Syntax dieser Beschreibungssprache von Menschen leicht lesbar ist. Dies ist auch für das hier entworfene Modellierungskonzept wichtig, damit die Modellierung in Form einer XML-DTD für das lexikografische Team lesbar ist. Dieser Vorteil kann allerdings nur dann genutzt werden, wenn diejenigen, die die DTD schreiben, sich Mühe geben, diese auch übersichtlich zu gestalten. Dementsprechend schreibt Tommie Usdin: There are several reasons to dress up a DTD ; the same reasons good computer programmers have always dressed up programms. The primary reasons are to: - Ensure that it is understood, - Make it easier to maintain, - Show off your brilliant analysis, and - Lighten the shroud of mystery that hangs over densely coded material. [...] DTD s are only human-readable if the creator takes little time to make them readable. (Usdin 1990, S. 1) Es gibt verschiedene Aspekte in einer DTD, die die Übersichtlichkeit und Verständlichkeit der Struktur verbessern. Dies ist die optische Gestaltung der DTD, die Verteilung von Elementen, Attributen und Entities, die Modularisierung von DTDs, die Kommentierung der DTD, die Dokumentation der Struktur und schließlich die Wohlüberlegtheit in der Auswahl der Sprache, in der die DTD entwickelt wird. 5.4.2.3.1 Optische Gestaltung Eine klare optische Gestaltung erleichtert die Lesbarkeit einer DTD. Dies beginnt mit der Schriftart, die man zur Ansicht der DTD auf dem Bildschirm oder auch zum Ausdruck der DTD wählt. In der DTD selbst ist selbstverständlich kein Layout festgehalten; das Layout spielt nur für die Ansicht am Bildschirm und für den Ausdruck eine Rolle. Hier ist eine monospaced- Schrift zu empfehlen, d.h. eine Schrift, in der jedes Zeichen den gleichen Platz beansprucht, z.B. Courier New. Mit dem Einsatz einer solchen Schrift kann man die DTD übersichtlicher gestalten. Eine andere Möglichkeit ist der Einsatz von Tabulatoren. Zur Verdeutlichung ein Ausschnitt aus einer elexiko- DTD in den Schriftarten Arial (Beispiel 1) und Courier New (Beispiel 2). Die XML -basierte Modellierung einer lexikografischen Datenbasis 147 Beispiel 1: <! -- * Genusangaben * --> <! ELEMENT genusA EMPTY > <! ATTLIST genusA genus (maskulinum | femininum | neutrum) #REQUIRED > Beispiel 2: <! -- * Genusangaben * --> <! ELEMENT genusA EMPTY > <! ATTLIST genusA genus (maskulinum | femininum | neutrum) #REQUIRED > Auch wenn der Unterschied in diesem kleinen Ausschnitt noch nicht besonders deutlich zutage tritt, ermöglicht der Einsatz einer monospaced-Schrift bezogen auf die gesamte DTD eine klarere optische Gestaltung, da die Elementnamen, Inhaltsmodelle etc. genau untereinander stehen können. So lässt sich schneller auf einen Blick z.B. der Elementname oder das Inhaltsmodell erkennen. Auch bei Attributlisten sollten die einzelnen Teile der Attributdeklaration an festgelegten Stellen stehen. Gerade bei umfangreichen Attributlisten ist eine solche übersichtliche Darstellung wichtig. Dazu zwei veranschaulichende Beispiele aus den elexiko-DTDs aus dem Bereich der Wortbildung: Zunächst ein Beispiel für eine Attributliste, bei der wenig Wert auf eine klare Gliederung gelegt wurde. Hier sind zwar die Attributnamen unter das Inhaltsmodell gesetzt, doch die Wertelisten sind relativ ungeordnet: <! -- Basis der Ableitung (explizite Derivation) --> <! ELEMENT exd-basisA (#PCDATA) > <! ATTLIST exd-basisA basistyp (adjektiv | adverb | pronomen | nomen | verb | konfix | unikale | verbalphrase | nominalphrase | praepositionalphrase | satzeinheit | andere) #REQUIRED %vokalalternation; tilgung (e-wortende | e-wortinnern | en-wortende | er-wortende | keine) #REQUIRED ersetzung (ell-durch-all | andere) #IMPLIED %lesart-refid; > In diesem Beispiel lässt sich nicht gut auf einen Blick erkennen, wie viele und welche Attribute dem Element zugeordnet sind, da die Attributnamen nicht herausgestellt sind. Nachfolgend die gleiche Attributliste, bei der nun auch die Wertelisten geordnet sind. Es dürfte augenscheinlich werden, dass dieses zweite Beispiel wesentlich besser zu lesen ist. Der lexikografische Prozess 148 <! -- Basis der Ableitung (explizite Derivation) --> <! ELEMENT exd-basisA (#PCDATA) > <! ATTLIST exd-basisA basistyp (adjektiv | adverb | pronomen | nomen | verb | konfix | unikale | verbalphrase | nominalphrase | praepositionalphrase | satzeinheit | andere) #REQUIRED %vokalalternation; tilgung (e-wortende | e-wortinnern | en-wortende | er-wortende | keine) #REQUIRED ersetzung (ell-durch-all | andere) #IMPLIED %lesart-refid; > In dem zweiten Beispiel sieht man sofort, dass dem Element die Attribute basistyp , vokalalternation , tilgung , ersetzung und lesartrefid zugeordnet sind. An den Beispielen wird deutlich, wie wichtig eine gute optischen Gestaltung für die Lesbarkeit einer DTD ist. 5.4.2.3.2 Verteilung von Elementen, Attributen und Entities Es ist von den Regeln der XML-Syntax nicht festgelegt, in welcher Reihenfolge Objekte in einer DTD aufzuführen sind. Man kann daher beispielsweise zunächst alle Elemente definieren und danach erst alle Attribute auflisten. Auch die Reihenfolge der Elemente in der DTD ist nicht festgelegt, d.h., die Elemente müssen nicht definiert werden, bevor sie in einem Inhaltsmodell eingesetzt werden. Nur für Parameter Entities gibt es eine Festlegung bezüglich ihrer Reihenfolge: sie müssen zunächst in der DTD definiert werden, bevor sie in einem Inhaltsmodell eingesetzt werden können. In der DTD ist also eine sehr flexible Aufteilung von Elementen, Attributen und Entities möglich. Man sollte diese Flexibilität jedoch mit eigenen Richtlinien eingrenzen, damit die gesuchten Elemente oder Attribute in der DTD schnell aufzufinden sind. Als Vorschlag für eine solche Verteilung können die folgenden Richtlinien gelten: - In der DTD werden zunächst alle Entities definiert. Diese werden aufgeteilt in drei Gruppen: Entities für Attribute, Entities für Elemente und Entities für Inhaltsmodelle. Diese Gruppen werden optisch z.B. durch eine vorangestellte Reihe Sternchen (als Kommentar) hervorgehoben. Die XML -basierte Modellierung einer lexikografischen Datenbasis 149 - Auf die Entities folgt das Haupt- oder Wurzelelement. Dieses ist auch durch eine Reihe Sternchen oder Gleichheitszeichen optisch hervorgehoben. - Auf das Hauptelement folgen die mehrfach vorkommenden Elemente, d.h. Elemente, die in mehreren Inhaltsmodellen vorkommen. Damit diese schnell aufgefunden werden können, stehen sie alphabetisch geordnet unter dieser Rubrik. - Auf die mehrfach vorkommenden Elemente folgen alle weiteren Elemente in folgender Reihenfolge: Zunächst werden die unmittelbaren Konstituenten des Hauptelements definiert. Daraufhin folgen wiederum deren unmittelbaren Konstituenten und deren weitere Konstituenten. Die verschiedenen ‘Hierarchiestufen’ sind optisch gekennzeichnet. Ist eine Konstituente in mehreren Inhaltsmodellen verwendet, wird sie unter die mehrfach verwendeten Elemente eingeordnet. Ein Sonderfall ist es, wenn das Inhaltsstrukturenprogramm so umfangreich ist, dass es auf mehrere DTDs verteilt werden muss. Dann kann es sinnvoll sein, zur besseren Übersichtlichkeit ein DTD-Modulsystem aufzubauen. 5.4.2.3.3 Modularisierung von DTDs Damit der Anspruch, dass eine DTD gut von Menschen lesbar sein sollte, erfüllt werden kann, sollte eine DTD nicht zu umfangreich sein. Denn ansonsten kann auch mit einem wohlüberlegten Aufbau der DTD keine gute Übersicht garantiert werden. Deshalb war es z.B. bei elexiko sinnvoll, das Inhaltsstrukturenprogramm in mehreren DTDs abzubilden, da es auf Seiten der XML-Modellierung aus mehr als 430 Elementen besteht. In solchen Fällen empfiehlt es sich, eine DTD als Kopfstruktur anzulegen, in dem die zugehörigen Einzel-DTDs eingebunden werden und das Hauptelement definiert wird. Die unmittelbaren Konstituenten des Hauptelements und deren weitere Unterstruktur können dann in einzelne DTDs aufgeteilt werden. Auch sollte eine gesonderte DTD angelegt werden, in der alle Entities und mehrfach vorkommenden Elemente aufgeführt werden. Die einzelnen DTDs werden über Entities eingebunden. Nachfolgend ein Beispiel aus elexiko aus der Kopf-DTD für Einwortlemmata: Der lexikografische Prozess 150 <! -- ============= eingebundene elexiko-DTDs ============= --> <! -- DTD fuer allgemeine Objekte --> <! ENTITY % allg-objekte.dtd SYSTEM "allg-objekte.dtd" > %allg-objekte.dtd; <! -- DTD fuer lesartenuebergreifende Angaben (EWL) --> <! ENTITY % ewl-allgemein.dtd SYSTEM "ewl-allgemein.dtd" > %ewl-allgemein.dtd; <! -- DTD fuer lesartenbezogene Angaben (EWL) --> <! ENTITY % ewl-lesart.dtd SYSTEM "ewl-lesart.dtd" > %ewl-lesart.dtd; Durch diese Modularisierung der DTDs wird auch bei einem sehr umfangreichen Inhaltsstrukukturenprogramm eine gute Übersichtlichkeit und ein guter menschlicher Zugriff auf die Modellierung sichergestellt. 5.4.2.3.4 Kommentierung der DTD Neben der übersichtlichen optischen Gestaltung der DTD und einer geregelten Verteilung von Elementen, Attributen und Entities ist die Kommentierung der Entities, Elemente und Attribute sehr wichtig. Nur so kann ein Leser der DTD die Struktur nachvollziehen. Bei den Kommentaren in der DTD kann man zwischen primär der Orientierung und primär der Erläuterung der Struktur dienenden Kommentaren unterscheiden. 61 Zu den primär der Orientierung dienenden Kommentaren zählen z.B. kurze Kommentare vor einer Element- oder Entity-Deklaration. Jedem Element und jeder Entity sollte ein solcher Kommentar vorangestellt sein, in dem der Namen des Elements, bzw. der Entity aufgelöst oder kurz erläutert wird; wie in obigem Beispiel die Kurzerläuterung „DTD für lesartenbezogene Angaben (EWL)“ vor der entsprechenden Entity. Gleichzeitig sollten diese Kommentare durch ihre Gestaltung so weit wie möglich die Hierarchiestufen der DTD widerspiegeln, denn auch dieses Mittel erleichtert die Orientierung in der Struktur erheblich. Orientierende Kommentare sind außerdem z.B. der Name der DTD, das Datum der Erstellung und die Entwurfs- oder Versionsnummer, die in jeder DTD stehen sollten. 61 Zwischen diesen beiden Arten von Kommentaren gibt es keine scharfe Trennung, da sich im Prinzip jeder der Orientierung dienende Kommentar auch auf die Struktur bezieht und genauso jeder der Erläuterung der Struktur dienende Kommentar auch eine bessere Orientierung fördert. Die XML -basierte Modellierung einer lexikografischen Datenbasis 151 Die der Erläuterung der Struktur dienenden Kommentare sollten, wie oben schon erwähnt, in der Entwurfsphase in der DTD den Stand der Überlegungen spiegeln. Später empfiehlt es sich, diese Kommentare in eine Dokumentation zu überführen. 5.4.2.3.5 Dokumentation der DTD Wie im Zitat von Tommie Usdin schon gezeigt wurde, ist die Dokumentation der DTD vor allem deshalb wichtig, damit die Struktur für andere nachvollziehbar wird. Für die an der DTD-Erstellung Beteiligten soll eine Dokumentation auch verhindern, dass bei einer Überarbeitung der Modellierung nicht Fragen wieder aufgebracht werden, die zwar beantwortet wurden, deren Klärung aber nicht dokumentiert und daher vielleicht wieder vergessen wurde. Dies wird vor allem dann notwendig, wenn sich die DTD-Entwicklung über einen langen Zeitraum hinzieht oder sich die Gruppe der Beteiligten verändert. Die DTD-Dokumentation kann auch dafür genutzt werden, dass ein Redaktionshandbuch in die Dokumentation integriert wird, in dem Hinweise für die Beschreibungssprache einzelner Angaben V stehen, die über die DTD-Modellierung nicht abgebildet werden können. Denn im lexikografischen Prozess arbeiten die Lexikografen in der XML-Struktur, sodass auch Fragen der Standardisierung der Beschreibungssprache analog zu dieser XML-Struktur auftauchen und darüber zugreifbar sein sollten. Daneben kann eine DTD-Dokumentation für eine weitere wichtige Aufgabe eingesetzt werden: Werden z.B. in einem medienneutral konzipierten lexikografischen Prozess die DTD und die dazugehörigen Instanzen an einen Satzbetrieb weitergegeben, der eine gedruckte Ausgabe aus den Daten entwickelt, und an einen Dienstleister, der aus den Daten eine elektronische Ausgabe entwickelt, dann sollte die Struktur, in der die Daten ausgezeichnet sind, möglichst selbsterklärend sein. Denn darauf soll die Entwicklung einer Präsentation aufbauen. Aus diesem Grund kann es als sinnvoll erachtet werden, wenn in einem solchen Fall die Dokumentation Hinweise für die Entwicklung einer gedruckten oder elektronischen Ausgabe enthält. Eine DTD-Dokumentation kann dabei unterschiedlich organisiert werden. Eine Möglichkeit ist, die Dokumentation systematisch aufzubauen, d.h., in der gleichen Anordnung die Strukturphänomene zu erläutern, wie sie in der DTD definiert sind. Eine andere Möglichkeit ist, alle Entities bzw. Elemente alphabetisch zu sortieren. In dem Fall kann die Dokumentation besser als Der lexikografische Prozess 152 Kurzreferenz dienen, da z.B. ein einzelnes Element über die alphabetische Anordnung schneller zugreifbar ist. Wird nur eine Dokumentation entwickelt, sollte sie als Kurzreferenz aufgebaut werden. Es gibt jedoch auch Software zur DTD-Dokumentations-Erstellung, in der beide Formen der Dokumentation ohne zusätzlichen Aufwand verbunden werden können. 62 5.4.2.3.6 Sprache Eine Entscheidung, die vor Beginn einer DTD-Entwicklung getroffen werden muss, betrifft die Auswahl der Sprache, in der die Elemente, Attribute, Attributwerte und Entities benannt werden sollen. Die Schlüsselwörter in der DTD sind davon nicht betroffen, da diese vom XML-Standard festgelegt sind. Zur Auswahl der Sprache gibt es nur zu bemerken: Aus Gründen der Verständlichkeit sollte diese Entscheidung von den Projektbeteiligten abhängig gemacht werden. Es sollte immer die Sprache gewählt werden, die die Projektbeteiligten am besten verstehen. Handelt es sich um ein internationales Projekt, ist in der Regel Englisch die gemeinsame Sprache. Dementsprechend sollte die DTD dann auf Englisch geschrieben werden. Handelt es sich um ein Projekt, bei dem alle Projektbeteiligten aus dem deutschsprachigen Raum kommen, gibt es in der Regel keine Gründe, die DTD nicht auf Deutsch zu schreiben. Eine Mischung aus Englisch und Deutsch sollte aber auf jeden Fall vermieden werden. Damit sind die zentralen Voraussetzungen dafür aufgeführt, dass eine Modellierung in Form von XML-DTDs gut von Menschen lesbar ist. 5.4.3 Richtlinien für die XML-basierte Modellierung des Inhaltsstrukturenprogramms In den vorangegangenen Abschnitten wurde zum einen das Konzept der hierarchischen Inhaltsstruktur und zum anderen Grundlegendes zu XMLbasierter Modellierung eingeführt. Kurz zusammengefasst wurde dabei Folgendes festgelegt: Durch die XML-DTD bzw. durch das DTD-Modulsystem werden alle zulässigen abstrakten hierarchischen Inhaltsstrukturen lizensiert. Diese Menge aller zulässigen abstrakten hierarchischen Inhaltsstrukturen soll Inhaltsstrukturenprogramm heißen. Die Erarbeitung dieses Inhaltsstrukturenprogramms muss damit von den konzeptionellen Grundzügen her der 62 Ein Beispiel ist die Software DTD help der Ovidius GmbH, die auch in elexiko eingesetzt wurde. Die XML -basierte Modellierung einer lexikografischen Datenbasis 153 DTD-Entwicklung vorgelagert sein. Das Inhaltsstrukturenprogramm wird dann wechselseitig mit der DTD-Entwicklung verändert und verfeinert. Die XML-DTD(s) werden anschließend für die Erarbeitung der lexikografischen Daten eingesetzt, i.d.R. werden die Daten in einem XML-Editor geschrieben. Damit entstehen konkrete hierarchische Inhaltsstrukturen, zu deren Trägermenge Angaben V und die zugehörigen XML-Auszeichnungen gehören. Nun gilt es diese beiden Bereiche - das Konzept der hierarchischen Inhaltsstruktur und XML-basierte Modellierung - zusammenzubringen und zu zeigen, wie eine DTD nach dem hier vorgestellten Modellierungskonzept in einem lexikografischen Projekt entwickelt werden soll. Die Modellierungsrichtlinien 63 für die Entwicklung des XML-basierten Inhaltsstrukturenprogramms müssen dabei in zwei Gruppen unterteilt werden: in Richtlinien für die Modellierung des hierarchischen Aufbaus des Inhaltsstrukturenprogramms und Richtlinien für die Modellierung der terminalen Elemente. 5.4.3.1 Modellierung des hierarchischen Aufbaus des Inhaltsstrukturenprogramms Beim grundsätzlichen Aufbau der Baumstruktur eines Inhaltsstrukturenprogramms kommt es zunächst vor allem darauf an, die inhaltlichen Teil- Ganzes-Beziehungen so vollständig wie möglich abzubilden. Denn je genauer diese abgebildet sind, desto besser lassen sich für die Präsentation benutzerfreundliche Angabestrukturen entwickeln, d.h. (abstrakte und isomorphe konkrete) hierarchische Mikrostrukturen mit Adressierung (vgl. Wiegand 2002c, S. 150). Diese Abbildung der Teil-Ganzes-Beziehungen ist damit vom Ansatz her der partitiven Relation bei den Mikrostrukturen nach Wiegand zu vergleichen. Eine partitive Strukturierung und ihre Abbildung mittels Strukturgraphen führen allerdings nur dann zu fruchtbaren Einsichten über die Strukturen von Wörterbuchartikeln, wenn man über genügend und angemessene ‘höhere Kategorien’ [...] verfügt, mittels derer das, was relativ zu einem möglichst einheitlichen sprachtheoretischen Hintergrund zusammengehört, auch als zusammengehörig erfaßt wird. Eine Strukturdarstellung, die alle unterschiedlichen Textelemente nur als unmittelbare Textkonstituenten des ganzen Artikels darstellt, wäre ganz unbefriedigend, weil sie zu wenig Einsichten in die Struktur vermittelt. (Wiegand 1989a, S. 437) 63 Zum Aufbau von Modellierungsrichtlinien siehe auch Sperberg-McQueen/ Huitfeld/ Renear (2000). Der lexikografische Prozess 154 Die Strukturgraphen nach Wiegand legen dabei den gedruckten Wörterbuchartikel zu Grunde. Die Modellierung der Teil-Ganzes-Beziehungen auf Ebene der lexikografischen Datenbasis bezieht sich dagegen allein auf die inhaltlichen Zusammenhänge und noch nicht auf eine mögliche Präsentation der Daten. Deshalb ist es sinnvoll, im Inhaltsstrukturenprogramm allein das in Angabegruppen zusammenzufassen, was inhaltlich zusammengehört. Für die Daten von allgemeinen, einsprachigen Wörterbüchern bedeutet dies vor allem eine Trennung in zwei Angabegruppen: in einzelbedeutungsübergreifende und einzelbedeutungsbezogene Angaben. 64 Neben diesen Angabegruppen gibt es als dritten grundsätzlichen Bestandteil die Angabe des Lemmazeichens, die vor allem Adressierungsfunktion hat. Die Angabe der korrekten Schreibung wird in einer konzeptuellen Inhaltsmodellierung - anders als bei gedruckten Wörterbüchern üblich - nicht gleichzeitig mit der Angabe des Lemmazeichens gemacht. Das Wurzelelement eines Inhaltsstrukturenprogramms ist das Element artikel , wobei auch hier wiederum der Artikel auf Ebene der lexikografischen Datenbasis gemeint ist, der für die Präsentation in mehrere Artikel aufgeteilt sein kann. Ein Artikel enthält dabei alle Angaben, die inhaltlich dem Lemmazeichen zuzuordnen sind. Damit ergibt sich als Kopfstruktur eines Artikels folgende Modellierung (die Benennungen der Elemente sind eine Möglichkeit): <! ELEMENT artikel (lemmazeichenA, allgemein, einzelbedeutung+) > Sind nicht die Daten für ein allgemeines, einsprachiges Wörterbuch die Grundlage der Modellierung, sondern andere Daten, muss diese Kopfstruktur ggf. angepasst werden. Allerdings bleibt das grundsätzliche Prinzip bestehen. Wichtig ist, dass die Modellierung vom Wurzelelement an so aufgegliedert wird, dass die Adressierungsbeziehungen so allgemein wie möglich formuliert werden können. Im obigen Beispiel kann beispielsweise vereinheitlicht werden, dass alle Angaben, die unter dem Element allgemein zusammengefasst sind, an das Lemmazeichen adressiert sind. Alle Angaben, die unter eine einzelbedeutung eingeordnet sind, sind zunächst an die Einzelbedeutung und erst im zweiten Schritt an das Lemmazeichen adressiert. Zusätze zu Angaben, die an die Angabe selbst adressiert sind, werden gesondert gekennzeichnet (vgl. 5.4.3.2). Daher sollten beispielsweise Formangaben, die für die einzelnen Bedeutungen eines Lemmas verschieden sind, auch unter diesen 64 In manchen Projekten wird der Terminus Lesart statt Einzelbedeutung verwendet. Die XML -basierte Modellierung einer lexikografischen Datenbasis 155 Einzelbedeutungen eingeordnet werden. Dies bedeutet für ein Lemma wie „Moos“, dass die Angaben zur Pluralbildung grundsätzlich einzelbedeutungsbezogen angegeben werden müssen, da es zu „Moos“ im Sinne von ‘Geld’ keinen Plural gibt. Der Skopus ist also entscheidend: Unter allgemeinen Angaben sollen nur Angaben gruppiert werden, die sich auf alle Einzelbedeutungen beziehen, unter einzelbedeutungsbezogenen Angaben jeweils alle Angaben zu dieser Einzelbedeutung. (Zusätze zu Angaben, die an die Angabe selbst adressiert sind, werden gesondert gekennzeichnet.) In gedruckten Wörterbüchern werden allerdings die Formangaben meist ausgelagert, d.h. neben die semantischen Angaben zu den einzelnen Bedeutungen gestellt. Dies ist eine Verdichtung der Artikeltexte zum Einsparen von Druckraum. Bei einer Modellierung, wie sie hier vorschlagen wird, muss daher für eine gedruckte Präsentation geprüft werden, welche Verdichtungsoperationen für die Darstellung im gedruckten Wörterbuch vorgenommen werden können (vgl. 5.7.4). Dabei wird das Ergebnis nach den hier empfohlenen Richtlinien sicherlich nicht vollständig dem entsprechen, wie gedruckte Wörterbücher heute in der Regel verdichtet sind. Der Mehrwert einer solchen Modellierung für die Möglichkeiten einer elektronischen Publikation sind jedoch so ausschlaggebend, dass diese Herangehensweise als sinnvoll erachtet werden kann. Verdichtungsoperationen können dabei über die gleiche Technologie gemacht werden, mit der alle Präsentationen der Daten entwickelt werden: über XSL-Stylesheets (vgl. 5.7). Die Benennung der einzelnen Knoten im Baum sollte dabei so genau wie möglich sein. Sind zum Beispiel zu Verben Angaben V zur Konjugation angegeben, sollten diese nicht nur unter dem Oberelement grammatik , sondern mit einem Element konjugation ausgezeichnet werden. Außerdem sollen die Benennungen möglichst sprechend sein, da die Lexikografen beim Erarbeiten der Artikel direkt mit diesen Benennungen im XML-Editor arbeiten. Die Benennungen der nicht-terminalen Knoten im Inhaltsstrukturenprogramm sollen daher so gewählt werden, dass gilt: Leitsatz zur Benennung der nicht-terminalen Knoten des Inhaltsstrukturenprogramms Das Element E enthält weitere Angaben V zum Themengebiet x [aufgelöster Name des Elements]. x ist dabei so sprechend und genau wie möglich zu wählen. Der lexikografische Prozess 156 Diese Richtlinie kann zu einer relativ umfangreichen Schachtelung von Elementen führen, bis als terminales Element die eigentliche Angabe V folgt. Als ein mögliches Beispiel ist hier die Modellierung von orthografischen Angaben V zu sehen. Im Klammerelement orthografie wird dabei zunächst unterschieden zwischen Angaben V zur orthografisch korrekten Form (mit dem Klammerelement ortho auszuzeichnen) und Angaben V zu möglichen Schreibvarianten ( ortho-variante ). Außerdem sind mögliche Zusätze zu dieser Angabe V -Gruppe wie Belege, Hinweise oder Kommentare vorgesehen. Diese sind in der Entity zusatz zusammengefasst. <! -- ===== Orthografie ===== --> <! ELEMENT orthografie (ortho, ortho-variante+, (%zusatz; )*) > Zu den Angaben V der orthografisch korrekten Form gehören die orthografische Angabe V , die zugehörige Silbenangabe V und wiederum mögliche Zusätze: <! -- = orthografisch korrekte Form = --> <! ELEMENT ortho (orthoA, silbenA, (%zusatz; )*) > Die Modellierung der Angaben V zu Schreibvarianten sieht vergleichbar aus: <! -- = orthografische Variante = --> <! ELEMENT ortho-variante ((ortho-varianteA, silbenA, (%zusatz; )*) | keine-angabe) > Die orthografisch korrekte Form, mögliche orthografische Varianten und die zugehörigen Silbenangaben V werden dabei in die mit „A“ gekennzeichneten Elemente eingetragen (vgl. 5.4.3.2). Diese Schachtelung, in der sehr genau die einzelnen Angaben V in Gruppen zusammengefasst werden, hat den Nachteil, dass sich die Lexikografen durch die Schachtelung ‘durchklicken’ müssen. Der Vorteil ist jedoch, dass die inhaltlichen Zusammenhänge sehr genau abgebildet werden. Dieser Vorteil überwiegt - auch nach der praktischen Erfahrung der Lexikografen in elexiko - den Nachteil der umfangreichen Schachtelung. Im oben gezeigten Beispiel ist ein weiterer Punkt zu sehen, der für die Modellierung des hierarchischen Aufbaus des Inhaltsstrukturenprogramms wichtig ist: In der Modellierung soll zwischen den Angaben V unterschieden werden, die zu jedem Lemmazeichen angegeben werden können, und denen, bei denen dies nicht der Fall ist. Diese Unterscheidung findet sich auch bei Wiegand: Die XML -basierte Modellierung einer lexikografischen Datenbasis 157 Es ist zu beachten, daß man bei den obligatorisch zu bearbeitenden Angabeklassen unterscheiden muß zwischen denen, deren Bearbeitung stets zu einer formulierten Angabe im Artikel führt, und denen, bei denen dies nicht der Fall ist. Die erstgenannten Klassen sowie ihre Elemente heißen absolut obligatorisch, die letztgenannten relativ obligatorisch. (Wiegand 1989a, S. 455) Die Angabe V der orthografisch korrekten Form ist somit eine absolut obligatorische Angabe V . Relativ obligatorische Angaben V sind dagegen solche Angaben V , die nicht zu jedem Lemmazeichen bzw. jeder Einzelbedeutung gemacht werden können, wie z.B. orthografische Varianten oder Synonyme, die aber stets angegeben werden sollen, wenn es möglich ist. In der Modellierung sollen diese relativ obligatorischen Angaben V von rein fakultativen Angaben V folgendermaßen unterschieden werden: Die Angabe V -Gruppe selbst wird in der DTD - wie die absolut obligatorischen Angaben V - als obligatorisch definiert (vgl. die Modellierung des Elementes orthografie oben). Innerhalb dieser Angabe V oder Angabe V -Gruppe gibt es allerdings ein Ausweichelement, was beispielsweise keine-angabe benannt werden kann (vgl. die Modellierung des Elementes ortho-variante oben). Damit wird deutlich gemacht, dass diese Angabe V oder Angabe V -Gruppe immer bearbeitet werden soll und Lexikografen Stellung dazu nehmen müssen; anders als dies bei fakultativen Angaben V der Fall ist. Diese Modellierungsrichtlinie gewährleistet eine inhaltlich angemessene strenge Modellierung. Die Abbildung der Obligatorik kann in folgendem Leitsatz zusammengefasst werden: Leitsatz zur Abbildung der Obligatorik im Inhaltsstrukturenprogramm Bei jedem Knoten des Inhaltsstrukturenprogramms muss entschieden werden, ob es sich bei der Angabe V oder Angabe V -Gruppe um absolut obligatorische, relativ obligatorische oder fakultative Angaben V handelt. Absolut obligatorische Angaben V und relativ obligatorische Angaben V sind als obligatorisch zu modellieren (d.h. ohne Operator oder mit „+“- Operator). In relativ obligatorischen Angaben V muss ein Ausweichelement vorgesehen werden, sodass die Angabe V ausgewählt wird, aber ohne Inhalt bleiben kann. Fakultative Angaben V sind als fakultativ zu modellieren (d.h. mit „*“- oder „? “-Operator). Damit sind die Grundsätze der Modellierung des hierarchischen Aufbaus eines Inhaltsstrukturenprogramms genannt. Der lexikografische Prozess 158 5.4.3.2 Modellierung der terminalen Elemente 5.4.3.2.1 Unterscheidung in Angaben V , Kommentare und Hinweise Terminale Elemente in einer DTD sind die Blätter des Baumes in der XML- Struktur. In einem Inhaltsstrukturenprogramm sollen diese terminalen Elemente in drei Gruppen unterteilt werden: in Angaben V , Kommentare und Hinweise. Diese Unterscheidung dient zum einen einer inhaltlich klaren Benennung und zum anderen - dies ist in diesem Zusammenhang noch wichtiger - einer damit verbundenen Differenzierung der Inhaltsmodelle dieser drei Elementtypen. Zur Modellierung der Angaben V : Innerhalb eines Elementes, das eine Angabe V ist, soll ausschließlich der Text stehen, auf den der Rechner bei einer Recherche nach dieser Angabe V zunächst zugreift, d.h., innerhalb der Angabe V sollte kein Kommentar etc. stehen. Dieser sollte der Angabe V besser als Angabe V -Zusatz zugeordnet werden. Angaben V sind damit die granular herauszugreifenden, rein inhaltlich ausgezeichneten Elemente, auf denen eine gezielte formalisierte Recherche primär aufbaut. Layoutorientierte Auszeichnungen sollten in Angaben V nicht möglich sein. Das Inhaltsmodell von Angaben V besteht daher vom grundsätzlichen Prinzip her immer aus Fließtext oder ist leer, zumindest enthält es keine weiteren Auszeichnungen. Deshalb sind nur die terminalen Elemente der Inhaltsstruktur, also die Elemente, die inhaltlich als Angabe V aufzufassen sind und in denen dann wirklich etwas eingetragen wird, in der Modellierung als Angabe V zu klassifizieren. Damit weicht die Klassifizierung eines Elementes als Angabe V von der allgemeinsprachlichen Verwendung ab. Z.B. wird man sagen, dass man eine Angabe zum Nominativ Singular macht. In den elexiko-DTDs ist jedoch beispielsweise das Element nom-sg für „Nominativ Singular“ noch nicht als Angabe V gekennzeichnet, sondern erst die formA , in die die Flexionsform einzutragen ist. Davon zu unterscheiden sind die Kommentare. Diese sollten die Möglichkeit bieten, aufgrund der nicht vorhandenen Platzbeschränkung im elektronischen Medium Angaben V ausführlich zu kommentieren. Kommentare beziehen sich damit immer auf eine Angabe V oder eine Angabe V -Gruppe. Dabei können je nach lexikografischem Projekt verschiedene Arten von Kommentaren im Inhaltsstrukturenprogramm unterschieden werden. In diesem Fall sind dann die einzelnen Arten von Kommentaren die terminalen Elemente. Diese genaue Auszeichnung von Kommentaren eröffnet für die Präsentation die Möglichkeit, je nach Benutzungssituation nur bestimmte Arten von Kommentaren anzuzeigen. Die XML -basierte Modellierung einer lexikografischen Datenbasis 159 Der Terminus Kommentar wird damit hier anders verwendet als bei Wiegand in seiner Theorie lexikografischer Texte. Bei Wiegand werden immer die unmittelbaren Textkonstituenten des gesamten Wörterbuchartikels, also z.B. der Formkommentar oder der semantische Kommentar, als Kommentar klassifiziert (vgl. z.B. Wiegand 1989a, S. 427ff.; Wiegand 2002c, S. 114). Das, was hier als Kommentar klassifiziert wird, wird bei ihm spezifischer als „kommentierende Angaben (k.A.)“ (Wiegand 1989a, S. 434) bezeichnet. Gibt es nur einen Typ von Kommentar, kann dieser in einem Inhaltsstrukturenprogramm auch beispielsweise als angabeK (für „Angabe V -Kommentar“) benannt werden. Trotzdem wird die Bezeichnung „Kommentar“ hier ausschließlich für kommentierende Angaben V verwendet und entspricht damit eher der Verwendung von Reichmann, der Angaben und Kommentare von der Art der Beschreibungsmethode (geschlossene vs. offene Beschreibungsmethode) und dem Grad der Standardisierung unterscheidet (Reichmann 1989, S. 152ff.; vgl. auch Wiegand 1989a, S. 432). Hinweise können von Kommentaren insofern abgegrenzt werden, dass Lexikografen mit ihnen nicht selbst eine Angabe V kommentieren, sondern auf externe Texte, Werke etc. hinweisen. Auch Hinweise können in verschiedene Typen unterteilt werden, wie es z.B. in elexiko getan wurde. Für Hinweise und Kommentare ist es - anders als für Angaben V - sinnvoll, als Elementinhalt eine freiere Textstruktur mit ggf. layoutorientierten Auszeichnungen vorzusehen. Angaben V , Kommentare und Hinweise sollen jeweils mit einem „A“, „K“ und „H“ am Ende des Elementnamens gekennzeichnet werden, sodass durch diese Kennzeichnung für die Lexikografen deutlich ist, dass es sich um die terminalen Elemente der jeweiligen abstrakten hierarchischen Inhaltsstruktur handelt. Ein Sonderform sind kategorisierende Angaben V (vgl. den folgenden Abschnitt). Folgende Sätze zur Modellierung von Angaben V , Kommentaren und Hinweisen sollen nun die Möglichkeit bieten, eine eigens entwickelte Modellierung gegenüber den hier vorgestellten Richtlinien zu prüfen. Ergibt die Füllung der jeweiligen Sätze eine wahre Aussage, entspricht eine Modellierung den hier entwickelten Leitlinien. Der lexikografische Prozess 160 5.4.3.2.2 Modellierung von Angaben V Im Regelfall werden Angaben V mit einem XML-Element ausgezeichnet. Für diesen Fall soll der erste Leitsatz zur Modellierung von Angaben V gelten: Erster Leitsatz zur Modellierung von Angaben V e [Elementinhalt von x] ist vom Lexikografen dazu angesetzt, damit ein potenzieller Benutzer sich Informationen zu x [aufgelöster Name des Elements] erschließen kann. Die Variable x steht dabei in diesem und den folgenden Leitsätzen für die Modellierung von Angaben V für alle Elemente oder Attribute, die mit einem „A“ gekennzeichnet sind. Löst man den Elementnamen für die Füllung der Sätze auf, soll die Auflösung des „A“ weggelassen werden. Beispielsweise soll das Element lemmazeichenA für den obigen Satz als „Lemmazeichen“ aufgelöst werden. Ein Modellierungsbeispiel für diesen Leitsatz: In einem Inhaltsstrukturenprogramm ist vorgesehen, zur korrekten Schreibung eines Lemmazeichens - falls vorhanden - Schreibvarianten anzugeben. Der entsprechende Ausschnitt aus der Modellierung sieht dabei folgendermaßen aus: <! -- ===== Orthografie ===== --> <! ELEMENT orthografie (ortho, ortho-variante+, (%zusatz; )*) > <! -- = orthografisch korrekte Form = --> <! ELEMENT ortho (orthoA, silbenA, (%zusatz; )*) > <! -orthografische Angabe --> <! ELEMENT orthoA (#PCDATA) > <! -- = orthografische Variante = --> <! ELEMENT ortho-variante ((ortho-varianteA, silbenA, (%zusatz; )*) | keine-angabe) > <! -- Angabe einer orthografischen Variante --> <! ELEMENT ortho-varianteA (#PCDATA) > Die Modellierung der Silbenangabe V ist hier weggelassen, da sie für diesen Zusammenhang nicht relevant ist. Unter der Entity zusatz sind mögliche Zusätze zu Angaben V wie Kommentare und Hinweise zusammengefasst. Die XML -basierte Modellierung einer lexikografischen Datenbasis 161 Ein Beispiel aus einer XML-Instanz kann folgender Artikelausschnitt sein: Zum Lemmazeichen „Jogurt“ ist die orthografische Variante „Yoghurt“ angegeben. Die Auszeichnung sieht dann für die Schreibvariante folgendermaßen aus: <ortho-varianteA>Yoghurt</ ortho-varianteA> Nun kann diese Datenauszeichnung gegenüber dem ersten Leitsatz zur Modellierung von Angaben V geprüft werden. Ersetzt man die Variablen durch dieses Beispielelement, ergibt sich folgender Satz: „Yoghurt“ ist vom Lexikografen dazu angesetzt, damit ein potenzieller Benutzer sich Informationen zur „orthografischen Variante“ erschließen kann. Dieser Satz ist eine wahre Aussage. Demnach bilden die Daten gemeinsam mit der Datenauszeichnung einen Ausschnitt aus einer konkreten hierarchischen Inhaltsstruktur gemäß den hier formulierten Richtlinien. D.h., die Benennung des Elementes und das Verhältnis von XML-Auszeichnung sowie der davon umschlossenen Zeichenkette entspricht den Anforderungen des Modellierungskonzeptes. Die Auszeichnung einer Angabe V mit einem XML-Element ist der Regelfall. Eine Ausnahme kann aber sein, dass eine Angabe V allein über die Auswahl eines Elementes gemacht wird und der Elementinhalt leer ist. Abhängig von der Elementauswahl wird dann für die Präsentation ein bestimmter Text generiert. In solchen Fällen soll der zweite Leitsatz zur Modellierung von Angaben gelten: Zweiter Leitsatz zur Modellierung von Angaben V x [aufgelöster Name des Elements] ist vom Lexikografen dazu angesetzt, damit ein potenzieller Benutzer sich Informationen zu y [Name des übergeordneten Elements] erschließen kann. Ein Beispiel aus einer Modellierung: In einem Inhaltsstrukturenprogramm ist vorgesehen, dass zu Verben angegeben werden soll, mit welchem Hilfsverb die Vergangenheitsformen gebildet werden. Diese Angabe V soll nicht über Freitext gemacht werden, sondern über die Auswahl des jeweiligen Elementes, da es nur die Auswahl zwischen drei Möglichkeiten gibt (haben, sein oder beide Hilfsverben) und daher über die Elementauswahl die Der lexikografische Prozess 162 Datenkonsistenz am besten gewährleistet werden kann. Dabei soll für die Lexikografen die Möglichkeit bestehen, diese Auxiliarangabe V zu kommentieren. Deshalb muss ein Angabe V -Zusatz mit der Möglichkeit der Kommentierung vorgesehen werden, der sich klar einer Angabe V zuordnen lässt. Der entsprechende Ausschnitt aus der Modellierung sieht folgendermaßen aus: <! —- Auxilar --> <! ELEMENT auxiliar (habenA | seinA | habensein) > <! -- Angabe zum Auxiliar: haben --> <! ELEMENT habenA (%zusatz; ) > <! -- Angabe zum Auxiliar: sein --> <! ELEMENT seinA (%zusatz; ) > <! -- Angabe zum Auxiliar: haben und sein --> <! ELEMENT habensein (habenA, seinA) > Hier wird zwar von dem Prinzip abgewichen, dass innerhalb von Angaben V keine Angabe V -Zusätze gemacht werden sollen, doch sind Angabe V und der Zusatz zur Angabe V klar voneinander zu trennen, da das Inhaltsmodell ausschließlich aus einem Angabe V -Zusatz besteht. Ein Beispiel aus einer XML-Instanz kann folgender Artikelausschnitt sein: In der Grammatik zum Lemmazeichen „einsäen“ wird das Element habenA ausgewählt. Kommentierungen sind nicht notwendig. Aus dieser Elementauswahl wird für die gedruckte Präsentation die Angabe „hat“ generiert. Auf Ebene der lexikografischen Datenbasis sieht der entsprechende Ausschnitt folgendermaßen aus: <auxiliar></ habenA></ auxiliar> Nun kann diese Datenauszeichnung gegenüber dem zweiten Leitsatz zur Modellierung von Angaben V geprüft werden. Ersetzt man die Variablen durch diese Beispielelemente, ergibt sich folgender Satz: „haben“ ist vom Lexikografen dazu angesetzt, damit ein potenzieller Benutzer sich Informationen zum „Auxiliar“ erschließen kann. Dieser Satz ist eine wahre Aussage. Demnach bilden die Daten gemeinsam mit der Datenauszeichnung einen Ausschnitt aus einer konkreten hierarchischen Inhaltsstruktur gemäß den hier formulierten Richtlinien. Die XML -basierte Modellierung einer lexikografischen Datenbasis 163 Es gibt auch Fälle, in denen die eigentliche Angabe V nicht über ein Element, sondern über ein Attribut gemacht wird. Dies ist dann sinnvoll, wenn es eine feste Auswahlliste für die Füllung der Angaben V gibt und die einzelnen Angaben V - anders als im obigen Fall der Auxiliarangabe V - nicht weiter kommentiert werden sollen. Für diese Fälle soll der dritte Leitsatz zur Modellierung von Angaben gelten: Dritter Leitsatz zur Modellierung von Angaben V „Der Wert a [Attributwert] ist vom Lexikografen deshalb ausgewählt, damit ein potenzieller Benutzer sich Informationen zu x [aufgelöster Name des Attributs] erschließen kann.“ Ein typisches Beispiel für eine solche Modellierung in einem allgemeinen, einsprachigen Wortschatzinformationssystem ist die Genusangabe V . Ein entsprechender DTD-Ausschnitt kann folgendermaßen aussehen: <! -- * Genusangabe * --> <! ELEMENT genus (EMPTY) > <! ATTLIST genus genusA (maskulinum | femininum | neutrum) #REQUIRED > Der Ausschnitt aus der XML-Instanz, beispielsweise zum Lemmazeichen „Baum“, sähe dann folgendermaßen aus: </ genus genusA="maskulinum"> Nun kann diese Datenauszeichnung gegenüber dem dritten Leitsatz zur Modellierung von Angaben V geprüft werden. Ersetzt man die Variablen durch diese Beispielelemente, ergibt sich folgender Satz: Der Wert „maskulinum“ ist vom Lexikografen deshalb ausgewählt, damit ein potenzieller Benutzer sich Informationen zum „Genus“ erschließen kann. Dieser Satz ist eine wahre Aussage. Demnach bilden die Daten gemeinsam mit der Datenauszeichnung einen Ausschnitt aus einer konkreten hierarchischen Inhaltsstruktur gemäß den hier formulierten Richtlinien. Bei Elementen, in denen die eigentliche Angabe V über ein Attribut gemacht wird, kann es in manchen Fällen auch sinnvoll sein, im Elementinhalt ausschließlich einen Angabe V -Zusatz vorzusehen, falls eine Kommentierung etc. Der lexikografische Prozess 164 möglich sein soll. In diesen Fällen lässt sich auch die Angabe V und der Zusatz zur Angabe V klar trennen, da das Inhaltsmodell ausschließlich aus dem Angabe V -Zusatz besteht. Sind einem Element allerdings mehrere Attribute zugeordnet, bezieht sich die Kommentierung im Elementinhalt auf alle diese Attribute. Ein weiterer Sonderfall sind Angaben V , in denen kein Text eingetragen wird, sondern die dazu dienen, beispielsweise das Lemmazeichen oder eine Lesart in eine bestimmte Kategorie einzuordnen. Diese Einordnung wird über die Auswahl untergeordneter leerer Elemente gemacht. Eine Sonderform sind diese Angaben V deshalb, weil hier nicht die terminalen Elemente als Angabe V gekennzeichnet werden sollen, sondern die Eigenschaften, die beschrieben werden. Für diese kategorisierenden Angaben V , die mit „KA“ gekennzeichnet werden sollen, soll der vierte Leitsatz zur Modellierung von Angaben V gelten: Vierter Leitsatz zur Modellierung von Angaben V Das Element E ist vom Lexikografen dazu angesetzt, damit ein potenzieller Benutzer sich Informationen zu x [aufgelöster Name des Elements, das mit „KA“ gekennzeichnet ist] erschließen kann. x hat den Untertyp z1 [aufgelöster Name des ersten direkten Kindelements], den Untertyp z2 [aufgelöster Name des nächsten Kindelements] usw. Die direkten Kindelemente können auch noch weitere Untertypen haben. Ein Beispiel aus einer Modellierung: In einem Neologismenwörterbuch soll bei entlehnten Lexemen der Typ der Entlehnung angegeben werden. In der DTD sieht der entsprechende Ausschnitt folgendermaßen aus: <! -- * Entlehnungstyp (kategorisierende Angabe) * --> <! ELEMENT lehntypKA (lehnwort | lehnbedeutung | lehnuebersetzung | teillehnuebersetzung | lehnuebertragung | lehnschoepfung | lehnwortbildung | scheinentlehnung | andere-lt) > <! -- Lehnwort --> <! ELEMENT lehnwort EMPTY > <! ATTLIST lehnwort typ (internationalismus | kulturellwanderwort | bezeichnungsexotismus | unspezifisch) #REQUIRED > Die XML -basierte Modellierung einer lexikografischen Datenbasis 165 <! -- Lehnbedeutung --> <! ELEMENT lehnbedeutung EMPTY > <! -- Lehnuebersetzung --> <! ELEMENT lehnuebersetzung EMPTY > <! -- Teillehnuebersetzung --> <! ELEMENT teillehnuebersetzung EMPTY > <! -- Lehnuebertragung --> <! ELEMENT lehnuebertragung EMPTY > <! -- Lehnschoepfung --> <! ELEMENT lehnschoepfung EMPTY > <! -- Lehnwortbildung --> <! ELEMENT lehnwortbildung EMPTY > <! -- Scheinentlehnung --> <! ELEMENT scheinentlehnung EMPTY > <! -andere Lehntypangabe --> <! ELEMENT andere-lt (#PCDATA) > Ein Beispiel aus einer XML-Instanz kann folgender Artikelausschnitt sein: <lehntypKA></ lehnwort typ="bezeichnungsexotismus"></ lehntypKA> Aus dieser Angabe V auf Ebene der lexikografischen Datenbasis kann für die Präsentation beispielsweise folgende Angabe generiert werden: „Typ der Entlehnung: Lehnwort (Bezeichnungsexotismus)“. Nun kann diese Datenauszeichnung gegenüber dem vierten Leitsatz zur Modellierung von Angaben V geprüft werden. Ersetzt man die Variablen durch diese Beispielelemente, ergibt sich folgender Satz: Das Element „lehntypKA“ ist vom Lexikografen dazu angesetzt, damit ein potenzieller Benutzer sich Informationen zum „Entlehnungstyp“ erschließen kann. „Entlehnungstyp“ hat den Untertyp „Lehnwort“, den Untertyp „Lehnbedeutung“ usw. Dieser Satz ist eine wahre Aussage. Demnach bilden die Daten gemeinsam mit der Datenauszeichnung einen Ausschnitt aus einer konkreten hierarchischen Inhaltsstruktur gemäß den hier formulierten Richtlinien. Ein weiteres Beispiel für solche kategorisierende Angaben V sind Angaben V , die ein Lexem Der lexikografische Prozess 166 z.B. ontologisch einordnen sollen. Eine solche Einordnung, die vor allem für elektronische Wörterbuchprojekte relevant sein kann, wird vermutlich zumeist auch über eine kategorisierende Angabe V vorgenommen. Damit sind die Leitsätze zur Modellierung von Angaben V vollständig vorgestellt. In der Praxis muss nun geprüft werden, ob diese Leitsätze im Bereich der Angaben V für verschiedene lexikografische Projekte hinreichend sind bzw. inwieweit sie weiter zu ergänzen sind. An dieser Stelle soll kurz auf den Vorschlag von Matthias Kammerer eingegangen werden, wie eine XML-Modellierung aus einem Mikrostrukturenprogramm entwickelt werden kann (siehe Kammerer 2001). Prinzipiell wurde oben schon herausgestellt, dass ein Mikrostrukturenprogramm im Sinne von Wiegand nicht einfach in eine XML-Modellierung übersetzt werden kann, wenn man mit der Modellierung die hier vorgestellten Ziele verfolgt. Die unterschiedliche Herangehensweise lässt sich aber auch an einem Detail wie der Modellierung von Angaben V verdeutlichen. Kammerer bemerkt dazu, dass eine abstrakte hierarchische Mikrostruktur nicht „inkonsistent“ in eine DTD übersetzt werden dürfe, d.h., dass es immer einen strukturstiftenden Relationsterm geben müsse. Daher müsse jeder Knoten der abstrakten hierarchischen Mikrostruktur als Element modelliert werden und im „Hinblick auf die hier vorgebrachten Argumente verbietet es sich - im Rahmen einer konsistenten Modellierung -, Angaben (ganz gleich welcher Art) als Attribute zu modellieren“ (ebd., S. 255). Dies solle auch dann nicht gemacht werden, wenn eine Modellierung über Attribute eigentlich sinnvoller wäre, weil die Datenkonsistenz über eine feste Werteliste am besten gewährleistet werden kann. Diese strikt einheitliche Überführung eines Mikrostrukturenprogramms in einer Modellierung (die man auf die Modellierung eines Inhaltsstrukturenprogramms übertragen könnte), ist meines Erachtens aus folgenden Gründen unangemessen: Eine Modellierung wird in einem lexikografischen Projekt einmal entwickelt und fortgeschrieben, allerdings werden hunderte bis tausende Artikel nach dieser Modellierung erarbeitet. Bei der Entwicklung der Modellierung muss also das leitende Prinzip sein, die gesamte Bandbreite der Möglichkeiten XML-basierter Modellierung so einzusetzen, dass die Datenerarbeitung bestmöglich unterstützt wird. Dafür muss in Kauf genommen werden, dass verschiedene Leitsätze zur Modellierung von Angaben V beachtet werden müssen. Die XML -basierte Modellierung einer lexikografischen Datenbasis 167 5.4.3.2.3 Modellierung von Kommentaren Kommentare sollen immer einer Angabe V oder Angabe V -Gruppe zugeordnet werden können. Deshalb sollen sie gemeinsam mit einer Angabe V in einem beide umschließenden Klammerelement ausgezeichnet werden, damit diese Adressierungsbeziehung aus der Modellierung abgeleitet werden kann. Für die Modellierung von Kommentaren soll dabei folgender Leitsatz gelten: Leitsatz zur Modellierung von Kommentaren x [aufgelöster Name des Elements, welches mit „K“ gekennzeichnet ist] ist vom Lexikografen dazu angesetzt, um für einen potenziellen Benutzer den Inhalt von E [Elementname der ersten Konstituente(n) des gemeinsamen Klammerelements] zu kommentieren. Ein Beispiel aus einer Modellierung: In einem Inhaltsstrukturenprogramm für ein historisches Wörterbuch ist vorgesehen, dass der Lemmaansatz kommentiert werden soll, wenn zwei Formen angesetzt werden. Der Ausschnitt aus der DTD sieht dabei folgendermaßen aus: <! -- ===== Lemmazeichen ===== --> <! ELEMENT lemmazeichen (lemmazeichenA+, angabeK? ) > Ein Beispiel aus einer XML-Instanz kann folgender Artikelausschnitt sein: <lemmazeichen> <lemmazeichenA>besamen</ lemmazeichenA> <lemmazeichenA>besämen</ lemmazeichenA> <angabeK>beide Schreibungen in ungefähr gleicher Häufigkeit</ angabeK> </ lemmazeichen> Nun kann diese Datenauszeichnung gegenüber dem Leitsatz zur Modellierung von Kommentaren geprüft werden. Ersetzt man die Variablen durch diese Beispielelemente, ergibt sich folgender Satz: Der Angabe V -Kommentar ist vom Lexikografen dazu angesetzt, um für einen potenziellen Benutzer den Inhalt der Lemmazeichen-Angabe V zu kommentieren. Dieser Satz ist eine wahre Aussage. Demnach bilden die Daten gemeinsam mit der Datenauszeichnung einen Ausschnitt aus einer konkreten hierarchischen Inhaltsstruktur gemäß den hier formulierten Richtlinien. Der lexikografische Prozess 168 5.4.3.2.4 Modellierung von Hinweisen Hinweise sollen potenziellen Benutzern Informationen liefern, die nicht in den Artikeln stehen. Für die Modellierung von Hinweisen soll folgender Leitsatz gelten: Leitsatz zur Modellierung von Hinweisen x [aufgelöster Name des Elements, welches mit „H“ gekennzeichnet ist] ist vom Lexikografen dazu angesetzt, um potenzielle Benutzer auf weitere, nicht im Artikel enthaltene, Informationen hinzuweisen. Ein Beispiel aus einer Modellierung: In einem Inhaltsstrukturenprogramm ist vorgesehen, dass zu einer Bedeutungserläuterung ein Literaturhinweis gegeben werden soll, falls es sich beispielsweise um die Bezeichnung einer Sache handelt, die in einer Enzyklopädie näher beschrieben ist. Der entsprechende DTD-Ausschnitt kann folgendermaßen aussehen: <! ELEMENT bed-erlaeuterung (bed-erlaeuterungA, literaturH? ) > Ein Beispiel aus einer XML-Instanz ist folgender Artikelausschnitt: <bed-erlaeuterung> <bed-erlaeuterungA>Mit Pestsäule bezeichnet man ein Denkmal, das vor allem im 17. und 18. Jahrhundert aus religiösen Überzeugungen meist zum Dank an das Überstehen einer Pestepidemie oder zur Erinnerung an die Opfer errichtet wurde. </ bed-erlaeuterungA> <literaturH> <zitatA>Pestsäule, anläßlich einer Pestepidemie gelobte und als Dank für die überstandene Pest aufgestellte Votivsäule, die [...] im süddt., österr., böhm. Und ungar. Raum Verbreitung fand.</ zitatA><quellenA>Brockhaus Enzyklopädie in vierundzwanzig Bänden, 17. Aufl. 1992, Mannheim, Bd. 17, S. 10, Sp.1.</ quellenA> </ literaturH> </ bed-erlaeuterung> Nun kann diese Datenauszeichnung gegenüber dem Leitsatz zur Modellierung von Kommentaren geprüft werden. Ersetzt man die Variablen durch diese Beispielelemente, ergibt sich folgender Satz: Die XML -basierte Modellierung einer lexikografischen Datenbasis 169 Der „Literatur-Hinweis“ ist vom Lexikografen dazu angesetzt, um potenzielle Benutzer auf weitere, nicht im Artikel enthaltene Informationen hinzuweisen. Dieser Satz ist eine wahre Aussage. Demnach bilden die Daten gemeinsam mit der Datenauszeichnung einen Ausschnitt aus einer konkreten hierarchischen Inhaltsstruktur gemäß den hier formulierten Richtlinien. 5.4.3.2.5 Nicht gekennzeichnete terminale Elemente Die terminalen Elemente im Inhaltsstrukturenprogramm sind Angaben V , Kommentare und Hinweise. In Ausnahmefällen werden allerdings auch terminale Elemente unklassifiziert gelassen, d.h. nicht in einer dieser drei Gruppen eingeordnet. Dies sind z.B. - ein Ausweichelement für relativ obligatorische Angaben V (beispielsweise keine-angabe benannt) - ein Ausweichelement für klassifizierende Angaben V (beispielsweise unspezifiziert benannt) - ein Ausweichelement für noch nicht ausgefüllte Angaben V (beispielsweise temp-leer für „temporär leer“ benannt) 5.5 Modellierung des Vernetzungsstrukturenprogramms Lexikografische Produkte haben in der Regel eine ausgeprägte Verweisstruktur. Dabei sind es bei gedruckten Wörterbüchern vor allem zwei Umstände, die zu dieser Verweisstruktur führen: Erstens orientiert sich die Anordnung der Elemente bei semasiologischen Wörterbüchern an ihrer grafischen Form, d.h., die inhaltlichen Beziehungen über einzelne Artikel hinweg lassen sich nur über Verweise herstellen, und zweitens führen die engen räumlichen Begrenzungen bei Printwörterbüchern dazu, dass Informationen immer nur an einer Stelle genannt sind, auch wenn sie an mehreren relevant wären (vgl. Engelberg/ Lemnitzer 2001, S. 154). Dabei gestaltet sich die manuelle Konsistenzkontrolle bei Verweisen immer schwieriger, je präziser das Verweisziel angegeben wird. „Präzision der Verweisziele und Konsistenz des Verweissystems sind also Anforderungen an ein Wörterbuch, denen bei manueller Bearbeitung nur sehr schwer zugleich entsprochen werden kann“ (Blumenthal/ Lemnitzer/ Storrer 1988, S. 365). Die Computerunterstützung im lexikografischen Prozess kann da eine wesentliche Verbesse- Der lexikografische Prozess 170 rung bewirken. Das Ziel sollte dabei sein, auf Ebene der lexikografischen Datenbasis die Voraussetzungen dafür zu schaffen, dass zum einen die Konsistenz der Daten gewährleistet wird und dass zum anderen die Verweise möglichst präzise den Verweisursprung und das Verweisziel verknüpfen. Wie diese Voraussetzungen im Rahmen einer XML-basierten Modellierung im lexikografischen Prozess geschaffen werden können, soll im Folgenden erläutert werden. 5.5.1 Inhaltliche Konzeption Zunächst einmal gilt es für diesen Bereich herauszuarbeiten, was zum Gegenstandsbereich der Vernetzungsstrukturen im Rahmen des Modellierungskonzeptes gehört. Eine erste Abgrenzung wurde dabei bereits in Abbildung 17 (im Abschnitt 5.4.2.1) gezeigt. Nun soll als Erstes geprüft werden, ob der entsprechende Teilbereich der Mediostrukturen aus der Theorie lexikografischer Texte nach Wiegand hierfür fruchtbar gemacht werden kann (vgl. Wiegand 1996b; Wiegand 2002b). Entsprechend der oben genannten Eigenschaften von Wörterbüchern, die zu ihrer ausgeprägten Verweisstruktur führen, lassen sich mit Wiegand drei Arten von Verweisvoraussetzungen differenzieren: Es lässt sich daher feststellen: Für jede lexikographische Verweishandlung, die sich auf Elemente des Wörterbuchgegenstandes bezieht (und nicht z.B. auf Wörterbuchquellen, andere Wörterbücher oder wissenschaftliche Literatur [...]) müssen grundsätzlich drei Verweisvoraussetzungen berücksichtigt werden: wörterbuchgegenstands-, wörterbuchform- und funktionsbedingte Verweisvoraussetzungen. (Wiegand 2002b, S. 173) Wörterbuchgegenstandsbedingte Verweisvoraussetzungen bilden Beziehungen [...], die im Wörterbuchgegenstandsbereich vorliegen und zum Wörterbuchgegenstand gehören und für die weiterhin gilt, daß sie mit theoriebestimmten terminologischen Mitteln der Linguistik als ganz bestimmte sprachliche Beziehungen [...] eingeordnet werden (ebd., S. 171). Die wörterbuchformbedingten Verweisvoraussetzungen sind abhängig vom Datendistributionsprogramm, denn sie sind nur dann gegeben, wenn die Daten an „zugriffsverschiedenen textuellen Orten“ (ebd., S. 172) präsentiert sind. Funktionsbedingte Verweisvoraussetzungen sind abhängig von den anvisierten Wörterbuchfunktionen (vgl. auch Tarp 1999). Wörterbuchgegenstands- und wörterbuchfunktionsbedingte Verweisvoraussetzungen spielen Die XML -basierte Modellierung einer lexikografischen Datenbasis 171 auch auf der Ebene der lexikografischen Datenbasis eine Rolle. Allerdings können sich in Wörterbüchern hinter einer Art der Verweisangabe oft verschiedene Beziehungen auf der Ebene des Objektbereichs verbergen. Auf der „Ebene der konzeptionellen Datenmodellierung“ sollte man sich daher „darum bemühen, Beziehungen so anzusetzen, dass sie für die Zwecke der Wörterbucherstellung hinreichend atomar sind“ (Blumenthal/ Lemnitzer/ Storrer 1988, S. 357). Deshalb sollten polyseme Verweise für die Datenmodellierung disambiguiert werden; auf der Ebene des Wörterbuchs können sie dann nach Bedarf wieder zusammengebaut werden. Darüber hinaus wird diskutiert (u.a. von Kammerer/ Lehr 1996), ob es in elektronischen Wörterbüchern überhaupt noch Verweise geben soll. Meines Erachtens führen Engelberg/ Lemnitzer dazu allerdings richtig aus: Kammerer & Lehr (1996) gehen sogar so weit, generell Verweise im elektronischen Wörterbuch zu Anachronismen zu erklären, die durch andere Formen von Datenverknüpfungen abgelöst werden. Wir teilen diese Auffassung nicht. Zumindest die wörterbuchgegenstandsbedingten Verweise werden auch in den Wörterbüchern der Zukunft ihre Berechtigung haben. (Engelberg/ Lemnitzer 2001, S. 160) Allerdings ist es für die Zukunft nicht ausgeschlossen, dass sich andere Ordnungssysteme und Datenverknüpfungen bzw. -einbettungen bei Wortschatzinformationssystemen entwickeln. In jedem Fall spielen wörterbuchformbedingte Verweisvoraussetzungen auf Ebene der lexikografischen Datenbasis keine Rolle, da diese eindeutig der Ebene der Präsentation zuzurechnen sind. Neben dieser Differenzierung der verschiedenen Verweisvoraussetzungen, die für die Abgrenzung der Ebene der Datenbasis und Präsentation wichtig sind, besteht ein großer Bereich der Teiltheorie der Mediostrukturen in der Analyse von Verweisphänomenen im Printwörterbuch, d.h. in der Untersuchung, welche Arten von Verweise es gibt, aus welchen Teilen sie bestehen, in der Entwicklung von genauen Benennungen für diese Phänomene etc. Dabei ist der Analysegegenstand das gedruckte Wörterbuch und damit die Ebene der Präsentation. Im Rahmen des Modellierungskonzeptes ist allerdings die Ebene der lexikografischen Datenbasis Gegenstand der Betrachtung. Sehr anschaulich haben Blumenthal/ Lemnitzer/ Storrer diese unterschiedlichen Ebenen mit dem Vergleich von Straßenschildern und Landkarten illustriert. Zur Verdeutlichung sei dieses spezielle Wechselverhältnis zwischen der Ebene des Wörterbuchs und der Ebene der konzeptionellen Datenmodellierung mit dem Verhältnis zwischen Straßenschildern und Landkarten verglichen: Der lexikografische Prozess 172 Zunächst zur Ebene der Straßenschilder, die in unserem Vergleich mit der Ebene des Wörterbuchs parallelisiert werden soll: Dem Verweissymbol auf der Ebene des Wörterbuchs entspricht in diesem Vergleich ein Straßenschild, das in eine bestimmte Richtung weist, entkleidet von seiner Beschriftung, die den Namen des Ortes angibt, in dessen Richtung das Schild zeigt. Dem Verweiszielrepräsentanten entspricht der Schriftzug auf dem Straßenschild, der den Namen des Ortes nennt, der auf dem angegebenen Wege zu erreichen ist. Der Verweisangabe entspricht das ganze Schild einschließlich Beschriftung. Dem Verweisursprung schließlich entspricht der Ort, von dem aus der auf dem Schild angegebene andere Ort in der bezeichneten Richtung zu erreichen ist. Und genauso, wie auf der Ebene des Wörterbuchs der Verweisursprung nicht symbolisch repräsentiert ist, ist nun auch auf der Ebene der Straßenschilder der Ort, von dem aus der andere Ort zu erreichen ist, nicht symbolisch repräsentiert, sondern qua Lokalität des Verkehrszeichens faktisch gegeben. Nun zur Ebene der Landkarte, die in unserem Vergleich der Ebene der konzeptionellen Datenmodellierung entsprechen soll: Genauso, wie auf der Ebene der konzeptionellen Datenmodellierung Verweisursprung, Verweisziel und Verweisrelation symbolisch repräsentiert sind, so sind auch auf der Ebene der Landkarte sowohl die beiden Orte als auch die zwischen diesen beiden Orten bestehende Beziehung der Verbundenheit durch eine Straße symbolisch repräsentiert. (Blumenthal/ Lemnitzer/ Storrer 1988, S. 356f.) Und wie es vermutlich eine wesentlich größere Vielzahl von Straßenschildern gibt - unterschieden nach Farbe, Schrift, Aufstellungsort und genauer Platzierung - so ist auch die Untersuchung des Phänomenbereichs der Verweise auf Ebene der Präsentation (d.h. eines Wörterbuchs oder Wortschatzinformationssystems) vielfältiger als das, was auf Ebene der Datenbasis modelliert wird bzw. was grundlegend zur Modellierung beachtet werden muss. Anders als beim Teilbereich der Mikrostrukturen, von dem die generelle Analysemethode teilweise übernommen werden konnte, kann daher aus der Teiltheorie der Mediostrukturen nicht direkt ein bestimmter Bereich übernommen werden. Denn die Mediostruktur auf Ebene des gedruckten Wörterbuchs bzw. Wortschatzinformationssystems und die Vernetzungsstruktur auf Ebene der lexikografischen Datenbasis sind zwei sehr unterschiedliche Phänomenbereiche. Dies kann leicht an einem Beispiel veranschaulicht werden: Im Inhaltsstrukturenprogramm für ein allgemeines, einsprachiges Wörterbuch ist vorgesehen, dass die Stammformen von starken Verben angegeben werden sollen. Somit ist z.B. die Angabe V „ging“ Teil des Artikels „gehen“ auf Ebene der lexikografischen Datenbasis. Für die elektronische Präsentation wird daraufhin festgelegt, dass potenzielle Benutzer, die die Form „ging“ in das Suchfeld Die XML -basierte Modellierung einer lexikografischen Datenbasis 173 eingeben, automatisch auf den Artikel „gehen“ geleitet werden und dem Artikel eine automatisch generierte Zeichenfolge wie „ging: 1./ 3. Person Singular Imperfekt“ vorangestellt wird. (Voraussetzung dafür ist natürlich, dass die Form „ging“ analog zu den Richtlinien dieses Modellierungskonzeptes inhaltlich ausgezeichnet ist.) Für die gedruckte Präsentation wird dagegen festgelegt, dass ein Verweisartikel beispielsweise der Form „ging gehen“ automatisch generiert wird. Auf Ebene der lexikografischen Datenbasis ist die Angabe V „ging“ also Teil der konkreten hierarchischen Inhaltsstruktur des Artikels „gehen“, d.h. in der gleichen XML-Instanz abgespeichert, ohne dass Vernetzungsstrukturen eine Rolle spielen. Im Wortschatzinformationssystem gehört die Angabe „ging“ - wenn man die Terminologie der Printlexikografie überträgt - zur äußeren Zugriffsstruktur, im gedruckten Wörterbuch entstehen Angaben, die Gegenstand der Mediostruktur sind. Genauso könnte festgelegt werden, dass Literaturhinweise, beispielsweise mit dem Element literaturH ausgezeichnet, immer mit vorangestelltem Pfeil dargestellt werden sollen, egal ob eine elektronische Verknüpfung zum Ziel vorliegt oder nicht. Damit wären diese Angaben (oder Teile davon) auf Präsentationsebene Teil der Trägermenge der Mediostrukturen, auf Ebene der lexikografischen Datenbasis sind es jedoch normale Angaben V . Trotz dieses unterschiedlichen Phänomenbereichs ist die Beschäftigung mit der Teiltheorie der Mediostrukturen sinnvoll und Einzelheiten können - wie im weiteren Verlauf zu sehen sein wird - angewandt und übertragen werden. Laut Wiegand ist ein Verweis eine lexikografische Information, d.h. eine kognitive Entität und aus Angaben zu erschließen (Wiegand 2002b, S. 180). Diese Abgrenzung soll übernommen werden; deshalb wird hier von Vernetzungsstruktur und nicht von Verweisstruktur gesprochen. Außerdem trifft die Bezeichnung Vernetzung meines Erachtens eher die Verbindung zweier Punkte auf der ‘Landkarte’, denn mit dieser Verbindung allein ist noch nicht entschieden, ob diese Vernetzung in einen Verweis umgesetzt werden soll. Für eine Definition von Vernetzung sind die Auseinandersetzung Kammerers mit der Definition von Hyperlinks nach Kuhlen und seine eigenen alternativen Vorschläge hierzu hilfreich (vgl. Kammerer 1998). Dabei will Kammerer „Hyperlinks“ verstanden wissen „als ein Tupel, bestehend aus einem Verknüpfungsanzeiger und einer Adressenangabe“ (ebd., S. 151). Die verschiedenen Eigenschaften von Hyperlinks, die Kammerer dann nennt, zeigen allerdings, dass sein Hyperlink-Konzept nicht vollständig auf die Vernetzungsstruktur übertragen werden kann, da es auf Ebene der Präsenta- Der lexikografische Prozess 174 tion angelegt ist. Beispielsweise spielt die Position des Verknüpfungsanzeigers oder die Anzeigeart der adressierten informationellen Einheit eine Rolle (vgl. Kammerer 1998, S. 152). Trotzdem kann der Ansatz der Definition übertragen werden: Demnach sollen Vernetzungen nach dem Modellierungskonzept zunächst verstanden werden als ein Tupel, bestehend aus einer elektronisch adressierten Quellressource und einer elektronisch adressierten Zielressource, also: Erste Definition von Vernetzung Vernetzungen = {<quelle, ziel> Q x Z| ziel ist mit quelle vernetzt} Q = Menge aller möglichen elektronisch adressierten Quellressourcen Z = Menge aller möglichen elektronisch adressierten Zielressourcen Dabei gilt: Q LD (IS) [= Lexikografische Datenbasis (Inhaltsstrukturen); vgl. Abb. 11] Diese Definition lehnt sich auch an eine Definition von Wiegand an, der zu Verweisbeziehungen Folgendes bemerkt: Das zweistellige Prädikat ‘x verweist auf y’ (mit ‘x’ und ‘y’ als Variablen für die behandelten Angaben) trifft dann auf Paare von Angaben zu, und alle diese Paare sind Elemente einer zweistelligen Verweisrelation, welche transitiv und asymmetrisch ist. (Wiegand 1996b, S. 1192) Präzisierend kann man hier für Q auch sagen, dass Q ein XML-Element ist, welches Teil einer konkreten hierarchischen Inhaltsstruktur ist. Mit dieser Definition ist klar, dass nur solche Beziehungen zur Vernetzungsstruktur gehören, die auch explizit als solche modelliert sind. Beispielsweise will ein Lexikograf mit einem Literatur-Hinweis den Benutzer auf eine weiterführende Literatur hinweisen, er nimmt daher eine Verweisungshandlung vor. Besteht dieser Literaturhinweis jedoch nur aus einer bibliografischen Angabe V , gibt es keine elektronisch adressierte Zielressource. Daher gehört eine solche Angabe V nicht zur Trägermenge der Vernetzungsstruktur. Bei Vernetzungsstrukturen sind hinsichtliche der Lokalität der Zielressource drei Typen zu unterscheiden: Die XML -basierte Modellierung einer lexikografischen Datenbasis 175 a) Inhaltsstrukturen-interne Vernetzungen Ein Knoten einer konkreten hierarchischen Inhaltsstruktur wird mit einem Knoten einer anderen hierarchischen Inhaltsstruktur vernetzt, d.h., die Vernetzung findet innerhalb der lexikografischen Datenbasis (Inhaltsstrukturen) statt; d.h. Q LD (IS) und Z LD (IS). Ein Beispiel von Vernetzung sind paradigmatische Relationen, die in der Regel diesem Typ zuzuordnen sind. b) Datenbasis-interne Vernetzungen Ein Knoten einer konkreten hierarchischen Inhaltsstruktur wird mit einer elektronischen Ressource außerhalb der LD (IS), aber innerhalb der Lexikografischen Datenbasis verbunden; d.h. Q LD (IS) und Z LD. Beispiele für diesen Typ sind Abbildungen, die aus technischen Gründen nicht Teil der XML-Instanz eines Artikel sind oder Verweise auf Texte, die als Umtexte im Wortschatzinformationssystem eingebunden werden (z.B. eine Wörterbuchgrammatik). c) Datenbasis-externe Vernetzungen Ein Knoten einer konkreten hierarchischen Inhaltsstruktur wird mit einer außerhalb der lexikografischen Datenbasis liegenden elektronischen Ressource verbunden; d.h. Q LD (IS) und Z LD. Beispiele sind Hinweise auf Internetadressen oder Vernetzungen zu Korpusbelegen. Mit diesen Beispielen wird auch deutlich, dass die Abgrenzung von Inhaltsstrukturen und Vernetzungsstrukturen im Grunde rein formal getroffen wird: Alles, was von der Modellierung her aus der Baumstruktur der Inhaltsstrukturen explizit hinausweist, gehört zur Vernetzungsstruktur. Dies ist die einzig sinnvolle Unterscheidung für ein Modellierungskonzept, da es hier um Richtlinien für die Modellierung einer lexikografischen Datenbasis geht und nicht um Richtlinien für die Formulierung lexikografischer Texte. Und die Modellierung muss nur dann anders erfolgen, wenn die Angaben V auf andere Weise als in einer hierarchischen Baumstruktur miteinander verbunden werden müssen. Für Vernetzungen sollte daher auch nicht das gelten, was für gedruckte Wörterbücher gilt, nämlich dass man einem Verweisziel nicht ansieht, dass es ein solches ist. Einer Der lexikografische Prozess 176 der Mitarbeiter der Computerisierung des Oxford English Dictionary (Edmund Weiner) hat diesen Sachverhalt für Printwörterbücher sehr treffend folgendermaßen ausgedrückt: „[...] crossreferences [...] are like arrows that have not yet left the bow [...]“ (Weiner 1985, S. 70; vgl. auch Blumenthal/ Lemnitzer/ Storrer 1988, S. 365). Bei Vernetzungen soll dagegen der Pfeil den Bogen sehr wohl verlassen, sodass Anfangs- und Endpunkt explizit miteinander verknüpft sind. Neben der Lokalität der Zielressource gilt es für die Modellierung zwei Typen von Vernetzungen dahingehend zu unterscheiden, ob sie in eine oder beide Richtungen bestehen. Diese zwei Typen sind: - unidirektionale Vernetzungen, z.B. Vernetzungen zu Abbildungen, Korpusbelegen, und - bidirektionale Vernetzungen, z.B. Vernetzungen zwischen sinnverwandten Wörtern, Kookkurrenzen (vgl. auch Abbildung 24). Abb. 24: Unidirektionale vs. bidirektionale Vernetzungen „ “ bedeutet soviel wie „ist in diese Richtung vernetzt mit“ Unidirektionale Vernetzungen bestehen in eine Richtung, d.h., von der Zielressource wird nicht auf die Quellressource zurückverwiesen. Der Terminus bidirektionale Vernetzungen steht in Kurzform für zwei Vernetzungen, in denen die gleichen Ressourcen abwechselnd die Rolle als Quellbzw. Zielressource einnehmen. D.h., eine bidirektionale Vernetzung ist nicht eine Vernetzung in beide Richtungen (denn eine Vernetzung ist eine zweistellige, gerichtete Relation), sondern der Terminus steht für zwei Vernetzungen. Bei den unidirektionalen Vernetzungen handelt es sich bei Daten für allgemeine, einsprachige Wortschatzinformationssysteme in der Regel um Vernetzungen aus Artikeln auf Sekundärliteratur, Wörterbuchquellen, Korpusbelege oder Abbildungen. Daher ist die Quellressource meistens Teil der Lexikografischen Datenbasis (Inhaltsstrukturen) und die Zielressource ist entweder auch Teil der Lexikografischen Datenbasis (beispielsweise bei Abbildungen) oder sie liegt außerhalb von ihr (beispielsweise bei Wörterbuchquellen), d.h., es gilt in der Regel Q LD (IS) Z LD oder Q LD (IS) Z LD (vgl. Abbildungen 25 und 26). Die XML -basierte Modellierung einer lexikografischen Datenbasis 177 Unidirektionale Vernetzungen sind also zumeist Datenbasis-interne oder Datenbasis-externe Vernetzungen. Abb. 25: Veranschaulichung zu unidirektionalen Vernetzungen vom Typ: Q LD ( IS ) Z LD „ “ bedeutet soviel wie „ist in diese Richtung vernetzt mit“ Abb. 26: Veranschaulichung zu unidirektionalen Vernetzungen vom Typ: Q LD ( IS ) Z LD „ “ bedeutet soviel wie „ist in diese Richtung vernetzt mit“ Der lexikografische Prozess 178 Unidirektional sind diese Vernetzungen deshalb, da sie nur aus den Artikeln heraus stattfinden, da nicht von Korpusbelegen oder von Sekundärliteratur auf Wörterbuchartikel, in denen diese Literatur erwähnt wird, zurückverwiesen wird. Sind Abbildungen nicht unidirektional in einem Artikel eingebunden, sondern bieten beispielsweise einen onomasiologischen Zugriff auf lexikografische Inhalte - wie in der elektronischen Version des Oxford Advanced Learner's Dictionary (OALD) - dann werden diese Vernetzungen unter die bidirektionalen Vernetzungen fallen. Denn dann sollte sowohl von der Abbildung auf den Wörterbuchartikel als auch aus dem Artikel auf die Abbildung verwiesen werden. An diesem Beispiel ist zu sehen, dass man Vernetzungen nicht aufgrund der Art der Zielressource von vorneherein einem Typ zuordnen kann, sondern dass allein die Vernetzungsrichtung(en) geprüft werden müssen. Bidirektionale Vernetzungen können nur im Verantwortungsraum der Lexikografen angelegt werden, da nur dann zwei Ressourcen einmal die Rolle als Quellressource und einmal die Rolle als Zielressource einnehmen können. Für bidirektionale Vernetzungen gilt daher in der Regel, dass beide Ressourcen innerhalb der lexikografischen Datenbasis liegen, d.h. Q LD (IS) Z LD (IS) oder Q LD (IS) Z LD. Bei den bidirektionalen Vernetzungen handelt es sich daher zumeist um Inhaltsstrukturen-interne und um Datenbasis-interne Vernetzungen. Wenn Q und Z Teile der Lexikografischen Datenbasis (Inhaltsstrukturen) sind, handelt es sich um Vernetzungen zwischen Angaben V von Artikeln. Ist die Zielressource nicht Teil der LD (IS), kann es sich um Vernetzungen zu einer Wörterbuchgrammatik oder zu anderen Texten handeln, die als Umtexte präsentiert werden sollen. Denn oft wird nicht nur aus den Artikeln in die Umtexte verwiesen, sondern auch von den Umtexten in die Artikel, sodass diese Vernetzungen unter die bidirektionalen Verknüpfungen fallen. Daher kann umgekehrt auch gelten, dass Q LD Z LD (IS) ist. Weiterhin soll analog zum Inhaltsstrukturenprogramm von einem Vernetzungsstrukturenprogramm gesprochen werden. Dieses Vernetzungsstrukturenprogramm lizensiert die möglichen (abstrakten) Vernetzungsstrukturen. Das Vernetzungsstrukturenprogramm ist damit Gegenstand der Modellierung. Das Mediostrukturenprogramm (oder eine entsprechende Bezeichnung für elektronische Wörterbücher) legt dagegen fest, wie diese Vernetzungen präsentiert werden. In diesem Sinne sind die Vernetzungen auf der Ebene Die XML -basierte Modellierung einer lexikografischen Datenbasis 179 der lexikografischen Datenbasis auch als Vor-Verweise zu verstehen; adäquat zu den Angaben V bei den Inhaltsstrukturen. Beispielsweise kann im Vernetzungsstrukturenprogramm festgelegt werden, dass paradigmatische Partner immer als Vernetzungen miteinander zu verbinden sind. Im Mediostrukturenprogramm wird jedoch eingeschränkt, dass diese Vernetzungen bei bestimmten Benutzungssituationen im elektronischen Wörterbuch nicht als Links aktiviert werden. Auf der anderen Seite gibt es auch Vernetzungen, die rein aus technischen Gründen Teil des Vernetzungsstrukturenprogramms sind, wie z.B. die Verknüpfungen zu Bildern. Diese können nicht Teil einer XML-Instanz sein, sondern müssen von dort aus referenziert werden. Für den Benutzer sollte dies nicht sichtbar sein, da die Bilder bei der Präsentation in die Textinhalte eingebettet werden können. Genauso gibt es aber auch auf Ebene eines Wörterbuchs oder Wortschatzinformationssystems mediostrukturelle Adressierungsbeziehungen, die nicht auf eine Vernetzung in der lexikografischen Datenbasis zurückgreifen. Z.B. könnte für die Darstellung eines elektronischen Wörterbuchs programmiert werden, dass automatisch jedes Wort einer Paraphrase anklickbar ist, welches selbst lemmatisiert ist (im günstigsten Fall also alle Wörter). 65 Dies ist jedoch nicht Teil des Vernetzungsstrukturenprogramms auf Ebene der lexikografischen Datenbasis, sondern allein des Mediostrukturenprogramms auf Präsentationsebene. In diesem Sinne sprechen Blumenthal/ Lemnitzer/ Storrer davon, dass nicht jedem Verweis (in einem Wörterbuch) eine eigene Beziehung (auf Ebene der Datenmodellierung) entspricht und nicht jedem Verweisursprung und -ziel eine eigene Objektidentität. Vielmehr wird man sich bemühen, Verweise zu dekomponieren, d.h. aus (in der Regel linguistisch motivierten) Objektbereichsbeziehungen zusammenzusetzen. Wörterbuchform- und erst recht wörterbuchdesignabhängige Entitäten und Beziehungen sollten also auf der Ebene der konzeptionellen Datenmodellierung nicht sichtbar sein. (Blumenthal/ Lemnitzer/ Storrer 1988, S. 356) 65 Es ist allerdings die Frage, wie sinnvoll eine solche Praxis ist. Vgl dazu Wiegand (2004, S. 353): „Es ist überflüssig und nützt niemanden, die sozusagen permanente Befolgung dieses Prinzips durch Tausende von überflüssigen Verweispfeilen, die das Lesen behindern, zu dokumentieren. Diese fachlexikographische Praxis [...] wird auch dadurch nicht besser, daß sie in verschiedenen Praxisvarianten in sehr vielen Fachwörterbüchern zu finden ist. Es scheint sich um eine ansteckende fachlexikografische Textkrankheit zu handeln, die ausgelöst wird durch ein meistens pfeilförmiges Virus aus der Familie der mediostrukturellem Printviren (die mit gewissen elektronischen Linkviren verwandt sind), ein Virus, das sich an alle Angaben, die Fachtermini genannt werden, immer dann andockt, wenn diese Fachtermini auch mit einem Lemma genannt werden.“ Der lexikografische Prozess 180 Ziel der weiteren Ausführungen dieses Kapitels soll es also sein, Richtlinien für die XML-basierte Modellierung des Vernetzungsstrukturenprogramms zu entwerfen. Es geht damit nicht um die ausführliche, erschöpfende Darstellung möglicher Phänomene in diesem Bereich und wie mit ihnen umgegangen wird, sondern um einen Leitfaden zur grundsätzlichen Behandlung von Vernetzungen zunächst von Daten für allgemeine, einsprachige Wortschatzinformationssysteme bzw. Wörterbücher. Diese Richtlinien sind allerdings so allgemein gehalten, dass sie auch auf die Entwicklung einer maßgeschneiderten Modellierung für andere lexikografische Projekte übertragen werden können. Dabei wird vorausgesetzt, dass die lexikografischen Inhalte analog zu den Richtlinien dieses Modellierungskonzeptes ausgezeichnet sind. 5.5.2 Standardbasierte Ausdrucksmöglichkeit: XLink Durch die XML -Grundauffassung einer Welt vernetzter unabhängiger Dokumente ergibt sich die natürliche Notwendigkeit zur Schaffung eines Verweismechanismus, der für beliebige XML -Sprachen gleichermaßen universell eingesetzt werden kann. Dieser Anforderung soll die XML Linking Language (XLink) genügen. (Jeckle 2004, S. 83) XLink ist als XML-verwandter Standard seit Juni 2001 als Empfehlung (Recommendation) des W3C verabschiedet. 66 XLink bietet eine Untermenge der Möglichkeiten von HyTime (Hypermedia/ Time Based Structuring Language), einem SGML-basierten Standard zur Modellierung von Vernetzungen, und erweitert wesentlich die Möglichkeiten von HTML in Bezug auf Verlinkungen. In der XLink-Spezifikation (XLink) wird die grundsätzliche Aufgabe des Standards folgendermaßen beschrieben: XLink bietet einen Rahmen für die Erzeugung sowohl grundlegender unidirektionaler Links als auch komplexerer Link-Strukturen. Die Sprache erlaubt XML -Dokumenten, - Link-Beziehungen zwischen mehr als zwei Ressourcen herzustellen - Metadaten mit einem Link zu assoziieren - Links auszudrücken, die sich an einem Ort außerhalb der verlinkten Ressourcen befinden. (XLink, S. 4) Für die Modellierung des Vernetzungsstrukturenprogramms scheint XLink also der geeignete XML-basierte Standard. (Unabhängig davon, in wie vielen Tools XLink bereits implementiert ist, empfiehlt es sich meiner Meinung nach, solche Standards aufzugreifen, da sich in ihnen meist eine ganze Reihe 66 Siehe W3C-Webseite. Die XML -basierte Modellierung einer lexikografischen Datenbasis 181 Überlegungen zum Thema - wie hier zur Verlinkung von Daten - spiegeln, die nicht immer wieder neu angestellt werden müssen. Falls dann ein Werkzeug eingesetzt wird, das XLink nicht direkt verarbeiten kann, kann dies durch daran angelehntes maßgeschneidertes XML-Vokabular ersetzt werden.) Mehr in die Richtung semantischer Netze geht der Topic-Map-Standard. 67 Eine Anwendung von Topic Maps oder von semantischen Netzen bietet sich allerdings eher dann an, wenn für eine große, oft auch heterogene Datenbasis gemeinsame Zugriffsmöglichkeiten geschaffen werden sollen. So sind im Projekt der „Duden ontology“ (Alexa et al. 2002) semantische Netze von zentraler Bedeutung, um die verschiedenen lexikografischen Produkte gemeinsam verwalten und pflegen zu können. Für die Modellierung von Vernetzungsstrukturen im Rahmen dieses Modellierungskonzeptes ist jedoch XLink das Mittel der Wahl. Falls das Modell erweitert werden soll oder eine lexikografische Datenbasis mit anderen Datenbasen verbunden werden soll, können darauf aufbauend mit einem semantischen Netz gemeinsame Zugriffsstrukturen und weitergehende Vernetzungen entwickelt werden. Dabei ist eine granulare Inhaltsmodellierung bei den lexikografischen Inhalten und ihren Vernetzungen, so wie sie nach dem Modellierungskonzept vorgesehen sind, von entscheidendem Vorteil. Die Modellierung des Vernetzungsstrukturenprogramms, wie sie hier entwickelt ist, ist daher bei Bedarf weiter ausbaubar. Zur weitergehenden Charakterisierung des Standards heißt es in der XLink- Spezifikation: Neben der Bereitstellung von Link-Datenstrukturen bietet XLink ein minimales Link-Verhaltensmodell; Anwendungen höherer Ebene, die auf XLink aufsetzen, werden oft alternative oder ausgefeiltere Darstellungs- und Verarbeitungsverfahren spezifizieren. (XLink, S. 4) Wie XML ein grundsätzliches Mittel für die Modellierung und Auszeichnung von hierarchisch aufgebauten Inhalten ist, so bietet auch XLink eine standardbasierte syntaktische Ausdrucksmöglichkeit für deren Vernetzungen untereinander. Dabei haben weitergehende softwaretechnische Funktionalitäten, die projektgebunden zugeschnitten werden, nichts mit dem Standard 67 Siehe www.topicmaps.org/ xtm/ 1.0/ sowie die XML -Topic-Maps-Seiten der Organization for the Advancement of Structured Information Standards ( OASIS ) unter http: / / xml.coverpages.org/ topicMaps.html . Weiterführende Informationen und Anwendungsprojekte zeigen (in Auswahl) Widhalm/ Mück (2002), Pepper (1999), Biezunski (1999), Rath (1999) und Schmidt/ Müller (2000). Der lexikografische Prozess 182 zu tun. Im Folgenden sollen die zentralen Begriffe von XLink vorgestellt werden. Dabei orientiert sich die Terminologie notwendigerweise am XLink-Standard. Gleichzeitig soll mit diesem Abschnitt eine kurze Einführung in XLink geboten werden, um die Richtlinien für die Modellierung des Vernetzungsstrukturenprogramms nachvollziehen und die Beispiele verstehen zu können. Als erstes wird in der XLink-Spezifikation ein XLink-Link definiert: Ein XLink-Link ist eine explizite Beziehung zwischen Ressourcen oder Teilen von Ressourcen [...] Sie wird durch ein XLink-Link-Element explizit gemacht, welches ein XLink-konformes XML -Element ist, das die Existenz eines Links ausdrückt. (XLink, S. 5) Dabei ist eine Ressource folgendermaßen definiert: „Wie in [IETF RFC 2396] beschrieben, ist eine Ressource eine adressierbare Informations- oder Diensteinheit“ (ebd., Einschub im Original). Beispiele für Ressourcen sind beispielsweise Dateien, Bilder oder Dokumente. Allerdings kann eine Ressource in diesem Zusammenhang „auch einen Teil einer Ressource bezeichnen [...], nicht unbedingt die ganze Ressource“ (ebd.), also z.B. auch ein einzelnes XML-Element innerhalb einer XML-Instanz. Dies ist im Rahmen des Modellierungskonzeptes von entscheidender Bedeutung, denn die meisten Vernetzungen innerhalb der lexikografischen Inhalte verlaufen nicht zwischen ganzen Artikeln, sondern beziehen sich auf Angaben V in den Artikeln. Um daher der anfangs genannten Anforderung - einer möglichst präzisen Verknüpfung der Anfangs- und Endressourcen von Vernetzungen - genügen zu können, müssen diese Adressierungen einzelner Teile von Dokumenten möglich sein. Im Rahmen von XLink wird dabei von einer Start- und einer Zielressource gesprochen: „Die Quelle, von der aus die Traversierung beginnt, heißt Start-Ressource und [...] das Ziel ist die End-Ressource“ (XLink, S. 6). Traversierung bezeichnet dabei „das Benutzen oder Verfolgen eines Links zu welchem Zweck auch immer“ (ebd.). „Informationen darüber, wie ein Paar von Ressourcen zu traversieren ist, inklusive der Traversierungsrichtung und möglichen Anwendungsverhaltens, nennen wir eine Kante“ (ebd.). XLink bietet dabei die Möglichkeit, Verbindungen zwischen Ressourcen herzustellen, auch wenn beide nicht in dem Dokument sind, in denen der Link definiert wird. Entsprechend gibt es lokale und entfernte Ressourcen. „Eine lokale Ressource ist ein XML-Element, das dadurch an einem Link teilnimmt, dass entweder es selbst oder sein Vater ein Link-Element ist“ (ebd.). „Eine Ressource oder ein Teil einer Ressource, die an einem Link Die XML -basierte Modellierung einer lexikografischen Datenbasis 183 dadurch teilnimmt, dass sie durch eine URI-Referenz 68 adressiert wird, nennen wir eine entfernte Ressource [...]“ (XLink, S. 6f.). Wie oben schon erwähnt wurde, ist auch die mögliche Adressierung von Teilen von Ressourcen sehr wichtig. „Für Adressangaben, die in XML-Ressourcen verweisen, wird das in der URI-Referenz verwendete Format für den Fragment- Identifikator (falls vorhanden) durch die XPointer-Spezifikation spezifiziert“ (ebd., S. 31). Entsprechend der verschiedenen Möglichkeiten der Link-Festlegung gibt es in XLink drei unterschiedliche Arten von Kanten: eingehende, ausgehende und so genannte Third-Party-Kanten. Eine Kante, die eine lokale Start- und eine entfernte End-Ressource hat, heißt ausgehend, d.h. sie geht fort vom Link-Element. [...] Wenn die End-Ressource einer Kante lokal ist, aber die Start-Ressource entfernt, dann heißt die Kante eingehend. [...] Wenn weder die Startnoch die End-Ressource lokal sind, heißt die Kante eine Third-Party-Kante. (ebd., S. 7) In HTML gibt es beispielsweise nur ausgehende Kanten, da das href - Element immer in der Quellressource enthalten ist. Um die XLink-eigenen Elemente und Attribute eindeutig als solche auszuweisen, wird - wie bei anderen XML-verwandten Standards auch - der so genannte Namensraummechanismus angewandt. XML -Namensräume bieten eine einfache Möglichkeit, um Element- und Attributnamen, die in ‘Extensible-Markup-Language’-Dokumenten verwendet werden können, eindeutig zu benennen. Die Element- und Attributnamen werden mit Namensräumen verknüpft, die durch URI -Verweise identifziert werden. ( XML -Namensräume, S. 1) Dabei bezeichnen diese URIs nicht tatsächliche Internetquellen, sondern dienen allein der eindeutigen Bezeichnung (vgl. Jeckle 2004, S. 29). Namensräume sind in der zugehörigen Spezifikation definiert als „eine Zusammenstellung von Namen, identifiziert durch einen URI-Verweis [...], die in XML- Dokumenten als Elementtypen und Attributnamen verwendet werden“ 68 „Uniform Resource Identification ( URI ) dient als abstrakter Oberbegriff eineindeutig identifizierbarer Web-Ressourcen. Konzeptionell sind URI s: über Zeit und Raum eindeutig, für Menschen leicht zu merkend, mit keinerlei Registrierungskosten verbunden, unabhängig von der tatsächlichen Lokalisation der so identifizierten Ressource“ (Jeckle 2004, S. 30). Eine Untermenge von URI s sind die mehr bekannten URL s (Uniform Ressource Location), die den physischen Aufenthaltsort einer Resource bezeichnen. Näheres zu URI -Referenzen unter XLink (S. 31f.) und unter IETF RFC 2396. Der lexikografische Prozess 184 (XML-Namensräume, S. 2). Die Überlegung hinter der Entwicklung der XML- Namensräume ist, dass XML-Anwendungen zwar ein je eigenes Markup- Vokabular haben, dass es aber projektübergreifend gleichartige Probleme gibt, die nicht immer wieder individuell gelöst werden müssen. In diesem Sinne stellt XLink ein Vokabular für die Modellierung von Vernetzungen zur Verfügung, das - falls es im Anwendungskontext passt - übernommen werden sollte. Identifiziert wird der XLink-Namensraum durch das Attribut xmlns: xlink CDATA #FIXED "http: / / www.w3c.org/ 1999/ xlink" Zu dieser Art von Attributen führt Jeckle aus: Semantisch bildet die durch xmlns eingeleitete Deklaration ein Pseudoattribut, da es für die maschinelle Verarbeitung vorbehalten und mit festgelegter Bedeutung ausgestattet ist, welche durch den XML -Dokumentautor nicht verändert werden kann. [...] Die Deklaration des Namensraumes mit der Präfixbindung kann auf beliebige hierarchisch höhergeordnete Elemente ausgelagert werden. In der Praxis hat es sich aus Übersichtlichkeitsgründen durchgesetzt, alle in einem XML -Dokument benutzten Namensräume mit ihren Präfixen zu Beginn des Dokuments im Wurzelelement zu definieren. (Jeckle 2004, S. 32) Dabei können XLink spezifische Elemente und Attribute im Kontext mit anderen in eine DTD oder Anwendung eingebunden werden. Insofern bietet sich die Anwendung dieses XML-verwandten Standards im Rahmen des Modellierungskonzeptes an. XLink bietet zwei Arten von Links: - erweiterte Links ( type : extended ) - einfache Links ( type : simple ) Erweiterte Links bieten volle XLink-Funktionalität, wie etwa eingehende und Third-Party-Kanten, sowie Links mit beliebig vielen teilnehmenden Ressourcen. Aus diesem Grund kann die Struktur dieser Links recht komplex werden; mit Elementen zum Verweisen auf entfernte Ressourcen, Elementen zum Aufnehmen lokaler Ressourcen, Elementen zur Spezifikation von Traversierungsregeln und Elementen, die für Menschen lesbare Ressourcen- und Kantentitel festlegen. (XLink, S. 12) „Einfache Links bieten eine Kurzschreibweise für eine häufige Art von Link, nämlich einen ausgehenden Link mit genau zwei teilnehmenden Ressourcen [...]“ (ebd.). Obwohl einfache Links konzeptuell eine Untermenge erweiterter Links sind, sind sie syntaktisch anders aufgebaut, um eine bequeme Kurzschreibweise für diese Art von Links zu bieten, die in vielen Anwendungen besonders häufig vorkommen. Die XML -basierte Modellierung einer lexikografischen Datenbasis 185 Ein erweiterter Link ist in der Spezifikation folgendermaßen definiert: „Ein erweiterter Link ist ein Link, der eine beliebige Anzahl von Ressourcen assoziiert“ (XLink, S. 13). „Üblicherweise werden erweiterte Links getrennt von den Ressourcen gespeichert, die sie assoziieren (zum Beispiel in einem ganz anderen Dokument)“ (ebd.) Ist dies der Fall, spricht man im Kontext von XLink von einer Link-Bank, in der die Links gespeichert sind. „Dokumente, die Sammlungen von eingehenden Links und Third-Party- Links enthalten, werden Link-Datenbanken genannt, oder kurz Link- Banken“ (ebd., S. 7). Der Vorteil beim Aufbau solcher Link-Banken ist, dass die Links verändert werden können, ohne dass die Dokumente selbst angetastet werden. Außerdem erleichert eine Link-Bank das Vernetzungsmanagement. Dies kann auch für lexikografische Anwendungen von Vorteil sein. In der XLink-Spezifikation wird als ein Beispiel für einen erweiterten Link ein Link beschrieben, der fünf entfernte Ressourcen zueinander in Beziehung setzt, die die Kurswahl eines Studenten „repräsentieren“ (ebd., S. 13): eine Ressource als Beschreibung des Studenten, eine andere als Beschreibung des Betreuers des Studenten, zwei Ressourcen als Repräsentation der Kurse, an denen der Student teilnimmt, und die letzte Ressource als Repräsentation einer Kurses, den der Student nur besucht. In dem Beispiel sind die Kanten nicht gerichtet, sondern zunächst einmal reine Beziehungen. Die Richtung muss gesondert durch Traversierungsregeln festgelegt werden. Ein erweiterter Link kann somit, wie an dem Beispiel zu sehen ist, ein komplexes Objekt sein. „Der XLink-Elementtyp für erweiterte Links ist ein beliebiges Element mit einem Attribut type aus dem XLink-Namensraum, das den Attributwert ‘extended’ hat“ (XLink, S. 14). Diese erweiterten Links können beliebige Kombinationen der folgenden Elemente (neben anderem Inhalt und Markup) haben: - „Elemente vom Typ locator , die die am Link teilnehmenden entfernten Ressourcen adressieren - Elemente vom Typ arc , die die Traversierungsregeln zwischen den teilnehmenden Ressourcen des Links festlegen - Elemente vom Typ title , die für Menschen lesbare Beschreibungen für den Link bieten - Elemente vom Typ resource , die am Link teilnehmende lokale Ressourcen beisteuern.“ (ebd.; Herv. d. Verf.) Der lexikografische Prozess 186 Diese Elemente müssen allerdings direkte Kindelemente des XLink-Links sein, sonst haben sie keine XLink-spezifische Bedeutung. Das Element vom Typ extended darf darüber hinaus über die semantischen Attribute role und title verfügen. „Diese Attribute liefern semantische Information über den Link als Ganzes; das Attribut role beschreibt eine Eigenschaft, die dem gesamten Link zukommt, und das Attribut title ist eine für Menschen lesbare Beschreibung des gesamten Links“ (XLink, S. 15, siehe auch S. 24f.). Gerade die Möglichkeit, für Menschen lesbare Titel dem Link hinzuzufügen, ist für lexikografische Anwendungen interessant. Lokale Ressourcen sind in erweiterten Links als direkte Kindelemente vom Typ resource zu modellieren. Dieses Element muss keinen Inhalt haben, „[...] wenn es als Start-Ressource dient, die nach Aufforderung traversiert werden soll, werden interaktive Möglichkeiten typischerweise einen Inhalt produzieren, um dem Benutzer die Möglichkeit zu geben, die Traversierung anzustoßen“ (ebd., S. 17). Lokalen Ressourcen können die semantischen Attribute role und title hinzugefügt werden, sowie das Traversierungsattribut label . „Das Attribut label bietet die Möglichkeit, dass sich ein Element vom Typ arc bei der Erzeugung einer Traversierungskante auf die lokale Ressource beziehen kann“ (ebd., S. 17f.). Entfernte Ressourcen sind Elemente vom Typ locator . „Das XLink- Element für Adressangaben ist ein beliebiges Element mit einem Attribut type aus dem XLink-Namensraum, das den Attributwert locator hat“ (ebd., S. 19). Bei Elementen vom Typ locator muss eine Adressangabe gemacht werden, und zwar über das Attribut href . In dieses Attribut muss eine URI-Referenz eingetragen werden, die eine entfernte Ressource identifiziert. Optional können einer entfernten Ressource die semantischen Attribute role (Eigenschaft der Ressource) und title (eine für Menschen lesbare Beschreibung) und das Traversierungsattribut label hinzugefügt werden. Bei einem erweiterten Link können Traversierungsregeln zwischen beteiligten Ressourcen mit Hilfe einer Folge von optionalen Kantenelementen festgelegt werden. Das XLink-Element für Kanten ist ein Element mit dem Attribut type aus dem XLink-Namensraum, welches den Wert arc hat. Ein Element vom Typ arc darf über die Traversierungsattribute from und to , die Verhaltensattribute show und actuate und die semantischen Attribute arcrole und title verfügen (zu den Verhaltensattributen s.u.). Diese Traversierungsattribute legen das gewünschte Verhalten beim Traversieren Die XML -basierte Modellierung einer lexikografischen Datenbasis 187 zwischen Paaren von Ressourcen fest, die am selben Link teilnehmen. Die teilnehmenden Ressourcen werden dabei durch den Wert ihres Attributs label identifiziert. Das Attribut from legt die Ressourcen fest, von denen die Traversierung begonnen werden darf (d.h. die Start-Ressourcen), während das Attribut to Ressourcen festlegt, zu denen traversiert werden darf. Die Verhaltensattribute legen das gewünschte Verhalten einer XLink-Anwendung bei der Traversierung zu der End-Ressource fest. (XLink, S. 20) Die semantischen Attribute beschreiben die Bedeutung der End-Ressource der Kante relativ zu ihrer Start-Ressource. Z.B. kann eine Ressource allein nur die Bedeutung Person haben, im Kontext eines Links nimmt sie jedoch die Rolle des Bruders oder Vaters ein, d.h., die kontextuelle Rolle kann sich von der Bedeutung der End-Ressource unterscheiden, wenn diese außerhalb des Kontextes dieser bestimmten Kante betrachtet wird. Wenn eine Ressource für mehrere Links als Start-Ressource dient, ist das Traversierungsverhalten von der Spezifikation her nicht beschränkt, „aber eine Möglichkeit für interaktive Anwendungen wäre ein Pop-up-Menü, das alle relevanten Kanten- oder Link-Titel auflistet“ (ebd., S. 21). Eine Kantenduplikation ist nicht erlaubt, d.h., ein Element vom Typ arc muss innerhalb eines erweiterten Links einzigartige from - und to -Werte haben (ebd., S. 23). Somit sind die wesentlichen Elemente für die Modellierung erweiterter Links vorgestellt. Ein einfacher Link ist in der XLink-Spezifikation definiert als „ein Link, der genau zwei Ressourcen zueinander in Beziehung setzt, eine lokale und eine entfernte, mit einer Kante von der ersteren zur letzteren Ressource. Ein einfacher Link ist also immer ein ausgehender Link“ (XLink, S. 27f.). Ein einfacher Link bietet damit eine bequeme Kurzschreibweise für den entsprechenden erweiterten Link; er assoziiert eine lokale und eine entfernte Ressource und „bietet implizit eine einzige Traversierungskante von der lokalen zur entfernten“ Ressource (ebd., S. 28). Dabei fehlen bei einfachen Links folgende Möglichkeiten: - Angabe einer beliebigen Anzahl lokaler und entfernter Ressourcen, - Spezifikation einer Kante von der entfernten zur lokalen Ressource, - Zuweisung eines Titels zu der einen fest verdrahteten Kante, - Zuweisung einer Rolle oder eines Titels zu der lokalen Ressource, und - Zuweisung einer Rolle oder eines Titels zu dem Link als Ganzem (vgl. ebd., S. 29). Der lexikografische Prozess 188 Es ist jedoch denkbar, dass aus einer granularen Inhaltsmodellierung Spezifikationen für die Darstellung des Links abgeleitet werden können; eine solche Funktionalität greift dann jedoch nicht auf XLink-spezifische Vorgaben zurück. Das XLink-Element für einfache Links ist ein beliebiges Element mit dem Attribut type aus dem XLink-Namensraum, das den Attributwert simple hat. Das Element vom Typ simple übernimmt praktisch das Adressangabe- Attribut href sowie die semantischen Attribute role und title vom Element vom Typ locator und die Verhaltensattribute show , actuate und das einzige semantische Attribut arcrole vom Element vom Typ arc . (XLink, S. 29) Nun noch eine kurze Erläuterung der Verhaltensattribute show und actuate : Diese Attribute geben bei einfachen Links das Verhalten bei der Traversierung zur einzigen End-Ressource an; bei Elementen vom Typ arc geben sie das beabsichtigte Verhalten für die Traversierung zu sämtlichen End- Ressourcen an, die durch diese Kante spezifiziert werden (ebd., S. 33). Das Attribut show wird dazu benutzt, die „beabsichtigte Darstellung der End- Ressource bei Traversierung von der Start-Ressource aus festzulegen“ (ebd., S. 33f.). Mögliche Werte für das Attribut (und das Verhalten, welches XLink- Anwendungen vornehmen sollten) sind: - new : Die End-Ressource soll in einem neuen Fenster, Frame o.Ä. präsentiert werden. - replace : Die End-Ressource soll im Fenster der Start-Ressource geladen werden. - embed : Die End-Ressource soll anstelle der Darstellung der Start- Ressource geladen werden. - other : Das Verhalten wird durch die Spezifikation nicht eingeschränkt. Bei dem Wert sollte nach weiterem Markup im Link gesucht werden, um das angemessene Verhalten zu ermitteln. - none : Das Verhalten wird durch die Spezifikation nicht eingeschränkt und es ist kein weiteres Markup vorhanden, dass ein Verhalten spezifizieren könnte. Das Attribut actuate (auslösen) wird benutzt, um „das beabsichtigte zeitliche Verhalten der Traversierung von der Start-Ressource zur End-Ressource mitzuteilen“ (XLink, S. 35). Mögliche Werte dieses Attributs sind: Die XML -basierte Modellierung einer lexikografischen Datenbasis 189 - onLoad : Eine Anwendung sollte sofort beim Laden der Start-Ressource zur End-Ressource traversieren (meistens in Kombination mit show= " actuate " oder " embed "; z.B. für Bilder). - onRequest : „Eine Anwendung sollte nur von der Startzur End- Ressource traversieren, wenn nach dem Laden ein zum Zweck der Traversierung ausgelöstes Ereignis auftritt“ (XLink, S. 36), also z.B. ein Mausklick. - other : Das Verhalten wird durch die Spezifikation nicht eingeschränkt. Bei dem Wert sollte nach weiterem Markup im Link gesucht werden, um das angemessene Verhalten zu ermitteln. - none : Das Verhalten wird durch die Spezifikation nicht eingeschränkt und es ist kein weiteres Markup vorhanden, dass ein Verhalten spezifizieren könnte. Damit sind die wesentlichen Begriffe der XML Linking Language vorgestellt. Bereits vorgenommene Implementierungen (bis zum Jahr 2002) sind im Internet zusammengestellt unter: www.w3.org/ XML/ 2000/ 09/ LinkingImplementations.html (Stand: März 2007). Insgesamt unterstützen die gängigen Web-Browser allerdings nicht umfassend XLink-spezifische Vorgaben. Entsprechend bemerkt Schneider: Über die Art und Weise allerdings, wie die auf einem solchen Hypertextknoten operierenden Anwendungen wie etwa Web-Browser oder Suchmaschinen solche Links interpretieren und darstellen dürfen, existiert momentan noch keine verbindliche Übereinkunft. Selbst die Frage, ob und wann zukünftige Produkte XLink-Optionen und die XPointer-Notation überhaupt unterstützen werden, ist bislang leider nicht zufriedenstellend beantwortet worden. (Schneider 2004, S. 226) Diese Situation hat sich insofern geändert, als dass einige Browser zumindest Teile von XLink und XPointer implementiert haben. Z.B. können Netscape, Mozilla und Amaya simple links interpretieren und planen die Einführung von extended links. Allerdings kann man zum Ersatz auch eigens definiertes XML-Vokabular einsetzen, welches sich an den XLink-Vorgaben orientiert. Entsprechend müssen dann auch eigene Software-Funktionalitäten programmiert werden. Da das Modellierungskonzept jedoch für zukünftige lexikografische Projekte gedacht ist, wird für die Richtlinien des Vernetzungsstrukturenprogramms XLink eingesetzt. Der Ausweg über ‘normales’ XML-Vokabular wird daneben in Ansätzen gezeigt. Der lexikografische Prozess 190 5.5.3 Richtlinien für die XML-basierte Modellierung des Vernetzungsstrukturenprogramms Die vorgestellte inhaltliche Konzeption für die Modellierung des Vernetzungsstrukturenprogramms soll nun zusammen mit den standardbasierten Ausdrucksmöglichkeiten von XLink in Richtlinien zur Modellierung des Vernetzungsstrukturenprogramms zusammengeführt werden. Die wichtigste grundsätzliche Modellierungsrichtlinie für das Vernetzungsstrukturenprogramm ist, dass die - unidirektionalen Vernetzungen mit einfachen Links und die - bidirektionalen Vernetzungen mit erweiterten Links modelliert werden. Die einfachen Links für unidirektionale Vernetzungen werden an der gewünschten Stelle in der DTD, die die Modellierung des Inhaltsstrukturenprogramms beinhaltet, eingebunden. Damit lautet der Leitsatz zur Modellierung von undirektionalen Vernetzungen: Leitsatz zur Modellierung von unidirektionalen Vernetzungen Unidirektionale Vernetzungen werden als einfache Links modelliert und in die DTDs, die die Modellierung des Inhaltsstrukturenprogramms beinhalten, eingebunden. Eine Modellierung für einen Hinweis auf elektronische Wörterbücher, d.h. für eine Datenbasis-externe Vernetzung, könnte daher folgendermaßen aussehen: <! -- ===== Hinweis auf elektronische Woerterbuecher ===== --> <! ELEMENT el-woerterbuchH (%hinweistext; ) > <! ATTLIST el-woerterbuchH xmlns: xlink CDATA #FIXED "http: / / www.w3c.org/ 1999/ xlink" xlink: type (simple) #FIXED "simple" xlink: href CDATA #REQUIRED xlink: title CDATA #REQUIRED xlink: show (new | replace | embed | other | none) #REQUIRED xlink: actuate (onLoad | onRequest) #FIXED "onRequest" > Die XML -basierte Modellierung einer lexikografischen Datenbasis 191 Das erste Attribut verweist auf den XLink-Namensraum. Sind mehrere XLink-spezifische Elemente in einer DTD vorhanden, bietet es sich an, dieses Attribut einmalig auf hierarchisch höherer Ebene anzugeben. Als Linktyp ist simple angegeben, d.h., es ist ein einfacher Link. Das Attribut href ist obligatorisch gesetzt, da immer eine Zielressource angegeben werden soll. Auch ein für Menschen lesbarer Titel soll immer angegeben werden; daher ist auch dieses Attribut auf REQUIRED gesetzt. Die Vergabe des Titels soll deshalb vorgeschrieben werden, da dieser Titel die Möglichkeit eröffnet, den potenziellen Benutzern des Wortschatzinformationssystems schon am Verweisursprung deutlich zu machen, was sie am Verweisziel erwartet. Diese Funktionalität ist eine oft formulierte Forderung in der Wörterbuchforschung. Beispielsweise schlagen Engelberg/ Lemnitzer vor, dass die vielfältigeren Möglichkeiten der Darstellung im elektronischen Wörterbuch dazu genutzt werden sollen, „den Benutzern bereits am Verweisursprung zu signalisieren, was sie am Verweisziel erwartet: eine Grafik, eine Übersichtstafel, eine Regel, ein Videoclip, ein kompletter Wörterbuchartikel etc.“ (Engelberg/ Lemnitzer 2001, S. 159). Die Anzeige über das Attribut show muss in diesem Beispiel auch immer spezifiziert werden. Der Auslösevorgang über das Attribut actuate ist schon in der DTD festgesetzt auf onRequest , da hier von vorneherein festgelegt wurde, dass ein Wörterbuchhinweis immer nur bei Mausklick des potenziellen Benutzers aktiviert werden soll. Genauso ist auch vorstellbar, dass der Wert für show schon in der DTD auf " new " festgesetzt wird, d.h., dass immer ein neues Fenster geöffnet werden soll. Der zugehörige Ausschnitt aus einer XML-Instanz könnte dann folgende Form haben: <el-woerterbuchH xmlns: xlink= "http: / / www.w3c.org/ 1999/ xlink" xlink: type= "simple" xlink: href= "http: / / germa63.uni-trier.de: 8080/ Projects/ WBB/ woerterbuecher/ dwb/ wbgui? lemid=GA05417" xlink: title='Artikel "Arbeit" im Deutschen Wörterbuch (Grimm)' xlink: show= "new"> ... </ el-woerterbuchH> Möchte man in seiner Modellierung keine Elemente und Attribute aus dem XLink-Namensraum verwenden, könnte eine eigens entwickelte adäquate Modellierung folgendermaßen aussehen: Der lexikografische Prozess 192 <! -- ===== Hinweis auf elektronische Woerterbuecher ===== --> <! ELEMENT el-woerterbuchH (%hinweistext; ) > <! ATTLIST el-woerterbuchH typ (einfacherLink) #FIXED "einfacherLink" href CDATA #REQUIRED titel CDATA #REQUIRED anzeige (neu | ersetzend | eingebettet | andere | keine) #REQUIRED ausloesen (aufAnforderung) #FIXED "aufAnforderung"> Veranschaulicht kann diese unidirektionale Vernetzung wie in Abbildung 27 gezeigt dargestellt werden. Abb. 27: Veranschaulichung zu unidirektionalen Vernetzungen „ “ bedeutet soviel wie „ist in diese Richtung vernetzt mit“ Ein anderes Beispiel von unidirektionalen Vernetzungen sind Verknüpfungen zu Abbildungen, die aus rein technischen Gründen nicht Teil der XML-Instanz für einen Artikel sein können, also Datenbasis-interne Vernetzungen. Eine Modellierung für eine solche Vernetzung könnte folgendermaßen aussehen: <? xml version="1.0"? > <! DOCTYPE artikel SYSTEM "C: \..."> <artikel> <allgemein> <lemmazeichenA>beispiel</ lemmazeichenA> ... <el-woerterbuchH xmlns: xlink="http: / / www.w3c.org/ 1999/ xlink" xlink: type="simple" xlink: href="http: / / germa63. uni-trier.de: 8080/ Projects/ WBB/ woerterbuecher/ dwb/ wbgui? lemid=GA05417" xlink: title="Artikel "Arbeit" im Deutschen Wörterbuch (Grimm)" xlink: show="new"> </ el-woerterbuchH> ...</ allgemein>... </ artikel> XML-INSTANZ ELEKTRONISCHES WÖRTERBUCH Die XML -basierte Modellierung einer lexikografischen Datenbasis 193 <! -- ===== Abbildung ===== --> <! ELEMENT abbildung EMPTY > <! ATTLIST abbildung xmlns: xlink CDATA #FIXED "http: / / www.w3c.org/ 1999/ xlink" xlink: type (simple) #FIXED "simple" xlink: href CDATA #REQUIRED xlink: show (new | replace | embed | other | none) #FIXED "embed" xlink: actuate (onLoad | onRequest | other | none) #FIXED "onLoad" > Es handelt sich auch hier um einen einfachen Link, für den schon in der DTD festgelegt wird, dass er automatisch beim Laden die Zielressource einbetten soll, denn dies ist für Abbildungen, die Teil eines Artikels im elektronischen Wörterbuch sind, vermutlich die sinnvollste Festlegung. Auch hier könnte eine eigene Modellierung, die auf XLink-spezifisches Vokabular verzichtet, als Ersatz entwickelt werden. Wichtig ist, dass bei unidirektionalen Vernetzungen die Vernetzung aus der XML-Instanz des Artikels heraus erfolgt, d.h., dass die Quellressource der Vernetzung Teil des Artikels ist. Die wichtigste Richtlinie für die Modellierung bidirektionaler Vernetzungen ist, dass diese als erweiterte Links in Form einer Linkbank modelliert werden sollen. Dabei werden beide Vernetzungen (aus denen die bidirektionale Verknüpfung besteht) in einem Vernetzungsobjekt, d.h. einem erweiterten Link, modelliert. Dies ist möglich über die Modellierung mehrerer an dem Link teilnehmender entfernter Ressourcen und der Spezifizierung des Traversierungsverhaltens zwischen ihnen. Der Vorteil einer solchen Modellierung ist, dass das Vernetzungsstrukturenprogramm frei von Redundanzen ist, sodass ein effektives Vernetzungsmanagement erheblich erleichtert wird. Zum Beispiel wird eine Vernetzung durch Synonyme in einem Objekt festgehalten, sodass einfach geprüft werden kann, dass diese Vernetzung wirklich in beide Richtungen angelegt ist. (Wie beim Aufbau einer lexikografischen Datenbasis vorgegangen wird, d.h., wenn beispielsweise erst ein Artikel verfasst ist, wird unten ausgeführt.) Die Form einer Speicherung in einer Linkbank hat zudem den Vorteil, dass unabhängig von der Positionierung der einzelnen Angaben V in den Artikeln, von denen die Vernetzung zunächst ausgeht, die Vernetzungen an die inhaltlich relevanten Teile der Artikel adressiert werden kann. Der erste Leitsatz zur Modellierung bidirektionaler Vernetzungen lautet demnach: Der lexikografische Prozess 194 Erster Leitsatz zur Modellierung von bidirektionalen Vernetzungen Bidirektionale Vernetzungen werden in einem erweiterten Link modelliert. Die beteiligten Quell- und Zielressourcen werden als entfernte Ressourcen modelliert und die sie verbindenden Kanten als Third-Party Kanten. Die bidirektionalen Vernetzungen sollen in Form einer Linkbank gespeichert werden. Diese Modellierung von bidirektionalen Vernetzungen soll an den folgenden Beispielen veranschaulicht werden. Abb. 28: Artikel „Angst“ und Artikel „gruseln“ aus dem Deutschen Wörterbuch ( DW ) „ “ bedeutet soviel wie „ist mediostrukturell adressiert an“ „ “ bedeutet soviel wie „ist artikelintern zugreifbar“ Die Abbildung 28 zeigt die Artikel „Angst“ und „gruseln“ aus der Printausgabe des Deutschen Wörterbuchs von Hermann Paul (DW). Aus dem Artikel „Angst“ wird auf den Artikel „gruseln“ als Sinnverwandte verwiesen, aus dem Artikel „gruseln“ wird innerhalb des Subartikels „Grusel“ auf „Angst“ Die XML -basierte Modellierung einer lexikografischen Datenbasis 195 verwiesen. Nun soll angenommen werden, dass der Datenbestand für dieses Wörterbuch in einer lexikografischen Datenbasis gespeichert ist und analog zu den hier entworfenen Modellierungsrichtlinien aufbereitet ist. Abb. 29: Mögliche (rudimentäre) konkrete und abstrakte Inhaltsstrukuren der Artikel „Angst“ und „gruseln“ aus dem Deutschen Wörterbuch ( DW ) Die Abbildung 29 zeigt in Grundzügen, wie man sich auszugsweise die zugehörigen abstrakten und konkreten Inhaltsstrukturen der Artikel vorstellen kann. Dabei geht es hier nicht um Details dieser möglichen Modellierung oder um die darin verwendete Terminologie, sondern darum, ein anschauliches Beispiel für die Modellierung des Vernetzungsstrukturenprogramms aufzuzeigen. Innerhalb des Artikels „Angst“ ist die Angabe V „Grusel“ als sinnverwandteA ausgezeichnet. Die zugeordneten IDREFs , d.h. Verweise auf IDs , verweisen auf den Artikel „gruseln“ ( lemmazeichen-idref ) und auf den Subartikel „Grusel“ ( sublemmazeichen-idref ). Diese Modellierung und zugehörige Auszeichnung würden ermöglichen, dass für die gedruckte Ausgabe die Angabe „Grusel ( gruseln)“ generiert wird, auch wenn nur „Grusel“ im Elementinhalt steht. (Im Mediostrukturenprogramm für das DW ist festgelegt, dass mit dem Pfeil nur „auf Hauptlemmata [...] verwiesen“ (DW, S. XIV) wird. Daher ist als Verweisziel hier „gruseln“ angegeben, auch wenn „Grusel“ das sinnverwandte Wort zu „Angst“ ist.) Im Artikel „gruseln“ wird innerhalb des Subartikels „Grusel“ entsprechend auch über eine sinnverwandteA und einer lemmazeichen-idref auf „Angst“ verwiesen. Der lexikografische Prozess 196 Die hier beschriebenen Angaben V stellen also inhaltlich eine Vernetzung zwischen dem gesamten Artikel „Angst“ und dem Subartikel „Grusel“ her, denn zwischen diesen Objekten besteht die Sinnverwandtschaft. So wie die vernetzungsrelevanten Angaben V jedoch im Artikel sind, besteht die Vernetzung zwischen der Sinnverwandten-Angabe V „Grusel“ (innerhalb des Artikels „Angst“) und dem Subartikel „Grusel“; und in der anderen Richtung von der Sinnverwandten-Angabe V „Angst“ (innerhalb des Subartikels „Grusel“) und dem Artikel „Angst“. Die Quellressource für die Vernetzung ist daher in den konkreten hierarchischen Inhaltsstrukturen inhaltlich nicht genau zugreifbar. (Zugreifbar ist nur die Angabe V , aber nicht der gesamte Artikel bzw. Subartikel als Quellressource.) Ziel bei der Modellierung der Vernetzungsstruktur sollte daher sein, die Quellressource und die Zielressource in genau richtigem inhaltlichen Umfang kenntlich zu machen. Diese genaue Kodierung von Quell- und Zielressourcen - gesammelt in einer Linkbank - ermöglicht gerade für eine elektronische Präsentation vielfältige Möglichkeiten: Beispielsweise können für bestimmte Benutzungssituationen zu einem gesuchten Artikel gleich am Anfang die bedeutungsverwandten Artikel aufgeführt werden. Oder es können bedeutungsverwandte Artikel in eine Suche integriert werden. Diese Auswertung der Vernetzungen für die Programmierung von Zugriffsmöglichkeiten sind nicht in dem Maße gegeben, wenn Quell- und Zielressourcen nicht in ihrem vollen inhaltlichen Umfang adressierbar sind. Bei einem neu zu erstellenden Wortschatzinformationssystem ist es daher empfehlenswert, im Vernetzungsstrukturenprogramm von vornherein eine möglichst genaue Vernetzung von Quell- und Zielressource vorzusehen. So sind zum Beispiel in elexiko die paradigmatischen Beziehung auf Ebene der Einzelbedeutungen verankert (siehe Kapitel 6). Bei der Sinnverwandtschaft handelt es sich um eine bidirektionale Vernetzung, d.h., es bestehen zwei Vernetzungen, bei denen jeweils die gleichen Ressourcen einmal die Rolle als Quellressource und einmal die Rolle als Zielressource einnehmen. Die Modellierung erfolgt also in Form einer Linkbank, die folgendermaßen aussehen kann: <! -- ===== Sinnverwandtschaften zwischen Artikeln ===== --> <! ELEMENT sinnverwandte ((artikel1 | subartikel1), (artikel2 | subartikel2), sinnverwandt_zu1-2, sinnverwandt_zu2-1 ) > <! ATTLIST sinnverwandte xmlns: xlink CDATA #FIXED Die XML -basierte Modellierung einer lexikografischen Datenbasis 197 "http: / / www.w3c.org/ 1999/ xlink" xlink: type (extended) #FIXED "extended" > <! -- ===== beteiligte (Sub-)Artikel ===== --> <! -beteiligter Artikel 1 --> <! ELEMENT artikel1 EMPTY > <! ATTLIST artikel1 xlink: type (locator) #FIXED "locator" xlink: href CDATA #REQUIRED xlink: label NMTOKEN #REQUIRED> <! -beteiligter Subartikel 1 --> <! ELEMENT subartikel1 EMPTY > <! ATTLIST subartikel1 xlink: type (locator) #FIXED "locator" xlink: href CDATA #REQUIRED xlink: label NMTOKEN #REQUIRED> <! -beteiligter Artikel 2 --> <! ELEMENT artikel2 EMPTY > <! ATTLIST artikel2 xlink: type (locator) #FIXED "locator" xlink: href CDATA #REQUIRED xlink: label NMTOKEN #REQUIRED> <! -beteiligter Subartikel 2 --> <! ELEMENT subartikel2 EMPTY > <! ATTLIST subartikel2 xlink: type (locator) #FIXED "locator" xlink: href CDATA #REQUIRED xlink: label NMTOKEN #REQUIRED> <! -- ===== Kanten ===== --> <! -- Sinnverwandtschaft: Kante vom ersten zum zweiten beteiligten (Sub-)Artikel --> <! ELEMENT sinnverwandt_zu1-2 EMPTY > <! ATTLIST sinnverwandt_zu1-2 xlink: type (arc) #FIXED "arc" xlink: from NMTOKEN #REQUIRED xlink: to NMTOKEN #REQUIRED xlink: title CDATA #REQUIRED xlink: show (new | replace | embed | other | none) #FIXED "new" Der lexikografische Prozess 198 xlink: actuate (onLoad | onRequest) #FIXED "onRequest" > <! -- Sinnverwandtschaft: Kante vom zweiten zum ersten beteiligten (Sub-)Artikel --> <! ELEMENT sinnverwandt_zu2-1 EMPTY > <! ATTLIST sinnverwandt_zu2-1 xlink: type (arc) #FIXED "arc" xlink: from NMTOKEN #REQUIRED xlink: to NMTOKEN #REQUIRED xlink: title CDATA #REQUIRED xlink: show (new | replace | embed | other | none) #FIXED "new" xlink: actuate (onLoad | onRequest) #FIXED "onRequest" > Die Sinnverwandten sind in einem erweiterten Link modelliert. Dabei sind die beteiligten Artikel bzw. Subartikel als entfernte Ressourcen modelliert, die am Link teilnehmen. Sie werden adressiert und identifiziert durch die XLink-spezifischen Attribute href und label . Die Kanten sind die Elemente sinnverwandt_zu1-2 und sinnverwandt_zu2-1 . Sie sind durch den Wert " arc " des type -Attributs als Kanten gekennzeichnet. Es handelt sich dabei um Third-Party-Kanten, da sie ausschließlich entfernte Ressourcen zueinander in Beziehung setzen. Durch die from - und to -Attribute werden die Quell- und Zielressourcen identifiziert. Außerdem ist nach dieser Modellierung vorgesehen, dass ein Titel für die Kante vergeben werden soll; Werte zum Anzeige- und Auslöseverhalten sind bereits in der Linkbank festgelegt. 69 Die Instanz zu dieser Linkbank soll automatisch gefüllt werden. Lexikografen müssen somit - außer zum gezielten Vernetzungsmanagement - nicht direkt in der Linkbank arbeiten. Die automatische Füllung funktioniert über 69 Auch bei den bidirektionalen Vernetzungen können statt XLink-spezifischem Vokabular eigens definierte XML -Modellierungen eingesetzt werden. Es empfiehlt sich dabei im Sinne der Zukunftsorientheit, diese Modellierung an den Möglichkeiten von XLink zu orientieren, soweit das inhaltlich angemessen ist. Den Einsatz einer solchen individuell modellierten Link-Bank in einem laufenden Projekt zeigt beispielsweise Schneider (2004, S. 280ff.). Die XML -basierte Modellierung einer lexikografischen Datenbasis 199 die granulare inhaltliche Auszeichnung der vernetzungsrelevanten Angaben V und über das Ausfüllen vernetzungsrelevanter Attribute. Für einen Ausschnitt aus den XML-Instanzen „Angst“ und „gruseln“ kann das folgendermaßen aussehen. - Ausschnitt aus der XML-Instanz Angst.xml : <artikel id=”5978”><lemmazeichenA>Angst</ lemmazeichenA> ... <sinnverwandteA artikel-idref=”3645” subartikel-idref= ”36451”> Grusel </ sinnverwandteA> </ artikel> - Ausschnitt aus der XML-Instanz ( gruseln.xml ): <artikel id=”3654”><lemmazeichenA>gruseln</ lemmazeichenA> <subartikel id=”36541”> <lemmazeichenA>Grusel</ lemmazeichenA> ... <sinnverwandteA artikel-idref=”5978”>Angst</ sinnverwandteA> ... </ subartikel></ artikel> Aus diesen Angaben V kann die zugehörige Link-Datei automatisch gefüllt werden. Die Angaben V in den Artikeln, die zur Füllung der Linkbank dienen, sollen dabei vernetzungsrelevante Angaben V heißen. Dieser Terminus zieht eine Verbindung zu der Unterscheidung von verweisvermittelnden Angaben und Verweisen nach Wiegand. Allerdings bezieht sich bei Wiegand diese Unterscheidung auf Angaben in Artikeln versus lexikografischen Informationen, die vom Benutzer erschlossen werden (vgl. Wiegand 2002b, S. 180ff.). Demnach lautet der zweite Leitsatz zur Modellierung bidirektionaler Vernetzungen: Zweiter Leitsatz zur Modellierung von bidirektionalen Vernetzungen Die Linkbank, in der die bidirektionale Vernetzungen gespeichert werden, soll automatisch gefüllt werden und allein dem Vernetzungsmanagement dienen. Diese automatische Füllung soll über vernetzungsrelevante Angaben V , die Teil der Artikel sind, erfolgen. Der lexikografische Prozess 200 Die Instanz der Linkbank sieht nach der oben gezeigten Modellierung in Ausschnitten folgendermaßen aus: <? xml version="1.0" encoding="UTF-8"? > <linkbank-dw>... <sinnverwandte xmlns: xlink="http: / / www.w3.org/ 1999/ xlink" xlink: type="extended"> <artikel1 xlink: type="locator" xlink: href="Angst.xml" xlink: label="5978"/ > <subartikel2 xlink: type="locator" xlink: href="gruseln.xml" xlink: label="36451"/ > <sinnverwandt_zu1-2 xlink: type="arc" xlink: from="5978" xlink: to="36451" xlink: title="Hier gelangen Sie zum Artikel eines sinnverwandten Wortes" xlink: show="new" xlink: actuate="onRequest"/ > <sinnverwandt_zu2-1 xlink: type="arc" xlink: from="36451" xlink: to="5978" xlink: title="Hier gelangen Sie zum Artikel eines sinnverwandten Wortes" xlink: show="new" xlink: actuate="onRequest"/ > </ sinnverwandte> ...</ linkbank-dw> Zur Identifizierung der Ressourcen - genauer des Artikels und des Subartikels - werden die IDs in das Attribut label eingetragen. Diese Werte werden dann wiederum in die from - und to -Attribute der beiden Kanten gefüllt. Die Quellbzw. Zielressourcen sind damit in diesem Fall der Artikel „Angst“ Die XML -basierte Modellierung einer lexikografischen Datenbasis 201 und der Subartikel „Grusel“. Auch hier wird mit dem Titel der Kante - „Hier gelangen Sie zum Artikel eines sinnverwandten Wortes“ - der Forderung der Wörterbuchforschung entsprochen, die potenziellen Benutzer schon am Verweisursprung auf die Art des Zieles in Kenntnis setzen zu können. Der Zusammenhang von XML-Instanzen und Linkbank wird in Abbildung 30 veranschaulicht. Abb. 30: Veranschaulichung zu bidirektionalen Vernetzungen Diese oben gezeigte Vernetzung kann - wenn auch in anderer Form - in Grundzügen auch allein über die vernetzungsrelevanten Angaben V in den Artikeln kodiert werden. Daher stellt sich die Frage, warum der Aufbau einer Linkbank notwendig ist. Für den Aufbau einer Linkbank sprechen mehrere Gründe: - Wie oben ausgeführt, ist es wichtig, die Teile der Artikel als Quell- und Zielressourcen zu adressieren, zwischen denen inhaltlich die Vernetzung besteht. Dies sind in diesem Fall ein gesamter Artikel und ein Subartikel und nicht einzelne Angaben V aus den Artikeln. - Diese genaue Kodierung von Quell- und Zielressourcen - gesammelt in einer Linkbank - eröffnet gerade für eine elektronische Präsentation weitreichendere Möglichkeiten der Einbeziehung der Vernetzungen in das Angebot von Zugriffsmöglichkeiten. Der lexikografische Prozess 202 - Die Linkbank ermöglicht eine bessere Konsistenzkontrolle, was bei Vernetzungen elementar wichtig ist. Bidirektionale Vernetzungen sind in einem Objekt gespeichert und können so besser kontrolliert werden. Außerdem können alle bidirektionalen Vernetzungen aus einem Artikel heraus oder auf einen Artikel in ihrer Gesamtheit abgerufen werden. - Beim Aufbau einer lexikografischen Datenbasis ist der Einsatz einer Linkbank sinnvoll, da beim Neuverfassen eines Artikels zunächst in der Linkbank geprüft werden kann, welche Vernetzungen den neuen Artikel als Zielressource angeben. Diese Angaben V können beim Schreiben des Artikels berücksichtigt werden. (Dies setzt voraus, dass die Lemmakandidatenliste vorher feststeht und allen Lemmazeichen eine ID zugeordnet ist, damit diese zur Adressierung dienen kann. Ist der Artikel dann verfasst, kann die Vernetzung ggf. auf Ebene von Einzelbedeutungen o.Ä. verlagert werden.) Dabei ist es wichtig herauszustellen, dass der Einsatz einer so modellierten Linkbank eine relativ ‘schlanke’ Lösung für die Kodierung von Vernetzungen ist, die trotzdem ein relativ hohes Potenzial für das Vernetzungsmanagement bereitstellt. Denn der Einsatz einer Linkbank erfordert nicht eine so umfangreiche Softwareunterstützung wie beispielsweise der Einsatz eines semantischen Netzes. 70 Die Richtlinien zur Modellierung der Vernetzungsstrukturen sind damit vorgestellt. Allerdings muss nun die erste Definition der Vernetzungsstrukturen nochmal aufgegriffen werden. Bei der Modellierung der bidirektionalen Vernetzungen in Form der Linkbank war zu sehen, dass die Quell- und Zielressourcen nicht unbedingt Auskunft über den Typ der Vernetzung geben. Dieser Typ ist meist nur über die Kante deutlich gemacht. Anders ist es bei den unidirektionalen Vernetzungen. Da davon ausgegangen wird, dass diese in die XML-Instanz eines Artikels eingebunden sind und von einem Knoten der hierarchischen Inhaltsstruktur ausgehen, der nach den Richtlinien des Modellierungskonzeptes ausgezeichnet ist, können diese über die Benennung der Quellressource einem Typ zugeordnet werden. Im oben gezeigten Beispiel handelt es sich beispielsweise um einen „Hinweis auf ein elektronisches Wörterbuch“, was durch das Ausgangslement el-worterbuchH deutlich wird. Unidirektionale Vernetzungen sollen daher weiterhin als eine zweistellige, gerichtete Relation aufgefasst werden. 70 Dabei kann es in Projekten auch angebracht sein, die Linkbank um die Kodierungen anderer Vernetzungen zu erweitern; vgl. Schneider (2004, S. 281ff.). Die XML -basierte Modellierung einer lexikografischen Datenbasis 203 Definition unidirektionale Vernetzung Unidirektionale Vernetzungen = {<quelle, ziel> Q x Z| ziel ist mit quelle vernetzt} Q = Menge aller möglichen elektronisch adressierten Quellressourcen Z = Menge aller möglichen elektronisch adressierten Zielressourcen Dabei gilt: Q LD (IS) und Es gibt kein Paar von Vernetzungen, in denen die gleichen Ressourcen einmal die Rolle als Quell- und einmal die Rolle als Zielressource einnehmen Die bidirektionalen Vernetzungen sollen dagegen als dreistellige, gerichtete Relation aufgefasst werden: Definition bidirektionale Vernetzung Bidirektionale Vernetzungen = { (quelle, ziel, typ) Q Z T | ziel ist über Kante vom Typ typ mit quelle verbunden } Q = Menge aller möglichen elektronisch adressierten Quellressourcen Z = Menge aller möglichen elektronisch adressierten Zielressourcen T = Menge aller möglichen Typen Dabei gilt: Q LD (IS) Es gibt ein Paar von Vernetzungen, in denen die gleichen Ressourcen einmal die Rolle als Quell- und einmal die Rolle als Zielressource einnehmen Im obigen Beispiel würde es also heißen: „Artikel ‘Angst’ ist über eine Kante vom Typ ‘sinnverwandt_mit’ mit Subartikel ‘Grusel’ verbunden.“ Ohne den Typ als drittes Argument könnte man diese Vernetzung nicht hinreichend genau ausdrücken. Der lexikografische Prozess 204 Kurz zusammengefasst lauten damit die wesentlichen Richtlinien zur Modellierung der Vernetzungsstrukturen: Für die Modellierung der Vernetzungsstrukturen wird die XML Linking Language bzw. eigenes XML-Vokabular, welches sich an XLink orientieren sollte, eingesetzt. Dabei werden unidirektionale Vernetzungen über einfache Links modelliert, die in die DTDs bzw. XML-Instanzen eingebunden sind. Bidirektionale Vernetzungen werden über erweiterte Links modelliert, die in einer Linkbank gesammelt werden. Der Aufbau einer solchen Linkbank ermöglicht eine präzise Adressierung der Quell- und Zielressourcen der Vernetzung unabhängig von der Verortung der vernetzungsrelevanten Angaben V in der hierarchischen Inhaltsstruktur und daneben ein effektives Vernetzungsmanagement. Die Linkbank wird über die vernetzungsrelevanten Angaben V automatisch gefüllt. Durch diese Modellierung wird insgesamt gewährleistet, dass sowohl die Datenkonsistenz hinsichtlich der Vernetzungen gewährleistet wird als auch die Voraussetzungen dafür geschaffen werden, dass die Vernetzungen auf Ebene der Präsentation vielfältig für Zugriffs- und Navigationsmöglichkeiten ausgewertet werden können. Gleichzeitig ist diese Form des Vernetzungsmangements eine ‘schlanke’ Lösung auch hinsichtlich der softwaretechnischen Realisierung - anders als beispielsweise der Einsatz eines semantischen Netzes - und daher praktikabel für viele (wissenschaftliche) lexikografische Projekte. Und um abschließend den Vergleich der Landkarte mit den Straßenschildern nochmals aufzugreifen: So wie man in eine Landkarte ‘hineinzoomen’ kann, um beispielsweise aus einem Stadtplan eine Wanderkarte zu erstellen, so kann man auch die hier vorgestellten Modellierungsvorschläge für Vernetzungen als Grundlage verstehen, die bei Bedarf weiter verfeinert oder ergänzt werden können. 5.6 Mehr als ein Instruktionenbuch: Die Anwendung des Modellierungskonzeptes im lexikografischen Prozess Wörterbuchartikel sind standardisierte Texte. Diese Standardisierung wird in der Regel über Instruktionen erreicht. Standardisieren ist ein Handlungsverb. Nach dem DFW wurde es am Anfang des 20. Jahrhunderts nach dem gleichbedeutenden engl./ amerik. Verb to standardize von dt. Standard abgeleitet; es bedeutet soviel wie etwas nach einem Muster (einem Schema, einem Katalog von Instruktionen etc.) vereinheitlichen. Eine Standardisierung von Wörterbuchartikeln wird dadurch erreicht, daß derjenige, der die Artikel formuliert, sich an [...] verbindliche, Die XML -basierte Modellierung einer lexikografischen Datenbasis 205 vorgegebene Instruktionen hält [...]. Das eigentliche Standardisieren liegt - wenigstens idealiter - vor der Formulierung der Artikel und geschieht dadurch, daß verbindliche Instruktionen für die Präsentation der lexikographischen Daten ausgearbeitet werden. Das Ergebnis einer Handlung vom Typ EINEN WÖRTERBUCHARTIKEL NACH INSTRUKTIONEN FORMULIEREN ist ein standardisierter Wörterbuchartikel [...]. (Wiegand 1988, S. 882ff.) Ein solches Instruktionenbuch zu schreiben zählt daher nach Wiegand zu den „unter wissenschaftlichen Aspekten zentralen Handlungen“ (Wiegand 1998a, S. 139) in der Planungsphase. Die Standardisierung der Artikeltexte ist notwendig, damit potenzielle Benutzer schnell zu den von ihnen gesuchten Daten gelangen. Der Aufbau der Texte muss sehr stark normiert bzw. standardisiert sein, damit die zukünftigen Benutzer sich schnell und sicher in ihnen zurechtfinden. Damit dies gewährleistet ist, muss sich eine Redaktion ein Gesetzbuch geben. Dieses Gesetzbuch ist ein Regelwerk, an das sich jede(r) bei Strafe der Entlassung aus dem Projekt zu halten hat. Man nennt es das lexikografische Instruktionsbuch (oder Manual). Es sollte vor Beginn der Arbeit vorliegen und muss als Entscheidungsinstanz in allen Zweifels- und Streitfällen herhalten. (Engelberg/ Lemnitzer 2001, S. 210) Dabei ist es bei einer so komplexen Textsorte wie einem Wörterbuchartikel äußerst schwierig, ein hohes Maß an Standardisierung ohne automatische Unterstützung zu erreichen (vgl. Heyn 1992, S. 190ff.). Gerade in medienneutral konzipierten lexikografischen Prozessen und in computerlexikografischen Prozessen ist aber eine durchgängige Konsistenz der Daten notwendig, um angemessene elektronische Präsentationen und Zugriffsmöglichkeiten entwickeln zu können. Daher sind „im Zeitalter der neuen Medien mit der Notwendigkeit, Wörterbücher medienübergreifend zu publizieren, auch neue Anforderungen an das Instruktionsbuch“ (Engelberg/ Lemnitzer 2001, S. 211) zu stellen. Die Modellierung nach dem hier entworfenen Konzept soll dabei in der Anwendung viele der Aufgaben, die klassischerweise einem Instruktionsbuch zukommen, mit übernehmen. Wichtig ist dabei, dass die Lexikografen beim Eingeben der Artikel in der Einhaltung der formalen Artikelstruktur unterstützt werden (vgl. Abschnitt 4.4). Dies kann im Rahmen des Modellierungskonzeptes über den Einsatz eines gängigen XML-Editors erreicht werden, für den die entwickelten DTDs das Eingabeformat liefern und über den eine automatische Prüfung der formalen Korrektheit der Daten unterstützt wird. Der lexikografische Prozess 206 Die Idee, Lexikografen durch den Einsatz einer SGMLbzw. XML-basierten Modellierung bei der Artikelerarbeitung zu unterstützen, ist nicht neu (vgl. u.a. Heyn 1992, S. 190ff. und die Beiträge in Lemberg/ Schröder/ Storrer (Hg.) 2001). So entwickelt auch Kammerer ein Modell, wie Mikrostrukturen in eine DTD überführt werden können zu dem Zweck, „eine (Eingabe-) Struktur zu definieren, anhand derer Lexikographen Wörterbuchdaten eingeben können. Diese Struktur soll sicherstellen, dass - unter einem rein formalen (! ) Aspekt - die Daten korrekt eingegeben werden“ (Kammerer 2001, S. 268). Dieses Modell wird bei der Erarbeitung des Wörterbuchs zur Lexikographie und Wörterbuchforschung (WLWF) 71 angewandt (vgl. ebd., S. 249). Allerdings ist bei Kammerer trotz einer XML-basierten Modellierung ein Instruktionsbuch notwenig, um die Einhaltung der formalen Artikelstruktur sicherzustellen. Das Instruktionsbuch sorgt schließlich dafür, dass keine obsoleten abstrakten hierarchischen Mikrostrukturen entstehen, die zunächst allein auf der Grundlage der Maximaldatenstruktur theoretisch möglich sind. In diesem Fall muss das Instruktionsbuch dafür Sorge tragen, dass kontextspezifisch entweder eine Wortartangabe gemacht wird oder eine verdichtete Genusangabe zusammen mit einer Angabe zur Pluralbildung. (Kammerer 2001, S. 268) Dieses Beispiel zeigt, dass Kammerers XML-basierte Modellierung wesentlich anders aussieht als eine Modellierung nach dem hier entwickelten Modellierungskonzept. Denn ein ganz wichtiger Aspekt des Modellierungskonzeptes ist es, dass das Inhaltsstrukturenprogramm so in einer DTD abgebildet wird, dass bei Anwendung der DTD(s) keine unzulässigen hierarchischen Inhaltsstrukturen produziert werden können. Dies stellt eine ganz wesentliche Unterstützung bei der Erarbeitung der Artikel dar. Dabei kann jedoch nur die formale Seite der Inhaltsstruktur geprüft werden; die Beschreibungssprache für die einzelnen Angaben V muss weiterhin über Instruktionen geregelt werden. Beispielsweise kann (und soll) die Formulierung einer Paraphrase nicht formal reglementiert werden. Das Instruktionenbuch soll somit möglichst nur für die Vereinheitlichung der Beschreibungssprache und Ähnlichem dienen; die Konsistenz der formalen Artikelsstruktur wird über die Anwendung der Modellierung erreicht. Dies soll im Folgenden demonstriert werden anhand eines Beispiels aus dem Projekt elexiko, dem „lexikalisch-lexikologischen korpusbasierten Informa- 71 Siehe www.fabulex.de (Stand: März 2007). Die XML -basierte Modellierung einer lexikografischen Datenbasis 207 tionssystem des Instituts für Deutsche Sprache“. 72 Dieses Projekt wird in Kapitel 6 ausführlich vorgestellt. Es soll jedoch schon hier zur Demonstration der Rolle der Modellierung beim Erarbeiten der Artikel herangezogen werden, da es das einzige Projekt ist, in dem das Modellierungskonzept in einem laufenden lexikografischen Prozess angewandt wird. Wie die Lexikografen beim Erarbeiten der Artikel durch die Anwendung der Modellierung gestützt werden, soll kurz veranschaulicht werden am Beispiel des Artikels international. Die Abbildung 31 zeigt einen Screenshot des Artikels international im XMetaL-Editor, einem weit verbreiteten XML-Editor. Abb. 31: Artikel international aus elexiko im Bearbeitungsstadium im XML -Editor Auf der linken Seite des abgebildeten Bildschirms sieht man einen Strukturüberblick über die Teile des Artikels. Es handelt sich dabei um die Struktur für ein Einwortlemma. (Neben Einwortlemmata gibt es in elexiko Strukturen für Mehrwort- und Wortelementlemmata.) Die Angaben V zu einem ewlartikel sind in elexiko in zwei große Gruppen aufgeteilt: in lesartenüber- 72 Siehe www.elexiko.de (Stand: März 2007). Der lexikografische Prozess 208 greifende Angaben V , die unter dem Element ewl-allgemein gefasst werden, und lesartenbezogene Angaben V , die jeweils mit dem Element ewl-lesart ausgezeichnet werden. In elexiko wird auch die Grammatik lesartenbezogen angegeben; deshalb ist das Element ewl-grammatik unter den lesartenbezogenen Angaben V angeordnet. Innerhalb von ewl-grammatik sieht man hier die einzelnen Angabe V -Gruppen, die zu Adjektiven gegeben werden: Angaben V zur Deklinierbarkeit, zur Steigerung, zur Valenz und zur Syntax. In der Mitte sieht man den Artikel selbst. Die meisten Inhalte sind auf dieser Abbildung ausgeblendet, wie an dem kleinen „+“ an den Tagsymbolen im mittleren Fenster zu sehen ist. Rechts oben im abgebildeten Fenster sieht man Attribute, die Elementen zugeordnet werden und rechts unten nach den Regeln der DTD auszuwählenden Elemente. Nun wurde schon mehrfach herausgestellt, dass die Lexikografen beim Eingeben der Artikel durch die Modellierung in dem Sinne unterstützt würden, dass die formale Einhaltung der Artikelstruktur geprüft wird. Dies funktioniert beim Einsatz eines XML-Editors, also auch in der elexiko-Umgebung, folgendermaßen: Die Lexikografen bekommen an der jeweiligen Stelle im Artikel, an dem sie gerade arbeiten, nur die Angaben V im Editor angeboten, die durch die DTD an der jeweiligen Stelle erlaubt sind. Dies ist eine übliche Funktionalität gängiger XML-Editoren. Will ein Lexikograf beispielsweise die Grammatik zu international in der Lesart ‘überstaatlich’ im Artikel ausfüllen, muss er zunächst die Wortart bestimmen, hier also adjektiv . Abhängig von der Wortart öffnen sich dann jeweils unterschiedliche Angabe V - Klassen. Unter der deklinierA muss beispielsweise über ein Attribut ausgewählt werden, ob international in der Lesart ‘überstaatlich’ deklinierbar ist oder nicht. Als Demonstration kann man annehmen, dass der bearbeitende Lexikograf vergisst, den passenden Attributwert auszuwählen. Daraufhin muss er etwas zur Steigerung aussagen: entweder er kann keine-angabe geben oder er wählt das Element aus, falls das Adjektiv steigerbar ist. Wählt er das Element komparation aus, muss er den Komparativ und den Superlativ angeben. Zur Valenz gibt es im Fall von international keine-angabe . Unter Syntax werden Angaben V zum Geltungsbereich gegeben. Man wählt also das Element adj-geltbereich aus und sieht rechts unten die Auswahl von attributiv, adverbial und praedikativ. Im Falle von international sind alle drei Möglichkeiten des Geltungsbereiches nacheinander auszuwählen. Mit dieser Auswahl sind die Angaben V zum Geltungsbereich gemacht. Die XML -basierte Modellierung einer lexikografischen Datenbasis 209 Ist der Lexikograf mit seinen Angaben V zur Grammatik fertig und will den Artikel abschließen, muss er den Artikel zunächst validieren. Das bedeutet, dass der eingegebene Artikel gegenüber der in der DTD festgelegten Struktur geprüft wird. Da die Modellierung in elexiko analog zum Modellierungskonzept sehr genau und streng ist, kann an dieser Stelle geprüft werden, ob der Lexikograf die im Inhaltsstrukturenprogramm festgelegte Artikelstruktur eingehalten hat oder nicht. Führt er diese Validierung im eben erläuterten Artikel durch, bekommt er die in Abbildung 32 gezeigten Fehlermeldungen. Abb. 32: Fehlermeldungen beim Validieren des Artikels international Zunächst muss er also den Attributwert zur Angabe V der Deklinierbarkeit ausfüllen, den er vorhin vergessen hatte. Dann wurde übersehen, dass zum Element komparation Attribute zu umlaut und ersatzformen auszufüllen sind. Diese sind im Falle von international beide auf „nein“ zu setzen, weil die Steigerungsformen regelmäßig sind, also ohne Umlaut und Ersatzformen gebildet werden. Außerdem wurde bei den Steigerungsformen noch nicht vermerkt, ob sie im elexiko-Korpus belegt sind oder nicht. Dies muss aber in elexiko aufgrund des Prinzips der Korpusbasiertheit bei allen Formen festgehalten werden. Die Steigerungsformen von international sind im elexiko-Korpus belegt, also werden die Attributwerte auf ja gesetzt. Die letzte Fehlermeldung besagt schließlich, dass für den Geltungsbereich attributiv etwas zur Stellung ausgesagt werden muss: für international ist dabei praenominal auszuwählen. Validiert der Lexikograf den Artikel nun erneut, ist die Prüfung erfolgreich. So werden die Lexikografen der Projekterfahrung des elexiko-Teams nach sehr gut in der Einhaltung der formalen Artikelstruktur unterstützt. Der lexikografische Prozess 210 Der Grad dieser Unterstützung ist abhängig von der Art der XML-Modellierung. Für eine umfangreiche Führung ist eine genaue, strenge Abbildung des hierarchischen Inhaltsstrukturenprogramms, die granulare inhaltliche Modellierung der terminalen Elemente und die durchgängige Unterscheidung absolut obligatorischer, relativ obligatorischer und fakultativer Elemente, so wie sie in Abschnitt 5.4 entwickelt und vorgestellt wurden, unerlässlich. 5.7 Flexibilität der Darstellung der entsprechend modellierten Daten 5.7.1 Grundsätzliches Ein wichtiger Grund für die granulare Modellierung der lexikografischen Daten, so wie sie nach dem Modellierungskonzept vorgesehen ist, ist der Wunsch nach einem flexiblen Zugriff auf diese Daten. Dieser flexible Zugriff wird dabei nicht nur für die Programmierung von Recherchemöglichkeiten benötigt, sondern auch für die flexible Darstellbarkeit der Daten (vgl. Kapitel 4). Denn Hintergrund für die Entwicklung des Modellierungskonzeptes ist, dass aus einer Datenbasis verschiedene Präsentationen entwickelt werden sollen. Diese Präsentationen können eine gedruckte und eine elektronische Version eines Wörterbuchs sein oder auch unterschiedliche Ansichten eines Wortschatzinformationssystems, die in Abhängigkeit von Benutzern und Benutzungssituationen zur Auswahl gestellt werden. Entsprechend führen Rothfuss/ Ried - allgemein bezogen auf XML-basierte Datenhaltung - aus: „Eben deshalb haben Sie den Inhalt veredelt: weil Sie ihn nun auf verschiedene Weise darstellen wollen oder öfter mal verschiedene Ausschnitte der Daten publizieren oder weil Sie zwar immer nur eine bestimmte Darstellung wünschen, aber Änderungen doch lieber unabhängig von einer spezifischen Darstellung in der Datenbank machen wollen“ (Rothfuss/ Ried 2001, S. 199). Das standardbasierte Verfahren für die Darstellung von XML-Daten ist die „Extensible Stylesheet Language Family“. 73 Zu dieser Sprachfamilie gehört die Extensible Stylesheet Language (XSL), die XSL Transformations (XSLT), die zu Transformationen von XML-Daten dienen und die XML Path Language (XPath), eine Adressierungssprache, die es ermöglicht, Teile von XML-Dokumenten zu adressieren. XPath spielt auch im Zusammenhang mit XLink eine Rolle (vgl. Behme/ Mintert 2000, S. 91ff.). In der Einleitung zur XSL-Spezifikation heißt es: 73 Siehe www.w3c.org/ Style/ XSL/ (Stand: März 2007). Die XML -basierte Modellierung einer lexikografischen Datenbasis 211 Lexikografische Datenbasis (LD) Präsentation 1 analog zu bestimmten Benutzertypen und Benutzungssituationen XSL- Stylesheet Präsentation 2 analog zu bestimmten Benutzertypen und Benutzungssituationen Präsentation x analog zu bestimmten Benutzertypen und Benutzungssituationen XSL- Stylesheet XSL- Stylesheet XSL is a language for expressing stylesheets. Given a class of arbitrarily structured XML [...] documents or data files, designers use an XSL stylesheet to express their intentions about how that structured content should be presented; that is, how the source content should be styled, laid out, and paginated onto some presentation medium, such as a window in a Web browser or a hand-held device, or a set of physical pages in a catalog, report, pamphlet, or book. ( XSL ) Angewandt auf lexikografische Prozesse und die Rahmenbedingungen des hier vorgestellten Modellierungskonzeptes kann die Herstellung mehrerer Präsentationen aus einer lexikografischen Datenbasis wie in Abbildung 33 gezeigt veranschaulicht werden. Abb. 33: Veranschaulichung der Herstellung mehrerer Präsentationen aus einer Datenbasis „ “ bedeutet soviel wie „aus der Datenbasis wird entwickelt“ „ “ bedeutet soviel wie „mit dem Stylesheet wird spezifiziert“ Im Folgenden soll dieses pinzipielle Vorgehen zur Darstellung der entsprechend modellierten Daten weiter ausgeführt und veranschaulicht werden. Dazu wird im nächsten Abschnitt XSL näher erläutert, ohne jedoch die Syntax so vorzustellen, dass die später gezeigten Stylesheet-Auszüge nur mit dieser Erläuterung zu lesen sind. Stattdessen wird auf weiterführende Literatur verwiesen. Im Abschnitt 5.7.3 wird die Spezifizierung verschiedener Ansichten mit Hilfe von XSL-Stylesheets an einem Beispiel demonstriert. Im letzten Abschnitt des Kapitels wird auf eine Besonderheit bei medienneutral konzipierten lexikografischen Prozessen eingegangen: den Umgang mit Verdichtung. Der lexikografische Prozess 212 5.7.2 Standardbasiertes Verfahren: Darstellung mit XSL(T) Bei der praktischen Weiterverarbeitung inhaltlich strukturierter XML-Dokumente stehen zwei eng miteinander verbundene Aspekte im Vordergrund: die Transformation in alternative Formate sowie die Formatierung für eine Bildschirm- oder Druckausgabe (vgl. Schneider 2004, S. 111ff.). Schon für SGML, der Vorgängersprache von XML, gab es daher eine ergänzende Sprache zu diesem Zweck: DSSSL, die Document Style Semantics and Specification Language. 74 DSSSL besteht aus zwei Komponenten: der Transformationssprache (transformation language) und der Stilsprache (style language) (vgl. Behme/ Mintert 2000, S. 134ff.). Grundlegende Idee und Konzepte von DSSSL wurden unverändert in die neuen, vom World Wide Web Consortium definierten Sprachen XSL und XSLT übernommen, allerdings mit anderer Syntax, da XSL und XSLT durchgehend XML-Notation verwenden. XSL und XSLT waren daher auch noch Anfang 1999 nicht als zwei Sprachen angesetzt, sondern - analog zu DSSL - unter einem Entwurf zusammengefasst. Aufgrund dieser Entstehungsgeschichte ist die Begrifflichkeit in Bezug auf XSL und XSLT leicht verwirrend: Die Bezeichnung XSL wird oft für die ganze Sprachfamilie genutzt, meint aber im engeren Sinne lediglich eine Zielsprache, in diesem Fall eine alternative Sprache zur Beschreibung eines Dokuments und seines Layouts. Zur klaren Unterscheidung soll diese Spra- Abb. 34: Verarbeitung von beliebigen XML -Daten mit XSLT und XSL (Behme/ Mintert 2000, S. 148) 74 Siehe www.jclark.com/ dsssl/ (Stand: März 2007). beliebiges XML XSLT DocBook WML XHTML FO ... XSL PostScript PDF RTF SPDL ... Die XML -basierte Modellierung einer lexikografischen Datenbasis 213 che im Folgenden XSL-FO (Formatting objects) genannt werden. XSLT hingegen ist eine speziell für XSL entwickelte Transformationssprache, die XML-Dokumente in XSL-FO-Dokumente transformieren kann. Darüber hinaus kann man mit XSLT beliebige XML-nach-XML-Transformationen vornehmen, d.h., XSLT ist auch für die Umwandlung in andere Zielsprachen geeignet, z.B. für eine Transformation nach HTML. Die strategische Bedeutung von XSLT ist in Bezug auf den Einsatz von XML sehr hoch einzuschätzen, da es mit Hilfe dieser Technik relativ leicht möglich ist, strukturierte Inhalte ausgehend von einem einheitlichen Speicherformat in eine Reihe variabler Rezeptionsformate zu konvertieren. Die akademische und praktische Bedeutung von XSLT lässt sich nicht zuletzt anhand der Schnelligkeit ermessen, mit der dieser Standard von den zuständigen Gremien verabschiedet und von der Software-Industrie angenommen wurde. Während das Pendant auf Seiten von SGML [...], DSSSL , erst zehn Jahre nach der Verabschiedung von SGML (1986) endgültig spezifiziert wurde, liegen zwischen den verbindlichen W3C-Empfehlungen zu XML und XSLT nur rund 20 Monate. (Schneider 2004, S. 113) Mit einem XSLT-Script kann man den Darstellungsstil von XML-Daten beschreiben, sie werden deshalb auch Stylesheets genannt. Eine XSLT -Datei, d.h. ein XSLT -Stylesheet, beschreibt, wie aus einer XML - Datei eine beliebige andere Datei erzeugt werden soll. Die Durchführung dieser Transformation geschieht durch einen XSLT -Prozessor, das Ergebnis ist wieder eine Datei. Diese enthält nun sowohl die Daten als auch die Darstellungsinformationen. (Rothfuss/ Ried 2001, S. 203) XSLT-Prozessoren wie XT von James Clark 75 oder Saxon von Michael Kay 76 sind kostenfrei im Netz zu erhalten. Dass XSLT-Instanzen Stylesheets genannt werden, hat daher zum einen historische Gründe (gleichzeitige Entwicklung von XSL-FO und XSLT), zum anderen haben sie tatsächlich diese Funktion, wenn sie das XML-Dokument mit Formatierungsanweisungen versehen (vgl. Behme/ Mintert 2000, S. 154). Wie funktioniert nun die Transformation mit einem solchen Stylesheet? Die Transformationsidee bei XSLT ist folgende: Der Prozessor durchläuft die Elemente des XML -Baumes, beginnend mit der Wurzel. Für jedes Element sucht er im Stylesheet eine XSLT -Regel. Eine solche Regel legt fest, für 75 Siehe http: / / www.blnz.com/ xt/ (Stand: März 2007). 76 Siehe http: / / saxon.sourceforge.net/ (Stand: März 2007). Der lexikografische Prozess 214 welches Element und unter welchen Verwandtschaftsbeziehungen sie gilt (die Schablone) und was an Ausgabe generiert werden soll (die Aktion), wenn die Regel greift. (Rothfuss/ Ried 2001, S. 204) Die Regeln werden in XSLT kurz ausgedrückt in folgender Form definiert: ‘Wenn Schablone passt, dann mache Aktion.’ Diese Schablonen bewirken die gesamte Verarbeitung eines Quelldokuments in ein Zieldokument (template rules). Sie regeln, welche Elemente aus dem Eingabebaum in die Ausgabe gelangen, in welcher Form diese das tun oder ob sie vielleicht gar nicht im resultierenden Baum landen. Dabei dienen Muster (patterns) im Attribut match dazu, zu klären, auf welchen Knoten der Eingabe sich das Template bezieht. (Behme/ Mintert 2000, S. 150) Die Notation eines Pattern folgt der XPath-Notation (XPath), d.h., sie erfolgt über pfadartige Sequenzen. Zum Beispiel würde das Muster artikel/ allgemein/ lemmazeichen/ lemmazeichenA auf eine Lemmazeichen- Angabe V zielen, die direktes Kindelement des Elementes lemmazeichen ist, welches wiederum das Kindelement von allgemein ist, welches ein Unterelement des Wurzelelementes artikel ist. Schablonen sind demnach genau das, was Stylesheet-Autoren schreiben müssen, um ihre Dokumente zu transformieren. Dabei reicht die Bandbreite von einfachsten bis zu recht komplexen Schablonen (vgl. ebd., S. 151ff.). Mächtig wird XSLT auch dadurch, dass Schleifen und bedingte Verarbeitungen einzubauen sind: Unabdingbar für eine sinnvolle Verarbeitung von Dokumenten ist die Möglichkeit, abhängig von der Struktur des Dokuments oder inhaltlichen Bedingungen die Formatierung oder Transformation vorzunehmen. XSLT bietet dazu drei aus Programmiersprachen bekannte Konstrukte: for-each , if und choose . (ebd., S. 167) Diese Konstrukte bieten kurz beschrieben folgende Möglichkeiten: - xsl: for-each : eignet sich dazu, Templates verkürzt zu notieren (z.B. eine Transformationsregel für jedes Element beleg , egal wo es in der Instanz steht), - xsl: if bietet eine bedingte Verarbeitung von Dokumentteilen, z.B. könnte eingeschränkt werden, dass allgemein jeder Beleg nur über einen Mausklick erreichbar sein soll, aber der Beleg hinter der Paraphrase immer direkt angezeigt wird, Die XML -basierte Modellierung einer lexikografischen Datenbasis 215 - xsl: choose beinhaltet zwei weitere Elemente: xsl: when und xsl: otherwise , mit denen wenn-dann-Abfragen erstellt werden können. Beispielsweise kann spezifiziert werden, dass, falls ein Elementinhalt aus dem leeren Element keine-angabe besteht, der Text „keine Angabe“ erscheinen soll, und sonst genau der Text angezeigt wird, der im Elementinhalt steht. Wichtige Eigenschaften von XSLT sind außerdem, dass Sortiermöglichkeiten vorgesehen sind (nach Buchstaben, Nummern - abhängig von der definierten Sprache etc.), und der Einsatz von Variablen und Parametern möglich ist (vgl. Behme/ Mintert 2000, S. 170f.). XSLT ist also ein wichtiger Baustein für die Anwendung des Modellierungskonzeptes, nicht nur zur Spezifikation der Darstellung von XML-Instanzen, sondern auch zur Transformation von einem XML-Format in ein anderes (vgl. Abschnitt 5.8). 77 XSL-FO ist wie gesagt eine Formatierungssprache. Bisher gibt es allerdings kaum Programme, die XSL-FO-Dokumente direkt anzeigen; deshalb wird meist eine Konvertierung in die bekannteren Zielformate wie PDF, HTML oder RTF vorgenommen. Das Vorgehen bei einem Einsatz von XSL-FO kann man sich folgendermaßen vorstellen: XML-Quellen werden zunächst - meist mit Hilfe von XSLT - nach XSL-FO transformiert. Bei diesem Schritt werden die Daten strukturiert und neu geordnet; außerdem wird mittels XSL-FO deren Wunschaussehen beschrieben. Mittels dieser Repräsentation ist aber weiterhin die Möglichkeit offen, verschiedene Ausgabeformate wie RTF oder PDF zu erzeugen. XSL-FO ist eine sehr umfangreiche und daher auch entsprechend komplexe Layoutsprache. Zum Beispiel unterstützt XSL-FO den Textfluss, auch in verschiedene Richtungen (z.B. fürs Arabische), diverse Seitensequenzen mit automatischer Nummerierung, viele Farb-, Umbruch- und Abstandsangaben und anderes mehr. Für die Herstellung gedruckter Wörterbücher aus einer XML-basierten Datenbasis kann XSL-FO also durchaus von Interesse sein. Für die folgenden Beispiele wird es allerdings nicht eingesetzt. 77 Detaillierte Einführungen in XSL bzw. XSLT finden sich über die Webseite des W3C ( www.w3c.org , Stand: März 2007) oder beispielsweise in Cagle et al. (2001) und Kay (2001). (Vgl. auch die Literaturhinweise in Schneider 2004, S. 114.) Einen knappen Einblick bieten Behme (2001a, b und c). Der lexikografische Prozess 216 5.7.3 Veranschaulichung anhand eines Beispiels In diesem Abschnitt geht es darum zu zeigen, dass eine XML-Instanz aus der lexikografischen Datenbasis auf Ebene der Präsentation flexibel darstellbar ist, ohne die XML-Instanz, d.h. die ausgezeichneten Inhalte, zu verändern. Dies soll beispielhaft demonstriert werden anhand eines Ausschnitts aus einem Artikel zum Lemmazeichen „knickrig“, dessen einzelbedeutungsübergreifende Angaben V analog zur Beispiel-DTD ausgezeichnet sind. 78 Die XML- Instanz sieht dabei folgendermaßen aus: - XML-Instanz knickrig.xml <? xml version="1.0"? > <! DOCTYPE ARTIKEL SYSTEM "C: \...\beispiel.dtd"> <artikel> <lemmazeichen> <lemmazeichenA id="34242">knickrig</ lemmazeichenA> </ lemmazeichen> <allgemein> <orthografie> <ortho><orthoA>knickrig</ orthoA> <silbenA>knick|rig</ silbenA> <beleg druck="nein"><beleg-text>Und weil sie in weiser Voraussicht zwei Jahre lang mit ihrem Etat für Öffentlichkeitsarbeit <belegwort>knickrig</ belegwort> umgegangen war, konnte sie nun finanziell ausreichend gerüstet mit rund zehntausend Mark den Startschuß für FIP geben: Mit Ute Lau als Leiterin wurde das Segeberger Projekt interessierten Frauen angedient. </ beleg-text> <beleg-nachweis quelle="FR" datum="24041999">Frankfurter Rundschau, 24.04.1999, S. 5</ beleg-nachweis> </ beleg> </ ortho> <ortho-variante><keine-angabe/ ></ ortho-variante> </ orthografie> <morphologie> <morpho-variante><morpho-varianteA>knickerig</ morphovarianteA><silbenA>kni|cke|rig</ silbenA></ morpho-variante> 78 Dieses Beispiel ist keinem lexikografischen Projekt entnommen, sondern nur eine Möglichkeit, wie ein Teil eines Artikel zu „knickrig“ aussehen könnte. Die XML -basierte Modellierung einer lexikografischen Datenbasis 217 <beleg druck="nein"><beleg-text>Waren sie in der Jugendzeit noch auf Taschengeld und Schülerjobs angewiesen und damit entsprechend <belegwort>knickerig</ belegwort> im Umgang mit ihrem Geld, so fällt es dem in die Jahre gekommenen und in der Regel regelmäßig und meist gut verdienenden Musikkonsumenten vom Schlage Thieles wesentlich leichter, tief ins Portemonnaie zu greifen.</ beleg-text> <beleg-nachweis quelle="MM" datum="02082001">Mannheimer Morgen, 02.08.2001, "Die Jugend von gestern ist das Hardrock-Publikum von heute"</ beleg-nachweis> </ beleg> </ morphologie> </ allgemein> <einzelbedeutung><bedeutungsparaphrase><paraphraseA>knauserig, geizig</ paraphraseA> </ bedeutungsparaphrase><xxx/ ></ einzelbedeutung> </ artikel> Zu einer kurzen Beschreibung des Inhaltsstrukturenprogramms: Nach der DTD ist vorgesehen, dass zusätzlich zur Lemmazeichen-Angabe V separat eine orthografische Angabe V mit Silbenangabe V gemacht wird (als absolut obligatorische Angaben V ). Als relativ obligatorische Angaben V sind Angaben V zu orthografischen und/ oder morphologischen Varianten vorgesehen. Diesen Angaben V wird jeweils eine eigene Silbenangabe V zugeordnet. Alle genannten Angaben V können fakultativ durch Belege illustriert oder um Hinweise und Kommentare ergänzt werden. Zum Lemmazeichen „knickrig“ gibt es in der XML-Instanz keine orthografische, aber eine morphologische Variante, nämlich „knickerig“. Sowohl die orthografische Angabe V , als auch die morphologische Variante sind hier durch einen Beleg illustriert. Unter dem Element einzelbedeutung ist in dieser Beispiel-Instanz nur eine Paraphrase enthalten und ein Platzhalter- Element <xxx/ > für fehlende Angaben V , damit das Beispiel nicht zu umfangreich und detaillastig wird. Die Erstellung verschiedener Ansichten dieser XML-Instanz werden hier daher nur für die Unterelemente von allgemein gezeigt, d.h. nur für die einzelbedeutungsübergreifenden Angaben V zu „knickrig“. Bei diesen verschiedenen Präsentationsmöglichkeiten geht es nicht um Details, sondern darum, ein Prinzip zu verdeutlichen. Es handelt sich dabei erstens um eine Ansicht, wie sie für Lexikografen am lexikografischen Arbeitsplatz zur Verfügung stehen soll, zweitens um eine Ansicht für eine Präsentation Der lexikografische Prozess 218 der Daten in einem, beispielsweise im Internet zugänglichen, Wortschatzinformationssystem und drittens um eine mögliche Darstellung im gedruckten Wörterbuch. Für die Lexikografen am lexikografischen Arbeitsplatz ist es wichtig, die von ihnen erstellten Artikel ohne die XML-Auszeichnungen sehen zu können. Eine solche Ansicht bietet einen besseren Überblick über die Inhalte. (Zusätzlich wird es aber auch wichtig sein, die XML-Instanzen in Korrekturschritte mit einzubeziehen, damit auch die Korrektheit der Auszeichnungen geprüft werden.) Damit aber nach wie vor ersichtlich ist, mit welchen Elementnamen die Inhalte ausgezeichnet sind, stehen diese in aufgelöster Form vor den Inhalten. Abb. 35: Ansicht der einzelbedeutungsübergreifenden Angaben aus knickrig.xml am lexikografischen Arbeitsplatz Im folgenden Stylesheet ist festgelegt, dass alle Angaben in einer bestimmten Schriftart und -größe (hier: Arial 9pt) dargestellt werden sollen, dass die aufgelösten Elementnamen, die für jedes Element einzeln im Stylesheet spezifiziert sind, immer in schwarz gezeigt werden sollen, wobei die Element- und Attributinhalte in einer anderen Farbe dargestellt werden. Für die Lexikografen bietet diese Ansicht den Vorteil, im Prinzip alle Auszeichnungen, Die XML -basierte Modellierung einer lexikografischen Datenbasis 219 auch die Attributwerte, mit Inhalt zu sehen, und trotzdem einen besseren Überblick zu erhalten als wenn die Daten ausschließlich in der XML-Instanz anzuschauen sind. Dieses Stylesheet ist dabei natürlich auf alle Instanzen anzuwenden, die nach der Beispiel-DTD ausgezeichnet sind und gilt nicht nur für den Artikel „knickrig“. Die Darstellung wird durch eine Umwandlung der Daten nach HTML erreicht und ermöglicht damit das Ansehen der XML- Daten in jedem beliebigen Browser. Auch die folgenden Beispiele sind auf diese Art erstellt. - XSLT-Stylesheet für die Darstellung am lexikografischen Arbeitsplatz <? xml version="1.0" encoding="ISO-8859-1" ? > <xsl: stylesheet version="1.0" xmlns: xsl="http: / / www.w3.org/ 1999/ XSL/ Transform"> <! -- Darstellung 1: Bildschirmansicht (lexikografischer Arbeitsplatz) --> <! -- CSS-Formatierung --> <xsl: variable name="css"> <style type="text/ css"> body {font-family: Arial; font-size: 10 pt; } span.data {color: blue; } </ style> </ xsl: variable> <xsl: template match="/ ARTIKEL"> <html> <head> <title>Bildschirmansicht</ title> <xsl: copy-of select="$css"/ > </ head> <body> <xsl: apply-templates select="LEMMAZEICHEN"/ > <p/ > <xsl: apply-templates select="ALLGEMEIN"/ > </ body> </ html> </ xsl: template> <xsl: template match="LEMMAZEICHEN"> <xsl: apply-templates/ > </ xsl: template> Der lexikografische Prozess 220 <xsl: template match="LEMMAZEICHENA"> Angabe des Lemmazeichens: <span class="data"><b><xsl: value-of select="."/ ></ b></ span> (id="<span class="data"><xsl: value-of select="./ @ID"/ ></ span>") </ xsl: template> <xsl: template match="ALLGEMEIN"> <xsl: apply-templates select="ORTHOGRAFIE"/ > <p/ > <xsl: apply-templates select="MORPHOLOGIE"/ > </ xsl: template> <xsl: template match="ORTHOGRAFIE"> Orthografie<br/ > <xsl: apply-templates/ > </ xsl: template> <xsl: template match="ORTHOA"> Orthografische Angabe: <span class="data"><xsl: value-of select="."/ > </ span><br/ > </ xsl: template> <xsl: template match="SILBENA"> Silbenangabe: <span class="data"><xsl: value-of select="."/ ></ span><br/ > </ xsl: template> <xsl: template match="BELEG"> Beleg (druck="<span class="data"><xsl: value-of select="./ @DRUCK"/ > </ span>")<br/ > <xsl: apply-templates/ > </ xsl: template> <xsl: template match="HINWEIS"> Hinweis: <span class="data"><xsl: value-of select="."/ ></ span><br/ > <! --<xsl: apply-templates/ >--> </ xsl: template> <xsl: template match="KOMMENTAR"> Kommentar <span class="data"><xsl: value-of select="."/ ></ span><br/ > <! --<xsl: apply-templates/ >--> </ xsl: template> <xsl: template match="BELEG-TEXT"> Belegtext: <span class="data"><xsl: apply-templates/ ></ span><br/ > </ xsl: template> Die XML -basierte Modellierung einer lexikografischen Datenbasis 221 <xsl: template match="BELEGWORT"> <i><xsl: value-of select="."/ ></ i> </ xsl: template> <xsl: template match="BELEG-NACHWEIS"> Belegnachweis (quelle="<span class="data"><xsl: value-of select="./ @QUELLE"/ ></ span>" datum="<span class="data"><xsl: value-of select="./ @DATUM"/ ></ span>"): <span class="data"><xsl: value-of select="."/ ></ span> <br/ > </ xsl: template> <xsl: template match="ORTHO-VARIANTE"> Orthografische Variante: <xsl: apply-templates/ > </ xsl: template> <xsl: template match="KEINE-ANGABE"> <span class="data">keine Angabe</ span><br/ > </ xsl: template> <xsl: template match="ORTHO-VARIANTEA"> Angabe einer orthografischen Variante: <span class="data"><xsl: value-of select="."/ ></ span><br/ > </ xsl: template> <xsl: template match="MORPHOLOGIE"> Morphologie<br/ > <xsl: apply-templates/ > </ xsl: template> <xsl: template match="MORPHO-VARIANTEA"> Angabe einer morphologischen Variante: <span class="data"><xsl: value-of select="."/ ></ span><br/ > </ xsl: template> </ xsl: stylesheet> Für eine elektronische Präsentation, zum Beispiel für ein online zugängliches Wortschatzinformationssystem, könnte die Präsentation der gleichen XML- Instanz ganz anders aussehen. Für die folgende Ansicht ist dabei im Stylesheet festgelegt, dass als Überschrift die Lemmazeichen-Angabe in Arial 16pt fett Der lexikografische Prozess 222 Abb. 36: Ansicht der einzelbedeutungsübergreifenden Angaben aus knickrig.xml im Wortschatzinformationssystem Abb. 37: Ansicht der einzelbedeutungsübergreifenden Angaben aus knickrig.xml im Wortschatzinformationssystem (mit geöffnetem Belegfenster) Die XML -basierte Modellierung einer lexikografischen Datenbasis 223 dargestellt wird, darunter die orthografischen Angaben unter der Überschrift „Orthografie“ und die morphologischen Angaben entsprechend unter der Überschrift „Morphologie“. Die Inhalte sind hier für die potenziellen Benutzer teilweise anders benannt als in der Modellierung, z.B. wird die orthoA (orthografische Angabe) als „Normgerechte Schreibung“ benannt. Die Belege sind über einen entsprechend beschrifteten Button durch einen Mausklick zu erreichen. Dies bewirkt eine übersichtliche Gestaltung des Artikels und ermöglicht es potenziellen Benutzern, nur bei Bedarf die Belege anzusehen (vgl. Abbildung 36). Klickt ein potenzieller Benutzer auf den Beleg-Button, öffnet sich der jeweilige Beleg (vgl. Abbildung 37). Diese Ansicht wird über folgendes Stylesheet spezifiziert (für die Darstellung der Belegfenster wurde JavaSript eingesetzt): - XSLT-Stylesheet für die Darstellung im Wortschatzinformationssystem <? xml version="1.0" encoding="ISO-8859-1" ? > <xsl: stylesheet version="1.0" xmlns: xsl="http: / / www.w3.org/ 1999/ XSL/ Transform"> <! -- Darstellung 2: Ansicht elektronisches Wörterbuch --> <! -- CSS-Formatierung --> <xsl: variable name="css"> <style type="text/ css"> b.title {font-family: Arial; font-size: 16 pt; } td.normal {font-family: Arial; font-size: 12 pt; } </ style> </ xsl: variable> <xsl: template match="ARTIKEL"> <html> <head> <title>Elektronisches Wörterbuch</ title> <xsl: copy-of select="$css"/ > <! -- JavaScript zur dynamischen Erzeugung der Info-Fenster --> <xsl: call-template name="generateJS"/ > </ head> <body> Der lexikografische Prozess 224 <table width="80%" border="0"> <xsl: apply-templates select="LEMMAZEICHEN"/ > <xsl: apply-templates select="ALLGEMEIN"/ > </ table> </ body> </ html> </ xsl: template> <! -- ============= Beginn JavaScript =============--> <xsl: template name="generateJS"> <script language="JavaScript"> infoContent = new Array(); <xsl: call-template name="fillInfoContent"/ > function do_show(id) { var Fenster = window.open("","name","scrollbars=yes,width=400, height=220"); with (Fenster.document) { open(); write('<html>'); write('< head> <title>Info</ title>< / head> '); write('<body bgcolor="#FFFFF0">'); write('<table width="100%"><tr><td style="font-family: Arial; font-size: 10 pt">'); write(infoContent[id]); write('<p/ ></ td></ tr><tr><td align="right">'); write('<input type="button" value="schließen" onClick="parent.close(); "/ >'); write('</ td></ tr></ table>'); write('</ body>'); write('</ html>'); close(); } } </ script> </ xsl: template> <xsl: template name="fillInfoContent"> <xsl: for-each select="/ / ORTHO/ ORTHOA"> infoContent['<xsl: value-of select="generate-id(.)"/ >'] = '' Die XML -basierte Modellierung einer lexikografischen Datenbasis 225 <xsl: apply-templates select="./ following-sibling: : BELEG"/ >; </ xsl: for-each> <xsl: for-each select="/ / MORPHO-VARIANTE/ MORPHO-VARIANTEA"> infoContent['<xsl: value-of select="generate-id(.)"/ >'] = '' <xsl: apply-templates select="./ parent: : MORPHO-VARIANTE/ following-sibling: : BELEG"/ >; </ xsl: for-each> </ xsl: template> <xsl: template match="BELEG-TEXT"> <xsl: for-each select="./ node()"> <xsl: choose> <xsl: when test="name() = 'BELEGWORT'"> + ' <b><xsl: value-of select="normalize-space(.)"/ ></ b> ' </ xsl: when> <xsl: otherwise> + '<xsl: value-of select="normalize-space(.)"/ >' </ xsl: otherwise> </ xsl: choose> </ xsl: for-each> </ xsl: template> <xsl: template match="BELEG-NACHWEIS"> + '<br/ >(<xsl: value-of select="normalize-space(.)"/ >)' </ xsl: template> <! -- ============= Ende JavaScript =============--> <xsl: template match="LEMMAZEICHEN"> <xsl: apply-templates select="LEMMAZEICHENA"/ > </ xsl: template> <xsl: template match="LEMMAZEICHENA"> <tr> <td colspan="3"><b class="title"><xsl: value-of select="."/ ></ b></ td> </ tr> </ xsl: template> <xsl: template match="ALLGEMEIN"> <tr><td colspan="3" class="normal"><xsl: text disable-output-escaping= "yes">& nbsp; </ xsl: text></ td></ tr> <tr> Der lexikografische Prozess 226 <td colspan="3" class="normal"><u>einzelbedeutungsübergreifende Angaben</ u></ td> </ tr> <xsl: apply-templates select="ORTHOGRAFIE"/ > <xsl: apply-templates select="MORPHOLOGIE"/ > </ xsl: template> <xsl: template match="ORTHOGRAFIE"> <tr> <td colspan="3" class="normal"><b>Orthografie</ b></ td> </ tr> <xsl: apply-templates select="ORTHO/ ORTHOA"/ > <xsl: apply-templates select="ORTHO/ SILBENA"/ > <tr><td colspan="3"><xsl: text disable-output-escaping="yes">& nbsp; </ xsl: text></ td></ tr> </ xsl: template> <xsl: template match="ORTHOA"> <tr> <td width="30%" class="normal">Normgerechte Schreibung: </ td> <td width="20%" class="normal"><xsl: value-of select="."/ ></ td> <td width="50%" rowspan="2" align="center"><input type="button" value=" Beleg " onClick="do_show('{generate-id(.)}')"/ ></ td> </ tr> </ xsl: template> <xsl: template match="SILBENA"> <tr> <td class="normal">Silbentrennung: </ td> <td class="normal"><xsl: value-of select="."/ ></ td> </ tr> </ xsl: template> <xsl: template match="MORPHOLOGIE"> <tr> <td colspan="3" class="normal"><b>Morphologie</ b></ td> </ tr> <xsl: apply-templates select="MORPHO-VARIANTE/ MORPHO-VARIANTEA"/ > <xsl: apply-templates select="MORPHO-VARIANTE/ SILBENA"/ > <tr><td colspan="3"><xsl: text disable-output-escaping="yes">& nbsp; </ xsl: text></ td></ tr> </ xsl: template> <xsl: template match="MORPHO-VARIANTEA"> Die XML -basierte Modellierung einer lexikografischen Datenbasis 227 <tr> <td class="normal">Morphologische Variante: </ td> <td class="normal"><xsl: value-of select="."/ ></ td> <td rowspan="2" align="center"><input type="button" value=" Beleg " onClick="do_show('{generate-id(.)}')"/ ></ td> </ tr> </ xsl: template> </ xsl: stylesheet> Selbstverständlich kann den Lexikografen auch diese Ansicht für ein Wortschatzinformationssystem am lexikografischen Arbeitsplatz zur Verfügung stehen, so wie auch die folgende Darstellung für ein gedrucktes Wörterbuch. Dies kann wichtig sein, wenn schon bei der Artikelerstellung die Präsentationsansicht mit einbezogen werden soll. So fordert beispielsweise Wiegand in seinem Szenario des „Mikrostrukturengenerators“, dass eine „druckgetreue Anzeige“ auf „speziellen Befehl hin möglich sein“ sollte (Wiegand 1998a, S. 173). Die dritte Ansicht zeigt nun eine mögliche Präsentation der Daten für ein gedrucktes Wörterbuch. Hier werden nur die Silbenangabe zur orthografischen Angabe und die Silbenangabe zur morphologischen Variante, letztere mit einem vorangestellten „auch: “ dargestellt, alle anderen Angaben werden unterdrückt. Dies ist damit eine Form der verdichteten Darstellung. Abb. 38: Ansicht der einzelbedeutungsübergreifenden Angaben aus knickrig.xml im gedruckten Wörterbuch Diese Ansicht wird über folgendes Stylesheet spezifiziert: - XSLT-Stylesheet für die Darstellung im gedruckten Wörterbuch <? xml version="1.0" encoding="ISO-8859-1" ? > <xsl: stylesheet version="1.0" xmlns: xsl="http: / / www.w3.org/ 1999/ XSL/ Transform"> <! -- Darstellung 3: Ansicht gedrucktes Wörterbuch --> <xsl: template match="ARTIKEL"> Der lexikografische Prozess 228 <html> <head> <title>gedrucktes Wörterbuch</ title> </ head> <body> <xsl: apply-templates select="ALLGEMEIN"/ > </ body> </ html> </ xsl: template> <xsl: template match="ALLGEMEIN"> <xsl: apply-templates select="ORTHOGRAFIE/ ORTHO/ SILBENA"/ > <xsl: apply-templates select="MORPHOLOGIE/ MORPHO-VARIANTE/ SILBENA"/ > </ xsl: template> <xsl: template match="ORTHO/ SILBENA"> <b style="font-family: Times New Roman; font-size: 10 pt; "><xsl: value-of select="."/ ></ b> </ xsl: template> <xsl: template match="MORPHO-VARIANTE/ SILBENA"> <span style="font-family: Times New Roman; font-size: 10 pt; ">, auch: <xsl: value-of select="."/ ></ span> </ xsl: template> </ xsl: stylesheet> Diese Darstellung wird hier zur Demonstration auch durch eine Umwandlung nach HTML erreicht. Für die professionelle Herstellung gedruckter Wörterbücher ist jedoch vermutlich die Anwendung von XSL-FO empfehlenswert, da daraus wiederum andere Formate wie PostSript oder PDF erzeugt werden können. Wie anhand der Beispiele zu erkennen ist, ist die granulare, inhaltliche Auszeichnung der lexikografischen Daten analog zum Modellierungskonzept die Voraussetzung dafür, dass mit Hilfe von XSLT-Stylesheets solch verschiedene Ansichten einer Instanz erstellt werden können. Denn im Stylesheet wird für jedes XML-Element eine Darstellungsregel festgelegt; stehen also mehrere Angaben V in einem Element, sind diese Angaben V nicht einzeln zugreifbar und damit auch nicht in der Weise unterschiedlich darzustellen. Die Aus- Die XML -basierte Modellierung einer lexikografischen Datenbasis 229 zeichnung lexikografischer Inhalte nach dem Modellierungskonzept zusammen mit der XSL-Technologie bietet damit eine sehr gute, standardbasierte Möglichkeit, lexikografische Inhalte flexibel zugreifbar und darstellbar zu machen. Denn alle gezeigten Ansichten greifen auf dieselbe XML-Instanz zu, ohne dass die Auszeichnungen und Inhalte angetastet werden. Damit ist eine zentrale Forderung der neueren Wörterbuchforschung in Bezug auf lexikografische Prozesse mit dem Aufbau des Modellierungskonzeptes erfüllt. 5.7.4 Umgang mit Verdichtung in medienneutral konzipierten lexikografischen Prozessen Eine charakteristische Eigenschaft gedruckter Sprachwörterbücher ist die starke Verdichtung der lexikografischen Texte. Fast jeder weiß, daß in Printwörterbüchern [...] insbesondere die Texte der Wörterbuchartikel bestimmte charakteristische Eigenschaften aufweisen so daß eine genuin lexikographische Vertextung von propositionalen Gehalten gegeben ist. Worüber schon nicht mehr alle Bescheid wissen, ist die Tatsache, daß fast alle anhand von jeweiligen Textexemplaren wahrnehmbaren Eigenschaftsausprägungen von Artikeltexten, die als genuin lexikographisch gelten können, als Ergebnisse von unterschiedlichen Arten von Textverdichtungsprozessen erklärt werden können. (Wiegand 1998b, S. 1455; siehe auch Wiegand 1989b) In Bezug auf die elektronische Lexikografie ist es jedoch eine „immer wieder zu hörende Forderung“, dass „diese Verdichtung im elektronischen Wörterbuch, in dem kein Druckraum gespart werden müsse, entfaltet, dekomprimiert werden“ solle (Fournier 2000, S. 90). Entsprechend stellt auch Storrer fest, dass „Techniken zur Abkürzung und Textverdichtung, die in der Printlexikografie sinnvoll waren, um möglichst viele Daten auf möglichst knappem Raum unterzubringen, [...] im digitalen Medium überflüssig“ seien. „Sie müssen sogar explizit rückgängig gemacht werden, um die lexikographischen Beschreibungen in ‘intelligente’ benutzeradaptive Wörterbuchsysteme zu integrieren“ (Storrer 2001, S. 56f.). Hierbei stellt sich allerdings die Frage, ob dies wirklich für alle Formen der Textverdichtung zutrifft. Denn mit Wiegand lassen sich grundsätzlich zwei Arten von Textverdichtung unterscheiden: Textkondensierung und Textkomprimierung (Wiegand 1998b, S. 1488). Textkondensierung betrifft „das Verhältnis von Schriftzeichen zu propositionalen Gehalten“; dieses wird dabei „so modifiziert, dass die propositionale Dichte größer wird.“ Diese Art der Textverdichtung dient daher nicht nur der Druckraumersparnis, „vielmehr dient sie auch der schnelleren Auffindung der Daten Der lexikografische Prozess 230 durch den kundigen Benutzer“ (Wiegand 1998b, S. 1488). Die Textkomprimierung dagegen „betrifft nur die Druckraumersparnis. Sie wird z.B. erreicht durch die Wahl einer kleineren Schrift, durch die Verringerung der Zeilenabstände und durch den Verzicht auf Gliederungssignale wie Absatzbildung, Textblockbildung u.a.“ (ebd.). 79 Jede Art der Textkomprimierung ist daher im elektronischen Wörterbuch zu vermeiden. Verdichtungen, die der Textkondensierung zuzuordnen sind, müssen aber nicht per se überflüssig sein. Zum Beispiel kann es zumindest für bestimmte Benutzertypen und Benutzungssituationen sinnvoll sein, eine Genusangabe nicht auszuschreiben, sondern zum besseren Überblick die abgekürzten Formen „m.“, „w.“ oder „n.“ zu benutzen. Unabhängig davon, wie genau die Form der Verdichtung im gedruckten im Gegensatz zum elektronischen Wörterbuch genau gestaltet werden soll, ist es immer eine Herausforderung medienneutral konzipierter lexikografischer Prozesse, aus einer Datenbasis eine verdichtete Präsentation der Daten für ein Printwörterbuch und eine zumindest in großen Teilen unverdichtete Präsentation der Daten für ein elektronisches Wörterbuch zu entwickeln. Dabei kann hier nicht im Detail ausgeführt werden, wie diese Herausforderung zu bewerkstelligen ist, sondern es sollen lediglich grundsätzliche Lösungsansätze im Rahmen des Modellierungskonzeptes vorgestellt werden, die auch terminologisch zu differenzieren sind. Das Modellierungskonzept ist prioritär für zukünftige lexikografische Projekte gedacht (vgl. Abschnitt 5.3). Als Ausgangssituation ist also anzunehmen, dass sowohl Präsentationsformen eines Wortschatzinformationssystems als auch die Darstellung der lexikografischen Daten im Printwörterbuch neu geplant werden. In einem solchen Fall können schon bei der Entwicklung der Modellierung diese verschiedenen Präsentationsformen mit berücksichtigt werden. Zu dem Ziel, aus einer Datenbasis weitgehend unverdichtete und verdichtete Darstellungen der Daten zu entwickeln, führen grundsätzlich vier Wege. Bei den ersten beiden Möglichkeiten findet auf dem Weg von der lexikografischen Datenbasis hin zur Präsentation eine Verdichtung der Daten statt: 79 Interessant ist, dass die Rekonstruktion von Volltexten aus standardisierten, verdichteten Wörterbuchartikeln, wie sie in Wiegand (1998b) gezeigt wird, deutliche Parallelen zur granularen Inhaltsmodellierung nach dem Modellierungskonzept aufweist. Denn die XML basierte Auszeichnung nach dem Modellierungskonzept soll im Grunde dazu führen, dass der propositionale Gehalt, der mit einer Angabe vertextet wird, maschinell explizit gemacht wird, wenn auch in anders verdichteter Form. Die XML -basierte Modellierung einer lexikografischen Datenbasis 231 a) Eine Verdichtung der Daten, wie sie in der lexikografischen Datenbasis vorliegen, findet dadurch statt, dass im gedruckten Wörterbuch nur einzelne Angaben V herausgegriffen werden, die dann eine Mehrfachfunktion haben. Eine solche Art der Verdichtung wurde oben in Abschnitt 5.7.3 gezeigt. Hier wurde die Silbenangabe V zur orthografischen Angabe V als Lemmazeichengestaltangabe für ein gedrucktes Wörterbuch eingesetzt. Mit dieser Angabe werden damit drei propositionale Gehalte vertextet: Das Thema des Wörterbuchartikels, die korrekte Schreibung des Lemmazeichens und gleichzeitig die Silbentrennung; das Beispiel ist damit der Textkondensation zuzurechnen. Diese Form der Verdichtung von der lexikografischen Datenbasis hin zur Präsentation soll textkondensierende Auswahl heißen. Sie ist eine einfache und elegante Verdichtungsform für medienneutral konzipierte lexikografische Prozesse. b) Bei der Modellierung des Inhaltsstrukturenprogramms wird beachtet, dass Angaben V , die für eine gedruckte Präsentation verdichtet werden sollen, auch einzeln ausgezeichnet sind und automatisierte Verdichtungsoperationen programmiert werden können. So kann zum Beispiel das Lemma in einem Beleg, wenn es beispielsweise als belegwort ausgezeichnet ist, automatisiert auf die Initiale verkürzt werden. Diese Form der Verdichtung soll automatisierte Textkondensierung heißen. Auch diese Form ist empfehlenswert für medienneutral konzipierte lexikografische Prozesse. Bei den folgenden beiden Wegen ermöglicht eine bestimmte Form der Datenhaltung die Präsentation verdichteter und unverdichteter Formen lexikografischer Angaben: c) Angaben V werden über die Auswahl eines Attributs oder eines leeren Elementes auf Ebene der lexikografischen Datenbasis gemacht und damit nicht separat vertextet. Dies ermöglicht, aus den Auszeichnungen für verschiedene Präsentationsformen unterschiedliche Zeichenfolgen zu generieren. Beispielsweise kann eine Genusangabe V , die über das Attribut genusA= " femininum " angegeben wurde, in einem Printwörterbuch mit „w.“, in einem Wortschatzinformationssystem dagegen als „femininum“ dargestellt werden. Diese Form der Datenhaltung soll im Zusammenhang mit Verdichtungen als Datenhaltung mit Möglichkeit zur Generierung verdichteter und unverdichteter Formen bezeichnet werden. Auch dies ist eine günstige und empfehlenswerte Modellierungsmöglichkeit für medienneutral konzipierte lexikografische Prozesse. Der lexikografische Prozess 232 d) Die letzte Möglichkeit ist eine redundante Datenhaltung verdichteter und unverdichteter Formen, d.h. das Vorhalten zweier Formen einer Angabe V auf Ebene der lexikografischen Datenbasis. Diese Form der Datenhaltung erschwert allerdings die Konsistenzkontrolle über die Daten, denn es muss immer sichergestellt werden, dass bei Änderung einer Angabe V jeweils beide Formen - die verdichtete und die unverdichtete - korrigiert werden. Auf eine redundante Datenhaltung sollte daher so weit wie möglich verzichtet werden; allerdings ist sie nicht immer ganz zu vermeiden. Aspekte der Textkomprimierung sind hier nicht weiter zu behandeln, da eine Komprimierung der lexikografischen Daten allein durch die Auswahl des Layoutes erreicht wird. Hier erweist sich eine granulare Inhaltsmodellierung als günstig, da in Abhängigkeit einzelner Auszeichnungen flexibel festgelegt werden kann, wie sie dargestellt werden sollen, wo Absätze gemacht werden etc. Diese Aspekte fordern jedoch keine zusätzlichen Überlegungen, die die Richtlinien des Modellierungskonzeptes ergänzen können. Insgesamt ist es meines Erachtens wichtig, für zukünftige medienneutral konzipierte lexikografische Prozesse auch neue Präsentationsformen für Printwörterbücher zu erdenken. Denn wichtig für die Herstellung von Printwörterbüchern ist zunächst nur, dass der Textverdichtungsgrad (i.S.v. Wiegand 1998b) angemessen hoch ist, sodass nicht zuviel teurer Druckraum benötigt wird. Wodurch dieser Grad der Verdichtung erreicht wird, ist im Grunde beliebig. Bestimmt können manche Verdichtungen, die bisher üblich waren, sehr schwierig automatisiert werden, dagegen andere, die bisher wenig verbreitet sind, sehr gut. Dabei darf man natürlich potenzielle Benutzer nicht zu sehr mit neuen Präsentationsformen überfordern. Allerdings ist diese Gefahr bei neuen lexikografischen Projekten meist als nicht so hoch einzuschätzen wie bei Neuauflagen bestehender Wörterbücher. Sehr viel schwieriger gestaltet sich der Umgang mit Verdichtung in medienneutral konzipierten lexikografischen Prozessen, wenn eine bestimmte Form des Druckbildes für eine gedruckte Ausgabe eines Wörterbuchbuchs von vorneherein vorgegeben ist. Dies ist meist dann der Fall, wenn das Printwörterbuch vorgängig geplant wurde und auch schon lange Zeit vor einer elektronischen Version auf dem Markt ist, die Benutzer somit schon an eine bestimmte Präsentationsform der Daten gewöhnt sind. In einem solchen Fall wird ein schon bestehender computerunterstützter lexikografischer Prozess mit dem Ziel der Herstellung eines gedruckten Wörterbuchs in einen medienneutral konzipierten lexikografischen Prozess mit dem Ziel der gleich- Die XML -basierte Modellierung einer lexikografischen Datenbasis 233 zeitigen Herstellung eines elektronischen und eines gedruckten Wörterbuchs umgewandelt (vgl. Abschnitt 3.3). Diese Umwandlung gestaltet sich oft schwierig, weil die Daten für das gedruckte Wörterbuch meist nur in verdichteter Form vorhanden sind und außerdem nicht vorgängig geprüft wurde, ob diese Verdichtungen - wenn die Daten unverdichtet eingegeben würden - auch automatisiert erreicht werden können. Ähnliche Probleme stellen sich bei der Retrodigitalisierung älterer Wörterbücher. Hier stehen im Prinzip auch die vier oben ausgeführten Lösungsansätze zur Verfügung; allerdings kann es in bestimmten Fällen aus praktischen Gründen unmöglich sein, bestimmte Formen von Verdichtungen aufzulösen, auch wenn dies in Hinsicht auf eine elektronische Präsentation wünschenswert wäre. So führt beispielsweise Fournier in Bezug auf die Retrodigitalisierung der mittelhochdeutschen Wörterbücher aus, dass eine doppelte Datenhaltung (verdichteter und unverdichteter Formen) „zu kaum vertretbarem Aufwand“ führe. Das ohnehin nicht ganz einfache automatisierte Errechnen und Korrigieren der Verweise ist sehr viel bequemer, zudem schneller und zuverlässiger zu bewerkstelligen, wenn verschiedene Programmprozeduren auch abgewickelt werden können, ohne daß Unterscheidungen zwischen im Druck ausgeschriebenen oder abgekürzten Wortformen in die Berechnungen miteingehen. (Fournier 2000, S. 93) 5.8 Perspektive Wörterbuchverbund Mit der weiten Verbreitung des Internets wird auch in der akademischen Wörterbuchlandschaft häufiger der Wunsch diskutiert, mehrere Wortschatzinformationssysteme in einem Verbund gemeinsam online zugreifbar zu machen. Dies reicht von thematisch sehr eng gesteckten Verbünden, wie dem Verband mittelhochdeutscher Wörterbücher, 80 bis hin zu breit angelegten Zusammenstellungen, für die als Beispiel die gemeinsame Präsentation des „Wörterbuchs der deutschen Gegenwartssprache (WDG)“ und des „Deutschen Rechtswörterbuchs (DRW)“ in einem Wörterbuchportal genannt werden kann. 81 Bisher sind die verschiedenen Wörterbücher in den Verbünden oft noch nicht so miteinander vernetzt, dass umfassende gemeinsame Zugriffsstrukturen zur Verfügung stehen. Der potenzielle Mehrwert solcher Zusammenführungen wird damit teilweise noch nicht realisiert. In der Zukunft wird es daher immer mehr darum gehen, eng vernetzte Wörterbuchverbünde zu bilden, wie es u.a. mit dem elexiko-Portal auch geplant ist. 80 Siehe http: / / gaer27.uni-trier.de/ MWV-online/ WBInfos.html (Stand: April 2007). 81 Siehe http: / / www.woerterbuch-portal.de (Stand: April 2007). Der lexikografische Prozess 234 Damit verschiedene Wörterbücher auch unterhalb der Ebene eines ganzen Artikels gemeinsam zu recherchieren sind, müssen ihre Daten zumindest bis zu einem gewissen Grad einheitlich ausgezeichnet sein, wenn nicht allein Zugriffsstrukturen auf unterschiedliche Formate programmiert werden sollen oder können. Für die Gründung eines Wörterbuchverbundes scheint bei einzelnen lexikografischen Projekten daher der Einsatz einer Standard-Modellierung wie der TEI vielversprechend. 82 „Darüber hinaus - und das ist ein ganz entscheidender Vorteil der TEI - dürfte das zukünftige Einbeziehen weiterer Wörterbücher in den Wörterbuchverbund leicht möglich sein“ (Burch/ Fournier 2001, S. 138). In der Praxis stellt sich jedoch oft heraus, dass die spezifische Anwendung zum Beispiel der TEI-Struktur in dem einem Projekt ganz anders aussieht als in dem anderen, sodass sich eine Zusammenführung als problematisch erweist. So führen Rothfuss/ Ried ganz grundsätzlich zur Entwicklung einer DTD für mehrere Projekte als Schwierigkeit aus: „Die DTDs werden aller Wahrscheinlichkeit nach von verschiedenen Parteien verschieden interpretiert. Geschieht dies, so ist ihr tieferer Sinn verloren; sie degradieren zur reinen Syntax-Beschreibung“ (Rothfuss/ Ried 2001, S. 225). Wenn man jedoch eine maßgeschneiderte Modellierung, wie sie nach dem Modellierungskonzept vorgesehen ist, entwickelt, stellt sich die Frage, wie man so ausgezeichnete Daten mit anders strukturierten Daten in einem Verbund zusammenführen kann. An dieser Stelle kommt wieder XSLT ins Spiel (vgl. Abschnitt 5.7.2). Denn die Transformationsmöglichkeiten sind nicht nur auf die Entwicklung einer Darstellung beschränkt; durch XSLT kann man auch ein beliebiges XML- Quellformat in ein anderes XML-Zielformat umwandeln. Diese Möglichkeit macht nach Rothfuss/ Ried das „A und O des Erfolgs“ (Rothfuss/ Ried 2001, S. 223) von XML aus, denn damit ist nicht nur medienneutrale Datenhaltung mit der Möglichkeit, denselben Inhalt in unterschiedlichen Ansichten und Formaten zu publizieren, gegeben, sondern auch die Funktion von XML als universelles Datenaustauschformat für „EDI (Electronic Data Interchange)“ (Rothfuss/ Ried 2001, S. 223). Gerade der Einsatz von maßgeschneiderten Modellierungen lässt XSL eine wichtige Rolle zukommen. „Je eher einzelne Parteien verschiedene DTDs benutzen oder diese verschieden interpretieren, desto wichtiger wird die Übersetzung zweier XML-Quellen ineinander, d.h. die Transformation der einen in die andere“ (ebd., S. 225). 82 Das Für und Wider einer Standardmodellierung vs. einer maßgeschneiderten Modellierung wurde in Abschnitt 5.2.1 diskutiert. Die XML -basierte Modellierung einer lexikografischen Datenbasis 235 Bezogen auf lexikografische Projekte und dem Wunsch, verschiedene Wörterbücher gemeinsam zugreifbar zu machen, heißt das, dass verschiedene maßgeschneiderte Modellierungen in ein Einheitsformat für einen Wörterbuchverbund übersetzt werden müssen. Dabei ist immer nur eine ‘Vergröberung’ der Auszeichnungen möglich; Verfeinerungen können nicht automatisch erreicht werden. Dies entspricht jedoch meist den Gegebenheiten eines Wörterbuchverbundes, denn rein inhaltlich können für mehrere Wörterbücher nicht so feine, detaillierte Zugriffsmöglichkeiten geboten werden wie für ein einzelnes lexikografisches Produkt. Außerdem ist eine Modellierung nach dem hier vorgestellten Modellierungskonzept so granular, dass ohne Probleme Vergröberungen vorgenommen werden können, ohne dass die Möglichkeiten für die Entwicklung gemeinsamer Zugriffsstrukturen zu gering sind. Wie eine solche Transformation von verschiedenen maßgeschneiderten Modellierungen in ein einheitliches Zielformat funktioniert, soll an einem Beispiel veranschaulicht werden: Der erste Artikelausschnitt zeigt mögliche einzelbedeutungsübergreifende Angaben V zum Artikel „Jogurt“, die analog zur Beispiel-DTD ausgezeichnet sind. (Zur Erinnerung: In diesem Inhaltsstrukturenprogramm ist vorgesehen, dass zusätzlich zur Angabe V des Lemmazeichens die korrekte Schreibung in einem separaten Element ausgezeichnet wird, und dass - falls vorhanden - orthografische und morphologische Varianten mit der jeweiligen Silbentrennung angegeben werden.) - XML-Instanz Jogurt.xml (Ausschnitt) <? xml version="1.0"? > <! DOCTYPE ARTIKEL SYSTEM "C\...\beispiel.dtd"> <artikel> <lemmazeichen> <lemmazeichenA id="26484">Jogurt</ lemmazeichenA> </ lemmazeichen> <allgemein> <orthografie> <ortho><orthoA>Jogurt</ orthoA><silbenA>Jo|gurt</ silbenA></ ortho> <ortho-variante> <ortho-varianteA>Joghurt</ orthovarianteA><silbenA>Jo|ghurt</ silbenA> </ ortho-variante> <ortho-variante> Der lexikografische Prozess 236 <ortho-varianteA>Yoghurt</ orthovarianteA><silbenA>Yo|ghurt</ silbenA> </ ortho-variante></ orthografie><morphologie><keine-angabe/ > </ morphologie></ allgemein> ... </ artikel> Das zweite Beispiel zeigt einzelbedeutungsübergreifende Angaben V zum Artikel „Hotdog“ aus einem anderen (vorstellbaren) lexikografischen Projekt. Hier ist im Inhaltsstrukturenprogramm auch vorgesehen, dass parallel zur Lemmazeichen-Angabe V die korrekte Schreibung angegeben wird. Auch Schreibvarianten sollen - falls vorhanden - angegeben werden. Silbenangaben V sind zu Schreibvarianten jedoch nicht vorgesehen. Außerdem ist eine andere Terminologie für die Auszeichnungen gewählt. - XML-Instanz Hotdog.xml (Ausschnitt) <? xml version="1.0"? > <! DOCTYPE ARTIKEL SYSTEM "C\...\beispiel2.dtd"> <artikel> <lemmazeichen> <lemmazeichenA id="3783">Hotdog</ lemmazeichenA> </ lemmazeichen> <allgemein> <rechtschreibung> <korr-schreibung><korr-schreibungA>Hotdog</ korrschreibungA><silbenA>Hot|dog</ silbenA> </ korr-schreibung> <schreib-variante> <schreib-varianteA>Hot Dog</ schreib-varianteA> </ schreib-variante> </ allgemein> ... </ artikel> Diese zwei unterschiedlichen Modellierungen aus zwei verschiedenen (fiktiven) lexikografischen Projekten, die beide eine maßgeschneiderte Modellierung nach dem Modellierungskonzept einsetzen, sollen nun in einem Wörterbuchverbund und damit in ein einheitliches Format überführt werden. Für die einzelbedeutungsübergreifenden Angaben V ist dabei beim Wörterbuchverbund vorgesehen, dass die Lemmazeichen-Angabe V mit einer ID in einem Element Die XML -basierte Modellierung einer lexikografischen Datenbasis 237 gefasst wird, und dass alle weiteren Formangaben mit einem gemeinsamen Element formangaben ausgezeichnet werden. Dabei werden im Elementinhalt die einzelnen Angaben V mit vorangestelltem Text gekennzeichnet, z.B. als „Silbenangabe: “. Als Trennung werden nichttypografische Strukturanzeiger (i.S.v. Wiegand 1989a) 83 zwischen die Angaben V eingefügt. Mit folgendem Stylesheet wird diese Transformation für das erste Beispiel erreicht. - XSLT-Stylesheet für die Transformation der einzelbedeutungsübergreifenden Angaben V des Artikels „Jogurt“ in das Format für den Wörterbuchverbund 84 <? xml version="1.0" encoding="ISO-8859-1" ? > <xsl: stylesheet version="1.0" xmlns: xsl="http: / / www.w3.org/ 1999/ XSL/ Transform"> <! -- Woerterbuchverband: Beispiel 1 --> <xsl: output method="xml" indent="yes" doctype-system="beispiel-wv.dtd" encoding="ISO-8859-1"/ > <xsl: template match="/ artikel"> <artikel> <xsl: apply-templates select="lemmazeichen"/ > <xsl: apply-templates select="allgemein"/ > </ artikel> </ xsl: template> <xsl: template match="allgemein"> <allgemein> <formangaben> <xsl: apply-templates select="orthografie"/ > </ formangaben> </ allgemein> </ xsl: template> 83 Der Terminus Strukturanzeiger i.S.v. Wiegand bezieht sich jedoch auf die Ebene der Präsentation. 84 Ohne Transformationsanweisungen zu morphologischen Angaben. Der lexikografische Prozess 238 <xsl: template match="lemmazeichen"> <xsl: copy-of select="./ lemmazeichenA"/ > </ xsl: template> <xsl: template match="orthografie"> <xsl: apply-templates select="ortho"/ > <xsl: apply-templates select="ortho-variante"/ > </ xsl: template> <xsl: template match="ortho"> <xsl: apply-templates select="orthoA"/ > <xsl: apply-templates select="silbenA"/ > </ xsl: template> <xsl: template match="ortho-variante"> <xsl: apply-templates select="ortho-varianteA"/ > <xsl: apply-templates select="silbenA"/ > </ xsl: template> <xsl: template match="orthoA"> orthografische Angabe: <xsl: value-of select="."/ >, </ xsl: template> <xsl: template match="silbenA"> Silbenangabe: <xsl: value-of select="."/ >; </ xsl: template> <xsl: template match="ortho-varianteA"> orthografische Variante: <xsl: value-of select="."/ >, </ xsl: template> </ xsl: stylesheet> Durch dieses Stylesheet wird die XML-Instanz Jogurt.xml in folgende andere XML-Form transformiert: - Transformierte XML-Instanz Jogurt.xml <? xml version="1.0" encoding="ISO-8859-1"? > <! DOCTYPE artikel SYSTEM "beispiel-wv.dtd"> <artikel> <lemmazeichenA id="26484">Jogurt</ lemmazeichenA> <allgemein> <formangaben> orthografische Angabe: Jogurt, Die XML -basierte Modellierung einer lexikografischen Datenbasis 239 Silbenangabe: Jo|gurt; orthografische Variante: Joghurt, Silbenangabe: Jo|ghurt; orthografische Variante: Yoghurt, Silbenangabe: Yo|ghurt; </ formangaben> </ allgemein> </ artikel> Ein entsprechend anderes Stylesheet spezifiziert die nötigen Transformationen für Instanzen, die nach der Beispiel2-DTD ausgezeichnet worden sind: - XSLT-Stylesheet für die Transformation der einzelbedeutungsübergreifenden Angaben V des Artikels „Hotdog“ in das Format für den Wörterbuchverbund <? xml version="1.0" encoding="ISO-8859-1" ? > <xsl: stylesheet version="1.0" xmlns: xsl="http: / / www.w3.org/ 1999/ XSL/ Transform"> <! -- Woerterbuchverbund: Beispiel 2 --> <xsl: output method="xml" indent="yes" doctype-system="beispiel-wv.dtd" encoding="ISO-8859-1"/ > <xsl: template match="/ artikel"> <artikel> <xsl: apply-templates select="lemmazeichen"/ > <xsl: apply-templates select="allgemein"/ > </ artikel> </ xsl: template> <xsl: template match="lemmazeichen"> <xsl: copy-of select="./ lemmazeichenA"/ > </ xsl: template> <xsl: template match="allgemein"> <allgemein> <formangaben> <xsl: apply-templates select="rechtschreibung"/ > </ formangaben> </ allgemein> </ xsl: template> Der lexikografische Prozess 240 <xsl: template match="rechtschreibung"> <xsl: apply-templates select="korr-schreibung"/ > <xsl: apply-templates select="schreib-variante"/ > </ xsl: template> <xsl: template match="korr-schreibung"> <xsl: apply-templates select="korr-schreibungA" / > <xsl: apply-templates select="silbenA" / > </ xsl: template> <xsl: template match="korr-schreibungA"> korrekte Schreibung: <xsl: value-of select="."/ >, </ xsl: template> <xsl: template match="silbenA"> Silbenangabe: <xsl: value-of select="."/ >; </ xsl: template> <xsl: template match="schreib-variante"> <xsl: apply-templates select="schreib-varianteA"/ > </ xsl: template> <xsl: template match="schreib-varianteA"> Schreibvariante: <xsl: value-of select="."/ > </ xsl: template> </ xsl: stylesheet> Durch dieses Stylesheet wird die XML-Instanz Hotdog.xml in folgende andere XML-Form transformiert: - Transformierte XML-Instanz Hotdog.xml <? xml version="1.0" encoding="ISO-8859-1"? > <! DOCTYPE artikel SYSTEM "beispiel-wv.dtd"> <artikel> <lemmazeichenA id="3783">Hotdog</ lemmazeichenA> <allgemein> <formangaben> korrekte Schreibung: Hotdog, Silbenangabe: Hot|dog; Schreibvariante: Hot Dog </ formangaben> </ allgemein> </ artikel> Die XML -basierte Modellierung einer lexikografischen Datenbasis 241 Durch die Transformationen gehorchen nun beide Instanzen einer DTD, die für den Wörterbuchverbund zu Grunde gelegt werden kann. So sind die Voraussetzungen für eine Entwicklung gemeinsamer Zugriffsstrukturen geschaffen. Trotzdem bleiben in dem Beispiel die unterschiedlichen Terminologien der verschiedenen Inhaltsstrukturenprogramme erhalten, indem diese Angabe V - Bezeichnungen in die Elementinhalte übernommen wurden. Wie an diesem Beispiel zu sehen ist, eröffnet die Anwendung des hier vorgestellten Modellierungskonzeptes weitreichende Möglichkeiten für die Zusammenführung verschiedener lexikografischer Projekte in einem Wörterbuchverbund, in dem ‘echter’ Mehrwert durch die Entwicklung gemeinsamer Zugriffsmöglichkeiten geschaffen werden kann. Dies heißt allerdings nicht, dass verschiedene lexikografische Projekte immer einfach in einem Verbund zusammengeführt werden können. Je unabhängiger Projekte voneinander erarbeitet werden, desto schwieriger ist es, eine enge inhaltliche Verbindung und damit gemeinsame Zugriffsmöglichkeiten herzustellen. Eine Alternative zu der Transformation verschiedener XML-Formate in ein einheitliches Format ist die Programmierung von Zugriffsstrukturen auf die ursprünglichen verschiedenen Formate. Welche dieser Möglichkeiten für einen Wörterbuchverbund in Frage kommt, muss von Fall zu Fall geprüft werden. Für die Perspektiven aus dem Modellierungskonzept ist es allein wichtig festzuhalten, dass auch beim Einsatz einer maßgeschneiderten Modellierung die Zusammenführung verschiedener lexikografischer Projekte in einem Verbund möglich ist. 6. Modellierung einer lexikografischen Datenbasis im Projekt elexiko : ein Werkstattbericht Eine gute Theorie ist das Praktischste, was es gibt. Gustav Robert Kirchhoff 6.1 Kurzbeschreibung des Projekts Das elektronische, korpusbasierte, lexikologisch-lexikografische Informationssystem elexiko 85 ist ein online zugängliches, einsprachiges Wortschatzinformationssystem, in dem am Institut für Deutsche Sprache (IDS) korpusbasiert neue lexikografische Inhalte erarbeitet werden. Die Korpusbasiertheit ist für den wissenschaftlichen Nutzen von elexiko von zentraler Bedeutung, da so die lexikografischen Beschreibungen möglichst wirklichkeitsnah und aktuell sind. Dabei wurde das elexiko-Korpus auf Basis der IDS-Korpora, die mit knapp zwei Milliarden laufenden Textwörtern zu den weltweit größten elektronischen Textsammlungen zur deutschen Schriftsprache gehören, erstellt. Für den lexikografischen Nutzen dieses Korpus ist allerdings nicht allein die Größe entscheidend, sondern auch die im IDS entwickelten Analyse- und Rechercheverfahren, die ein hohes Potenzial für lexikografische Anwendungen bieten. 86 Elexiko ist außerdem Bestandteil des Online-Wortschatz-Informationssystem Deutsch (kurz OWID), 87 einem Portal, in dem alle lexikografischen Arbeiten des IDS gemeinsam im Internet zugänglich sind. Die elexiko-Stichwortliste fungiert dabei als gemeinsame Zugriffsstruktur aller in OWID eingebundenen Wörterbücher. Im Rahmen von OWID sind neben elexiko seit Juni 2006 die Artikel des Projekts Neologismenforschung 88 online zugänglich. Außerdem sind seit April 2007 die Wortverbindungen online 89 und Artikel aus dem 85 Siehe www.elexiko.de (Stand: August 2007). 86 Siehe www.ids-mannheim.de/ kt/ projekte/ korpora/ (Stand: August 2007). 87 Siehe www.ids-mannheim.de/ owid (Stand: August 2007). 88 Die Neologismen der 90er-Jahre sind zunächst als gedrucktes Wörterbuch erschienen (Herberg/ Kinne/ Steffens 2004). Für die Internetversion siehe http: / / hypermedia.idsmannheim.de/ elexiko/ ModulNeo/ (Stand: August 2007). 89 Siehe http: / / hypermedia.ids-mannheim.de/ elexiko/ ModulMV/ index.html (Stand: August 2007). Der lexikografische Prozess 244 Schulddiskurs im ersten Nachkriegsjahrzehnt 90 verfügbar. Unter dem Label elexiko wurde bis vor kurzem sowohl das elexiko-Wörterbuch als auch das jetzt als OWID benannte Portal subsummiert. Aufgrund des Ausbaus des Portals um mehr Wörterbücher und dem Wunsch nach einer besseren Unterscheidbarkeit von Portal und elexiko-Wörterbuch werden diese beiden Bereiche jetzt strukturell und namentlich getrennt. Die zugehörigen Internetadressen befinden sich allerdings noch im Umbau. Im elexiko-Wörterbuch geht es um die Neuerstellung einer lexikografischen Datenbasis. Die Erarbeitung der Artikel erfolgt dabei nicht von A bis Z, sondern in möglichst inhaltlich motivierten Wortschatzbereichen, die dann sukzessive veröffentlicht werden. Im Moment (Stand: Frühling 2007) ist die gesamte etwa 300.000 Einträge umfassende Stichwortliste mit einigen Angaben, die (teil-)automatisch aus Korpora gewonnen wurden, verfügbar, sowie ein in der elexiko-Projektgruppe erarbeiteter Demonstrationswortschatz. Zur Zeit wird darüber hinaus an zwei inhaltlichen Bereichen bzw. Modulen gearbeitet: Zum einen an der lexikografischen Beschreibung der im öffentlichen Diskurs des Deutschen besonders häufig verwendeten Wörter, auch als Lexikon des öffentlichen Sprachgebrauchs bezeichnet. 91 Zum anderen wird die Füllung niedrig frequenter Stichwörter (d.h. solcher Stichwörter, die im elexiko-Korpus über eine Stichwortfrequenzsumme von unter 500 verfügen) mit automatisch generierten Angaben realisiert, zu denen beispielsweise Belege, Angaben zur Belegung im Korpus und grammatische und orthografische Angaben gehören. Von zahlreichen Stichwörtern wird außerdem auf Einträge der Kookkurrenzdatenbank 92 verwiesen, aus der weitere (automatisch ermittelte) Informationen u.a. zur Umgebung des jeweiligen Stichwortes zu schließen sind. Weitere zentrale Aufgaben in elexiko für die Zukunft sind die Optimierung des Benutzerzugangs zu den lexikografischen Daten und eine Optimierung der Recherchemöglichkeiten. Ein wichtiges Ziel von elexiko ist es, die lexikografischen Inhalte in innovativer Weise im elektronischen Medium nutzbar zu machen. Beispielsweise wird eine flexible Darstellung der Daten angestrebt, die adaptiv zu Benutzertypen und Benutzungssituationen realisiert werden soll. Hierfür sind jedoch 90 Siehe http: / / hypermedia.ids-mannheim.de/ elexiko/ ModulSchulddisk/ Start. html (Stand: August 2007). 91 Siehe www.ids-mannheim.de/ elexiko/ DemoWortschatz.html sowie www.idsmannheim.de/ elexiko/ Kernwortschatz.html (Stand: August 2007). 92 Siehe http: / / corpora.ids-mannheim.de/ ccdb/ (Stand: August 2007). Modellierung im Projekt elexiko - ein Werkstattbericht 245 grundlegende Forschungsarbeiten notwendig, da die empirische Wörterbuchbenutzungsforschung bisher zu wenig Erkenntnisse speziell für die elektronische Lexikografie gesammelt hat. Außerdem sollen neuartige Recherchemöglichkeiten angeboten werden. Beispielsweise sind Querschnittsanfragen entwickelt worden bzw. sollen entwickelt werden wie: - Welche Adjektive sind dem Wortbildungstyp „Kompositum“ zuzuordnen? - Welche Wörter besitzen normgerechte orthografische Varianten? - Welche Wörter haben in welcher Lesart sinnverwandte Wörter? Dabei sind manche Abfragen über die gesamte elexiko-Stichwortliste zu stellen, manche nur für bearbeitete Artikel - je nachdem, um welche gesuchte Informationsart es sich handelt. Auch die Vernetzung des Wortschatzes soll eine zentrale Rolle in elexiko spielen, nicht nur zur Navigation durch die Artikel, sondern auch für die Entwicklung von Zugriffsmöglichkeiten. Beispielsweise können Sinnverwandtschaften für den Zugriff auf Bedeutungsfelder ausgewertet werden. Die neuen Möglichkeiten des elektronischen Mediums sollen in elexiko also möglichst umfassend genutzt werden. Dies gelingt nur schrittweise, je nachdem, wie hoch die finanzielle und personelle Kapazität ist. Diese Zielvorstellungen setzen jedoch von Anfang an eine bestimmte Form der Datenorganisation voraus, und folglich auch eine sorgfältige Planung der Modellierung der Daten. Denn mit einer wohlüberlegten Modellierung wird das Fundament dafür bereitet, auf Präsentationsebene vielfältige Funktionalitäten für potenzielle Benutzer entwickeln zu können. Diese Form der Datenorganisation gilt für alle Wörterbücher, die in OWID eingebunden sind. Dabei waren die DTDs für das elexiko-Wörterbuch die ersten und dabei auch umfangreichsten DTDs, die entwickelt wurden. Sie bildeten damit auch den Ausgangspunkt für die Strukturen des Neologismen- Wörterbuch. Auch für die Wortverbindungen online und die Artikel aus dem Schulddiskurs wurden allgemeine Bausteine aus diesen Strukturen verwendet. Die DTDs für elexiko sollen daher - aufgrund ihrer grundlegenden Bedeutung für das gesamte Online-Wortschatz-Informationssystem Deutsch und ihres Umfangs - im Zentrum der Erläuterungen stehen. Im Folgenden soll nun die XML-Modellierung von elexiko vorgestellt werden (vgl. auch Müller-Spitzer 2005a). Dafür wird zunächst die Rolle des Modellierungskonzeptes bei der DTD-Entwicklung für elexiko erläutert, die Vorgehensweise bei der DTD-Entwicklung beschrieben und die technische Redaktionsumgebung kurz skizziert. In den Abschnitten 6.5 und 6.6 wird Der lexikografische Prozess 246 ausführlich auf verschiedene Aspekte der Modellierung des Inhaltsstrukturenprogramms und des Vernetzungsstrukukturenprogramms eingegangen. Daneben werden in den darauf folgenden Abschnitten weitere Aspekte einer „Well-Dressed-DTD“ erläutert und die Perspektiven für die Darstellung und Recherchierbarkeit der Artikel beschrieben. Im letzten Abschnitt des Kapitels wird schließlich auf das Spannungsfeld zwischen theoretischen Richtlinien und ihrer praktischen Anwendung eingegangen. Weiterführende Informationen zu elexiko bietet der Projekt-Sammelband „Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz“ (Haß (Hg.) 2005). Der aktuelle Stand des Projekts und Überblicksinformationen finden sich außerdem auf der Projektseite www.elexiko.de (Stand: August 2007) bzw. auf der Portalseite www.idsmannheim.de/ owid . 6.2 Rolle des Modellierungskonzeptes bei der DTD-Entwicklung In elexiko (früher: Wissen über Wörter) wurde schon zu Anfang des Projektes, d.h. Ende der 90er-Jahre, entschieden, dass die Modellierung SGMLbzw. dann XML-basiert erfolgen sollte (vgl. Haß-Zumkehr 2001). Auch war schnell klar, dass diese XML-Modellierung das ‘Mikrostrukturenprogramm’ abbilden solle. Die für das lexikalisch-lexikologische, korpusbasierte Informationssystem des Instituts für Deutsche Sprache Wissen über Wörter (WiW) entwickelte XML - Dokumenttypdefinition ( DTD ) modelliert die Mikrostruktur der Wörterbuchartikel speziell für die Erarbeitung, Speicherung und Darstellung in den digitalen Medien. Sie fungiert als Schnittstelle zwischen lexikografischem Arbeitsplatz und Datenbank sowie zwischen Datenbank und Internet-Browser. Dabei bietet XML in Kombination mit einer hypermedialen Benutzeroberfläche alle Vorteile einer Vernetzung des lexikalischen Materials durch typisierte, hybride (X)Links sowohl innerhalb der WiW-Mikro- und Makrostruktur als auch von und zu externen Ressourcen, wie multimedialen Erläuterungen, lexikologischen Abhandlungen, dynamischen Prozessen (z.B. Korpusrechner), externen Informationssystemen etc. (Müller-Landmann 2001, S. 31) Die Rolle der Modellierung im lexikografischen Prozess war allerdings - wie auch im Zitat teilweise zu erkennen ist - nicht klar festgelegt. Sollten die Strukturen möglichst einheitlich für alle auch in Zukunft einzubindenden Projekte sein, mit der Konsequenz, dass die Modellierung sehr weich sein muss, um alle Eventualitäten abzubilden? Oder ist es wichtiger, die Lexikografen beim Eingeben der Artikel zu unterstützen, d.h. die Modellierung für die einzelnen Modulprojekte so streng wie möglich zu gestalten? Ohne hier Modellierung im Projekt elexiko - ein Werkstattbericht 247 eine klare Position zu beziehen, wurde eine einheitliche Modellierung für das elexiko-Wörterbuch und für das Neologismen-Wörterbuch in Form einer gemeinsamen DTD entwickelt, die auch zum Ziel hatte, möglichst wenig Unterschiede zwischen den Lemmazeichentypen Einwortlemma, Mehrwortlemma und Wortelementlemma zu machen. Es muss als großer Vorteil der DTD -Konzeption in WiW betrachtet werden, dass tatsächlich nahezu alle Angabearten (i.e. Teilbäume der DTD ) für alle drei Lemmatypen gleichermaßen gelten. So ist es fast immer möglich, Wortschatzeinheiten nach linguistisch-lexikologischen Eigenschaften und eben unabhängig vom Aussehen des Formativs zu kompilieren: Durch die umfassende, feinkörnige und linguistisch-lexikologisch fundierte Mikrostruktur der Wörterbuchartikel werden die XML -getaggten Informationen zu den Stichwörtern entlang der Mikrostruktur nach unterschiedlichen, expliziten Kriterien indiziert. (Müller-Landmann 2001, S. 38) Diese in der Konsequenz weiche Modellierung hatte entgegen der ursprünglichen Intention zur Folge, dass gleiche Phänomene innerhalb der Module und unter den verschiedenen Projekten de facto unterschiedlich ausgezeichnet wurden, da die XML-Struktur zu viel Spielraum ließ. Die erarbeiteten Daten waren daher inkonsistent getaggt. Hier wäre zusätzlich zur XML- Modellierung ein umfangreiches Instruktionsbuch notwendig gewesen, was aber auch - wie viele Erfahrungen aus lexikografischen Projekten gezeigt haben - nicht unbedingt zu der gewünschten Konsistenz in der Datenauszeichnung geführt hätte (vgl. z.B. Heyn 1992). Deshalb wurde im Jahr 2002 die Entscheidung getroffen, die XML-Modellierung grundlegend zu überarbeiten. Ein zentrales Ziel war dabei, die Modellierung für die einzelnen Module so maßgeschneidert zu entwickeln und streng aufzubauen, dass sie für die Lexikografen eine bestmögliche Strukturführung bei der Artikelerarbeitung bietet (vgl. Abschnitt 5.6). So sollte sichergestellt werden, dass auch bei verschiedenen beteiligten Projekten mit jeweils mehreren Mitarbeitern die Daten konsistent ausgezeichnet werden. Dies war umso wichtiger, als sowohl OWID allgemein als auch elexiko speziell Projekte mit einer langen Laufzeit sein sollen. Gleichzeitig sollten die Modellierungen für die einzelnen Module aus einer Hand entwickelt werden, um einheitliche Prinzipien bei der DTD-Entwicklung zu gewährleisten und um sicherzustellen, dass gleiche Inhalte tatsächlich gleich ausgezeichnet werden. 93 93 Diese unterschiedlichen Modellierungen werden für die einzelnen Wörterbücher seit 2002 von mir entwickelt. Der lexikografische Prozess 248 Die Erarbeitung der elexiko-DTDs sowie aller Strukturen für das Online- Wortschatz-Informationssystem Deutsch wurde dabei von praktischen und theoretischen Vorarbeiten geleitet (vgl. Müller 2001, Schmidt/ Müller 2000, Schmidt/ Müller 2001). Weiterhin wurde während der Entwicklung der DTDs die theoretische Arbeit an dem hier vorgestellten Modellierungskonzept fortgesetzt, sodass sowohl die praktische Modellierung von den theoretischen Arbeiten beeinflusst wurde als auch die Theorie von den Anforderungen der lexikografischen Praxis. Dabei wurden für das Modellierungskonzept auch andere vorstellbare lexikografische Projekte so gut wie möglich einbezogen; andererseits konnten nicht alle Richtlinien des Modellierungskonzeptes Anwendung finden. Trotzdem wurde versucht, gemäß dem Leitsatz „eine gute Theorie ist das Praktischste, was es gibt“ sowohl das theoretisch erarbeitete Modellierungskonzept als auch seine praktische Anwendung in OWID bzw. elexiko in gegenseitiger Prüfung jeweils zu verbessern. Dabei kann die Modellierung von elexiko als beispielhaft für die anderen Strukturen aus OWID angesehen werden. 6.3 Vorgehensweise bei der DTD-Entwicklung Die aktuelle Modellierung von elexiko entstand über einen längeren Zeitraum. Dabei war das grundsätzliche Vorgehen immer so, dass ein Konzeptionspapier zu einem inhaltlichen Bereich von einem Projektmitglied erarbeitet wurde, z.B. die Konzeption der Wortbildung von Annette Klosa. Dann wurde versucht, einen ersten Modellierungsentwurf aus diesem Konzeptionspapier zu erarbeiten. Dieser Entwurf wurde daraufhin in Gesprächen zwischen dem thematisch Verantwortlichen und mir als DTD-Entwicklerin überarbeitet und immer weiter verfeinert, bis ein unserer Meinung nach erster fertiger Stand erreicht war. Zunächst wurde die Modellierung dann von dem thematisch Verantwortlichen getestet und ggf. von mir geändert. Daraufhin war die Modellierung allen Projektmitgliedern vorzustellen und möglichst auch von allen anhand verschiedener Artikel zu testen. Aus diesen Tests resultierten wiederum Änderungen, die einzuarbeiten waren. In dieser Weise wurde bei allen Themengebieten vorgegangen. Allgemeinere Teile der Inhaltsstruktur, die in allen Bereichen vorkommen wie Angabe V - Zusätze, 94 wurden von mir modelliert und in der Gruppe diskutiert. Auf diese 94 Der Ausdruck Angabe V steht für die Bezeichnung „Vor-Angabe“. Von Vor-Angaben wird deshalb gesprochen, da Angaben in der Theorie Wiegands wohlbestimmt sind, und zwar als funktionale Textsegmente, die aus einer Angabeform und wenigstens einen genuinen Modellierung im Projekt elexiko - ein Werkstattbericht 249 Weise entstand über einige Monate schließlich die Version des modellierten Inhaltsstrukturenprogramms, die bei der Erarbeitung des Demonstrationswortschatzes angewandt wurde. Bei der Artikelerarbeitung tauchten dann jedoch wiederum Änderungswünsche auf, die teilweise umgesetzt wurden, wenn sie keine große Überarbeitung bereits geschriebener Artikel verlangten. Dies lag zum einen daran, dass ein wirklicher Projektlauf naturgemäß mehr Phänomene zu Tage bringt als ein Testlauf, aber auch daran, dass - wie es in Projekten oft der Fall ist - vorher teilweise nicht so gründlich getestet wurde, wie es empfehlenswert gewesen wäre. Grundsätzlich kann dieses Vorgehen bei der Modellierungsentwicklung für eine lexikografische Datenbasis aber durchaus als praktikabel und sinnvoll gelten. 6.4 Skizze der technischen Redaktionsumgebung Die technische Redaktionsumgebung in elexiko ist folgendermaßen aufgebaut: Die Lexikografen erstellen ihre Artikel in einem XML-Editor, 95 durch den sie durch die XML-Struktur geführt werden (vgl. Abschnitt 5.6). Ist ein Artikel im XML-Editor validiert, wird er im objekt-relationalen Datenbank- Managementsystem Oracle 9i gespeichert. Alle weiteren redaktionellen Zugriffe der Lexikografen und Anfragen der Benutzer werden an die Datenbank gerichtet. Wird ein Artikel erneut von Lexikograf(inn)en überarbeitet, muss er aus der Datenbank ausgecheckt und erneut im XML-Editor bearbeitet werden. Abb. 39: Ausschnitt aus der elexiko-Verwaltung Zweck bestehen (Wiegand 1989a, S. 412). Die Einheiten in der Lexikografischen Datenbasis (Inhaltsstrukturen) bestehen jedoch nur aus einem genuinen Zweck und einer schriftlichen Realisierung, die jedoch nicht mit der Angabeform auf Präsentationsebene zu verwechseln ist (vgl. Abschnitt 5.4.1). 95 Im Moment setzen wir XMetaL ein; denkbar ist aber auch (fast) jeder andere XML -Editor. Der lexikografische Prozess 250 Auch für die Datenbank stellt die XML-Struktur die Modellierung dar, allerdings werden die Daten nicht so granular in einzelne Tabellenspalten abgelegt, wie es von der XML-Modellierung her möglich wäre. Aus Performanzgründen sind nur diejenigen Elemente in einzelne Tabellenspalten abgelegt, die für den direkten Zugriff durch potenzielle Benutzer beim momentanen Rechercheangebot notwendig sind. Die eigentlichen XML-Inhalte werden mit Hilfe eines speziellen Datentyps (XMLType) abgespeichert, welche XMLspezifische Operationen - beispielsweise unter Verwendung von XPath - unterstützt. Damit ist ein ‘hybrider Ansatz’ zur Speicherung der XML-Inhalte in der Datenbank verwirklicht (vgl. Abschnitt 5.1.3). Die Darstellung der Artikel im Internet erfolgt über XSLT-Stylesheets (vgl. Abschnitt 5.7). Durch die Modellierung von elexiko, die analog zum Modellierungskonzept inhaltlich granular und streng aufgebaut ist, werden die Lexikograf(inn)en wie in Abschnitt 5.6 beschrieben gut in der Einhaltung der formalen Artikelstruktur unterstützt. Doch auch hier zeigen sich in der lexikografischen Praxis immer wieder Aspekte, die von der technischen Untersützung her noch verbesserungswürdig sind. So können beispielsweise momentan keine Korrespondenzen zwischen verschiedenen Elementen während der Erarbeitung genutzt oder geprüft werden. Dies wäre in elexiko z.B. bei der semantischen Paraphrase hilfreich, da diese abhängig von der ausgewählten semantischsatzfunktionalen Klasse in bestimmter Weise formuliert werden soll (vgl. Storjohann 2005a). Somit wäre denkbar, dass in Abhängigkeit von der ausgewählten semantisch-satzfunktionalen Klasse im Feld für die semantische Paraphrase ein Formulierungs-Muster als Vorschlag erscheint. Solche Funktionalitäten, die über den Standard-Umfang eines XML-Editors hinausgehen, sind in elexiko bisher jedoch noch nicht programmiert worden. Perspektivisch wäre es daher für elexiko wünschenswert, ein umfassenderes Redaktionssystem zur Verfügung zu haben, um den gesamten Erstellungsprozess homogener zu gestalten. Von der technischen Umgebung her ist in elexiko daher noch einiges zu verbessern. 6.5 Die Modellierung des Inhaltsstrukturenprogramms 6.5.1 Grundsätzliche Aufteilung der DTDs Das Projekt elexiko soll, wie anfangs beschrieben wurde, ein allgemeines, einsprachiges Wortschatzinformationssystem werden, welches von der elexiko- Projektgruppe erarbeitet wird. Auf der anderen Seite ist elexiko in das ge- Modellierung im Projekt elexiko - ein Werkstattbericht 251 samte Online-Wortschatz-Informationssystem Deutsch eingebunden. OWID soll für andere Projekte der Abteilung Lexik des IDS, perspektivisch auch für Projekte außer Haus, die Möglichkeit bieten, sich in die Projektarchitektur von OWID integrieren zu können und so ihre Inhalte elektronisch im Internet darzustellen und recherchierbar zu machen. Die Modellierung für OWID muss daher zweierlei leisten: Auf der einen Seite muss sie für jedes Modul eine möglichst genaue, maßgescheiderte Modellierung bieten, die eine gezielte Recherche und flexible Darstellung der Daten erlaubt; auf der anderen Seite muss sie aber auch so ausgelegt sein, dass diese einzelnen Module möglichst gut integrativ in einer Oberfläche behandelt werden können. Demnach muss auch die Modellierung modular aufgebaut sein. Im gesamten DTD- System für OWID wird daher unterschieden in - Angaben V für alle Artikel in OWID, - Angaben V zum elexiko-Wörterbuch, - Angaben V zu weiteren Modulprojekten. Die DTDs für das elexiko-Wörterbuch haben dabei durch ihre Genese und ihren Umfang eine herausgehobene Stellung. Dabei ist anzustreben, dass das elexiko-Wörterbuch und die weiteren beteiligten Module eine möglichst große Schnittmenge von gleichen Angabe V -Arten haben, um möglichst viele gemeinsame Recherchemöglichkeiten entwickeln zu können. Dies hängt jedoch von der inhaltlichen Konzeption der jeweiligen Module ab. Für das Neologismen-Modul konnte eine sehr enge Verzahnung mit dem elexiko- Wörterbuch erreicht werden, da von Anfang an die Strukturierung der lexikografischen Daten abgestimmt wurde. Für andere Modulprojekte kann dies jedoch inhaltlich unangemessen sein, sodass nur eine geringe Menge gemeinsamer Zugriffsmöglichkeiten bereitgestellt werden kann. Dies gilt beispielsweise für das oben bereits genannte Modulprojekt Schulddiskurs, in dem die Artikel völlig anders aufgebaut sind als im elexiko-Wörterbuch und dementsprechend auch anders strukturiert werden. Bisher gibt es innerhalb des Online-Wortschatz-Informationssystems Deutsch DTDs für das elexiko-Wörterbuch, welche für den Demonstrationswortschatz und das Lexikon des öffentlichen Sprachgebrauchs angewandt werden; daneben modulspezifisch angepasste DTDs oder neue DTDs für verschiedene Modulprojekte bzw. -produkte. Grafisch kann das wie in Abbildung 40 gezeigt dargestellt werden. Der lexikografische Prozess 252 Abb. 40: Veranschaulichung der modularen Aufteilung von OWID Die DTD-Bibliothek für das gesamte Portal besteht aus zahlreichen Einzel- DTDs, damit gleiche Strukturphänomene nur einmal in XML modelliert werden müssen. Außerdem ermöglicht diese Aufteilung einen besseren Überblick über die gesamte Modellierung. Im Einzelnen besteht die DTD-Bibliothek aus folgenden Einzel-DTDs: - allg-elemente.dtd (modulübergreifende allgemeine Elemente und Attribute) - allg-entities.dtd (modulübergreifende allgemeine Entities) - elexikoBA-allgobj.dtd (allgemeine Objekte für zu bearbeitende EWL-Artikel im elexiko-Wörterbuch) - ewl_mwl-objekte.dtd (Elemente und Attribute für Einwortlemmata (= EWLs) und Mehrwortlemmata (= MWLs) im elexiko-Wörterbuch und im Neologismen-Wörterbuch) 96 - ewl-grammatik.dtd (modulübergreifende Elemente zur EWL-Grammatik) - ewl_objekte.dtd (modulübergreifende allgemeine Elemente zu Einwortlemmata) - mwl_objekte.dtd (modulübergreifende allgemeine Elemente zu Mehrwortlemmata) - neo-allgobj.dtd (allgemeine Objekte für das Neologismen-Wörterbuch) 96 Neben Einwort- und Mehrwortlemmata wie „toter Hund“ gibt es Wortelementlemmata wie „-lich“ oder „-heit“, die aber im Moment nicht Gegenstand der Bearbeitung sind. Modellierung im Projekt elexiko - ein Werkstattbericht 253 Für die einzelnen Projekte bzw. Produkte wurden Kopf-DTDs angelegt, die die jeweils relevanten Teile aus der DTD-Bibliothek zusammenführen. Dies sind im Moment: - elexiko AA -ewl.dtd (DTD für EWL-Artikel mit (semi-)automatisch erstellen Angaben zum elexiko-Wörterbuch) - elexiko BA -ewl.dtd (DTD für zu bearbeitende Artikel im elexiko- Wörterbuch) - mwl.dtd (DTD für Mehrwortlemmata) - neo-ewl.dtd (DTD für Einwortlemmata im Neologismen-Wörterbuch) - neo-mwl.dtd (DTD für Mehrwortlemmata im Neologismen-Wörterbuch) - wv.dtd (DTD für Wortverbindungen (Modulprojekt Usuelle Wortverbindungen)) - zeitreflexion1945-55.dtd (DTD für Artikel aus dem Modulprojekt Schulddiskurs 1945-55) Anfangs wurde - wie bereits ausgeführt - im Projekt elexiko versucht, die Bedürfnisse aller beteiligten Projekte in einer einzigen XML-Struktur abzubilden. Dies führte jedoch zu einer sehr weichen XML-Modellierung. Diese (neue) Aufgliederung der DTDs ist daher durch folgende Punkte motiviert: - Alles, was in einzelnen Modulen jetzt oder in Zukunft benötigt wird, kann nicht in einer Struktur abgebildet werden. Eine modulare Aufgliederung der DTDs ist daher sinnvoll. - Nur durch die modulare Aufgliederung können die DTDs für die jeweiligen Module als Strukturhilfe beim Erarbeiten der Artikel dienen und damit eine Konsistenzsicherung der Daten gewährleisten. Gerade diese Strukturhilfe und die konsistente Datenhaltung sind wichtige Vorteile des Einsatzes von XML im lexikografischen Prozess. 6.5.2 Grundstruktur eines Artikels im elexiko-Wörterbuch (bearbeitete Artikel) Die DTDs für das elexiko-Wörterbuch, die hier vor allem beschrieben werden sollen, sind aufgeteilt in DTDs für bearbeitete Artikel und DTDs für Artikel mit (semi-)automatisch erstellten Angaben. Dabei sollen im Folgenden die DTDs für bearbeitete Einwortlemma-Artikel im Zentrum der Erläuterung stehen. Der lexikografische Prozess 254 Die Struktur für Einwortlemmata ist unterteilt in lesartenübergreifende Angaben V wie Angaben V zum Lemmazeichen, zur Orthografie etc. und lesartenbezogene Angaben V vor allem zur Semantik, Verwendungsspezifik und Grammatik. Allgemeine Angaben V wie Kommentare und Hinweise, die in vielen Zusammenhängen eingesetzt werden, sind in einer DTD für „allgemeine Elemente“ bzw. für „allgemeine Entities“ zusammengefasst. Diese Aufteilung in mehrere DTDs ermöglicht einen besseren Überblick, da allein die elexiko-Kernstruktur für Einwortlemmata aus mehr als 400 Elementen und dazugehörigen Attributen besteht. Die einzelnen Bestandteile werden in einer Kopf-DTD für den Einwortlemma-Artikel über Entities zusammengeführt: <! -- ================= DTDs des elexiko-Portals ================== --> <! -- DTD fuer allgemeine Entities (moduluebergreifend) --> <! ENTITY % allg-entities.dtd SYSTEM "http: / / hypermedia.idsmannheim.de/ elexiko/ dtd/ allg-entities.dtd" > %allg-entities.dtd; <! -- DTD fuer allgemeine Elemente (moduluebergreifend) --> <! ENTITY % allg-elemente.dtd SYSTEM "http: / / hypermedia.idsmannheim.de/ elexiko/ dtd/ allg-elemente.dtd" > %allg-elemente.dtd; <! -- ========== DTDs fuer zu bearbeitende Artikel in elexiko ===== --> <! -- DTD fuer Elemente fuer Einwortlemmata (elexiko-Woerterbuch und Neologismen) --> <! ENTITY % elexikoBA-allgobj.dtd SYSTEM "http: / / hypermedia.idsmannheim.de/ elexiko/ dtd/ elexikoBA-allgobj.dtd" > %elexikoBA-allgobj.dtd; <! -- ======== DTDs fuer elexiko(BA) und Neologismen ============== --> <! -- DTD fuer Elemente fuer EWLs und MWLs in elexiko (BA) und im Neologismen-Modul --> <! ENTITY % ewl_mwl-objekte.dtd SYSTEM "http: / / hypermedia.idsmannheim.de/ elexiko/ dtd/ ewl_mwl-objekte.dtd" > %ewl_mwl-objekte.dtd; <! -- DTD fuer Elemente fuer Einwortlemmata (elexikoBA und Neologismen) --> <! ENTITY % ewl-objekte.dtd SYSTEM "http: / / hypermedia.idsmannheim.de/ elexiko/ dtd/ ewl-objekte.dtd" > %ewl-objekte.dtd; Modellierung im Projekt elexiko - ein Werkstattbericht 255 <! -- DTD fuer Elemente fuer Einwortlemmata-Grammatik (elexikoBA und Neologismen) --> <! ENTITY % ewl-grammatik.dtd SYSTEM "http: / / hypermedia.idsmannheim.de/ elexiko/ dtd/ ewl-grammatik.dtd" > %ewl-grammatik.dtd; Ein einzelner Einwortlemma-Artikel ( ewl-artikel ) besteht dabei zunächst aus lesartenübergreifenden ( ewl-allgemein ) und lesartenbezogenen Angaben V zu ein oder mehr Lesarten ( ewl-lesart ). <! -- ~~~~~~~~~~~~~~~~~~~ EWL-ARTIKEL ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ --> <! ELEMENT ewl-artikel (ewl-allgemein, ewl-lesart+) > <! ATTLIST ewl-artikel %id-i; %autor; %datum; > Die lesartenübergreifenden Angaben V bestehen aus Angaben V zum Lemma, zur Frequenz des beschriebenen Wortes, zur Orthografie, zur Morphologie, zur Diachronie, zu möglichen regionalen Markierungen und aus übergreifenden Informationen zu allen angesetzten Lesarten. 97 <! -- ~~~~~~~~~~~~~~~~~~~ EWL-ALLGEMEIN ~~~~~~~~~~~~~~~~~~~~~~~~~~~ --> <! ELEMENT ewl-allgemein (lemma, frequenz, orthografie, morphologie, diachronie? , reg-markierung, lesarten) > Dabei sind die Angaben V zum Lemma, zur Frequenz und zur Orthografie absolut obligatorisch, die Angaben V zur Diachronie fakultativ und die anderen Hauptelemente relativ obligatorisch. Die lesartenbezogenen Angaben V sind Angaben V zur Aussprache, zu möglichen Abkürzungen (wie „Prof“ für eine Lesart von „Professor“) und Abkürzungsauflösungen (wie „Europäische Union“ bei „EU“), wiederum zu möglichen regionalen Markierungen und zu Bedeutung, Verwendung und Grammatik. <! -- ~~~~~~~~~~~~~~~~~~~ EWL-LESART ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ --> <! ELEMENT ewl-lesart (aussprache, abk-abkaufloesung, reg-markierung, ewl-bedver, ewl-grammatik) > <! ATTLIST ewl-lesart %id-r; > 97 Die inhaltlichen Aspekte der einzelnen Angaben V werden in den verschiedenen Artikeln des Projekt-Sammelbandes (Haß (Hg.) 2005) erläutert. Der lexikografische Prozess 256 Das id -Attribut dient der eindeutigen Adressierbarkeit des Elements. Die Lesarten müssen über eigene IDs verfügen, da zum Beispiel die paradigmatischen Relationen lesartenbezogen vernetzt werden. An einem Synyonym wird daher beispielsweise die id der adressierten Lesart neben der id des ganzen Artikels eingetragen (vgl. 6.6.4). Außerdem läuft über die IDs der Lesarten, die die Form einer Kurzetikettierung haben, die Navigation zu den einzelnen Lesarten in einem Artikel. In Abbildung 41 sind diese Kurzetikettierungen aus dem Artikel „Dienst“ (in der Präsentationsansicht) zu sehen, über die man zu den einzelnen Lesarten gelangt. Abb. 41: Navigation über Lesarten-Kurzetikettierungen (hier im Artikel „Dienst“) Im entsprechenden Ausschnitt der XML-Instanz ist zu sehen, dass diese Kurzetikettierungen als id an der Lesart bzw. der Lesarten-Spezifizierung eingetragen sind: - Ausschnitt aus der XML-Instanz Dienst.xml ... <ewl-lesart id="berufliche Arbeit"> <lt-spezifizierung id="öffentliches Amt">...</ lt-spezifizierung> </ ewl-lesart> <ewl-lesart id="Stellung">...</ ewl-lesart> <ewl-lesart id="Organisationseinheit">...</ ewl-lesart> <ewl-lesart id="Hilfe">...</ ewl-lesart> ... Die id am ganzen Artikel muss dabei aus organisatorischen Gründen fakultativ gesetzt sein, da sie von der Datenbank automatisch vergeben wird und der Artikel vor dem Einchecken in die Datenbank im XML-Editor validiert werden muss. (Wäre das id -Attribut am ewl-artikel obligatorisch, würde der Artikel nicht erfolgreich vor dem Einchecken geparst werden können.) In Modellierung im Projekt elexiko - ein Werkstattbericht 257 den elexiko-DTDs gibt es daher zwei Entities für id -Attribute: eine ist obligatorisch und eine fakultativ gesetzt. Die id -Attribute sind als Entities definiert, da sie mehrfach eingesetzt werden. <! -- * ID * --> <! ENTITY % id-i "id CDATA #IMPLIED" > <! ENTITY % id-r "id CDATA #REQUIRED" > Die fakultativ gesetzte id am Einwortlemma-Artikel ist ein Beispiel für einen praktischen Kompromiss, der inhaltlich vom Modellierungsprinzip her eigentlich nicht sauber ist, da ein Artikel immer eine id haben muss; dieses „Muss“ jedoch nicht in der XML-Struktur abgebildet ist. Zurück zum weiteren Aufbau eines Einwortlemma-Artikels im elexiko- Wörterbuch: Unter Bedeutung und Verwendung finden sich die semantische Paraphrase, Angaben V zur Enzyklopädik, zu den Disambiguierungskriterien, zur Argumentstruktur, zur Paradigmatik, zu den typischen Verwendungen, zur Verwendungsspezifik und - falls vorhanden - zu Lesarten-Spezifizierungen. <! -- =================== EWL-BEDEUTUNG UND VERWENDUNG ============ --> <! ELEMENT ewl-bedver ((sem-paraphrase, enzyklopaedisches, disamb-kriterien, argumentstruktur, paradigmatik, typ-verwmuster, verwendungsspezifik, lt-spezifizierung*) | temp-leer) > Diese Lesarten-Spezifizierungen sind in elexiko kontextspezifisch eingeschränkte Unterbedeutungen. Ein Beispiel hierfür war im oben genannten Artikel „Dienst“ zu sehen (vgl. auch Haß 2005a). Sofern eine Lesarten- Spezifizierung ausgewählt wurde, ist absolut obligatorisch eine Paraphrase anzugeben; relativ obligatorisch sind Angaben V zur Argumentstruktur, zur Paradigmatik, zu typischen Verwendungsmustern und zur Verwendungsspezifik zu erarbeiten. <! -- ******************** Lesart-Spezifizierung ****************** --> <! ELEMENT lt-spezifizierung (ls-paraphrase, argumentstruktur, paradigmatik, typ-verwmuster, verwendungsspezifik) > <! ATTLIST lt-spezifizierung %id-r; > Der lexikografische Prozess 258 Die Grammatik ist im elexiko-Wörterbuch lesartenabhängig angelegt. Unter ewl-grammatik muss der Lexikograf dabei zunächst die Wortart des zu beschreibenden Stichwortes bestimmen. Unter den einzelnen Wortarten öffnen sich dann die Elemente für die entsprechenden Angabe V -Klassen (vgl. Klosa 2005b). <! -- =================== EWL-GRAMMATIK =========================== --> <! ELEMENT ewl-grammatik ((adjektiv | adverb | artikel | intereinheit | junktor | nomen | partikel | praeposition | pronomen | verb ) | temp-leer) > Wie bereits oben erwähnt wurde, gibt es neben dieser elexiko-Kernstruktur die angepasste Struktur für das Neologismen-Modul. Die Strukturen sind möglichst ähnlich aufgebaut worden, um viele gemeinsame Recherchemöglichkeiten entwickeln zu können. Eine modulspezifische Anforderung ist jedoch beispielsweise, dass unter den lesartenübergreifenden Angaben V bei den Neologismen auch eine klassifizierende Angabe V zum Neologismus zu machen ist: <! -- ~~~~~~~~~~~~~~~~~~~ EWL-ALLGEMEIN ~~~~~~~~~~~~~~~~~~~~~~~~~~~ --> <! ELEMENT ewl-allgemein (lemma, frequenz, neologismenKA, orthografie, morphologie, lesarten) > In dieser Angabe V wird über ein Attribut festgelegt, ob es sich beim Stichwort um ein Neulexem, einen Neuphraseologismus, eine Neubedeutung oder eine andere Kategorie handelt. Ein weiterer Unterschied ist z.B. auch, dass im Element ewl-grammatik für die Neologismen die Möglichkeit besteht, das Element keine-wortart auszuwählen. Dies war notwendig, da zu den Neologismen der 90er-Jahre (Herberg/ Kinne/ Steffens 2004) auch das Stichwort „@“ gehört. In dieser Weise können auch andere Module in das Gesamtsystem der XML-Strukturen von OWID integriert werden, auch wenn ihre Angaben V sich stärker von denen des elexiko-Wörterbuchs unterscheiden. Somit ist die Grundstruktur eines elexiko-Einwortlemma-Artikels und seine mögliche modulare Anpassung gezeigt. Da im Folgenden nicht die gesamte Inhaltsstruktur von elexiko näher erläutert werden kann, wird die Anwendung der in 5.4.3.1 und 5.4.3.2 entwickelten Leitsätze anhand ausgewählter Beispiele veranschaulicht. Die Leitsätze werden dabei der einfacheren Verständlichkeit halber erneut aufgeführt. Modellierung im Projekt elexiko - ein Werkstattbericht 259 6.5.3 Anwendung der Richtlinien zur Modellierung des Inhaltsstrukturenprogramms 6.5.3.1 Modellierung des hierarchischen Aufbaus des Inhaltsstrukturenprogramms Der erste Leitsatz zur Modellierung des hierarchischen Aufbaus des Inhaltsstrukturenprogramms bezieht sich auf die Benennung der nicht-terminalen Knoten: Leitsatz zur Benennung der nicht-terminalen Knoten des Inhaltsstrukturenprogramms Das Element E enthält weitere Angaben V zum Themengebiet x [aufgelöster Name des Elements]. x ist dabei so sprechend und genau wie möglich zu wählen. Dieser Leitsatz wurde in den elexiko-DTDs durchgehend angewandt. Von daher kann der gesamte hierarchische Aufbau der modellierten Inhaltsstruktur als Beispiel herangezogen werden. Unten ist zur Demonstration die Modellierung der Steigerungsformen für Adjektive und Adverbien aufgeführt. Diese Angabe V ist eine relativ obligatorische Angabe V , die entweder aus Angaben V zur Komparation, eventuell ergänzt durch einen Angabe V -Zusatz besteht, oder zu der keine-angabe gemacht werden kann. Wenn Steigerungsformen angegeben werden können, muss sowohl ein komparativ als auch ein superlativ angegeben werden; auch diese Formen können zusammen durch einen angabe-zusatz ergänzt werden, d.h. beispielsweise durch einen Kommentar, einen Hinweis oder durch Belege. <! --========================= Deklination =========================--> <! --========================= Steigerung ==========================--> <! ELEMENT steigerung ((komparation, angabe-zusatz? )| keine-angabe) > <! -- ===== Komparation =====--> <! ELEMENT komparation ((komparativ, superlativ), angabe-zusatz? ) > <! ATTLIST komparation %umlaut; ersatzformen (ja | nein) #REQUIRED > <! -- Angabe des Komparativs --> <! ELEMENT komparativ (%gramm-angabe; ) > <! -- Angabe des Superlativs --> <! ELEMENT superlativ (%gramm-angabe; ) > Der lexikografische Prozess 260 Die Entity gramm-angabe ist für Angaben V innerhalb der Grammatik eingesetzt, in denen schwankende Formen eingetragen werden können (vgl. 6.5.3.2.2). Der oben genannte Leitsatz ist in dieser Modellierung korrekt verwirklicht, denn setzt man dieses Beispiel in die Variablen des obigen Leitsatzes ein, enthält man folgende wahre Aussage: Das Element steigerung enthält weitere Angaben V zum Themengebiet „Steigerung“. Auch die Benennungen der Elemente sind so sprechend wie möglich. Der zweite Leitsatz beinhaltet eine Richtlinie zur Abbildung der Obligatorik der einzelnen Knoten: Leitsatz zur Abbildung der Obligatorik im Inhaltsstrukturenprogramm Bei jedem Knoten des Inhaltsstrukturenprogramms muss entschieden werden, ob es sich bei der Angabe V oder Angabe V -Gruppe um absolut obligatorische, relativ obligatorische oder fakultative Angaben V handelt. Absolut obligatorische Angaben V und relativ obligatorische Angaben V sind als obligatorisch zu modellieren (d.h. ohne Operator oder mit „+“- Operator). In relativ obligatorischen Angaben V muss ein Ausweichelement vorgesehen werden, sodass die Angabe V ausgewählt wird, aber ohne Inhalt bleiben kann. Fakultative Angaben V sind als fakultativ zu modellieren (d.h. mit „*“- oder „? “-Operator). Auch dieser Leitsatz wurde in den elexiko-DTDs durchgehend angewandt. Als ein Beispiel kann die Modellierung des Nomens innerhalb der Grammatik für Einwortlemmata aufgeführt werden: <! --========================= Nomen ===============================--> <! ELEMENT nomen (nm-deklination, nm-valenz, nm-artikelgebrauch, nm-wortbldgprod? ) > Innerhalb dieses Inhaltsmodells sind drei Elemente - nm-deklination , nm-valenz und nm-artikelgebrauch - als obligatorisch modelliert; sie sind daher entweder absolut obligatorisch oder relativ obligatorisch. Die Wortbildungsproduktivität ( nm-wortbldgprod ) ist im elexiko-Inhaltsstrukturenprogramm eine fakultative Angabe V und deshalb mit einem „? “-Operator versehen. Schaut man sich nun die Modellierungen der Unterelemente zum nomen an, ist zu erkennen, welchen Status diese hinsichtlich der Obligatorik haben: Modellierung im Projekt elexiko - ein Werkstattbericht 261 <! -- ===== Nomen: Deklination ===== --> <! ELEMENT nm-deklination ((sg-pl | singularetantum | pluraletantumA), angabe-zusatz? ) > <! --===== Nomen: Valenz =====--> <! ELEMENT nm-valenz ((nm-komplemente, angabe-zusatz? ) | keine-angabe) > <! --===== Nomen: Artikelgebrauch =====--> <! ELEMENT nm-artikelgebrauch (artikelgebrauchA | keine-angabe) > Die Deklinationsangaben V zum Nomen sind absolut obligatorisch, da zu jedem Nomen die Deklination angegeben werden kann und nach dem elexiko- Inhaltsstrukturenprogramm auch angeben werden soll. Deshalb gibt es hier kein Ausweichelement. Die Valenz und die Angaben V zum Artikelgebrauch sind dagegen relativ obligatorisch, da nicht alle Nomen Valenz haben und nur dann Angaben V zum Artikelgebrauch gemacht werden sollen, wenn der Artikelgebrauch eingeschränkt ist, d.h. Nomina immer ohne Artikel oder nur mit bestimmtem Artikel verbunden werden können (vgl. Klosa 2005b). In diesen Inhaltsmodellen gibt es daher das Ausweichelement keine-angabe . So wird (automatisch unterstützt) sichergestellt, dass diese Angaben V nicht vergessen werden; aber sie müssen auch nicht ausgefüllt werden, da dies nicht immer möglich ist. In der praktischen Anwendung der Leitsätze zur Modellierung des hierarchischen Aufbaus des Inhaltsstrukturenprogramms sind in elexiko somit insgesamt keine Schwierigkeiten aufgetreten. 6.5.3.2 Modellierung der terminalen Elemente 6.5.3.2.1 Unterscheidung in Angaben V , Kommentare und Hinweise In Abschnitt 5.4.3.2.1 wurde als Richtlinie formuliert, dass die terminalen Elemente eines Inhaltsstrukturenprogramms in Angaben V , Kommentare und Hinweise unterschieden werden sollen. Diese Differenzierung dient nicht nur einer klaren handlungsmotivierten Benennung, sondern auch einer entsprechenden Differenzierung der Typen von Inhaltsmodellen. Grundsätzlich wurde in elexiko versucht, diese Richtlinie durchgängig anzuwenden. Die terminalen Elemente werden unterschieden in Angaben V , Kommentare und Hinweise, wobei innerhalb eines Elementes, welches eine Der lexikografische Prozess 262 Angabe V ist, ausschließlich der Text steht, auf den der Rechner bei einer Recherche nach dieser Angabe V zugreift, d.h., innerhalb der Angabe V steht kein Kommentar o.Ä. Dieser ist der Angabe V als Angabe V -Zusatz zugeordnet. Angaben V sind damit die granular herauszugreifenden, rein inhaltlich ausgezeichneten Elemente in elexiko, auf denen eine gezielte formalisierte Recherche primär aufbaut. Für Hinweise und Kommentare (und ihre Unterelemente) wird dagegen als Elementinhalt eine freiere Textstruktur eingesetzt. Angaben V , Kommentare und Hinweise werden in den elexiko-DTDs entsprechend der Modellierungsrichtlinie jeweils mit einem „A“, „K“ und „H“ am Ende des Elementnamens gekennzeichnet. Diese strikte Unterscheidung in die drei Elementtypen wurde im Zuge der grundlegenden Überarbeitung der elexiko-DTDs eingeführt. Zwar gab es schon vorher Angaben V , Kommentare und Hinweise im elexiko-Inhaltsstrukturenprogramm, doch war diese Differenzierung nicht mit einer unterschiedlichen Modellierung der Typen von Inhaltsmodellen verbunden. Beispielsweise waren in Angaben V auch zahlreiche layoutorientierte Auszeichnungen möglich, wie die alte Modellierung der semantischen Paraphrase zeigt: <! --============= Semantische Paraphrase (altes Modell) ===========--> <! ELEMENT SemParA (#PCDATA | ExtA | ProtoA | emphasis | TXTobj | TermA | QuellenA | zyx | br | strong | sup | sub | itemizeList | orderList | termList | SimpleLink | AngabeZusatz)* > Ohne die einzelnen Elemente im Detail zu erläutern, ist auf einen Blick zu erkennen, dass Auszeichnungsmöglichkeiten wie emphasis oder strong nicht mit den Richtlinien einer inhaltsorientierten Datenauszeichnung in Einklang zu bringen sind. Die Konsequenz dieser Modellierung war beispielsweise, dass einige Lexikografen das Lemma in der Paraphrase hervorgehoben haben, 98 andere Mitarbeiter andersartige Inhalte mit dem gleichen Element ausgezeichnet haben. Die neue Modellierung der semantischen Paraphrase trennt dagegen die eigentliche Angabe V und Zusätze zu dieser Angabe V : 98 Die Paraphrasen haben im elexiko-Wörterbuch die Form wie: „Mit Dienst wird eine Handlung bezeichnet, bei der eine Person(engruppe), meist in Ausübung ihres Berufes, bestimmte Tätigkeiten verrichtet.“ (vgl. Storjohann 2005a). Das Lemmazeichen wird somit in der Paraphrase wiederholt, sodass eine Auszeichnung von objektsprachlichem Text möglich sein muss. Modellierung im Projekt elexiko - ein Werkstattbericht 263 <! -- ****************** Semantische Paraphrase ******************* --> <! ELEMENT sem-paraphrase (paraphraseA, definitionsbeleg? , illustration? , angabe-zusatz? ) > Innerhalb der Paraphrasen-Angabe V ist nur Fließtext und die Auszeichnung von objektsprachlichem Text für die Wiederholung des Lemmazeichens vorgesehen: <! --==================== Paraphrasen-Angabe =======================--> <! ELEMENT paraphraseA (#PCDATA | obj-text)* > Damit entspricht die aktuelle Elementdefinition den Richtlinien konzeptueller Inhaltsmodellierung. Das Element angabe-zusatz gruppiert Kommentare, Hinweise und Belege, die zu Angaben V gegeben werden können. <! --====================== Angabe-Zusatz ==========================--> <! ELEMENT angabe-zusatz (kommentar | hinweis | belege)+ > Eine Ausnahme von diesem Prinzip der strikten Trennung von Angaben V und Zusätzen zu Angaben V musste bei so genannten narrativen Angaben V gemacht werden. Diese kommen in elexiko-Wörterbuch vor allem innerhalb der Verwendungsspezifik (vgl. Haß 2005b) und innerhalb der Diachronie (vgl. Storjohann 2005b) vor. In diesen Angaben V muss es möglich sein, Belege in die Angabe V einzubauen, Absätze einzufügen etc. Mit diesem speziellen Inhaltsmodell soll der freieren Formulierbarkeit und dem möglichen Umfang dieser Angaben V Rechnung getragen werden. Für narrative Angaben V wurde daher eine eigene Entity angelegt, in der diese Möglichkeiten vorgesehen sind. Das Inhaltsmodell für solche Angaben V besteht aus beliebig vielen Angabe V -Absätzen: <! --===== Inhaltsmodell fuer narrative Angaben =====--> <! ENTITY % narr-angabe "a-absatz+"> In diesem Absatz-Modell für narrative Angaben V kann innerhalb des Fließtextes ein Beleg oder ein Kommentar eingefügt werden (unter angabezusatz ), es können Listenpunkte ausgezeichnet werden etc. <! --===== Angabe: Absatz =====--> <! ELEMENT a-absatz (#PCDATA | angabe-zusatz | liste | obj-text)* > Anders als im Absatzmodell für Kommentare sind hier jedoch keine Hervorhebungen möglich, sodass so weit wie möglich den Richtlinien einer inhalts- Der lexikografische Prozess 264 orientierten Datenauszeichnung entsprochen wird. Gerade bei diesem etwas flexibleren Inhaltsmodell ist es jedoch umso wichtiger, genau zu überprüfen, ob die verschiedenen Projektbeteiligten gleiche Phänomene auch gleich auszeichnen, d.h. ob die Auszeichnung der Daten konsistent erfolgt. 6.5.3.2.2 Modellierung von Angaben V Der erste Leitsatz zur Modellierung von Angaben V aus Abschnitt 5.4.3.2.2 wurde als der Regelfall angesetzt, wie als Angabe V gekennzeichnete Elemente in der hierarchischen Inhaltsstruktur zu modellieren sind. Erster Leitsatz zur Modellierung von Angaben V e [Elementinhalt von x] ist vom Lexikografen dazu angesetzt, damit ein potenzieller Benutzer sich Informationen zu x [aufgelöster Name des Elements] erschließen kann. Dieser Satz kann daher auch auf einen Großteil der mit „A“ gekennzeichneten Elemente im Inhaltsstrukturenprogramm des elexiko-Wörterbuchs angewandt werden. Ein Beispiel ist die Abkürzungs-Angabe V bzw. die Abkürzungsauflösungs-Angabe V innerhalb der lesartenbezogenen Angaben V . (Die Abkürzungen und Abkürzungsauflösungen werden in elexiko lesartenbezogen angegeben, da beispielsweise verschiedenen Lesarten von „Professor“ auch unterschiedliche Abkürzungen zugeordnet sind.) <! -- Abkuerzungsaufloesungs-Angabe --> <! ELEMENT abk-aufloesungA (#PCDATA) > 99 Im Artikel „EU“ sieht die entsprechende Datenauszeichung wie folgt aus: - Ausschnitt aus der XML-Instanz EU.xml ... <abk-aufloesungA>Europäische Union</ abk-aufloesungA> ... Setzt man dieses Beispiel in die obigen Variablen des Leitsatzes ein, ergibt sich folgende Aussage: „Europäische Union“ ist vom Lexikografen dazu angesetzt, damit ein potenzieller Benutzer sich Informationen zur „Abkürzungsauflösung“ erschließen kann. 99 Die zugehörigen Attribute zur Vernetzung sind hier weggelassen. Modellierung im Projekt elexiko - ein Werkstattbericht 265 Diese Aussage ist wahr; demgemäß entspricht die Modellierung der ersten Richtlinie zur Modellierung von Angaben V . Diese Richtlinie trifft wie gesagt auf den größten Teil der Angaben V im elexiko-Inhaltsstrukturenprogramm zu. Für den Fall, dass eine Angabe V allein über die Auswahl eines Elementes gemacht werden soll, wurde folgender Leitsatz formuliert: Zweiter Leitsatz zur Modellierung von Angaben V x [aufgelöster Name des Elements] ist vom Lexikografen dazu angesetzt, damit ein potenzieller Benutzer sich Informationen zu y [Name des übergeordneten Elements] erschließen kann. Diese Modellierungsrichtlinie wurde im elexiko-Wörterbuch beispielsweise für die Unterelemente der Verb-Subklasse ( vb-subklasse ), die verschiedenen Typen des Auxiliars ( auxiliar ) oder innerhalb der Angaben V zum Geltungsbereich von Adjektiven und Adverbien ( adverbialA , advattributivA ) angewandt. Als ein Beispiel kann ein Ausschnitt aus dem Artikel „international“ dienen, in dem Angaben V zum Geltungsbereich gemacht werden (vgl. auch Abschnitt 5.6). Dazu zunächst die Modellierung der entsprechenden Angaben V : <! -- === Adjektiv: syntaktischer Geltungsbereich === --> <! ELEMENT adj-geltbereich ((adj-attributivA | praedikativA | adverbialA)+, angabe-zusatz? ) > <! -- Angabe des syntaktischen Geltungsbereichs: Attributiv (Adjektiv) --> 100 <! ELEMENT adj-attributivA (angabe-zusatz? ) > <! ATTLIST adj-attributivA stellung (praenominal | postnominal | prae-post) #REQUIRED > <! -- Angabe des syntaktischen Geltungsbereichs: Adverbial --> <! ELEMENT adverbialA (angabe-zusatz? ) > <! -- Angabe des syntaktischer Geltungsbereichs: Praedikativ --> <! ELEMENT praedikativA (angabe-zusatz? ) > 100 Diese Angabe V ist mit dem Präfix adj- versehen, da es eine entsprechende, anders modellierte Angabe V für Adverbien ( adv-attributivA ) gibt. Der lexikografische Prozess 266 Alle Angaben V zum Geltungsbereich bestehen aus einem optionalen Angabe V -Zusatz. Dies widerspricht auf dem ersten Blick den Grundsätzen einer strengen Modellierung, da eben das gesamte Inhaltsmodell optional ist. Diese Modellierung ist in diesem Fall sinnvoll, da die eigentliche Angabe V schon über die Auswahl des Elements gemacht wird. Der Angabe V -Zusatz ist für die Fälle vorgesehen, in denen die Angaben V zum syntaktischen Geltungsbereich einzeln kommentiert oder belegt werden sollen. Die Adressierung dieser Angabe V -Zusätze ist durch diese Modellierung genau abzuleiten. Dem zweiten Leitsatz zur Modellierung von Angaben V entspricht dabei die Modellierung des Elementes adj-attributivA nicht, da hier der Angabe V noch ein Attribut hinzugefügt ist. Die anderen Unterelemente von adjgeltbereich sind jedoch entsprechend dem zweiten Leitsatz modelliert. Das Adjektiv „international“ hat in der Lesart ‘überstaatlich’ alle drei Geltungsbereiche. Der Ausschnitt aus der Instanz sieht daher folgendermaßen aus: - Ausschnitt aus der XML-Instanz international.xml ... <adj-syntax> <adj-geltbereich> <adj-attributivA stellung="praenominal"/ > <adverbialA> <angabe-zusatz><belege><ek-beleg><zeitung-beleg> <belegtextA>Wie von der Bundesregierung geplant und von Warschau nicht gewollt, verhandeln Kohl und Mazowiecki morgen parallel über den Grenzvertrag und die Rechte der Vertriebenen beides wird gekoppelt, obwohl Bonn <belegwortA>international</ belegwortA> zugesichert hat, die Grenze ohne Wenn und Aber anzuerkennen.</ belegtextA> <zt-belegnachweisA name="taz" datierung="07.11.1990">die tageszeitung, 07.11.1990, S. 4, Polen-Vertrag: Bonn setzt sich durch. </ zt-belegnachweisA> </ zeitung-beleg></ ek-beleg></ belege></ angabe-zusatz> </ adverbialA> <praedikativA> <angabe-zusatz><belege><ek-beleg><zeitung-beleg> <belegtextA>Und da im Internet nicht nach Nationalitäten unterschieden wird, könnte aus dem Netz-Dauer-TED eine Nationalhymne entstehen, die wahrhaft <belegwortA>international</ belegwortA> ist so wie ja einst Modellierung im Projekt elexiko - ein Werkstattbericht 267 die Internationale die sowjetische Hymne gewesen ist, bevor der Zweite Weltkrieg dazwischen kam.</ belegtextA> <zt-belegnachweisA name="BZ" ressort="Feuilleton" datierung= "23.11.2000"> Berliner Zeitung, 23.11.2000, Tagebuch, S. 13. </ zt-belegnachweisA> </ zeitung-beleg></ ek-beleg></ belege></ angabe-zusatz> </ praedikativA> </ adj-geltbereich> </ adj-syntax> ... Füllt man die Variablen des Leitsatzes mit diesem Beispiel, erhält man folgende Aussage: Die „Angabe des syntaktischen Geltungsbereichs: Adverbial“ ist vom Lexikografen dazu angesetzt, damit ein potenzieller Benutzer sich Informationen zum „syntaktischen Geltungsbereich“ erschließen kann. Wie an dieser wahren Aussage zu sehen ist, entspricht die Modellierung dem zweiten Leitsatz der Modellierung von Angaben V . Der dritte Leitsatz trifft auf Angaben V zu, in denen die Angabe V über ein Attribut gemacht wird. Dritter Leitsatz zur Modellierung von Angaben V „Der Wert a [Attributwert] ist vom Lexikografen deshalb ausgewählt, damit ein potenzieller Benutzer sich Informationen zu x [aufgelöster Name des Attributs] erschließen kann.“ In elexiko sind diese Art von Angaben V entweder leer, oder haben als Inhaltsmodell einen optionalen Angabe V -Zusatz, um - wie oben ausgeführt - Kommentierungen o.Ä. zu ermöglichen. Beispiele für so modellierte Angaben V aus dem elexiko-Wörterbuch sind Angaben V innerhalb der Grammatik wie die Genusangabe V ( genusA ), die Angabe V zur Derivationsfuge innerhalb der Wortbildung ( derivationsfugeA ), die Konzeptverschiebungsangabe V ( konzeptverschiebungA ) oder die Verwendungshäufigkeits- Angabe V ( verw-hkeitA ). Die Verwendungshäufigkeits-Angabe V wird für Angaben V innerhalb der Grammatik verwendet. Hier sehen die meisten Inhaltsmodelle so aus, dass ein oder mehr Formelemente und optional ein Angabe V -Zusatz auszuwählen sind. Dabei können - im Fall von konkurrierenden Der lexikografische Prozess 268 Formen - beide Formen zusammen im übergeordneten Element belegt oder kommentiert werden, wie auch die einzelne Form im Element form . Der Skopus der Angabe V -Zusätze ist somit aus der Modellierung genau abzuleiten. Im Inhaltsstrukturenprogramm für das elexiko-Wörterbuch ist außerdem festgelegt, dass schwankende Formen immer durch eine korpusgestützte Verwendungshäufigkeitsangabe V ergänzt werden müssen, um den potenziellen Benutzern einen fundierten Überblick zu der Frage zu geben, welche Form häufiger verwendet wird (vgl. Klosa 2005b). Da innerhalb der grammatischen Angaben V dieses Inhaltsmodell häufiger eingesetzt ist, wurde eine Entity hierfür modelliert: <! -- Inhaltsmodell fuer Angaben innerhalb der Grammatik --> <! ENTITY % gramm-angabe "form+, angabe-zusatz? " > Die Modellierung einer einzelnen Form sieht folgendermaßen aus: <! -- Form --> <! ELEMENT form (formA, verw-hkeitA? , angabe-zusatz? ) > Die Verwendungshäufigkeits-Angabe V wird über die Auswahl einer Attributliste gemacht: <! -- Verwendungshaeufigkeits-Angabe --> <! ELEMENT verw-hkeitA EMPTY > <! ATTLIST verw-hkeitA verwendung (fast-immer | meist | oft | genauso | auch | manchmal | selten) #REQUIRED > Zur Auswahl der Attributwerte der Verwendungshäufigkeitsangabe V müssen sich die Lexikografen an folgende Tabelle halten (vgl. Klosa 2005c): - „fast immer“ für 90% der Belege zu dieser Form im elexiko-Korpus - „meist“ für 70% bis unter 90% der Belege zu dieser Form im elexiko- Korpus - „genauso“ für genau 50% der Belege zu dieser Form im elexiko-Korpus - „oft“ für 50% bis unter 70% der Belege zu dieser Form im elexiko- Korpus - „auch“ für 30% bis unter 50% der Belege zu dieser Form im elexiko- Korpus - „manchmal“ für 10% bis unter 30% der Belege zu dieser Form im elexiko-Korpus - „selten“ für unter 10% der Belege zu dieser Form im elexiko-Korpus Modellierung im Projekt elexiko - ein Werkstattbericht 269 Ein Beispiel für schwankende Formen ist die Angabe V des Genitiv Singulars zu „Ausland“: - Ausschnitt aus der XML-Instanz Ausland.xml ... <gen-sg> <form> <formA elexiko-korpus="ja">Auslands</ formA><verw-hkeitA verwendung="meist"/ > </ form> <form> <formA elexiko-korpus="ja">Auslandes</ formA><verw-hkeitA verwendung="auch"/ > </ form> </ gen-sg> ... Diese Modellierung von grammatischen Angaben V kann allerdings auch als ein Beispiel dafür dienen, dass in der Praxis den entwickelten Richtlinien nicht immer so strikt wie gewünscht zu gehorchen ist. Denn ein wichtiger Grundsatz des hier entwickelten Modellierungskonzeptes ist es, dass die formale Artikelstruktur so genau wie möglich in den DTDs festgelegt werden soll. Wie eben ausgeführt wurde, sieht das Inhaltsstrukturenprogramm von elexiko bei schwankenden Formen innerhalb der Grammatik vor, dass diese konkurrierenden Formen durch eine Verwendungshäufigkeits- Angabe V ergänzt werden müssen. Diese Wenn-Dann-Beziehung ist in der Modellierung jedoch nicht abgebildet; die Angabe V zur Verwendungshäufigkeit ist grundsätzlich optional. Der Grund dafür ist, dass sowohl die Abbildung dieser Wenn-Dann-Beziehung, als auch die genaue Adressierbarkeit der Angabe V -Zusätze allein schon zu einem komplexen Inhaltsmodell führt, und auf der anderen Seite dieses Inhaltsmodell auch für nicht schwankende Formen anwendbar sein soll, da in den meisten Fällen keine konkurrierenden Formen einzutragen sind. So ist allerdings die Einhaltung der formalen Artikelstruktur - im Fall von schwankenden Formen - nicht automatisch unterstützt zu prüfen, was in der lexikografischen Praxis von elexiko tatsächlich zu Problemen führt. Eine automatisch unterstützte Prüfung der formalen Artikelstruktur ist daher - wo immer es möglich ist - redaktionellen Festlegungen vorzuziehen. Der lexikografische Prozess 270 Der vierte Leitsatz zur Modellierung von Angaben V ist für kategorisierende Angaben V anzuwenden. Vierter Leitsatz zur Modellierung von Angaben V Das Element E ist vom Lexikografen dazu angesetzt, damit ein potenzieller Benutzer sich Informationen zu x [aufgelöster Name des Elements, dass mit „KA“ gekennzeichnet ist] erschließen kann. x hat den Untertyp z1 [aufgelöster Name des ersten direkten Kindelements], den Untertyp z2 [aufgelöster Name des nächsten Kindelements] usw. Solche kategorisierenden Angaben V sind im elexiko-Wörterbuch die Einordnung in eine semantisch-satzfunktionale Klasse ( sem-satzfunktklasseKA ) bzw. in eine syntaktisch satzfunktionale Klasse ( synt-satzfunktklasseKA ). Im Neologismen-Modul kommt die kategorisierende Einordnung zu einem Lehntyp ( lehntypKA ) innerhalb der Angaben V zur Entlehnung eines Lexems hinzu. Für alle diese Elemente gilt, dass die Unterelemente der kategorisierenden Angabe V leere Elemente sind, die höchstens noch durch Attribute ergänzt werden. Als Beispiel soll hier die Angabe V zur semantisch-satzfunktionalen Klasse dienen: <! -- * Semantische satzfunktionale Klasse (kategorisierende Angabe) * --> <! ELEMENT sem-satzfunktklasseKA (praedikator | quantor | referenzwort) > Alle Unterelemente hierzu aufzulisten, würde in diesem Zusammenhang zu weit führen. Stattdessen ist in einer Instanz - wie hier im Artikel „Aids“ - zu sehen, dass die Angabe V der Klasse allein über die Auswahl der Unterelemente gemacht wird: - Ausschnitt aus der XML-Instanz Aids.xml ... <sem-satzfunktklasseKA> <praedikator><gattung-praed><individuativum/ ></ gattungpraed></ praedikator> </ sem-satzfunktklasseKA> ... Setzt man dieses Beispiel in die Variablen des obigen Leitsatzes ein, erhält man die folgende wahre Aussage: Modellierung im Projekt elexiko - ein Werkstattbericht 271 Das Element „sem-satzfunktklasseKA“ ist vom Lexikografen dazu angesetzt, damit ein potenzieller Benutzer sich Informationen zur „semantischsatzfunktionalen Klasse“ erschließen kann. „sem-satzfunktklasseKA“ hat den Untertyp „Prädikator“, den Untertyp „Quantor“ usw. Demnach entspricht die Modellierung der oben genannten Richtlinie. Die Anwendung der Leitsätze zur Modellierung von Angaben V in elexiko ist damit vorgestellt. Dabei gibt es wie beschrieben durchaus Fälle, in denen aus praktischen Gründen von den Modellierungsregeln abgewichen werden muss. Außerdem werden generell in der lexikografischen Praxis immer wieder Fälle auftauchen, die von den Leitsätzen noch nicht abgedeckt sind. Da den Richtlinien jedoch bestimmte grundlegende Modellierungsprinzipien zu Grunde liegen, können sie in diesem Sinne immer weiter ergänzt und verfeinert werden. 6.5.3.2.3 Modellierung von Kommentaren Der Leitsatz zur Modellierung von Kommentaren aus Abschnitt 5.4.3.2.3 lautet: Leitsatz zur Modellierung von Kommentaren x [aufgelöster Name des Elements, welches mit „K“ gekennzeichnet ist] ist vom Lexikografen dazu angesetzt, um für einen potenziellen Benutzer den Inhalt von E [Elementname der ersten Konstituente(n) des gemeinsamen Klammerelements] zu kommentieren. Dieser Richtlinie wurde in den elexiko-DTDs entsprochen. So wird in der Modellierung zwischen Hinweisen und Kommentaren unterschieden. Für die Lexikografen gilt dabei als Leitlinie, dass durch Kommentare direkt Angaben V kommentiert werden und dass in Hinweisen über eine Angabe V hinaus auf ein bestimmtes Phänomen, einen anderen Text etc. hingewiesen wird. Dabei sind innerhalb von Kommentaren auch Hinweise auszuzeichnen, wenn beispielsweise auf Sekundärliteratur verwiesen wird. Dies funktioniert in der lexikografischen Praxis von elexiko gut; laut einhelliger Meinung des Projektteams fällt die Abgrenzung zwischen Hinweisen und Kommentaren nicht schwer. Kommentare werden darüber hinaus nach dem elexiko- Inhaltsstrukturenprogramm momentan in drei Typen unterteilt: In einen lexikografischen Interpretationskommentar ( lex-interpretationK ), einen Der lexikografische Prozess 272 lexikografischen Begründungskommentar ( lex-begruendungK ) und in einen internen Kommentar ( internerK ). Der interne Kommentar wird - wie der Name schon vermuten lässt - auf Präsentationsebene nicht dargestellt, sondern dient allein projektinterner Kommentierung. Ein Kommentar ist in elexiko immer einem dieser drei Typen zuzuordnen. Dabei ist bisher vorwiegend der lexikografische Interpretationskommentar verwendet worden, da bei einem strikt korpusbasierten Wortschatzinformationssystem wie elexiko das Bedürfnis einer gesonderten Begründung bestimmter Angaben V eher selten ist. <! --======================== Kommentare ===========================--> <! ELEMENT kommentar (lex-interpretationK |lex-begruendungK | internerK)+ > <! --===== lexikografischer Interpretationskommentar =====--> <! ELEMENT lex-interpretationK (k-absatz+) > <! --===== lexikografischer Begruendungskommentar =====--> <! ELEMENT lex-begruendungK (k-absatz+) > <! --===== interner Kommentar =====--> <! ELEMENT internerK (k-absatz+) > Das Absatzmodell für Kommentare sieht folgendermaßen aus: <! --===== Kommentar: Absatz =====--> <! ELEMENT k-absatz (#PCDATA | belege | hervorhebung | hinweis | liste | obj-text)* > Neben Fließtext können in Kommentaren also Belege oder Hinweise eingebunden werden, Hervorhebungen gemacht werden etc. So bieten die Kommentare die Möglichkeit, einen Vorteil des elektronischen Mediums - die fehlende Platzbeschränkung - umfassend zu nutzen. Sollten die elexiko- Daten einmal gedruckt werden, könnten diese Kommentare unterdrückt werden. Auch jetzt sind die Kommentare in der elektronischen Präsentation - wie auch die Belege - nicht direkt zu sehen, sondern können über einen Mausklick von den Benutzern aufgerufen werden. Dies dient einer besseren Übersichtlichkeit. Als ein Beispiel für einen Kommentar ist hier ein lexikografischer Interpretationskommentar zur semantischen Paraphrase aus dem Artikel „Dienst“ in der Lesart ‘Organisationseinheit’ zu sehen: Modellierung im Projekt elexiko - ein Werkstattbericht 273 - Ausschnitt aus der XML-Instanz Dienst.xml ... <sem-paraphrase> <paraphraseA>Mit <obj-text>Dienst</ obj-text> bezieht man sich auf eine Gesamtheit von Personen, die bestimmte Tätigkeiten zu verrichten haben. Diese Personen bilden eine Organisationseinheit.</ paraphraseA> <angabe-zusatz> <kommentar> <lex-interpretationK> <k-absatz>In den Texten des elexiko-Korpus tritt die Tatsache, dass eine Gruppe von Personen mit den gleichen Aufgaben innerhalb eines Dienstes tätig ist, meist zurück gegenüber dem Aspekt, dass es sich bei den thematisierten Diensten um Organisationseinheiten handelt. </ k-absatz> </ lex-interpretationK> </ kommentar> ... </ sem-paraphrase> ... Setzt man dieses Beispiel in die Variablen des obigen Leitsatzes ein, erhält man die folgende wahre Aussage: Der „lexikografische Interpretations-Kommentar“ ist vom Lexikografen dazu angesetzt, um für einen potenziellen Benutzer den Inhalt der „semantischen Paraphrase“ zu kommentieren. Demnach entspricht die Modellierung der oben genannten Richtlinie. 6.5.3.2.4 Modellierung von Hinweisen Korrespondierend zum Leitsatz zur Modellierung von Kommentaren wurde auch eine Richtlinie zur Modellierung von Hinweisen entwickelt: Leitsatz zur Modellierung von Hinweisen x [aufgelöster Name des Elements, welches mit „H“ gekennzeichnet ist] ist vom Lexikografen dazu angesetzt, um potenzielle Benutzer auf weitere, nicht im Artikel enthaltene, Informationen hinzuweisen. Der lexikografische Prozess 274 Auch dieser Leitsatz wurde in der Modellierung des Inhaltsstrukturenprogramms von elexiko angewandt. Dabei gibt es fünf Arten von Hinweisen: <! --======================== Hinweise =============================--> <! ELEMENT hinweis (verwendungH | sprachreflexionH | grammisH | literaturH | woerterbuchH)+ > Diese Hinweise können in zwei Gruppen unterteilt werden: Der Verwendungshinweis ( verwendungH ) und der Sprachreflexionshinweis ( sprachreflexionH ) sind umfangreichere Hinweise, die ihrerseits auch die weiteren verschiedenen Hinweise auf Literatur u.Ä. enthalten und die durch Absätze unterteilt werden können. Außerdem enthält der Verwendungs- Hinweis die Möglichkeit, regionale Markierungen auszuzeichnen; das sind in elexiko Angaben V zu nationalen Varianten oder zur regionalen Spezifik. Diese beiden Hinweistypen bestehen daher von der Modellierung her jeweils aus eigenen Absatztypen: <! -- ===== Verwendungs-Hinweis ===== --> <! ELEMENT verwendungH (vh-absatz+) > <! --===== Verwendungshinweis: Absatz =====--> <! ELEMENT vh-absatz (#PCDATA | belege | grammisH | literaturH | woerterbuchH | zeitA | reg-markierung | obj-text)* > <! -- ===== Sprachreflexions-Hinweis ===== --> <! ELEMENT sprachreflexionH (sh-absatz+) > <! --===== Sprachreflexionshinweis: Absatz =====--> <! ELEMENT sh-absatz (#PCDATA | belege | grammisH | literaturH | woerterbuchH | obj-text)* > Die anderen drei Hinweise - Grammishinweis ( grammisH ), 101 Hinweis auf Sekundärliteratur ( literaturH ) und auf Wörterbücher ( woerterbuchH ) - bestehen aus Fließtext, der Möglichkeit, ein Zitat auszuzeichnen und einer Quellen-Angabe V : 101 Grammis ist ein multimediales elektronisch vernetztes Informationssystem zur deutschen Grammatik und auch ein Projekt des IDS . Für weiterführende Informationen siehe www. ids-mannheim.de/ gra/ grammis.html (Stand: April 2007). Modellierung im Projekt elexiko - ein Werkstattbericht 275 <! -- ===== Grammis-Hinweis ===== --> <! ELEMENT grammisH (%hinweistext; )* > <! -- ===== Literatur-Hinweis ===== --> <! ELEMENT literaturH (%hinweistext; )* > <! -- ===== Woerterbuch-Hinweis ===== --> <! ELEMENT woerterbuchH (%hinweistext; )* > Für das Inhaltsmodell dieser drei Hinweise wurde die Entity hinweistext angelegt. <! --===== Inhaltsmodell fuer Hinweise =====--> <! ENTITY % hinweistext "#PCDATA | quellenA | zitat | obj-text"> Diese Unterscheidung in einzelne Arten von Hinweisen und Kommentaren fördert nach der Projekterfahrung von elexiko neben der strikt inhaltsorientierten Modellierung die Reflexion beim Schreiben der Artikel seitens der Lexikografen. Denn so muss immer klar Stellung dazu genommen werden, welche Art von Hinweis oder Kommentar einer Angabe V hinzugefügt werden soll. In diesem Sinne gehört eine Modellierung in der Art, wie sie für elexiko entwickelt wurde, auch zur selbstreflexiven Komponente der Lexikografie als einer eigenständigen, kulturellen Praxis (vgl. Wiegand 1998a, S. 77). Obwohl die verschiedenen Arten von Kommentaren auf Präsentationsebene nicht unterschieden werden, schätzen die Lexikografen daher mittlerweile diese Modellierung allein für die Datenerarbeitung. Als ein Beispiel kann hier wiederum ein Auszug aus dem Artikel „Dienst“ dienen, in dem die Angaben V zur Pluralbildung durch einen Sprachreflexions-Hinweis ergänzt wurden. - Ausschnitt aus der XML-Instanz Dienst.xml ... <nm-pluralbildung> <nm-nom-pl umlaut="nein"> <form><formA elexiko-korpus="ja">Dienste</ formA></ form> <angabe-zusatz> <hinweis> <sprachreflexionH> <sh-absatz>Der Plural gilt manchmal als ungebräuchlich. Der lexikografische Prozess 276 <literaturH><quellenA>Wörterbuch der Sprachschwierigkeiten. Zweifelsfälle, Normen und Varianten im gegenwärtigen deutschen Sprachgebrauch. Hrsg. von J. Dückert und G. Kempcke. VEB Bibliographisches Institut: 3.,durchgesehene Auflage Leipzig 1989, S. 125.</ quellenA></ literaturH></ sh-absatz> </ sprachreflexionH> </ hinweis> </ angabe-zusatz> </ nm-nom-pl> </ nm-pluralbildung> ... Setzt man dieses Beispiel in die Variablen des obigen Leitsatzes ein, erhält man die folgende wahre Aussage: Der „Sprachreflexions-Hinweis“ ist vom Lexikografen dazu angesetzt, um potenzielle Benutzer auf weitere, nicht im Artikel enthaltene, Informationen hinzuweisen. Demnach entspricht die Modellierung der oben genannten Richtlinie. 6.6 Modellierung des Vernetzungsstrukturenprogramms In Abschnitt 5.5 wurde herausgearbeitet, dass nur die Daten zur Trägermenge der Vernetzungsstrukturen gehören, die auch explizit als Vernetzungen modelliert sind, d.h., in denen eine elektronisch adressierte Quellressource mit einer elektronisch adressierten Zielressource verbunden wird. Obwohl beispielsweise also die eben vorgestellten Hinweisarten auf Ebene der Präsentation größtenteils (in der Terminologie der Printlexikografie gesprochen) zur Trägermenge der Mediostrukturen gehören, sind sie nicht den Vernetzungsstrukturen zuzurechnen. Generell sind die Vernetzungen in elexiko erst in der ersten Stufe modelliert. D.h., bisher gibt es nur - in maßgeschneidertem XML definierte - vernetzungsrelevante Angaben V (zu diesem Terminus vgl. Abschnitt 5.5). Der Einsatz XLink-spezifischen Vokabulars und der Aufbau einer Linkbank sind in nächster Zukunft geplant; der entsprechende Modellierungsentwurf liegt vor. Bisher war jedoch weder personelle noch finanzielle Kapazität vorhanden, um den Aufbau und die Nutzung einer Linkbank softwaretechnisch zu unterstützen. Im Folgenden soll daher zunächst der Ist-Zustand (Stand: Frühjahr 2006) beschrieben werden, um dann die perspektivische Modellierung der Vernetzungsstrukturen in elexiko zu beschreiben. Modellierung im Projekt elexiko - ein Werkstattbericht 277 Im Bereich der (inhaltlich) unidirektionalen Vernetzungen gibt es in elexiko momentan nur die Einbindung von Illustrationen als mögliche Ergänzung zur semantischen Paraphrase (vgl. Müller-Spitzer 2005b). Im Neologismen- Modul werden auf die gleiche Art Ausspracheangaben in Formen von Bildern eingezogen. Diese Vernetzung ist von der Lokalität der Zielressource her gesehen eine Datenbasis-interne Vernetzung. Eine weitere unidirektionale Vernetzung, die in jedem (nicht bearbeiteten Artikel) vorkommt, ist eine Vernetzung zu canoo.net , 102 über die weitere grammatische Informationen (z.B. Angabe der Wortart oder Flexionstabellen) des ausgewählten Stichwortes aufgerufen werden können. Diese Datenbasis-externe Verknüpfung wird allerdings über automatische Prozeduren auf Präsentationsebene erzeugt und spielt daher bei der Modellierung der Vernetzungsstrukturen keine Rolle. Eine Vernetzung aus den bearbeiteten Artikeln zu Korpusbelegen, die auch unidirektional wäre, ist in elexiko noch nicht realisiert. Hier besteht noch Klärungsbedarf zum einen hinsichtlich der Nutzungsrechte der Korpora (im elexiko-Korpus sind teilweise Texte enthalten, die außerhalb des IDS nicht genutzt werden dürfen), zum anderen wurde noch keine Verknüpfungsprozedur entwickelt, die die statischen Belege mit dem dynamisch sich verändernden Korpus unkompliziert verbinden kann. Die Verknüpfung zu einer Illustration ist in maßgeschneidertem XML definiert: <! -- Illustration --> <! ELEMENT illustration EMPTY > <! ATTLIST illustration dateiname CDATA #REQUIRED > Über das Attribut dateiname findet die Vernetzung mit der Illustrationsdatei statt, die in der lexikografischen Datenbasis abgelegt ist. Auf Präsentationsebene kann diese Verknüpfung seitens der Benutzer durch einen Mausklick aktiviert werden. Perspektivisch wäre auch denkbar, dass die Illustrationen direkt eingebettet werden, sodass keine Aktion seitens der Benutzer erforderlich ist. Ein Beispiel, in dem die Paraphrase durch Illustrationen ergänzt wurde, ist der Artikel „Kathedrale“. Hier zunächst der entsprechende Ausschnitt der XML-Instanz: 102 Dieser Online-Service von Canoo entstand in Kooperation zwischen der Universität Basel, der Vrije Universiteit Amstanderdam, des IDSIA Lugano (Istituto Dalle Molle di Studi sull'Intelligenza Artificiale) und der Canoo Engineering AG . Zu weiteren Informationen siehe www.canoo.net (Stand: April 2007). Der lexikografische Prozess 278 - Ausschnitt aus der XML-Instanz Kathedrale.xml ... <sem-paraphrase> <paraphraseA>Mit <obj-text>Kathedrale</ obj-text> wird (vor allem mit Bezug auf Frankreich, Spanien, England und der Schweiz) die meist mittelalterliche, große Kirche eines Bischofssitzes bezeichnet. </ paraphraseA> <illustration dateiname="Kathedrale.jpg"/ > <angabe-zusatz> ... </ angabe-zusatz> </ sem-paraphrase> ... Auf Ebene der Präsentation werden die Illustrationen momentan wie in Abbildung 42 gezeigt dargestellt. Abb. 42: Illustrationen zu „Kathedrale“ in der Lesart ‘Bischofskirche’ Bei den perspektivisch als bidirektional zu modellierenden Vernetzungen handelt es sich in elexiko bisher ausschließlich um Inhaltsstrukturen-interne Vernetzungen. Im Bereich der einzelbedeutungsübergreifenden Angaben V werden Vernetzungen zwischen Artikeln, die auch explizit als solche model- Modellierung im Projekt elexiko - ein Werkstattbericht 279 liert sind, vor allem über Angaben V innerhalb der Wortbildung hergestellt (vgl. Klosa 2005a). Dementsprechend finden sich vernetzungsrelevante Angaben V in ewl-allgemein vor allem innerhalb der Unterelemente von wortbildung . Hier werden die einzelnen Wortbildungsbestandteile möglichst lesartenbezogen mit den zugehörigen Artikeln vernetzt. Lesartenbezogen können die Vernetzungen aber nur dann realisiert werden, wenn der Zielartikel bereits bearbeitet ist. Ansonsten wird die id des gesamten Artikels als Zielressource angegeben. Dementsprechend gibt es drei Attribute, die als vernetzungsrelevante Angaben V dienen. Diese Attribute sind als Entities definiert, da sie in den elexiko-DTDs mehrfach verwendet sind. Hier zunächst die Entity für das Attribut, welches auf die id des gesamten Artikels weist: <! -- * Verweis auf einen Artikel * --> <! ENTITY % artikel-refid "artikel-refid CDATA #REQUIRED" > Soll die Vernetzung lesartenbezogen erfolgen, muss zunächst auch auf den gesamten Artikel verwiesen werden, zusätzlich auf die id der Lesart. Dabei besteht die id der Lesart aus einer Kurzetikettierung (vgl. Abschnitt 6.5.2). Wenn unterhalb der Ebene der Lesarten außerdem noch Lesarten-Spezifizierungen angelegt wurden, kann die Vernetzung auch auf die id einer Lesarten-Spezifizierung zielen. Dementsprechend sind die vernetzungsrelevanten Angaben V für lesartenbezogene Vernetzungen die Attribute artikel-refid , lesart-refid und ltspez-refid . Alle Attribute sind obligatorisch gesetzt, damit sie, wenn die Vernetzung bei einer Angabe V grundsätzlich lesartenbezogen erfolgen soll, nicht vergessen werden können. Die redaktionelle Richtlinie sieht dabei vor, dass bei Zielartikeln, die noch nicht bearbeitet sind, in die nicht auszufüllenden Attribute eine „0“ eingetragen wird. Darüber hinaus wurde festgelegt, dass, wenn die Zielressource ein Wortelement- Artikel ist, die Zeichenfolge „wel“ für „Wortelementlemma“ einzutragen ist, bei Wortverbindungen die Zeichenfolge „uwv“ für „Usuelle Wortverbindung“. Denn bisher werden diese Lemmazeichentypen innerhalb von elexiko kaum bearbeitet und sind vor allem nicht Teil der Lemmaliste, sodass keine IDs der Zielartikel vorhanden sind. Durch diese redaktionelle Richtlinie wird jedoch sichergestellt, dass alle Vernetzungen, die auf diese Lemmazeichentypen zielen, eindeutig kenntlich gemacht sind. <! -- * Verweis auf eine Lesart * --> <! ENTITY % lesart-refid "%artikel-refid; lesart-refid CDATA #REQUIRED ltspez-refid CDATA #REQUIRED" > Der lexikografische Prozess 280 Als ein Beispiel für einzelbedeutungsübergreifende vernetzungsrelevante Angaben V können die Angaben V zur Gebildetheit von „immobilisieren“ dienen: - Ausschnitt aus der XML-Instanz immobilisieren.xml ... <wortbildung> <vb-wortbildung> <ableitung> <expl-derivation> <exd-basisA basistyp="adjektiv" vokalalternation="nein" tilgung="keine" artikel-refid="268442" lesart-refid="unbeweglich" ltspez-refid="0">immobil</ exd-basisA> <suffixA artikel-refid="wel">-isieren</ suffixA> </ expl-derivation> </ ableitung> <vb-wortblgbedeutungA bezeichnung="keine"> </ vb-wortblgbedeutungA> </ vb-wortbildung> </ wortbildung> ... Die Basis der Ableitung innerhalb dieser expliziten Derivation ist „immobil“. Die Bildung geht dabei auf die Lesart ‘unbeweglich’ von „immobil“ zurück. Dementsprechend ist in der artikel-refid zunächst die numerische id des Artikels „immobil“ - 268442 - eingetragen und im Attribut lesart-refid die Etikettierung „unbeweglich“. Eine Lesarten-Spezifizierung liegt hier nicht vor, sodass im Attribut ltspez-refid der Wert „0“ steht. Innerhalb der einzelbedeutungsbezogenen Angaben V werden Vernetzungen zwischen Teilen von Artikeln vor allem über die Angabe V paradigmatischer Partner hergestellt. Diese Vernetzungen erfolgen auf Ebene der Lesarten bzw. Lesarten-Spezifizierungen, soweit das vom Stand der Artikelbearbeitung möglich ist. Die Modellierung der Relationspartner-Angabe V sieht dabei folgendermaßen aus: <! -- Angabe eines einzelnen Relationspartners --> <! ELEMENT relpartnerA (#PCDATA) > <! ATTLIST relpartnerA %lesart-refid; > Modellierung im Projekt elexiko - ein Werkstattbericht 281 Durch die Entity %lesart-refid ; werden die drei oben gezeigten Attribute für lesartenbezogene Vernetzungen aufgerufen. Ein Beispiel für eine solche Vernetzung ist die Lesart ‘fordern’ im Artikel „abverlangen“, in dem „fordern“ in der Lesart ‘beanspruchen’ als Synonym angegeben ist: - Ausschnitt aus der XML-Instanz abverlangen.xml ... <synonymie> <relpartner> <relpartnerA artikel-refid="123819" lesart-refid="beanspruchen" ltspez-refid="0">fordern</ relpartnerA> <angabe-zusatz> <belege>...</ belege> </ angabe-zusatz> </ relpartner> ... </ synonymie> ... Genauso ist im Artikel „fordern“ in der entsprechenden Lesart der Teil des Artikels von „abverlangen“ adressiert: - Ausschnitt aus der XML-Instanz fordern.xml ... <synonymie> <relpartner> <relpartnerA artikel-refid="114901" lesart-refid="fordern" ltspez-refid="0">abverlangen</ relpartnerA> </ relpartner> </ synonymie> ... Diese Vernetzungen werden zurzeit wie bereits erwähnt allein über vernetzungsrelevante Angaben V modelliert und ausgezeichnet. Damit sind alle die Nachteile verbunden, die in Abschnitt 5.5 ausgeführt wurden. Das zentrale Problem ist dabei die mangelnde Konsistenzkontrolle: Wird beispielsweise der Artikel „abverlangen“ zuerst bearbeitet, kann die oben gezeigte Vernetzung nicht lesartenbezogen angegeben werden, da „fordern“ noch nicht in Der lexikografische Prozess 282 einzelne Lesarten disambiguiert wurde. Wird dann später „fordern“ bearbeitet, wird dort nicht automatisch geprüft, welche Vernetzungen bereits auf den Artikel weisen. Im Prinzip wäre das zwar möglich, aber es ist wesentlich aufwändiger als diese entsprechende Abfrage in einer Linkbank, da die Anfrage im derzeitigen Zustand auf die gesamte Datenbank ausgeweitet werden müsste. So sollte zwar inhaltlich (und von der Korpusbasiertheit her) im Artikel „fordern“ „abverlangen“ in der entsprechenden Lesart als Synonym angegeben werden, doch selbst wenn dies so gemacht wird, passiert es leicht, dass dann „abverlangen“ nicht korrekt nachbearbeitet wird. Die explizite Modellierung als bidirektionale Vernetzung in einer Linkbank würde somit die Konsistenzprüfung wesentlich erleichtern. Außerdem besteht bei der jetzigen Modellierung das Problem, dass die Quell- und Zielressourcen der Vernetzungen nicht in genau richtigem Umfang adressiert sind. Wie in 5.5 gezeigt wurde, ist dies aber wichtig, um die Vernetzungen in die Programmierung von Zugriffsstrukturen einbeziehen zu können. Daher soll die Modellierung analog zu den in 5.5 ausgeführten Richtlinien erweitert werden. Die unidirektionalen Vernetzungen bleiben analog zur entsprechenden Richtlinie in die DTDs eingebunden; sie werden allerdings perspektivisch in XLink-konformes Vokabular umgewandelt. Leitsatz zur Modellierung von unidirektionalen Vernetzungen Unidirektionale Vernetzungen werden als einfache Links modelliert und in die DTDs, die die Modellierung des Inhaltsstrukturenprogramms beinhalten, eingebunden. Die Modellierung des Illustrations-Elementes wird also beispielsweise folgendermaßen aussehen: <! -- Illustration --> <! ELEMENT illustration EMPTY > <! ATTLIST illustration xmlns: xlink CDATA #FIXED "http: / / www.w3c.org/ 1999/ xlink" xlink: type (simple) #FIXED "simple" xlink: href CDATA #REQUIRED xlink: show (embed) #FIXED "embed" xlink: actuate (onLoad) #FIXED "onLoad" > Modellierung im Projekt elexiko - ein Werkstattbericht 283 Die Einbindung einer Illustration ist damit als ein Xink-konformer einfacher Link modelliert, in dem die entsprechende Illustration über das href - Attribut adressiert wird und für deren Präsentation hier festgelegt ist, dass die Illustration direkt beim Laden des Artikelteils ( actuate= " onLoad ") eingebettet ( show= " embed ") werden soll. Damit entspricht die Modellierung der in 5.5 entwickelten Richtlinien. Der erste Leitsatz zur Modellierung bidirektionaler Vernetzungen aus 5.5 lautet: Erster Leitsatz zur Modellierung von bidirektionalen Vernetzungen Bidirektionale Vernetzungen werden in einem erweiterten Link modelliert. Die beteiligten Quell- und Zielressourcen werden als entfernte Ressourcen modelliert und die sie verbindenden Kanten als Third-Party Kanten. Die bidirektionalen Vernetzungen sollen in Form einer Linkbank gespeichert werden. Dabei ist vorgesehen, dass eine solche Linkbank durch vernetzungsrelevante Angaben V automatisch zu füllen ist. Zweiter Leitsatz zur Modellierung von bidirektionalen Vernetzungen Die Linkbank, in der die bidirektionale Vernetzungen gespeichert werden, soll automatisch gefüllt werden und allein dem Vernetzungsmanagement dienen. Diese automatische Füllung soll über vernetzungsrelevante Angaben V , die Teil der Artikel sind, erfolgen. Die vernetzungsrelevanten Angaben V sind schon nach der jetzt angewandten Modellierung in den elexiko-Artikeln enthalten. Demnach muss also (nur) die Modellierung für die Linkbank entworfen werden; außerdem - und das bedeutet hier den größeren Aufwand - muss die Arbeit mit dieser Linkbank softwaretechnisch unterstützt werden. Wie die Modellierung bidirektionaler Vernetzungen in elexiko perspektivisch aussehen soll, kann ausschnitthaft an der Modellierung paradigmatischer Partner gezeigt werden. Im Vernetzungsstrukturenprogramm ist dabei festgelegt, dass die Vernetzung zwischen den beteiligten Einzelbedeutungen festgehalten werden soll, d.h., die Lesarten treten als die beteiligten entfernten Ressourcen auf. Dabei wird durch diese Modellierung gewährleistet, dass die Quell- und Zielressourcen in korrektem inhaltlichen Umfang adressiert Der lexikografische Prozess 284 sind. Denn nach diesem Entwurf wird deutlich, dass die Sinnverwandtschaft nicht zwischen zwei paradigmatischen Partnern, sondern zwischen den Lesarten besteht. Der Typ der Relation wird dabei durch die entsprechende Kante ausgedrückt, wie hier beispielsweise durch die Kanten synonym_zu1-2 und synonym_zu2-1 . Im folgenden Ausschnitt der Linkbank sind aus Gründen der Überschaubarkeit nur die Relationen der Synonymie und der Antonymie ausmodelliert; entsprechend können die weiteren paradigmatischen Relationen hinzugefügt werden. <! -- ================ Paradigmatische Relation =================== --> <! ELEMENT paradig-relation (einzelbedeutung1, einzelbedeutung2, ((synonym_zu1-2, synonym_zu2-1) | (antonym_zu1-2, antonym_zu2-1))+ ) > <! ATTLIST paradig-relation xmlns: xlink CDATA #FIXED "http: / / www.w3c.org/ 1999/ xlink" xlink: type (extended) #FIXED "extended" > <! -- ===== beteiligte Einzelbedeutungen ===== --> <! -beteiligte Lesart 1 --> <! ELEMENT einzelbedeutung1 EMPTY > <! ATTLIST einzelbedeutung1 xlink: type (locator) #FIXED "locator" xlink: href CDATA #REQUIRED xlink: label NMTOKEN #REQUIRED> <! -beteiligte Lesart 2 --> <! ELEMENT einzelbedeutung2 EMPTY > <! ATTLIST einzelbedeutung2 xlink: type (locator) #FIXED "locator" xlink: href CDATA #REQUIRED xlink: label NMTOKEN #REQUIRED> <! -- ===== verschiedene Kanten ===== --> <! -- * Synonymie * --> <! -- Synonymie: Kante v. d. ersten zur zweiten beteiligten Einzelbedeutung--> <! ELEMENT synonym_zu1-2 EMPTY > <! ATTLIST synonym_zu1-2 xlink: type (arc) #FIXED "arc" xlink: from NMTOKEN #REQUIRED Modellierung im Projekt elexiko - ein Werkstattbericht 285 xlink: to NMTOKEN #REQUIRED xlink: title CDATA #REQUIRED xlink: show (new) #FIXED "new" xlink: actuate (onRequest) #FIXED "onRequest" > <! -- Synonymie: Kante v. d. zweiten zur ersten beteiligten Einzelbedeutung--> <! ELEMENT synonym_zu2-1 EMPTY > <! ATTLIST synonym_zu2-1 xlink: type (arc) #FIXED "arc" xlink: from NMTOKEN #REQUIRED xlink: to NMTOKEN #REQUIRED xlink: title CDATA #REQUIRED xlink: show (new) #FIXED "new" xlink: actuate (onRequest) #FIXED "onRequest" > <! -- * Antonymie * --> <! -- Antonymie: Kante v. d. ersten zur zweiten beteiligten Einzelbedeutung--> <! ELEMENT antonym_zu1-2 EMPTY > <! ATTLIST antonym_zu1-2 xlink: type (arc) #FIXED "arc" xlink: from NMTOKEN #REQUIRED xlink: to NMTOKEN #REQUIRED xlink: title CDATA #REQUIRED xlink: show (new) #FIXED "new" xlink: actuate (onRequest) #FIXED "onRequest" > <! -- Antonymie: Kante v. d. zweiten zur ersten beteiligten Einzelbedeutung --> <! ELEMENT antonym_zu2-1 EMPTY > <! ATTLIST antonym_zu2-1 xlink: type (arc) #FIXED "arc" xlink: from NMTOKEN #REQUIRED xlink: to NMTOKEN #REQUIRED xlink: title CDATA #REQUIRED xlink: show (new) #FIXED "new" xlink: actuate (onRequest) #FIXED "onRequest" > Der lexikografische Prozess 286 Eine paradigmatische Relation ist damit als erweiterter Link modelliert. Wie oben schon ausgeführt, sind die beteiligten Einzelbedeutungen dabei als entfernte Ressourcen an dem Link beteiligt, was an dem Attributwert locator zu erkennen ist. Die Kanten sind durch den Attributwert arc als solche gekennzeichnet. In die from - und to -Felder der Kanten müssen in den Instanzen die entsprechenden label -Werte der Einzelbedeutungen eingetragen werden. Die Vergabe eines Kantentitels wird in dieser Modellierung obligatorisch vorgeschrieben, um die potenziellen Benutzer schon am Verweisursprung auf das zu erwartende Verweisziel informieren zu können. Dabei wäre es auch denkbar, dass der Titel schon in der Linkbank festgelegt wird. Dann müsste der Attributwert beispielsweise folgendermaßen aussehen: ... xlink: title CDATA #FIXED "Hier gelangen Sie zum Artikel des synonymen Partners in der entsprechenden Lesart" Für die weitere Darstellung wurde in der oben gezeigten Modellierung festgelegt, dass die Zielressource in einem neuen Fenster geöffnet werden soll ( show= " new ") und zwar nur auf Anforderung eines potenziellen Benutzers ( actuate= " onRequest "). Diese Linkbank soll nun über die vernetzungsrelevanten Angaben V aus den Artikeln automatisch gefüllt werden. Im oben gezeigten Beispiel von „abverlangen“ und „fordern“ würde der Instanz-Ausschnitt der Linkbank dann folgendermaßen aussehen: - Ausschnitt aus der Linkbank-Instanz ... <paradig-relation> <einzelbedeutung1 xlink: href=".../ abverlangen.xml" xlink: label="114901.fordern"/ > <einzelbedeutung2 xlink: href=".../ fordern.xml" xlink: label="123819.beanspruchen"/ > <synonym_zu1-2 xlink: from="114901.fordern" xlink: to="123819.beanspruchen" xlink: title="synonym zu"/ > <synonym_zu2-1 xlink: from="123819.beanspruchen" xlink: to="114901.fordern" xlink: title="synonym zu"/ > </ paradig-relation> ... Modellierung im Projekt elexiko - ein Werkstattbericht 287 Alle relevanten Daten für diese Linkbank-Instanz sind nach der jetzigen Modellierung in den elexiko-Artikeln enthalten, d.h., sie kann automatisch gefüllt werden. Diese Modellierung entspricht somit den in Abschnitt 5.5 entwickelten Richtlinien. Dabei ist es eine große Erleichterung für das Vernetzungsmanagement, wenn Konsistenzabfragen immer nur in der Linkbank-Datei vorgenommen werden können. Beispielsweise kann auf relativ einfache Weise geprüft werden, welche Vernetzungen bereits auf einen neu zu bearbeitenden Artikel gerichtet sind. Auch kann für bidirektionale Vernetzungen sichergestellt werden, ob auch wirklich in beiden beteiligten Artikeln die entsprechenden vernetzungsrelevanten Angaben V korrekt gemacht wurden. Außerdem ist eine Linkbank eine gute Basis für die Auswertung der Vernetzungsstrukturen für die Präsentation der Artikel. Beispielsweise wäre denkbar, bei einer bestimmten Abfrage das gesuchte Stichwort im Kontext der den einzelnen Lesarten zugeordneten Synonyme anzuzeigen. Für elexiko ist diese erweiterte Modellierung damit sowohl machbar als auch sinnvoll hinsichtlich der Kontrollierbarkeit und Auswertbarkeit der Vernetzungsstrukturen. 6.7 Weitere Aspekte einer „Well-Dressed-DTD“ 6.7.1 Benennung der Objekte Grundsätzlich werden Elemente und Attribute in den elexiko-DTDs möglichst sprechend benannt. 103 In den vorherigen DTDs für elexiko waren die Element- und Attributnamen oft sehr verkürzt, wodurch die Struktur sehr viel schwerer zu kommunizieren war. Diese Kommunizierbarkeit ist jedoch gerade bei mehreren und möglicherweise wechselnden Projektbeteiligen sehr wichtig. Die sprechende Benennung der Objekte kann dabei zu einer etwas unübersichtlichen Darstellung der Inhaltsstruktur im XML-Editor führen, da die Tags relativ viel Platz auf dem Bildschirm beanspruchen. Der Vorteil der sprechenderen Element- und Attributbenennung überwiegen der Projekterfahrung von elexiko nach jedoch die Nachteile. Als Sprache wird in den elexiko-DTDs durchgehend Deutsch verwendet. Dies bietet sich an, da alle Mitglieder des Projektteams ohnehin perfekt Deutsch beherrschen müssen, um Artikel für elexiko verfassen zu können. Darüber hinaus stellt sich die allgemeine Frage nach der Groß- oder Kleinschreibung 103 Alle folgenden allgemeinen Eigenschaften einer „Well-dressed- DTD “ gelten für alle in OWID eingesetzten DTD s. Der lexikografische Prozess 288 der Entities, Elemente und Attribute. In SGML machte die Groß- und Kleinschreibung keinen Unterschied, in XML ist dies aber der Fall. In den elexiko- DTDs werden alle Objekte klein geschrieben bis auf die oben genannten Großbuchstaben zur Klassifizierung der Elemente und Attribute als Angaben V , Kommentare oder Hinweise. Dies ermöglicht meines Erachtens eine stringentere Schreibung. Genauso stellt sich die Frage nach Bindestrichschreibung oder Binnengroßschreibung bei Elementnamen, die sich aus mehreren Bestandteilen zusammensetzen, z.B. NomSg oder nom-sg oder genauso gListe (für geordnete Liste) oder g-liste . Da für elexiko die Kleinschreibung als Richtlinie festgelegt wurde, ist entsprechend auch die Bindestrichschreibung auszuwählen. Die Binnengroßschreibung scheint zwar auf Anhieb das ‘schönere’ Prinzip zu sein, bringt bei der Elementbenennung aber auch oft eine gewisse Schwierigkeit mit sich, da Elementnamen auf verschiedene Weise aufgelöst werden können. Hier stellt eine stringente Kleinschreibung ein klareres Prinzip dar. 6.7.2 Anordnung der Entities, Elemente und Attribute und Kommentierung der DTDs In Abschnitt 5.4.2.3.2 wurde ausgeführt, dass die mögliche flexible Anordnung von Entities, Elementen und Attributen in XML-DTDs so eingegrenzt werden soll, dass eine schnelle Auffindbarkeit der gesuchten Strukturelemente gewährleistet wird. In elexiko musste dabei ein DTD-Modulsystem angelegt werden, da allein das modellierte Inhaltsstrukturenprogramm aus über 400 Elementen besteht, die in einer DTD nicht übersichtlich hätten geordnet werden können. Alle Entities sind daher in der DTD für allgemeine Entities ( allg-entities.dtd ) aufgeführt. Sie sind gruppiert nach Entities für Inhaltsmodelle und Attribute. Innerhalb dieser Gruppierungen sind sie alphabetisch geordnet. Die modulübergreifend eingesetzten Elemente sind Teil der allg-elemente.dtd . Sie sind nach ihren Oberelementen alphabetisch geordnet, darunter aber inhaltlich gruppiert. Ansonsten sind die Angaben V in den anderen DTDs folgendermaßen geordnet: - Zuerst wird das Hauptelement aufgeführt. - Dessen unmittelbare Konstituenten werden in der Reihenfolge aufgeführt, wie sie im Hauptelement stehen. Modellierung im Projekt elexiko - ein Werkstattbericht 289 - Bei den unmittelbaren Konstituenten (bzw. bei den darauf folgenden in der ewl-lesart.dtd ) der Hauptelemente stehen alle dazugehörigen Unterelemente, d.h. dieser ganze Ast des Baumes. Falls dort Unterelemente nicht aufgeführt werden, sind es mehrfach vorkommende Elemente, die den allgemeinen Objekten zugeordnet sind. Eine besondere Aufteilung gibt es in der Grammatik (innerhalb der ewllesart.dtd ): Dort folgen nach dem Hauptelement zunächst Elemente nach Themen gruppiert (Deklination, Valenz etc.) und erst danach die unmittelbaren Konstituenten von ewl-grammatik . Allen Entity- und Elementnamen sind außerdem - wie in Abschnitt 5.4.2.3.4 gefordert - kurze der Orientierung dienende Kommentare vorangestellt, in denen die XML-Objektbezeichnungen aufgelöst werden. Die Hierarchie der Elemente wird dabei durch die Gestaltung der Kurzkommentare verdeutlicht. Z.B. haben alle Elemente der gleichen hierarchischen Ebene im Kurzkommentar jeweils links und rechts fünf Gleichheitszeichen oder nur einen Stern. Kommentare, die der Erläuterung der Struktur dienen, sind in den elexiko- DTDs nicht mehr vorhanden. Diese sind in eine Dokumentation überführt, die im folgenden Abschnitt erläutert wird. Hinsichtlich zukünftiger Änderungen ist es außerdem wichtig, dass jedes Element, jedes Attribut und jedes Inhaltsmodell, welches mehr als einmal nicht unmittelbar aufeinander folgend vorkommt, in einer Entity zusammengefasst wird. 6.7.3 Dokumentation der DTDs In Abschnitt 5.4.2.3.5 wurde die Wichtigkeit einer DTD-Dokumentation herausgestellt, besonders für Projekte, die eine lange Laufzeit haben. Da elexiko als Langzeitprojekt angelegt ist, und damit auch das Projektteam in seiner Zusammensetzung wechseln kann, ist die Dokumentation der Modellierung von zentraler Bedeutung. Sie dient nicht nur den DTD-Entwicklern, um Modellierungsentscheidungen festzuhalten, sondern allen Projektbeteiligten. Entsprechend hat die DTD-Dokumentation in elexiko verschiedene Funktionen. Sie soll - innerhalb der Projektgruppe als Kurzreferenz zur Erläuterung der Modellierung dienen, - Vereinbarungen hinsichtlich der Beschreibungssprache analog zur XML- Struktur soweit wie möglich integrieren, Der lexikografische Prozess 290 - für diejenigen, die die Modellierung entwickeln, bestimmte Modellierungsentscheidungen auch nach einiger Zeit noch nachvollziehbar machen, und - für neue Projektgruppenmitglieder den Einstieg in die Modellierung erleichtern. Zur Erstellung der Dokumentation wurde die Software DTDhelp der Ovidius GmbH eingesetzt, die es ohne großen Aufwand ermöglicht, die Dokumentation sowohl als Kurzreferenz zu benutzen, d.h. gezielt nach bestimmten Strukturelementen zu suchen, als auch systematisch die Modellierung zu verfolgen, d.h. die Elemente im hierarchischen Aufbau durchzugehen. Zur Demonstration ist in Abbildung 43 der Eintrag zum Element wortbildung gezeigt. Abb. 43: Eintrag zum Element wortbildung in der elexiko- DTD -Dokumentation Auf der linken Seite des Bildschirms ist die Suchmaske zu sehen, in der in diesem Beispiel das Suchwort „Wortbildung“ eingegeben wurde. Als Suchergebnis werden dabei alle Einträge angezeigt, in denen die Zeichenkette „Wortbildung“ vorkommt, d.h. das gesuchte Element, das Oberelement, alle Untererelemte und alle zugehörigen Attribute. Auf der rechten Seite befindet Modellierung im Projekt elexiko - ein Werkstattbericht 291 sich der Eintrag zum Element wortbildung . Unter „Modellierung“ finden sich Hinweise sowohl zur Modellierung als auch Hinweise redaktioneller Art. Im Fall von Wortbildung steht in diesem Abschnitt beispielsweise, dass - falls ein Stichwort gebildet ist - immer nur ein Wortbildungstyp ausgewählt werden kann und soll. Bestehen Zweifel in der Zuordnung, soll ein Wortbildungstyp eingetragen und dieser Zweifel kommentiert werden. Hinweise dieser Art sind hilfreich beim Erarbeiten der Artikel, da die Dokumentation bei der Artikelerarbeitung direkt aus dem XML-Editor aufgerufen werden kann und zwar genau an dem Element, an dem der Lexikograf gerade arbeitet. Will daher jemand innerhalb der Wortbildung zwei Wortbildungstypen eintragen und kann dies jedoch nach den Vorgaben der DTD nicht, kann er die Dokumentation aufrufen und die redaktionelle Richtlinie finden, die die Modellierung erklärt. Diese redaktionellen Hinweise befinden sich in elexiko allerdings noch im Aufbau. Abb. 44: Eintrag zum Element grund-kompbestandteilA in der elexiko- DTD -Dokumentation Der lexikografische Prozess 292 Das „Kontextdiagramm“ dient zum einen der Darstellung des Inhaltsmodells von wortbildung , zum anderen zur Navigation zu den Unterelementen. Genauso kann über die Felder „Ist enthalten in“ und „Enthält“ durch die hierarchische Struktur navigiert werden. Unterhalb dieser Abschnitte befinden sich Informationen zu Attributen, falls solche dem Element zugeordnet sind. Ein Beispiel dafür ist in Abbildung 44 zu sehen, in dem der Dokumentations-Eintrag zum Grundwort als ein Kompositionsbestandteil eines Determinativkompositums ( grund-kombestandteilA ) zu sehen ist. Hier werden automatisch der Name des Attributs, der „Typ“, d.h. ob das Attribut aus Text oder einer Werteliste besteht, ggf. der Wertebereich (unter „Werte“) und die Einstellungen der Obligatorik (unter „Klasse“) gezeigt. Auch zu den Attributen können darüber hinaus redaktionelle Hinweise oder Erläuterungen zur Modellierung hinzugefügt werden, die dann im Feld „Bemerkung“ angezeigt würden. Eine solche DTD-Dokumentation ist bei der Rolle, die die Modellierung in elexiko im lexikografischen Prozess spielt, unerlässlich. Sie hat sich im Projekt bereits vielfach bewährt bei der Einarbeitung neuer Mitarbeiter, Hilfskräfte oder Praktikanten. 6.8 Darstellung der Artikel und Perspektiven für die Recherche Die Darstellung der XML-Daten wird in elexiko über XSLT-Stylesheets spezifiziert (vgl. Abschnitt 5.7). Entsprechend des modularen Aufbaus von OWID gibt es Stylesheets für das elexiko-Wörterbuch, das Neologismen- Wörterbuch und für die Modulprojekte Usuelle Wortverbindungen und Schulddiskurs 1945-55. Ruft ein elexiko-Benutzer einen bearbeiteten Artikel des elexiko-Wörterbuchs auf - entweder über die „Suche“ oder über Navigation im „Wörterbuch“ - erscheinen zunächst die lesartenübergreifenden Angaben (vgl. Abbildung 45). Diese Darstellung der Artikel soll hier nicht im Einzelnen ausgeführt werden, da sie sich perspektivisch ändern kann. Der aktuelle Stand kann jeweils unter www.elexiko.de eingesehen werden. Ein Beispiel soll aber auch hier den Weg von der Datenbasis hin zu Präsentation der Daten veranschaulichen: Unter Wortbildung ist im Artikel „Kathedrale“ in der Präsentation zu lesen: „Dieses Wort ist ein Simplex, d.h. es ist nicht zusammengesetzt, abge- Modellierung im Projekt elexiko - ein Werkstattbericht 293 Abb. 45: Darstellung der lesartenübergreifenden Angaben (hier im Artikel „Kathedrale“) leitet oder gekürzt.“ (vgl. Abbildung 45). In der XML-Instanz des Artikels auf Ebene der lexikografischen Datenbasis sieht der zu Grunde liegende Ausschnitt folgendermaßen aus: - Ausschnitt aus der XML-Instanz Kathedrale.xml ... <wortbildung><keine-angabe/ ></ wortbildung> ... Im dazugehörigen Stylesheet-Auszug kann man die Präsentationsanweisung ablesen. Der lexikografische Prozess 294 - Ausschnitt aus dem Stylesheet „ ewl-artikel.xsl “ ... <xsl: choose> <xsl: when test="./ / keine-angabe or / / lzgA/ @demo-ws = false()"> <span class="ids-color">Dieses Wort ist ein Simplex, d.h. es ist nicht zusammengesetzt, abgeleitet oder gekürzt.</ span> <xsl: apply-templates select="./ angabe-zusatz"/ > </ xsl: when> <xsl: otherwise>... In diesem Stylesheet-Ausschnitt ist zu sehen, dass - wenn keine-angabe im Element wortbildung gemacht wird - der oben gezeigte Text erscheinen soll. Die lesartenbezogenen Angaben werden in der jetzigen Präsentation in sechs Gruppen aufgeteilt: in die Bedeutungserläuterung, die semantische Umgebung und lexikalische Mitspieler, in typische Verwendungen, sinnverwandte Wörter, Besonderheiten des Gebrauchs und die Grammatik (vgl. Abbildung 46). Für die Darstellung der Artikel wurde damit eine etwas andere Terminologie gewählt als für die Benennung der Objekte in der Modellierung. Beispielsweise wird die „semantische Paraphrase“ auf Ebene der Präsentation als „Bedeutungserläuterung“ bezeichnet oder die Angaben zur „Verwendungsspezifik“ als „Besonderheiten des Gebrauchs“. Diese Präsentationsbezeichnungen sollen eine größere Bandbreite potenzieller Benutzer ansprechen, wogegen mit der Modellierung nur das lexikografische Team arbeitet und daher die Terminologie anders aussehen kann. Von der Modellierung und der entsprechenden Datenaufbereitung her wäre es in elexiko auch möglich, adaptiv zu verschiedenen Benutzertypen und Benutzungssituationen die Daten verschieden darzustellen. Beispielsweise könnte festgelegt werden, dass, wenn ein nichtmuttersprachlicher Benutzer einen Text produziert, die typischen Verwendungen und Mitspielerangaben prominenter erscheinen als wenn ein muttersprachlicher Nutzer einen Text rezipiert. Denn für den nichtmuttersprachlichen Benutzer ist es beim Schreiben von Texten wichtig zu wissen, dass es - beispielsweise bei „international“ - nicht „internationale Gruppe“ sondern „internationale Gemeinschaft“ Modellierung im Projekt elexiko - ein Werkstattbericht 295 heißt und dass nicht „auf dem internationalen Platz“ aber „auf der internationalen Bühne“ oder „auf dem internationalen Parkett“ gehandelt wird. Für einen muttersprachlichen Nutzer sind diese Informationen beim Rezipieren eines Textes dagegen überflüssig. Eine solche flexible Darstellbarkeit der lexikografischen Daten, zumindest ein zweifacher Zugang für Experten und Laien, ist in elexiko geplant. Abb. 46: Darstellung der lesartenbezogenen Angaben (hier im Artikel „Kathedrale“) Eine weitere zentrale Anforderung an die Modellierung ist der gezielte Zugriff auf einzelne Angaben in den Artikeln. Über das Prinzip der granularen, inhaltsorientierten Modellierung ist diese Möglichkeit auf Ebene der Der lexikografische Prozess 296 lexikografischen Datenbasis in elexiko geschaffen. Prinzipiell kann auf alle XML-Elemente und -Attribute und damit auf alle lexikografischen Inhalte direkt bei der Recherche zugegriffen werden. Allerdings ist die Realisierung dieser Zugriffsmöglichkeiten ein Programmieraufwand, der in elexiko bisher nur teilweise umgesetzt werden konnte. Einige Angaben können jedoch jetzt schon in Rechercheanfragen eingebunden werden. Beispielsweise kann nach Substantiven gesucht werden, die von der Wortbildung her als explizite Derivate eingeordnet wurden. Oder die Suche kann auf Kurzwörter eingeschränkt werden, zu denen es eine normgerechte orthografische Variante gibt. Auch weitere grammatische Eigenschaften, Angaben zu sinnverwandten Wörtern sowie Angaben zur semantischen Klasse können in die Recherche eingebunden werden. Diese Suche nach bestimmten Eigenschaften kann dabei mit der Stichwortsuche kombiniert werden, d.h., es kann auch nach allen Komposita, die mit Mo* beginnen, recherchiert werden. Auch für das Neologismen-Wörterbuch gibt es eine Suche nach inhaltlichen Kriterien: Beispielsweise kann nach allen Neulexemen (unter / Neologismentyp) recherchiert werden, die Mitte der 90er-Jahre (unter / Aufkommen) im deutschen Sprachgebrauch erstmalig nachzuweisen sind (vgl. Abbildungen 47 und 48). Diese Suchfunktionalitäten soll schrittweise erweitert werden. Das, was durch die Modellierung und entsprechende Datenaufbereitung in diesem Zusammenhang geleistet werden kann, ist allerdings in elexiko schon realisiert. Das ganze Potenzial der Modellierung für elexiko kann somit erst dann in vollem Umfang gezeigt werden, wenn 1) adaptiv zu Benutzungssituationen flexible Darstellungsmöglichkeiten entwickelt und 2) noch umfangreichere Recherchemöglichkeiten angeboten werden. Das Problem ist also nicht (wie sonst oft in lexikografischen Projekten), dass die Daten nicht richtig aufbereitet sind und von daher solche Möglichkeiten überhaupt nicht zur Verfügung stehen (vgl. Breidt 1998). Vielmehr ist auf dem Weg von der lexikografischen Datenbasis hin zur Präsentation der Daten im elektronischen Wörterbuch noch vieles zu tun (vgl. auch Klosa/ Müller-Spitzer ersch. demn.). Modellierung im Projekt elexiko - ein Werkstattbericht 297 Abb. 47: Expertensuche im elexiko-Wörterbuch Abb. 48: Expertensuche im Neologismen-Wörterbuch Der lexikografische Prozess 298 6.9 Die DTD-Entwicklung im Spannungsfeld zwischen theoretischen Richtlinien und ihrer praktischen Umsetzung Meiner Erfahrung nach ist es bei einer so komplexen XML-Struktur wie der von elexiko besonders wichtig, intersubjektiv nachvollziehbare Richtlinien bei der Modellierung zu entwickeln und zu beachten. Dies dient nicht nur der besseren Kommunizierbarkeit der Struktur unter allen Projektbeteiligten, sondern ist auch für diejenigen unerlässlich, die die Modellierung entwickeln. Denn nur so kann eine gewisse Stringenz in den DTDs aufrechterhalten werden. Dies ist in elexiko umso wichtiger (und zum Teil auch schwieriger), weil hier verschiedene Themengebiete innerhalb des Inhaltsstrukturenprogramms auch von verschiedenen Projektbeteiligten zu verantworten sind. So wurde beispielsweise die Modellierung der Orthografie, Morphologie, Wortbildung und Grammatik von Annette Klosa und mir erarbeitet, dagegen die Teile zur Semantik in Zusammenarbeit mit Ulrike Haß und Petra Storjohann. Dabei hat jede der beteiligten Personen ihre eigene terminologische Ausrichtung, die sich aber auf Ebene der DTDs in dieser Verschiedenheit nur begrenzt spiegeln sollte. Denn für die lexikografische Arbeit ist es wichtig, dass das modellierte Inhaltsstrukturenprogramm durchgängig gewissen Richtlinien gehorcht, weil nur so die Arbeit damit schnell und effektiv von der Hand geht. Dabei kann diese Stringenz in der Modellierung nur von dem- oder derjenigen gewährleistet werden, der bzw. die die Modellierung entwickelt, denn diese Person ist das Bindeglied zwischen allen Teilen der DTD-Entwicklung. So weit das theoretisch Wünschenswerte. Aber wie sieht es in der Praxis aus? Sind diese Ansprüche zu halten? Zunächst einmal muss klar gesagt werden: Eine Modellierung nach den hier entwickelten Richtlinien benötigt Zeit. Wenn zwischen dem Beginn des Projektes und der Phase der Datenerarbeitung nur wenig Zeit eingeplant ist, kann eine Modellierung nicht so sorgfältig erfolgen, wie es hier vorgesehen ist. Meines Erachtens ist die Zeit in eine durchdachte DTD-Entwicklung aber gut investiert, da eine gute Modellierung in anderen Phasen des Projektes wiederum viel Zeit sparen kann. Dabei ist es günstig, wenn - wie in elexiko - die inhaltliche Konzeption des Inhaltsstrukturenprogramms direkt in eine DTD-Modellierung überführt wird, und dann anhand des Modellierungsentwurfs das Inhaltsstrukturenprogramm getestet, überarbeitet und verfeinert wird. Denn in dieser Entwurfsphase sind DTD-Änderungen noch unproblematisch, da noch keine großen Mengen von Daten nach der Modellierung ausgezeichnet sind. Beginnt dann die Phase Modellierung im Projekt elexiko - ein Werkstattbericht 299 der Datenerarbeitung, können die DTDs nur noch in sehr begründeten Ausnahmefällen geändert werden, vor allem wenn die Änderungen eine Nachkonvertierung der bereits geschriebenen Artikel verlangen. Dies ist immer dann der Fall, wenn Elemente umbenannt, neue obligatorische Elemente oder Attribute eingeführt oder Umstrukturierungen des hierarchischen Aufbaus vorgenommen werden. Da solche Änderungen aber nicht ausbleiben, wurde in elexiko festgelegt, dass innerhalb der Datenerarbeitungsphase gewünschte DTD-Änderungen gesammelt werden und immer nur zu bestimmten ‘Meilensteinen’, beispielsweise nach der Bearbeitung des Demonstrationswortschatzes, in einem Arbeitsschritt umgesetzt werden, um dann auch gesammelt alle bis dahin geschriebenen Artikel konvertieren zu können. Wie bereits ausgeführt wurde, standen die in dieser Arbeit vorgestellten Richtlinien für die Modellierung einer lexikografischen Datenbasis vor der DTD-Entwicklung in elexiko noch nicht zur Verfügung; vielmehr wurden sie parallel, teilweise auch erst im Anschluss dazu entwickelt. Daher gibt es einige Aspekte in den elexiko-DTDs, die den Modellierungsrichtlinien nicht entsprechen. Damit sind nicht die inhaltlich begründeten Ausnahmen wie beispielsweise die Modellierung narrativer Angaben V gemeint. Vielmehr geht es dabei um Elementbezeichnungen wie z.B. lzgA für „Lemmazeichengestaltangabe“, die auf Ebene der lexikografischen Datenbasis eigentlich nicht korrekt ist. Andere solche (unbegründeten) Ausnahmen wurden bereits erläutert. Unter den Rahmenbedingungen eines laufenden lexikografischen Projekts wird es immer wieder zu solchen ‘Fehlern’ kommen, die schlecht korrigiert werden können, da (oft berechtigerweise) niemand dafür Verständnis hat, dass beispielsweise eine Umbenennung eines Elementes wichtig genug wäre, den entsprechenden Konvertierungsaufwand zu rechtfertigen. Auch soll in manchen Fällen eine Modellierungsänderung möglichst schnell vorgenommen werden, um die Artikelbearbeitung nicht aufzuhalten. Erst im Nachhinein stellt man dann fest, dass bei dieser Änderung anders vorgegangen wurde als bei vergleichbaren Strukturaspekten, sodass die Modellierung an diesen Stellen eigentlich inkonsistent ist. Es ist aber bei allem Projektdruck wichtig darauf zu achten, dass eine anfangs gut durchdachte Modellierung nicht durch einige schnell vorgenommene Änderungen so aufgeweicht wird, dass am Ende keine klaren Richtlinien in der Modellierung mehr zu erkennen sind. Gerade bei einem Projekt, in dem eine Modellierung über längere Zeit eingesetzt werden soll, kann nur dann die Struktur einheitlich bleiben und gut kommunizierbar sein, wenn die DTD-Entwickler Der lexikografische Prozess 300 reflektiert vorgehen. Deshalb sollte auch in einem laufenden Projekt immer wieder Zeit für Änderungen in der Modellierung eingeplant werden. Denn eine Modellierung in der hier vorgestellten Form in einem laufenden lexikografischen Projekt ist so lange nicht fertig, wie auch das Projekt nicht abgeschlossen ist. Insbesondere die Bearbeitung sprachlicher Phänomene hat die Eigenschaft, dass beim 1000. Artikel doch ein Phänomen auftaucht, das vorher nicht bedacht wurde, und das Eingang in die Struktur finden muss. Bei einer solchen permanenten Weiterentwicklung ist es wichtig, theoretisch fundierte Richtlinien als Leitfaden zu haben, von denen aus praktischen Gründen auch einmal abgewichen werden kann, die aber insgesamt helfen, eine gute, konsistente und durchdachte Modellierung für eine langfristige Anwendung zu entwickeln. 7. Schlussbemerkung Eine Theorie ist eine Vermutung mit Hochschulbildung. Jimmy Carter Dieses Zitat von Jimmy Carter wirkt auf den ersten Blick wie eine witzige, aber auch sehr treffende Kritik an mancher theoretischen Arbeit. Denn wenn Theorien ohne Bezug zu einer möglichen praktischen Anwendung erarbeitet werden, können sie zum reinen hochschulgebildeten Selbstzweck werden. Dass eine Theorie jedoch nur eine Vemutung sei, muss nicht unbedingt kritisch gemeint sein. Denn wer weiß schon - zum Beispiel in Bezug auf elektronische Medien - wo die Reise genau hingeht? Gerade die so genannten Experten können sich da sehr irren, wie an dem vielzitierten Ausspruch von Thomas J. Watson, dem IBM-Vorstandsvorsitzenden, aus dem Jahr 1943 zu sehen ist, der damals sagte, dass es „a world market for maybe five computers“ gebe. Genauso ist heute oft zu hören, dass die Verlagslexikografie noch zu wenig an elektronischer Lexikografie verdiene und sich deshalb auch keine größeren Investitionen lohnte. Oder dass viele potenzielle Benutzer Qualität gerade in Bezug auf Online-Lexikografie nicht zu schätzen wüssten. Vor diesem Hintergrund könnte eine Modellierung in der Form, wie sie hier entworfen wurde, als zu detailliert angesehen werden. Denn wozu sich große Gedanken über die Modellierung lexikografischer Daten machen, wenn die Benutzer gar keine neuen Zugriffs- und Darstellungsmöglichkeiten erwarten? Dabei muss jedoch bedacht werden, dass schon jetzt eine Generation potenzieller Benutzer nachrückt, die mit den neuen Medien großgeworden ist und die demgemäß auch neue Funktionalitäten bei Wortschatzinformationssystemen erwartet. Meiner Meinung nach ist es daher eine Pflicht gerade der wissenschaftlichen Lexikografie, diese neuen Möglichkeiten der Nutzung des elektronischen Mediums aufzuzeigen, auch wenn dies nur auf der wohlbegründeten Vermutung gründet, dass diese neuartigen Funktionalitäten von potenziellen Benutzern genutzt und geschätzt werden. Der Versuch dieser Arbeit, bekannte Forschungen aus dem Bereich der Printlexikografie mit neuen Verfahren und Techniken aus dem Bereich der XML-Modellierung zu einem eigenständigen, praxisorientierten und theoretisch fundierten Ansatz für ein Konzept der maßgeschneiderten Modellierung einer lexikografischen Datenbasis zusammenzubringen und dabei Der lexikografische Prozess 302 die Relevanz und Auswirkungen eines solchen Ansatzes für die und anhand der lexikografischen Praxis aufzuzeigen, soll damit der Verbesserung der lexikografischen Praxis dienen. Damit verbunden ist das Ziel, Wege aufzuzeigen, wie innovative elektronische Wörterbücher hergestellt werden können; mit der zusätzlichen Möglichkeit, aus derselben Datenbasis ein gedrucktes Wörterbuch zu produzieren. Denn gerade durch eine so detaillierte Modellierung, die die lexikografischen Inhalte maschinenlesbar expliziert, hält man sich eine Vielzahl von Anwendungsoptionen offen; auch solche, die heute noch nicht abzusehen sind. Dies ist nicht der Fall, wenn eine Modellierung bereits auf eine bestimmte Anwendung zugeschnitten wird. Dabei liegt es in der Natur der Sache, dass in lexikografischen Projekten die vorgestellten Richtlinien zu erweitern oder zu modifizieren sein können. In diesem Sinne soll das hier vorgestellte Modellierungskonzept als ein Grundinventar angesehen werden, was bei Bedarf ergänzt werden kann. Das Ziel dieser Arbeit ist dann erreicht, wenn das Modellierungskonzept Eingang in die lexikografische Praxis findet; und sei es auch nur als Anregung zu einer sorgfältigen Planung der Modellierung. Insgesamt ist zu hoffen, dass die wissenschaftliche Lexikografie in Zukunft die Möglichkeit erhält, neue Wege in Bezug auf die Nutzung des elektronischen Mediums aufzuzeigen und diese Möglichkeiten auch wirklich nutzt. Denn die Sorge für die Zukunft ist auch in dieser Disziplin notwendig und für jeden Beteiligten wichtig. Oder wie Mark Twain es ausdrückte: „Of course I care about the future. I intend to spend the rest of my remaining life in it.“ 8. Literatur 8.1 Wörterbücher DFWB = Duden (1994): Duden - Das Große Fremdwörterbuch. Hrsg. und bearb. v. Wissenschaftlichen Rat der Dudenredaktion unt. Leitung v. Günther Drosdowski. Mannheim/ Leipzig/ Wien/ Zürich. DUW = Duden (1996): Duden - Deutsches Universalwörterbuch. Hrsg. und bearb. v. Wissenschaftlichen Rat und den Mitarbeitern der Dudenredaktion. 3., völl. neu bearb. u. erw. Aufl. Mannheim/ Leipzig/ Wien/ Zürich. DW = Paul, Hermann (1992): Deutsches Wörterbuch. 9., vollständig neu bearb. Aufl. von Helmut Henne und Georg Objartel unt. Mitarb. v. Heidrun Kämper- Jensen. Tübingen. elexiko = elexiko-Homepage. Internet: www.elexiko.de (Stand: April 2007). FWB = Goebel, Ulrich/ Reichmann, Oskar (1989ff.): Frühneuhochdeutsches Wörterbuch, begründet v. Robert R. Anderson, Ulrich Goebel und Oskar Reichmann. Berlin/ New York. GWdS = Duden (2000): Duden - Das Große Wörterbuch der deutschen Sprache. 10 Bände auf CD - ROM . Mannheim [ CD - ROM ]. Herberg, Dieter/ Kinne, Michael/ Steffens, Doris (2004): Neuer Wortschatz. Neologismen der 90er Jahre im Deutschen. Unter Mitarbeit von Elke Tellenbach und Doris al-Wadi. (= Schriften des Instituts für Deutsche Sprache 11). Berlin/ New York. OALD = Oxford Advanced Learner's Dictionary (2000): Oxford Advanced Learner's Dictionary. New Edition 2000. Oxford [CD-ROM]. 8.2 Forschungsliteratur Alexa, Melina/ Kreissig, Bernd/ Liepert, Martina/ Reichenberger, Klaus/ Rautmann, Karin/ Scholze-Stubenrecht, Werner/ Stoye, Sabine (2002): The Duden Ontology: An Integrated Representation of Lexical and Ontological Information. In: Workshop at IREC 2002. Las Palmas, Gran Canaria (27.5.2002). Internet: www.ipsi. fraunhofer.de/ ~rostek/ alexa-etal-lrec2002.pdf (Stand: April 2007). Atkins, Beryl T. Sue (1992): Putting Lexicography on the Professional Map. Training Needs and Qualifikations of Career Lexicographers: In: Ezquerra, Alvar (Hg.): Training Needs and Qualifications of Career Lexicographers. Proceedings of the 4th Euralex International Congress, Euralex 1990. Barcelona, S. 519-526. Auer, Jürgen (2004): Unicode-Unterstützung als Merkmal des weltweiten Austauschs von Dokumenten. Internet: www.sql-und-xml.de/ xml-lernen/ internationalisierung-unicode-sonderzeichen.html (Stand: April 2007). Der lexikografische Prozess 304 Bader, Winfried (1999): Was ist die Text Encoding Initiative ( TEI )? In: Kamzelak, Roland (Hg.): Computergestützte Text-Edition. (= Beihefte zur editio 12). Tübingen, S. 9-20. Behme, Henning (2001a): Mutabor. XSLT -Tutorial I : Grundlagen und erste Beispielanwendung. In: iX - Magazin für professionelle Informationstechnik 1, 2001. Internet: www.heise.de/ ix/ artikel/ 2001/ 01/ 167 (Stand: April 2007). Behme, Henning (2001b): Wirrungen. XSLT -Tutorial II : verschachtelte Strukturen und mehrere Ausgangsdokumente. In: iX - Magazin für professionelle Informationstechnik 2, 2001. Internet: www.heise.de/ ix/ artikel/ 2001/ 02/ 142 (Stand: April 2007). Behme, Henning (2001c): On the Fly. XSLT -Tutorial III : dynamisches XML mit AxKit. In: iX - Magazin für professionelle Informationstechnik 3, 2001. Internet: www.heise.de/ ix/ artikel/ 2001/ 03/ 167 (Stand: April 2007). Behme, Henning (2003): Einzelabfüllung. XML -Daten in My SQL einlesen In: iX - Magazin für professionelle Informationstechnik 8, 2003, S. 60-62. Behme, Henning/ Mintert, Stefan (2000): XML in der Praxis. Professionelles Web- Publishing mit der Extensible Markup Language. 2. erw. Aufl. München. Belica, Cyril (1995): Statistische Kollokationsanalyse und Clustering - COSMAS Korpusanalysemodul. Mannheim. Internet: http: / / corpora.ids-mannheim. de (Stand: April 2007). Bergenholtz, Henning/ Tarp, Sven (2002): Die moderne lexikographische Funktionslehre. Diskussionsbeitrag zu neuen und alten Paradigmen, die Wörterbücher als Gebrauchsgegenstände verstehen. In: lexicographica 18, 2002, S. 253-263. Bergenholtz, Henning/ Tarp, Sven (2003): Two Opposing Theories: On H.E. Wiegand's Recent Discovery of Lexicographic Functions. In: Hermes - Journal of Linguistics 31, 2003, S. 171-196. Bergenholtz, Henning/ Tarp, Sven/ Wiegand, Herbert Ernst (1999): Datendistributionsstrukturen, Makro- und Mikrostrukturen in neueren Fachwörterbüchern. In: Hoffman, Lothar/ Kalverkämper, Hartwig/ Wiegand, Herbert Ernst (Hg.): Fachsprachen. Ein internationales Handbuch zur Fachsprachenforschung und Terminologiewissenschaft - Languages for Special Purposes. An International Handbook of Special-Language and Terminology Research. 2. Halbbd. Berlin/ New York, S. 1762-1832. Biezunski, Michel (1999): Topic Maps at a Glance. In: XML Europe 1999. Conference Proceedings, S. 387-391. Blumenthal, Andreas/ Lemnitzer, Lothar/ Storrer, Angelika (1988): Was ist eigentlich ein Verweis? Konzeptionelle Datenmodellierung als Voraussetzung computergestützter Verweisbehandlung. In: Harras, Gisela (Hg.): Das Wörterbuch. Artikel und Verweisstrukturen. (= Jahrbuch 1987 des Instituts für deutsche Sprache). Düsseldorf, S. 351-373. Literatur 305 Bosak, Jon ( 1998): Media-Independent Publishing: Four Myths about XML . Internet: www.ibiblio.org/ pub/ sun-info/ standards/ xml/ why/ 4myths.htm (Stand: April 2007). Breidt, Elisabeth (1998): Neuartige Wörterbücher für Mensch und Maschine: Wörterbuchdatenbanken in COMPASS . In: Wiegand, Herbert Ernst (Hg.): Wörterbücher in der Diskussion III . Vorträge aus dem Heidelberger Lexikographischen Kolloquium. (= Lexicographica: Series Maior 84). Tübingen, S. 1-26. Büchel, Gregor/ Schröder, Bernhard (2001): Verfahren und Techniken in der computergestützten Lexikographie. In: Lemberg/ Schröder/ Storrer (Hg.), S. 7-28. Burch, Thomas/ Fournier, Johannes (2001): Zur Anwendung der TEI -Richtlinien bei der Retrodigitalisierung mittelhochdeutscher Wörterbücher. In: Lemberg/ Schröder/ Storrer (Hg.), S. 133-153. Bush, Vannevar (1945): As We May Think. Internet: www.theatlantic.com/ unbound/ flashbks/ computer/ bushf.htm (Stand: April 2007). Cagle, Kurt/ Corning, Michael/ Diamon, Jason et al. (Hg.) (2001): Professional XSL . Birmingham. DWB Projektskizze = Das deutsche Wörterbuch von Jacob und Wilhelm Grimm auf CD - ROM und im Internet. Projektskizze. Internet: www.dwb.uni-trier.de/ (Stand: April 2007). Engelberg Stefan/ Lemnitzer, Lothar (2001): Lexikographie und Wörterbuchbenutzung. (= Stauffenburg Einführungen 14). Tübingen. Faulstich, Werner (1997): „Jetzt geht die Welt zugrunde...“. „Kulturschocks“ und Medien-Geschichte: Vom antiken Theater bis zu Multimedia. In: Ludes, Peter/ Werner, Andreas (Hg.): Multimedia-Kommunikation. Theorien, Trends und Praxis. Opladen, S. 13-36. Feldweg, Helmut (1997): Wörterbücher und neue Medien: Alter Wein in neuen Schläuchen? In: Zeitschrift für Literaturwissenschaft und Linguistik 107, 1997, S. 110-123. Fournier, Johannes (2000): Digitale Dialektik. Chancen und Probleme mittelhochdeutscher Wörterbücher in elektronischer Form. In: Wiegand, Herbert Ernst (Hg.): Wörterbücher in der Diskussion IV . Vorträge aus dem Heidelberger Lexikographischen Kolloquium. (= Lexicographica: Series Maior 100). Tübingen, S. 85-108. Freisler, Stefan (1994): Hypertext - Eine Begriffsbestimmung. In: Deutsche Sprache 22, 1994, S. 19-50. Garshol, Lars Marius (1999): An Introduction to XML . Internet: www.garshol. priv.no/ download/ text/ xml-intro/ index-en.html (Stand: April 2007). Der lexikografische Prozess 306 Geeb, Franziskus (1998): Semantische und enzyklopädische Informationen in Fachwörterbüchern. Eine Untersuchung zu fachinformativen Informationstypen mit besonderer Berücksichtigung wortgebundener Darstellungsformen. Aarhus. Internet: http: / / geeb2.bui.haw-hamburg.de/ geeb/ geeb_1998.pdf [Online- Version der Druckfassung] (Stand: April 2007). Geeb, Franziskus (2001): leXeML - Vorschlag und Diskussion einer (meta-)lexikographischen Auszeichnungssprache. In: Sprache und Datenverarbeitung 2, 2001, S. 27-61. Geeb, Franziskus (2002): Aufbruchstimmung in der (Meta-)Lexikographie. Bemerkungen zu: Ingrid Lemberg/ Bernhard Schröder/ Angelika Storrer (Hrsg.): Chancen und Perspektiven computergestützter Lexikographie. Lexicographica Series Maior 107. In: Hermes - Journal of Linguistics 28, 2002, S. 223-236. Gennusa, Pamela L. (1999): Evolution and Use of Generic Markup Languages. In: Möhr/ Schmidt (Hg.), S. 27-50. Gentle Introduction = Text Encoding Initiative Consortium (2002): A Gentle Introduction to XML . Internet: www.tei-c.org/ Guidelines2/ gentleintro.html (Stand: April 2007). Gloning, Thomas/ Schlaps, Christiane (1999): Prototypen für ein elektronisches Goethe-Wörterbuch. In: Sprache und Datenverarbeitung 23, 2, 1999, S. 21-34. Gloning, Thomas/ Welter, Rüdiger (2001): Wortschatzarchitektur und elektronische Wörterbücher: Goethes Wortschatz und das Goethe-Wörterbuch. In: Lemberg/ Schröder/ Storrer (Hg.), S. 117-132. Goldfarb, Charles F. (1999): Future Directions in SGML/ XML . In: Möhr/ Schmidt (Hg.), S. 3-25. Gouws, Rufus H. (2001): Der Einfluß der neueren Wörterbuchforschung auf einen neuen lexikographischen Gesamtprozeß und den lexikographischen Herstellungsprozeß. In: Lehr, Andrea/ Kammerer, Matthias/ Konerding, Klaus-Peter/ Storrer, Angelika/ Thimm, Caja/ Wolski, Werner (Hg.): Sprache im Alltag. Beiträge zu neuen Perspektiven in der Linguistik. Herbert Ernst Wiegand zum 65. Geburtstag gewidmet. Berlin/ New York, S. 521-531. Haß, Ulrike (2005a): Das Bedeutungsspektrum. In: Haß (Hg.), S. 163-181. Haß, Ulrike (2005b): Besonderheiten des Gebrauchs. In: Haß (Hg.), S. 265-276. Haß, Ulrike (Hg.) (2005): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz. (= Schriften des Instituts für Deutsche Sprache 12). Berlin/ New York. Haß-Zumkehr, Ulrike (2001): Zur Mikrostruktur im Hypertext-Wörterbuch. In: Lemberg/ Schröder/ Storrer (Hg.), S. 103-115. Hausmann, Franz Josef (2004): Was sind eigentlich Kollokationen? In: Steyer (Hg.), S. 309-334. Literatur 307 Hausmann, Franz Josef/ Reichmann, Oskar/ Wiegand, Herbert Ernst/ Zgusta, Ladislav (Hg.) (1989): Wörterbücher - Dictionaries - Dictionnaires. Ein internationales Handbuch zur Lexikographie. 1. Teilbd. (= Handbücher zur Sprach- und Kommunikationswissenschaft ( HSK ) 5.1). Berlin/ New York. Hedtstück, Ulrich (2003): Einführung in die theoretische Informatik. Formale Sprachen und Automatentheorie. 2. überarb. Aufl. München/ Wien. Heuer, Andreas/ Saake, Gunter (1997): Datenbanken. Konzepte und Sprachen. 1. korr. Nachdr. Bonn/ Albany u.a. Heyn, Matthias (1992): Zur Wiederverwendung maschinenlesbarer Wörterbücher. Eine computergestützte metalexikographische Studie am Beispiel der elektronischen Edition des „Oxford Advanced Learner's Dictionary of Current English“. (= Lexicographica: Series Maior 45). Tübingen. Ide, Nancy/ Sperberg-McQueen, Christopher Michael (1995): The TEI : History, Goals and Future. In: Ide/ Véronis (Hg.), S. 1-15. Ide, Nancy/ Véronis, Jean (1995): Encoding Dictionaries. In: Ide/ Véronis (Hg.), S. 167-179. Ide, Nancy/ Véronis, Jean (Hg.) (1995): Text Encoding Initiative. Background and Context. Dordrecht, IETF RFC 2396 = Internet Engineering Task Force ( IETF ) (1998): RFC 2396: Uniform Resource Identifiers. The Internet Society. Internet: www.ietf.org/ rfc/ rfc2396.txt (Stand: April 2007). Jeckle, Mario (2004): Scriptum zur Vorlesung XML . Internet: www.jeckle.de/ vorlesung/ xml/ script.html (Stand: April 2007). Kammerer, Matthias (1995): Bildschirmorientiertes Abfassen von Wörterbuchartikeln. Dargestellt am Beispiel des Frühneuhochdeutschen Wörterbuchs. (= Lexicographica: Series Maior 68). Tübingen. Kammerer, Matthias (1998): Hypertextualisierung gedruckter Wörterbuchtexte. Verweisstrukturen und Hyperlinks. Eine Analyse anhand des „Frühneuhochdeutschen Wörterbuchs“. In: Storrer/ Harriehausen (Hg.), S. 145-171. Kammerer, Matthias (2001): XML -getaggte Wörterbuchartikel. Ein Bericht aus der Praxis des Wörterbuchs zur Lexikographie und Wörterbuchforschung. In: Lexicographica 17, 2001, S. 249-301. Kammerer, Matthias/ Lehr, Andrea (1996): Potentielle Verweise und die Wahrscheinlichkeit ihrer Konstituierung. In: Wiegand (Hg.), S. 311-354. Kang, Beom-Mo (1998): Modifying the TEI - DTD : The Case of Korean Dictionaries. In: Computers and the Humanities 31, 1998, S. 433-449. Kay, Michael (2001): XSLT Programmer's Reference. Birmingham. Der lexikografische Prozess 308 Kilgariff, Adam (2000): Business Models for Dictionaries and NLP . In: International Journal of Lexicography 13, 2, 2000, S. 107-118. Klosa, Annette (2001): Qualitätskriterien der CD - ROM -Publikation von Wörterbüchern. In: Lemberg/ Schröder/ Storrer (Hg.), S. 93-101. Klosa, Annette (2005a): Wortbildung. In: Haß (Hg.), S. 141-162. Klosa, Annette (2005b): Grammatik. In: Haß (Hg.), S. 277-298. Klosa, Annette (2005c): Sprachkritik und Sprachreflexion. In: Haß (Hg.), S. 299-314. Klosa, Annette/ Müller-Spitzer, Carolin (ersch. demn.): Grammatische Angaben in elexiko und ihre Modellierung. In: Gottlieb, Henrik/ Mogensen, Jens Erik (Hg.): Dictionaries, Lexicographical Options and User Needs. Amsterdam. Knowles, Francis (1987): Möglichkeiten des Computereinsatzes in der Sprachlexikographie. In: Wiegand, Herbert Ernst (Hg.): Theorie und Praxis des lexikographischen Prozesses bei historischen Wörterbüchern. Akten der Internationalen Fachkonferenz Heidelberg 3.6.-5.6.86. (= Lexicographica: Series Maior 23), Tübingen, S. 11-33. Knowles, Francis (1990): The Computer in Lexicography. In: Hausmann, Franz Josef/ Reichmann, Oskar/ Wiegand, Herbert Ernst/ Zgusta, Ladislav (Hg.): Wörterbücher. Ein internationales Handbuch zur Lexikographie. 2. Teilbd. (= Handbücher zur Sprach- und Kommunikationswissenschaft ( HSK ) 5.2). Berlin/ New York, S. 1645-1672. Kunze, Claudia/ Wagner, Andreas (2001): Anwendungsperspektiven des GermaNet, eines lexikalisch-semantischen Netzes für das Deutsche. In: Lemberg/ Schröder/ Storrer (Hg.), S. 229-246. Lehr, Andrea (1996): Zur neuen Lexicographica-Rubrik „Electronic Dictionaries“. In: Lexicographica 12, 1996, S. 310-317. Lehr, Andrea (2000): Die neue Unübersichtlichkeit. Fallstricke auf dem Weg von Text zum Hypertext am Beispiel des Taschenbuchs und der CD - ROM der Pädagogik von Helmwart Hierdeis und Theo Hug. In: Lexicographica 16, 2000, S. 235-247. Lemberg, Ingrid/ Schröder, Bernhard/ Storrer, Angelika (2001): Einführung. In: Lemberg/ Schröder/ Storrer (Hg.), S. 1-4. Lemberg, Ingrid/ Schröder, Bernhard/ Storrer, Angelika (Hg.) (2001): Chancen und Perspektiven computergestützter Lexikographie. (= Lexicographica: Series Maior 107). Tübingen. leXeML = leXeML - Auszeichnungssprache für Lexikographie, Terminologie und verwandte Bereiche. Internet: www.lexeml.org (Stand: April 2007). Lobin, Henning (1999): Textdesign, Texttechnologie und Hypertext Engineering. In: Lobin, Henning (Hg.): Text im digitalen Medium. Linguistische Aspekte von Textdesign, Texttechnologie und Hypertext Engineering. Opladen/ Wiesbaden, S. 1-7. Literatur 309 Lobin, Henning (2001): Informationsmodellierung in XML und SGML . Berlin/ Heidelberg/ New York. Lorenz, Kuno (1980): Sprachphilosophie. In: Althaus, Hans Peter/ Henne, Helmut/ Wiegand, Herbert Ernst (Hg.): Lexikon der Germanistischen Linguistik. 2., vollst. neu bearb. u. erw. Aufl. Tübingen, S. 1-28. Maler, Eve/ El Andaloussi, Jeanne (1996): Developing SGML - DTD s. From Text to Model to Markup. Upper Saddle River, NJ . Mittermeier, Ludwig (2003): Naiv Nativ. XML und Datenbanken. In: iX - Magazin für professionelle Informationstechnik 8, 2003, S. 42-52. Möhr, Wiebke/ Schmidt, Ingrid (Hg.) (1999): SGML und XML . Anwendungen und Perspektiven. Berlin/ Heidelberg/ New York. Müller, Carolin (2001): Der lexikografische Prozess. Eine medienneutrale Konzeption. (Dargestellt am Beispiel des Frühneuhochdeutschen Wörterbuchs). Mag.arb. (unveröff.). Heidelberg. Müller-Landmann, Sonja (2001): Wissen über Wörter - Die Mikrostruktur als DTD . In: Lobin, Henning (Hg.): Proceedings der GLDV -Frühjahrstagung 2001. Gießen, S. 31-40. Müller-Spitzer, Carolin (2003): Ordnende Betrachtungen zu elektronischen Wörterbüchern und lexikographischen Prozessen. In: lexicographica 19, 2003, S. 140- 168. Müller-Spitzer, Carolin (2005a): Die Modellierung lexikografischer Daten und ihre Rolle im lexikografischen Prozess. In: Haß (Hg.), S. 20-54. Müller-Spitzer, Carolin (2005b): Vorüberlegungen zu Illustrationen in elexiko. In: Haß (Hg.), S. 204-226. Nesi, Hilary (2000) The Use and Abuse of Efl Dictionaries. How Learners of English as a Foreign Language Read and Interpret Dictionaries. (= Lexciographica. Series maior 98). Tübingen. O'Meara, Dick/ Reeder, Beverly (2005): meta. In: whatis.com. Internet: http: / / searchsqlserver.techtarget.com / sDefinition/ 0"sid87_gci212555, 00.html (Stand: April 2007). Pepper, Steve (1999): Euler, Topic Maps and Revolution. In: XML Europe 1999. Conference Proceedings. Granada, S. 135-150. Petelenz, Krzysztof (1999): Objektorientierte Hypertexterstellung für bilinguale Nachschlagewerke. In: Sprache und Datenverarbeitung 23, 2, 1999, S. 35-62. Quasthoff, Uwe/ Wolff, Christian (1999): Korpuslinguistik und große einsprachige Wörterbücher. In: Linguistik online 3, 2, 1999. Internet: www.linguistik -online.de/ 2_99/ quasthoff.html (Stand: April 2007). Der lexikografische Prozess 310 Rath, Holger (1999): Mozart oder Kugel. Mit Topic Maps intelligente Informationsnetze aufbauen. In: iX - Magazin für professionelle Informationstechnik 12, 1999, S. 149-155. Raymond, Darrell R./ Tompa, Frank Wm. (1988): Hypertext and the Oxford English Dictionary. In: Communications of the ACM 31, 7, 1988, S. 871-879. Reichmann, Oskar (1989): Lexikographische Einleitung. In: Frühneuhochdeutsches Wörterbuch ( FWB ), begründet v. Robert R. Anderson, Ulrich Goebel und Oskar Reichmann. Bd. 1. Berlin/ New York, S. 10-164. Richter, Gerd (2001): Das elektronische Flurnamenbuch - Innovationen in der Flurnamenforschung durch den Einsatz neuer Medien. In: Lemberg/ Schröder/ Storrer (Hg.), S. 179-197. Rothfuss, Gunther/ Ried, Christian (Hg.) (2001): Content Management mit XML . Grundlagen und Anwendungen. Berlin/ Heidelberg/ New York. Schmidt, Ingrid/ Müller, Carolin (2000): Zaubernetz. Inhaltsstrukturen und Topic Maps als Potenzial neuer Informationstechnik. In: iX - Magazin für professionelle Informationstechnik 11, 2000, S. 100-107. Internet: www.heise.de/ ix/ artikel/ 2000/ 11/ 100/ (Stand: April 2007). Schmidt, Ingrid/ Müller, Carolin (2001): Entwicklung eines lexikographischen Modells: Ein neuer Ansatz. In: Lemberg/ Schröder/ Storrer (Hg.), S. 29-52. Schneider, Roman (2004): Benutzeradaptive Systeme im Internet. Informieren und Lernen mit GRAMMIS und ProGr@mm. (= amades. Arbeitspapiere und Materialien zur deutschen Sprache 4/ 04). Mannheim. Schryver, Gilles-Maurice de (2003): Lexicographer's Dreams in the Electronic-Dictionary Age. In: International Journal of Lexicography 16, 2, 2003, S. 143-199. Schult, Thomas J. (1999): Brockhaus oder Silberling. Multimedia-Enzyklopädien: besser als 24 Bände? In: c't 2, 1999, S. 88-113. Smit, Maria (2002): The Systematic Development of Wiegand's Metalexicography as Demonstrated in Kleine Schriften. In: Lexikos 12, 2002, S. 290-310. Sobkowiak, Wlodzimierz (1999): Pronounciation in EFL Machine-Readable Dictionaries. Poznan. Speer, Heino (1994): DRW to FAUST . Ein Wörterbuch zwischen Tradition und Fortschritt. In: Lexicographica 10, 1994, S. 171-213. Sperberg-McQueen, Christopher Michael (1997): What is XML and Why Should Humanists Care? Internet: www.w3c.org/ People/ cmsmcq/ 1997/ drh97. html (Stand: April 2007). Sperberg-McQueen, Christopher Michael/ Burnard, Lou (1995): The Design of the TEI Encoding Scheme. In: Ide/ Véronis (Hg.), S. 17-39. Literatur 311 Sperberg-McQueen, Christopher Michael/ Burnard, Lou (2002): Guidelines for Electronic Text and Interchange. TEI P 4. Text Encoding Initiative Consortium. XML Version. Oxford u.a. Internet: www.tei-c.org/ Guidelines2/ index.html (Stand: April 2007). Sperberg-McQueen, Christopher Michael/ Huitfeld, Claus/ Renear, Allen (2000): Meaning and Interpretation of Markup. In: Markup Languages 2.3, 2000, S. 215- 234. Steindler, Larry (1995): Voraussetzungen und Perspektiven für ein Informationssystem: Österreich - Gegenwart eines Kulturraumes. In: Lexicographica 11, 1995, S. 219-241. Steyer, Kathrin (2004): Kookkurrenz. Korpusmethodik, linguistisches Modell, lexikografische Perspektiven: In: Steyer (Hg.), S. 87-116. Steyer, Kathrin (Hg.) (2004): Wortverbindungen mehr oder weniger fest. Jahrbuch des Instituts für Deutsche Sprache 2003. Berlin/ New York. Storjohann, Petra (2005a): Semantische Paraphrasen und Kurzetikettierungen. In: Haß (Hg.), S. 182-203. Storjohann, Petra (2005b): Diachrone Angaben. In: Haß (Hg.), S. 315-322. Storrer, Angelika (1996): Metalexikographische Methoden in der Computerlexikographie. In: Wiegand (Hg.), S. 239-255. Storrer, Angelika (2001): Digitale Wörterbücher als Hypertexte: Zur Nutzung des Hypertextkonzepts in der Lexikographie. In: Lemberg/ Schröder/ Storrer (Hg.), S. 53-69. Storrer, Angelika/ Harriehausen, Bettina (Hg.) (1998): Hypermedia für Lexikon und Grammatik. (= Studien zur deutschen Sprache 12). Tübingen. Tarp, Sven (1999): Theoretical Foundations of the So-Called Cross-Reference Structures. In: Lexicographica 15, 1999, S. 114-137. Thielen, Christine/ Breidt, Elisabeth/ Feldweg, Helmut (1998): COMPASS : Ein intelligentes Wörterbuchsystem für das Lesen fremdsprachiger Texte. In: Storrer/ Harriehausen (Hg.), S. 173-194. Usdin, Tommie (1990): The Well Dressed DTD . In: Tag 14, 1990, S. 1-5. W3C-Website = World Wide Web Consortium Homepage. Internet: www.w3c.org (Stand: März 2007). Weber, Nico (1999): Die Semantik von Bedeutungsexplikationen. Frankfurt a.M. Weiner, Edmund (1985): The New OED . Problems in the Computerization of a Dictionary. In: University Computing 7, 1985, S. 60-71. Widhalm, Richard/ Mück, Thomas (2002): Topic Maps. Semantische Suche im Internet. Berlin/ Heidelberg/ New York. Der lexikografische Prozess 312 Wiegand, Herbert Ernst (1988): Wörterbuchartikel als Text. In: Wiegand, Herbert Ernst (2000b), S. 877-950. [Erstveröffentlichung des Aufsatzes 1988]. Wiegand, Herbert Ernst (1989a): Der Begriff der Mikrostruktur: Geschichte, Probleme, Perspektiven. In: Hausmann/ Reichmann/ Wiegand/ Zgusta (Hg.), S. 409-462. Wiegand, Herbert Ernst (1989b): Formen der Textverdichtung im allgemeinen einsprachigen Wörterbuch. In: Hausmann/ Reichmann/ Wiegand/ Zgusta (Hg.), S. 462- 501. Wiegand, Herbert Ernst (1995): Lexikographische Texte in einsprachigen Lernerwörterbüchern. Kritische Überlegungen anläßlich des Erscheinens von Langenscheidts Großwörterbuch Deutsch als Fremdsprache. In: Wiegand, Herbert Ernst (2000b), S. 1128-1162. [Erstveröffentlichung des Aufsatzes 1995]. Wiegand, Herbert Ernst (1996a): Das Konzept der semiintegrierten Mikrostrukturen. Ein Beitrag zur Theorie zweisprachiger Printwörterbücher. In: Wiegand (Hg.), S. 1-82. Wiegand, Herbert Ernst (1996b): Über die Mediostrukturen bei gedruckten Wörterbüchern. In: Wiegand, Herbert Ernst (2000b), S. 1163-1192. [Erstveröffentlichung des Aufsatzes 1996]. Wiegand, Herbert Ernst (1997): Über die gesellschaftliche Verantwortung der wissenschaftlichen Lexikographie. In: Hermes - Journal of Linguistics 18, 1997, S. 177-202. Wiegand, Herbert Ernst (1998a): Wörterbuchforschung. Untersuchungen zur Wörterbuchbenutzung, zur Theorie, Geschichte, Kritik und Automatisierung der Lexikographie, 1. Teilbd. Berlin/ New York. Wiegand, Herbert Ernst (1998b): Lexikographische Textverdichtung. Entwurf zu einer vollständigen Konzeption. In: Wiegand (2000b), S. 1454-1489. [Erstveröffentlichung des Aufsatzes 1998]. Wiegand, Herbert Ernst (2000a): Wissen, Wissensrepräsentation und Printwörterbücher. In: Heid, Ulrich/ Evert, Stefan/ Lehmann, Egbert/ Rohrer, Christian (Hg.): Proceedings of the Ninth Euralex International Congress, Euralex 2000, Bd. I. Stuttgart, S. 15-38. Wiegand, Herbert Ernst (2000b): Kleine Schriften. Eine Auswahl aus den Jahren 1970 bis 1999 in zwei Bänden, Bd. 2: 1988-1999. Hrsg. v. Matthias Kammerer und Werner Wolski. Berlin/ New York. Wiegand, Herbert Ernst (2001): Was eigentlich sind Wörterbuchfunktionen? Kritische Anmerkungen zur neueren und neusten Wörterbuchforschung. In: Lexicographica 17, 2001, S. 217-248. Wiegand, Herbert Ernst (2002a): Wissen in der Sprachlexikographie. Ein Plädoyer für einige immer noch notwendige Differenzierungen. In: Ezawa, Kennosuke/ Literatur 313 Kürchner, Wilfried/ Rensch, Karl H./ Ringmacher, Manfred (Hg.): Linguistik jenseits des Strukturalismus. Akten des II . Ost-West-Kolloquiums, Berlin 1998. Tübingen, S.265-281. Wiegand, Herbert Ernst (2002b): Altes und Neues zur Mediostruktur in Printwörterbüchern. In: Lexicographica 18, 2002, S. 168-252. Wiegand, Herbert Ernst (2002c): Adressierung in zweisprachigen Printwörterbüchern. In: Wiegand, Herbert Ernst (Hg.): Studien zur zweisprachigen Lexikografie mit Deutsch VIII . Hildesheim/ Zürich/ New York, S. 111-175. Wiegand, Herbert Ernst (2003): Überlegungen zur Typologie von Wörterbuchartikeln in Printwörterbüchern. Ein Beitrag zur Theorie der Wörterbuchform. In: lexicographica 19, 2003, S. 169-313. Wiegand, Herbert Ernst (2004): Überlegungen zur Mediostruktur in Fachwörterbüchern. Auch am Beispiel des „Wörterbuchs zur Lexikographie und Wörterbuchforschung“. In: Brdar-Szabó, Rita/ Knipf-Komlósi, Elisabeth (Hg.): Lexikalische Semantik, Phraseologie und Lexikographie. Abgründe und Brücken. Festgabe für Regina Hessky. (= Duisburger Arbeiten zur Sprach- und Kulturwissenschaft 57). Frankfurt a.M. u.a., S. 339-365. Wiegand, Herbert Ernst (Hg.) (1996): Wörterbücher in der Diskussion II. Vorträge aus dem Heidelberger Lexikographischen Kolloquium. (= Lexicographica: Series Maior 70). Tübingen. XLink = DeRose, Steve/ Maler, Eve/ Orchard, David/ Trafford, Ben (Hg.) (2001): XML Linking Language (XLink) Version 1.0, World Wide Web Consortium, W3C Empfehlung 27. Juni 2001 (Deutsche Übersetzung: 26. Juni 2002). Internet: www.edition-w3c.de/ TR/ 2001/ REC-xlink-20010627/ (Stand: April 2007). XML Standard = Bray, Tim/ Paoli, Jean/ Sperberg-McQueen, Christopher Michael/ Maler, Eve (Hg.) (2000): Extensible Markup Language ( XML ) Version 1.0 (Third Edition), World Wide Web Consortium, W3C Recommendation 6 October 2000. Internet: www.w3.org/ TR/ REC-xml/ (Stand: April 2007 Third Edition offline, Fourth Edition verfügbar). XML -Namensräume = Bray, Tim/ Hollander, Dave/ Layman, Andrew (Hg.) (1999): Namensräume in XML (Namespaces in XML ), World Wide Web Consortium, W3C Empfehlung 14. Januar 1999 (Deutsche Übersetzung: 18. Juni 2001). Internet: www.schumacher-netz.de/ TR/ 1999/ REC-xml-names-19990114-de.html (Stand: April 2007). XPath = Clark, James/ DeRose, Steve (Hg.) (1999): XML Path Language (XPath) Version 1.0. World Wide Web Consortium, W3C Recommendation 16 November 1999. Internet: www.w3.org/ TR/ xpath (Stand: April 2007). Deutsche, kommentierte Übersetzung: www.edition-w3c.de/ TR/ 1999/ REC-xpath-19991116 (Stand: April 2007). Der lexikografische Prozess 314 XSL = Adler, Sharon et al. (Hg.) (2001): Extensible Stylesheet Language Version 1.0. World Wide Web Consortium, W3C Recommendation 15. October 2001. www.w3.org/ TR/ xsl/ (Stand: April 2007 Version 1.0 offline, Version 1.1 verfügbar). XSLT = XSL Transformations ( XSLT ) Version 1.0. W3C Recommendation 16 November 1999. Internet: www.w3.org/ TR/ xslt (Stand: April 2007). Deutsche Übersetzung: www.edition-w3c.de/ TR/ 1999/ REC-xslt-19991116 (Stand: April 2007).