Digitale romanistische Sprachwissenschaft: Stand und Perspektiven
1218
2023
978-3-8233-9506-5
978-3-8233-8506-6
Gunter Narr Verlag
Lidia Becker
Julia Kuhn
Christina Ossenkop
Claudia Polzin-Haumann
Elton Prifti
10.24053/9783823395065
Die Rolle der Informatik in den Humanwissenschaften, einschließlich der Philologien, gewinnt zunehmend an Gewicht. Auch für die romanistische Sprachwissenschaft ergeben sich daraus einschneidende Veränderungen und neue Perspektiven vor allem in methodologischer Hinsicht. Die Beschreibung zentraler Aspekte dieser Prozesse steht im Mittelpunkt des vorliegenden Bandes, der die Beiträge des XXXIV. Romanistischen Kolloquiums vereint. Das Themenspektrum umfasst theoretische und methodologische Fragestellungen sowie die Präsentation und Diskussion laufender digital-basierter Forschungsprojekte vom Altrumänischen bis zum Gegenwartsspanischen.
<?page no="0"?> ISBN 978-3-8233-8506-6 R O M A N I S T I S C H E S KOLLOQUIUM XXXIV Die Rolle der Informatik in den Humanwissenschaften, einschließlich der Philologien, gewinnt zunehmend an Gewicht. Auch für die romanistische Sprachwissenschaft ergeben sich daraus einschneidende Veränderungen und neue Perspektiven vor allem in methodologischer Hinsicht. Die Beschreibung zentraler Aspekte dieser Prozesse steht im Mittelpunkt des vorliegenden Bandes, der die Beiträge des XXXIV. Romanistischen Kolloquiums vereint. Das Themenspektrum umfasst theoretische und methodologische Fragestellungen sowie die Präsentation und Diskussion laufender digital-basierter Forschungsprojekte vom Altrumänischen bis zum Gegenwartsspanischen. ROMANISTISCHES KOLLOQUIUM XXXIV Digitale romanistische Sprachwissenschaft: Stand und Perspektiven Lidia Becker, Julia Kuhn, Christina Ossenkop, Claudia Polzin-Haumann, Elton Prifti (eds.) Digitale romanistische Sprachwissenschaft: Stand und Perspektiven ROMANISTISCHES KOLLOQUIUM XXXIV <?page no="1"?> Digitale romanistische Sprachwissenschaft: Stand und Perspektiven <?page no="2"?> ROMANISTISCHES KOLLOQUIUM XXXIV Herausgegeben von Lidia Becker, Julia Kuhn, Christina Ossenkop, Claudia Polzin-Haumann und Elton Prifti Band 34 <?page no="3"?> Lidia Becker, Julia Kuhn, Christina Ossenkop, Claudia Polzin-Haumann, Elton Prifti (eds.) Digitale romanistische Sprachwissenschaft: Stand und Perspektiven <?page no="4"?> DOI: https: / / www.doi.org/ 10.24053/ 9783823395065 © 2023 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor: innen oder Herausgeber: innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor: innen oder Herausgeber: innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich. Internet: www.narr.de eMail: info@narr.de CPI books GmbH, Leck ISSN 2750-042X ISBN 978-3-8233-8506-6 (Print) ISBN 978-3-8233-9506-5 (ePDF) ISBN 978-3-8233-0309-1 (ePub) Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. www.fsc.org MIX Papier aus verantwortungsvollen Quellen FSC ® C083411 ® <?page no="5"?> 7 15 41 69 91 119 149 193 Inhalt Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Methodologie Ursula Reutner Digital Humanities auf dem Prüfstand. Analysemethoden für digitale Korpora von E-Mails über Internetseiten bis zu Wikipedia . . . . . . . . . . . . . . Vera Mathieu, Julia Montemayor Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? Kritische Überlegungen, Bedarfe und Potenziale . . . . . . . . . . . . . . . . . . . . . . Historisch-etymologische Lexikographie Florian Zacherl Automatisierte Erschließung von strukturierten Daten aus Wörterbuchtexten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Benjamin Husson, Sarah Kremer Les outils de l’informatisation du FEW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Alessandro Alfredo Nannini La mappatura semantica del Lessico Etimologico Italiano (LEI). Possibilità, metodi e prospettive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Korpuslinguistik Sabine Tittel Kulturerbe, historische Linguistik und Semantic Web. Eine Einführung mit Fallbeispiel zu französischen linguistischen Ressourcen . . . . . . . . . . . . . . . . Elmar Schafroth Digitale Phraseologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . <?page no="6"?> 219 251 271 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary Construction, exploitation et exploration de ressources linguistiques pour le traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sam Mersch Erste Schritte zu einer digitalen Chrestomathie des Altrumänischen . . . . . Thomas Scharinger Digital Humanities und Sprachgeschichte am Beispiel des USTC. Zum Wert digitaler Kataloge frühneuzeitlicher Drucke für die sprachgeschichtliche Forschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Inhalt <?page no="7"?> Einleitung Die ersten Versuche des Einbezugs von Informatik in sprachwissenschaftliche Analyseverfahren, die bis in die frühen 1960er Jahre zurückgehen, trugen aufgrund ihres Erfolgs zu einer zunehmenden Öffnung der Linguistik in Bezug auf die digitale Welt bei. Dies erlebt einen substanziellen Qualitätssprung insbesondere seit der Jahrtausendwende, der auch mit der Konsolidierung der sogenannten Digital Humanities in Verbindung steht. Die Digitalisierung erreichte auch die traditionsreiche romanistische Sprachwissenschaft, in der mittlerweile etwa bei der Konzeption neuer Forschungsprojekte digitale Kom‐ ponenten nahezu ein Muss geworden sind. Bei länger laufenden Projekten wird intensiv, manchmal sogar etwas übereifrig der digitale Anschluss gesucht; bei abgeschlossenen Projekten wird versucht, die Ergebnisse in digitalisierter Form zugänglich und weiter verwertbar zu machen. Durch die tiefgreifenden Veränderungen, die eine automatisierte Gewinnung, Verarbeitung, Darstellung und Nutzung von Forschungsdaten und -ergebnissen mit sich bringen, befindet sich auch die romanistische Sprachwissenschaft an einem methodischen Wen‐ depunkt, über den es zu diskutieren gilt. Diese zentrale Fragestellung stand im Fokus der 34. Edition des Romanis‐ tischen Kolloquiums, das Ende 2019 an der Universität Wien stattfand. Der Schwerpunkt wurde dabei über die Beschreibung des aktuellen Standes der digitalen romanistischen Sprachwissenschaft hinaus auf zentrale theoretische und methodische Fragen, Probleme und Herausforderungen sowie auf konkrete, methodisch innovative und zukunftsträchtige Praxisbeispiele gelegt. Im vorlie‐ genden Band sind ausgewählte Beiträge des Kolloquiums in drei inhaltlichen Blöcken versammelt, in denen allgemeine methodologische Fragen behandelt und Facetten der Digitalisierung in der historisch-etymologischen Lexikogra‐ phie sowie in der Korpuslinguistik vorgestellt werden. Es zeichnet sich dabei eine substanzielle Erweiterung des Spektrums der Digitalisierung von der Gewinnung, Verwaltung und eindimensionalen Nutzung digitaler Daten zur zusätzlichen Digitalisierung der Forschungsmethoden aus. Sowohl im Hinblick auf die romanischen Sprach- und Kulturräume als auch auf die sprachgeschicht‐ lichen Perioden sowie die sprachwissenschaftlichen Disziplinen decken die Beiträge des Bandes ein breites Spektrum ab. Der erste Block wird mit dem Beitrag Digital Humanities auf dem Prüfstand. Analysemethoden für digitale Korpora von E-Mails über Internetseiten bis zu Wiki‐ <?page no="8"?> pedia von Ursula Reutner eröffnet, in dem sich die Autorin mit dem Aufkommen und mit der graduellen Konsolidierung der digitalen Geisteswissenschaften in methodischer Hinsicht auseinandersetzt. Dies wird anhand einiger Forschungs‐ projekte in der romanistischen Linguistik unternommen, wobei die durch die Digitalisierung gewonnenen Erkenntnisse und die daraus resultierenden Konsequenzen betrachtet und so die Wirkung der Verbindung von Digital- und Geisteswissenschaften überprüft werden. Nach einem Blick auf aktuelle Defini‐ tionen und Erklärungsversuche des Begriffs Digital Humanities stellt der Beitrag einige Forschungsmethoden vor, die verschiedene Möglichkeiten der Analyse digitaler Textkorpora wie E-Mails, Webseiten und Wikipedia beinhalten. Die verschiedenen Methoden und die damit erzielten Erkenntnisse werden kritisch abgewogen. So sollen insgesamt die Möglichkeiten und Grenzen der Digital Humanities als geisteswissenschaftliches Fachgebiet aufgezeigt werden. Im Mittelpunkt des zweiten Beitrags Digitale romanistische Linguistik als Ort methodologischer Paradigmendiskussion? Kritische Überlegungen, Bedarfe und Potenziale von Vera Mathieu und Julia Montemayor steht die Diskussion über den mixed methods-Ansatz bzw. über die Kombination von qualitativen und quantitativen Methoden in romanistischen Studien, in denen computerge‐ stützte Analyseansätze zunehmend an Relevanz gewinnen und die neue, viel versprechende Perspektiven eröffnen. Ferner werden dabei die Möglichkeiten der softwarevermittelten qualitativen Kategorisierung von Sprachdaten sowie die partielle Adaption korpuslinguistischer Verfahren bei der Analyse von Sprachdaten anhand exemplarischer Einblicke in die Praxis vorgestellt. Im zweiten Block, in dem drei Beiträge vereint sind, werden einzelne Aspekte der sich immer weiter konsolidierenden Digitalisierung in der historisch-etymo‐ logischen Lexikographie beleuchtet. Gegenstand der Abhandlungen sind drei monumentale romanistische Werke: das Romanische Etymologische Wörterbuch (REW) in seiner 3. Edition, das Lessico Etimologico Italiano (LEI) sowie das Französische Etymologische Wörterbuch (FEW). Florian Zacherl setzt sich in seinem Beitrag Automatisierte Erschließung von strukturierten Daten aus Wör‐ terbuchtexten mit den nicht wenigen inhaltlichen und technischen Herausforde‐ rungen auseinander, die die komplexe und besonders aufwändige Umwandlung der Werke von der papiernen Version in strukturierte digitale Versionen mit zahlreichen neuen und sehr nützlichen Verwendungsmöglichkeiten mit sich bringt. Nach einigen grundsätzlichen Überlegungen zur Darstellung lexikali‐ scher Daten, insbesondere in einer relationalen Datenbank, wird am Beispiel des REW 3 eine Methode des besagten Umwandlungsprozesses vorgestellt, die aus vier Arbeitsschritten besteht: Extrahierung des Originaltextes aus den gescannten Seiten mittels optischer Zeichenerkennung und Speicherung in 8 Einleitung <?page no="9"?> einer relationalen Datenbank; Extraktion der einzelnen Artikel und struktu‐ rierte Hierarchisierung ihrer Bestandteile durch eine formale Grammatik und Darstellung in einer baumartigen Struktur; Umwandlung dieser in tabellarische Daten, wobei implizite Konventionen, die von den Konventionen des jeweiligen Quellenmaterials abhängen, aufgelöst werden, sowie abschließend die (digitale) Veröffentlichung der extrahierten und neu organisierten Daten, die zudem stets verbessert, korrigiert und mit anderen Online-Ressourcen und dem Semantic Web verbunden werden können. Ein ähnlicher Weg wurde auch beim FEW eingeschlagen. Es befindet sich seit mehreren Jahren in einem (Retro)digitalisierungsprozess, der vom fran‐ zösischen Forschungslabor Analyse et Traitement Informatique de la Langue Française (ATILF) durchgeführt wird. Benjamin Husson und Sarah Kremer stellen in ihrem Beitrag Les outils de l’informatisation du FEW die verschiedenen informatischen und typografischen Werkzeuge und Techniken vor, die dabei verwendet werden. Die Herausforderungen und die groben prozeduralen Ab‐ läufe sind ähnlich wie im Falle des REW 3 . Im Rahmen des Beitrags werden verschiedene Teilprojekte vorgestellt, deren Ziel die komplexe Umwandlung des Textes in digitale Daten ist. Es werden dabei die wichtigsten technischen Hürden des besagten Prozesses präsentiert, die mit Hilfe moderner Technologien und Standards bewältigt werden mussten und noch müssen. Ein Schwerpunkt wurde auch im Bereich der digitalen Typographie bzw. in der soliden Planung, Ent‐ wicklung, eleganten Gestaltung und erfolgreichen Umsetzung einer speziellen digitalen Schriftart gelegt, die eine online-Visualisierung des in typographischer Hinsicht komplexen Wörterbuchs ermöglicht. Anders als das FEW befindet sich das Langzeitprojekt LEI noch im Entstehungs‐ prozess. In klassischer, papierner Form wurden 23 großformatige Bände publiziert, während der Rest des LEI (in etwa die Buchstabenstrecken G-Z) in genuin digitaler Form verfasst und publiziert werden. Demnach ist der Digitalisierungsprozess, der für das LEI im Jahr 2018 begonnen hat, entsprechend komplexer und mit größeren Herausforderungen verbunden. Ein Aspekt des umfangreichen Projekts LEI digitale (Prifti 2022) ist das semantische mapping des LEI, das im Grunde in der Verknüpfung von lexikalischen Einträgen und Konzepten besteht, die die außersprachliche Realität repräsentieren. Das ist der Gegenstand des Beitrags La mappatura semantica del Lessico Etimologico Italiano (LEI). Possibilità, metodi e prospettive von Alessandro Alfredo Nannini, der sich damit seit einigen Jahren befasst. Er stellt dabei die semantischen Strukturen des LEI, den darauf basierten mapping-Prozess sowie das zu Grunde liegende Begriffssystem dar. Ferner werden einige Perspektiven vorgestellt, die das semantische mapping für das LEI und für die Lexikographie im Allgemeinen öffnet. Einleitung 9 <?page no="10"?> Der dritte inhaltliche Block, der vier Beiträge mit korpuslinguistischem Bezug vereint, wird mit dem Beitrag Kulturerbe, historische Linguistik und Semantic Web: Eine Einführung mit Fallbeispiel zu französischen linguistischen Ressourcen eröffnet, in dem sich Sabine Tittel mit der digital gestützten Bearbeitung historischer Sprachressourcen auseinandersetzt, die als schriftliche Zeugnisse alle Aspekte des historischen Lebens erfassen und damit der Generierung und Bewahrung von kulturhistorischem Wissen dienen. Die Modellierung und Veröffentlichung historischer Sprachressourcen nach dem Linked Open Data (LOD)-Paradigma des Semantic Web ist eine Möglichkeit, dieses Wissen zugäng‐ lich zu machen. Der LOD-Ansatz ermöglicht einen Zugang, der weit über die derzeitigen Suchfunktionen des World Wide Web mit ihren Defiziten hinausgeht. Neben einer kurzen Einführung in LOD werden im Beitrag die syntaktische Struktur des Datenformats Resource Description Framework beschrieben und die Prinzipien der semantischen Abbildung auf Ontologien erläutert. Anhand eines Anwendungsfalls von altfranzösischen, mittelfranzösischen und modernen regionalen französischen Wörterbüchern wird dann gezeigt, wie historische linguistische Daten mit dem OntoLex-Lemon-Modell modelliert werden können. Im Artikel Digitale Phraseologie von Elmar Schafroth werden drei digitale Projekte vorgestellt, die mit Phraseologie zu tun haben und sich auf das Italieni‐ sche oder auf mehrere Sprachen gleichzeitig beziehen. Es handelt sich dabei um das Projekt FRAME (Fraseologia Multilingue Elettronica), in dem Satzglieder in sieben Sprachen (Chinesisch, Deutsch, Englisch, Französisch, Italienisch, Rus‐ sisch, Spanisch) nach den Prinzipien der Konstruktionsgrammatik beschrieben werden. Das zweite Projekt, welches sich auf audiovisuelles Material stützt und in dem auf aktuelle Forschungsfragen wie das Verhältnis zwischen Phraseologie und Konstruktionsgrammatik eingegangen wird, richtet sich an Studierende der romanischen Sprachen, des Deutschen und des Englischen, die sich für die Phra‐ seologie interessieren. Im Rahmen des dritten Projekts, GEPHRI (Gebrauchsba‐ sierte Phraseologie des Italienischen), werden die 500 häufigsten verbalen Idiome des Italienischen in einer Datenbank, hauptsächlich nach den Prinzipien der Konstruktionsgrammatik, teilweise auch nach der Frame-Semantik beschrieben und zur Nutzung bereitgestellt. Die automatische Identifizierung von Mehrwortausdrücken ist eine entschei‐ dende Komponente für die Verarbeitung natürlicher Sprache, stellt aber neben der Erkennung von Idiomatizität auch Herausforderungen wie Variabilität, Mehrdeutigkeit und Unstimmigkeit dar. Um die Lösung dieses Problems be‐ müht sich im Beitrag Construction, exploitation et exploration de ressources linguistiques pour le traitement automatique des expressions polylexicales en français: le projet PARSEME-FR die Autorengruppe Mathieu Constant, Marie 10 Einleitung <?page no="11"?> Candito, Yannick Parmentier, Carlos Ramisch und Agata Savary. Dafür wurden im Rahmen des Projekts PARSEME-FR neue Modelle und Algorithmen sowie neue linguistische Ressourcen entwickelt, wie etwa Annotationsrichtlinien für Mehrwortausdrücke und entsprechend annotierte Korpora sowie Werkzeuge zur Strukturierung und Vervollständigung lexikalischer Ressourcen. Der darauffolgende Beitrag Erste Schritte zu einer digitalen Chrestomathie des Altrumänischen stammt von Sam Mersch und bietet einen Einblick in das digitale Editionsprojekt der altrumänischen Chrestomathie von Moses Gaster. Ziel der Abhandlung ist die Darstellung der Probleme und der entsprechenden Lösungsüberlegungen, die sich bei der Durchführung der digitalen Editionsar‐ beit ergeben, wobei der Schwerpunkt auf den technischen Aspekten liegt. Der Artikel Digital Humanities und Sprachgeschichte am Beispiel des USTC. Zum Wert digitaler Kataloge frühneuzeitlicher Drucke für die sprachgeschichtliche Forschung von Thomas Scharinger schließt den Sammelband ab. Darin wird die Eignung des Universal Short Title Catalogue (USTC) für die sprachhistorische Forschung zu den romanischen Sprachen erörtert, der als digitale Datenbank mit detaillierten Informationen (z. B. Autorschaft, Ort, Region, Sprache, Thema) zu mehr als 740.000 im frühneuzeitlichen Europa gedruckten Ausgaben die Rekonstruktion des Gebrauchs einer bestimmten Sprache in einem bestimmten Gebiet zu einer bestimmten Zeit ermöglichen kann. Anhand von drei Fallstudien wird gezeigt, dass die mit dem USTC generierten Daten genutzt werden können, um etwa die Beziehung zwischen Latein und den romanischen Volkssprachen, die Rivalität zwischen zwei konkurrierenden romanischen Sprachen wie Kata‐ lanisch und Spanisch sowie die Verbreitung einer romanischen Sprache über ihr ursprüngliches Gebiet hinaus zu untersuchen. Die Studien in diesem Band, die räumlich weitgehend die gesamte Romania abdecken und eine Vielzahl von verschiedenartigen Aspekten und Betrach‐ tungsperspektiven behandeln, bezeugen die stete Konsolidierung eines digitalen Wandels auch in der romanistischen Sprachwissenschaft, der sich zunehmend im Bereich der Methode entfaltet und eine immer stärker werdende interdiszipli‐ näre Orientierung aufweist. Dies eröffnet neue, viel versprechende Forschungs‐ perspektiven; innovative methodische Wege zeichnen sich immer deutlicher ab. Die wissenschaftliche Diskussion über die Fortschritte, vor allem aber über die Entwicklungsperspektiven, allen voran im methodischen Bereich, muss allerdings ununterbrochen fortgeführt werden und diese Prozesse begleiten. Dabei muss auch dem rasanten Rhythmus der Entwicklung der Digitalität Rechnung getragen werden. Wir sind Clara Comas Valls, Charlotte Siemeling, Magnus Fischer, Giulia Agnello-Steil und Valentina Fabris für ihre Unterstützung bei der Erstellung Einleitung 11 <?page no="12"?> der Druckvorlage sowie Kathrin Heyng (Narr Francke Attempto Verlag) für die Betreuung dieses Bandes zu Dank verpflichtet. 1 Bibliographie FEW = Wartburg, Walther von et al. (1922-2002): Französisches Etymologisches Wörter‐ buch. Eine darstellung des galloromanischen sprachschatzes, 25 vols., Bonn et al., Klopp et al. LEI = Prifti, Elton/ Schweickard, Wolfgang (eds.) (1979-): Lessico Etimologico Italiano (LEI), fondato da Max Pfister, Wiesbaden, Reichert. Prifti, Elton (2022): „Il LEI digitale. Un resoconto, con particolare attenzione alla dialetto‐ logia“, in: Cortelazzo, Michele A./ Morgana, Silvia/ Prada, Massimo (eds.): Lessicografia storica dialettale e regionale, Firenze, Franco Cesati, 293-314. REW 3 = Meyer-Lübke, Wilhelm ( 3 1935): Romanisches etymologisches Wörterbuch, Heidel‐ berg, Winter. Lidia Becker Julia Kuhn Christina Ossenkop Claudia Polzin-Haumann Elton Prifti 12 Einleitung <?page no="13"?> Methodologie <?page no="15"?> Digital Humanities auf dem Prüfstand Analysemethoden für digitale Korpora von E-Mails über Internetseiten bis zu Wikipedia Ursula Reutner Abstract The digital revolution has changed our lives in many ways. In academics, this change manifests itself in the development of new disciplines, as well as in extended research areas and new analytical methods for those already established. In the humanities, the emergence of digital humanities has attracted much attention and led to a debate about the value and explanatory power of this new field. Are digital technologies no more than analytical tools for more easily and reliably generating knowledge that could in the past also be achieved, only with greater effort? Or do these me‐ thods and procedures instead allow results that are simply not conceivable otherwise? These questions are reason enough to consider some research projects in Romance linguistics with regard to the knowledge gained through digitalization and the findings as to its consequences, thus testing the impact of combining digital and humanities. Due to the fuzziness of the term digital humanities, it is necessary to first clarify what it actually means. After looking at current definitions and efforts to explain the term, we present some research methods involving different ways of analyzing digital text corpora such as e-mails, webpages, and Wikipedia. We outline the methods applied and the insights achieved, and we subsequently critically examine each approach. The result is a comprehensive overview of a clearly defined field of study in the humanities that demonstrates the opportunities and limits of digital humanities in this specific area. Keywords: digital humanities, corpus-linguistics, discourse analysis, me‐ thodology, social media, Wikipedia, e-mail, web pages <?page no="16"?> Keywords: Digital Humanities, Korpuslinguistik, Diskursanalyse, Me‐ thodik, Social Media, Wikipedia, E-Mail, Internetseiten 1 Einleitung Die digitale Revolution hat unser Leben in vielerlei Hinsicht verändert. In den Wissenschaften zeigt sich dies in der Entstehung neuer Wissenschaftsdis‐ ziplinen und in erweiterten Untersuchungsgebieten sowie Analysemethoden für bereits etablierte Disziplinen. Letztere werden gerne unter dem Schlagwort Digital Humanities zusammengefasst, das zugleich emotional aufgeladen ist. Verfechter erhoffen sich von der digitalen Auswertung einen besonderen Erkenntnisgewinn, Kritiker sehen einen im Vergleich zum Ertrag ungerechtfer‐ tigten Aufwand. Befürworter halten den Wert der Analyse großer Datenmengen hoch, Gegner den Mehrwert der genauen Analyse von Einzeldaten. Apologeten führen die Objektivierung durch maschinelles Zählen, Berechnen und Visuali‐ sieren an, Kontrahenten vermissen hermeneutisches Deuten sowie die intensive und zugleich intuitive Auseinandersetzung mit den einzelnen Daten. Wie so oft liegt die Wahrheit irgendwo dazwischen und lässt sich die Entscheidung über die Methode nur abhängig vom jeweiligen Erkenntnisziel treffen. Die aufgeworfenen Fragen sind dennoch Anlass genug, einmal romanistische Forschung im Hinblick auf den Erkenntnisgewinn durch Digitalisierung zu betrachten und zugleich die Verbindung aus Geisteswissenschaften und Digi‐ talem in Form von Digital Humanities auf den Prüfstand zu stellen. Dabei ist erst einmal zu klären, was unter den vagen Begriff der Digital Humanities eigentlich zu fassen ist. Dies erfordert zunächst einen Blick auf kursierende Definitionen und Erklärungsversuche und erlaubt im Anschluss Anmerkungen zur Tradition der Digital Humanities in der Sprachwissenschaft sowie zu Fragen der Abgrenzung. Auf dieser Basis werden exemplarisch einige Forschungsar‐ beiten zu originär digitalen Korpora vorgestellt: Arbeiten zur sprachlichen und inhaltlichen Analyse von E-Mails, zur Bildlichkeit und Farbgestaltung von Internetseiten und zu verschiedenen Aspekten der Online-Enzyklopädie Wikipedia, darunter die Sprache, Bildlichkeit und der Aufbau der Artikelkörper, die Formulierung der Artikeltitel und der Grad der sprachlichen Gewalt auf den Diskussionsseiten. In jedem Fall werden das Korpus, das Erkenntnisziel, die Methode und der Erkenntnisgewinn skizziert und das Vorgehen kritisch hinterfragt. Dadurch ergibt sich ein umfassendes Bild zu einem klar definierten Forschungsgebiet der Geisteswissenschaften, das einige Chancen und Grenzen der Digital Humanities in diesem Bereich aufzeigt. 16 Ursula Reutner <?page no="17"?> 2 Digital Humanities - 2.1 Von der Vagheit der Definition Worüber sprechen wir überhaupt, wenn wir von Digital Humanities reden? So leicht zu beantworten ist diese zunächst einfach klingende Frage nicht, denn eine klare Definition ist schwer zu finden. Nicht umsonst setzt sich ein ganzes Werk mit dem sprechenden Titel Defining Digital Humanities mit dem Thema auseinander (Terras/ Nyhan/ Vanhoutte 2013). „Answering the question ‚What is digital humanities? ‘ continues to be a rich source of intellectual debate for scholars“, halten die Herausgeber einleitend fest (Nyhan/ Terras/ Vanhoutte 2013, 6) und stellen zugleich die Sinnhaftigkeit einer Definition in Frage. Eine solche sei nicht nur unmöglich, sondern eventuell auch unproduktiv, da sie das gerade erst aufkommende Feld unnötig begrenze: Indeed, at the current time, not only does a comprehensive definition appear to be impossible to formulate, when the breadth of work that is covered by a number of recent and forthcoming companions is considered […], it might ultimately prove un‐ productive, by fossilising an emerging field and constraining new, boundary-pushing work. (Nyhan/ Terras/ Vanhoutte 2013, 6) So überrascht es kaum, dass auch die einschlägigen Handbücher eher das Tätigkeitsfeld umreißen als eine klare Definition liefern (cf. Schreibman/ Sie‐ mens/ Unsworth 2004; McCarty 2005; Unsworth/ Siemens/ Schreibman 2016; Jan‐ nidis/ Kohle/ Rehbein 2017). Definitorische Einigkeit besteht lediglich darin, dass es sich um eine Verbindung aus Geisteswissenschaften und Informatik handelt (cf. Definitionen 1-6). Darüber hinausgehend bleiben die Deutungen vage und liefern ein „ungemein breites Bild“ (2), das teils auf geisteswissenschaftliche For‐ schung reduziert wird, deren Ergebnisse anderweitig „nicht zu erzielen wären, oder nur auf einer niedrigeren Ebene intersubjektiver Wahrnehmbarkeit“ (3). Sie erwähnen die Anwendung, Entwicklung und Erforschung computergestützter Verfahren (4-5) sowie die mögliche Konsequenz eines generellen Wandels in den Geisteswissenschaften (6). 1. Im weitesten Sinne handelt es sich dabei um die Beantwortung geisteswissen‐ schaftlicher Fragestellungen mithilfe digitaler Methoden. (DARIAH-DE 2015, 8) 2. Verstehen wir die Digital Humanities als die Summe aller Versuche, die In‐ formationstechniken auf den Gegenstandsbereich der Geisteswissenschaften anzuwenden, ergibt sich ein ungemein breites Bild. (Thaller 2017, 13) 3. Unter Digital Humanities verstehen wir alle Arten geisteswissenschaftlicher Forschung, die versuchen, durch den Einsatz moderner Informationstechnolo‐ gien oder aus der Informatik abgeleiteter Instrumente inhaltliche Ergebnisse zu Digital Humanities auf dem Prüfstand 17 <?page no="18"?> erzielen, die ohne den Einsatz dieser Instrumente weder gar nicht zu erzielen wären, oder nur auf einer niedrigen Ebene intersubjektiver Nachprüfbarkeit. (Thaller 2014) 4. […] I propose a twofold definition: First, DH encompasses all kinds of research in the Humanities that partly gains its findings from applying computer-based procedures, practices, and tools. In this understanding, Digital Humanities is pure Humanities scholarship […]. Second, DH encompasses the design, development, and generalization of these computer based procedures, practices and tools, as well as the study of their underlying theories and models. In this understanding, Digital Humanities is rather an auxiliary science […]. (Rehbein 2020, 252) 5. Die Forscherinnen und Forscher in diesem Feld beschäftigen sich damit, neue Entwicklungen in der Informatik auf ihre Verwendbarkeit in den Geisteswissen‐ schaften zu prüfen oder eigenständig geeignete Verfahren zu entwickeln, und sie erforschen die Algorithmen und Datenstrukturen, die sich als geeignet erwiesen haben. ( Jannidis/ Kohle/ Rehbein 2017, XI) 6. […] harnessing computing power to facilitate, improve, expand and perhaps even change the way humanists work. (Gardiner/ Musto 2015, 4-5) Weitergehende Erklärungen weisen zudem auf Beteiligte wie Kommunika‐ tions-, Grafik- und Bilddesigner (7) sowie interdisziplinäre Fragestellungen (8) hin. 7. Digital Humanities projects most closely involve communication/ graphic/ visual designers who are concerned with the symbolic representation of language, the graphical expression of concepts, and questions of style and identity. (Bur‐ dick/ Drucker/ Lunenfeld/ Presner/ Schnapp 2012, 12) 8. [Digital humanities] asks what it means to be a human being in the networked information age and to participate in fluid communities of practice, asking and answering research questions that cannot be reduced to a single genre, medium, discipline, or institution. (Burdick/ Drucker/ Lunenfeld/ Presner/ Schnapp 2012 xii-xiii) Die Definitionen der weltweit am häufigsten konsultierten Enzyklopädie spre‐ chen ähnlich vage von „a variety of topics“ (9), eröffnen die Spanne zwischen dem niedrigschwelligen Einsatz digitaler Ressourcen bis hin zu großen Data-Mi‐ ning-Projekten (9-10) und schließen zudem die „Reflexion“ über die Methoden und ihre Anwendung ein (10). 9. Digital Humanities is an area of scholarly activity at the intersection of compu‐ ting or digital technologies and the disciplines of the humanities. Developing from the fields of humanities computing, humanistic computing, and digital 18 Ursula Reutner <?page no="19"?> humanities praxis, [It] developed out of humanities computing and has become associated with other fields, such as humanistic computing, social computing, and media studies. [It] embraces a variety of topics, from curating online collections of primary sources (primarily textual) to the data mining of large cultural data sets. (Wikipedia EN 2023) 10. systematische Nutzung computergestützter Verfahren und digitaler Ressourcen in den Geistes- und Kulturwissenschaften sowie die Reflexion über deren Anwendung. (Wikipedia DE 2023) Die Liste an Definitionen ließe sich beliebig fortsetzen (cf. z. B. Gibbs 2013, 290), ohne das vage Ergebnis zu konkretisieren. Daran ändert auch eine mögliche Unterscheidung zwischen der Untersuchung von Digitalisierungsphänomenen mit geisteswissenschaftlichen Methoden, Humanities for Digitalization, kurz H4D, und der Anwendung digitaler Methoden auf geisteswissenschaftliche Fragestellungen, Digitalization for Humanities, kurz D4H, wenig. Der Versuch einer Annäherung an die Begriffsdefinition mithilfe struktureller Semantik liefe daher ins Leere, sodass allein ein prototypensemantischer Ansatz Klärung bringen dürfte, der lediglich Klarheit bezüglich der idealtypischen Ausprägung des Faches erfordert, wozu am Ende dieses Beitrags ein Vorschlag formuliert wird. - 2.2 Traditionen in der Sprachwissenschaft Beschränken wir uns an dieser Stelle auf den unstrittigen Aspekt der Verbindung aus Geisteswissenschaften und Informatik bzw. auf die auch im Terminus Digital Humanities selbst enthaltene Begrifflichkeit aus Digitalem und Geistes‐ wissenschaften, so lässt sich zunächst festhalten, dass eine solche in der Sprach‐ wissenschaft intensiv praktiziert wurde, bevor das Schlagwort selbst in aller Munde war. Beide Kernelemente aus der Definition (10), „computergestützte Analysemethoden [Verfahren]“ und „digitale Ressourcen“, finden sich seit ihrem Aufkommen auch in der sprachwissenschaftlichen Forschung, die in beiden Richtungen der Kooperation zwischen Geisteswissenschaften und Informatik, also sowohl in D4H, als auch in H4D, präsent ist. Computergestützte Analysemethoden werden in der Sprachwissenschaft traditionell in der Korpuslinguistik eingesetzt, die damit einen Teilbereich der Digital Humanities avant la lettre darstellt. Gegenüber manuellen Auswertungs‐ verfahren bietet die automatisierte Auswertung einige Vorteile: den Einbezug größeren Datenmaterials, die Reduzierung von menschlichem Versehen, die Anwendung statistischer Verfahren mit der Möglichkeit, Muster zu erkennen und Ergebnisse auf statistische Signifikanz zu prüfen. Mit der Etablierung Digital Humanities auf dem Prüfstand 19 <?page no="20"?> der modernen Korpuslinguistik ist die Sprachwissenschaft damit bereits seit längerem im Bereich der Digitalization for Humanities (D4H) verortet. Im Hinblick auf digitale Ressourcen ist zwischen digitalisierten und originär digitalen Texten zu unterscheiden. Die Digitalisierung von Texten aus der nicht digitalen Welt erlaubt zum einen, Kulturgüter zu bewahren und einer breiteren Öffentlichkeit zugänglich zu machen. Zum anderen ist sie eine Voraussetzung für die computergestützte Analyse und eine automatisierte Verknüpfung von Daten. Umfangreiche Digitalisierungsprojekte gelten im Bereich der Romanistik derzeit zum Beispiel Sprachatlanten und etymologischen Wörterbüchern wie dem Romanischen Etymologischen Wörterbuch, dem Französischen Etymologi‐ schen Wörterbuch oder dem Lessico etimologico italiano (↑Zacherl; ↑Husson/ Kremer und ↑Nannini) und profitieren zweifellos vom Aufschwung der Digital Humanities. Digitale Ressourcen im Sinne originär digitaler Texte sind wiederum auch ohne diesen Aufschwung ein Forschungsgebiet der Sprachwissenschaft. Dabei sind zweierlei Arten von Texten zu unterscheiden: Die einen entstanden früher oder entstehen auch heute noch parallel in nicht digitaler Form. Sie haben damit immer Entsprechungen in der nicht digitalen Welt, mit denen sie verglichen werden können, wodurch sich die sprachlichen Neuerungen durch die Digita‐ lisierung beschreiben lassen (zu den entsprechenden Parametern, cf. Reutner 2013b). Andere Texte gäbe es ohne die Digitalisierung vermutlich nicht im jeweiligen Ausmaß. Zu ihnen zählen etwa umfangreiche Enzyklopädien in klei‐ neren Minderheitensprachen wie sie mit entsprechenden Wikipediaversionen aufkommen und dabei zum Beispiel Fragen der Normierung neu aufwerfen (cf. z. B. Reutner 2020, 784, 794). Da Sprachwissenschaft traditionell jeglicher Realisierungsform von Sprache gilt, sei sie nun schriftlich, mündlich oder seit Jüngstem eben auch digital produziert, stehen beide Typen digitaler Manifesta‐ tionsformen von Sprache automatisch im Interesse der Sprachwissenschaft und belegen völlig unabhängig von der Existenz einer Disziplin Digital Humanities zugleich einen Beitrag der Sprachwissenschaften im Bereich Humanities for Digitalization (H4D). - 2.3 Fragen der Abgrenzung Wo also ist sinnvollerweise die Grenze zu ziehen zwischen ureigenen Bereichen und Verfahren einer bestimmten Disziplin und neuen Bereichen und Verfahren, mit denen diese in die Digital Humanities fällt? Verkürzt ließe sich fragen: Ab wann werden Humanities zu Digital Humanities? Werfen wir einen Blick auf die Methoden, so stellt sich die Frage, ob der Einsatz jedweder computergestützten Methode aus einer geisteswissenschaftlichen Arbeit ein Werk der Digital Huma‐ 20 Ursula Reutner <?page no="21"?> nities entstehen lässt, oder ob ein bestimmter Anteil oder Komplexitätsgrad des Digitalen erreicht sein muss, damit in Verbindung mit geisteswissenschaftlichen Fragestellungen von Digital Humanities gesprochen werden kann. Zugespitzt ließe sich die Frage formulieren: Beginnen Digital Humanities bereits, wenn der Geisteswissenschaftler den Computer anschaltet und eine Exceltabelle erstellt? Selbst wenn einer solch ironischen Anmerkung ein eindeutiges „nein“ entgegenzusetzen ist, bleibt angesichts der vagen Definition des Fachgebiets die Grenzziehung zwischen einem zu geringen Einsatz des Digitalen und einem genügenden Anteil im Zweifelsfall schwer. Werden Digital Humanities als reine community of practice verstanden, so gehören ihr ohnehin jegliche Forschungs‐ arbeiten an, deren Urheberinnen oder Urheber glauben dazuzugehören bzw. dazugehören möchten, was durchaus legitime Abgrenzungsversuche natürlich ad absurdum führt. Des Weiteren besteht keine Übereinkunft, ob die Nutzung eines bereits existierenden Softwareprogramms ausreicht, damit von Digital Humanities gesprochen werden kann, oder ob eine Forschungsarbeit ihnen nur dann angehören sollte, wenn speziell für die aufgeworfene Fragestellung ein neues Werkzeug (Tool) entwickelt wurde oder zumindest ein vorhandenes Werkzeug spezialisierte Antworten gibt. Manches spricht dafür, dass Digital Humanities einen höheren Anteil des Digitalen umfassen sollte, als es die wiederholte Anwendung etablierter Programme zu leisten vermag. Zugleich besteht die eigentliche Herausforderung häufig weniger in der Entwicklung des jeweiligen Werkzeugs, als in der passenden Formulierung der Forschungsfrage sowie der durchdachten Vorstrukturierung, Aufbereitung und Interpretation der Daten, was die Frage nach der neuartigen Programmierung wiederum in den Hinter‐ grund rücken lässt. Wie kann eine bestimmte geisteswissenschaftliche Fragestellung mit den Methoden der Informatik beantwortet werden? So lautet eine der zentralen Fragen bei der Verbindung aus Geisteswissenschaften und Informatik, und ihre Lösung hängt entscheidend von der gelungenen Übersetzung des Forschungsin‐ teresses auf ‚Digitalisch‘ ab. Idealerweise sind Fragestellung und Methodenwahl oder -entwicklung eng verzahnt und entstehen interdisziplinär im Dialog zwischen Vertretern aus der Informatik und den Geisteswissenschaften. Eine enge Definition der Digital Humanities könnte die Frage, wie hoch und wie komplex der Anteil des Digitalen in den Geisteswissenschaften sein sollte, daher etwa auch lösen, indem sie eine Interdisziplinarität im Vorgehen voraussetzt. Digital Humanities auf dem Prüfstand 21 <?page no="22"?> 3 Erkenntnisziel und Korpus Das Erkenntnisziel für diesen Beitrag ist die Frage nach dem zusätzlichen Erkenntnisgewinn bei der mit digitalen Mitteln erfolgten Auswertung: Sind die Methoden der Digital Humanities einfach nur Hilfsmittel, um zuvor mühevoll ermitteltes Wissen einfacher und sicherer zu generieren? Oder werden dank dieser Methoden auch Ergebnisse erzielt, die ohne sie nicht denkbar wären? Diese Fragen können auch an dieser Stelle weder generell noch abschließend be‐ antwortet werden. Wohl aber lassen sie sich anhand einiger Beispiele vertiefen, die eine Annäherung an die Antwort erlauben. Sie sind demnach Anlass genug, einmal den potentiell einschlägigen Teil der Forschung am eigenen Lehrstuhl im Hinblick auf den Erkenntnisgewinn durch Digital Humanities zu betrachten. Die Beschränkung auf die eigene Forschung erklärt sich aus drei Gründen: Erstens lassen sich die Möglichkeiten und Grenzen der angewandten Methoden besser einschätzen, als es der zwangsweise oberflächliche Blick auf fremde Forschung erlaubt, da der Methodeneinsatz in der Praxis des Forschungspro‐ zesses bereits hinterfragt und in seinen Alternativen abgewogen wurden und die Gründe, warum welche Methode gewählt wurde, gut bekannt sind. Zweitens muss vermieden werden, die Forschung anderer ohne tiefergehende Einsicht in die jeweiligen Hintergründe, das vollständige Korpus und die angestrengten Überlegungen zu bewerten, was in einem kurzen Beitrag nicht solide möglich wäre und den Autoren damit gegebenenfalls nicht gerecht werden würde. Drittens wäre die Frage der Auswahl der zu untersuchenden Studien vor dem Hintergrund der vagen Definition des Feldes ohnehin kaum repräsentativ lösbar, sodass ein Einbezug fremder Studien auch nur zu impressionistischen Ergebnissen führen könnte. Aus der eigenen Forschung lässt sich hingegen nach klaren Kriterien ein quantitativ überschaubares Korpus erstellen, dessen qualitative Hintergründe bekannt sind und das ohne potenzielle Verletzung Dritter kritisch betrachtet werden kann. Es erlaubt damit zwar keine Verallge‐ meinerung der Ergebnisse, wohl aber Einsichten in einige grundsätzliche Fragen bei Studien zu einem bestimmten Forschungsthema. In Betracht kommen prinzipiell Untersuchungen, die auf einem digitalen Korpus basieren und/ oder ein Korpus mit digitalen Methoden niederschwelliger bis anspruchsvollerer Natur auswerten. Die Verwendung digitaler Ressourcen ist bei der statistischen Auswertung von Phänomenen in größeren Textkorpora (cf. Chalier/ Eiber/ Reutner 2020) oder der Arbeit mit digitalisierten Lexika hilfreich, die die systematische Abfrage nach bestimmten, eventuell auch kom‐ binierten Markierungsangaben ermöglichen. Diese erleichtert z. B. Studien zu italienischen Lehnwörtern im Französischen (cf. Reutner 2008) oder zu Euphe‐ 22 Ursula Reutner <?page no="23"?> mismen im Italienischen (cf. Reutner 2009; 2014a), Französischen (cf. Reutner 2009; 2013a) und Spanischen (cf. Reutner 2011; 2012a). Die Auswertung der Lexika wäre theoretisch auch durch manuelle Durchsicht möglich, in der Praxis aber eine äußerst zeitaufwändige Sisyphusaufgabe. Handelt es sich so nun um zusätzlichen Erkenntnisgewinn durch Digitalisierung oder nicht? Da die Erkenntnisse bis zu einem gewissen Grad auch ohne Digitalisierung erzielbar wären, kann die Frage zunächst verneint werden. Da die Erkenntnisse aufgrund des enormen Zeitaufwands vermutlich nicht oder nur selten manuell ermittelt werden würden und zugleich systematischer vorgegangen werden konnte und mehr Hypothesen untersucht werden konnten, ist sie zugleich zu bejahen und damit ein weiteres Beispiel dafür, wie schwer der zusätzliche Erkenntnisgewinn in der Realität zu bestimmen ist. Grundlage für den vorliegenden Beitrag sind aber nicht Studien auf der Basis digitalisierter Ressourcen und ihrer Funktionalitäten, sondern Analysen von originär digitalem Sprach- und Bildmaterial, Material also, das digital entstanden ist. Untersucht werden Studien zu E-Mails (↑4.1), Webauftritten (↑4.2) und Wikipediaseiten (↑4.3). Alle verfolgen als übergeordnetes Forschungs‐ interesse die Frage, ob Sprach- und Kulturunterschiede der nicht virtuellen Welt im digitalen Raum bewahrt oder eher homogenisiert werden. Sie beinhalten damit bis zu drei Vergleichsdimensionen: Im kulturellen Vergleich werden Unterschiede zwischen einzelnen Sprachkulturen bestimmt (cf. Reutner 2012b). Im medialen Vergleich werden die digitalen Realisierungsformen den ihnen zugrundeliegenden traditionellen Textsortenmustern gegenübergestellt (E-Mail vs. Brief, Webauftritt vs. Printkatalog von Firmen, Online-Enzyklopädie vs. Printenzyklopädie). Der fachspezifische Vergleich gilt Unterschieden, die sich aus Sparten und Themen ergeben. Das Interesse des vorliegenden Beitrags an diesen Studien liegt in der Frage nach den Chancen und Grenzen der Methodenwahl. Hierfür werden die einzelnen Projekte in jeweils gleicher Anordnung behandelt. Zunächst wird das jeweilige Korpus aus E-Mails, Internetseiten oder Wikipediabeiträgen vor‐ gestellt. Im Folgenden werden das Erkenntnisziel formuliert, die angewandten Analysemethoden skizziert und der Erkenntnisgewinn resümiert. Abschließend werden das gewählte Vorgehen sowie alternative Vorgehensweisen kritisch hinterfragt und dabei die oben aufgeworfenen Fragen aufgegriffen. Digital Humanities auf dem Prüfstand 23 <?page no="24"?> 4 Originär digitale Korpora und ihre Analyse - 4.1 E-Mails und Nachrichten: Sprache und Bild Korpus: Grundlage der Analyse sind je 100 französische und spanische Be‐ gleitschreiben, mit denen ein zuvor versandter Fragebogen als E-Mail-Anhang zurückgesandt wurde (cf. Reutner 2010). Erkenntnisziel: E-Mail-Schreibtraditionen werden im medialen Vergleich zum traditionellen Brief und im kulturellen Vergleich zwischen Frankreich und Spanien herausgearbeitet. Methode: Die E-Mails wurden manuell im Hinblick auf die Existenz und Art der Anredeformel, Schlussformel und Unterschrift sowie die Form und den Inhalt des Nachrichtenkörpers untersucht. Die einzelnen Kategorien wurden in Exceltabellen aufbereitet, dort mit Parametern wie Alter und Herkunft verknüpft und in Diagrammen visualisiert. Insgesamt wurde ein originär di‐ gitales Korpus überwiegend manuell analysiert. Einfache digitale Methoden unterstützten die Auswertung und erlaubten die grafische Darstellung der Ergebnisse. Erkenntnisgewinn: Es ergeben sich einige Unterschiede zum herkömmli‐ chen Brief, die bei den Franzosen besonders ausgeprägt sind. Diese orientieren sich weniger stark an den Normen des klassischen Briefs als die Spanier, die wiederum durch den überwiegenden Gebrauch von Anrede- und Schlussfor‐ meln, Unterschriften sowie meist vollständigen Sätze auffallen. Auch sind die spanischen E-Mails häufig länger, da sie neben den notwendigen Fakten meist noch zusätzliche Aussagen im Sinne des Beziehungsaufbaus enthalten. Wäh‐ rend mediale Unterschiede zum klassischen Brief damit nur teilweise erkennbar sind, stechen französisch-spanische Kulturunterschiede deutlich hervor. Reflexion: Das Korpus ist relativ klein, dafür im Hinblick auf Verfasser und Inhalt ausgesprochen homogen und damit für einen bestimmten Bereich der E-Mail-Kommunikation aussagekräftig. Für die Ermittlung genereller Schreibtraditionen in E-Mails bräuchte es eine Vielzahl solcher Korpora, die in vergleichsweise ähnlich homogener Qualität unter Berücksichtigung des Datenschutzes schwer zu beschaffen sind. Stünden sie zur Verfügung, würde ihre Auswertung von digitalen Analysemethoden profitieren. Bei dem relativ kleinen Korpus ist deren Einsatz im Hinblick auf das Erkenntnisziel nicht hilfreich, da zunächst ohnehin die einzelnen Kategorien manuell zu bestimmen sind und die automatisierte Auswertung erst bei einem größeren Korpus ihre volle Kraft entfalten könnte. Letztendlich benötigen auch statistische Verfahren große Stichproben, um valide und sinnvoll interpretierbare Aussagen liefern zu 24 Ursula Reutner <?page no="25"?> können, sodass hier eine sorgfältige manuelle Auswertung sicherlich das beste zur Verfügung stehende Mittel war. Eine quantitative Analyse großer Datenmengen erfolgt häufig beispielsweise bei Kurznachrichten, die in Sozialen Netzwerken versandt und von den An‐ bietern ausgewertet werden. So reagiert zum Beispiel Facebook sensibel auf bestimmte im Messenger fallende Stichwörter, wenn es auf den Seiten des Senders im Anschluss tatsächlich oder vermeintlich passende Werbeannoncen schaltet. Die automatisierte Stichwortsuche führt teils zu guten Ergebnissen, geht zugleich aber mit der fehlerhaften Interpretation einiger Stichwörter einher, die die beschränkte qualitative Aussagekraft einer einfachen Stichwort‐ suche schnell offenbart. Manuell wäre eine Stichwortsuche in solch großen Datenmengen wiederum überhaupt nicht zu leisten, während die automatisierte Datenauswertung immerhin auch eine Verknüpfung der Stichwörter mit per‐ sonenbezogenen Daten erlaubt. Die Qualität der Ergebnisse lässt sich durch Methoden des Natural Language Processing (NLP) verbessern, die Kontexte, Inhalte oder auch die Grundstimmung der Autoren teilweise gut einzuordnen erlauben. Ein komplett automatisches Erkennen etwa von Straftätern, Straftaten oder sprachlicher Gewalt ist aufgrund der Komplexität der natürlichen Sprache, die weit über den Gebrauch einzelner Stichwörter oder kontextualisierte Inhalte hinausgeht, bislang nicht möglich. Polizei, Nachrichtendienste und Soziale Netz‐ werke, die die Integrität der auf ihren Plattformen geäußerten Aussagen im Blick haben, arbeiten daran und stoßen immer wieder an natürliche Grenzen. Diese sind bislang auch noch der automatischen Bilderkennung gesetzt, die manchmal zum Beispiel vergleichsweise harmlose Bilder zensieren und demgegenüber pornographische Inhalte ungefiltert erscheinen lässt. Hinzu kommt, dass Bilder aufgrund der komplexen Wahrnehmungsebenen selbst bei hermeneutischer Analyse oft schwierig in der Interpretation sind. Im Hinblick auf den vergleichsweise einfachen Ausgangspunkt des medialen und kulturellen Vergleichs von E-Mail-Korpora lässt sich festhalten, dass die nicht maschinelle Auswertung eines kleinen homogenen Korpus relativ sichere Aussagen über einen klar definierten Bereich ermöglicht und von komplexeren Methoden nur bedingt profitieren könnte. - 4.2 Internetseiten: Bildlichkeit und Farbgestaltung Korpus: Untersucht werden drei Subkorpora: Das erste Subkorpus umfasst die Startseiten der Internetauftritte von 66 deutschen und französischen Unter‐ nehmen, die in den jeweiligen Leitindizes gelistet sind (cf. Reutner/ Schubach 2012). Da die einzelnen Sparten in den Indizes beider Länder unterschiedlich gewichtet sind und die Sparte Einfluss auf die Seitengestaltung haben kann, Digital Humanities auf dem Prüfstand 25 <?page no="26"?> werden zudem die Seiten von Unternehmen aus derselben Sparte verglichen. Ein zweites Subkorpus besteht daher aus jeweils fünf deutschen und französischen Banken und Automobilherstellern aus dem DAX und CAC40 (cf. Reutner 2014c), ein drittes aus acht spanischen und vier deutschen Banken und Versicherern aus dem DAX und IBEX35 (cf. Reutner 2015). Erkenntnisziel: Die Forschungsleitfrage gilt der Dimension kultureller und branchenbedingter Unterschiede bei der Gestaltung von Webseiten. Methode: Vergleichsparameter sind die Typografie, Farbwahl und Seiten‐ anordnung sowie der Einsatz von Bildern. Für eine Aussage zur Typografie wurden manuell Hervorhebungen wie Fettdruck, Versalien, Kapitälchen, Kur‐ sivierungen und Unterstreichungen ausgezählt und mit Hilfe gängiger Software die Schriftart und -größe ermittelt. Zur Bestimmung von Farbwahl und Bildein‐ satz wurden manuell die Position des Firmenlogos und die Anzahl der Bilder pro Seite sowie ihrer Überlappung durch Texte oder Textboxen ausgezählt; mithilfe eines Softwareprogramms wurde eine Farbraumanalyse aller Seiten vorgenommen und die Seitenaufteilung unterschiedlichen Rastern zugeordnet. Die teils manuell, teils mit Hilfe bereits existierender Programme gewonnenen Ergebnisse wurden in eine Exceltabelle aufgenommen und auf Korrelationen untersucht. Erkenntnisgewinn: Die Ergebnisse belegen eine auffallende Neigung der französischen und einiger spanischer Seiten zur Kombination von Schriftarten, zum Einsatz auffälliger typographischer Elemente und zu einer relativ freien Seitengestaltung, während auf den deutschen Seiten klassische Schriften und eine klare Anordnung der einzelnen Elemente dominieren. Die romanischspra‐ chigen Seiten zeigen zudem deutlich mehr Mut zur Farbe als die deutschen und fallen darüber hinaus durch einen stärkeren Einsatz von Bildern auf, die sich oder den Text teilweise überlappen. Vielfalt und Kreativität kennzeichnen die Seiten vor allem französischer Unternehmen, Übersichtlichkeit und strukturelle Klarheit die deutscher Firmen. Die spanischen Seiten nehmen in der Ästhetik ihrer Gestaltung eine mittlere Position zwischen den deutschen und den fran‐ zösischen ein. Reflexion: Insbesondere für die Ermittlung von Farben und Schriftgrößen ist die computergestützte Analyse notwendig und erlaubt eine allein durch das Auge des Betrachters nicht erzielbare Genauigkeit der Bestimmung. Die Vergleichsparameter lassen sich für diese ersten Studien nur durch die intensive Auseinandersetzung mit den Subkorpora ermitteln. Auf ihrer Basis aber könnte ein größeres Korpus von Unternehmensseiten automatisiert untersucht werden. Die subtilere Analyse der Botschaft einzelner Bilder ist wiederum nur durch den menschlichen Betrachter möglich und erfordert somit ein hermeneutisches 26 Ursula Reutner <?page no="27"?> Herangehen, das einerseits genauer, zugleich aber wiederum anfälliger für subjektive Präferenzen oder Voreingenommenheiten ist. - 4.3 Wikipedia 4.3.1 Sprache und Inhalt der Artikelkörper Korpus: (i) Kleinere Untersuchungen basieren auf den deutschen, englischen, italienischen, französischen und spanischen Wikipediaartikeln zum Thema Euro sowie Währungsartikeln in Printenzyklopädien (cf. Reutner 2013b; 2014b). (ii) Eine größere Studie analysiert 120 Artikel zu jeweils fünf Stichwörtern aus den vier Bereichen Geographie, Chemie, Medizin und Wirtschaft in je drei franzö‐ sischen und italienischen Enzyklopädien, darunter je zwei Printenzyklopädien und Wikipedia (cf. Eiber 2020). Erkenntnisziel: Das Forschungsinteresse beider Studien gilt der Frage nach kulturellen Unterschieden zwischen den einzelnen Wikipediaversionen und medialen Unterschieden zwischen Wikipedia und Printenzyklopädien. Die größere Studie berücksichtigt zudem fachspezifische Besonderheiten. Methode: (i) Inhaltlich wurden die Wikipediaartikel durch vollständige Lektüre (close reading) in thematische Teilbereiche untergliedert, die im An‐ schluss ausgezählt, gewichtet und quantitativ verglichen wurden, was Com‐ puter optimal zu leisten vermögen. Sprachlich wurden die französischen und italienischen Wikipediaartikel einer strukturellen Analyse unterzogen und die Ergebnisse mit den Sprachstrukturen der Währungsartikel traditioneller Printenzyklopädien verglichen. Das kleinere Korpus wurde damit traditionell ausgewertet. (ii) Auch die größere Studie hat einen traditionellen Anteil: Manuell ermittelt wurden Kulturbezüge und behandelte Themen sowie Fach‐ ausdrücke, wertende Ausdrücke und Abweichungen von der Standardsprache. Automatisierte Auswertungsverfahren ermöglichten die Extraktion statistisch signifikanter Schlüsselwörter und Kookkurrenzen, die Berechnung der durch‐ schnittlichen Wort- und Satzlänge sowie des lexikalischen Reichtums durch das MTLD-Maß. Das Textmaterial wurde hierfür durch Tree Tagger mit Anno‐ tationen zu Wortarten und Lemmata angereichert und konnte über CQPweb nach Medium (Print oder Wiki), Sprache (Französisch oder Italienisch) und Fach (Geographie, Chemie, Medizin, Wirtschaft) abgefragt werden. Erkenntnisgewinn: (i) Der Vergleich ergibt sowohl kulturelle als auch intermediale Unterschiede. Kulturunterschiede treten in der jeweiligen thema‐ tischen Schwerpunktsetzung deutlich hervor. Die italienische Version legt zum Beispiel viel Wert auf die Ästhetik von Münzen und Scheinen. Nur in ihr werden diese detailliert mit Bildern und Erklärungen vorgestellt, während die deutsche Version in besonderer Ausführlichkeit technische Fragen zum Funktionieren Digital Humanities auf dem Prüfstand 27 <?page no="28"?> des Euro behandelt. Der mediale Vergleich zeigt, dass klassische Ideale der Enzyklopädiesprache teilweise beibehalten, zugleich aber durch Elemente der konzeptionellen Mündlichkeit ergänzt werden. Hierzu zählen eine geringere Informationsdichte, syntaktische Komplexität und lexikalische Elaboriertheit als es in Printenzyklopädien üblich ist, was häufig die Verständlichkeit, Klarheit, kurzum Leserfreundlichkeit von Wikipedia fördert. (ii) Die größere Studie zeigt im Medienvergleich, dass Wikipediaartikel ten‐ denziell länger sind als gedruckte Artikel und dabei nicht nur einzelne Aspekte ausführlicher behandeln, sondern insgesamt mehr Aspekte anschneiden, dabei aber auch widersprüchliche und unvollständige Informationen liefern. Der Grad der Fachsprachlichkeit von Wikipediaartikeln ist etwas niedriger als der gedruckter Artikel, wobei die durchschnittliche Wortlänge in etwa vergleichbar und nur der Anteil fachsprachlicher Ausdrücke geringfügig niedriger ist. Auf‐ fällig sind zudem jüngere Fachausdrücke aus dem Bereich der Informatik, die in Wikipedia bereits erscheinen und in den Printenzyklopädien noch fehlen. Im Hinblick auf den Neutralitätsgrad stechen in Wikipedia positive Bewertungen hervor, die in Printenzyklopädien unüblich sind und sich insbesondere in einer starken Frequenz von Hochwertwörtern wie fr. célèbre/ it. celebre und fr. fameux/ it. famoso manifestieren. Abgesichert werden die Informationen in Wikipedia wiederum durch Verweise auf Experten und Studien, die in Printenzyklopädien ebenso ausbleiben. Zudem zeigen sich in Wikipedia einige Performanz- und Kompetenzfehler (z. B. Tippfehler, unvollständige Sätze) sowie eine geringere lexikalische Variation (niedrigerer MTLD-Wert) als in Printenzy‐ klopädien. Der Sprach- und Kulturvergleich ergibt, dass französische Artikel eine größere thematische Breite aufweisen als italienische und damit auch durch‐ schnittlich länger sind. Die italienische Wikipedia ist insgesamt stärker als die französische am Modell italienischer Printenzyklopädien ausgerichtet als die französische Wikipedia an ihren Printentsprechungen. Ein Beispiel sind Län‐ derartikel, die in der italienischen Wikipediaversion ebenso wie in italienischen Printenzyklopädien ein Kapitel zu Traditionen und Folklore enthalten. Die französische Wikipedia entfernt sich weiter vom Modell der zeitgenössischen französischen Printenzyklopädie, was sich unter anderem dann zeigt, wenn im Artikel Banque kritische Reflexionen zum Bankensystem aufscheinen, die wiederum an entsprechende Passagen in der Encyclopédie von Diderot und D’Alembert erinnern. Sowohl die französischals auch die italienischsprachige Fassung von Wikipedia sind durch Bezugnahmen auf Frankreich bzw. Italien geprägt, was in Form von expliziten Vergleichen oder implizit zum Beispiel durch die Erwähnung der Lettres persanes im französischsprachigen Artikel 28 Ursula Reutner <?page no="29"?> zu Afghanistan oder des Vatikanstaats im italienischsprachigen Artikel zu Saudi-Arabien erfolgt. Der Grad der Fachsprachlichkeit ist in der französischen Wikipedia nur etwas höher als in der italienischen, in der wiederum mehr Anglizismen verwendet werden. Die französische Wikipedia lässt zudem ein verstärktes Bemühen um sprachliche Rücksichtnahme gegenüber gesellschaft‐ lichen Gruppierungen erkennen, was für die italienische Wikipedia nicht gleichermaßen gilt. Erscheinungen konzeptioneller Mündlichkeit treten sprach‐ spezifisch auf. In der französischen Wikipedia fallen beispielsweise die Tilgung stummer Buchstaben oder auch Linksdislokationen auf, in der italienischen eher Kongruenzschwächen oder der Rückgang schriftsprachlicher Pronomina. Der fachliche Vergleich ergibt gemessen an der Wortlänge und dem Anteil von Fachausdrücken einen höheren Grad der Fachsprachlichkeit in Chemie- und Medizinartikeln als in Artikeln aus den Bereichen Wirtschaft und Geographie. Kulturbezüge erscheinen in beiden Versionen unabhängig vom Fach, sodass selbst zunächst kulturunspezifische Themen wie Alkohol in den Artikeln Be‐ züge zu den Ländern Frankreich bzw. Italien aufweisen. Sprechsprachliche Elemente treten in Artikeln aller Fächer auf, was die Schlussfolgerung nahelegt, dass diese medienbedingt sind. Insgesamt lässt sich sagen, dass Wikipediaartikel fachliche, sprachliche und kulturelle Spezifika aufweisen, die sich ebenso bei gedruckten Enzyklopädieartikeln nachweisen lassen und somit Charakteristika der Diskurstradition im digitalen Medium fortsetzen. Zu diesen treten Erschei‐ nungen konzeptioneller Mündlichkeit, die durch die multiplen Textvergleiche auf die Produktionsbedingungen im Wiki zurückgeführt werden konnten. Reflexion: (i) Einzelne Artikel sind nicht repräsentativ für eine gesamte Enzyklopädie. Ihre Analyse erlaubte es, einige Aspekte festzuhalten, die in einem größeren Korpus untersucht werden können. Diese gilt es zunächst zu ermitteln, eine automatisierte Auswertung ist an dieser Stelle kaum sinnvoll. (ii) Das größere Korpus ist aussagekräftiger und kann vom Einsatz digitaler Methoden stark profitieren. Die automatische Auswertung setzt zwar einen relativ hohen Aufwand bei der Digitalisierung und Annotation der Daten voraus, erlaubt dann aber die automatische Berechnung von Wortlängen, Satzlängen, lexikalischer Varianz und das Erkennen sprachlicher Muster, die manuell so nicht zu Tage treten würden und zugleich nicht so leicht statistisch zu verifizieren wären. Schwierig erwies sich die digitale Analyse bei der genaueren Ermittlung der behandelten Themen und kulturellen Bezüge, der Frequenz von Fachausdrücken, wertenden Ausdrücken und manchen Verstößen gegen die sprachliche Norm. Automatisierbar wäre eventuell die Termextraktion. Doch sind entsprechende Programme bislang meist für das Englische gut trainiert, was nur eines der Beispiele für einen Bedarf an besseren Werkzeugen für die Digital Humanities auf dem Prüfstand 29 <?page no="30"?> Analyse von Daten in romanischen Sprachen und anderen Sprachen jenseits des Englischen ist. 4.3.2 Aufbau und Bildersprache der Artikelkörper Korpus: Für die Auswertung wurde ein Korpus mit 557 Lemmata aus Wiki‐ pedia erstellt und durch die Artikelvarianten, so vorhanden, aus zehn Sprach‐ versionen ergänzt: der deutschen, englischen, französischen, italienischen, spanischen, portugiesischen, katalanischen, galicischen, baskischen und okzi‐ tanischen. Das Korpus wurde nach der inhaltlichen Ausrichtung der Artikel in drei Kategorien eingeteilt: kulturunspezifische, intern-kulturspezifische und extern-kulturspezifische Artikelthemen. Das kulturunspezifische Korpus dient als Referenzkorpus und umfasst Artikel zu naturwissenschaftlichen Inhalten aus dem medizinischen, chemischen und physikalischen Bereich. Das intern-kul‐ turspezifische Korpus umfasst Artikel zu kulturell geprägten Themenbereichen wie zum Beispiel Literatur, Geschichte, Kunst oder Philosophie der Gegenden, in denen die oben genannten Sprachen gesprochen werden. Das extern-kultur‐ spezifische Korpus enthält Artikel, die kulturelle Aspekte aus anderen Ländern beschreiben (laufendes Projekt). Erkenntnisziel: Forschungsleitend ist die Frage, wie sich die einzelnen Sprach- und Kulturräume im Hinblick auf Aufbau und Bildlichkeit der Enzy‐ klopädieartikel unterscheiden. Methode: Für die computergestützte Analyse wurde eine ikonografische Auswertung aller 557 Lemmata in den zehn verschiedenen Wikipediaversionen vorgenommen. Bei der Auswertung wurden Symbole ignoriert und lediglich aussagekräftige Bilder untersucht, die eine gewisse Größe bei der Darstellung auf der Seite überschreiten. Dabei wurde der konkrete Inhalt der Bilder in der automatischen Analyse außer Acht gelassen und der Fokus auf die einfache Frage gelegt, ob die Bilder identisch sind oder nicht. Da sämtliche Bilder von Wikipedia zentral in Wikimedia abgespeichert werden, tragen gleiche Bilder den gleichen Dateinamen. Abweichende Dateinamen geben somit einen Hinweis auf eine unterschiedliche Bebilderung. Für die ikonografische Betrachtung wurde ein Algorithmus programmiert, der das Bildmaterial in den Artikelkörpern analysiert. Der Algorithmus generiert Matrizen, die den prozentualen Anteil gleicher Bebilderung in verschiedenen Sprachversionen wiedergeben. Für die qualitative Analyse wurden insgesamt 1.985 Artikel aus neun verschiedenen Wikipediaversionen manuell ausgewertet. Als Vergleichsparameter wurden zunächst die Basiselemente eines Artikels wie Artikellänge, Gliederung und Bilder herangezogen. Ferner wurden die Infobox und deren farbliche Gestaltung 30 Ursula Reutner <?page no="31"?> und das Vorkommen übersetzter Textelemente in die qualitative Analyse ein‐ bezogen. Erkenntnisgewinn: Die Auswertung ergibt in allen drei Subkorpora Unter‐ schiede zwischen den Sprachversionen. Selbst im vermeintlich kulturunspezifi‐ schen Korpus zeigt sich eine unterschiedliche Schwerpunktsetzung. Während beispielsweise die italienischsprachige Wikipedia den geschichtlichen Aspekt in medizinischen Artikeln dominant zu Artikelbeginn beschreibt, erscheint dieser in der englischsprachigen Wikipedia nur am Rande zu Artikelende. Ferner zeigen sich Zusammenhänge zwischen verschiedenen Sprachversionen. So finden sich auffallende Ähnlichkeiten zwischen den iberoromanischen Versionen in Spanisch, Katalanisch und Galicisch. Die okzitanische Version hingegen orientiert sich vermehrt an der französischen. In den kulturunspezi‐ fischen und extern-kulturspezifischen Korpora hingegen erfolgt eine Orientie‐ rung insbesondere des Portugiesischen am Englischen. Reflexion: Für die ikonografische Auswertung ist die computergestützte Analyse zum Teil hilfreich. Durch die Verwendung eines Algorithmus können im Vorfeld zur manuellen Auswertung ein großes Korpus untersucht und erste Tendenzen kultureller Einflüsse identifiziert werden. Eine Analyse der Bildposi‐ tionierung in Bezug auf den Textinhalt und vor allem eine genauere Bestimmung der Bildbotschaft ist jedoch nur durch eine manuelle Auswertung möglich. Computergestützt kann schon ein einzelnes aus unterschiedlichen Perspektiven fotografiertes Element (z. B. Eifelturm, Kolosseum, Brandenburger Tor) gege‐ benenfalls nicht hundertprozentig zuverlässig als identisch erkannt werden. Noch weniger lässt sich maschinell eine mögliche Botschaft interpretieren, die durch die unterschiedlichen Perspektiven vermittelt wird. Die ergänzende manuelle Analyse ist daher unerlässlich und erlaubt, die groben Ergebnisse der computergestützten Analyse näher zu betrachten. 4.3.3 Formulierung der Artikeltitel Korpus: Das Korpus besteht aus insgesamt 1.176 möglichen Titeln für 36 Artikelkörper der französischsprachigen Fassung von Wikipedia, wobei pro Inhalt sowohl die dauerhaft als Haupttitel verbleibende Bezeichnung als auch alternative Benennungen aus Definitionen, Umleitungen und Umbenennungen aufgenommen wurden. Ausgewählt wurden einerseits Inhalte, deren Benen‐ nung strittig sein könnte: historische und jüngste Ereignissen (von der Okto‐ berrevolution in Russland bis hin zu den Attentaten auf Charlie Hebdo in Frankreich), körperliche und geistige Einschränkungen (von Blindheit über Körperbehinderung zu Trisomie 21) sowie Hautfarben. Andererseits wurden Inhalte ausgewählt, bei denen zwar der Inhalt der Benennung unumstritten Digital Humanities auf dem Prüfstand 31 <?page no="32"?> ist, nicht aber deren Form: Artikel zu US-amerikanischen Sportvereinen sowie Titel mit Lexemen, deren Schreibung von der französischen Orthografiereform betroffen ist (cf. Reutner/ Eiber 2019). Erkenntnisziel: Von Interesse sind die Gründe für die Durchsetzung oder Ablehnung einzelner Titelvarianten. Über diese wird in der Online-Enzyklo‐ pädie Wikipedia gemeinschaftlich entschieden, was sie von traditionellen Print‐ enzyklopädien unterscheidet, in denen die Formulierung der Lemmata meist zentral vorgegeben ist. Methode: Für die vorliegende Untersuchung wurden die Inhalte, bei denen Abänderungen zu erwarten sind, intuitiv ausgewählt. Im Anschluss galt es, alle alternativen Titel zu einem bestimmten Inhalt zu ermitteln. Dies erfolgte über den Link informations sur la page, der ausgehend von der Webversion von Wikipedia zu einer Seite führt, die als weiteren Link nombre de redirections enthält und dort nicht nur die Anzahl, sondern auch die Titel aufzeigt, die sich aus Umleitungen oder Umbenennungen ergeben. Die alternativen Titel sowie die Umbenennungsaktionen und teils auch deren Begründungen konnten also mit Hilfe der Wikifunktionalitäten recherchiert werden. Im Anschluss wurde versucht, die Gründe für die Bevorzugung eines bestimmten Titels nachzuvollziehen. Gelesen wurden so die entsprechenden Diskussionsseiten und Versionsgeschichten, die manchmal erklärende Kommentare enthalten. Automatisch wurden damit nur die alternativen Titel ermittelt, manuell wurden die untersuchten Inhalte ausgewählt und die genauen Abläufe rekonstruiert, die dann im Anschluss linguistisch-hermeneutisch ausgewertet wurden. Erkenntnisgewinn: Bei der Ereignisdenomination ist die Wahrung der Neutralität und im Falle jüngster Ereignisse zusätzlich die Passung des Titels zum jeweils aktuellen Kenntnisstand ausschlaggebend. Bei den Titeln, die auf soziale Gruppen Bezug nehmen, wird größtmögliche sprachliche Rücksicht‐ nahme ihnen gegenüber angestrebt, solange diese nicht die Verständlichkeit kompromittiert. Bei den Titeln mit ausländischen Eigennamen und von der Orthografiereform betroffenen Ausdrücken treten sprachliche Vorlieben Ein‐ zelner zutage, die geduldet werden, solange die Systematizität gewahrt bleibt. Insgesamt ergibt die Studie ein Streben nach möglichst neutralen, ideologisch unbelasteten, ökonomischen, sprachsensiblen und zugleich eindeutigen Titeln, die inhaltlich zum Informationsstand und sprachlich zu anderen Titeln passen. Reflexion: Die Wikifunktionalitäten erlauben das Auffinden der alterna‐ tiven Titel zu einem bestimmten Inhalt. Der zu untersuchende Inhalt selbst kann bislang nur intuitiv bestimmt werden. Wünschenswert wären Funktionen oder Programme, die eine gezielte Suche nach einer bestimmten Art von Abänderung (z. B. „Titel wurde geändert“) oder einer bestimmten Art von Kommentaren 32 Ursula Reutner <?page no="33"?> (z. B. „zeige mir alle Kommentare, in denen Gründe für eine Änderung genannt werden“) ermöglichen. Wikipedia gibt zudem nur die Änderungen zwischen zwei zuvor auf Verdacht ausgewählten Versionen an. Eine Funktion: «zeige mir die Versionen an, in denen eine bestimmte Änderung vorgenommen wird» gibt es noch nicht. Für das Auffinden solcher Versionen, in denen relevante Änderungen erfolgen, könnten im Rahmen der Digital Humanities sinnvolle Programme entwickelt werden, um die Datenbanksuche in diesem Bereich zu verfeinern. 4.3.4 Sprachliche Gewalt der Diskussionsseiten Korpus: Der Studie liegt das Untersuchungskorpus «wuf 15» zugrunde, das über das Korpusabfragesystem Cosmas des Instituts für Deutsche Sprache in Mannheim zugänglich ist und sämtliche Nutzerdiskussionen der französisch‐ sprachigen Wikipedia aus dem Jahre 2015 enthält (cf. Eiber/ Reutner 2020). Erkenntnisziel: Forschungsleitend ist die Frage, welche Rolle sprachliche Gewalt bei den Aushandlungsprozessen auf den Diskussionsseiten von Wiki‐ pedia spielt, die die Online-Enzyklopädie wiederum von traditionellen Printen‐ zyklopädien unterscheiden. Methode: Zur Ermittlung von Textstellen, die von sprachlicher Gewalt geprägt sein könnten, wurden Ausdrücke gesucht, die konfliktträchtige Ver‐ haltensweisen bezeichnen: troll (1.649 Okkurrenzen), faux-nez (3.091 Okkur‐ renzen), révocation(s) (39.979 Okkurrenzen) und vandalisme (145.064 Okkur‐ renzen). Zum anderen wurden Ausdrücke ermittelt, die in ihrer Funktion als Schimpfwort einen Hinweis auf bestehende Konflikte darstellen könnten: connard (2.306 Okkurrenzen), fils de pute (28 Okkurrenzen), merde (1.051 Ok‐ kurrenzen), salaud (78 Okkurrenzen) und salope (72 Okkurrenzen). Die Okkur‐ renzen wurden mithilfe eines Log-Likelihood-Quotienten auf die statistisch si‐ gnifikanten Kookkurrenzen der Ausdrücke troll (204 Kookkurrenzen), faux-nez (170 Kookkurrenzen), révocation(s) (268 Kookkurrenzen) und vandalisme (562 Kookkurrenzen) reduziert bzw. auf die Stellen, in denen connard (34), fils de pute (3), merde (12), salaud (13) und salope (4) als Schimpfwort verwendet werden. Von den konfliktträchtigen Verhaltensweisen konnten für révocation(s) und vandalisme signifikante Muster der Typen ‚révocation(s)/ vandalisme + Verb‘ und ‚révocation(s)/ vandalisme + Adjektiv‘ ermittelt werden, deren Kotexte genauer analysiert wurden. Bei den Schimpfwörtern wurden ihre Frequenz, ihr Adressat (Gesprächspartner oder Dritter), die Wahl der Anredeform (vous oder tu) und die Verwendung sprachlicher Mittel zur Intensivierung für die Bestimmung des Grades sprachlicher Gewalt herangezogen. Digital Humanities auf dem Prüfstand 33 <?page no="34"?> Erkenntnisgewinn: Die Studie zeigt ein insgesamt geringes Ausmaß sprachlicher Gewalt in der Nutzerdiskussion von Wikipedia. Die potentiell konfliktträchtigen Verhaltensweisen révocation(s) oder vandalisme erscheinen in Verbindung mit Verben meist als höfliche Aufforderung und kombiniert mit Adjektiven als höfliche Kritik. Die Frequenz von Schimpfwörtern ist niedrig. Sind sie Zeichen verbaler Aggression, so richten sie sich meist direkt an den Gesprächspartner und weniger häufig an abwesende Dritte. Die Anredeformen variieren je nach Sprechakt: Handelt es sich um eine höfliche Aufforderung, wird eher gesiezt, liegt eine Beschimpfung vor, wird eher geduzt. In nur wenigen Fällen werden Schimpfwörter durch weitere sprachliche Mittel intensiviert. Insgesamt fällt die Häufigkeit konstruktiver Sprechakte auf, während der Einsatz von Schimpfwörtern selten ist und Passagen mit einem erheblichen Maß an sprachlicher Gewalt nur punktuell zu verzeichnen sind. Reflexion: Die Studie kann zumindest für die untersuchten Merkmale eine gewisse Repräsentativität beanspruchen, da ihr ein ausreichend großes Korpus zugrunde liegt. Die automatische Abfrage und Quantifizierung sprachlicher Formen erleichtert die Belegsammlung. Die statistische Kookkurrenzanalyse erlaubt zudem das Auffinden von Mustern, die manuell nicht auf diese Weise ge‐ wonnen werden könnten. Allerdings muss die Bestimmung der Suchwörter in‐ tuitiv erfolgen, sodass der automatischen Analyse subjektive Voraussetzungen zugrunde liegen. Nach der Extraktion müssen zudem zahlreiche Fehltreffer aussortiert werden, die kaum vermeidbar sind und damit die Grenzen der Automatisierung aufzeigen. Ob ein Schimpfwort zum Beispiel tatsächlich als Schimpfwort zum Einsatz kommt oder metasprachlich verwendet wird, indem darüber gesprochen wird, ist durch automatische Programmierung nicht immer sicher zu erkennen. 5 Schlussbemerkungen Im Ergebnis zeigt sich die Verwendung digitaler Ressourcen zweifelsohne ertragreich: Digital vorliegende Texte bieten ein ganz eigenes Bild von Sprache, das linguistisch untersucht werden kann und damit einen Beitrag der Geis‐ teswissenschaften zur Digitalisierungsdebatte darstellt (H4D). Digitale Texte können zudem breit rezipiert werden und sind leichter systematisch auszu‐ werten als Printtexte, was zugleich einen Mehrwert der Digitalisierung für die Geisteswissenschaften (D4H) beinhaltet. Letzterer besteht vor allem aber im Einsatz computergestützter Verfahren, deren Anwendung bei der Auswertung großer Datenmengen aus mindestens drei Gründen sinnvoll ist: Erstens ist eine replizierbare und damit aussage‐ 34 Ursula Reutner <?page no="35"?> kräftige quantitative Analyse von Datenmaterial größeren Umfangs manuell realistischerweise in vielen Fällen überhaupt nicht möglich. Zweitens liefert die automatisierte Analyse solide Daten, die für sich genommen und im Vergleich von Subkorpora auf statistische Relevanz geprüft und zudem in ihrer Aussage‐ kraft mit unterschiedlichen Parametern verknüpft werden können. Vor allem aber ergeben sich drittens durch die digitale Analyse Ergebnisse, die mit bloßem Auge nicht unbedingt auffallen würden und in der vorliegenden Präzision lediglich von der Maschine ermittelt werden können, die zugleich unvorein‐ genommen nach bestimmten Parametern sucht. Die Extraktion signifikanter Kookkurrenzen lässt zum Beispiel sprachliche Muster erkennen, die vorher so noch nicht ermittelt wurden. Einfache Stichwortsuchen erlauben das grobe Durchforsten großer Datenmengen auf bestimmte Inhalte, und komplexere Methoden des Natural Language Processing zudem die Erfassung von Wort‐ zusammenhängen und inhaltlichen Kontexten. Die Berechnung lexikalischer Vielfalt sowie einfacher Wort- und Satzlängen eröffnet zudem neue Einsichten in Stilfragen. Die Farbraumanalyse und automatische Identifikation identischer Bilder ermöglicht darüber hinaus neue Erkenntnisse zum kulturspezifischen Farb- und Bildgebrauch. Durch den Einbezug größeren Datenmaterials werden manchmal zwar tat‐ sächlich nur Tendenzen kleinerer Voruntersuchungen bestätigt. In vielen Fällen aber erbringt die digitale Analyse Ergebnisse, die bei einer manuellen Ermittlung nicht in gleichem Maße zu erzielen wären. Zudem zwingen computergestützte Methoden dazu, Kriterien und Fragestellungen abstrakt zu formulieren und dann rein datenbasiert und strikt objektiv zu verifizieren oder zu falsifizieren. Ob und wenn ja welcher Einsatz digitaler Methoden aus den Geisteswissenschaften Digital Humanities macht, muss an dieser Stelle offenbleiben, da die Grenzen des neuen Fachgebiets bislang noch nicht klar definiert sind. Die Frage aber, ob mit Hilfe digitaler Methoden Informationen nicht nur einfacher und qualitativ hochwertiger ermittelt werden, sondern darüber hinaus auch inhaltlich neuar‐ tige Ergebnisse erzielt werden können, ist damit klar zu bejahen. Gewonnen werden zunächst aber eben immer nur statistisch belastbare Informationen, die bis zu einem gewissen Grad oberflächlich bleiben und gegebenenfalls hermeneutisch hinterfragt werden müssen. Bei der Bildanalyse zeigt sich besonders deutlich, dass subtilere Botschaften und kulturelle Bezüge bislang kaum zufriedenstellend in automatisierter Weise ermittelt werden können, was zum einen an der Komplexität visueller Informationsverarbeitung liegt und zum anderen an der subjektiven, kultur- und kontextabhängigen Interpretation von Bildern. Auch bei der Analyse sprachlicher Daten sind komplexere sprachliche Phänomene, die sich aus dem ganz konkreten Gebrauch Digital Humanities auf dem Prüfstand 35 <?page no="36"?> der Wörter in einem bestimmten Kontext ergeben, kaum maschinell greifbar. Denken wir nur an Ironie, für die nur schwer durchwegs verlässliche Parameter der automatischen Erkennung zu definieren sind, und ebenso wenig für die Frage, ob ein bestimmtes Wort als solches oder metasprachlich gebraucht wird. Die automatisierte Datenanalyse ist bei entsprechend großer Datenmenge und aufgrund der Reduktion von menschlichem Versehen oder der Neigungen, Texte mit einer bestimmten Brille zu lesen, aussagekräftiger und objektiver als ein hermeneutisches Herangehen, kann zugleich aber einige Fragen, die Wissenschaftler an Sprache und Bilder richten, überhaupt nicht greifen. Damit stellen manuelle und automatisierte Verfahren insgesamt keinen Widerspruch dar, sondern ergänzen sich in fruchtbarer Weise. Die adäquate Formulierung der geisteswissenschaftlichen Fragestellung für die Anwendung digitaler Methoden erfolgt zudem am besten im Austausch zwischen Geisteswissenschaften und Informatik, der den Fachbereich der Digital Humanities wiederum generell prägen sollte und insgesamt mehr interdisziplinäre Ansätze wünschenswert erscheinen lässt. Bei Fragen, für deren Beantwortung die digitale Analyse dann sinnvoller‐ weise herangezogen wird, läuft ihr Einsatz aber auch Gefahr, der Illusion der Präzision zu erliegen, das heißt, eine besonders hohe Aussagekraft und Objek‐ tivität zu suggerieren und dabei die subjektive Beeinflussung der Endergebnisse auszublenden. Statistische Verfahren und Methoden des maschinellen Lernens vermindern zwar die Subjektivität und stellen hohe Ansprüche an die Daten, die vernünftig balanciert und der Fragestellung angemessen zusammengestellt sein müssen. Entsprechende Kenntnisse und Wissenschaftsethos vorausgesetzt, wird auch das Verfahren auf der Basis objektiver Kriterien ausgewählt und nicht bewusst oder unbewusst danach, welches die Ergebnisse liefert, die den eigenen Wunschvorstellungen am besten entsprechen. Dennoch ist eine subjektive Beeinflussung in den meisten Fällen unumgänglich, denn schließlich muss das digital auszuwertende Korpus meist auf bestimmte Hypothesen hin überprüft werden, deren adäquate Formulierung das Hauptqualitätsmerkmal der Forschung darstellt. Abgesehen von manchen vollautomatisierten Untersu‐ chungen, die zum Beispiel die Anwendung künstlicher Intelligenz oder maschi‐ nellen Lernens erlauben, ist vor den meisten geisteswissenschaftlichen Studien klar zu entscheiden, welche Einzelphänomene im Hinblick auf bestimmte Parameter herangezogen werden. An welchen sprachlichen Formen zeigt sich zum Beispiel Fachsprachlichkeit? An welchen Neutralität? Und an welchen sprachliche Gewalt? Die Operationalisierung einer Fragestellung in konkret auf‐ findbare Formen beeinflusst das Ergebnis massiv, ebenso wie die Entscheidung zwischen alternativen Methoden der statistischen Prüfung. Zudem nehmen 36 Ursula Reutner <?page no="37"?> Forschende nicht nur darauf Einfluss, welche Parameter ausgewählt werden, um davon ausgehend bestimmte Schlüsse ableiten zu können, sondern auch, wie die automatisiert generierten Ergebnisse letztendlich zu werten sind. Damit kann die Digitalisierung die Objektivierung der Forschung im Sinne eines reduzierten Einflusses des Forschenden auf die Ergebnisse zwar unterstützen, nicht aber automatisch objektive Ergebnisse garantieren. Denn die wahre Aussagekraft der Daten hängt in vielen Fällen entscheidend von den jeweiligen Vorannahmen, der Art der Fragestellung und ihrer Interpretation ab. Demnach sind Digital Huma‐ nities durch ihre ausgeprägte Präzision und den Einbezug großer Datenmengen also besonders anfällig dafür, eine hohe Verlässlichkeit der eigenen Ergebnisse nahezulegen. Doch liefern sie einerseits zwar objektive Informationen aus vorhandenen Daten, die formulierten Endergebnisse tragen andererseits aber immer einen subjektiven Kern in sich, sobald sie sinnvollerweise über bloßen Positivismus hinausgehen. Insgesamt erscheinen Digital Humanities zumindest auf der Basis der vor‐ liegenden Daten als klare Hilfe, die die Arbeit der Geisteswissenschaften zu erleichtern, ihre Reichweite zu vergrößern und ihre Ergebnisse besser zu visualisieren vermag. Häufig wird dabei zugleich neues Wissen gewonnen, das den teils enormen Aufwand rechtfertigt. Sicher stellen Geisteswissenschaftler zudem Fragen, bei deren Beantwortung Algorithmen unterstützen oder sogar Ergebnisse generieren helfen, die manuell nicht in dieser Weise erzielt werden können. Letztendlich aber sollten Geisteswissenschaftler ihre Fragen nicht danach ausrichten, ob sich davon abgeleitet ein interessantes Werkzeug kon‐ struieren lässt, sondern diejenigen Fragen aufwerfen, die es zu beantworten gilt. Nicht immer sind dies die Fragen, bei deren Beantwortung große Datenmengen, bestimmte Werkzeuge oder Algorithmen hilfreich sind. Zugleich können viele Fragestellungen natürlich auch neue Methoden und Werkzeuge notwendig machen und so in interdisziplinärer Kooperation zu interessanten Forschungsfragen in der Informatik führen, deren Lösungen wiederum relevante Erkenntnisse in den Geisteswissenschaften nach sich ziehen. Auf den Prüfstand gestellt erweisen sich Digital Humanities damit als vernünftige Ergänzung der traditionellen Geisteswissenschaften. Manche Forschungsfragen können von digitalen Methoden und Ressourcen profitieren oder werden sogar erst durch sie aufgeworfen, andere wiederum nicht. Die Di‐ gitalisierung befruchtet Teilbereiche aller geisteswissenschaftlichen Disziplinen damit höchst sinnvoll. Nicht sinnvoll wäre nur eine Vernachlässigung der Teilbereiche, bei denen dies nicht der Fall ist, und im Extremfall ein vollständiges Aufgehen der Geisteswissenschaften (Humanities) in Digital Humanities. Digital Humanities auf dem Prüfstand 37 <?page no="38"?> Da für letztere noch keine abschließende Definition existiert, liegt es auf der Basis der obigen Erwägungen nahe, abschließend eine Annäherung an das Fach mithilfe der Prototypensemantik vorzuschlagen. Die idealtypische Ausprägung von Digital Humanities liegt unseres Erachtens in Forschungsar‐ beiten, die ein interdisziplinäres Zusammenspiel zwischen Informatik und Geis‐ teswissenschaften erfordern, von dem beide Disziplinen profitieren, egal ob die Kooperation in Richtung Humanities for Digitalization (H4D) oder Digitalization for Humanities (D4H) verläuft. Bibliografie Burdick, Anne/ Drucker, Johanna/ Lunenfeld, Peter/ Presner, Todd/ Schnapp, Jeffrey (2012): Digital_Humanities, Cambridge, MIT. Chalier, Marc/ Eiber, Bettina/ Reutner, Ursula (2020): „Sciences naturelles avares en mots et sciences humaines en étalant trop? Réponses statistiques à de vieux stéréotypes sur le discours scientifique“, SHS Web of Conferences 78, 06008 (Congrès Mondial de Linguistique Française---CMLF 2020), https: / / doi.org/ 10.1051/ shsconf/ 20207806008. DARIAH-DE (2015): Einführung: Projekte und Forschungsfragen in den Digital Humanities, in: Digital Research Infrastructure for the Arts and Humanities-DE (ed.): Handbuch für Digital Humanities. Anwendungen, Forschungsdaten und Projekte, Berlin, ePubli, 6-14. Encyclopédie = d’Alembert, Jean Le Rond/ Diderot, Denis (eds.) (1751-1772): Encyclopédie, ou Dictionnaire raisonné des sciences, des arts et des métiers, par une société de gens de lettres, Paris/ Neuchastel, Briasson/ Faulche, http: / / enccre.academie-sciences.fr/ enc yclopedie/ (23.10.2023). Eiber, Bettina (2020): Diskurstraditionen im medialen Wandel. Eine korpuslinguistische Untersuchung französischer und italienischer Printenzyklopädie- und Wikipediaartikel, Tübingen, Narr. Eiber, Bettina/ Reutner, Ursula (2020): „Gardez votre calme: Wikipédia entre collabora‐ tion fructueuse et violence verbale“, in: Bernard-Barbeau, Geneviève/ Meier, Franz/ Schwarze, Sabine (eds.): Conflits sur/ dans la langue-: perspectives linguistiques, argumentatives et discursives, Frankfurt a. M./ Berlin/ Bern/ Bruxelles/ New York/ Ox‐ ford/ Warszawa/ Wien, Lang, 191-213. Gardiner, Eileen/ Musto, Ronald G. (2015): The digital humanities. A primer for students and scholars, New York, Cambridge University Press. Gibbs, Fred (2013): „Digital Humanities Definitions by Type“, in: Terras, Melissa/ Nyhan, Julianne/ Vanhoutte, Edward (eds.): Defining Digital Humanities. A reader, Surrey/ Burlington, Ashgate, 289-297. 38 Ursula Reutner <?page no="39"?> Jannidis, Fotis/ Kohle, Hubertus/ Rehbein, Malte (2017): „Warum ein Lehrbuch für Digital Humanities? “, in: Jannidis, Fotis/ Kohle, Hubertus/ Rehbein, Malte (eds.): Digital Hu‐ manities. Eine Einführung, Stuttgart, Metzler, XI-XIII. McCarty, Willard (2005): Humanities Computing, Basingstoke/ New York, Palgrave Mac‐ millan. Nyhan, Julianne/ Terras, Melissa/ Vanhoutte, Edward (2013): Introduction, in: Terras, Melissa/ Nyhan, Julianne/ Vanhoutte, Edward (eds.): Defining Digital Humanities. A reader, Surrey/ Burlington, Ashgate, 1-10. Rehbein, Malte (2020): „Historical Network Research, Digital History, and Digital Hu‐ manities“, in: Kerschbaumer, Florian/ von Keyserlingk-Rehbein, Linda/ Stark, Martin/ Düring, Marten (eds.): The Power of Networks. Prospects of Historical Network Research, London, Routledge, 251-277. Reutner, Ursula (2008): „Les emprunts récents de l’italien au français“, in: Horiot, Brigitte (ed.): Le français ailleurs et toujours-: place et fonctions du français dans les autres langues, Lyon, St. Joseph, 119-136. Reutner, Ursula (2009): Interpretationen zu französischen und italienischen Euphemismen, Tübingen, Niemeyer. Reutner, Ursula (2010): „E-Mail-Kulturen im Vergleich. Zum Sprachverhalten spanischer und französischer Linguisten“, in: Romanistik in Geschichte und Gegenwart 16 (2), 3-28. Reutner, Ursula (2011): „El eufemismo como fenómeno cultural y lexicográfico“, in: Lingüística española actual 33-(1), 55-74. Reutner, Ursula (2012): „La asignación de la marca de eufemismo. Una comparación de todas las formas acotadas en el DGLE, el DRAE y el DUE“, in: Botta, Patricia/ Pastor, Sara (eds.): Rumbos del hispanismo en el umbral del Cincuentenario de la AIH, vol. 8: Lengua, Roma, Bagatto, 293-303 (=-2012a). Reutner, Ursula (2012): „Das interkulturelle Potential digitaler Medien im historischen Vergleich“, in: Reutner, Ursula (ed.): Von der digitalen zur interkulturellen Revolution, Baden-Baden, Nomos, 33-52 (=2012b). Reutner, Ursula (2013): „Nous, lexicographes, nous avons donc toujours tort-? Traitement de l’euphémisme dans le Petit Robert“, in : Cahiers de lexicologie 103, 167-192 (= 2013a). Reutner, Ursula (2013): „Wikipedia und der Wandel der Wissenschaftssprache“, in: Romanistik in Geschichte und Gegenwart 19 (2), 231-249 (=-2013b). Reutner, Ursula (2014): „Eufemismo e lessicografia. L’esempio dello Zingarelli“, in: Studi di lessicografia italiana XXXI, 317-344 (=-2014a). Reutner, Ursula (2014): „L’enciclopedia digitale «Wikipedia». Linee di analisi intercultu‐ rale e intermediale“, in: Suomela-Härmä, Elina (ed.), Dal manoscritto al web: canali e modalità di trasmissione dell’italiano. Tecniche, materiali e usi nella storia della lingua, Firenze, Cesati, 2014, 689-698 (=-2014b). Digital Humanities auf dem Prüfstand 39 <?page no="40"?> Reutner, Ursula (2014): „Französisches Bilderspiel und deutsches Informationspaket. Ein Vergleich der Internetpräsenzen von Banken und Automobilherstellern“, in: Rentel, Nadine/ Reutner, Ursula/ Schröpf, Ramona (eds.): Von der Zeitung zur Twitterdämme‐ rung. Medientextsorten und neue Kommunikationsformen im deutsch-französischen Vergleich, Berlin/ Münster, Lit, 135-160 (=-2014c). Reutner, Ursula (2015): „El sitio web — ¿un espacio cultural? Un estudio comparativo ger‐ mano-español de bancos y aseguradoras“, in: Rentel, Nadine/ Reutner, Ursula/ Schröpf, Ramona (eds.): Lingüística mediática y traducción audiovisual, Frankfurt a. M./ Berlin/ Bern/ Bruxelles/ New York/ Oxford/ Warszawa/ Wien, Lang, 3-26. Reutner, Ursula (2020): „‚Minor‘ Gallo-Romance Languages“, in: Lebsanft, Franz/ Tacke, Felix (eds.): Manual of Standardization in the Romance Languages, Berlin, De Gruyter, 773-807. Reutner, Ursula/ Eiber, Bettina (2019): „Fusillade au siège de Charlie Hebdo ou Attentat contre Charlie Hebdo? Wikipédia et la co-construction des titres d’articles“, in: Roma‐ nistik in Geschichte und Gegenwart 25-(2), 149-175. Reutner, Ursula/ Schubach, Sebastian (2012): „Kulturspezifische Ästhetik im Internet. Typografie und Bildlichkeit im deutsch-französischen Vergleich“, in: Reutner, Ursula (ed.): Von der digitalen zur interkulturellen Revolution, Baden-Baden, Nomos, 235-263. Schreibman, Susan/ Siemens, Ray/ Unsworth, John (eds.) (2004): A Companion to Digital Humanities, Oxford, Blackwell. Terras, Melissa/ Nyhan, Julianne/ Vanhoutte, Edward (eds.) (2013): Defining Digital Hu‐ manities. A reader, Surrey/ Burlington, Ashgate. Thaller, Manfred (2014): „Grenzen und Gemeinsamkeiten: Die Beziehung zwischen der Computerlinguistik und den Digital Humanities“, Präsentation bei der Jahrestagung des Verbandes Digital Humanities im deutschsprachen Raum (DHd) in Passau am 27.03.2014. Thaller, Manfred (2017): „Digital Humanities als Wissenschaft“, in: Jannidis, Fotis/ Kohle, Hubertus/ Rehbein, Malte (eds.): Digital Humanities. Eine Einführung, Stuttgart, Metzler, 13-18. Unsworth, John/ Siemens, Raymond/ Schreibman, Susan (eds.) (2016): A New Companion to Digital Humanities, Chichester/ Malden, Wiley-&-Sons. Wikipedia DE (2023): Digital Humanities, San Francisco, Wikimedia Foundation, https: / / de.wikipedia.org/ wiki/ Digital_Humanities (23.10.2023). Wikipedia EN (2023): Digital humanities, San Francisco, Wikimedia Foundation, https: / / en.wikipedia.org/ wiki/ Digital_humanities (23.10.2023). 40 Ursula Reutner <?page no="41"?> Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? Kritische Überlegungen, Bedarfe und Potenziale Vera Mathieu, Julia Montemayor Abstract The combination of qualitative and quantitative methods is gaining in‐ creasing international recognition today, especially in interdisciplinary sci‐ entific work. Based on Anglo-American research work, the mixed-methods approach initially received attention in the empirical social sciences in Germany, from where it is now gradually spreading to other disciplines. In recent years, methodological discussions have progressively found a place in Romance studies with different scopes, i.e. the debate on a systematic combination of methods has been settled, but there is still a need to catch up with neighbouring disciplines, which is also reflected in the rather hesitant application of computer-aided analysis methods. In this context of tradition and innovation in Romance studies, the article sheds light on the methodological discussion and offers an opportunity to break new ground. This contribution shows by example to what extent computer-aided methods and the needs and potential can be used to enrich the framework of fundamental theoretical and methodological considerations. For this purpose, the possibilities of software-mediated qualitative categorization as well as the partial adaptation of corpus-linguistic procedures in the analysis of language data will be presented by means of exemplary insights into practice. Keywords: empirical social sciences, Romance linguistics, mixed-methods, computer-aided analysis Keywords: Empirische Sozialforschung, Romanistische Linguistik, Mixed Methods, computergestützte Analyse <?page no="42"?> 1 Einführende Überlegungen Eine Konsequenz der weltweiten Digitalisierung, die mittlerweile sämtliche Lebensbereiche erfasst, besteht in Bezug auf unser Fach der romanistischen Linguistik v. a. in der Ausdifferenzierung und Modifikation sprachlicher Daten: So entstehen durch die Digitalisierung neue Kommunikationsformen über das Internet, z. B. in Chats, Twitter, Facebook und diversen sozialen Medien sowie Instant-Messaging-Diensten, die Kommunikation auf ganz unterschiedlichen Kanälen in Sekundenschnelle ermöglichen und individuelle, kulturelle und politische Ausdrucksmöglichkeiten diversifizieren. Mit diesem diversifizierten Spektrum ergeben sich unzählige Partizipations‐ möglichkeiten für die Sprecher: innen. Dies schafft einerseits neue Datenformen und andererseits v. a. auch neue Datenmengen, die schnell entstehen, soge‐ nannte Big Data (cf. Trübner/ Mühlichen 2019, 143). Dieser prinzipiell unbe‐ grenzte Zugang zu verschiedenen Kommunikationsformen und Datenmassen bedingt eine neue Rolle für Forschende, denn dem Vorteil der leichten Zugäng‐ lichkeit zu Daten über z. B. die Veröffentlichung immenser Korpusgrundlagen stehen auf der anderen Seite neue ethisch-moralische Herausforderungen und rechtliche Fragen beim Umgang mit diesen Daten - und den sich dahinter befindlichen Datenerzeugern, also Individuen, Sprecher: innen - entgegen (cf. Mühlichen 2019). Es gibt keine Passepartout-Lösung für die Bearbeitung solcher ‚neuen‘ Daten und Datenmengen; die Dynamik und Vielgestaltigkeit dieser Entwicklungen er‐ fordern vielmehr besondere und auf diese sich stetig verändernden Prozesse ab‐ gestimmte Antworten: Für die Arbeit mit Daten in dieser Gestalt und in diesem Umfang werden forschungsgegenstandsangemessene Verfahren bereits bei der Erhebung, im Besonderen aber bei der Auswertung, benötigt. Es ergibt sich daraus ein Bedarf an neuen methodischen Herangehensweisen und computer‐ gestützten Analysemöglichkeiten, die interdisziplinäre Zugänge unabdingbar machen und in diesem Zusammenhang die vermeintlich starren Grenzen zwi‐ schen quantitativen und qualitativen Methoden aufbrechen können. In der Romanistik sind die Diskussion der Bedarfe und Potenziale im eigenen Fach und die interdisziplinäre Auseinandersetzung mit verschiedenen methodischen Paradigmen bisher v. a. im Rahmen einzelner Arbeiten in die Forschung einge‐ gangen (cf. z. B. Gerstenberg 2011; Montemayor Gracia 2017; Neusius 2019, 2021; Stein 1989). Vor diesem Hintergrund versteht sich der vorliegende Beitrag als weiterer Impuls, die fachinterne Methodendiskussion im zunehmend digitalen Forschungszeitalter mit Blick auf die allgemeinen und spezifischen Bedarfe der und Anforderungen an die Romanistik zu intensivieren. 42 Vera Mathieu, Julia Montemayor <?page no="43"?> Im Hinblick darauf soll gezeigt werden, dass computergestützte Analysever‐ fahren einen essentiellen Beitrag leisten können, z. B. beim gleichzeitigen Ver‐ walten und Organisieren unterschiedlicher Formate geschriebensprachlicher Kommunikation, auf denen im Folgenden der Schwerpunkt liegt. Zwar bieten „[d]ie meisten der genannten Funktionen […] ‹nur› Unterstützung für die in‐ tellektuelle Auswertungsarbeit und führen keine automatische Analyse durch, doch wird durch die Schnelligkeit des Computers und die dadurch möglichen größeren Datensätze durchaus eine neue und gewinnbringende Stufe“ (Kuckartz 2010, 13) im Bereich der Datenanalyse erreicht. Nach diesen einführenden Überlegungen zum allgemeinen Kontext soll im folgenden Kapitel das Augenmerk zunächst auf den Status quo bei der Beschäfti‐ gung mit computergestützten Methoden und der exemplarischen Anwendungs‐ bereiche innerhalb der romanistischen Linguistik gelegt werden. In diesem Zusammenhang lässt sich am Beispiel der (Sprach-)Einstellungsforschung eine facettenreiche Schnittstelle angewandter romanistischer Forschungsinte‐ ressen beleuchten, die gleichermaßen auch als methodisch interdisziplinäres Forschungsfeld sui generis angeführt werden kann, um mögliche Ansätze einer Beschäftigung mit verschiedenen methodologischen Paradigmen und ihre kon‐ krete methodische Umsetzung vorzustellen. Nicht zuletzt durch die Fundierung mittels sozialpsychologischer Ansätze und die bislang traditionelle Einteilung der Erhebungsverfahren in kognitive und soziokonstruktionistische Modelle liefert die (Sprach-)Einstellungsforschung ein anschauliches Anwendungsfeld für die romanistische Diskussion einer fachspezifischen, forschungs- und kor‐ puspragmatischen Methodenreflexion: Die […] Vielfalt der Methoden, die damit einhergehende konzeptuell-theoretische Mehrdimensionalität sowie das im Rahmen bestimmter Kontextspezifika breit ge‐ streute Erklärungspotenzial und die weitreichenden Anwendungsmöglichkeiten von Spracheinstellungsforschung können der Veranschaulichung, aber auch Einmahnung des wohl allgemeingültigen wissenschaftlichen Grundsatzes dienen, dass die Ent‐ scheidung, welchen konkreten Zweck die Forschung erfüllen soll, die wichtigste Ausgestaltungsgrundlage jeder individuellen Studie darstellt. (Soukup 2019, 101) Ausgehend von der Mehrdimensionalität romanistischer Forschungsgegen‐ stände und der Heterogenität methodischer Ansätze, die der Analyse sprachli‐ cher Daten zur Verfügung stehen, wird im anschließenden Kapitel zunächst die Diskussion um methodische Paradigmen zusammengefasst. Daran anschlie‐ ßend geht es jedoch darum, anhand der Analyse von (Sprach-)Einstellungen exemplarisch zu illustrieren, wie im Rahmen von Mixed Methods-Ansätzen mithilfe computergestützter Analyseverfahren gewinnbringend Synergien zwi‐ Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? 43 <?page no="44"?> schen quantitativen und qualitativen Herangehensweisen und Operationen bei der Analyse von Sprachdaten genutzt bzw. geschaffen werden können. Dabei soll auch gezeigt werden, wie EDV-Programme zur qualitativen Datenverarbei‐ tung eine nutzerorientierte und intuitive Form einer am Forschungsgegenstand orientierten Methodenintegration erleichtern können. Sogenannte QDA-Pro‐ gramme lassen sich hierbei, so Kuckartz (2010, 21), „mit Werkzeugkästen vergleichen, die umfangreiche Sammlungen von Werkzeugen unterschiedlichen Typs enthalten. Natürlich sind nicht alle Werkzeugkästen quantitativ und quali‐ tativ gleich bestückt“. Anhand einer Beispielanalyse wird ein konkreter Einblick in computergestützte Analysen und technische Hilfsmittel für bestimmte lin‐ guistische Fragestellungen gegeben. Der Beitrag schließt mit einem Fazit und sich aus dieser Diskussion ergebenden Fragen, Chancen und Grenzen für die romanistische Linguistik. 2 Methodenbewusste romanistische Linguistik? Status quo und Anwendungsimpulse in digitalen Kontexten Im Rahmen einer Annäherung an das romanistische Spektrum digitaler For‐ schungsbereiche, die eine kritische Methodenreflexion miteinschließen, ist zunächst auf die Arbeit der AG Digitale Romanistik unter dem Dach des Deutschen Romanistenverbandes hinzuweisen. Stellvertretend sind hier Bei‐ träge von Rißler-Pipka (2009, 2016) zur quantitativen Textanalyse und Stilo‐ metrie, von Rüdiger (2018) zu Corpus Explorer oder von Schöch (2013, 2017a, 2017b) zu digitaler Textedition und -analyse sowie zum Topic Modeling zu nennen. Mit methodisch-methodologischen Fragen, der Anwendung und kri‐ tischen Auseinandersetzung mit computergestützter Datenaufbereitung und entsprechenden -analyseverfahren in der geisteswissenschaftlichen Forschung beschäftigt sich weiterhin beispielsweise der interdisziplinäre Sammelband von Montemayor/ Neusius/ Polzin-Haumann (2018) zu Digitalkulturen. Als zunehmend produktive Schnittstelle romanistischer Forschungsarbeiten haben sich sprecher: innenzentrierte Untersuchungen metasprachlicher Dis‐ kurse herauskristallisiert. Metasprachdiskurse als gesellschaftliche Phänomene, in denen soziale Werte und Positionen transportiert und ausgehandelt werden und (Sprach-)Einstellungen sowie Sprachideologien als Ausdruck des Sprach‐ bewusstseins, aber auch der Bewusstseinsfähigkeit und Selbstreflexivität der Sprecher zu Tage treten, stellen einen traditionell gut erforschten und vitalen Gegenstand der romanistischen Linguistik dar (cf. Cichon 1998; Polzin-Hau‐ mann 2006; Scherfer 1983; Stroh 1993). Für die (Sprach-)Einstellungsforschung ist weiterhin in Bezug auf die methodische Herangehensweise im hispanisti‐ 44 Vera Mathieu, Julia Montemayor <?page no="45"?> 1 Für eine tiefergehende Beschäftigung mit definitorischen und methodischen Fragen zur Erforschung von Spracheinstellungen cf. z. B. Montemayor Gracia (2017, 68-85; 126-130) und Neusius (2021). 2 Gerade im Bereich der (perzeptiven) Varietätenlinguistik belegen Studien etwa von Arendt (2010), Cuonz (2014), Hundt (1992), Krefeld/ Pustka (2010), Lenz (2003) oder Preston (1999) die Konzentration von Forschungsaktivitäten und eine intensive Be‐ schäftigung mit verbundenen methodischen Fragen in Germanistik oder Anglistik. schen (cf. Chiquito/ Quesada Pacheco 2014; Otto 2009) und frankoromanisti‐ schen Kontext (cf. Petitjean 2009) zu konstatieren, dass Forschungsbeiträge bisher i. d. R. tendenziell entweder in einem rein qualitativen oder in einem rein quantitativen Design entwickelt werden und die Auswertung der Daten häufig ‚händisch‘ und eher weniger computergestützt zu erfolgen scheint. Durch die zunehmende Komplexität des Untersuchungsgegenstands gibt es aber mittlerweile sehr unterschiedliche quantitative oder qualitative Zugänge sowie neuere Ansätze, die eine Methodenkombination zur Erforschung von Einstellungen vorschlagen. Innovative Herangehensweisen z. B. im Rahmen von Mixed Methodsbzw. Triangulationsansätzen, die nachfolgend als Ergänzung zur methodischen Paradigmendiskussion näher beschrieben werden, finden sich in der romanistischen Forschungslandschaft u. a. in Arbeiten von Lenk (2010), Maurer (2016), Montemayor Gracia (2017) oder Neusius (2021). Wir verstehen Spracheinstellungen mit Soukup als „Positionierungen (in Form von Reaktionen, Beurteilungen, Einschätzungen, Evaluierungen, Asso‐ ziationen) bezüglich Sprachen (Sprachgebrauchsformen) und deren Spreche‐ rinnen und Sprecher“ (Soukup 2019, 84). Derartige Positionierungsaktivitäten gegenüber Sprache(n) und Sprechern sind dabei auch auf Personen und Sach‐ verhalte im Allgemeinen übertragbar. Dabei gilt, dass (Sprach-)Einstellungen eine komplexe interne Struktur zugeschrieben wird. Im Rahmen des soge‐ nannten Dreikomponentenmodells werden sie als dynamische Kompositionen von kognitiven, affektiven und konativen Elementen verstanden (cf. Rosen‐ berg/ Hovland 1960). Einstellungen gelten demnach als Gesamtbewertungen eines Einstellungsobjekts und können nicht ‚einfach so‘ gemessen werden, da sie oftmals in Abhängigkeit des jeweiligen Kontextes variabel sind. Sie treten über metasprachliche Äußerungen zutage, die demnach kontextsensibel und situationsabhängig analysiert und interpretiert werden müssen. 1 Sie werden folglich als interaktionistische und diskursive Konstrukte aufgefasst. Einstellungen beschäftigen Forscher: innen in der Sozio- und Diskurslingu‐ istik (cf. Spitzmüller 2005, 2019), der Varietäten- und Laienlinguistik (cf. Preston 1999, 2004), 2 der Dialektologie (cf. Tophinke/ Ziegler 2006), Ethnologie, Anthro‐ pologie und Vitalitätsforschung (cf. Montemayor Gracia 2017) oder aber der Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? 45 <?page no="46"?> 3 Einen ausführlichen Überblick über die verschiedenen methodischen Strömungen und Erhebungsverfahren in der Spracheinstellungsforschung gibt Soukup (2015, 2019). Fachdidaktik oder dem Marketing - und gerade daran wird der ‚Schnittstellen‐ charakter‘ dieses Forschungsbereichs deutlich, der interdisziplinäre und metho‐ disch innovative Ansätze erforderlich macht. In seiner Genese und Ausdifferen‐ zierung ist dieses Fachgebiet, das sich seit Mitte des 20. Jahrhunderts formiert hat, weiterhin seit jeher eng mit der Disziplin der Sozialpsychologie verknüpft, was sich in der theoretischen und methodischen Rezeption des Forschungsbe‐ reiches spiegelt. Dabei hat sich gezeigt, dass die Anwendung rein quantitativer Verfahren, wie sie in der sozialpsychologischen Einstellungsforschung zunächst vermehrt Beachtung fanden, mit zahlreichen Problemen behaftet ist, weshalb hier neue Wege beschritten werden (sollten). Im Bereich der (Sprach-)Einstel‐ lungsforschung ist zu diesen methodischen Fragen insbesondere in den letzten Jahren ein romanistisches Echo auf Entwicklungen aus Germanistik, Anglistik oder benachbarten Disziplinen erfolgt, und dies gilt im Besonderen für die Integration von (Sprach-)Einstellungen in der Fremdsprachendidaktik, wo me‐ thodische Reflexionen und Fragen oder innovative Forschungsdesigns z. B. in den Beiträgen von Caspari/ Klippel/ Legutke/ Schramm (2016), Putsche (2011), Schwender (2018), Siepmann (2016) oder Venus (2017) Anwendung finden. 3 Methodische Paradigmendiskussion Wie bereits angeklungen, führt uns die Frage nach der Wahl angemessener Herangehensweisen zur Beschäftigung mit qualitativen und quantitativen Me‐ thoden, mithilfe derer sprachliche Analysen durchgeführt werden können. Der verwendete Terminus ‚Paradigmendiskussion‘, in der Literatur immer wieder auch Paradigmenstreit oder gar Science War (Mayring 2012, 291), referiert hier auf die vermeintliche Inkompatibilität konkurrierender oder hierarchisierter qualitativer und quantitativer methodischer Ansätze bei der Beantwortung - in unserem Fall - linguistischer Fragestellungen. Seinen Ur‐ sprung hat dieser Methodenkonflikt in den Sozialwissenschaften. Nach einem prinzipiell unbefangenen und unideologischen Umgang mit verschiedenen Methoden in den Anfängen der empirischen Sozialforschung, haben sich seit den 1920er Jahren zunehmend eigene qualitative und quantitative Schulen ent‐ wickelt, die in einen sogenannten ‚Methodenstreit‘ gemündet haben, weshalb seit den 1970er Jahren sogar vielfach von den beiden Paradigmen sozialwissen‐ schaftlicher Methoden die Rede ist (cf. Kuckartz 2014, 10-11; cf. auch Maxcy 2003; Johnson/ Gray 2010, 82-84). 3 In dieser Zeit Jahren spielte in Deutschland 46 Vera Mathieu, Julia Montemayor <?page no="47"?> die standardisierte quantitative Richtung in der empirischen Forschung eine beherrschende Rolle, seit den 1980er Jahren haben sich aber erhebliche Verschie‐ bungen in der Praxis der empirischen Sozialforschung ergeben: Die qualitative Forschung hat seither einen starken Aufschwung erlebt (cf. Flick 2007, 22-38) und die zu Beginn der 1980er Jahre geführte Kontroverse um quantitative versus qualitative Methoden ist einer Diskussion um die Verzahnung beider Orientierungen gewichen. Quantitative Ansätze sind prinzipiell eher mit standardisierten Erhebungs‐ instrumenten assoziiert, folgen dem Modell des naturwissenschaftlichen Mes‐ sens und arbeiten im Rahmen eines linearen Forschungsprozesses mit nu‐ merischen Daten. Qualitative Verfahren werden demgegenüber im Rahmen zirkulärer Forschungsprozesse mit nicht-numerischen Daten eingesetzt, pos‐ tulieren Offenheit, Authentizität und basieren auf der Interaktion und Kom‐ munikation von Forschenden und Forschungsteilnehmenden. Bei qualitativen Verfahren geht es um die Rekonstruktion von Sinn, um die Sichtweisen der Forschungsteilnehmenden, beispielsweise um die Bedeutung, die sie dem For‐ schungsgegenstand beimessen, um ihre Motive und biographischen Bezüge. Für die qualitativen wie die quantitativen Methoden gilt, dass sie keineswegs einen einheitlichen Block darstellen, sondern ein großes Spektrum teilweise auch heterogener Ansätze umfassen, die sich tatsächlich z. T. auch in einer Schnittmenge zwischen diesen beiden ‚Lagern‘ einordnen lassen. Plakative Gegenüberstellungen („qualitativ versus quantitativ“) blenden diese in der Realität anzutreffende Vielfalt und Heterogenität der Ansätze zugunsten eines scheinbaren Dualismus aus. Die Literatur zur qualitativen Forschung steht der quantitativen heute in nichts nach, und dennoch sieht sich die qualitativ forschende Person bisweilen immer noch dem Vorwurf ausgesetzt, qualitative Studien seien weniger präzise, weniger aussagekräftig, es handele sich um ‚schlechtere‘ Daten aufgrund der oftmals fehlenden statistischen Repräsentati‐ vität (cf. Lamnek 2010, 3). Dabei handelt es sich mit Kuckartz (Hervorhebung im Original, 2014, 14) keineswegs um „eine schwache Form von Daten, sondern [lediglich] eine andere Form, die [dementsprechend] auch andere nicht minder komplexe und methodisch kontrollierte Analyseverfahren erfordern“. Heutzutage gilt diese Kontroverse um vermeintlich diametral entgegenge‐ setzte Methoden tendenziell als entschärft und es ist eine Diskussion um die Verknüpfungspotenziale beider Methoden entstanden, da man die Ansätze beider Forschungsrichtungen zunehmend als komplementär, mit Gemeinsam‐ keiten, Überschneidungen und auf einem Kontinuum liegend versteht. Durch die Annahme anderer als ausschließlich der quantitativen Sichtweise entstam‐ menden Gütekriterien kann ein größtmöglicher Nutzen einer Verzahnung Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? 47 <?page no="48"?> dieser beiden Ansätze für die gegenstandsangemessene Beantwortung der Forschungsfrage erreicht werden (cf. hierzu z. B. Kruse 2015, 55-56; Lamnek 2010, 127-167). Je nach Disziplin in den Sozialwissenschaften zeigt sich diese Tendenz der methodischen Annäherung allerdings deutlicher (z. B. im Bereich der Erziehungswissenschaften) oder noch stark verlangsamt (wie z. B. in der Psychologie). Abb. 1: Charakteristika quantitativer und qualitativer Ansätze sowie Kombinierbarkeit. Eigene Abbildung nach Kuckartz/ Rädiker (2022, 15-21). Im vorliegenden Beitrag soll an konkreten Beispielen gezeigt werden, inwie‐ fern es sinnvoll sein kann, sich beim Instrumentarium beider Richtungen zu bedienen, wenn sich dadurch ein Mehrwert für die zielgerichtete Bearbeitung der Fragestellung ergibt. Ein Überschreiten der traditionellen Fächergrenzen und ein Blick über den ‚methodischen Fachtellerrand‘ kann dabei nicht nur ertragreich, sondern bisweilen sogar notwendig sein, um adäquate Antworten auf die aufgeworfenen Fragen zu erhalten. Bei der Recherche zu Forschungsbereichen, die diese methodischen Über‐ legungen integrieren und dabei neue Analysewege unter Einsatz computer‐ gestützter Verfahren beschreiten, fällt auf, dass bisher verhältnismäßig viele Studien in der Germanistik oder der Anglistik bzw. anderen Disziplinen ent‐ standen sind. In der Romanistik hingegen scheinen sich ähnliche Ansätze, v.-a. in der Diskurslinguistik, Korpuslinguistik und (Sprach-)Einstellungsforschung erst jüngst als Umbruch in der Fachtradition durchzusetzen. Diese Bereiche sowie die in ihnen angesiedelte Beschäftigung mit methodischen Fragen, Erhe‐ 48 Vera Mathieu, Julia Montemayor <?page no="49"?> 4 Dass es in diesen Bereichen v. a. in den letzten zehn Jahren auch Forschungsaktivitäten innerhalb der Romanistik gibt, wenngleich dies in einem geringeren Umfang zu erfolgen scheint als in der germanistischen oder anglistischen Forschung, belegen u. a. zur Korpuslinguistik Arbeiten von Gerstenberg (2011); Pusch/ Kabatek/ Raible (2005); Prévost/ Stein (2013); Stede (2018) und Wicher (2018). Neuere Publikationen zeigen auch eine deutlichere Hinwendung zur diskurslinguistischen Forschung, cf. z. B. Neusius (2019); Neusius (2021); Rocco/ Schafroth (2019) und Weiland (2020). bungs- und Auswertungsmethoden sollen deshalb nachfolgend exemplarisch berücksichtigt werden. 4 4 Mixed Methods: Verortung, Designs und computergestützte Forschungspraxis Das im vorangehenden Kapitel formulierte Postulat eines komplementären Me‐ thodenverständnisses firmiert unter verschiedenen, teils synonym gebrauchten Überschriften wie z. B. Methodenintegration, Triangulation, Methodenkombi‐ nation und natürlich auch Mixed Methods, der im angelsächsischen Raum dominierenden Bezeichnung. Wir orientieren uns hier an einer Definition nach Kuckartz, der unter Mixed Methods die Kombination und Integration von qualitativen und quantitativen Methoden im Rahmen des gleichen Forschungsprojekts [versteht]. Es handelt sich also um eine Forschung, in der die Forschenden im Rahmen von ein- oder mehrphasig angelegten Designs sowohl qualitative als auch quantitative Daten sammeln. Die Integration beider Methodenstränge, d. h. von Daten, Ergebnissen und Schlussfolgerungen, erfolgt je nach Design in der Schlussphase des Forschungsprojektes oder bereits in früheren Projektphasen. (Kuckartz 2014, 33) Die Forschungsfrage und eine gegenstandsangemessene Herangehensweise stehen dabei im Vordergrund (cf. Abb. 1), wobei prinzipiell von einer Verein‐ barkeit der qualitativen und quantitativen Ansätze ausgegangen wird, die der adäquaten Bearbeitung des Untersuchungsgegenstands dienlich sein können, indem ihre Kombination mehr Facetten zur Beantwortung beitragen als durch die Verwendung nur einer Methode möglich gewesen wäre. Wenn es also für die Beantwortung der Forschungsfrage zielführend ist, können Methodengrenzen durchaus als durchlässig betrachtet werden und Ansätze gewinnbringend mit‐ einander verbunden werden, wie auch Johnson/ Christensen unterstreichen: „In short, what works is what is useful and should be used, regardless of Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? 49 <?page no="50"?> any philosophical assumption, or any other type of assumption“ ( Johnson/ Christensen 2014, 491). Kritisch diskutiert wird unter anderem die Postulierung von Mixed Methods als drittem Paradigma und Ausweg aus der ‚Methodenkonfrontation‘. Für seine Protagonisten stellt der Mixed Methods-Ansatz ein neues zeitgemäßes Methodenverständnis dar, das der Komplexität heutiger Forschungsfragen entspricht und das die alte Dualität der Ansätze in einer neuen Strömung - Teddlie/ Tashakkori sprechen vom „third methodological movement“ (2003, 24) - aufhebt. Allerdings zeugt das Nebeneinander unterschiedlicher Bezeich‐ nungsmöglichkeiten (cf. supra) für die Methodenkombination von diversen methodologischen Herangehensweisen, die sich ähneln, aber nicht unter einem Etikett zusammenfassen lassen. Der Triangulationsansatz geht auf Denzin zurück, der das Vorgehen als „the combination of methodologies in the study of the same phenomenon“ (Hervorhebung im Original, Denzin 1978, 291) definiert. Es handelt sich also um ein Konzept, das schon eine mehr als vierzigjährige Geschichte hinter sich hat und auf einen in der Vermessungskunde benutzten Begriff Bezug nimmt: Das Verfahren erlaubt es, die genaue Position eines Objekts in einem dreidimensionalen Raum durch unterschiedliche Bezugspunkte präzise zu be‐ stimmen. Triangulation meint demnach, dass mehr als eine Perspektive zur Untersuchung einer Forschungsfrage eingesetzt wird, um so umfassendere, stichhaltigere, vertrauenswürdigere Resultate zu erhalten. Als eine dem Ur‐ sprung nach naturwissenschaftliche Operation des Messens ist der Ansatz in den Sozialwissenschaften auch nicht unproblematisch, da der experimentelle Differenzierungsgrad nur selten der Komplexität sozialer Strukturen und Ver‐ haltensweisen gleichzukommen vermag (cf. Kelle 2007, 54-57). Im Vergleich zur Triangulation bieten Mixed Methods methodologisch gesehen v. a. durch die Verortung im Pragmatismus den nötigen ‚theoretischen Freiraum‘, um die Wahl und Kombination von Methoden nicht von einem spe‐ zifischen Paradigma abhängig zu machen, sondern am Forschungsgegenstand auszurichten. Dabei liegen Motive für den Einsatz von Mixed Methods-Verfahren in der Absicht, durch die Integration verschiedener methodischer Verfahren die Validität von Forschungsergebnissen zu prüfen und zu veranschaulichen. Dazu werden qualitative und quantitative Methoden komplementär eingesetzt, um „ein umfassenderes Bild des Forschungsgegenstandes“ (Kelle 2019, 163-164) zu erlangen, was in großen digitalen Datensammlungen von Vorteil sein kann, deren Analyse einer pragmatischen, aber nicht weniger sorgfältigen Herange‐ hensweise bedarf. Derartige Methodenverschränkungen ermöglichen z. B. im Bereich der (Sprach-)Einstellungsforschung, Analysen in mehreren Stufen zu 50 Vera Mathieu, Julia Montemayor <?page no="51"?> verfeinern, indem z. B. qualitative Inhaltsanalysen (cf. Kuckartz/ Rädiker 2022) um quantitative Sprachgebrauchsmusteranalysen (cf. Bubenhofer 2009) ergänzt werden können, an die sich dann wiederum qualitative linguistische Feinanalysen auf propositionaler und lexikalischer Ebene von Texten anschließen. Je nach Verfahren können verschiedene Typen und Designs von Mixed Methods differenziert werden, die sich anhand des Zeitpunkts, der Reihenfolge und der Funktion der Methodenintegration bestimmen lassen (cf. Kelle 2019, 164-165). Die Quantifizierung von qualitativen Daten ist in der Forschungs‐ praxis wesentlich häufiger anzutreffen als die Qualifizierung von quantitativen Daten. Man verfährt hierbei so, dass die Resultate der qualitativen Auswertung in Zahlen umgewandelt werden. Bei einer an der qualitativen Inhaltsanalyse orientierten Auswertung lässt sich beispielsweise zählen, wie häufig ein Code, d. h. eine bestimmte Kategorie, vergeben wurde oder auch bei wie vielen Personen des Samples bestimmte Kategorien oder Kategorienkombinationen auftreten. Diese Transformation in quantitative Angaben geschieht in der qualitativen Analyse relativ häufig und passiert mehr oder weniger unbemerkt. Die Forschenden argumen‐ tieren quasi-statistisch: Sie konstatieren, dass dieses oder jenes Phänomen besonders häufig (oder auch selten) vorkommt und erklären manche festgestellten Muster für typisch oder manche Personen für Sonderfälle bzw. Extremfälle. (Hervorhebung im Original, Kuckartz 2014, 87) Ein solches Vorgehen kann als Transferdesign des Typs QUAL → quan be‐ schrieben werden. Die Auswertung der Sprachdaten folgt dabei einem sequen‐ tiellen Design, in dem die explorative Analyse der Sprachdaten dominant qualitativ ist (QUAL). Diese qualitativen Ergebnisse werden dann, in der Regel geclustert nach inhaltlichen Kategorien, quantifiziert, d. h. Häufigkeiten werden anhand der absoluten und prozentualen Verteilungen „auf ihre Geltungsreich‐ weite hin geprüft“ (Kelle 2019, 169). Dieses sogenannte „Sequential Exploratory Design“ (Plano Clark/ Creswell 2008, 180-182) ermöglicht die konsekutive Implementation beider Methoden während der Analyse eines Samplings, wobei die qualitativ-induktive Dateninterpretation prioritär behandelt wird und dann in einen quantitativen Datentyp transferiert wird, um Rekurrenzen, Einzel- und Sonderfälle bestimmter inhaltlicher oder sprachlicher Kategorien zu belegen. Was die technische Umsetzung einer solchen Methodenintegration anbelangt, so „eignen sich […] alle herkömmlich bekannten Auswertungsmethoden und Hilfsprogramme der empirischen Sozialforschung“ (Schrape/ Siri 2019, 1060). Dabei zählen die oben genannten QDA-Softwares, aber auch korpuslinguisti‐ sche Tools wie AntConc zu den in der Sprachwissenschaft mittlerweile stark Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? 51 <?page no="52"?> 5 Dabei soll auch darauf hingewiesen werden, dass ein solcher Prozess ggf. unter Nutzung einer kostenlosen QDA-Software auch im Rahmen von Seminaren mit Studierenden der Linguistik erprobt werden kann. Einen Überblick über kostenlose und kommerzielle Formate bietet die Homepage Social Science Software (cf. SoSciSo 2020). genutzten Programmen. Im folgenden Kapitel geht es darum, das oben vorge‐ stellte Transferdesign anhand einer computergestützten Analyse zu illustrieren und Möglichkeiten einer weiterführenden Datenverarbeitung aufzuzeigen. 5 Exemplarische Einblicke in computergestützte Analyseverfahren Die im Folgenden dargelegte Herangehensweise zur Arbeit mit Mixed Me‐ thods-Verfahren mithilfe softwaregestützter Analysetools dient als Beispiel für eine intuitive und unkomplizierte Form der Korpuskonstitution und -ana‐ lyse. Die oben bereits erwähnten QDA-Programme ermöglichen das Systema‐ tisieren qualitativer Schritte wie das Erstellen von Kategoriensystemen und das Zuordnen dieser Kategorien zu Textstellen, die Zusammenstellung aller zu einer Kategorie gehörigen Textstellen, die Gruppierung dieser Kategorien zu Hierarchien und Netzwerken oder sie erleichtern ihre visuelle Darstellung. Weiterhin lassen sich durch den gesamten Analyseprozess hindurch beispiels‐ weise Anmerkungen, Ideen oder Fragen an Textstellen ‚anheften‘ (in Form sogenannter Memos). Neben der linguistischen Annotation der Kommunikate ist dabei nicht nur eine sukzessive Annotation des Forschungsprozesses und der Forscherperspektive mit Hilfe der softwarebasierten Verarbeitung möglich, sondern auch ein kollaborativer Forschungsprozess durch die gleichzeitige Partizipation mehrerer Forschender. Es sind aber auch zahlreiche statistische Operationen wie u. a. lexikalische Frequenzabfragen oder das Suchen nach Wortkombinationen möglich (cf. Kuckartz 2010, 12-28; cf. auch Bubenhofer 2017; Ziem 2017). 5 Ziel der Untersuchung ist eine kurze explorative linguistische Studie zur Fridays for future-Bewegung. Als einschränkende Kriterien bei der Korpuskonstitution, die anstrebt, einen spezifischen Ausschnitt des öffentlichen Diskurses zu erfassen, wurde das Datensampling im Rahmen textexterner Faktoren auf den französischen Pressediskurs im Zeitraum Januar 2018 bis Oktober 2019 einge‐ grenzt sowie im Rahmen textinterner Faktoren auf die Person Greta Thunberg als soziale Akteurin, die in diskurslinguistischer Hinsicht eine zentrale Rolle in der ideology brokerage (cf. Blommaert 1999, 9) des Umweltdiskurses einge‐ nommen hat. Die Wahl des Themas wurde in einem möglichst konkreten und aktuellen Diskurskontext situiert, um auch Studierenden direkte Verbindungs‐ möglichkeiten zwischen digitalem linguistischem Arbeiten und gesamtgesell‐ 52 Vera Mathieu, Julia Montemayor <?page no="53"?> schaftlich relevanten Fragestellungen nahezulegen. Themenerweiterungen z. B. im Rahmen kontrastiver Perspektiven auf die Berichterstattungen in anderen Sprachen sind bei der Korpuskonstitution entsprechend mitzudenken und können im laufenden Prozess ergänzt werden. Technisch wird das explorative Vorgehen mit der Korpuskonstitution und der Korpusuntersuchung in zwei Hauptphasen unterteilt, die jedoch analytisch eng miteinander verzahnt sind. Dabei soll auch verdeutlicht werden, wie sich der Zuschnitt der Forschungsfrage sukzessive aus einzelnen Schritten der digitalen Verarbeitung weiter verfeinern kann. In diesem Zusammenhang sei nochmals darauf hingewiesen, dass ein solches Vorgehen auch ohne digitale Hilfsmittel erfolgen kann. Ebenso ist zu betonen, dass unserer Ansicht nach v. a. die softwarebasierte Auswertung sprachlicher Daten nie eine vollumfängliche und ‚hilfsmittelunberührte‘ Sichtung des Materials ersetzen kann und auch nicht ersetzen muss. Bei der Arbeit mit einem Pressekorpus stehen den Forschenden grundsätzlich verschiedene Wege der Korpuskonstitution offen. Im vorliegenden Fallbeispiel wurde mit der Informationsdatenbank Nexis gearbeitet. Die in die Datenbank integrierte Rechercheplattform Nexis Uni ist auf akademische Forschungspro‐ jekte und tiefergehende Recherchen zugeschnitten. Sie beinhaltet Daten aus über 15.000 Nachrichten-, Firmen- und juristischen Quellen. Über eine Such‐ maschinenoberfläche können lizenzierte Nutzer alle Quellen durchsuchen. An der Universität des Saarlandes ist der Zugang durch eine campusweite Lizenz über das Dateninformationssystem der Universitätsbibliothek für Beschäftigte und Studierende kostenlos, was sich natürlich in Abhängigkeit individueller Forschungskontexte unterscheiden kann. Für unser Vorhaben interessant ist v. a. der Teil ‚Nachrichten‘ in Nexis Uni, der Artikel aus mehreren tausend Zeitschriften, Magazinen und Zeitungen aus aller Welt inklusive Archiv enthält. Es gibt darüber hinaus weiterführende Informationen zu Personen, Branchen, Firmen, aber diese Parameter sind evtl. für eine linguistische Analyse zweit‐ rangig. Auch in Nexis Uni besteht wie bei anderen digitalen Programmen die Möglichkeit zur personalisierten und kooperativen Projektarbeit. Die Optionen der Nachrichtenrecherche können über verschiedene Filter und Operatoren am linken Rand der Suchmaske gesteuert werden (cf. Abb. 2). Hier kann neben einer medialen und sprachlichen Auswahl auch eine Suche in ausgewählten Zeitungen oder Zeitschriften angefordert werden. Im vorliegenden Fallbeispiel wurde dementsprechend durch eine Suchanfrage nach dem Schlagwort <Greta Thunberg> mit der Filterkombination ,Newspa‐ pers‘, ,French‘, ,Le Monde‘ und dem Zeitraum ,01.2018-10.2019‘ eine Ergebnis‐ Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? 53 <?page no="54"?> auswahl aus insgesamt 54 Zeitungsartikeln generiert. Der Ausschluss oder Einbezug von Duplikaten kann über eine separate Selektion gesteuert werden. Abb. 2: Suchmaske der Zeitschriftendatenbank in Nexis Uni. Inhaltlich ist an diesem Punkt eine erste Sichtung des Materials mit ‚linguisti‐ schem‘ Blick erforderlich. Wie tief diese erste Sichtung greift, bleibt dem indi‐ viduellen Forschungsziel überlassen. In diesem chronologischen Screening der Ergebnisse fällt auf, dass mit Voranschreiten auf der Zeitachse die sprachliche Ideologisierung der Person Greta Thunberg zunimmt. Anhand der Namenver‐ lagerung in die Überschriften der Zeitungsartikel und eine zunehmend affektive und eigenschaftszuschreibende Lexik kann auf sprachlicher Ebene eine nach und nach steigende Steuerung des Diskurses in eine akteursgebundene Richtung nachgezeichnet werden (cf. Abb. 3 und Abb. 4). 54 Vera Mathieu, Julia Montemayor <?page no="55"?> Abb. 3: Vergrößerter Auszug der Ergebnisliste I. Abb. 4: Vergrößerter Auszug der Ergebnisliste II. Anhand dieser sprachlichen Auffälligkeit kann ein erster korpusbasierter Zu‐ schnitt des Themas induktiv aus der Sichtung des Samplings heraus erfolgen, der die Gewichtung einer dominant qualitativen Herangehensweise unterstreicht. Auf der Grundlage der Ergebnisse kann illustriert werden, dass im vorliegenden Fall zwar im Rahmen quantitativer Informationen die Zunahme des Eigen‐ namens <Greta Thunberg> als Schlüsselbegriff eine ideologische Richtung und akteursgebundene Verfestigung im Diskurs signalisiert, jedoch erst der Einbezug an die Frequenzabfrage gebundener Kollokate wie forces, faiblesses, symbole oder icône die Steuerung des Diskurses durch mediale Instanzen qualitativ greifbar macht (cf. Abb. 3 und Abb. 4). Von dieser ersten Einschät‐ zung ausgehend kann das Sampling dann weiter verfeinert oder erweitert werden. Nach Abschluss dieses Vorgehens stehen verschiedene technische Möglichkeiten der Datensicherung und -weiterverarbeitung zur Verfügung, die oberhalb der Suchergebnisliste ausgewählt werden können (cf. Abb. 2): Die Zeitungsartikel können als Word- oder PDF-Dateien in chronologischer Sortierung gesichert und dann lokal in Abhängigkeit des Weiteren analytischen Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? 55 <?page no="56"?> Vorgehens in anderen Programmen be- und verarbeitet werden. An dieser Stelle haben wir in unserer vorliegenden Fallstudie einen ersten Entwurf des Forschungsthemas aufgestellt, der wie folgt lauten könnte: Akteurszentrierte Positionierungen in der französischen Presse am Beispiel <Greta Thunberg>: diskursgebundene Ideologisierung und lexikalische Verfahren. Im Zentrum einer solchen Themenstellung kann dann in einem weiteren Schritt das Ermitteln von Einstellungen in Form von Positionierungsaktivitäten gegenüber der öf‐ fentlichen Figur Greta Thunberg sowie die mit der Akteurin Greta Thunberg verbundene Ideologisierung ihrer sozialen Rolle und diskursiven Funktion stehen. Dieser Frage vorausgesetzt wird die oben beschriebene Einordnung von Einstellungen als potenziell dynamische Gebilde kognitiver, affektiver und konativer Natur, die im diskursiven Kontext, d. h. interaktionistisch verhandelt werden und sich in diesem Kontext verfestigen oder modifizieren können. Der Zugang zur Beschreibung dieser Einstellungen erfolgt auf intratextueller Ebene anhand qualitativer und quantitativer Verfahren der Wortschatzanalyse, die dem o.-g. Transferdesign des Typs QUAL → quan entspricht. Die sich nun anschließende Weiterverarbeitung der Daten hängt von der individuellen Schwerpunktsetzung ab. Im vorliegenden Beispiel können die in Nexis generierten Textdateien entweder als .doc-, .pdf- oder .txt-Dateien in ein Programm zur qualitativen Datenanalyse transferiert werden. Ausgewählt wurde hier die kostenpflichtige Software MAXQDA (Version 2018.2). Mithilfe einer Vielzahl an Mixed Methods-Funktionen können im Programm bei der qualitativen Datenanalyse auch quantitative Analysemethoden einbezogen werden, d. h. qualitative Ergebnisse können in Häufigkeiten umgewandelt werden, dazu können statistische Abbildungen erstellt und weitere externe Daten ergänzt werden. Um die Eindrücke aus der ersten explorativen Phase linguistisch greifbar zu machen, bietet sich als klassisches korpuslinguistisches Verfahren eine Key Word In Context (KWIC)-Analyse an, in der eine Frequenzabfrage des Schlüsselbegriffs <Greta Thunberg> den textuellen Kontext des Suchwortes berücksichtigt, wobei diskursgebundene Konnotationen und Deno‐ tationen definierter Schlagwörter ermittelt werden können. Der Umfang des lexikalischen Kontextes kann manuell festgelegt und variabel erweitert werden (cf. hierzu auch Abb. 5). In diesem ersten Suchlauf zeichnet sich <militante> als weiterer Schlüsselbegriff und Stigmawort zur Positionierung der Akteurin Greta Thunberg ab: 56 Vera Mathieu, Julia Montemayor <?page no="57"?> Abb. 5: KWIC-Analyse <militante> in MAXQDA. Die in der Abbildung erkennbare Ergebnisliste steht nun für weitere quantita‐ tive und qualitative Operationen zur Verfügung. So können die in der Frequenz‐ analyse erfassten Textstellen wiederum in verschiedene Dateiformate extrahiert werden. Gerade bei Einstellungsanalysen im Rahmen eines interaktionistischen Ansatzes können hier qualitative Feinanalysen des Materials übersichtlich zusammengefasst werden. Wie in einem Trichterverfahren wird so der Blick der Forschenden vom gesamten Korpus als repräsentativem Diskursausschnitt in methodisch zugeschnittenen Einzeloperationen nach und nach granuliert. Digitale und immer wieder neu justierbare Suchläufe vermögen dabei, die linguistische Lupe immer wieder an anderen Stellen des Sprachmaterials an‐ zusetzen. So können ausgehend von den Ergebnissen der oberen Schlagwort‐ analyse ausgewählte Textstellen weiter im jeweils konkreten intratextuellen Zusammenhang durchleuchtet werden. Dabei können weitere linguistische Schwerpunkte der Untersuchung aus dem Text ergänzt und kategorial erfasst werden. Diesen Prozess können Tools wie MAXQDA durch verschiedene Formen der Strukturierung, Organisation und Visualisierung der Daten und Analyseschritte maßgeblich erleichtern. Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? 57 <?page no="58"?> Alternative Zugänge zum Datenmaterial bieten auch kostenlose korpuslin‐ guistische Toolkits wie AntConc an (cf. AntConc 2020). Ebenso wie die Mixed Methods-Funktion in MAXQDA ermöglicht AntConc KWIC-, Konkordanz- und Kollokationsanalysen auf der Grundlage von .txt-Dateien in unterschiedlichen Sprachen (cf. Abb. 6). Die Leistung des Programms ist jedoch auf die Quanti‐ fizierung sprachlicher Musterhaftigkeiten ausgelegt und somit sind z. B. im Rahmen einer betont diskursiven Analyse von Einstellungen respektive Posi‐ tionierungen gegenüber Personen und Sachverhalten zusätzliche qualitative Untersuchungsschritte erforderlich. Abb. 6: KWIC-Analyse in AntConc. 6 Fazit: Chancen, Grenzen und Potenziale Die in vorangehenden Überlegungen beleuchteten Entwicklungen eines an neuen Forschungsbereichen gewachsenen romanistischen Methodenbewusstseins, das eine pragmatische und vom Forschungsgegenstad geleitete Integra‐ tion qualitativer und quantitativer Methoden befürwortet, lassen v. a. ein gesteigertes Interesse an Mixed Methods als emergent methods in verschiedenen Anwendungsbereichen erkennen (cf. Hesse-Bieber 2010). Die Verlagerung 58 Vera Mathieu, Julia Montemayor <?page no="59"?> auf unterschiedliche und flexible Verfahren der Methodenkombination und mit dieser einhergehende foschungsrelevante Potenziale gründen in neuen technologischen Möglichkeiten der anschaulichen und erkenntnisfördernden Datenbearbeitung und -visualisierung über computergestützte Programme. Wie exemplarisch für die Erforschung komplexer Konzepte wie Ideologien und Einstellungen gezeigt wurde, kann die Rahmung des Forschungsprozesses durch eine pragmatische Methodenwahl verschiedene Chancen mit sich bringen. Wenngleich der Fokus aufgrund des Untersuchungsgegenstandes ‚(Sprach-)Ein‐ stellungen‘ ein qualitativ geprägter sein sollte, ist ein Mehrwert durch die Integration quantitativer Werte zu erzielen, der in der Verarbeitung großer Datenmengen, der verhältnismäßig einfachen Visualisierung und Quantifizie‐ rung interpretierter Daten sowie den Möglichkeiten der Strukturierung von Analyseergebnissen liegt. Das Wissen und die Erkenntnisse, die die Befunde qualitativer Forschung bringen, sind durch die Kombination mit quantitativen Komponenten umfangreicher, mehrperspektivischer und somit vollständiger, u. a. weil sie dadurch gewinnen, dass auch zahlenmäßige Angaben gemacht werden können: Die Chance zur Generalisierung qualitativer Forschungsergeb‐ nisse wächst (cf. Kuckartz 2014, 54). Ein weiterer Mehrwert liegt in der Option einer partizipativen Bearbeitung von Forschungsprojekten über die Nutzung von QDA-Programmen. Gerade diese Erleichterung von kollektiven Arbeitsformen, der gemeinschaftlichen Interpretation und Begutachtung von Daten, ist im Forschungsprozess als bedeutsames Qualitätskriterium zu bewerten. Ein computergestütztes Vorgehen kann die ‚traditionelle‘ geisteswissenschaftliche Arbeit im Zusammenhang mit solchen einstellungsbezogenen Fragestellungen nicht ersetzen, sondern soll als ergänzendes, helfendes Verfahren verstanden werden, um bestimmte Tendenzen sichtbar zu machen, die über ein rein ‚manuelles‘ Vorgehen nur sehr schwer oder überhaupt nicht erschließbar wären. Durch diese Möglichkeiten wird auch die Frage nach den Grenzen sprachwissenschaftlicher Forschungsar‐ beiten neu gestellt: Nicht nur sind die Forschungsgegenstände im Zeitalter der Digitalisierung zunehmend entgrenzt, sondern es ist Aufgabe der Forschenden, eigene Grenzen zumindest kritisch zu hinterfragen und die Grenzen zu anderen Disziplinen zu überwinden, um das Potenzial linguistischer Forschungsgegen‐ stände freizulegen und zu nutzen. Der Weg, um dieses Potenzial zu nutzen, erfordert auch einen zumindest im ersten Schritt höheren Zeitaufwand bei der Einarbeitung in die theoretische und praktische Fundierung der Methode sowie deren Adaptation an den konkreten Untersuchungsgegenstand. Ein solcher Pro‐ zess bedeutet nicht Kompetenzen zu ersetzen, sondern sie im Rahmen unserer Disziplin zu erweitern. Damit dies gelingen kann, ist ein ggf. auch interdiszipli‐ Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? 59 <?page no="60"?> närer Ausbau der bereits vorhandenen universitären Methodenausbildung im Bereich der Sprachwissenschaft wünschenswert. Voraussetzungen für diesen Ausbau liegen dabei zunächst v.-a. in der Schulung eines kritischen Methoden‐ bewusstseins im angemessenen Umgang mit Datentypen, großen Datenmengen und den forschungsethischen Ansprüchen, die v. a. im Zuge der Digitalität dieser Daten zunehmend zu berücksichtigen sind. Eine frühe Integration dieser an‐ wendungsbezogenen Kompetenzen in die sprachwissenschaftlichen Curricula scheint auch über die Heranführung an eine grundlegende Methodenkenntnis im Kontext der Vermittlung allgemeiner Prinzipien des wissenschaftlichen Arbeitens empfehlenswert. Erst auf dieser Grundlage einer auch methodischen Propädeutik im Rahmen der linguistischen Grundausbildung können anschlie‐ ßende interdisziplinäre Ansprüche umgesetzt werden, zu denen auch der sichere Umgang mit digitalen Korpora und computerbasierten Analysemethoden zählt. Literatur Arendt, Birte (2010): Niederdeutschdiskurse. Spracheinstellungen im Kontext von Laien, Printmedien und Politik, Berlin, Erich Schmidt. Blommaert, Jan (1999): „The debate is open“, in: Blommaert, Jan (ed.): Language ideological debates, Berlin/ New York, De Gruyter, 1-38. Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Dis‐ kurs- und Kulturanalyse, Berlin/ New York, De Gruyter. Bubenhofer, Noah (2017): -„Kollokationen, n-Gramme, Mehrworteinheiten“, in: Roth, Kersten Sven/ Wengeler, Martin/ Ziem, Alexander (eds.): Handbuch Sprache in Politik und Gesellschaft, Berlin/ Boston, De Gruyter, 69-93. Caspari, Daniela/ Klippel, Friederike/ Legutke, Michael K./ Schramm, Karen (eds.) (2016): Forschungsmethoden in der Fremdsprachendidaktik. Ein Handbuch, Tübingen, Narr. Chiquito, Ana Beatriz/ Quesada Pacheco, Miguel Ángel (eds.) (2014): Actitudes lingüísticas de los hispanohablantes hacia el idioma español y sus variantes, Bergen, Bergen Language and Linguistic Studies. Cichon, Peter (1998): Sprachbewusstsein und Sprachhandeln. Romands im Umgang mit Deutschschweizern, Wien, Braumüller. Cuonz, Christina (2014): Sprachliche Werturteile von Laien. Eine sozio-kognitive Analyse, Tübingen, Narr Francke Attempto. Denzin, Norman K. (1978): The research act: A theoretical introduction to sociological methods, New York, McGraw-Hill. Flick, Uwe (2007): Qualitative Sozialforschung. Eine Einführung, Reinbek, Rowohlt. 60 Vera Mathieu, Julia Montemayor <?page no="61"?> Gerstenberg, Annette (2011): Generation und Sprachprofile im höheren Lebensalter: Un‐ tersuchungen zum Französischen auf der Basis eines Korpus biographischer Interviews, Frankfurt a.-M., Vittorio Klostermann. Hesse-Bieber, Sharlene (2010): „Emerging methodologies and methods practices in the field of Mixed Methods research“, Qualitative Inquiry 16.6, 415‒418, DOI: https: / / doi. org/ 10.1177/ 1077800410364607. Hundt, Markus (1992): Einstellungen gegenüber dialektal gefärbter Standardsprache: eine empirische Untersuchung zum Bairischen, Hamburgischen, Pfälzischen und Schwäbi‐ schen, Stuttgart, Steiner. Johnson, Burke/ Christensen, Larry ( 4 2014): Educational research. Quantitative, qualita‐ tive, and Mixed Methods approach, Los Angeles, London, New Delhi, Singapore , Sage. Johnson, Burke/ Gray, Robert ( 2 2010): „A history of philosophical and theoretical issues for Mixed Methods research“, in: Tashakkori, Abbas/ Teddlie, Charles (eds.): Mixed Methods in social & behavioral research, Los Angeles, London, New Delhi, Singapore, Sage, 69-94. Kelle, Udo (2007): Die Integration qualitativer und quantitativer Methoden in der em‐ pirischen Sozialforschung. Theoretische Grundlagen und methodologische Konzepte, Wiesbaden, Verlag für Sozialwissenschaften. Kelle, Udo ( 2 2019),-„Mixed Methods“, in: Baur, Nina/ Blasius, Jörg (eds.): Handbuch Methoden der empirischen Sozialforschung, vol.-1, Wiesbaden, Springer VS, 159-172. Krefeld, Thomas/ Pustka, Elissa (eds.) (2010): Perzeptive Varietätenlinguistik, Frankfurt a.-M., Berlin, Bern, Bruxelles, New York, Oxford, Wien, Lang. Kruse, Jan ( 2 2015): Qualitative Interviewforschung. Ein integrativer Ansatz, Weinheim/ Basel, Beltz. Kuckartz, Udo ( 3 2010): Einführung in die computergestützte Analyse qualitativer Daten, Wiesbaden, Verlag für Sozialwissenschaften. Kuckartz, Udo (2014): Mixed Methods. Methodologie, Forschungsdesigns und Analysever‐ fahren, Wiesbaden, Verlag für Sozialwissenschaften. Kuckartz, Udo/ Rädiker, Stefan ( 5 2022): Qualitative Inhaltsanalyse. Methoden, Praxis, Computerunterstützung, Weinheim, Basel, Beltz Juventa. Lamnek, Siegfried ( 5 2010): Qualitative Sozialforschung, Weinheim, Beltz. Lenk, Sonia (2010): Minorías y bilingüismo sostenido: vitalidad etnolingüística y compor‐ tamiento lingüístico entre los quichuahablantes en Ecuador, Quito, Abya-Yala. Lenz, Alexandra N. (2003): Struktur und Dynamik des Substandards. Eine Studie zum Westmittelhochdeutschen (Wittlich/ Eifel), Stuttgart, Steiner. Maurer, Bruno (2016): „La méthode d’analyse combinée des représentations sociales des langues : un outil d’étude quanti-quali des idéologies linguistiques“, Circula 3, 5-19, DOI: http: / / dx.doi.org/ 10.17118/ 11143/ 9701. Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? 61 <?page no="62"?> Maxcy, Spencer J. (2003): „Pragmatic threads in Mixed Methods research in the social sciences: The search for multiple modes of inquiry and the end of the philosophy of formalism“, in: Tashakkori, Abbas/ Teddlie, Charles (eds.): Handbook of Mixed Methods in social and behavioral research, Thousand Oaks, Sage, 51-90. Mayring, Philipp (2012): „Mixed Methods - ein Plädoyer für gemeinsame For‐ schungsstandards qualitativer und quantitativer Methoden“, in: Gläser-Zikuda, Mi‐ chaela/ Seidel, Tina/ Rohlfs, Carsten/ Gröschner, Alexander/ Ziegelbauer, Sascha (eds.): Mixed Methods in der empirischen Bildungsforschung, Münster, New York, München, Berlin, Waxmann, 287-300. Montemayor Gracia, Julia (2017): Indigene Sprachen in Mexiko. Eine sprecherzentrierte Studie zur Vitalität des yukatekischen Maya, Berlin/ Boston, De Gruyter. Montemayor, Julia/ Neusius, Vera/ Polzin-Haumann, Claudia (eds.) (2018): Digitalkul‐ turen. Cultures numériques. Herausforderungen und interdisziplinäre Forschungsper‐ spektiven. Enjeux et perspectives interdisciplinaires, Bielefeld, transcript. Mühlichen, Andreas ( 2 2019): „Informationelle Selbstbestimmung“, in: Baur, Nina/ Blasius, Jörg (eds.): Handbuch Methoden der empirischen Sozialforschung, vol.-1, Wiesbaden, Springer VS, 77-87. Neusius, Vera (2019): „Zur Methodenkombination in angewandten diskurslinguistischen Untersuchungen. Ein Beitrag aus Perspektive der romanischen Sprachwissenschaft“, in: Kreuz, Christian/ Mell, Ruth M./ Römer, David (eds.): Aktuelle Tendenzen der inter‐ disziplinären Diskursforschung, 74-91, https: / / doi.org/ 10.25521/ diskurse-digital.2019. 98. Neusius, Vera (2021): Sprachpflegediskurse in Deutschland und Frankreich. Öffentlichkeit - Geschichte - Ideologie, Berlin/ Boston, De Gruyter. Otto, Carsten (2009): Bilinguismus in Felipe Carrillo Puerto, Quintana Roo, Mexiko, Hamburg, Universität Hamburg. Petitjean, Cécile (2009): Représentations linguistiques et plurilinguisme, Université de Provence Aix-Marseille I/ Université de Neuchâtel. Plano Clark, Vicki L./ Creswell, John W. (2008): The Mixed Methods reader, Thousand Oaks, Sage. Polzin-Haumann, Claudia (2006): Sprachreflexion und Sprachbewusstsein. Beitrag zu einer integrativen Sprachgeschichte des Spanischen im 18. Jahrhundert, Frankfurt a. M., Lang. Preston, Dennis R. (ed.) (1999): Handbook of perceptual dialectology, vol.-1, Ams‐ terdam/ Philadelphia, John Benjamins. Preston, Dennis R. (2004): „Folk metalanguage“, in: Jaworski, Adam/ Coupland, Ni‐ kolas/ Galasiński, Dariusz (eds.): Metalanguage social and ideological perspectives, Berlin/ New York, De Gruyter, 75-101. Prévost, Sophie/ Stein, Achim (2013): Syntactic Reference Corpus of Medieval French (SRCMF), Lyon/ Stuttgart, ENS de Lyon/ ILR Stuttgart. 62 Vera Mathieu, Julia Montemayor <?page no="63"?> Pusch, Claus D./ Kabatek, Johannes/ Raible, Wolfgang (2005): Romanistische Korpuslingu‐ istik II: Korpora und diachrone Sprachwissenschaft, Tübingen, Narr. Putsche, Julia (2011): Spracheinstellungen von Grundschülerinnen und Grundschülern in einer Grenzregion. Qualitative Untersuchung in zwei paritätisch unterrichteten ersten Klassen mit Zielsprache Französisch, Bern, Berlin, Bruxelles, Frankfurt a. M., New York, Oxford, Wien, Lang. Rißler-Pipka, Nanette (ed.) (2009): Theorien von Autorschaft und Stil in Bewegung. Stilistik und Stilometrie in der Romania, München, AVM. Rißler-Pipka, Nanette (2016): „Digital Humanities und die Romanische Literaturwissen‐ schaft. Der Autorschaftsstreit um den Lazarillo de Tormes“, Romanische Forschungen 128 (3), 316-342. Rocco, Goranka/ Schafroth, Elmar (eds.) (2019): Vergleichende Diskurslinguistik. Methoden und Forschungspraxis,Berlin, Bern, Bruxelles, New York, Oxford, Warszawa, Wien., Lang. Rosenberg, Milton J./ Hovland, Carl .I. (1960): „Cognitive, affective, and behavioral com‐ ponents of attitude“, in: Rosenberg, Milton J. et al. (eds.): Attitude organization and change: An analysis of consistency among attitude components, New Haven, Yale University Press, 1-14. Rüdiger, Jan-Oliver (2018): Corpus Explorer, https: / / notes.jan-oliver-ruediger.de/ softwar e/ corpusexplorer-overview (11.11.2019). Scherfer, Peter (1983): Untersuchungen zum Sprachbewußtsein der Patois-Sprecher in der Franche-Comté, Tübingen, Narr. Schöch, Christof (2013): „Big? Smart? Clean? Messy? Data in the humanities“, Journal of the Digital Humanities 2 (3), 2-13. Schöch, Christof (2017): „Quantitative Analyse“, in: Jannidis, Fotis/ Kohle, Hubertus/ Reh‐ bein, Malte (eds.): Digital Humanities: Eine Einführung, Stuttgart, Metzler, 279-298 (=2017a). Schöch, Christof (2017): „Topic modeling genre: An exploration of french classical and enlightenment drama“, Digital Humanities Quarterly 11 (2), 1-53 (=2017b). Schrape, Jan-Felix/ Siri, Jasmin ( 2 2019): „Facebook und andere soziale Medien“, in: Baur, Nina/ Blasius, Jörg (eds.): Handbuch Methoden der empirischen Sozialforschung, vol.-1, Wiesbaden, Springer VS, 1053-1064. Schwender, Philipp (2018): „Französisch---Schwere Schulfremdsprache? Eine exempla‐ rische Studie sprachbezogener Werturteile saarländischer Schülerinnen und Schüler“, Zeitschrift für romanische Sprachen und ihre Didaktik 12 (2), 85-115. Siepmann, Dirk (2016): „Das Corpus de référence du français contemporain und sein Einsatz in der Grammatikographie am Beispiel des Präpositionsgebrauchs“, in: Bürgel, Christoph/ Siepmann, Dirk (eds.): Sprachwissenschaft und Fremdsprachendidaktik: Zum Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? 63 <?page no="64"?> Verhältnis von sprachlichen Mitteln und Kompetenzentwicklung, Baltmannsweiler, Schneider, 141-160. SoSciSo 2020-=-Gey, Ronny: Software im sozialwissenschaftlichen Forschungsprozess, Eintrag auf dem Blog SoSciSo (Social Science Software), https: / / www.sosciso.de/ de/ u ber-sosciso/ impressum (28.04.2020). Soukup, Barbara (2015): „Mixing methods in the study of language attitudes: Theory and application“, in: Prikhodkine, Alexei/ Preston, Dennis R. (eds.): Responses to language varieties: Variability, processes and outcomes, Amsterdam, John Benjamins, 55-84. Soukup, Barbara (2019): „Sprachreflexion und Kognition: Theorien und Methoden der Spracheinstellungsforschung“, in: Antos, Gerd/ Niehr, Thomas/ Spitzmüller, Jürgen (eds.): Handbuch Sprache im Urteil der Öffentlichkeit, Berlin/ Boston, De Gruyter, 83-106. Spitzmüller, Jürgen (2005): Metasprachdiskurse. Einstellungen zu Anglizismen und ihre wissenschaftliche Rezeption, Berlin, De Gruyter. Spitzmüller, Jürgen (2019): „Sprache---Metasprache---Metapragmatik: Sprache und sprachliches Handeln als Gegenstand sozialer Reflexion“, in: Antos, Gerd/ Niehr, Thomas/ Spitzmüller, Jürgen (eds.): Handbuch Sprache im Urteil der Öffentlichkeit, Berlin/ Boston, De Gruyter, 11-30. Stede, Manfred ( 2 2018): Korpusgestützte Textanalyse. Grundzüge der Ebenen-orientierten Textlinguistik, Tübingen, Narr. Stein, Peter (1989): „Überlegungen zu einer quantitativen Analyse im Bereich der historisch-vergleichenden Syntax der romanischen Sprachen“, in: Raible, Wolfgang (ed.): Romanistik, Sprachtypologie und Universalienforschung. Beiträge zum Freiburger Romanistentag 1987, Tübingen, Narr, 55-98. Stroh, Cornelia (1993): Sprachkontakt und Sprachbewußtsein. Eine soziolinguistische Studie am Beispiel Ost-Lothringens, Tübingen, Narr. Teddlie, Charles/ Tashakkori, Abbas (2003): „Major issues and controversies in the use of Mixed Methods in the social and behavioral sciences“, in: Tashakkori, Abbas/ Teddlie, Charles (eds.): Handbook of Mixed Methods in social and behavioral research, Thousand Oaks, Sage, 3-50. Tophinke, Doris/ Ziegler, Evelyn (2006): „Aber bitte im Kontext: Neue Perspektiven in der dialektologischen Einstellungsforschung“, in: Voeste, Anja/ Gessinger, Joachim (eds.): Dialekt im Wandel. Perspektiven einer neuen Dialektologie, Duisburg, Red. OBST, 203-222. Trübner, Miriam/ Mühlichen, Andreas ( 2 2019): „Big Data“, in: Baur, Nina/ Blasius, Jörg (eds.): Handbuch Methoden der empirischen Sozialforschung, vol.-1, Wiesbaden, Springer VS, 143-157. 64 Vera Mathieu, Julia Montemayor <?page no="65"?> Venus, Theresa (2017): Einstellungen als individuelle Lernervariable: Schülereinstellungen zum Französischen als Schulfremdsprache - Deskription, Korrelationen und Unter‐ schiede, Tübingen, Narr. Weiland, Verena (2020): Sprachwissenschaftliche Zugriffe auf Diskurse. Ein korpuslinguis‐ tischer Ansatz am Beispiel des Themas ‚Sicherheit und Überwachung‘ in Frankreich, Heidelberg, Winter Universitätsverlag. Wicher, Oliver (2018): „Korpuslinguistik mit dem Corpus de Réference du français con‐ temporain. Forschungsergebnisse zur französischen Lexikogrammatik und fremdspra‐ chendidaktische Anwendungen“, in: Montemayor, Julia/ Neusius, Vera/ Polzin-Hau‐ mann, Claudia (eds.): Digitalkulturen. Cultures numériques. Herausforderungen und interdisziplinäre Forschungsperspektiven. Enjeux et perspectives interdisciplinaires, Bie‐ lefeld, transcript, 79-92. Ziem, Alexander (2017): „Wortschatz II: quantifizierende Analyseverfahren“, in: Roth, Kersten Sven/ Wengeler, Martin/ Ziem, Alexander (eds.): Handbuch Sprache in Politik und Gesellschaft, Berlin/ Boston, De Gruyter, 47-68. Verwendete Programme Nexis, https: / / advance.lexis.com (29.04.2020). MAXQDA (Version 2018.2), https: / / www.maxqda.de (29.04.2020). AntConc, https: / / www.laurenceanthony.net/ software.html (29.04.2020). Romanistische Linguistik als Ort methodologischer Paradigmendiskussion? 65 <?page no="67"?> Historisch-etymologische Lexikographie <?page no="69"?> Automatisierte Erschließung von strukturierten Daten aus Wörterbuchtexten Florian Zacherl Abstract Traditional linguistic volumes contain large amounts of information, but generally require a lot of manual effort to analyse it or compare it to other sources, even if appropriate scans are easily available. This work describes an approach to access this information and transform it into a structured, digitised data set using as an example the third edition of the Romanisches Etymolgisches Wörterbuch published in 1935. After some basic considerations on how to represent lexical data especially in a relational database, the four distinct work steps which constitute the proposed method are presented: Firstly the original text is extracted from the scanned pages using optical character recognition and stored in a relational data base. Secondly, the hierarchic structure of the individual articles is modelled by a formal grammar and their constituents are represented in a tree-like structure. The following step transforms this further into tabular data while resolving implicit conventions dependent on conventions used within the specific source material. The last part covers the publication of the extracted data by describing the minimal requirements that a corresponding online portal has to fulfill to allow its users to improve data accuracy and fix mistakes and showing possibilities to further connect it with other online resources and the Semantic Web. Keywords: digital humanities, digitization, etymology, lexicography Keywords: Digital Humanities, Digitalisierung, Etymologie, Lexikographie 1 Einleitung Traditionelle gedruckte linguistische Werke enthalten eine Vielzahl an Informa‐ tionen; deren Auswertung und Erschließung erfordert allerdings in den meisten <?page no="70"?> Fällen ein großes Maß an manueller Arbeit. Gerade der Abgleich der Angaben aus verschiedenen Quellen ist häufig mit einigem Aufwand verbunden. Einfache Digitalisate in Form von Scans liefern prinzipiell nur geringen Mehrwert ge‐ genüber dem gedruckten Original. Lösungsansätze für dieses Problem liefern Vernetzungsprojekte wie beispielsweise die Linguistic Linked Open Data Cloud (cf. Chiarcos/ Hellmann/ Nordhoff 2012). Die Integration von Wörterbüchern oder ähnlichem in solche erfordert allerdings zuerst eine Überführung in einen mög‐ lichst strukturierten, digitalen Datenbestand. Im Folgenden wird eine Prozesskette vorgeschlagen, mit deren Hilfe dieses Ziel möglichst automatisiert erreicht werden kann, während eine hohe Qualität der entstehenden Daten gewährleistet bleibt. Sämtliche Eingangsdaten und deren Derivate werden dabei in einer relationalen Datenbank (d.-h. in Tabellenform) abgelegt. Als Beispiel dient hierzu das Romani‐ sche Etymologische Wörterbuch (REW) in der dritten Auflage von 1935. Abb. 1: Ablaufplan der verschiedenen Arbeitsschritte. Der Beitrag hat dabei folgenden Aufbau: Zu Beginn werden Überlegungen angestellt, was lexikalische Daten aus informationstheoretischer Sicht sind und welche Bedingungen ein möglichst generalisiertes Datenmodell für diese erfüllen muss (↑2.). Im Weiteren werden die einzelnen Arbeitsschritte (cf. Abb. 1) im Detail beschrieben. Der Fokus liegt hierbei auf der methodischen Konzeption und weniger auf konkreten Implementierungsdetails. Zu Beginn wird das Digitalisat unter Verwendung von Texterkennung (englisch optical character recognition, OCR) eingelesen und in das relationale Modell überführt. Besonderer Fokus liegt dabei auf einer Darstellung, die im späteren Betrieb direkte Korrekturen von Nutzern erlaubt und dabei gleichzeitig mit Hilfe eines Versionierungskonzepts zitierbar bleibt (↑3.). Im nächsten Schritt wird die hier‐ 70 Florian Zacherl <?page no="71"?> archische Struktur der Wörterbuchartikel mit Hilfe einer formalen Grammatik erkannt und deren Bestandteile in eine baumartige Struktur überführt (↑4.). Auf deren Basis können im Weiteren die eigentlichen lexikalischen Daten extrahiert werden, was vor allem die Auflösung impliziter Information aus Struktur- und Formatkonventionen beinhaltet (↑5.). Der letzte Abschnitt beschreibt die Grund‐ lagen eines Online-Portals, das die nötigen Anforderungen erfüllt und gibt einen Ausblick auf verschiedene Publikations- und Vernetzungsmöglichkeiten für den erzeugten Datenbestand. Ein zentraler Bestandteil des vorgestellten Konzepts ist die möglichst feingra‐ nulierte Erschließung des Quellenmaterials. In Lücke (2019a) werden drei soge‐ nannte „Digitalisierungsgrade“ definiert, die mit dem einfachen Scan beginnen, in der zweiten Stufe den extrahierten Text und im Grad 3 einen strukturierten Datenbestand beschreiben. Selbst der höchste Grad kann dabei allerdings sehr unterschiedlich ausgelegt werden. Die vorgestellte Methode setzt sich zum Ziel die vorhandenen Struktur- und Informationseinheiten maximal tiefgehend auszuwerten und in möglichst verwendungsunabhängiger Form abzubilden. Dies eröffnet das Potential die Daten in unterschiedlichsten möglichen Anwen‐ dungsfällen zu nutzen. Zu diesem Zweck können auch die Zwischenstufen (also gewissermaßen Objekte der ersten beiden „Digitalisierungsgrade“ veröffentlicht werden, hierzu auch ↑6.). Ein weiterer wichtiger Aspekt ist die Erzeugung „strukturierter Daten“ im Ge‐ gensatz zu „strukturiertem Text“. Ähnliche Vorgehensweisen (cf. Renders 2011; Müller-Spitzer 2005) haben das Ziel eine (durchaus feingranulierte) Annotation und Strukturierung des Originaltextes zu erzeugen, während dies hier eher ein Nebenprodukt darstellt und der Fokus auf dem Erstellen von strukturierten (tabellarischen) Daten liegt. Ein letztes Kernelement der vorliegenden Methode ist ein iterativer Ansatz, der die Komplexität der Konversionsroutinen nur bei Bedarf erhöht. Somit wird ausdrücklich nicht versucht eine möglichst perfekte Routine zu erstellen, die jeden Spezialfall abdeckt. Dieses Ziel wäre wenig realistisch bzw. würde den Aufwand nicht rechtfertigen. Stattdessen wird ein System mit Ausnahmen vorgeschlagen (hierzu ↑4.1.; ↑4.3.3. und ↑5.), das es erlaubt abweichende Fälle systematisiert und nachvollziehbar zu behandeln und nur bei deren gehäuftem Auftreten eine allgemeine neue Regel vorsieht. 2 Ein allgemeines Datenmodell für lexikalische Daten Bevor die Extraktion von lexikalischen Daten betrachtet werden kann, ist eine klare Definition nötig, was mit diesem Begriff bezeichnet wird. Oftmals wird Automatisierte Erschließung von strukturierten Daten aus Wörterbuchtexten 71 <?page no="72"?> 1 Vergleiche hierzu beispielsweise das portugiesische banha, das in REW 913 und REW 936a jeweils als unsicher geführt wird. dieser stellvertretend für Daten, die aus einem Wörterbuch stammen bzw. ein (elektronisches) Wörterbuch bilden, verwendet. Kunze/ Lemnitzer (2007) definieren beispielsweise den Begriff lexikalische Datenbank folgendermaßen: Lexikalische Datenbanken sind digitale lexikalische Ressourcen, die in einer Form abgespeichert sind, dass die einzelnen Datensätze konsistent im Hinblick auf eine formale Beschreibung ihrer Struktur sind. Ein einzelner Datensatz kann dabei einem Wörterbuchartikel entsprechen oder einem Artikelteil. Er kann aber auch artikelüber‐ greifende Strukturen umfassen. (Kunze/ Lemnitzer 2007, 12) Dieses Verständnis spiegelt sich in den entsprechenden Datenmodellen wider, die im Allgemeinen den Wörterbucheintrag als zentrales Element haben. Exemplarisch hierfür sind das Lexical Markup Framework (Kunze/ Lemnitzer 2007, 122-129) und das zum Teil darauf aufbauende lemon-Mo‐ dell (McCrae/ Aguado-de-Cea/ Buitelaar/ Cimiano/ Declerck/ Gómez-Pérez/ Gracia/ Hollink/ Montiel-Ponsoda/ Spohr/ Wunner 2012, 8-15), die beide den sogenannten LexicalEntry als Kernelement festlegen. Dieser entspricht (wie im klassischen Wörterbuch) einer Gruppierung bestimmter sprachlicher Formen und deren Bedeutungen: „An entry in a lexicon is a container for one or several forms and one or several meanings of a lexeme“ (McCrae/ Aguado-de-Cea/ Buitelaar/ Ci‐ miano/ Declerck/ Gómez-Pérez/ Gracia/ Hollink/ Montiel-Ponsoda/ Spohr/ Wunner 2012, 9). Diese Modellierung hat allerdings verschiedene Nachteile: • Neben dem Wörterbuch stellt der Sprachatlas eine weitere wichtige Quelle sehr ähnlicher Daten dar. Der entscheidende Unterschied hierbei ist die onomasiologische Perspektive an Stelle der semasiologischen, liegt also mehr in der Präsentation der Daten und weniger in deren Inhalt. Eine Darstellung solcher Daten ist aber mit einem rein auf das Wörterbuch bezogenem Modell nicht (oder zumindest nicht ohne weiteres) möglich. • Das Modell lässt kaum Raum für Unsicherheiten. Es geht von einer fixen Lemmatisierung (bzw. Zuordnung zu Stichwörtern) der sprachlichen Formen aus, deren Details aber gerade im Bereich der Etymologie oder auch der Dialektologie nicht immer trivial oder unumstritten sind. So werden beispielsweise in etymologischen Wörterbüchern Formen mit unklarer Ety‐ mologie im Normalfall mehrfach angegeben, 1 was aber eher ein der Publi‐ kationsform geschuldeter Notbehelf ist, der bei einer digitalen Erschließung durch eine elegantere Lösung ersetzt werden kann. Ein Datenmodell, das 72 Florian Zacherl <?page no="73"?> 2 Ob ein Sprachbeleg ohne Bedeutungsangabe zielführend ist, ist diskutabel. Rein aus technischer Sicht ist es aber sinnvoll diese Möglichkeit bei der Extraktion von Daten vorzusehen, da eine nur implizit gegebene Bedeutung u. U. nicht immer automatisiert hergeleitet werden kann (↑5.). solche Unsicherheiten nativ unterstützt (auch in Bezug auf Bedeutungen etc.) wäre also wünschenswert. • Gerade im Kontext der Verfügbarmachung von Daten über das Semantic Web (↑6.) können bei der maschinellen Verarbeitung der Daten völlig neue Problemstellungen in den Fokus rücken. Die grundsätzliche Konzeption eines Print-Wörterbuchs stellt aber die möglichst gute Zugänglichkeit für Menschen über dieses Medium in den Vordergrund und entspricht somit nicht zwingend dem Idealzustand für eine optimale maschinelle Nutzung. Umgekehrt kann eine generalisierteres Datenmodell auch wieder Vorteile für den Nutzer eines Online-Wörterbuchs haben, indem es beispielsweise einen zusätzlichen onomasiologischen Zugriff erlaubt. Um diesen Nachteilen zu begegnen, wird hier ein deutlich kleinteiligeres grundlegendes Modell vorgeschlagen, welches den sogenannten „Sprachbeleg“ ins Zentrum stellt. Dieser kann informationstheoretisch als vierdimensionaler Punkt mit den Dimensionen sprachliche Form, Bedeutung, Lokalisierung und zeitliche Einteilung aufgefasst werden. Er belegt somit, dass eine bestimmte sprachliche Form in einer bestimmten Bedeutung zu einer bestimmten Zeit an einem bestimmten Ort verwendet wurde. Grundsätzlich entspricht das der In‐ formation, die auch im Rahmen der klassischen linguistischen Feldforschung er‐ hoben wird und die die Grundlage für traditionelle Atlanten und Wörterbücher bildet. Die einzig wirklich obligatorische Information ist dabei die sprachliche Form, 2 die Ausprägung der anderen Dimensionen hängt stark von der Herkunft des jeweiligen Belegs ab. Gerade die Angaben zu Ort und Zeit variieren sehr stark in Abhängigkeit von der jeweiligen Quelle. Dialektale Wörterbücher und Sprachatlanten liefern naturgemäß sehr genaue räumliche Angaben, während hochsprachliche oder etymologische Wörterbücher in vielen Fällen keine oder nur sehr grobe Angaben über eine eventuelle räumliche Verteilung hergeben (südfranzösisch etc.). Oftmals sind solche Informationen auch nicht explizit gegeben, können aber aus den allgemeinen Angaben der Quelle hergeleitet oder zumindest eingegrenzt werden. So kann der Erhebungszeitraum einer linguistischen Ressource eine zeitliche Eingrenzung liefern, auch wenn diese gerade bei großangelegten und sehr langfristigen Projekten eher grob sein kein. Das zweite Element des Datenmodells ist die Relation zwischen zwei sprach‐ lichen Formen. Hierbei ist für etymologische Daten vor allem eine Herkunfts‐ Automatisierte Erschließung von strukturierten Daten aus Wörterbuchtexten 73 <?page no="74"?> relation entscheidend (z. B. aufgeteilt in Etymon und Entlehnung), aber auch andere Beziehungen zwischen den Formen können so abgebildet werden z. B., dass zwei Formen grammatikalische oder auch phonetische Varianten desselben Worttyps sind. Entscheidend ist (wie auch im Fall des Einzelbelegs) eine Angabe der Quelle. Sowohl Sprachbelege als auch Relationen werden prinzipiell als „Behauptungen“ der jeweiligen Quelle (z. B. Wörterbuch) aufgefasst, was gleichzeitig einen eleganten Umgang mit Unsicherheiten und widersprüchli‐ chen Angaben unterschiedlicher Herkunft erlaubt. So können beispielsweise verschiedene Etymologien unter Angabe der Quelle nebeneinander abgelegt werden. Abb. 2 veranschaulicht die beiden grundlegenden Bestandteile des Datenmodells. Abb. 2: Schematische Darstellung der beiden Grundelemente für das lexikalische Daten‐ modell. Die vorgeschlagene Modellierung über Rohdaten ist „verwendungsunabhängig“, d. h. die Art der Abbildung impliziert noch keine spätere Nutzung, was sie prinzipiell in einem weiten Spektrum wissenschaftlicher Anwendungen nutzbar macht. Auf eine genaue Ausprägung der genannten Dimensionen soll in diesem Kontext nicht eingegangen werden; für eine externe Nut‐ zung der Daten oder deren Zusammenführung mit anderen Datenbeständen ist letztlich aber die Verwendung geeigneter Normdatenbanken und kon‐ trollierter Vokabulare entscheidender als die exakte interne Repräsentation (cf. hierzu Lücke 2019b; McCrae/ Aguado-de-Cea/ Buitelaar/ Cimiano/ Declerck/ Gómez-Pérez/ Gracia/ Hollink/ Montiel-Ponsoda/ Spohr/ Wunner 2012,-13). 74 Florian Zacherl <?page no="75"?> 3 <https: / / nbn-resolving.org/ urn: nbn: de: bvb: 355-ubr07799-0>. 4 <https: / / tesseract-ocr.github.io>. 3 Darstellung des Ursprungsmaterials in einer relationalen Datenbank Da die extrahierten lexikalischen Daten (im Sinne des vorherigen Kapitels) in einer relationalen Datenbank abgelegt werden (↑1.), liegt es nahe auch die textuellen Rohdaten in dieser Form zu speichern. Dieses Vorgehen hat auch den Vorteil, dass nachträgliche Korrekturen auf diesen sehr leicht umzusetzen sind, da Datenbanksysteme prinzipiell für fortlaufende Änderungen ausgelegt sind. Das gilt insbesondere auch für Korrekturen, die direkt von Nutzern des Online-Portals gemacht werden (↑6.). Als Grundlage für die Auswertung des REW wurde ein bestehendes Digitalisat 3 verwendet. Dieses enthält bereits OCR-Daten, deren Qualität allerdings gerade in Bezug auf Diakritika sehr mangelhaft ist. Deshalb wurde mit der freien Software tesseract 4 mit Trainings‐ daten aus dem REW selbst eine neue Texterkennung durchgeführt. Deren Resul‐ tate enthalten außerdem zusätzlich Formatierungsinformationen (Kursivierung, Fettdruck etc.), die für die Strukturerkennung (↑4.) essentiell sind. - 3.1 Strukturierung der textuellen Eingangsdaten Eine grundsätzliche Frage, die sich stellt, ist, in welcher Granulierung der Wörterbuchtext abgelegt wird. Wünschenswert sind hierbei die folgenden Eigenschaften: • Eine möglichst unverfälschte Darstellung des Ursprungstexts, vor allem um Fehler in späteren Verarbeitungsschritten möglichst gut nachvollziehen und beheben zu können und um diese als Resultat in „Digitalisierungsgrad 2“ (nach Lücke 2019a) zur Verfügung zu stellen. • Eine möglichst statische Einteilung in Textbestandteile, d. h. bei Korrek‐ turen sollte sich nur der Inhalt der Textbestandteile ändern, nicht deren Anzahl oder Anordnung. Das ist insbesondere für die Gruppierung der Textbestandteile zu Wörterbucheinträgen relevant (↑4.1.). • Atomarität in Bezug auf die einzelnen Wörterbucheinträge, d. h. jeder Eintrag zu einem bestimmten Lemma sollte sich aus einer Gruppe von Textbestandteilen zusammensetzen lassen (ebenfalls ↑4.1.). Die in der Korpuslinguistik übliche vollständige Tokenisierung des Textes hat diesbezüglich mehrere Nachteile. Diese hängen vor allem damit zusammen, dass die Eingangsdaten durch Texterkennung zustande kommen und somit von einer gewissen Fehlerquote ausgegangen werden muss. Insbesondere ist die Automatisierte Erschließung von strukturierten Daten aus Wörterbuchtexten 75 <?page no="76"?> 5 Eine tokenisierte Variante des Texts lässt sich natürlich trotzdem generieren und Interessenten zur Verfügung stellen (beispielsweise wäre eine korpuslinguistische korrekte Erkennung der Wortgrenzen nicht immer gewährleistet. Gerade die traditionelle Formatierung von Wörterbüchern im Blocksatz und zwei Spalten, führt zu Fällen, in denen die Leerzeichen fast völlig verschwinden und stellt Texterkennungssysteme somit vor Herausforderungen (cf. Abb. 3). Umgekehrt kann es in Spezialfällen auch dazu kommen, dass zusätzliche fehlerhafte Wort‐ trennungen erkannt werden. Abb. 3: Beispiel für sehr enge Wortabstände, insbesondere nach Sonderzeichen (REW 984). Ein weiteres Problem stellt die Silbentrennung dar. Für eine sinnvolle Toke‐ nisierung müsste diese zuerst aufgelöst werden, um zu vermeiden, dass bei getrennten Wörtern zwei Tokens erstellt werden. Dies automatisiert durch‐ zuführen ist allerdings nicht trivial. Ein naiver Ansatz, der Tokens (unter Entfernung des Trennstrichs) immer dann zusammensetzt, wenn eine Zeile auf einen Viertelgeviertstrich endet und die nächste mit einem Kleinbuchstaben beginnt, führt nicht immer zu korrekten Ergebnissen (cf. Abb. 4). Die Unter‐ scheidung von Trenn- und Bindestrichen am Zeilenende ist (selbst bei korrekten OCR-Ergebnissen) auf rein syntaktischer Ebene oftmals nicht möglich und stellt so eine Fehlerquelle bei der automatisierten Behandlung dar. Hinzu kommen noch Sonderfälle wie die (veraltete) Trennung von -ckzu k- -k in der deutschen Silbentrennung. Somit bietet es sich an diesen nicht ganz trivialen Konvertierungsschritt erst im Zuge der späteren Verarbeitung durchzuführen und nicht bereits vor dem Import der Eingangsdaten. Abb. 4: Beispiel für eine Worttrennung, die bei automatischer Behandlung problematisch ist (REW 935). Zusammenfassend würde also eine tokenisierte Darstellung der Rohdaten eine unnötige Komplexität erzeugen und erfüllt die ersten beiden der anfangs genannten Anforderungen nur ungenügend. Eine bessere Variante stellt somit die nächstgröbere Einteilung nach Zeilen dar. 5 Diese erfüllt sowohl die erste Anforderung (die Zeilen werden unverarbeitet aus dem Ursprungstext über‐ 76 Florian Zacherl <?page no="77"?> Nutzung des Vorworts denkbar), sollte aber aus den genannten Gründen nicht die Basis des Datenmodells sein. 6 Eine noch gröbere Einteilung (z. B. ganze Spalten oder Seiten) würde sofort das dritte Kriterium verletzen. nommen), als auch die zweite (Korrekturen finden immer nur innerhalb der Zeilen statt, die Zeile an sich ist aber statisch) und dritte (keine Zeile gehört zu zwei Einträgen). 6 Tabelle 1 veranschaulicht die Darstellung der Zeilen im relationalen Format. Jede Zeile enthält eine eindeutige ID (Spalte 1), den textuellen Inhalt der Zeile, der von der Texterkennung erzeugt wurde (Spalte 2), Informationen zur Position der Zeile im Gesamtwerk (Spalten 3-5) und die Position der Zeile im Pixelraster des entsprechenden Scans (Spalten 6-9). Letzteres wäre nicht zwingend notwendig, ermöglicht aber die Darstellung des Ausschnitts aus dem Scan direkt neben den erkannten Zeilen, was die Korrektur von OCR-Fehlern stark erleichtert (↑6.). Formatierungen werden mit Hilfe einfacher HTML-Tags kodiert, während Absätze über entsprechende Leerzeilen dargestellt werden. id_line content page sec‐ tion linenumber x1 y1 x2 y2 10624 «scheuen», asp. <i>airado</ i> «verbannt». — 49 1 1 20 24 2070 134 10626 Salvioni, RDR. 4, 98; Wartburg. 49 1 2 21 142 1725 252 10628 - 49 1 3 - - - - 10630 167. <b>adĭtus</ b> «Zugang». 49 1 4 148 261 1313 371 10632 - 49 1 5 - - - - 10634 Log. <i>aidu</ i> M-L., Alog. 20; Wagner 5; 49 1 6 141 381 2072 496 Tabelle 1: Beispiel für die Darstellung der Zeilen aus dem REW. - 3.2 Umgang mit Korrekturen Bei der Digitalisierung von gedruckten Werken lassen sich selbst bei manueller Transkription Fehler nicht vermeiden. Zusätzlich sind Druckfehler oder ähnli‐ ches bereits im Ausgangsmaterial möglich. Für einen nachhaltigen Umgang mit Automatisierte Erschließung von strukturierten Daten aus Wörterbuchtexten 77 <?page no="78"?> diesem grundsätzlichen Problem bietet sich ein Ansatz an, der weniger den Versuch einer möglichst perfekten Textbasis bzw. Datenbasis vor der Publika‐ tion in den Vordergrund stellt, sondern vielmehr auf die stetige Verbesserung dieser setzt, idealerweise interaktiv durch die Nutzer des Online-Portals (↑6.). Dies hat die zwei folgenden zentralen Vorteile: • Inhaltliche Änderungen können auch von technisch nicht versierten Betei‐ ligten vorgenommen werden, d. h. der noch häufig vorhandene „Umweg“ von Fachwissenschaftlern über technisches Personal entfällt. • Der redaktionelle Aufwand beschränkt sich (falls überhaupt nötig) auf die Validierung der von Nutzern vorgeschlagenen bzw. vorgenommenen Änderungen. Des Weiteren bietet sich so ein eleganter Lösungsansatz für ein grundsätzli‐ ches Problem von Online-Ressourcen, nämlich deren mangelnde Stabilität, die deren Zitation schwierig macht, an. Prinzipiell kann eine Versionierung nach verschiedenen Mustern erfolgen: • eine Versionierung in festen Zeitabständen (verwendet beispielsweise im Projekt VerbaAlpina, cf. Lücke 2019c); • eine Versionierung, die flexibel bei Bedarf durchgeführt werden kann. Dies entspricht prinzipiell der traditionellen Auflage eines Buchs (für ein Beispiel im Online-Bereich cf. KiT). • Eine Versionierung, bei der jede einzelne Änderung berücksichtigt wird. Zu dieser Form der Versionierung gibt es Ansätze im wissenschaftlichen Be‐ reich (cf. e. g. Bürgermeister 2019), sie entspricht aber auch dem Paradigma der Wikimedia-Projekte (cf. e.-g. Bergsma 2007). Wenn nun Korrekturen mit einem entsprechenden Zeitstempel versehen werden, macht dies eine Versionierung nach dem letztgenannten Modell sehr einfach, da der Zustand des Texts zu einem bestimmten Zeitpunkt jederzeit rekonstruiert werden kann. 4 Strukturanalyse von Wörterbuchartikeln - 4.1 Gruppierung der Zeilen zu Artikeln Bevor die Struktur der einzelnen Wörterbuchartikel erfasst werden kann, ist eine Gruppierung der einzelnen Textzeilen zu Artikeln notwendig. Im Zuge dieser wird somit für jede Zeile markiert, welchem Eintrag sie zugeordnet ist. Falls diese Zeile verändert wird (beispielsweise durch die Korrektur eines 78 Florian Zacherl <?page no="79"?> 7 Auch Ausnahmen in der Worttrennung wie sie in Kapitel 3.1. erwähnt wurden können durch Ausnahmen auf Zeilenebene behandelt werden. Nutzers) kann die interne Repräsentation des Artikels in der Datenbank ent‐ sprechend der geänderten Eingangsdaten neu erzeugt werden. Im Normalfall ist hierfür nur eine sehr einfache Strukturanalyse der Zeilen notwendig. Eine Zeile, mit der im REW ein neuer Eintrag beginnt, kann theoretisch über die beiden folgenden Kriterien bestimmt werden: • Die Zeile folgt auf eine Leerzeile (ist also ein neuer Absatz). • Die Zeile beginnt mit einer Nummer und optional einem Buchstaben, auf die ein Punkt, ein Leerzeichen und eine fett markierte Zeichenkette folgen. Die Erkennung der Absätze durch ein OCR-System ist aber nicht immer akkurat, somit ist in der Praxis ein drittes Kriterium hilfreich: • Die erkannte Nummer ist größer als die letzte. Dieses deckt die Fälle ab, in denen mehrere Lemmata nummeriert werden und diese Nummer fälschlicherweise als neue Eintragsnummer interpretiert werden könnte (cf. die zweite Zeile in Abb. 5). Abb. 5: Beispiel für eine Zeile, die dem grundsätzlichen Format eines Artikelanfangs entspricht, aber keinen neuen Artikel einleitet (REW 4466). Trotzdem sind weiterhin fehlerhafte Erkennungen der Artikelanfänge nicht ausgeschlossen, sei es durch OCR-Fehler oder auch durch Inkonsistenzen innerhalb der Quelle. Diese können durch das in Kapitel 1. erwähnte Ausnah‐ mensystem behandelt werden. Als Ausnahme wird hier eine manuell, d. h. durch einen Nutzer, erstellte strukturiert angegebene Information bezeichnet, die angibt, dass bei der Verarbeitung von den allgemeinen Regeln abgewichen werden soll. Unterschieden werden drei Typen von Ausnahmen: Ausnahmen auf Zeilenebene, Ausnahmen auf Grammatikebene und Ausnahmen auf inhalt‐ licher Ebene. Relevant sind hier die Ausnahmen des ersten Typs, die beiden anderen werden in den Kapiteln 4.3.3. und 5. kurz umrissen. Im vorliegenden Fall sind die Ausnahmen sehr simpel: Es kann entweder angegeben werden, dass eine Zeile einem Artikelanfang entspricht oder eben nicht, falls die oben genannten Kriterien zu falschen Resultaten führen. 7 Dies mag in diesem Fall trivial wirken, das strukturierte Ablegen von Ausnahmebehandlungen (in einer Automatisierte Erschließung von strukturierten Daten aus Wörterbuchtexten 79 <?page no="80"?> 8 „Ungewöhnlich strukturiert“ ist hier quantitativ zu verstehen, d. h. es steht für Struk‐ turen, die nur in Einzelfällen vorkommen. Wie bereits in Kapitel 1. erwähnt, ist es nicht praktikabel für jeden Spezialfall eine eigene Regel aufzustellen. Wenn sie aber etikettiert und gesammelt werden, kann anhand der Anzahl entschieden werden, ob das Aufstellen einer eigenen Regel sinnvoll erscheint. eigenen Datenbank-Tabelle) hat aber den Vorteil, dass Abweichungen von der Regel jederzeit nachvollzogen werden können, indem der jeweilige Nutzer, der Zeitpunkt und eventuell in komplexen Fällen ein Kommentar hinzugefügt werden. - 4.2 Erfassung der hierarchischen Struktur eines Artikels Zum Erfassen von (hierarchisch) strukturiertem Text eignet sich das formelle Konstrukt der Grammatiken der Chomsky-Hierarchie (cf. Chomsky 1975); vor allem bei Parsen der Syntax einer Programmiersprache werden in den meisten Fällen kontextfreie Grammatiken verwendet (cf. e. g. Sikkel/ Nijholt 1997). Auch Ansätze zur Erfassung der Struktur von Wörterbuchartikeln sind vorhanden (Kunze/ Lemnitzer 2007, 94-107), beschränken sich aber eher auf Werke, die von Anfang an eine sehr stark normalisierte Struktur haben (z. B. durch redaktionelle Vorgaben). Sinnbildlich hierfür ist das folgende Zitat: Wörterbuchartikelgrammatiken definieren Wohlgeformtheitsbedingungen für Wör‐ terbucheinträge und deren Konstituenten. Wörterbuchstrukturen, die nicht durch die Grammatik lizenziert sind, werden als nicht wohlgeformt ausgemustert und markiert. (Kunze/ Lemnitzer 2007, 94) Allein dieses Kriterium verankert die Strukturerfassung eher im redaktionellen Prozess, z. B. in der Neuauflage eines Print-Wörterbuchs, um fehlerhaft struktu‐ rierte Artikel aufzufinden und manuell anzugleichen. Es steht aber einer einma‐ ligen Auswertung eines historischen Wörterbuchs ohne erheblichen manuellen Aufwand eher im Wege. Gerade das Werk eines einzelnen Autors wie das REW kann kaum vollständig durch eine einfache Grammatik beschrieben werden; der „Ausschuss“ an ungültigen Artikeln wäre selbst bei komplexen Grammatiken zu hoch. Stattdessen wird hier ein zweistufiges System vorgeschlagen, das anhand einer adaptierten Grammatik (↑4.3.) zuerst versucht die strukturierten Bestandteile möglichst genau zu erfassen und alle nicht erkannten Passagen einer „Rest-Kategorie“ zuordnet. Diese bestehen im Normalfall aus Einschüben natürlichsprachlichen Textes oder auch sehr ungewöhnlich strukturierten An‐ gaben. 8 Abb. 6 veranschaulicht diese partielle Strukturerfassung eines Artikels. Im zweiten Schritt wird innerhalb der unstrukturierten Abschnitte noch eine Erkennung verschiedener relevanter Entitäten, die anhand ihrer Formatierung 80 Florian Zacherl <?page no="81"?> 9 Zum Beispiel sprachliche Formen, Bedeutungen, bibliographische Angaben etc. (cf. hierzu auch Renders 2011, 118-121). 10 Eine explizite Information kann beispielsweise eine direkt auf die Form folgende Bedeutungsangabe sein. Eine etymologische Relation kann aber für solche Formen nicht hergeleitet werden. Das Beispiel in Abb. 7 illustriert das gut, da dort im Text gerade die Formen genannt werden, die nicht dem jeweiligen Etymon zugeordnet werden. erkannt werden können, 9 durchgeführt (cf. Abb. 7). Der hauptsächliche Unter‐ schied zwischen den beiden Phasen ist, dass die in Schritt 1 erkannten Entitäten strukturell eingeordnet sind, somit können im nächsten Schritt aufgrund deren Position im Artikel bestimmte Relationen hergeleitet werden. Konkret gilt das vor allem für das jeweilige Etymon und die Bedeutung einer sprachlichen Form, die u. U. vom Lemma „geerbt“ wird (↑5.). Im Gegensatz dazu kann für eine sprachliche Form innerhalb eines Textabschnitts maximal explizit vorhandene Information verwendet werden. 10 Abb. 6: Einfaches Beispiel für die strukturelle Erfassung des Eintrags 3712 aus dem REW. Der erste Teil wird strukturiert erfasst; der rot markierte Abschnitt besteht aus natürlichsprachigem Text und kann nur als Ganzes übernommen werden. Abb. 7: Das Beispiel aus Abb. 6 mit zusätzlicher Markierung der innerhalb des Textab‐ schnitts erkannten Entitäten. Automatisierte Erschließung von strukturierten Daten aus Wörterbuchtexten 81 <?page no="82"?> 11 Die Begriffe „Sprache“ und „Wort“ werden hier im Sinne von Chomsky (1975) ver‐ wendet: Eine Grammatik beschreibt eine Sprache als Menge aller Wörter, die durch diese konstruiert werden können. Wenn eine Grammatik also einen Wörterbuchartikel beschreibt, sind die einzelnen Wörter die gültigen Artikel. Mit „Dekonstruktion“ ist dann die Zerlegung eines solchen Artikels in seine einzelnen Elemente gemeint. 4.3 Methodische Umsetzung der Strukturerkennung 4.3.1 Parsing Expression Grammars Wie bereits erwähnt soll für die Erfassung der Struktur eine abgewandelte Form einer kontextfreien Grammatik verwendet werden. Ein erster Unterschied ist die Verwendung einer sogenannten Parsing Expression Grammar. Diese wurde erstmals in Ford (2004) vorgestellt und ist eine Antwort auf Probleme der in kontextfreien Grammatiken vorgesehenen Mehrdeutigkeiten in praktischen Anwendungsfällen. Syntaktisch bleibt die Beschreibung einer Grammatik bis auf wenige Details identisch. Der hauptsächliche Unterschied liegt darin, dass beim Vorhandensein mehrerer Auswahlmöglichkeiten diese nicht gleichwertig behandelt werden, sondern als „prioritized choice“ (Ford 2004, 1), d. h. es wird immer die erste anwendbare Regel verwendet. Das generative Modell von Chomsky wird somit durch ein sogenanntes „recognition-based system“ (Ford 2004, 1) ersetzt, da in vielen praktischen Anwendungsfällen weniger die formelle Definition einer Menge von gültigen Wörtern notwendig ist, sondern die Erkennung und vor allem die Dekonstruktion von gültigen Wörtern der beschrieben Sprache. 11 Zusätzlich dazu, dass sich Grammatiken mit diesem Konstrukt in vielen Fällen intuitiver und klarer beschreiben lassen, hat dieses System im konkreten Anwendungsfall gerade bei inkonsistenten Notationen Vorteile. So wird bei‐ spielsweise das Bulletin du dictionnaire général de la langue Wallonne im REW über die folgenden Abkürzungen referenziert: BDGlW, BDGlWallon., BDW, BDW., BDWall. und BDWallon. Um zu verhindern, dass z. B. im Fall der Abkürzung BDWallon. bereits die ersten drei Buchstaben als Literaturangabe erkannt werden, können diese absteigend alphabetisch sortiert werden. Durch die „prioritized choice“ wird dann sichergestellt, dass zuerst immer auf die längeren Abkürzungen überprüft wird, was dieses Problem auf sehr einfache Art löst. 4.3.2 Teilautomatisierte Grammatikerstellung Die Erstellung einer Grammatik findet prinzipiell manuell statt, d. h. nach einer intellektuellen Analyse der Artikelstruktur eines Wörterbuchs wird diese erstellt und im weiteren Prozess entsprechend angepasst. Für längere Listen wie 82 Florian Zacherl <?page no="83"?> sie in diesem Kontext vor allem bei Sprach- und Literaturangaben vorkommen ist das aber weniger sinnvoll. Zielführender ist hier in einem ersten Schritt (z. B. wieder mit geeigneten Grammatiken) die verschiedenen Abkürzungsverzeich‐ nisse zu erfassen und diese dann zu nutzen, um die entsprechenden Regeln der Grammatik automatisiert zu erstellen. Beim Ablegen der Abkürzungen in entsprechenden Datenbanktabellen können diese bei Bedarf leicht angepasst werden. Die Grammatik ist somit immer auf dem neusten Stand. Eine Aktua‐ lisierung des jeweiligen Abkürzungsverzeichnisses ist nicht nur im Fall von OCR-Fehlern nötig, sondern vor allem beim Auftreten neuer Abkürzungen im Prozess der Artikelerfassung. Wie das Beispiel aus dem vorherigen Kapitel zeigt, werden bestimmte Entitäten oftmals durch verschiedene Abkürzungsvarianten referenziert, die nur zum Teil in den entsprechenden Verzeichnissen der Quelle gelistet sind, was ständige Anpassungen der entsprechenden Listen erfordert. 4.3.3 Ausnahmen auf Grammatikebene Um Ausnahmen bei der Strukturerfassung zu behandeln, werden diese (au‐ tomatisiert) der Grammatik hinzugefügt. Dabei werden zwei Subtypen von Ausnahmen unterschieden: Globale Ausnahmen und lokale Ausnahmen. Globale Ausnahmen werden prinzipiell immer zur Artikelgrammatik hinzu‐ gefügt, sind aber kontextabhängig. Ein einfaches Beispiel dazu aus dem REW ergibt sich durch die Abkürzung „Einführung“, die für den Bibliographie-Ein‐ trag Einführung in das Studium der romanischen Sprachwissenschaft verwendet wird. Das Durchsuchen von Textabschnitten nach bibliographischen Angaben (↑4.2.) würde nun dazu führen, dass das Wort Einführung als bibliographische Angabe erkannt und markiert wird, was aber im Normalfall nicht korrekt ist. Abgefangen kann dies durch eine Ausnahme werden, die angibt, dass die Zeichenkette „Einführung“ allein (also ohne darauffolgende Seitenangabe) im Kontext eines Textabschnitts nicht als bibliographischer Verweis interpretiert werden soll. Lokale Ausnahmen werden dahingegen immer auf Artikelebene definiert und geben an, dass eine bestimmte Regel der Grammatik nur in diesem Fall anders interpretiert werden soll. Zum Beispiel enthält die Grammatik für das REW die grundsätzliche Regel, dass eine sprachliche Form aus kursiven Kleinbuchstaben besteht. Für Formen wie anima della Madonna (REW 475) Automatisierte Erschließung von strukturierten Daten aus Wörterbuchtexten 83 <?page no="84"?> 12 In vielen Fällen würden weniger strenge Regeln solche Ausnahmen verhindern; so könnte man in diesem Fall kursive Bestandteile unabhängig von der Groß-/ Kleinschrei‐ bung als sprachliche Formen auffassen. Der Vorteil der strengeren Regeln ist allerdings, dass deutlich mehr OCR-Fehler gefunden werden, also in diesem Fall beispielsweise Kleinbuchstaben, die fälschlicherweise als Großbuchstaben erkannt wurden, oder auch Textteile, die irrtümlich als kursiv erkannt wurden. können aber entsprechend Ausnahmen festlegt werden. 12 Lokale Ausnahmen haben dabei immer höhere Priorität als globale Ausnahmen. 5 Überführung in relationale Daten Im letzten Transformationsschritt muss nun die hierarchische Struktur aus dem vorherigen Kapitel in ein relationales Datenschema überführt werden. Die Herausforderung hierbei ist weniger die Umstrukturierung in ein tabellarisches Format, sondern vielmehr die Auflösung von impliziter Information, die u. a. im Aufbau eines Wörterbuchartikels kodiert ist. Von besonderer Wichtigkeit ist hierbei die Zuordnung der sprachlichen Formen zu entsprechenden Be‐ deutungen und die Extraktion deren etymologischer Beziehungen. In diesem Schritt ist ein genaues Wissen über die entsprechende Quelle sowie weiterer Konventionen in der entsprechenden Fachdisziplin nötig. Als Beispiel soll hier ein Ausschnitt des Eintrags 2729 aus dem REW dienen: (1) 2729. *dŏlva (gall., 5. Jh.) 1. «Raupe», 2. «Sumpfhahnenfuß». - 1. Frz. douve «Leberegel». - 2. Frz. douve, montbel. dorve̥ . Abb. 8 zeigt dazu eine vereinfachte Baumstruktur, wie sie in der Phase der Strukturerkennung erzeugt wird. 84 Florian Zacherl <?page no="85"?> Abb. 8: Schematische Darstellung der Artikelstruktur. Die Tab. 2. und 3 zeigen schließlich eine (sehr schematische) Darstellung der relationalen Daten, wie sie entsprechend des Schemas aus Kapitel 2 erzeugt werden. Weitere notwendige Information, wie die Positionierung des Sprach‐ belegs im Artikel, aus der dieser dann rekonstruiert werden kann, werden hier aus Übersichtlichkeitsgründen ausgelassen. Sprachliche Form Bedeutung Ort Zeit gallisch dŏlva Raupe - 5.-Jahrhundert gallisch dŏlva Sumpfhahnenfuß - 5.-Jahrhundert französisch douve Leberegel - - französisch douve Sumpfhahnenfuß - - französisch dorve Sumpfhahnenfuß Montbéliard - Tabelle 2: Schematische Darstellung der Sprachbelege im relationalen Format. Relation Form 1 Form 2 Etymon französisch douve gallisch dŏlva Etymon französisch dorve gallisch dŏlva Tabelle 3: Schematische Darstellung der Relationen im relationalen Format. Automatisierte Erschließung von strukturierten Daten aus Wörterbuchtexten 85 <?page no="86"?> 13 Das REW spricht im Abkürzungsverzeichnis von „Sprachen und Mundarten“, diese werden aber nicht klar getrennt. Prinzipiell entsprechen alle Angaben mit dem Aufbau „Mundart von …“ de facto Ortsangaben. Aus welchen der anderen Sprachangaben Ver‐ breitungsgebiete abgeleitet werden können, muss nach Einzelfall entschieden werden, zumindest bei den großen romanischen Sprachen wird hier darauf verzichtet. 14 Für Bedeutungen, die nicht im Wörterbuch (implizit oder explizit) angegeben werden, ist es nicht vorgesehen diese nachzutragen. Das hängt mit der Natur der Methodik zusammen, deren Ziel es ist vorhandene Daten extrahieren. Es ist also nicht vorgesehen Lücken zu füllen. Lückenhafte Angaben können nur im Abgleich mit den Daten aus einer anderen Quelle ausgeglichen werden. In diesem einfachen Beispiel müssen an drei Stellen implizite Informationen inferiert werden: • die Bedeutung der beiden letzten Formen, die vom Lemma „geerbt“ wird; • aus der Abkürzung montbel., die für „Mundart von Montbéliard“ steht, werden Information zur Sprache und zum Ort abgeleitet. 13 • Die Etymon-Relation wird aus der Position der Formen im Artikelbaum abgeleitet. In aufwendigeren Beispielen müssen zum Teil noch verschiedene andere In‐ formationen hergeleitet werden, wobei diese Herleitungen selbst konzeptuell durchaus komplex werden können. Abb. 9 illustriert dies am Beispiel der Bedeutungsinferenz. Grundsätzlich folgt der Ablauf den Angaben im Vorwort des REW: […] die romanische Bedeutung wird nur dann gegeben, wenn sie von der des Stichwortes abweicht. Besondere Bedeutungen in den Mundarten folgen dann, durch; von den Grundformen getrennt. Bei den Ableitungen und Zusammensetzungen gilt eine Bedeutung für sämtliche ihr vorangehenden Formen. (REW XI, Hervorhebung im Original) Es müssen aber zusätzlich verschiedene Sonderfälle berücksichtigt werden. Auch hier ist wieder die Möglichkeit einer Ausnahme vorgesehen. Wird keine Bedeutung gefunden, wird diese als „Unbekannt“ markiert. 14 86 Florian Zacherl <?page no="87"?> Abb. 9: Entscheidungsbaum für die Herleitung der Bedeutung einer sprachlichen Form. Die gelb eingefärbten Felder beschreiben jeweils das Resultat. Automatisierte Erschließung von strukturierten Daten aus Wörterbuchtexten 87 <?page no="88"?> 6 Möglichkeiten zur Publikation der Resultate Dieser Beitrag legt den Fokus auf die Erzeugung von strukturierten Daten aus dem jeweiligen Quellenmaterial. Die Methodik ist dabei so konzipiert, dass die Arbeitsschritte im Rahmen eines passenden Web-Portals ausgeführt werden, vor allem um die generierten Daten bei Korrekturen durch den Nutzer entsprechend anzupassen. Dieses abschließende Kapitel umreißt kurz welche grundsätzliche Funktionalität ein solches bereitstellen muss und gibt im Fol‐ genden einen Ausblick über verschiedene Möglichkeiten den Datenbestand zu publizieren und mit anderen Ressourcen zu vernetzen. Das absolute Minimum, das ein solches Portal leisten können muss, ist ein Zugriff auf die entsprechenden Daten und die Bereitstellung der Möglichkeit für den Nutzer OCR-Fehler in den Ausgangsdaten zu beheben und damit die Ak‐ tualisierung der betroffenen Einträge anzustoßen. Des Weiteren ist es durchaus sinnvoll aus den Textpassagen zusammen mit den eigentlichen lexikalischen Daten eine angereicherte Version des Originalartikels zu rekonstruieren, die für den menschlichen Nutzer einen deutlich höheren Mehrwert bietet als die eher für die maschinelle Nutzung ausgelegten relationalen Rohdaten. Was die Korrektur der Eingangsdaten angeht, ist eine einfache, aber sehr effiziente Mög‐ lichkeit die Darstellung des Ausschnitts aus dem Scan, der den entsprechenden Artikel enthält und direkt daneben die entsprechenden Zeilen in Textfeldern. Wenn jeder Änderung der Zeilen direkt in die Datenbank übertragen wird (und dort weitergehende Aktualisierungen anstößt), können so sehr schnell und intuitiv Fehler korrigiert werden. Zu beachten ist dabei, dass Änderungen der Eingangsdaten nicht nur die inhaltliche Natur der Artikel (z. B. falsche er‐ kannte Diakritika/ Zeichen) beeinflussen können, sondern auch die strukturelle (insbesondere bei Missbrauch). Somit ist es empfehlenswert eine redaktionelle Zwischenebene vorzusehen, die zumindest bei Änderungen, die eine Erkennung der Artikelstruktur verhindern, eine vorherige Freischaltung erfordert. Auch kann es sinnvoll sein den Ausnahmenmechanismus für Nutzer freizugeben, vorausgesetzt dessen Nutzung ist entsprechend detailliert dokumentiert. Was den technischen Zugang angeht, wurde bereits in Kapitel 1 kurz angesprochen, dass eine Veröffentlichung in verschiedenen Formaten und Erschließungsstufen möglich und auch sinnvoll ist, da nicht jede potentielle Nutzung vorhergesehen werden kann. Somit können sowohl die Scans als auch der reine Text (unter Berücksichtigung von Korrekturen etc.) als Rohdaten angeboten werden. Für den Zugriff auf die strukturierten Daten ist die Nutzung von Standardformaten nützlich. Damit sind sowohl sehr einfache generische Formate (CSV, JSON etc.), als auch komplexere, disziplinspezifischere Formate 88 Florian Zacherl <?page no="89"?> 15 https: / / tei-c.org 16 https: / / www.w3.org/ RDF wie TEI 15 oder auch RDF 16 für die Anbindung an das Semantic Web gemeint. Ein entscheidender Vorteil von strukturierten und feingranulierten Daten ist, dass diese prinzipiell in beliebige Formate gebracht und so zum Export bereitgestellt werden können. Ein entscheidender Schritt, um die Nutzbarkeit und vor Vergleichbarkeit mit anderen Daten zu erhöhen ist außerdem die Erzeugung passender Metadaten, die insbesondere für die Verknüpfung mit existierenden kontrollierten Vokabu‐ laren, Normdatenbanken und Ontologien genutzt werden können. Bibliographie Bergsma, Mark (2007): Wikimedia architecture, Wikimedia Foundation Inc, https: / / uploa d.wikimedia.org/ wikipedia/ labs/ 8/ 81/ Bergsma_-_Wikimedia_architecture_-_2007.pd f [letzter Zugriff: 30. Mai 2020]. Bürgermeister, Martina (2019): “Extending versioning in collaborative research”, in: Bleier, Roman/ Winslow, Sean M. (eds.), Versioning cultural objects: digital approaches, 171-190, http: / / nbn-resolving.de/ urn: nbn: de: hbz: 38-106567. Chiarcos, Christian/ Hellmann, Sebastian/ Nordhoff, Sebastian (2012): “Linking linguistic resources: examples from the Open Linguistics Working Group”, in: Chiarcos, Chris‐ tian/ Hellmann, Sebastian/ Nordhoff, Sebastian (eds.), Linked data in linguistics. Repre‐ senting language data and metadata, Heidelberg, Springer, 201-216. Chomsky, Noam (1975): The logical structure of linguistic theory, New York, Springer US. Ford, Bryan (2004): Parsing expression grammars: a recognition-based syntactic foundation, SIGPLAN Not. 39: 1, 111-122, https: / / doi.org/ 10.1145/ 982962.964011. KiT = Krefeld, Thomas/ Lücke, Stephan/ Riepl, Christian (eds.), Korpus im Text, <http: / / w ww.kit.gwi.uni-muenchen.de> [letzter Zugriff: 17. Mai 2020]. Kunze, Claudia/ Lemnitzer, Lothar, Computerlexikographie. Eine Einführung, Tübingen, Narr, 2007. Lücke, Stephan (2019): „s.v. Digitalisierung“, in: VerbaAlpina-de 19/ 2 (Erstellt: 16/ 1, letzte Änderung: 16/ 2), Methodologie, https: / / doi.org/ 10.5282/ verba-alpina? urlappend=%3F page_id%3D493%26db%3D192%26letter%3DD%2315 (=-2019a). Lücke, Stephan (2019): „s.v. Normdaten“, in: VerbaAlpina-de 19/ 2 (Erstellt: 18/ 2), Metho‐ dologie, https: / / doi.org/ 10.5282/ verba-alpina? urlappend=%3Fpage_id%3D493%26db% 3D192%26letter%3DN%23114 (=-2019b). Automatisierte Erschließung von strukturierten Daten aus Wörterbuchtexten 89 <?page no="90"?> Lücke, Stephan (2019): „s.v. Versionierung“, in: VerbaAlpina-de 19/ 2 (Erstellt: 16/ 1, letzte Änderung: 18/ 1), Methodologie, https: / / doi.org/ 10.5282/ verba-alpina? urlappend=%3F page_id%3D493%26db%3D192%26letter%3DV%2361 (=-2019c). McCrae, John/ Aguado-de-Cea, Guadalupe/ Buitelaar, Paul/ Cimiano, Philipp/ Declerck, Thierry/ Gómez-Pérez, Asunción/ Gracia, Jorge/ Hollink, Laura/ Montiel-Ponsoda, Elena/ Spohr, Dennis/ Wunner, Tobias (2012): Interchanging lexical resources on the Semantic Web, Lang Resources & Evaluation 46, 701-719. Müller-Spitzer, Carolin (2005): „Die Modellierung lexikografischer Daten und ihre Rolle im lexikografischen Prozess“, in: Haß, Ulrike (ed.), Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz, Berlin/ New York, De Gruyter, 20-54. Renders, Pascale (2011): Modélisation d’un discours étymologique. Prolégomènes à l’infor‐ matisation du «Französisches Etymologisches Wörterbuch» (Thèse de doctorat), Liège, Université de Liège. REW = Meyer-Lübke, Wilhelm (1935): Romanisches etymologisches Wörterbuch 3., vollst. neubearb. Aufl., Heidelberg, Winter. Sikkel Klaas/ Nijholt Anton (1997): “Parsing of context-free languages”, in: Rozenberg, Grzegorz/ Salomaa, Arto (eds.), Handbook of formal languages, Berlin/ Heidelberg, Springer, 61-100. 90 Florian Zacherl <?page no="91"?> 1 ATILF (2010). Les outils de l’informatisation du FEW Benjamin Husson, Sarah Kremer Abstract In this paper, we present the various tools and techniques, both IT and typographic, used within ATILF in the computerization of the Französisches Etymologisches Wörterbuch (FEW). We first introduce the context and the community’s expectations regarding computerization. We then present the various projects aimed at adapting analog data into digital data, starting with images first, then building a fully retroconverted version in a second step. We illustrate the technical problems and original challenges we have had to overcome using modern technologies and standards. Finally, we present the prospects for exploiting the work already done and the ongoing projects that will complete the collection of tools. Keywords: design, document modelisation, document retroconversion, en‐ coding, FEW, indexation, typography, XML Mots-clés : Design, Encodage, FEW, Indexation, Modélisation des documents, Rétroconversion de documents, Typographie, XML 1 Introduction Les efforts fournis par l’ATILF pour élargir et simplifier la diffusion du projet du Französisches Etymologisches Wörterbuch (FEW) prend en 2010 la forme d’une plateforme en ligne qui présente l’ensemble des fascicules imprimés du FEW numérisé. Les 16.865 pages des 25 volumes du dictionnaire, scannées et indexées, y sont rendues accessibles par l’intermédiaire d’une interface de consultation. 1 Celle-ci permet d’accéder au contenu du dictionnaire, trié par volume et présenté page par page. Ce mode de consultation, qui mime la consultation analogique, est complété d’un outil de recherche qui se base sur <?page no="92"?> 2 ATILF (2003). 3 Renders (2015). 4 L’ANRT est un 3 e cycle de l’École supérieure d’art et de design de Nancy. Plusieurs projets de recherche qui y sont menés proposent d’élaborer des outils typographiques, polices de caractères, mise en forme de publications ou d’interfaces, pour les besoins de la recherche, en égyptologie, numismatique, linguistique, etc., en collaboration avec différents laboratoires de recherche. Pour plus de détails, cf. Huot-Marchand (2014) ; Huot-Marchand/ Savoie (2014)-; Kremer (2016). 5 Chambon/ Chauveau (2002). les données de l’index général des formes, également préparé à l’ATILF sous la direction d’Éva Buchi. 2 Cet index, qui liste 275.295 formes jugées représentatives du contenu du FEW, rattache une liste de formes à leur étymon et permet déjà aux lecteurs une nouvelle manière d’accéder aux données lexicographiques, non pas en partant du mot-titre, mais en parcourant le contenu même des articles. L’exploitation informatique de l’Index dans l’interface de consultation du FEW numérisé permet la mise en place d’un champ de recherche en autocomplétion qui simplifie l’accès à une information située dans le corps d’un article. Le FEW entame désormais son informatisation. Ce projet ambitieux, mais aussi particulièrement attendu, est initié suite aux recherches menées par Pascale Renders dans le cadre d’une thèse de doctorat, codirigée par Éva Buchi et Marie-Guy Boutier, soutenue en juin 2011 et publiée en 2015. 3 L’objectif à terme est de proposer un accès libre à l’ensemble du contenu du FEW, complété d’outils d’accompagnement de la lecture au sein d’une plateforme de consultation unifiée. Cette plateforme doit permettre l’accès aux données présentées dans le dictionnaire sous une forme analogue à celle offerte par les volumes imprimés mais elle doit également proposer des outils de recherche plus transversaux. Ce chantier mobilise aujourd’hui à l’ATILF des informaticiens, des lexicographes et des designers issus de l’Atelier national de recherche typographique (ANRT). 4 2 Contexte - 2.1 Vers une diffusion élargie du FEW Depuis le déménagement du centre du FEW de Bâle à l’ATILF à Nancy en 1993, le dictionnaire de Wartburg a connu de multiples évolutions au niveau de son mode de publication. La publication du volume 25, refonte des articles de la lettre A, marque la fin de la production du dictionnaire sous la forme de fascicules imprimés. 5 La refonte des articles de la lettre B qui prend sa suite dès 2003 est quant à elle envisagée de manière sélective et non alphabétique. Les nouveaux articles rédigés sont mis à disposition au fur et à mesure de leur rédaction. Une section du site internet du laboratoire permet de télécharger 92 Benjamin Husson, Sarah Kremer <?page no="93"?> 6 ATILF (2006). 7 Chauveau/ Greub/ Seidl (2010). 8 ATILF (2006). 9 Renders/ Nissille (2008, 1190-1191). individuellement chaque nouvel article sous la forme de fichiers PDF. 6 Cette libre distribution marque une première étape vers une diffusion plus large du FEW, dont la présence s’est jusque-là limitée aux bibliothèques universitaires et spécialisées. Sa sous-exploitation, souvent regrettée, s’explique non seulement par sa faible diffusion, mais aussi par la précision de son discours qu’il faut pouvoir interpréter. Afin d’accompagner les lecteurs dans la consultation des articles du FEW, différents outils sont alors produits à l’ATILF. L’Index ouvre de nouvelles portes de consultation vers le contenu des articles. Par ailleurs, la mise à jour du Beiheft constitue un nouvel outil d’accompagnement des lecteurs. Ce Complément 7 pré‐ paré par Jean-Paul Chauveau, Yan Greub et Christian Seidl met à jour l’ensemble des sigles qui renvoient à l’intégralité des sources citées dans des articles. Il liste également différents éléments chronologiques et bibliographiques, ainsi qu’une traduction de la première préface, permettant ainsi de mieux situer le projet du FEW. Enfin, des aides pour simplifier le décodage des articles sont publiées en ligne 8 par l’ATILF. On peut alors consulter le Strichrichtung, la liste des abréviations géolinguistiques organisée selon l’ordre de présentation employé dans les articles, ainsi qu’un glossaire allemand-français des termes employés dans le dictionnaire. La compilation de ces outils d’aide au décodage construit progressivement une base de données qui complète le dictionnaire et interagit avec lui. Le projet d’informatisation du FEW correspond à l’aboutissement de cette logique de mise en relation et en réseau des ressources. - 2.2 Le FEW informatisé, nouvelles attentes Les attentes liées à l’informatisation du FEW sont bien exprimées 9 et ont été dé‐ crites avec précision par ses utilisateurs. Le souhait d’obtenir un accès pratique à la ressource est l’attente la plus partagée par les utilisateurs. Vient ensuite le besoin de permettre une résolution, à la volée, des diverses abréviations émaillant les articles lors de la lecture. Les utilisateurs du dictionnaire souhaitent également avoir à leur disposition un moyen d’interroger le dictionnaire de manière transversale, pour leur permettre de dégager simplement des ensembles de mots répondant à des critères précis. L’étude montre également que la liaison avec d’autres dictionnaires informatisés offrirait de nouvelles perspectives quant à l’exploitation de la ressource. Les outils de l’informatisation du FEW 93 <?page no="94"?> 10 DÉRom. 11 ATILF, DMF (2019). 12 Krefeld/ Lücke (2014). Le besoin prioritaire qui sous-tend le projet d’informatisation est celui de la diffusion de la ressource aux utilisateurs et aux rédacteurs du FEW. Compte tenu des particularités physiques du dictionnaire, plus de 16.000 pages réparties en 25 volumes, il est en effet important d’en permettre un usage dématérialisé. Si ce premier besoin peut être résolu en offrant un accès à l’ensemble des pages de l’ouvrage en version numérisée, il implique toutefois de se poser la question de l’indexation de la donnée et des moyens de son interrogation. En effet, les modalités de recherche et de consultation d’un article du FEW ont toujours été jugées délicates et une affaire de spécialiste. Qu’il s’agisse de la complexité structurelle de l’ouvrage ou de ses spécificités lexicographiques, il est nécessaire de proposer au lecteur l’accès aux clés de lecture dont nous disposons. L’Index et le Complément servent donc de point de départ au système d’interrogation du lecteur image du FEW. Nous arrivons ici à la limite de ce qu’il nous est possible de proposer à partir de l’exploitation de la version numérisée du FEW. Si chaque article indexé par son URL dans le lecteur du FEW peut déjà être lié à d’autres ressources (comme depuis le site du DÉRom, 10 du DMF 11 ou depuis celui du projet VerbaAlpina 12 ), il ne nous est pas possible d’accéder à un index exhaustif des formes, et nous n’avons pas encore répondu aux besoins liés à la résolution automatique des sigles lors de la lecture des articles. Ces besoins nécessitent d’imaginer une version rétroconvertie de la res‐ source, permettant de modéliser la structure profonde des articles sous la forme d’un balisage XML. Cette description a été réalisée dans le cadre de la thèse de P. Renders. On y trouve la liste des algorithmes permettant de transformer les articles initialement saisis par le Trier Center for Digital Humanities, vers ce modèle XML enrichi d’annotations sémantiques. 3 Modélisation - 3.1 Images et métadonnées La première étape du travail lié à l’informatisation du FEW a été la mise à disposition de la ressource à partir d’une version numérisée. Dans ce cadre, le service de reprographie de l’ATILF a numérisé chacune des pages constituant le dictionnaire. Nous avons ainsi collecté un corpus d’images, indexées par leurs numéros de volume et de page. 94 Benjamin Husson, Sarah Kremer <?page no="95"?> Si cette collection permet en soi de répondre au besoin de diffusion, elle ne peut répondre seule à celui de l’interrogation. Nous avons besoin pour cela de mettre en relation d’autres sources d’indexation du FEW avec nos données. Nous nous appuyons pour cela sur les ressources satellites du FEW que sont le Complément et l’Index. Le Complément nous permet de résoudre les différents sigles bibliographiques et géolinguistiques, tandis que l’Index nous sert de point de départ pour les fonctionnalités de recherche attendues par les utilisateurs. Ces deux ressources seront donc à cette occasion projetées sous la forme de données relationnelles afin d’être exploitables informatiquement. Il reste alors à mettre en relation les images issues de la numérisation avec les points d’entrée de nos métadonnées, et de permettre aux utilisateurs d’interroger le contenu de ces index au travers de formulaires de recherche. Il est ainsi déjà possible de faire des recherches permettant par exemple de trouver l’ensemble des étymons liés à des formes ayant une morphologie respectant une expression régulière, en croisant ces critères avec d’autres marqueurs comme les étiquettes bibliographiques ou géolinguistiques. Cette solution, implémentée depuis 2010 sous la forme d’un site internet, nous a permis de proposer aux utilisateurs du FEW les moyens d’accéder aux articles de façon dématérialisée tout en leur offrant la possibilité de réaliser des recherches exploitant l’Index et le Complément. - 3.2 Rétroconversion du FEW L’effort de rétroconversion du dictionnaire a débuté suite à la thèse de Pascale Renders, qui fournit les éléments indispensables à sa réalisation. On y trouve notamment la description formelle de deux modèles XML, ou schémas, repré‐ sentant les articles du FEW. L’un permet de représenter la forme de la donnée textuelle, le FEW Font-Style Markup Language (FFML), l’autre modélise le sens de ces caractéristiques typographiques, le FEW Semantic Markup Language (FSML). C’est également dans sa thèse que Pascale Renders décrits les algorithmes permettant de faire le lien entre ces deux modèles. 3.2.1 FEW Font-Style Markup Language (FFML) La modélisation de la forme d’un article a pour objectif de décrire les différents traits typographiques qui le composent. Cette description pourrait être réalisée par un non-spécialiste de la ressource puisque son objectif est d’y représenter tout ce qu’il est possible de décrire « à l’œil nu », qu’il s’agisse de la modélisation des sauts de lignes et des paragraphes représentant la structure de l’article ou des variations typographiques et alphabétiques présentes dans le corps de texte. Les outils de l’informatisation du FEW 95 <?page no="96"?> 13 Renders/ Briquet (2009). À ce stade de la conversion, il est important de souligner qu’il n’y a aucune interprétation de la signification de ces caractéristiques. 3.2.2 FEW Semantic Markup Language (FSML) Le second schéma de données proposé par Pascale Renders modélise en quelque sorte le discours fewien. Il permet de rendre compte de la microstructure des articles, et d’en qualifier le contenu le plus précisément possible. Ce travail se base sur les efforts d’Éva Buchi décrivant les structures du FEW, et l’enrichit en proposant une formalisation fine, basée sur les besoins des utilisateurs d’une part, et sur les limites de ce qu’il sera possible d’automatiser d’autre part. Dans ce modèle formel en XML, Pascale Renders représente les étiquettes géolinguistiques et bibliographiques, les formes, les étymons, les dates, et plus généralement toute information qu’il est possible de déduire automatiquement à partir de sa forme. Ce modèle de données permet aux outils d’exploitation une grande finesse dans l’interrogation et la représentation des articles du FEW. La transformation depuis le modèle FFML vers celui du FSML est réalisé dans le cadre de l’exploi‐ tation des algorithmes de rétroconversion du FEW. 3.2.3 Algorithmes de rétroconversion Les algorithmes de rétroconversion présents en annexe de la thèse de Pascale Renders permettent de transformer le modèle formel vers le modèle sémantique. Ces algorithmes sont en grandes parties dérivés des mêmes heuristiques utilisées par les utilisateurs experts du dictionnaire lorsqu’ils interprètent les articles qu’ils lisent. À l’aide des règles de composition des articles, il est ainsi possible de baliser successivement chaque segment de texte avec une qualification ciblée. Ces algorithmes ont d’abord été décrits en utilisant un pseudo-langage, puis implémentés par un informaticien. 13 Au total, 44 algorithmes ont été ainsi décrits, ciblant chacun une information précise issue du schéma sémantique à baliser. Un logiciel de rétroconversion a ainsi pu être mis au point permettant d’au‐ tomatiser l'exécution successive de cet ensemble d’algorithmes, et permettant de transformer la version FFML des articles vers leurs équivalent respectant le schéma FSML. 96 Benjamin Husson, Sarah Kremer <?page no="97"?> 3.2.4 Validation du matériel rétroconverti Comme toute tâche automatique, le processus de rétroconversion est suscep‐ tible de commettre des erreurs, et ce à différents niveaux de la chaîne de traitement. En premier lieu, l’étape qui consiste à produire manuellement le texte original, bien que réalisé en double saisie, ne garantit pas l’absence complète d’erreurs, notamment en raison des particularités typographiques employées par Wartburg, comme les caractères accentués employés pour les transcriptions phonétiques. De plus, l’ouvrage original peut parfois contenir des erreurs ou des inconsistances, qui peuvent être jugées triviales pour le lecteur, mais qui seront sources d’erreurs d’interprétation par les algorithmes. Si certaines de ces erreurs bloquent le processus de rétroconversion et sont ainsi décelées et corrigées, d’autres pourraient être qualifiées de silencieuses du point de vue du rétroconvertisseur, car n’étant pas détectées comme telles. Elles n’apparaîtront alors qu’au moment de l’exploitation et de la lecture des articles par les experts. C’est cette dernière classe d’erreurs que nous cherchons à mitiger dans la dernière étape de notre chaîne qu’est la validation. La première étape de validation consiste donc à faire repérer ces erreurs par des experts capables de lever ces ambiguïtés. Le but de ce travail est avant tout de détecter les cas de figure et les contextes récurrents d’apparitions de ces mé‐ sinterprétations. Nous obtenons ainsi une collection de classes d’erreurs à partir de laquelle nous pourrons prendre les mesures nécessaires à leurs corrections par lots : soit de manière automatique, en altérant les algorithmes existants ou en en adjoignant de nouveaux, soit de manière manuelle, en offrant les outils nécessaires aux experts pour prendre des décisions de désambiguïsation au cas par cas. 3.2.5 Bilan Au moment où nous écrivons cet article, 3.991 articles ont été rétroconvertis sur les 4.064 existants au format FFML. Les ressources utilisées par les outils de conversion sont mises à jour et étendues au fur et à mesure de notre avancée, en prévision de la transformation des prochains volumes qui seront rendus disponibles. Nous avons également mis au point des outils permettant d’exploiter et d’explorer les données rétroconverties, afin de permettre aux experts de la ressource d’initier le travail de validation. - 3.3 Encodage La typographie numérique joue un rôle pivot dans le cadre de l’informatisation du dictionnaire puisqu’elle se compose de deux niveaux d’informations complé‐ mentaires : la forme qui permet à l’œil du lecteur d’accéder au contenu textuel Les outils de l’informatisation du FEW 97 <?page no="98"?> 14 Jusque-là, les tapuscrits préparés au centre du FEW étaient alors saisis et composés par l’imprimeur chargé du tirage des fascicules. 15 Unicode (2014). du dictionnaire et l’encodage numérique qui permet aux données d’être saisies et au programme d’interroger le contenu. Les derniers fascicules imprimés du FEW ont été le témoin de l’évolution des techniques de composition des articles. Ceux-ci, directement saisis par les rédacteurs, ont été composés à l’aide de polices de caractères numériques. 14 Elles comportent l’ensemble des caractères nécessaires à la composition des articles, parmi lesquels figurent les caractères utilisés par le système de transcription phonétique utilisé par Wartburg. Celui-ci emploie des lettres latines et grecques auxquelles peuvent être additionnées un ou plusieurs signes diacritiques, suscrits et/ ou souscrits. Ces caractères étant spécifiques au FEW, tous ne disposent pas de point d’encodage normalisé au sein des standards internationaux. Afin de remédier à ce problème, les caractères de transcription phonétiques ont été substitués aux caractères non utilisés dans le FEW, utilisant alors leurs points d’encodage. Cette solution a permis un certain temps de saisir et d’afficher les contenus spécifiques du FEW et ainsi de poursuivre la publication de nouveaux articles lors du basculement vers la saisie numérique des contenus. Mais cette politique d’encodage autonome n’est pas interopérable, alors que cette qualité se révèle essentielle à l’heure de la mise en réseau du dictionnaire. La décision de revoir la politique d’encodage a donc constitué une étape essentielle lors de l’élaboration de la version informatisée du FEW. Les conventions d’encodage proposées par le consortium international Uni‐ code ont été choisies afin de pérenniser la valeur des données du FEW et de permettre leur interopérabilité. Ce standard informatique d’encodage dont l’objectif est de proposer une solution pour l’ensemble des systèmes d’écriture du monde, sans restriction de plateforme, est un système de référence largement employé aujourd’hui. Il définit des points d’encodage pour une partie des caractères utilisés dans le FEW. En ce qui concerne les caractères accentués plus complexes et particuliers qui ne disposent pas de points d’encodage spécifiques, le système offre la possibilité de combiner des caractères de base à des signes diacritiques afin de construire les caractères accentués. Le standard Unicode, qui intègre régulièrement de nouveaux caractères, comporte depuis la publication de la version 7.0 15 un ensemble de caractères employés pour la dialectologie allemande parmi lesquels figurent deux caractères utilisés par Wartburg : la lettre minuscule u bouclée (« lettre minuscule latine u hameçon », correspondant au point d’encodage U+AB52) et le signe diacritique d’ouverture («-diacritique 98 Benjamin Husson, Sarah Kremer <?page no="99"?> 16 De cette manière, le caractère accentué ꭒ̄ ́ (u bouclé, macron et accent aigu et crochet d’ouverture), non référencé par Unicode sous la forme d’une entité unique, est décrit sous la forme d’une combinaison de caractères combinatoires ꭒ+◌̄+◌́+◌ꭒ (U+AB52 [lettre minuscule latine u hameçon] + U+0304 [diacritique macron] + U+0301 [diacri‐ tique aigu] + U+1AB7 [diacritique d’ouverture souscrit]). 17 Également connues sous le terme de structures autodescriptives, les données semi-structurées sont une forme de représentation de données non régie par le formalisme des bases de données relationnelles ni d’autre forme de tables de données. Elles contiennent néanmoins des balises ou d’autres marqueurs permettant de hiérarchiser et de séparer les éléments sémantiques la composant. XML et JSON en sont des exemples. d’ouverture souscrit », correspondant au point d’encodage U+1AB7). Ces carac‐ tères récemment intégrés par Unicode permettent désormais de composer sous forme de combinaisons l’ensemble des caractères de transcription employés par Wartburg. 16 Dans le cadre de la rétroconversion des articles du FEW, chacune de ces combinaisons est rattachée à une entité XML unique, utilisée pour simplifier la saisie brute des articles et permettre l’avancement autonome des chantiers de rétroconversion et d’élaboration des nouvelles polices. Ce scénario d’encodage assure aux données du FEW leur pérennité et facili‐ tera leur mise en réseau, notamment avec d’autres projets lexicographiques. 4 Exploitation des résultats - 4.1 Exploitation du FEW informatisé À la sortie du processus de rétroconversion nous avons en notre possession un large corpus de données semi-structurées. 17 Comment pouvons-nous exploiter ces données de la façon la plus efficace ? Quels sont les besoins et quelles sont les options à notre disposition pour y répondre-? Une solution communément répandue serait de projeter notre donnée XML vers un système de base de données relationnelle, puis de l’exploiter au travers de formulaires de recherche. Cependant transformer ce type de corpus vers un formalisme structuré peut s’avérer complexe et coûteux en termes de mise à jour et de maintien. En effet, bien que notre donnée respecte un schéma établi, les articles du FEW regorgent de caractéristiques complexes comme les abréviations où les références croisées. D’autres informations sont implicites et dépendent du contexte dans lequel elles apparaissent, ce qui rend l’écriture d’un analyseur automatique particulièrement délicate. Les besoins liés à l’exploitation du FEW informatisé ont déjà été exprimés par ses utilisateurs (↑2.2.). Cependant, il n’est pas aisé de circonvenir à l’avance l’ensemble des types d’interrogations qu’il sera pertinent de mettre à leur Les outils de l’informatisation du FEW 99 <?page no="100"?> 18 Petitjean/ Benzitoun/ Husson/ Ollinger (2019). 19 Christ (1994). 20 REST est un style d’architecture logicielle définissant des contraintes à utiliser pour créer des services web, notamment une interface uniforme permettant de la découpler des différentes applications l’exploitant. 21 ATILF (2018). 22 TypeScript est un sur-ensemble de JavaScript. disposition. En raison de ces considérations, nous avons choisi d’utiliser un outil dédié à l’indexation et à l’interrogation de corpus textuels semi-structurés, Allegro. 18 - 4.2 Allegro Allegro est une plateforme d’exploitation de ressources textuelles développée au sein du laboratoire ATILF, par Étienne Petitjean. Elle s’intègre au bout de notre chaîne de traitement et nous permet de rendre disponible notre corpus XML à l’interrogation, sans transformation ni modification supplémentaire. Cette approche nous permet de réaliser des recherches textuelles en contexte, en utilisant un format de requête proche du Corpus Query Language (CQL). 19 De cette façon, le système est capable de répondre à des interrogations complexes, basées par exemple sur l’ordre d’apparition de termes selon des contextes précis. De manière plus générale, il est ainsi possible d’accéder directement à toutes les informations qui ont été modélisées dans le schéma XML du FSML. Allegro se présente comme une interface REST 20 basée sur HTTP. Il est facilement interrogeable dans une application web comme celle que nous avons écrite pour exploiter le FEW informatisé. La granularité de ses réponses nous permet d’obtenir, selon nos besoins, l’accès à un article complet au format HTML (via une transformation biunivoque du document XML original) ou à une liste fermée répondant à un critère précis, comme celle des étiquettes géolinguistiques pour un article, ou même un volume, au format JSON. - 4.3 Diffusion Pour diffuser la ressource rétroconvertie et la mettre à disposition du plus grand nombre, nous avons écrit une application web 21 permettant de consulter les articles depuis le jeu de donnée FSML. L’outil que nous avons développé est écrit uniquement en TypeScript, 22 n’utilise pas de code serveur propre pour fonctionner et n’exploite pas de base de données dédiée. Il est découplé de toutes les tâches de transformations et de préparation de la donnée. 100 Benjamin Husson, Sarah Kremer <?page no="101"?> Pour récupérer les articles à afficher, il interroge directement le corpus FSML à travers Allegro, en utilisant des requêtes CQL pour en filtrer le contenu. L’application n’a pas à réaliser la tâche de transformer le contenu XML vers son équivalent HTML pour l’afficher, c’est encore une fois Allegro qui prend en charge cette projection. - 4.4 Validation L’étape de validation est primordiale dans une entreprise comme celle de l’informatisation du FEW. Il s’agit de s’assurer que le matériel que nous offrons aux utilisateurs sous une forme rétroconvertie est conforme à la version papier originale. Cette étape cruciale s’articule autour de plusieurs tâches. La première étape consiste à détecter et qualifier les erreurs afin de les catégoriser. Pour ce faire, on va réaliser des sondages aléatoires dans le corpus FSML. Un spécialiste de la ressource va ensuite étudier avec attention ces articles, en les comparant à leur version papier pour en détecter les différences, tout en prêtant attention à ce que les enrichissements sémantiques soient cohérents. On peut ainsi différencier les erreurs issues de la saisie originale, les erreurs liées à la rétroconversion et les erreurs préexistantes au sein de la version originale. Les erreurs de saisie dans le corpus FFML seront corrigées pour respecter le texte modèle, tandis que les erreurs existantes dans la version originale seront conservées et documentées pour être centralisées et faire l’objet de corrections officielles, qui seront ensuite liées à l’article. En effet, notre but n’est pas de corriger les erreurs dans la ressource que nous convertissons, mais bien d’offrir une copie la plus proche possible de sa version papier. Les erreurs liées à l’enrichissement sémantique, ou plus généralement au processus de rétroconversion sont ensuite diagnostiquées et généralement corrigées au sein de l’application de rétroconversion. Il existe cependant des cas particuliers où l’application de rétroconversion n’est pas en mesure d’assurer la désambiguïsation de certaines chaînes de caractères. Le cas des césures fait partie de cette catégorie d’erreurs qui nécessitent une intervention humaine pour garantir leurs corrections. Dans ce cas, le rétroconvertisseur doit décider si un tiret est une césure ou un marqueur de préfixe. Ce choix peut parfois se révéler trop ambigu pour les algorithmes, notamment lorsque la seconde partie du mot césuré s’avère aussi être un mot à part entière (cf. Illustration 1). Les outils de l’informatisation du FEW 101 <?page no="102"?> Illustration 1. Pour résoudre ces cas particuliers, nous avons encore une fois recours à Allegro qui nous permet de regrouper les contextes problématiques en les résumant à des requêtes CQL. On peut ensuite confier à un expert de la ressource la charge de valider manuellement ces situations. - 4.5 Visualisation La disponibilité des données exploitées informatiquement n’est pas suffisante à la mise en place d’un FEW informatisé accessible aux utilisateurs. Il est nécessaire de porter une attention particulière à la présentation des informa‐ tions. L’affichage des données brutes est en effet loin de présenter les contenus lexicographiques de manière optimale. La mise en forme du texte doit être adaptée aux proportions générales de l’espace de présentation. Le passage d’une présentation imprimée à une présentation affichée à l’écran nécessite de reconsidérer les paramètres de composition des articles. La taille des blocs de texte, l’échelle de composition du texte, la taille de l’espace entre les lignes ont en effet une influence sur la perception du texte et l’efficacité avec laquelle l’utilisateur peut accéder à l’information qui l’intéresse. Cette attention au mode de présentation nécessite de porter un regard précis sur les caractères typographiques employés pour composer les articles. Chaque famille de caractères présente des caractéristiques anatomiques qui lui sont propres. Certaines sont adaptées à la composition de textes longs et denses alors que d’autres sont au contraire adaptées à la composition d’éléments plus ponctuels. Le choix de la famille de caractères pour la composition du dictionnaire nécessite d’être élaboré avec attention. Par ailleurs, le nombre de caractères présents dans une police varie également en fonction de la politique d’utilisation envisagée par la fonderie qui la diffuse. Les besoins du FEW étant si particuliers, notamment en ce qui concerne les caractères phonétiques accentués, il n’existe sur le marché aucune famille de ca‐ ractères typographiques adaptée lors du lancement du projet l’informatisation. L’intégration de designers issus de l’ANRT au chantier de l’informatisation du FEW permet d’envisager la création d’outils typographiques sur mesure pour le dictionnaire. Ces outils sont issus d’une étude précise des caractéristiques for‐ 102 Benjamin Husson, Sarah Kremer <?page no="103"?> 23 Chatelain (2015, 247). 24 Les longueurs de mots, la fréquence d’apparition des capitales, des bas-de-casses et des signes diacritiques varie nettement d’une langue à l’autre ainsi que le montrent les comptages réalisés par Berning (2016). melles des articles du FEW et présentent des propriétés visuelles et d’encodage parfaitement adaptées. 5 Mise en forme typographique - 5.1 Les spécificités typographiques du FEW La famille de caractères typographiques Walther a été conçue afin de permettre l’exploitation des données informatiques issues du protocole de rétroconversion du FEW. Les caractéristiques visuelles de ces polices de caractères ont été déter‐ minées en fonction des particularités structurelles et rédactionnelles des articles du FEW, relevées à l’occasion d’une phase d’observation de leur composition typographique. La perception visuelle d’un texte composé dépend de son gris typogra‐ phique, « mélange du blanc de la feuille et du noir du texte ». 23 Il varie évidemment en fonction des proportions générales des lettres, de l’épaisseur des traits, de leurs variations et de nombreux autres paramètres structurels. Mais le gris typographique dépend également de la langue et du type de texte composé. Chaque langue qui emploie des caractères latins présente des particularités typographiques qui lui sont propres puisque les fréquences d’apparition des différentes lettres et signes diacritiques lui sont en effet spécifiques. 24 En fonction de leur période de rédaction et du rédacteur en charge d’un article du FEW, la métalangue employée peut varier entre l’allemand (rédigé selon des conventions orthographiques spécifiquement mises en place par Wartburg) ou le français. La langue-objet du FEW correspond quant à elle au gallo-roman et regroupe ainsi les différentes évolutions chronologiques des données lexicogra‐ phiques du français, du francoprovençal, de l’occitan, du gascon, leurs différents dialectes, les langues techniques et les argots. L’alternance entre ces différentes langues génère déjà des particularités visuelles. Mais la principale singularité visuelle du FEW découle de ses conventions de rédaction. Celles-ci impliquent en effet l’utilisation d’un nombre très important d’abréviations, de sigles géo‐ linguistiques et de références bibliographiques. L’utilisation de ces références abrégées permet un gain de place essentiel, sans quoi le FEW dépasserait très largement ses 25 volumes imprimés. Ces nombreuses abréviations font un fort usage des lettres capitales, parfois suivies mais aussi précédées de lettres bas-de-casses. Les chiffres sont aussi très fréquemment employés pour composer Les outils de l’informatisation du FEW 103 <?page no="104"?> 25 L’infrastructure correspond à « l’étiquette géolinguistique, le signifiant, la catégorie grammaticale, le signifié, les informations complémentaires, la localisation, la datation et la référence bibliographique-» (Buchi 1996, 116). les références bibliographiques. Les signes de ponctuation, points, parenthèses, virgules, qui viennent articuler les différentes portions de l’infrastructure des articles, 25 sont également très nombreux (cf. Illustration 2). Illustration 2. 104 Benjamin Husson, Sarah Kremer <?page no="105"?> 26 Un empattement correspond à la terminaison qui marque les extrémités de certaines lettres et qui peut prendre une forme rectangulaire ou triangulaire. Ces fortes fréquences ont un impact très important sur la nature du gris typo‐ graphique du FEW composé. Ces observations ont naturellement été prises en compte au moment d’établir des recommandations pour le dessin des nouvelles polices de caractères pour le FEW. - 5.2 Création de caractères typographiques La famille de caractères Walther, déclinée dans les variantes stylistiques Roman, Italic, Etymon et Bold, est créée pour proposer au FEW une solution adaptée en termes d’encodage et de caractéristiques formelles (cf. Illustration 3). Illustration 3. 5.2.1 Walther Roman Pour assurer la continuité formelle entre les articles du FEW, publiés sous forme de fascicules ou de fichiers PDF, et leur version informatisée, il est décidé d’opter pour des caractères de type livresque, comportant des empattements 26 et du Les outils de l’informatisation du FEW 105 <?page no="106"?> 27 On qualifie de contraste la variation qui peut exister entre des épaisseurs de traits importantes, aussi appelées pleins, et celles de traits fins, appelés déliés. 28 L’ensemble des caractères testés et des observations effectuées sont détaillés dans Kremer (2018, 273-279). 29 La graisse correspond à la valeur de l’épaisseur des traits des caractères d’une police. 30 La hauteur d’x correspond à la hauteur de la lettre bas-de-casse x. Elle correspond à la valeur moyenne de la partie principale des lettres bas-de-casses. 31 Cf. Renders (2015, 51). contraste. 27 La variante Roman, qui compose la majorité du contenu des articles, suit donc ce principe. Le dessin de cette variante s’appuie préalablement sur l’étude d’une série de caractères existants composés dans le contexte d’un extrait d’article du FEW. Elle permet de définir un ensemble de caractéristiques favorables au contexte du dictionnaire 28 et porte une attention particulière aux proportions des caractères dont la fréquence d’utilisation est importante dans le FEW. La variante Roman comporte ainsi : (1) un contraste relativement peu marqué, afin de créer un gris typographique homogène ; (2) des proportions de capitales réduites dont la graisse 29 n’est pas plus forte que celle des bas-de-casses ; (3) des chiffres qui s’alignent sur les capitales pour unifier la structure de la ligne ; (4) la réduction de l’impact des signes de ponctuation doubles tels que les parenthèses, les crochets et guillemets, en diminuant leur graisse et leur contraste ; (5) une hauteur d’x 30 conséquente afin de permettre une utilisation tant dans des grandes que des petites échelles. Grâce à ces caractéristiques, les différents sigles et abréviations n’occupent plus un espace aussi important, les combinaisons de chiffres, bas-de-casses et capitales dans les sigles se font avec plus d’unité formelle. L’emploi de la variante Walther Roman pour composer la majorité du contenu des articles permet ainsi l’homogénéisation générale du gris typographique du FEW. Cette nouvelle stabilité permet en outre de mettre davantage en évidence les marques de structuration de l’article (composées à l’aide de caractères gras), mais surtout les formes citées (composées en italique) qui constituent une importante clé de lecture des articles du FEW. 5.2.2 Walther Italic Ainsi que l’a indiqué P. Renders, 31 l’identification des formes composées en ita‐ lique constitue l’un des modes de consultation du FEW. Les lecteurs parcourent alors rapidement les articles de manière à repérer les formes susceptibles de les intéresser. Lors de cette lecture transversale, la distinction visuelle de la variante italique est essentielle. Les principes appliqués au dessin de la variante stylistique Walther Italic ont ainsi été définis par rapport au gris typographique 106 Benjamin Husson, Sarah Kremer <?page no="107"?> 32 Pour les détails de ces observations, cf. Kremer (2018, 279-287). 33 La chasse correspond à la somme de la largeur d’un caractère et des espaces blancs qui l’encadrent. dégagé par la variante Roman, l’idée principale étant d’affirmer les différences entre les deux dessins. De la même manière que cela a été fait dans la phase de préparation de la version Roman, différentes polices existantes de style italique sont utilisées dans le contexte des articles du FEW afin d’établir des recommandations générales de dessin. 32 Walther Italic se distingue de la variante Roman grâce à : (1) un angle d’inclinaison marqué ; (2) une chasse étroite ; 33 (3) une graisse légèrement moins importante. La structure générale est cependant rationalisée et systématique afin de simp‐ lifier la combinaison, parfois complexe, de signes diacritiques. La combinaison de ces trois paramètres permet de composer des mots dont le gris typographique se démarque clairement au fil de l’article. 5.2.3 Walther Etymon La police Walther Etymon est conçue pour composer les mots-titres, étymons ou concepts, présentés comme mots-vedettes en début d’article. Sa fréquence d’utilisation est nettement moins importante que celle des variantes Roman et Italic qui composent l’extrême majorité du contenu des articles. L’élaboration de son dessin est ainsi soumise à moins de contraintes si ce n’est de permettre une identification claire du début des articles. Afin de se détacher nettement du reste de l’article, Walther Etymon dispose d’une graisse d’une valeur largement plus importante que celle des variantes Roman et Italic. Contrairement aux autres variantes stylistiques, ce dessin ne présente pas d’empattement. Cette caractéristique permet de composer des mots aux silhouettes plus compactes. Combinée à une forte graisse et à une variation réduite des différences entre pleins et déliés, le mot-titre dégage ainsi un gris typographique beaucoup plus dense que le reste de l’article. Il peut alors capter le regard du lecteur et orienter la lecture transversale du dictionnaire. Notons par ailleurs que le mot-titre est généralement accompagné d’une glose composée dans la version Roman. Pour cela, le dessin de la variante Etymon développe une proximité formelle avec la version Roman afin d’assurer une combinaison harmonieuse au sein de la ligne de titre. Les proportions Les outils de l’informatisation du FEW 107 <?page no="108"?> 34 L’ascendante correspond aux portions verticales d’une lettre minuscule qui dépassent au-dessus de la hauteur d’x, alors que la descendante correspond aux éléments qui dépassent en dessous du repère horizontal sur lequel s’aligne l’ensemble des caractères. 35 Ces articles, publiés uniquement sous forme de fichiers PDF, ne rationnent plus l’espace de composition de manière aussi drastique que lors de l’impression du dictionnaire. Ils présentent systématiquement un plan en début d’article ainsi que des titres inter‐ médiaires si cela s’avère nécessaire. Par ailleurs, le marquage alphanumérique des sous-parties est explicite. Cette nouvelle convention de rédaction modifie celle qui avait été établie par Wartburg et selon laquelle tout élément énoncé n’est pas répété tant qu’il reste valable. générales : hauteur des capitales et hauteur d’x, longueur des ascendantes et des descendantes sont harmonisées. 34 5.2.4 Walther Bold La variante stylistique Walther Bold constitue le quatrième et dernier membre de la famille de caractères. Cette variante grasse avec empattements est employée pour composer le marquage alphanumérique qui signale la structuration interne des articles. Le renforcement visuel de la présence de ces éléments de structuration accompagne la volonté d’explicitation du contenu et de structuration des articles mis en place depuis la refonte partielle de la lettre B. 35 Le dessin de cette variante correspond à une déclinaison grasse de la version Roman. Elle en conserve la structure et les empattements et lui applique une valeur de graisse très importante, équivalente à celle de la variante Etymon. Elle marque ainsi visuellement la présence des titres et des marques de structuration, tout en assurant la continuité avec l’ensemble des formes typographiques employées pour la composition du corps des articles. 6 Interfaces et composition des articles La famille de caractères typographiques Walther offre désormais la possibilité de composer l’intégralité du contenu du FEW au format numérique. Mais l’accessibilité du dictionnaire dépend très fortement de la manière dont sont présentés ses articles. Si des polices adaptées facilitent l’identification de la structure des articles, leur composition typographique, c’est-à-dire les choix qui concernent la taille de composition du texte, les proportions du bloc de texte et son positionnement dans l’espace de consultation, sont tout aussi essentiels à l’appréhension du contenu par le lecteur. Deux modes de composition sont proposés afin de répondre aux différents scénarios de consultation. 108 Benjamin Husson, Sarah Kremer <?page no="109"?> 6.1 Article téléchargeable et imprimable Un premier mode de présentation offre à l’utilisateur la possibilité de télécharger un article sous la forme d’un fichier PDF au format A4. Il est ainsi facilement imprimable par du matériel bureautique. Ce nouveau gabarit de mise en page diffère de celui qui était employé pour la composition des derniers articles issus de la refonte de la lettre B, ce dernier s’étant fortement éloigné du mode de présentation historique des articles imprimés. Au contraire, le mode de présentation pour les articles rétroconvertis tente d’affirmer une proximité avec les volumes imprimés. Ainsi, l’espace de la feuille A4 présente un bloc d’empagement divisé en deux colonnes, dont les proportions sont similaires à celles des fascicules imprimés (cf. Illustration 4). Après un éventuel massicotage, il est ainsi possible de venir insérer de nouveaux articles dans une collection de volumes du FEW existante. Comme cela était déjà le cas dans les fascicules historiques, ce gabarit à deux colonnes permet une présentation compacte des articles ce qui permet au lecteur de saisir rapidement leur structure. L’export de l’article mis en page sous la forme du fichier PDF est généré au‐ tomatiquement à partir du contenu de l’article rétroconverti par l’intermédiaire du langage de programmation LaTex. Cet outil permet d’appliquer l’ensemble des paramètres de mise en page prévus dans le gabarit et d’accéder à l’ensemble des caractères et des fonctionnalités (ligatures, caractères accentués, petites capitales…) présentes dans la famille de caractères Walther. Les outils de l’informatisation du FEW 109 <?page no="110"?> Illustration 4. 110 Benjamin Husson, Sarah Kremer <?page no="111"?> 36 Renders (2015, 47-83). 37 L’affichage optimal de l’interface sur des périphériques de taille plus petite, tablette ou téléphone, nécessitera une adaptation des paramètres de présentation. 6.2 Article interactif consultable sur l’écran 6.2.1 Organisation générale La rétroconversion du dictionnaire offre la possibilité d’interroger finement les données présentées dans les articles. L’enquête menée par Pascale Renders 36 a montré que l’accessibilité du contenu sous un format numérique était l’occasion d’envisager des scénarios de consultation très variés. Ceux-ci varient largement en fonction de la familiarité des utilisateurs avec le dictionnaire, qui peuvent être des utilisateurs experts, mais aussi des étudiants, des utilisateurs non-linguistes mais intéressés par certains types de données, etc. L’interface de consultation du FEW informatisé doit pouvoir s’adapter à ces différents profils d’utilisateurs. L’environnement doit partager des repères visuels avec la présentation des volumes imprimés pour les utilisateurs les plus expérimentés. Il doit également intégrer un ensemble d’indications nouvelles pour des utilisateurs qui ne seraient pas habitué à l’organisation des articles et aux nombreuses conventions de rédaction du FEW. Les proportions de l’interface de consultation sont envisagées dans le cadre d’une présentation sur un écran d’ordinateur, 37 ce qui implique d’organiser les contenus au format horizontal. Ce nouveau paramètre marque une rupture avec les précédents modes de présentation des articles, qui étaient jusque-là prévus sur les fascicules ou de feuillets verticaux. L’utilisation de l’espace horizontal pour composer les articles peut s’avérer problématique s’il n’est pas adapté avec justesse. En effet, les paramètres de « réglages de texte », tels que la longueur de ligne (et le nombre de caractères qu’elle contient) ou l’interlignage (l’espace qui sépare deux lignes d’un même paragraphe), sont essentiels au confort de lecture. Une ligne trop courte demande à l’œil du lecteur de nombreux mouvements saccadés pour sauter d’une ligne à l’autre. Une ligne trop longue peut entraîner au contraire une perte de repères et multiplier des retours en arrière ou sauts de ligne malencontreux. Ces différents comportements entraînent à la longue une fatigue oculaire chez le lecteur, c’est pourquoi le calibrage des proportions générales du bloc d’empagement est essentiel. Afin d’optimiser l’espace offert par l’écran horizontal tout en assurant des paramètres de composition adaptés à la consultation des articles, l’interface de consultation est divisée en deux sous-espaces verticaux. Celui de gauche est réservé à la consultation des articles alors que celui de droite permet d’accéder aux nouveaux outils interactifs et d’aide à la lecture (cf. Illustration 5). Cette Les outils de l’informatisation du FEW 111 <?page no="112"?> segmentation de l’écran permet de distinguer nettement les deux processus clés de l’interface de consultation. Illustration 5. L’ensemble des contenus sont composés à l’aide de la famille de caractères Walther. Les polices sont intégrées sur le serveur où est stocké le site internet. Lors de l’accès au site, les polices sont ainsi automatiquement chargées puis employées pour l’affichage des contenus textuels, sans nécessiter de la part de l’utilisateur une quelconque manipulation. Ce système assure la fiabilité de l’affichage sur tout type de plateforme. Des feuilles de styles CSS permettent de définir les paramètres de mise en forme du texte, la taille de composition, les paramètres d’alignement, l’espacement des différentes lignes de textes et des paragraphes etc. Ces feuilles de styles sont directement appliquées aux données HTML issues des réponses d’Allegro. 6.2.2 Espace de consultation des articles L’espace gauche de l’écran est exclusivement réservé à l’affichage et la consulta‐ tion des articles rétroconvertis. La surface d’article présentée est ainsi optimisée et l’utilisateur peut en saisir l’organisation plus simplement. Le bloc de texte 112 Benjamin Husson, Sarah Kremer <?page no="113"?> 38 Ce ratio est maintenu sur tout type de proportions d’écran grâce à la modulation des proportions des marges présentes à gauche et à droite du bloc de texte. présente une largeur modérée permettant de composer environ 65 signes par ligne. 38 Ce ratio favorise une lecture de consultation transversale, adaptée à la nature condensée du discours lexicographique. L’article, dont la longueur dépasse généralement le seul espace de présentation disponible à l’écran, peut être parcouru grâce à l’utilisation d’un ascenseur vertical. Le mot-titre et sa glose ainsi que les notes de bas-de-pages sont positionnés de manière statique au-dessus et en dessous de la zone de défilement de l’article. Le titre de l’article est ainsi présent à l’écran à tout moment. Les notes de bas-de-pages sont quant à elles affichées de manière dynamique, en fonction du déroulement de l’article, de manière à pouvoir les consulter à proximité directe de la portion d’article qu’elles commentent. Des informations complémentaires assurent la liaison entre la version infor‐ matisée et les articles publiés sous forme de fascicules. Des points de repère indiquent, en marge de l’article et en fonction du défilement, le positionnement original des contenus (numéro de volume, de page et de colonne) dans les volumes imprimés afin d’assurer la continuité des citations du FEW à l’extérieur de celui-ci. Par ailleurs, un onglet situé en pied de page offre la possibilité d’afficher la page de l’article scanné au regard du contenu rétroconverti. Il est ainsi possible pour l’utilisateur de prendre connaissance d’éventuelles erreurs générées lors du processus de rétroconversion. 6.2.3 Espace dédié aux outils issus de l’informatisation L’espace droit de l’écran est le lieu de présentation des nouveaux outils de recherche et d’aide à la lecture. Leur présentation séparée de celle des articles, sur un fond sombre, permet une nette distinction des contenus. Un premier onglet permet d’accéder au champ de recherche. Celui-ci propose un mode de recherche simple en autocomplétion, ainsi qu’un mode avancé, où l’on peut combiner plusieurs critères de recherche selon la nature des données (formes, étymons, définitions, étiquettes géolinguistiques, catégories grammaticales et sigles bibliographiques). Les résultats issus des recherches sont présentés dans un deuxième onglet de cet espace latéral. Il est ainsi possible de consulter la liste des résultats sans avoir à réduire l’espace disponible pour l’affichage de l’article en cours de lecture. Un troisième onglet présente les outils d’accompagnement de la lecture, particulièrement adaptés aux besoins d’utilisateurs peu habitués au FEW. Il est alors possible d’accéder au plan de l’article généré automatiquement ainsi qu’à la résolution par simple clic des nombreux termes techniques et Les outils de l’informatisation du FEW 113 <?page no="114"?> 39 La résolution des abréviations est également affichée sous la forme d’une infobulle au survol d’une abréviation dans l’espace de consultation de l’article. 40 Voir par exemple Wartburg (2019) et Baldinger (1974). abréviations employés dans l’article. 39 Enfin, un paramétrage personnel de certaines options d’affichage permet d’activer une mise en exergue de certaines données en fonction de leur nature. Différentes colorisations permettent ainsi de renforcer la codification typographique pour les utilisateurs les moins habitués aux codes rédactionnels du FEW, afin d’accompagner leur processus de lecture. L’accès aux outils d’accompagnement de la lecture sont actionnables par l’utilisateur en fonction de son degré de connaissance de la ressource, et ce en parallèle de son parcours de consultation. Cette utilisation optionnelle évite de complexifier le processus de consultation pour les utilisateurs habitués au FEW, pour qui ces nouveaux outils ne sont pas primordiaux. Elle représente également l’intérêt de ne pas complexifier davantage la présentation des articles par une surcouche visuelle supplémentaire. La distinction entre les outils complémentaires et la présentation élémentaire de l’article permet d’établir une continuité formelle entre la version informatisée du dictionnaire et sa version imprimée. L’ensemble de la littérature visant à expliciter le FEW et à accompagner sa lecture reste ainsi valable pour sa version informatisée. 40 7 Conclusion - 7.1 Chantiers en cours de développement La phase de correction et de validation est en cours de réalisation à l’ATILF. Avec le concours de Yan Greub, Marco Robecchi et Pascale Renders, l’étape de détection des erreurs avance à grands pas. Si certaines corrections peuvent se faire directement depuis les algorithmes de la rétroconversion, certaines tâches, comme la validation, nécessitent le développement d’outils adaptés pour en faciliter la réalisation. Ces outils de validation s’intégreront dans un premier temps à l’interface de consultation, qui offre déjà la possibilité de consulter les versions numérisées et rétroconverties côte à côte. Le groupe d’experts en charge de la validation finale se verra ainsi confier la responsabilité de juger un article prêt à la diffusion. C’est également par l’intermédiaire de ces outils que les matériels considérés potentiellement erronés seront soumis à la validation par les spécialistes. Les recommandations concernant l’organisation visuelle des contenus de l’interface de consultation sont progressivement intégrées à une première version de la plateforme, déjà en ligne. Ces ajustements et modifications sont le 114 Benjamin Husson, Sarah Kremer <?page no="115"?> 41 Jusque-là, les rédacteurs utilisaient des logiciels de traitement de texte bureautiques pour rédiger et exporter leurs articles au format PDF. 42 Gabay (2019). résultat d’une discussion régulière entre ingénieurs et designers, afin d’apporter les réponses les plus pertinentes, tant d’un point de vue informatique que typographique. Un outil complémentaire accompagne les rédacteurs lors de la préparation des articles. 41 Il simplifie la saisie et la mise en forme des articles en offrant un accès aux caractères spéciaux et aux signes diacritiques non présents sur le clavier par l’intermédiaire d’une palette d’outils directement affichée à l’écran. Il automatise également la mise en forme des différentes portions d’articles (titre, corps de l’article, commentaire, notes). Les nouveaux contenus rédigés, pré-balisés, sont ainsi plus facilement interprétés par les outils de rétroconversion et peuvent intégrer par la suite la base de données du FEW informatisé. L’affichage des contenus à l’aide de la famille de caractères Walther est automatique grâce à l’intégration sur la plateforme des polices au format webfont. Grâce à ces automatisations, les rédacteurs sont en mesure de porter toute leur attention à la tâche complexe que représente la rédaction, sans avoir à se soucier de styliser leur contenu ou d’avoir à lui ajouter manuellement des balises de structuration. - 7.2 Perspectives Nous aurons bientôt terminé la rétroconversion des trois volumes ayant été saisis manuellement jusqu’à maintenant. Pour poursuivre la tâche de l’informa‐ tisation du FEW, nous aurons besoin de plus de matériel à rétroconvertir. Pour se procurer cette donnée, nous pourrions avoir recours à la même procédure que précédemment, c’est-à-dire faire saisir manuellement le contenu des 22 volumes restants. Une autre option est d’avoir recours aux outils de reconnaissance optique de caractères pour automatiser cette étape de la chaîne de traitements. Cette option avait été évaluée au moment de l’écriture de la thèse de P. Renders mais avait été estimée trop peu efficace pour servir de base à la constitution du corpus FFML, notamment en raison de la présence de caractères accentués utilisés pour les transcriptions phonétiques, jugés trop singuliers. Cependant, les avancées dans le domaine de l’apprentissage profond en particulier permet‐ tent aujourd’hui d’entrevoir des résultats prometteurs à l’application de ces techniques. 42 Nous pourrons ainsi utiliser comme base de notre apprentissage le contenu des trois volumes déjà saisis et validés d’une part, et les ressources numérisées d’autre part. Les outils de l’informatisation du FEW 115 <?page no="116"?> Une autre perspective de travail correspond à l’exploitation des données gé‐ ographiques du FEW. La géolocalisation des informations est en effet essentielle à l’interprétation des articles du FEW. Elle est parfois un vecteur de compré‐ hension ou d’inférence pour saisir ou expliquer la nature ou la provenance d’un terme. Les étiquettes géolinguistiques, indexées par le Complément, ont déjà été projetées sur des cartes, sous la forme d’ensemble de coordonnés GPS, qu’il s’agisse de villes ou de régions. L’intégration d’un système d’information géographique nous permettra de générer automatiquement, à partir des infor‐ mations collectées dans l’article, une carte reflétant par exemple les évolutions d’une famille de mots dans le temps et les territoires. Cela offrira une nouvelle porte d’entrée vers les données présentées dans le FEW. La famille de caractères Walther est essentielle à la mise en place de la version informatisée du FEW puisqu’elle permet l’affichage des contenus informatisés et accompagne la saisie des nouveaux articles. Son intégration en tant que webfont assure l’affichage en ligne des contenus sur les interfaces de consultation et de saisie. Mais pour permettre une utilisation hors-ligne et/ ou par l’intermédiaire d’autres logiciels, il est nécessaire de permettre le libre téléchargement de la famille de caractères. Cette possibilité est envisagée afin d’assurer la diffusion élargie des polices, au sein du réseau des collaborateurs directs du FEW, mais aussi à d’autres utilisateurs. Les qualités des polices, dont la stratégie d’encodage pérenne et interopérable est conforme aux recommandations du consortium Unicode, peuvent en effet intéresser d’autres projets éditoriaux, notamment lexicographiques. Leur mise en ligne, qui nécessite la préparation des fichiers pour leur diffusion, devrait être opérationnelle dans les prochains mois. D’une manière générale, une attention particulière a été portée à la possibilité de rendre interopérable l’ensemble des outils qui ont été développés tout au long du projet d’informatisation. Les pages numérisées du FEW sont accessibles de‐ puis des URL normalisées, permettant leurs exploitations dans divers contextes. De la même façon, les articles rétroconvertis du FEW seront rendus accessibles sous leur forme brute, les fichiers XML, depuis une URI qui sera servie par Allegro. Le résultat de chaque projet développé dans le cadre de l’informatisation est ainsi rendu publique de la façon la plus transparente possible afin d’offrir la possibilité à d’autres projets de lexicographie numérique de pouvoir à leur tour les exploiter. 116 Benjamin Husson, Sarah Kremer <?page no="117"?> Bibliographie ATILF (2018)-: Interface de consultation du FEW rétroconverti, Nancy, ATILF - CNRS & Université de Lorraine, https: / / few-webapp.atilf.fr/ [dernière consultation-: 09.10.2023]. ATILF (2010)-: Interface de consultation du FEW, Nancy, ATILF ‒ CNRS & Université de Lorraine, https: / / apps.atilf.fr/ lecteurFEW [dernière consultation-: 28.04.2020]. ATILF (2006)-: Présentation du «-Französisches Etymologisches Wörterbuch-» de Walther von Wartburg, http: / / www.atilf.fr/ FEW [dernière consultation-: 19.03.2016]. ATILF (2003)-: Französisches Etymologisches Wörterbuch. Index A-Z, Paris, Champion. ATILF, DMF--=-Dictionnaire du Moyen Français, version 2015 (DMF 2015), Nancy, ATILF - CNRS & Université de Lorraine, http: / / www.atilf.fr/ dmf [dernière consultation-: 28.04.2020]. Baldinger, Kurt (1974) : « Le FEW de Walther von Wartburg. Introduction », in : Baldinger, Kurt (ed.), Introduction aux dictionnaires les plus importants pour l’histoire du français, Strasbourg, Klincksieck, 11-47. Berning, Bianca (2016) : Language as design criteria? Part III, Alphabettes, http: / / www.alp habettes.org/ language-as-design-criteria-part-iii [dernière consultation-: 06.07.2016]. Buchi, Éva (1996)-: Les structures du «-Französisches Etymologisches Wörterbuch-». Recherches métalexicographiques et métalexicologiques, Tübingen, Niemeyer. Carles, Hélène/ Dallas, Marguerite/ Glessgen, Martin-Dietrich/ Thibault, André (2019)-: Französisches Etymologisches Wörterbuch - Guide d’utilisation, Strasbourg, Éditions de linguistique et de philologie, Bibliothèque de linguistique romane. Chambon, Jean-Pierre/ Chauveau, Jean-Paul (edd.) (2002)-: Französisches Etymologisches Wörterbuch. Eine Darstellung des galloromanischen Sprachschatzes, vol. 25 (refonte du vol.-1), Basel, Zbinden. Chatelain, Roger (2015)-: Guide du typographe, Lausanne, Éditions Ouverture. Chauveau, Jean-Paul/ Greub, Yan/ Seidl, Christian (edd.) (2010) : Französisches Etymologi‐ sches Wörterbuch. Eine Darstellung des galloromanischen Sprachschatzes. Beiheft / Com‐ plément, Strasbourg, Éditions de linguistique et de philologie. Christ, Oliver (1994)-: A modular and flexible architecture for an integrated corpus query system, https: / / arXiv: cmp-lg/ 9408005 [dernière consultation-: -28.04.2020]. DÉRom-=-Buchi, Éva/ Schweickard, Wolfgang (edd.) (2008-)-: Dictionnaire Étymolo‐ gique Roman (DÉRom), Nancy, ATILF, http: / / www.atilf.fr/ DERom [dernière consulta‐ tion-: -28.04.2020]. FEW = Wartburg, Walther von (edd.) (1922-2002)-: Französisches Etymologisches Wör‐ terbuch. Eine Darstellung des galloromanischen Sprachschatzes, vol.-25, Bonn/ Heidel‐ berg/ Leipzig/ Berlin/ Basel, Klopp/ Winter/ Teubner/ Zbinden. Les outils de l’informatisation du FEW 117 <?page no="118"?> Gabay, Simon, OCRising 17th French prints, e-ditiones, 2019, https: / / editiones.hypothese s.org/ 1958 [dernière consultation-: 27.04.2020]. Huot-Marchand, Thomas (2014)-: L’Atelier national de recherche typographique, Culture et Recherche 130, 22-23. Huot-Marchand, Thomas/ Savoie, Alice (2014) : « Recherche, typographie : points de vues et perspectives-», in-: Balgiu, Alexandu/ Chancogne, Thierry/ Hervy, Étienne/ Lebrun, Olivier (edd.), Eigengrau, Chaumont, Chaumont design graphique éditions, 461-467. Krefeld, Thomas/ Lücke, Stephan (edd.) (2014-)-: VerbaAlpina. Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit, München, http: / / dx.doi.org/ 10.5282/ verba-alpina [dernière consultation-: 28.04.2020]. Kremer, Sarah (2018)-: La réalisation matérielle du «-Französisches Etymologisches Wör‐ terbuch-». Impact de la mise en forme typographique sur le développement d’un projet lexicographique, Nancy, Université de Lorraine, http: / / www.theses.fr/ 2018LORR0316 [dernière consultation-: -10.05.2019]. Kremer, Sarah (2016) : « Le design typographique au service des humanités numériques », in-: Ritz-Guilbert, Anne/ Fétro, Sophie (edd.), Des pratiques antiquaires aux humanités numériques, Paris, École du Louvre, 250-265. Petitjean, Étienne/ Benzitoun, Christophe/ Husson, Benjamin/ Ollinger, Sandrine (2019)-: Allegro-: une plateforme «-couteau suisse-» pour l’exploitation des ressources textuelles, Orléans, LIFT 2019 : Journées scientifiques « Linguistique informatique, formelle et de terrain », https: / / halshs.archives-ouvertes.fr/ halshs-02381605 [dernière consultation : 20.04.2020]. Renders, Pascale (2015)-: L’informatisation du «-Französisches Etymologisches Wörter‐ buch-». Modélisation d’un discours étymologique, Strasbourg, Éditions de linguistique et de philologie, Linguistique de corpus et philologie informatique. Renders, Pascale/ Briquet, Cyril (2009)-: Conception d’algorithmes de rétroconversion, in-: AA.VV. Première Journée liégeoise de Traitement des Sources galloromanes, Liège, Université de Liège. Renders, Pascale/ Nissille, Christel (2008)-: «-L’informatisation du FEW-: attentes et modélisation-», in-: Bernal, Elisenda/ DeCesaris, Janet (edd.), Proceedings of the XIII EURALEX International Congress, Barcelona, Institut Universitari de Lingüística Aplicada, 1189-1198. Unicode, Unicode 7.0.0 (2014)-: http: / / www.unicode.org/ versions/ Unicode7.0.0 [dernière consultation-: 18.06.2018]. 118 Benjamin Husson, Sarah Kremer <?page no="119"?> 1 Il presente contributo è da considerarsi, in parte, un estratto della mia tesi dottorale in corso d’opera, La mappatura semantica del Lessico Etimologico Italiano (LEI), con riferimento allo stato dei lavori ad agosto 2022. La mappatura semantica del Lessico Etimologico Italiano (LEI) Possibilità, metodi e prospettive 1 Alessandro Alfredo Nannini Abstract In the context of cooperation between linguistics and computer science, the digitisation of historical dictionaries represents a great opportunity for language research. In this paper, we introduce the semantic mapping method of dictionaries as a mean to enable driven semantic search within lexicographic resource. Semantic mapping consists of linking lexical ent‐ ries with concepts representing extralinguistic reality. The Lessico Etimo‐ logico Italiano (LEI), one of the world's most comprehensive dictionaries, is the ideal work for the application of this method. After presenting some theoretical basis of lexical semantics, we provide an overview of the state of the art in Romance historical lexicography as far as the possibility of semantic searches is concerned. Then we focus on the LEI and its semantic structures that are involved in the mapping work. A crucial point concerns the choice of conceptual system for the classification of the lexicon and its digital representation, so we describe the characteristics of two systems already used in lexicography and present the conversion of one of them into Linked Open Data. The last part of the paper presents the perspectives that semantic mapping offers to the LEI and lexicography in general. Keywords: Italian linguistics, historical lexicography, semantics, digital humanities, Lessico Etimologico Italiano (LEI) <?page no="120"?> 2 Fondamenti di informatica linguistica è il titolo di un volume di Busa del 1987. Per un’analisi del metodo informatico-linguistico del padre gesuita, cf. Di Maio (1989). 3 Il convegno annuale dell’AIUCD si è tenuto presso l’Università Cattolica del Sacro Cuore (Milano) nei giorni 15-17 gennaio 2020. Parole chiave: Linguistica italiana, lessicografia storica, semantica, digital humanities, Lessico Etimologico Italiano (LEI) 1 Linguistica e informatica Lungo un percorso interdisciplinare che ha avuto avvio nella seconda metà del Novecento, il sodalizio tra linguistica e informatica si è consolidato a tal punto che oggi sarebbe difficile pensare al progresso della prima senza considerare il supporto fornito dalla seconda. Si pensi, per citare un illustre esempio italiano, alle conseguenze della rivoluzione compiuta nella scienza del linguaggio dalle intuizioni e dall’opera di padre Roberto Busa, primo tra gli studiosi a comprendere le potenzialità offerte dall’unione di informatica e linguistica, e, per questo, considerato il fondatore della linguistica computazione (informatica linguistica). 2 L’attività di ricerca svolta da Busa è stata ricordata nel corso del Convegno Annuale dell’Associazione per l’Informatica Umanistica e la Cultura digitale, dal titolo La svolta inevitabile: sfide e prospettive per l’Informatica Umanistica. 3 In quell’occasione si è insistito ancora una volta sul ruolo chiave giocato dai dati e dalla loro computazione all’interno delle discipline umanistiche: […] la svolta è inevitabile: non si comprende perché sul tavolo dell’umanista del 2020 non possano trovarsi al contempo un’edizione critica cartacea e i risultati di un analizzatore morfologico automatico proiettati sullo schermo di un computer. Entrambi sono strumenti che diversamente trattano il comune oggetto d’interesse di tanta ricerca, ovvero i dati. (Marras et al. 2020, iv) Quella del linguista-informatico che lavora sui dati è senz’altro una figura sempre più centrale nei progetti di ricerca della nostra disciplina, dove la componente digitale non è più relegata a un eventuale sviluppo futuro ma costituisce il vero e proprio scheletro del lavoro. 2 La lessicografia (storica) digitale italiana In questo quadro brevemente abbozzato, la lessicografia storica italiana non è disposta a giocare un ruolo minore. Come esempio virtuoso e longevo in 120 Alessandro Alfredo Nannini <?page no="121"?> 4 http: / / www.ovi.cnr.it (28.08.2022). 5 http: / / tlio.ovi.cnr.it (28.08.2022) 6 http: / / www.gdli.it (28.08.2022). 7 https: / / lei-digitale.it (28.08.2022) 8 http: / / aglio.ovi.cnr.it (28.08.2022) 9 https: / / www.verba-alpina.gwi.uni-muenchen.de (28.08.2028). Italia, si deve senz’altro menzionare l’Opera del Vocabolario Italiano (OVI), 4 il cui lavoro su piattaforma informatica ha una storia più che trentennale. Il prodotto principale dell’OVI è il Tesoro della Lingua Italiana delle Origini (TLIO), 5 un vocabolario storico dell’italiano antico, basato un corpus digitale che raccoglie tutta la documentazione italoromanza anteriore al 1400. Data la già menzionata inevitabilità della svolta, negli ultimi anni stiamo assistendo alla digitalizzazione e/ o alla realizzazione in digitale di alcune importanti opere lessicografiche. Un prototipo digitale del Grande Dizionario della Lingua Italiana (GDLI) 6 è stato messo in rete grazie alla collaborazione tra l’Accademia della Crusca e l’Istituto di Linguistica Computazionale Antonio Zampolli del CNR di Pisa. La digitalizzazione del Lessico Etimologico Italiano (LEI), sulla quale si concentra principalmente il presente contributo, viene condotta nell’ambito del progetto LEI digitale, 7 ideato e diretto da Elton Prifti. Progressi significativi si segnalano anche sul versante della geolinguistica digitale. Sotto la direzione di Marcello Barbato e Vincenzo Faraoni, è in corso d’opera la realizzazione dell’Atlante Grammaticale della Lingua Italiana delle Origini (AGLIO), 8 interamente basato sui dati offerti dall’OVI. Un team di linguisti, informatici e linguisti-informatici, coordinato da Thomas Krefeld e Stephan Lücke presso l’Università Ludwig Maximilian di Monaco di Baviera, sta portando avanti il progetto VerbaAlpina, 9 il cui nucleo è rappresentato da un database lessicografico relativo alle parlate romanze ed extra-romanze dell’arco alpino. La disponibilità dei dati lessicografici di area italoromanza in formato digitale è sicuramente un’opportunità per il potenziamento delle ricerche di linguistica storica. Estendendo alla lessicografia storica digitale le riflessioni di Prifti in merito al LEI digitale, siamo convinti che la digitalizzazione possa “essere d’incentivo anche a progressi metodologici, persino consistenti, nel campo della linguistica” (Prifti 2022, 304). Nelle pagine che seguono ci concentreremo sulle prospettive che la digitaliz‐ zazione offre alla ricerca in ambito semantico. La mappatura semantica del Lessico Etimologico Italiano (LEI) 121 <?page no="122"?> 10 Su significato e concetto ↑ 3.1. 11 Da qui in avanti citato come HW o Begriffssystem. 3 La mappatura semantica dei dizionari: una svolta necessaria L’analisi sistematica dei fenomeni semantici richiede, tra le altre cose, la possi‐ bilità di compiere ricerche semasiologiche all’interno del lessico, cioè a partire dai significati dei lessemi. Questa possibilità viene tradizionalmente offerta dai dizionari onomasiologici, i quali presentano un ordinamento semantico del materiale lessicale (dal significato/ concetto 10 al significante). Per quanto rigu‐ arda la lessicografia storica, in ambito romanzo sono molto noti il Dictionnaire onomasiologique de l’ancien gascon (DAG) e il Dictionnaire onomasiologique de l’ancien occitan (DAO), due dizionari onomasiologici fondati da Kurt Baldinger, rispettivamente per il guascone antico e l’occitano antico. Entrambe le opere si basano sul Begriffssystem als Grundlage für die Lexikographie 11 di Rudolf Hallig e Walther von Wartburg, un sistema di concetti che mira a rappresentare la realtà extralinguistica del parlante medio di una lingua (HW, 36: “d’une personne moyenne qui participe à une langue”). Nel Französisches Etymologisches Wörterbuch (FEW) fondato da von Wartburg le categorie dell’HW sono state utilizzate per l’ordinamento dei materiali di etimo ignoto o incerto, i cosiddetti Unbekannte dei vols. 21-23. Max Pfister, formatosi nell’officina del FEW, aveva previsto l’utilizzo del sistema concettuale sin dalle prime presentazioni pubbliche del Lessico Etimologico Italiano (Pfister 1980, 134-135); categorie concettuali modellate sul Begriffssystem vengono tuttora utilizzate per la struttura interna degli articoli del LEI (cf. Aprile 2004, 29). Nella lessicografia digitale dovrebbe venir meno la netta distinzione tra i dizionari semasiologici e quelli onomasiologici: interrogando una base di dati mediante queries specifiche, possiamo chiedere al sistema di restituirci tutte le forme che iniziano con una data lettera così come tutte le forme che fanno riferimento a un medesimo significato. Tuttavia, le definizioni date dai dizionari, diversamente dalle lettere dell’alfabeto, non fanno parte di un sistema chiuso tale da permettere una ricerca sistematica. Risale al 1986 il contributo in cui Barbara Ann Kipfer rilevava le opportunità che l’informatica può offrire all’approccio onomasiologico (cf. Kipfer 1986). La studiosa, muovendo dalla neutralizzazione dell’opposizione dizionario alfabetico-dizionario onomasiologico offerta dal digitale, finiva per auspicare la creazione di opere che facessero uso di gerarchie composte da informazioni semantiche per la classificazione del lessico: The marking of semantic features might also be an enhancement to the onoma‐ siological approach to building dictionaries. Tying words and meanings through 122 Alessandro Alfredo Nannini <?page no="123"?> 12 La mancanza di comunicazione tra semantica e lessicografia è cosa nota e la figura di Baldinger spicca come “exception qui confirme la règle” (Pfister 1982, 286 cit. da Aprile 2004, 174). hierarchies of inherent features such as “abstract,” “human,” “plant,” and selectional restrictions for verbs such as “takes human subject and inanimate object” can offer the reader more valuable information. The semantic features may be used to lead from concepts to words. (Kipfer 1986, 61) In questo quadro si inserisce la necessità della mappatura semantica dei dizi‐ onari. Con tale espressione ci riferiamo alla mappatura della semantica in un’opera lessicografica. Infatti, le forme lessicali presenti in un dizionario - e corredate di definizione - possono essere collegate ai concetti della realtà extralinguistica a cui esse si riferiscono. Con un certo grado di arbitrarietà che è proprio di tutte le rappresentazioni, i concetti possono essere rappresentati gerarchicamente all’interno di un sistema concettuale. Dunque, mappare la semantica di un dizionario significa collegarne le entrate lessicali ai concetti corrispondenti all’interno del sistema. Lo scopo della mappatura semantica è primariamente di ordine pratico ed è strettamente connesso alle esigenze degli utenti delle risorse lessicografiche, nelle quali l’ordinamento del materiale lessicale segue spesso il criterio alfabe‐ tico. L’utente si rivolge al dizionario semasiologico quando conosce una parola ed è interessato al suo significato (cf. Della Valle 2005, 68); al contrario, il materiale ordinato semanticamente viene in aiuto a quell’utente interessato alle parole utilizzate per esprimere un dato concetto. Oltre a questa prima motivazione, valida per la lessicografia in generale, nel caso della lessicografia storica trovano spazio esigenze di altro tipo: il tradizionale metodo di ricerca per parole si dimostra inerme di fronte alle molte forme non-standard legate ai diversi stadi cronologici della lingua e alle varietà diatopiche raccolte nei dizionari (Tittel/ Gillis-Webber/ Nannini 2020, 1). La possibilità di ricerca per concetti e aree concettuali nelle opere di lessicografia storica rappresenta una grande opportunità di studio, permettendo di esplorare lo sviluppo del lessico e l’organizzazione semantica delle lingue. - 3.1 Quadro teorico La legittimità della mappatura viene garantita dalla semantica in quanto disciplina linguistica costituitasi da De Saussure in poi, specialmente dai principi di semantica lessicale elaborati da Kurt Baldinger, raro caso di romanista in grado di coniugare teoria semantica e lavoro lessicografico. 12 Tali principi trovano una sistemazione organica e completa nel volume Teoría Semántica. La mappatura semantica del Lessico Etimologico Italiano (LEI) 123 <?page no="124"?> 13 Nel presente contributo si fa riferimento all’edizione inglese (cf. Baldinger 1980). 14 Baldinger preferisce il termine mental object a concept. 15 In una prima fase, Baldinger adotta come base teorica il triangolo semiotico di Stephen Ullmann, versione semplificata di quello di Ogden/ Richards 1923, nel quale i vertici rappresentano significante (name), significato (sense) e realtà (thing) (cf. Ullmann 1962, 54-57). In una fase più matura, per evidenziare maggiormente l’indipendenza del concetto dal segno linguistico, lo studioso accoglie il trapezio elaborato da Klaus Heger, nel quale significato e concetto vengono trattati come entità distinte (cf. Heger 1964, 515). La semantica lessicale di epoca più recente ha adottato, con alcune modifiche, la rappresentazione proposta da Raible (1983, 5); cf. Blank (2001, 10): “Mit diesem Modell sind wir nun in der Lage genauer zu beschreiben, was bei einem Sprechakt vor sich geht: Wenn der Sprecher ein bestimmtes konkretes Tier, einen Referenten, sieht, kann er es mit einem in seinem Kopf gespeicherten Konzept abgleichen und dann gegebenenfalls das mit dem entsprechenden Konzept verbundene Sprachzeichen abrufen und vom phonologischen Wissen ausgehend eine konkrete Sprachäußerung machen”. 16 “Especially because it is possible to deduce from natural languages conceptual schemata which do not depend on a given language […]. Without the possibility of conceiving mental objects which are independent of a given language, the onomasiological method would prove to be impossible” (Baldinger 1980, 125). Hacia una semántica moderna (1970). 13 Le riflessioni di Baldinger, pur basandosi sulla duplicità del segno linguistico, cioè sulla sua unione di significante e significato (signifiant e signifié), vanno oltre la teorizzazione saussuriana ammettendo la presenza del concetto 14 come istanza mentale di raccordo tra la realtà extralinguistica e il segno linguistico. Proprio il rapporto tra lingua e realtà extralinguistica, come sottolinea Mounin (1963, 138), mette in discussione la concezione saussuriana della linguistica come disciplina che si esaurisce in sé stessa, nello studio esclusivo della langue: nella semantica, la realtà extralinguistica non può essere ignorata. La lingua si configura quindi come l’espressione di istanze mentali che si riferiscono alla realtà. 15 Sulla base dei principi qui sommariamente esposti, Baldinger ammette l’efficacia dell’utilizzo di un medesimo schema concettuale per la classificazione del lessico di più lingue. 16 Il lavoro di mappatura semantica a cui ci riferiamo nel presente contributo è un procedimento volto a esplicitare il collegamento tra segno linguistico e concetto. - 3.2 Lessicografia romanza digitale e mappatura semantica Malgrado gli auspici inziali, la lessicografia ha indugiato per molti anni sulle soglie del digitale, almeno per quanto riguarda le lingue romanze. Nell’era di sviluppo dei primi database lessicografici, molte imprese novecentesche erano in corso d’opera e hanno preferito continuare con i metodi di lavoro tradizionali piuttosto che avvicinarsi al digitale. 124 Alessandro Alfredo Nannini <?page no="125"?> 17 http: / / www.atilf.fr/ DERom (10.10.2023). A partire dal primo decennio del 2000 sono state concepite nuove opere lessicografiche digitali, così come alcuni dizionari analogici hanno intrapreso il fatidico processo di digitalizzazione ai fini della pubblicazione online (↑ 2). In entrambi i casi si è assistito a un rinato interesse per il superamento dell’ordinamento alfabetico dovuto alle nuove funzioni di consultazione fornite dal formato digitale. Nei paragrafi che seguono si fornisce una breve rassegna di alcuni progetti che offrono funzioni di ricerca semantica. 3.2.1 Un dizionario in XML: il DÉRom Il Dictionnaire Étymologique Roman (DÉRom) 17 diretto da Éva Buchi e Wolfgang Schweickard, è un dizionario etimologico compilato in linguaggio XML. Nel DÉRom la mappatura avviene a livello dell’etimo: nella sezione riservata al com‐ mento dell’articolo, la parte dedicata alla semantica dell’etimo messo a lemma viene codificata all’interno dell’elemento <etymsignifie>, il quale comprende altri due elementi: <analytique> per la definizione dell’etimo e <glos> per una glossa sommaria, cioè una parola-traducente in lingua francese. Le stringhe di testo codificate con <glos> vengono estratte automaticamente e vanno a comporre un indice semantico dal quale è possibile interrogare il dizionario (cf. Maggiore 2020, 255-256). Fig.-1: Il motore di ricerca semantico del DÉRom. La mappatura semantica del Lessico Etimologico Italiano (LEI) 125 <?page no="126"?> Il motore di ricerca (fig. 1) conduce l’utente in corrispondenza della glossa all’interno del commento dell’articolo. Ad esempio, la ricerca del concetto CŒUR porta al commento dell’articolo */ 'anim-a/ : “Toutes les branches romanes pré‐ sentent des cognats conduisant à reconstruire protorom. */ ˈanim-a/ s.f. ‘partie immatérielle des êtres, âme ; organe central de l’appareil circulatoire, cœur ; partie renflée du tube digestif, estomac’”. Poiché la mappatura coinvolge soltanto la semantica dell’etimo, viene lasciato poi all’utente il compito di distinguere, tra le forme presenti in articolo, quelle che possono riferirsi al concetto cœur (sard. ánima s.f. ‘organe central de l’appareil circulatoire, cœur-; partie renflée du tube digestif, estomac’) da quelle che esprimono altri concetti (sard. ánima s.f. ‘partie immatérielle des êtres, âme’). Un punto debole di questo sistema è da individuare nell’assenza di un ordi‐ namento tassonomico: il DÉRom offre una lista alfabetica di glosse (informazioni semantiche). Come vedremo più avanti (↑ 5), il nostro metodo prevede la classificazione del materiale lessicale all’interno di un sistema gerarchicamente ordinato di concetti, il quale permette di esplorare anche le relazioni semantiche che intercorrono tra i lessemi. 3.2.2 Linked Open Data e lessicografia storica: il DÉAF Negli ultimi anni, la lessicografia storica ha preso contatto con le tecnologie legate al web semantico (Semantic Web), estensione del World Wide Web conce‐ pita come un ambiente di scambio di dati semanticamente definiti, nel quale i collegamenti tra questi dati (linked open data, LOD) possono essere esplorati sia dalle persone che dalle macchine (cf. Berners-Lee 2006). Lo strumento standard per la rappresentazione dei dati nel web semantico è il Resource Description Framework (RDF). Ogni espressione in RDF è una collezione di triple formate da un soggetto, un predicato e un oggetto identificati da Internationalized Rescource Identifiers (IRIs), accessibili mediante il protocollo HTTP; ogni set di triple è detto grafo (fig. 2). Fig.-2: Tripla RDF (Klyne/ Carroll/ McBride 2004). L’utilizzo dei LOD in lessicografia risulta promettente soprattutto per la garan‐ tita interoperabilità tra diversi dataset RDF e per la sempre più alta disponibilità 126 Alessandro Alfredo Nannini <?page no="127"?> 18 Il termine vocabolario (ing. vocabulary) va qui inteso nel senso informatico, per il quale rimandiamo alle precisazioni fornite dal World Wide Web Consortium (W3C), disponibili all’indirizzo https: / / www.w3.org/ standards/ semanticweb/ ontology (28.08.2020). 19 La struttura del database di VerbaAlpina ci è nota grazie a comunicazioni private avute nel maggio 2019 e nel gennaio 2020 con Florian Zacherl (informatico del progetto), al quale vanno i nostri ringraziamenti. 20 In alcuni casi un concetto può presentare dei concetti subordinati selezionabili nel se‐ condo passaggio dell’interrogazione (fig. 5). Ad esempio, SEMINARE ‘spargere sementi in un terreno’ presenta anche il sotto-concetto ‘spargere le semente con il sacco da semina’. di vocabolari 18 comuni per la rappresentazione delle risorse linguistiche (cf. Tittel/ Gillis-Webber/ Nannini 2020, 1). OntoLex-Lemon (Cimiano/ McCrae/ Buite‐ laar 2016) si è imposto come standard de facto per la modellazione dei dati lessicografici, offrendo un vocabolario che permette di rappresentare facilmente le entrate lessicali e le informazioni ad esse collegate (formali, semantiche, sintattiche, etc.); inoltre, questi dati possono essere integrati con altre risorse esterne come le ontologie (semantiche, grammaticali, geolinguistiche, etc.). La prima applicazione di queste tecnologie per la modellazione di un dizio‐ nario storico romanzo si trova in Tittel/ Chiarcos 2018, dove viene illustrato il processo di conversione del Dictionnaire Étymologique de l’Ancien Français (DÉAF) in LOD modellati con OntoLex-Lemon, anche in prospettiva di una mappatura semantica coi concetti presenti nelle ontologie (ad es. DBpedia). Tuttavia, proprio in riferimento a quest’ultimo punto, gli autori riconoscono l’insufficienza delle ontologie disponibili in rete per la mappatura dei dizionari storici, in quanto le relazioni tra parole e concetti nel corso dei secoli non possono essere descritte in maniera esaustiva mediante l’utilizzo di schemi di classificazione che spesso esprimono soltanto la realtà extralinguistica moderna (Historical Semantic Gap). Come vedremo più avanti, la modellazione di sistemi ontologici che soddis‐ fino le esigenze della lessicografia storica è un tema di fondamentale importanza sul tavolo del LEI digitale. 3.2.3 Database relazionale: VerbaAlpina Un progetto che potrebbe rappresentare un modello per la mappatura semantica desiderata dal LEI è il già citato VerbaAlpina. In due tabelle del database sono state modellate rispettivamente le categorie e i concetti che formano l’albero concettuale (ted. Konzeptbaum) utilizzato per la mappatura delle singole forme. 19 I concetti di ultimo livello sono spesso accompagnati da una definizione e da un’immagine esemplificativa. 20 Data questa modellazione di tipo fine-grained, la ricerca per concetti offerta da VerbaAlpina risulta molto precisa. La mappatura semantica del Lessico Etimologico Italiano (LEI) 127 <?page no="128"?> Fig.-3: La maschera di ricerca di VerbaAlpina. Fig.-4: Risultato della ricerca per il concetto SEMINARE. I concetti delle tabelle sono collegati ai Q-ID dei concetti di Wikidata che “dal punto di vista linguistico […] rappresenta di fatto la base di un sistema di referenza onomasiologico molto utile”. (Mutter 2019) 128 Alessandro Alfredo Nannini <?page no="129"?> 21 Per una descrizione sintetica ed efficace del LEI, cf. Aprile et al. 2006, dove sono illustrate anche le strutture del LEI. Per una visione più ampia e dettagliata sull’argomento, cf. Aprile 2004. 4 Il Lessico Etimologico Italiano (LEI) Tra le opere lessicografiche di area italo-romanza, una delle più attese in formato digitale è il Lessico Etimologico Italiano (LEI). Fondato da Max Pfister negli anni Settanta, il LEI è un dizionario storico-etimologico che raccoglie sotto le basi etimologiche tutti gli sviluppi italo-romanzi 21 in diacronia e diatopia, corredati da un commento linguistico e da una sezione bibliografica in chiusura. Il LEI, finanziato dall’Accademia delle Scienze di Magonza (Akademie der Wissenschaften und der Literatur Mainz), è attualmente diretto da Elton Prifti e Wolfgang Schweickard, e conta più di 100 collaboratori distribuiti tra Germania, Italia e Austria. Del dizionario, ancora in corso d’opera, sono stati pubblicati i primi venti volumi, contenenti le lettere A, B, C, D, E (etimi latini, preromanzi e voci onomatopeico-espressive) e i germanismi presenti nel lessico italiano. Per comprendere l’importanza del dizionario nel panorama degli studi lingu‐ istici (e non solo), sarà opportuno riprendere un’osservazione esposta da Luca Serianni in occasione del conferimento della laurea honoris causa a Max Pfister dall’Università La Sapienza di Roma: Il LEI si rivolge in primo luogo agli studiosi di linguistica italiana; ma è imprescindibile strumento anche per i filologi romanzi, grazie alle connessioni che continuamente si stabiliscono con l’intero dominio neolatino; per i linguisti generali, che hanno agio di misurare la tenuta di una riflessione teorica sulla storicità di una lingua naturale, qui minutamente documentata; per i latinisti, che possono in diversi casi trarne lumi per interpretare una base latina malcerta o malnota nelle sue accezioni dagli sviluppi seriori; per gli storici, interessati alla proiezione terminologica di un certo settore materiale o di un’istituzione politica o giuridica. (Serianni 2001, 140) La mappatura semantica del Lessico Etimologico Italiano (LEI) 129 <?page no="130"?> Fig.-5: L’articolo ēmendātrīx (LEI XXI, 417). La documentazione minuta di cui parla Serianni si riflette nei molteplici livelli strutturali che ordinano il dizionario. Ogni articolo del LEI ha una struttura che coinvolge più livelli, il più profondo dei quali è costituito dalla stringa; ogni stringa è composta dalla combinazione di diverse informazioni lessicografiche (semantiche, formali e bibliografiche). Nell’esempio in fig. 5, la prima stringa che si incontra è articolata come segue: marca di luogo ↓- forma/ forma - ↓ marca grammaticale - ↓ ‘significato’ -- ↓ biografia/ bibliografia - ↓ It.reg. mendatrice f. ‘donna che per lavoro rammenda i panni’ B 1978 130 Alessandro Alfredo Nannini <?page no="131"?> 22 Prifti (2019, 233) ricorda che, negli anni in cui viene concepito il LEI, si assiste “ai primi tentativi di utilizzo dell’informatica per le analisi linguistiche”. Una menzione a parte merita il lavoro di padre Roberto Busa, il pioniere dell’‘informatica linguistica’ che già nel 1949 adottò la tecnologia informatica delle schede perforate IBM per l’analisi lessicale dell’opera di San Tommaso d’Aquino. 23 Il passaggio dalla scrittura a macchina alla scrittura elettronica (Word), abbracciata dal LEI negli anni Novanta, rappresenta un cambio di medium piuttosto che un cambio di metodo. Il LEI è dunque un’opera unica nel panorama lessicografico, in grado di fornire informazioni dettagliate su ogni singolo lessema italo-romanzo. Data una tale ricchezza di informazioni, si comprende bene l’importanza della digitalizzazione ai fini di ulteriori sviluppi della ricerca linguistica. - 4.1 Il LEI digitale Come si è detto, il LEI è stato concepito nella seconda metà del Novecento e, come la maggior parte delle opere lessicografiche di quell’epoca, 22 si configura come un’opera di lessicografia tradizionale, che oggi diremmo analogica in contrapposizione alle opere che usufruiscono delle tecniche digitali. Sebbene, a partire dagli anni Ottanta, l’impiego del computer nella realizza‐ zione e nella pubblicazione dei dizionari sia diventata un’opportunità concreta, il LEI ha continuato ad essere redatto nella maniera tradizionale fino ai giorni nostri. 23 Considerata l’inefficienza del metodo analogico comparato alle possibi‐ lità offerte dall’informatica alla lessicografia, nel 2015 è stato avviato il progetto LEI digitale con l’intento di operare una digitalizzazione su tre livelli, come esposto in Prifti 2019: 1. retrodigitalizzazione, tramite elaborazione OCR (Optical Character Re‐ cognition) sia degli articoli già pubblicati che del materiale di lavoro (in primis le schede); 2. digitalizzazione dei dati lessicografici del livello 1), cioè il tagging degli elementi lessicografici dei materiali retrodigitalizzati; 3. informatizzazione del processo redazionale, mirata alla creazione di dati lessicografici nativi digitali con conseguente aumento del rendimento del lavoro redazionale. Soggiace a tutti e tre i livelli l’obiettivo di pubblicare il dizionario in formato digitale sulla piattaforma del LEI. Una volta portato a termine il primo livello tra il 2015 e il 2017, hanno preso avvio le fasi di lavoro relative agli altri due livelli di digitalizzazione, con il coinvolgimento di diversi team di ricerca. La digitalizzazione semiautomatica delle schede viene condotta, mediante tecniche di intelligenza artificiale e deep La mappatura semantica del Lessico Etimologico Italiano (LEI) 131 <?page no="132"?> 24 Per maggiori informazioni sul processo di digitalizzazione, cf. Prifti 2022. learning, da una squadra di informatici presso l’Università di Marburg. La digitalizzazione degli articoli già pubblicati del LEI viene portata avanti da un team coordinato dal Dr. Stephen Dörr e dall’informatico Marcus Husar presso l’Università di Mannheim. Mediante processi semiautomatici, i testi retrodigitalizzati vengono trasformati in documenti XML dove risulta marcato, e dunque ricercabile, ogni elemento lessicografico. Gli articoli marcati vengono pubblicati in formato XHTML all’indirizzo https: / / online.lei-digitale.it (fig. 6). 24 Fig.-6: LEI digitale (https: / / online.lei-digitale.it). Alla base dell’intero progetto risiede l’intuizione secondo la quale l’unità stringa può essere rappresentata come un record (o atomo nella terminologia del LEI digitale) all’interno di un database relazionale: le singole informazioni contenute nella stringa possono essere rappresentate secondo il modello relazionale, cioè all’interno di tabelle costituite da attributi e valori di attributo. Ovviamente il database del LEI non è composto da un’unica tabella ma è la risultante di diverse tabelle interrelate. Tuttavia, volendo ridurre al minimo le informazioni a titolo esemplificativo, utilizzando la stringa precedentemente analizzata, otterremmo la seguente modellazione: ID atomo Etimo Defini‐ zione etimo Sigla geolin‐ guistica Forma Marca morfo‐ logica Defini‐ zione Sigla biblio‐ grafica n ēmēn‐ datrix chi emenda it.reg. mendat‐ rice f. donna che per lavoro ram‐ menda i panni B 1978 Tab. 1: Una stringa del LEI in formato tabellare. 132 Alessandro Alfredo Nannini <?page no="133"?> 25 A proposito dei cambiamenti semantici nella lingua italiana, Wolfgang Schweickard (2008, 2859) ne lamenta la mancanza di studi. Per Tullio De-Mauro - citato da Schwei‐ ckard - tali fenomeni sono tanto importanti quanto difficili da indagare. Potremmo aggiungere che lo scarso interesse e la difficoltà d’indagine siano dovuti in primo luogo all’impossibilità di analizzare il lessico in maniera sistematica senza il supporto dell’informatica. Ecco che in quest’ottica si comprendono ancor meglio le potenzialità offerte dagli strumenti lessicografici digitali all’avanzamento degli studi linguistici. L’esempio fornisce una buona panoramica su alcune di quelle che potranno essere le possibilità di ricerca essenziali - e combinabili tra loro - all’interno della banca dati. Ad esempio, si potranno ricercare tutti gli sviluppi di genere femminile di un dato etimo in una determinata varietà dialettale. Dunque, la possibilità di combinare diverse variabili di ricerca nel database del Lessico Etimologico Italiano apre nuove prospettive nello studio della linguistica italiana e romanza, data la copiosità di materiali coinvolti nella compilazione del dizionario. Francesco Sabatini nota l’importanza del LEI in quanto strumento fondamentale per l’indagine storico-linguistica di una comunità di parlanti, aggiungendo che un’opera lessicografica così ricca è in grado di offrire un quadro generale della vita culturale di tale comunità; supportano questa affer‐ mazione un paio di esempi volti a mettere in luce quei “passaggi semantici inimmaginabili” (Sabatini 1992, 16) attraverso i quali si è andato costituendo nei secoli il lessico di area italo-romanza. Una delle scommesse sul tavolo del LEI-Digitale è proprio quella di fornire agli utenti uno strumento per l’indagine semantica all’interno di una mole tanto grande di dati. 25 - 4.2 Le strutture semantiche del LEI In questa parte viene presentata l’analisi della strutturazione del LEI con partico‐ lare attenzione all’aspetto semantico. La terminologia adoperata in riferimento alle diverse strutture si basa principalmente su quella di Aprile (2004, 22 sgg.), con alcune modifiche nate in seno al recente processo di digitalizzazione del LEI. La macrostruttura del LEI risponde al criterio di ordinamento alfabetico. Come nel FEW, anche nel LEI ogni entrata è costituita da un etimo o da un raggruppamento di etimi, e le entrate sono disposte in ordine alfabetico. L’etimo - unità massimale di trattamento - consta di tre parti, di cui una (c)) ha valore semantico: La mappatura semantica del Lessico Etimologico Italiano (LEI) 133 <?page no="134"?> 26 Nella sezione a cui facciamo riferimento non è obbligatoria la menzione della lingua, che viene data per scontata nel caso di etimi latini; le onomatopee e le voci espressive “hanno uno statuto indipendente da sistemi linguistici particolari” (Aprile 2004, 76) che implica l’assenza di tale marca; nel caso di alcuni etimi (non latini e non onomatopeici) possiamo incontrare etichette come “prerom.” o “gr.”. 27 Aprile (2004, 76) parla di “glossa esplicativa sommaria”. 28 “I. forme di evoluzione popolare, che mostrano, cioè, un’evoluzione fonetica ‘eredita‐ ria’; II. forme di evoluzione fonetica dotta o semidotta; III. prestiti o calchi da altre lingue” (Tancke 1997, 466). 29 Chiamiamo dunque molecole quelle unità di trattamento che Tancke chiama signifi‐ cati: “all’interno dei paragrafi […] i vari significati sono disposti in ordine cronologico, di norma partendo dalla forma italiana”. a. indicazione della lingua dell’etimo; 26 b. la forma dell’etimo; c. la glossa-definizione 27 Con il termine sezione ci riferiamo a ciascuna delle tre parti che derivano dalla prima suddivisione dei materiali di un articolo sulla base di criteri genetici. 28 A questo livello non sono presenti informazioni semantiche. Con il termine struttura ci riferiamo all’ossatura interna delle diverse sezioni, utilizzando struttura primaria per l’ossatura principale che risponde, di volta in volta, a criteri morfologici o semantici. La coesistenza dei due criteri può portare a una gerarchia mista di categorie morfologiche e semantiche. All’interno delle sezioni strutturali si articolano i paragrafi e, all’interno di essi, indichiamo con il termine molecola la più piccola sottosezione di un articolo costituita da una o più stringhe aventi la medesima definizione (Prifti 2022, , dove con atomo ci riferiamo, nel LEI Digitale (Prifti 2022, 300), alla stringa come “unità base della documentazione, compresa di tutte le sue parti facoltative” (Aprile 2004, 23). 29 Le molecole si distribuiscono all’interno di un’infrastruttura più o meno fissa, costruita sulla base di criteri morfologici, sintattici, morfosintattici e semantici, come illustrato da Tancke 1997. Come si vede, la semantica è presente a quasi tutti i livelli strutturali del dizionario. È compito della mappatura semantica del LEI rendere maggiormente visibile e ricercabile questa presenza. 5 La mappatura semantica del LEI - 5.1 Il punto di partenza Il LEI digitale si basa sull’utilizzo di un database relazionale all’interno del quale è stato previsto il linking con un sistema concettuale. La rappresentazione 134 Alessandro Alfredo Nannini <?page no="135"?> 30 Il prototipo di una stringa LEI in RDF è stato mostrato in occasione della conferenza che ha dato vita al presente contributo. 31 Il livello più esterno dello schema di classificazione in uso nel LEI è composto da ‘mondo umano’, ‘mondo vegetale’, ‘mondo animale’, ‘configurazione del terreno’, ‘fenomeni atmosferici e astronomici’, ‘mondo materiale’. Ringrazio Elton Prifti per avermi messo a disposizione il foglio Excel in cui sono conservate queste informazioni. 32 Il numero massimo di livelli è cinque (cf. Aprile 2004, 150-152). del materiale lessicografico come Linguistic Linked Open Data modellati con OntoLex-Lemon è stata presa in considerazione soltanto all’interno di alcuni studi di fattibilità in margine al progetto. 30 Diversamente, le tecnologie offerte dal Web Semantico sono di fondamentale importanza per la modellazione del sistema concettuale di riferimento. Si è già detto che il LEI analogico utilizza categorie semantiche per la strutturazione degli articoli: 31 le porzioni vengono marcate mediante il ricorso a categorie concettuali che richiamano da vicino quelle dell’HW; le diverse categorie possono essere suddivise in sottocategorie. 32 Ad esempio, la sezione I.1. ‘principio vitale, spirito vitale’ dell’articolo anima (LEI II, 1228) è ripartita come segue: 1.a. sign. religioso e filosofico 1.b. ‘sfera emotiva dell’uomo’ 1.c. ‘sfera intellettiva’ Tuttavia, l’utilizzo delle categorie semantiche nel LEI non risponde a norme redazionali stabilite in precedenza, così come non è disponibile un sistema di categorie fisso e gerarchicamente ordinato; ne consegue la necessità di un sistema concettuale di riferimento per la fase di mappatura degli articoli già pubblicati e di quelli ancora da compilare. - 5.2 Il sistema di classificazione Per il sistema di classificazione sono stati presi in considerazione due sistemi concettuali già noti alla lessicografia storica novecentesca, l’HW e il sistema dell’Historical Thesaurus of English (HTE) che di fatto è stato scelto per la mappatura del LEI. Nei paragrafi che seguono si dà una breve descrizione di entrambi i sistemi e delle ragioni che ci hanno portato a preferire il sistema inglese. 5.2.1 Il Begriffssystem di Hallig e von Wartburg L’HW è stato concepito, nelle intenzioni dei romanisti Rudolf Hallig e Walther von Wartburg, come un sistema di validità universale per la lessicografia. I La mappatura semantica del Lessico Etimologico Italiano (LEI) 135 <?page no="136"?> 33 I primi sei livelli della gerarchia costituiscono il Plan del Begriffssystem con 524 concetti; tali livelli si estendono in altri tre livelli costituiti da circa 1150 concetti. 34 Alla rassegna di opere che utilizzano l’HW presentata da Tittel/ Gillis-Webber/ Nannini (2020, 4) si possono aggiungere il glossario onomasiologico di Maria H.J. Fermin sul lessico dei Vangeli in retoromancio (Fermin 1954), La grammatica storica delle parlate giudeo-italiane di Marcello Aprile (Aprile 2012) e Il bestiario onomasiologico della Commedia di Leonardo Canova (Canova 2022). Non possiamo concordare totalmente con Key/ Alexander quando, a proposito dell’HW, affermano che “there is no record of its being used in its totality or of having much effect on actual thesaurus-making” (2016, 379), poiché i già menzionati progetti di Baldinger smentiscono almeno il secondo punto. L’affermazione dei due autori procede da un’osservazione più mitigata di Fischer (2004, 46): «To my knowledge no actual thesaurus has ever been compiled on the basis of Hallig and von Wartburg’s scheme». In ogni caso, le due citazioni illustrano abbastanza bene gli scarsi contatti tra la lessicografia anglosassone e quella romanza. 35 Una versione digitale dell’HW, relativamente ai 524 concetti dei primi sei livelli (il Plan del sistema), è in uso presso la redazione del DAGél (la versione elettronica del DAG). Recentemente questo sistema, esportato in formato XML, è stato trasformato in un’ontologia in RDF e SKOS (Simple Knowledge Organization System) da Tittel/ Gillis-Webber/ Nannini 2020. L’ontologia in RDF è consultabile all’indirizzo https: / / lod .academy/ hw-onto/ ns/ hw#hwIdentificationScheme (28.08.2022). concetti, rappresentati con parole della lingua francese, sono disposti gerarchi‐ camente all’interno del sistema, il quale consta di 1674 concetti distribuiti su più livelli che si diramano a partire dalle tre macrocategorie L’univers, L’homme, L’homme et l’univers. 33 Le applicazioni pratiche del sistema concettuale riguar‐ dano principalmente la lessicografia e la lessicologia delle lingue romanze e germaniche. 34 Com’è noto, l’HW fornisce le entrate per due importanti dizionari onomasiologici fondati da Kurt Baldinger. Tuttavia, lo stesso Baldinger ha rile‐ vato alcuni punti critici del sistema (cf. Baldinger 1980, 115-127); altre difficoltà di applicazione sono state evidenziate in tempi più recenti da Crifò (2016, 459) e, in misura maggiore, da Tittel/ Gillis-Webber/ Nannini 2020. Il sistema concettuale presenta davvero poche sezioni dedicate a concetti antichi e, allo stesso tempo, risulta carente sul versante dei concetti scientifici e contemporanei, sia per volontà degli autori che per il tempo trascorso dalla pubblicazione dell’opera. Nonostante le debolezze, l’HW resta un valido schema concettuale che non dovrebbe essere escluso in via definitiva, ma che andrebbe integrato con altre risorse affini che possano migliorarne l’efficacia. 35 5.2.2 Historical Thesaurus of English ( HTE ) L’Historical Thesaurus of English è stato pubblicato per la prima volta nel 2009, dopo 44 anni di lavoro durante i quali gli estensori hanno classificato 797000 parole del lessico inglese, in gran parte provenienti dall’Oxford English 136 Alessandro Alfredo Nannini <?page no="137"?> 36 https: / / ht.ac.uk (28.08.2022). 37 https: / / ht.ac.uk/ classification (28.08.2022). 38 Cf. anche Baldinger (1980, 122-124). Dictionary (OED), all’interno di 236000 categorie. 36 Il sistema di classificazione dell’HTE presenta dodici livelli (sette di categorie principali e cinque di sottoca‐ tegorie), “in a taxonomy which begins with the most general ways of expressing a concept and moves hierarchically downwards to the most specific”. 37 Il primo livello di classificazione è composto dalle tre categorie THE WORLD, THE MIND e SOCIETY; in corrispondenza delle diverse categorie e sottocategorie sono classificati i lessemi che esprimono il concetto/ categoria con le relative date di attestazione (cf. fig.-7). Fig.-7: Struttura dell’HTE. Nell’HTE compaiono sia tassonomie popolari che quelle scientifiche, con pre‐ dominanza delle prime, proprio in virtù delle esigenze di classificazione di un lessico in gran parte prescientifico (Kay 2010, 266-267; Wotherspoon 2010, 271; Kay/ Alexander 2016, 372): la motivazione è simile a quella addotta da Hallig e Wartburg per giustificare la tassonomia dell’“individuo comune”. 38 La mappatura semantica del Lessico Etimologico Italiano (LEI) 137 <?page no="138"?> 39 Un secondo test, che non prenderemo in considerazione per motivi di spazio, ha riguar‐ dato la mappatura parallela dell’articolo LEI di prossima pubblicazione germanus ‘fra‐ tello, cugino, parente’, prendendo in considerazione tre livelli strutturali dell’articolo: macrostruttura, struttura e molecola. Anche in questo caso è stata comprovata la superiorità dell’HTE. 40 Come nota Fischer (2004, 49), ogni distinzione tra sistemi concettuali universalisti e “cultureand language-specific” è fallace, poiché ogni schema risulta influenzato dal clima culturale nel quale viene prodotto e dalla lingua in cui viene scritto. 5.2.3 Scelta del sistema concettuale per il LEI Per l’elezione del sistema concettuale di riferimento, oltre all’analisi preliminare dei due sistemi che non può non tener conto della maggior ricchezza del sistema inglese, sono state condotte alcune prove empiriche di mappatura parallela. Il test principale ha riguardato 100 etimi del LEI, scelti in maniera casuale tra quelli delle lettere A e B del dizionario. L’HW si è dimostrato utile per la classificazione puntuale di 50 etimi (50 %), mentre sono stati classificati 99 etimi (99-%) nel sistema dell’HTE. Di seguito si riportano due esempi tratti dalla mappatura parallela degli etimi. L’etimo amita presenta la glossa ‘zia paterna’, riferendosi alla sorella del padre. L’HW permette una classificazione sufficiente ma non puntuale sotto il concetto TANTE (HW 168); l’HTE, all’interno della categoria AUNT (https: / / ht.ac.uk/ category/ ? id=146888), presenta la sottocategoria PATERNAL AUNT (https: / / ht.ac.uk/ category/ ? id=146889). La voce latina acerra viene glossata nel LEI con ‘cassetta che conteneva l’incenso per i sacrifici; turibolo’. La sistemazione più idonea per questo etimo nell’HW potrebbe essere nei pressi del concetto ENCENS (< LES LIEUX DU CULTE; HW 213); nell’HTE troviamo due differenti categorie per la classifica‐ zione dei due significati di acerra: INCENSE CONTAINER (https: / / ht.ac.uk/ ca tegory/ ? id=58796), nella sezione relativa ai contenitori legati alla produzione dei profumi, e THURIBLE (https: / / ht.ac.uk/ category/ ? id=180961), nella sezione relativa agli artefatti legati alla fede. 39 Le analisi condotte in questa fase hanno confermato la tesi di partenza per la quale uno schema concettuale dedotto da una lingua naturale (l’inglese) può essere utilizzato per la classificazione di altre varietà linguistiche (il latino). Il sistema dell’HTE nasce della classificazione sistematica del lessico inglese dalle origini ai giorni nostri e per questo motivo risulta più ampio e dettagliato dell’HW che, invece, si presenta come un sistema di validità universale ed è in realtà il frutto del lavoro di astrazione di pochi individui operanti in un determinato contesto storico-culturale. 40 138 Alessandro Alfredo Nannini <?page no="139"?> 41 Una porzione della tassonomia dell’HTE è stata modellata come ontologia per la classificazione del lessico spagnolo e dell’italiano antico da Giuliani/ Sangüesa 2020, nell’ambito di un progetto di mappatura che coinvolge il Diccionario histórico de la lengua española (DHLE) e il TLIO. 42 Al 29 agosto 2022 la mappatura degli etimi è stata completata al 50%. 5.2.4 Modellazione del sistema concettuale Il sistema concettuale di riferimento, basato su quello dell’HTE, è stato modellato come un’ontologia in OWL (Ontology Web Language) attraverso l’utilizzo dell’editor Protégé. Le categorie e le sottocategorie sono rappresentate come classi; 41 le classi figlie sono collegate alle classi madri mediante la proprietà rdfs: SubClassOf. Il nome univoco di ogni classe mantiene l’originale inglese, mentre le labels in inglese, italiano e francese vengono aggiunte come stringhe di testo attraverso la proprietà rdfs: label. Questa modellazione conferisce una maggiore dinamicità alla struttura ad albero originaria, permettendo, ad esempio, il posizionamento di una singola classe sotto classi differenti, così come la creazione di relazioni di equivalenza tra classi. - 5.3 Livelli della mappatura La mappatura semantica del LEI viene condotta su tre livelli strutturali degli articoli: 1. la macrostruttura (o livello etimo); 2. la struttura, ove presente la strutturazione semantica; 3. la molecola. 42 La mappatura della macrostruttura, relativamente alla porzione già pubblicata del dizionario, si basa principalmente sulle informazioni semantiche contenute nelle glosse esplicative degli etimi, le quali esprimono uno o più significati. Ogni etimo viene quindi ricondotto a uno o più IRI dell’ontologia. Lo scopo di questa parte del lavoro è quello di fornire al LEI una macrostruttura semantica in aggiunta a quella alfabetica, con la conseguente possibilità di interrogare gli articoli a partire dal concetto espresso dall’etimo, in maniera analoga a quanto avviene nel DÉRom (↑ 3.2.1). Allo stesso modo, le diverse parti dell’articolo (livello struttura), indicizzate con eventuale etichetta semantica del LEI, vengono arricchite dall’informazione ontologica mediante il link alle classi ontologiche corrispondenti all’etichetta redazionale. In questo modo viene resa maggiormente esplicita e facilmente ricercabile la strutturazione semantica degli articoli e, di conseguenza, del lessico ivi rappresentato. La mappatura semantica del Lessico Etimologico Italiano (LEI) 139 <?page no="140"?> 43 Per un esempio di visualizzazione cartografica su base semantica dell’articolo GER‐ MANUS, si veda Prifti (2022, 307). La mappatura delle molecole si basa sulle definizioni in articolo. Ogni definizione viene analizzata e, come avviene per gli altri livelli, vengono inseriti gli IRI dei concetti corrispondenti. Questa è la fase più ambiziosa della mappatura semantica del LEI che, classificando lo sviluppo semantico di ogni singolo lessema, offre la possibilità di compiere ricerche di alto profilo sul lessico italo-romanzo. - 5.4 Prospettive Il progetto di mappatura semantica del LEI inaugura una serie di prospettive che spaziano dall’uso interno al dizionario - sia in fase di digitalizzazione del materiale già pubblicato che in quella di redazione di nuovi articoli - alla connessione con altre risorse lessicografiche. 5.4.1 Integrazione nel Corpus LEI Il prodotto finale verrà integrato agli strumenti già disponibili sul sito del LEI digitale, andando ad arricchire il cosiddetto Corpus LEI (cf. Prifti 2022, 302). I modelli di riferimento per la visualizzazione online sono l’HTE (↑ 5.2.2) e l’OED (fig. 8). Gli utenti potranno accedere al contenuto del dizionario a partire dalla consultazione della gerarchia concettuale; viceversa, l’informazione concettuale sarà visibile in corrispondenza degli articoli e delle sezioni mappate. Verranno inoltre messe a disposizione funzioni per l’indagine linguistica del materiale lessicografico. 43 Fig.-8: L’articolo dog, n.1 dell’OED. 5.4.2 Un nuovo strumento redazionale Il sistema concettuale andrà a costituire uno strumento aggiuntivo a disposi‐ zione dei redattori del LEI digitale che applicheranno il metodo mappatura 140 Alessandro Alfredo Nannini <?page no="141"?> semantica, così come l’abbiamo delineato per le parti già pubblicate del dizio‐ nario, in fase di redazione dei nuovi articoli. Di grande importanza è il contributo che la classificazione concettuale in un sistema gerarchico potrà offrire alla compilazione delle definizioni. 5.4.3 Connessione con altre opere La mappatura semantica del LEI vuole proporsi come modello e incentivo per altri progetti lessicografici digitali. Inoltre, l’ontologia può rappresentare senz’altro il punto di partenza ideale per l’interconnessione a livello semantico con altre opere che potranno utilizzare identificatori comuni per mappare i loro materiali, creando così un cloud di contenuti liberamente ricercabili e confrontabili. 6 Conclusioni La digitalizzazione delle opere di lessicografia storica è una realtà che apre nuove prospettive nel campo della linguistica, tra le quali spicca senz’altro la maggiore affidabilità dei risultati raggiunti mediante indagini computazionali. Il superamento dei limiti di consultazione tipici dei dizionari analogici, già messo in evidenza dalla lessicografia elettronica delle origini, è uno dei vantaggi più evidenti di questo processo di trasformazione. Nel presente contributo è stata presentata la mappatura semantica come metodo efficace in grado di offrire nuove modalità di accesso al materiale lessicografico. L’utilizzo del sistema concettuale dell’HTE, emerso dalla classificazione sistematica di una lingua storico-naturale e non creato per via di astrazioni individuali, ha confermato i presupposti teorici di partenza; la rappresentazione di tale sistema in formato ontologico favorisce una maggiore dinamicità alla tassonomia e facilita la reticolazione con altri progetti. Il LEI digitale, con la sua mole di dati unica nel panorama romanzo, si configura come l’opera ideale per dimostrare il funzionamento di un metodo che promette risvolti interessanti anche sul piano della semantica teorica e storica. Nell’ottica della digitalizzazione del LEI come processo mirante al migliora‐ mento del dizionario anche in ambito redazionale, la classificazione semantica si aggiunge alle fasi di lavoro previste nella compilazione degli articoli, con notevoli vantaggi per la strutturazione e la definizione dei dati lessicografici. La mappatura semantica del Lessico Etimologico Italiano (LEI) 141 <?page no="142"?> Bibliografia AGLIO = Barbato, Marcello/ Faroni, Vincenzo (2015‒): Atlante Grammaticale della Lingua Italiana delle Origini, http: / / aglio.ovi.cnr.it (28.08.2022). Aprile, Marcello (2004): Le strutture del Lessico Etimologico Italiano, Galatina, Congedo. Aprile, Marcello/ Coco, Alessandra/ De Luca, Maria Teresa/ Danese, Francesca/ De-Fazio, Debora/ Marzano, Carlo/ Mazzeo, Marco/ Nuzzo, Daniela/ Tallò, Lucia (2006): “Il Lessico Etimologico Italiano”, in: Cresti, Emanuela (ed.): Prospettive nello studio del lessico italiano. Atti del IX Congresso SILFI (Firenze, 14-17 giugno 2006), Firenze, Firenze University Press, 23-26. Aprile, Marcello (2012): Grammatica storica delle parlate giudeo-italiane, Galatina, Con‐ gedo. Baldinger, Kurt (1980): Semantic Theory. Towards a Modern Semantics, Oxford, Basil Blackwell [Baldinger, Kurt (1970): Teoria semántica : hacia una semántica moderna, Madrid, Alcalá] Berners-Lee, Tim (2006): Linked Data, 27 luglio 2006, https: / / www.w3.org/ DesignIssues / LinkedData.html (28.08.2022). Blank, Andreas (2001): Einführung in die lexikalische Semantik für Romanisten, Tübingen, Niemeyer. Busa, Roberto (1987): Fondamenti di informatica linguistica, Milano, Vita e pensiero. Canova, Leonardo (2022): Il bestiario onomasiologico della Commedia, Firenze, Cesati. Cimiano, Philipp/ McCrae, John P./ Buitelaar, Paul (2016): Lexicon Model for Ontologies: Community Report, 10 May 2016, https: / / www.w3.org/ 2016/ 05/ ontolex (28.04.2020). Crifò, Francesco (2016): I «Diarii» di Marin Sanudo (1496-1533): Sondaggi filologici e linguistici. Berlin/ Boston, De Gruyter. DAG-=-Baldinger, Kurt (ed.) (1975‒): Dictionnaire Onomasiologique de l’ancien gascon, Tübingen/ Berlin, De Gruyter. DAO-=-Baldinger, Kurt (ed.) (1975-2005): Dictionnaire Onomasiologique de l’ancien occitan, Tübingen, Niemeyer. DBPedia = https: / / www.dbpedia.org (28.08.2022). DEAF-=-Baldinger, Kurt (ed.)-(1971-): Dictionnaire étymologique de l’ancien fran‐ çais, Québec/ Tübingen/ Berlin, Presses de L’Université Laval/ Niemeyer/ De Gruyter, DEAFél: https: / / deaf-server.adw.uni-heidelberg.de (28.08.2022). Della Valle, Valeria (2005): Dizionari italiani: Storia, tipi, struttura, Roma, Carocci. DÉRom-=-Buchi, Éva/ Schweickard, Wolfgang (eds.)-(2008‒): Dictionnaire Étymologique Roman (DÉRom), Nancy, ATILF, http: / / www.atilf.fr/ DERom (10.10.2023). DHLE = Real Academia Española (2013‒): Diccionario histórico de la lengua española (DHLE) [en línea] (28.08.2022). 142 Alessandro Alfredo Nannini <?page no="143"?> Di Maio, Andrea (1989): “L’‘informatica linguistica’ di Padre Roberto Busa come metodo investigativo e come approccio al Medioevo”, in: Medioevo 15, 325-362. Fermin, Maria Helena Johanna (1954): Le vocabulaire de Bifrun dans sa traduction des quatre Evangiles : Academisch Proefschrift, Amsterdam, L. J. Veen’s Uitgevers. FEW-=-von-Wartburg, Walther (ed.)-(1921‒): Französisches Etymologisches Wörterbuch, Bonn/ Lipsia/ Basel, Klopp. Fischer, Andreas (2004): “The notional structure of thesauruses”, in: Kay, Christian/ Smith, Jeremy J. (eds.): Categorization in the history of English, Amsterdam, Benjamins. GDLI-=-Battaglia, Salvatore (ed.) (1961‒2002): Grande dizionario della lingua italiana, Torino, UTET, http: / / www.gdli.it (28.08.2022). Giuliani, Mariafrancesca/ Sangüesa, Itziar Molina (2020): “Hacia una taxonomía integrada en la redacción y revisión de diccionarios históricos”, in: Bollettino dell’Opera del Vocabolario Italiano XXV, 325-374. Heger, Klaus (1964): “Die methodologischen Voraussetzungen von Onomasiologie und begrifflicher Gliederung”, in: Zeitschrift für Romanische Philologie 80, 486-516. HTE-=-Kay, Christian/ Alexander, Marc/ Dellachy, Fraser/ Roberts, Jane/ Samuels, Mi‐ chael/ Wotherspoon, Irené (eds.) (1965-2008): The Historical Thesaurus of English (version 4.21), University of Glasgow, https: / / ht.ac.uk (28.08.2022). HW = Hallig, Rudolf/ von Wartburg, Walther ( 2 1963 [1952]): Begriffssystem als Grundlage für die Lexikographie / Système raisonné des concepts pour servir de base à la lexicogra‐ phie, Berlin, Akademie-Verlag. Kay, Christian (2010): “Classification: Principles and Practice”, in: Adams, Michal (ed.): Cunning passages, contrived corridors. Unexpected Essays in the History of Lexicography, Monza, Polimetrica, 255-270. Kay, Christian/ Alexander, Marc (2016): “Diachronic and synchronic thesauruses”, in: Durkin, Philip (ed.): The Oxford Handbook of Lexicography, Oxford, Oxford University Press, 367-380. Kipfer, Barbara Ann (1986): “Investigating an onomasiological approach to dictionary material”, in: Dictionaries: Journal of the Dictionary Society of North America 8, 55-64. Klyne, Graham/ Carroll, Jeremy J./ McBride, Bryan (2004): Resource Description Framework (RDF): Concepts and abstract Syntax. WC3 recommendation 10 February 2004, https: / / www.w3.org/ TR/ rdf-concepts (28.08.2022). LEI-=-Prifti, Elton/ Schweickard, Wolfgang (eds.) (1979-): LEI. Lessico Etimologico Ita‐ liano. Fondato da Max Pfister, Wiesbaden, Reichert, LEI digitale: https: / / lei-digitale.it (28.08.2022). Maggiore, Marco (2020): “Considérations sur la structure XML des articles du DERom”, in: Buchi, Éva, Schweickard, Wolfgang (eds.), Dictionnaire Étymologique Roman (DÉRom) 3. Entre idioroman et protoroman, Berlin-Boston, De Gruyter, 243-260. La mappatura semantica del Lessico Etimologico Italiano (LEI) 143 <?page no="144"?> Marras, Cristina/ Passarotti, Marco/ Franzini, Greta/ Litta, Eleonora (2020): “Prefazione”, in: Marras, Cristina/ Passarotti, Marco/ Franzini, Greta/ Litta, Eleonora (eds.): Atti del IX Convegno Annuale dell’Associazione per l’Informatica Umanistica e la Cultura Digitale (AIUCD). La svolta inevitabile: sfide e prospettive per l’Informatica Umanistica (Università del Sacro Cuore, Milano, 15-17 gennaio 2020), Bologna, AIUCD, iii-v, http: / / amsacta.unibo.it/ 6316/ (28.08.2022). Mounin, Georges (1963): Les problemes théoriques de la traducion, Paris, Gallimard. Mutter, Christina (2019): s.v. Wikidata, in: VerbaAlpina-it 19/ 2 (creato: 19/ 1), Metodo‐ logia, https: / / doi.org/ 10.5282/ verba-alpina? urlappend=%2Fit%3Fpage_id%3D21%26db %3D192%26letter%3DW%23105 (28.04.2020). OED = Oxford English Dictionary Online (2000-), Oxford University Press, https: / / www .oed.com (28.08.2022) Ogden, Charles Kay/ Richards, Ivor Armstrong (1923): The Meaning of Meaning. London, Routledge & Kegan Paul. OVI-= Istituto Opera del Vocabolario Italiano (OVI) - CNR,-http: / / www.ovi.cnr.it (28.08.2022). Pfister, Max (1980): “Lessico Etimologico Italiano”, in: Italienische Studien 3, 133-151. Pfister, Max (1982): “Sémantique et lexicologie”, in: Moll, Aina (ed.), Congrés Internacional de Lingüística i Filologia Romàniques (Palma de Mallorca, 7-12 d'abrile de 1980). Actes, vol. 1: Sessions Plenàries i Taules Rodones, Palma de Mallorca, Editorial Moll, 278-294. Prifti, Elton (2019): “Lo stato della digitalizzazione del LEI. Un resoconto”, in: Leonardi, Lino/ Squillacioti, Paolo (eds.): Italiano antico, italiano plurale, Alessandria, Edizioni dell’Orso, 233-242. Prifti, Elton (2022), “Il LEI digitale. Un resoconto, con particolare attenzione alla dialetto‐ logia”, in: Cortelazzo, Michele A./ Morgana, Silvia/ Prada, Massimo (eds.), Lessicografia storica dialettale e regionale, Firenze, Franco Cesati, 293-314. Raible, Wolfgang (1983): “Zur Einleitung”, in: Stimm, Helmut/ Raible, Wolfgang (eds.): Zur Semantik des Französischen, Wiesbaden, Steiner, 1-24. Sabatini, Francesco (1992): “Il LEI e la storia della lingua italiana”, in: Coluccia, Rosario (ed.): Riflessioni sulla lessicografia. Atti dell’incontro organizzato in occasione del conferimento della laurea honoris causa a Max Pfister (Lecce, 7 ottobre 1991), Galatina, Congedo, 13-19. Schweickard, Wolfgang (2008): “Storia interna dell’italiano: lessico e formazione delle parole”, in: Gerhard, Ernst/ Gleßgen, Martin-Dietrich/ Schmitt, Christian/ Schweickard, Wolfgang (eds.): Romanische Sprachgeschichte: ein internationales Handbuch zur Ge‐ schichte der romanischen Sprachen, Berlin, De Gruyter, 2847-2872. Serianni, Luca (2001): “Laudatio in occasione della laurea honoris causa conferita a Max Pfister dall’Università di Roma «La Sapienza» (8 marzo 2001)”. Studi Linguistici Italiani 27, 139-142. 144 Alessandro Alfredo Nannini <?page no="145"?> Tancke, Gunner (1997): “Note per un Avviamento al Lessico Etimologico Italiano (LEI)”, in: Günter, Holtus/ Kramer, Johannes/ Schweickard, Wolfgang (eds.): Italica et Romanica. Festschrift für Max Pfister zum 65. Geburtstag, Tübingen, Niemeyer, 457-487. TLIO = Tesoro della Lingua Italiana delle Origini, http: / / tlio.ovi.cnr.it (28.08.2022). Tittel, Sabine/ Chiarcos, Christian (2018): “Historical Lexicography of old French and Linked Open Data: Transforming the resources of the Dictionnaire étymolo‐ gique de l’ancien français with OntoLex-Lemon”, in: Calzolari, Nicoletta/ Choukri, Khalid/ Cieri, Christopher/ Declerck, Thierry/ Hasida, Koiti/ Isahara, Hitoshi/ Mae‐ gaard, Bente/ Mariani, Joseph/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios/ Toku‐ naga, Takenobu/ Goggi, Sara/ Mazo, Hélène (eds.): Proceedings of the Eleventh Inter‐ national Conference on Language Resources and Evaluation (LREC 2018). GLOBALEX Workshop (GLOBALEX-2018), Miyazaki, Japan, 2018, Paris, European Language Re‐ sources Association (ELRA), 58-66. Tittel, Sabine/ Gillis-Webber, Frances/ Nannini, Alessandro Alfredo (2020): “Towards an ontology based on Hallig-Wartburg’s Begriffssystem for Historical Linguistic Linked Data” in: Ionov, Maxim/ McCrae, John P/ Chiarcos, Christian/ Declerck, Thierry/ Bosque-Gil, Julia/ Gracia, Jorge (eds.): Proceedings of the 7th Workshop on Linked Data in Linguistics (LDL-2020), Marseille, ELRA - European Language Resources Association (ELRA), 1-10. Ulmann, Stephen (1962): Semantics. An Introduction to the Science of Meaning, Oxford, Basil Blackwell. VerbaAlpina-=-Krefeld, Thomas/ Lücke, Stephan (eds.) (2014‒): VerbaAlpina. Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit, München, http: / / dx.doi.org/ 10.5282/ v erba-alpina (28.08.2022). Wotherspoon, Irené (2010): “The Making of The Historical Thesaurus of the Oxford English Dictionary”, in: Adams, Michal (ed.): Cunning passages, contrived corridors. Unexpected Essays in the History of Lexicography, Monza, Polimetrica, 255-270. La mappatura semantica del Lessico Etimologico Italiano (LEI) 145 <?page no="147"?> Korpuslinguistik <?page no="149"?> Kulturerbe, historische Linguistik und Semantic Web Eine Einführung mit Fallbeispiel zu französischen linguistischen Ressourcen Sabine Tittel Abstract The significance of researching cultural heritage is a recognized fact. This results in many efforts to generate knowledge about cultural heritage and to make it digitally and publicly accessible. Historical linguistic resources preserve a plethora of historico-cultural knowledge in that they capture written evidence of all aspects of historical life. To model and publish historical linguistic resources following the Linked Open Data (LOD) pa‐ radigm of the Semantic Web is a way of making this knowledge accessible. The LOD approach produces an access that far exceeds present search functions of the World Wide Web and their deficits. This paper is addressed to an audience with a background of (historical) linguistics rather than Semantic Web Technologies. Thus, we first give a short introduction to LOD, describing the syntactic structure of the data format Resource Description Framework, explaining the principles of semantic mapping to ontologies, and showing the possibilities of querying the data. With a use case of data taken from Old French, Middle French, and modern regional French dictionaries, we then illustrate how to model historical linguistic data using the OntoLex-Lemon-Model. A query example demonstrates the usability of the outcoming data. Keywords: historical linguistics, lexicography, Old French, Semantic Web, Linked Data, Linguistic Linked Open Data, ontology Keywords: Historische Linguistik, Lexikographie, Altfranzösisch, Se‐ mantic Web, Linked Data, Linguistic Linked Open Data, Ontologie <?page no="150"?> 1 Einleitung Die wissenschaftliche Erschließung und die Bewahrung des kulturellen Erbes sind von großer Bedeutung für unsere Gesellschaft. Die Anerkennung dieser Tatsache führt zu vielen Anstrengungen, neues Wissen über unser Kulturerbe zu generieren und es öffentlich zugänglich zu machen, klassisch analog und zunehmend über digitale Kanäle. Auch die Verbesserung der Zugriffsmethoden und die technische Innovation, die die Erhebung und die (Retro-)Digitalisie‐ rung von Forschungsergebnissen, ihre Langzeitsicherung und ihre Verbreitung unterstützen, gehören mittlerweile zum Selbstverständnis wissenschaftlicher Institutionen (cf. Hanns Hatt in Union der deutschen Akademien der Wissen‐ schaften 2018, 1, 5 und 8; Vannini/ Le Crosnier 2012, 17). Eine der wichtigsten Quellen für die Erschließung unseres kulturellen Gedächtnisses sind die schrift‐ lichen Zeugnisse des Lebens in historischen Zeiten. Linguistische Ressourcen speichern in der Sprache, ihren Wörtern und Bedeutungen, eine Fülle an Infor‐ mationen über alle Aspekte des Lebens und spiegeln die kulturelle Entwicklung: „Die Sprache ist das Haus des Seins“ (Heidegger 1949, 5). Der vorliegende Beitrag hat die Verarbeitung von (historischen) linguisti‐ schen Ressourcen mit Technologien des Semantic Web zum Thema. Er richtet sich vornehmlich an ein Publikum aus dem Bereich der (historischen) Linguistik, mit keinen oder wenig Kenntnissen aus dem des Semantic Web. Sein Ziel ist es, anhand von Theorie und Praxis eine Einführung in die Möglichkeiten von Formaten und Technologien des Semantic Web für das Erschließen und Teilen wissenschaftlicher Daten zu geben. Nach einer kurzen Erläuterung des Kontexts der Erforschung des kulturellen Erbes (↑2), gehen wir auf die Rolle von linguistischen Ressourcen als kulturellen Wissensspeichern ein (↑2.1) und machen die Defizite des Zugriffs auf diese Ressourcen als Datensilos des World Wide Web deutlich (↑2.2). Wir formulieren die daraus folgenden Desiderata: die Implementierung eines Datenzugriffs, der über die Grenzen der Datensilos hinaus funktioniert und der auf die Semantik der Daten fokussiert (↑2.3). Wir stellen anschließend eine Möglichkeit für diesen Datenzugriff vor, die von den Formaten und Technologien des Semantic Web bereitgestellt wird (↑3). Dabei gehen wir auf das Paradigma von Linked Open Data (LOD, ↑3.1), auf die Syntax (↑3.2) und die Semantik (↑3.3) von LOD-Datensätzen ein und zeigen die Möglichkeiten für deren Zugriff (↑3.4). Ein Fallbeispiel mit historischen französischen Sprachdaten zu Flöten und Pfeifen demonstriert das Modellieren von linguistischen Daten als LOD (↑4) und den damit bereiteten Weg des lexikalisch-semantischen Zugriffs auf die modellierten Daten. Eine Ergebnisin‐ terpretation und ein Fazit schließen die Ausführungen ab (↑5). 150 Sabine Tittel <?page no="151"?> 1 Forschungsprojekte in dem Bereich sind z. B. Corpus Vitrearum Medii Aevi (CVMA) mit Daten zu mittelalterlichen Glasfenstern (https: / / corpusvitrearum.de), Deutsche Inschriften des Mittelalters und der Neuzeit (http: / / www.inschriften.net), Epigraphische Datenbank römischer Inschriften (EDH, https: / / www.hadw-bw.de/ edh.html), Corpus der barocken Deckenmalerei in Deutschland (CbDD, https: / / www.akademienunion.de/ filea dmin/ redaktion/ user_upload/ Publikationen/ Sonderpublikation_Onlineversion_2-Aufl age-fuer-website.pdf) (07.05.2020) und viele mehr. 2 Aus Sicht der digitalen Sprachverarbeitung lässt sich eine linguistische Ressource defi‐ nieren als: „a body of electronic language data used to support research and applications in the area of natural language processing“ (Lezcano/ Sánchez-Alonso/ Roa-Valverde 2013, 264, nach Nancy Ide und Laurent Romary). Dazu gehören ein- und mehrsprachige Wortlisten, Wörterbücher, Korpora, Grammatiken etc. 3 Stand: 07.05.2020, cf. https: / / alma.hadw-bw.de/ deafbibl/ . 2 Kontext: Die Erforschung des Kulturerbes mithilfe von linguistischen Ressourcen Es gibt viele Arten von Kulturerbe, die Licht auf die Wurzeln der (europäischen) Moderne und die Entwicklung der (europäischen) Identität werfen: Sie sind Teil des materiellen oder des immateriellen Kulturguts. Beim materiellen Kulturgut denken wir an Bauwerke, Alltags- und Ritualgegenstände, Bilder und Gemälde auf verschiedenen Materialien von Stein über Glas bis Pergament und Papier und vieles andere. 1 Die (historische) Linguistik kommt ins Spiel, wenn wir an das immaterielle Kulturgut denken, das uns nicht nur, aber insbesondere in Form von Texten vor allem auf Pergament und Papier überliefert ist. Die Menge der (historischen) linguistischen Ressourcen, also Ressourcen mit Sprachdaten im weitesten Sinne, 2 die uns schriftliche Nachweise für das Verständnis unseres kulturellen und historischen Erbes im Allgemeinen und unserer wissenschaft‐ lichen, rechtlichen und intellektuellen Tradition im Besonderen liefern, ist enorm, das ist bekannt. Allein für die Sprachdaten in altfranzösischer Sprache verzeichnet das Bibliographische Beiheft (DEAFBiblél) zum Dictionnaire étymo‐ logique de l’ancien français (DEAF) rund 3.000 Primärtexte, die uns in über 10.000 Handschriften überliefert sind. 3 Viele weitere Handschriften liegen darüber hinaus noch ungesehen oder unbearbeitet in Bibliotheken und Archiven. Mit der Erforschung und Greifbarmachung der Sprachdaten dieser schriftli‐ chen Zeugnisse erkennen, teilen und verbreiten wir ein Wissen, das unsere Diskussionsgrundlage über die vergangenen und die modernen Kulturen sowie die intra- und interkulturellen Interaktionen der Menschen der verschiedenen Zeiten zu erweitern vermag: Languages are essential components of individual and common human heritage. They are the first and foremost vehicle for expressing identity, communicating ideas, Kulturerbe, historische Linguistik und Semantic Web 151 <?page no="152"?> 4 https: / / www.hadw-bw.de/ forschung/ forschungsstelle/ goethe-woerterbuch (07.05.2020). 5 https: / / leibnizedition.de (07.05.2020). 6 https: / / www.hadw-bw.de/ forschung/ forschungsstelle/ melanchthon-briefwechsel-mb w (07.05.2020). 7 https: / / www.hadw-bw.de/ forschung/ forschungsstelle/ kloester-im-hochmittelalter (07.05.2020). 8 https: / / www.hadw-bw.de/ alma (02.09.2022). 9 https: / / www.thesaurus.badw.de (07.05.2020). 10 http: / / www.adwmainz.de/ projekte/ lessico-etimologico-italiano/ informationen.html (07.05.2020). attaining educational, economic and political autonomy, and promoting peace and sustainable human development. Languages are important for sharing information and knowledge and for transmitting unique cultural wisdom, including across gene‐ rations and nations. They form an intrinsic part of the identity of individuals and people, and they are of vital importance to manage the cultural diversity of our world. They open opportunities for dialogue, cooperation and mutual understanding. (Vannini/ Le Crosnier 2012, 13) Es ist charakteristisch für die Menschheit, dass wir versuchen, uns in der Gegenwart zu orientieren und unseren zukünftigen Handlungen einen Rahmen zu geben, indem wir auf die Vergangenheit zurückgreifen. Heinrich Schipperges (1985, 335) schreibt: „Aus der Transparenz der Vergangenheit erst gestalten sich die Konturen der Zukunft.“ Und unter der Leitlinie „Zukunft braucht Herkunft“ setzen die deutschen Akademien der Wissenschaften auf ein Erkennen und Bewahren der kulturellen Wurzeln unserer Gesellschaft (cf. Hanns Hatt in Union der deutschen Akademien der Wissenschaften 2018, 5). Daher muss es ein Hauptanliegen der historischen Linguistik sein, nicht nur fortwährend neue Erkenntnisse zu erarbeiten, sondern auch einen besseren Zugang zu den linguistischen Ressourcen zu ermöglichen, die eine Fülle von Informationen über unser kulturelles Erbe und über die historischen Hintergründe unseres soziokulturellen Wesens enthalten (cf. Cimiano/ Chi‐ arcos/ McCrae/ Gracia 2020, 3). Umfangreiche Forschungsvorhaben machen zu diesem Zweck etwa die Sprache Goethes (Goethe-Wörterbuch), 4 den Nachlass Gottfried Wilhelm Leibniz’ (Leibniz-Edition), 5 den Schriftwechsel Melanchtons (Melanchton-Briefwechsel) 6 und das Leben in den Klöstern des Hochmittelalters (Klöster im Hochmittelalter) 7 zugänglich oder untersuchen den Ausbau der europäischen Vernakularsprachen zu Wissens- und Wissenschaftssprachen (Wissensnetze in der mittelalterlichen Romania). 8 Und Großprojekte der histori‐ schen Lexikographie wie der Thesaurus linguae Latinae, 9 das Altfranzösische Wörterbuch DEAF, der Lessico Etimologico Italiano (LEI) 10 und viele mehr erar‐ 152 Sabine Tittel <?page no="153"?> 11 Cf. T R U S I L L O N m., DEAFpré, https: / / deaf.ub.uni-heidelberg.de/ lemme/ trusillon (07.05.2020). 12 Die „Verbindung eines Zeichenausdrucks (einem signifiant) mit genau einer Bedeutung einer Lexie“ (Blank 2001, 12). Eine Lexie verstehen wir mit Blank als die Bezeichnung einer autosemantischen Einheit, die morphologisch einfach (Lexem), ein Wortbildungs‐ produkt oder eine Mehrwortverbindung sein kann (cf. Blank 2001, 6). beiten die Werkzeuge, die für das Verständnis der historischen linguistischen Ressourcen nötig sind. - 2.1 Linguistische Ressourcen speichern Wissen über unser Kulturerbe Historische Texten sind das wichtigste Medium für das Verständnis vergangener Zeiten. Für das Mittelalter zum Beispiel umfassen diese Texte Schöngeistiges wie Romane und epische Dichtungen, Hagiographien, Chroniken, technische Fachtexte zu den Artes Liberales, der Medizin, Rechtstexte und juristische Dokumente, Leitfäden für Mutterschaft, Kindererziehung, Hygiene, religiöses Verhalten, Kochrezepte und vieles mehr. Die Texte speichern wertvolle Infor‐ mationen, denn sie machen das mittelalterliche Leben in all seinen Facetten erfahrbar. Über die Texte und die in ihnen verschriftlichte Sprache können wir näherungsweise verstehen, wie die Menschen dieser Epoche gedacht und die Welt gesehen haben, was sie konstruiert haben, wie sie ihr tägliches und ihr spirituelles Leben gestaltet haben, was sie gegessen haben etc. Und die Texte beschreiben auch ganz Konkretes, das, was wir heute auch als das oben genannte materielle Kulturgut aus der Erde graben: Teile der Rüstungen eines Ritters, Waffen und Ähnliches (z. B. altfranzösische (afr.) gripillon m. ‘fer servant à en‐ chaîner un prisonnier’, s. v. G R I F E R / G R I P E R v., DEAF G 1394,24; anglonormannisch (agn.) flaguler m. ‘instrument fait d’une ou des plusieurs cordes ou de lanières de cuir attachées à un manche servant à punir qn, fouet’, s. v. F LA G E L E R v. tr., DEAF F 544,32), Werkzeuge für die Bearbeitung der Scholle (z. B. afr. faucille f. ‘instrument formé d’une étroite lame d’acier lisse ou dentelée, courbée en demi-cercle, montée sur une poignée et qui sert à couper l’herbe, les céréales, etc.’, DEAF F 171,51; afr. flaele f. ‘instrument servant à battre les céréales, formé d’un manche et d’un battoir reliés entre eux par des courroies’, s. v. F LA E L E R v., DEAF F 540,14) oder zum Striegeln der Pferde (z. B. trusillon m. ‘instrument qui porte des rangées de petites lames dentelées disposées parallèlement sur une plaque, avec lequel on nettoie la robe de certains animaux (cheval, mulet, etc.),-étrille’ 11 ). Die wesentlichen Elemente der Texte sind die lexikalischen Einheiten, also die darin verwendeten Wörter (Lexien) mit ihren Bedeutungen. 12 Wörter sind das Instrument, mit dessen Hilfe der Mensch die Welt zur Sprache bringt. Die Kulturerbe, historische Linguistik und Semantic Web 153 <?page no="154"?> 13 Zu Semasiologie - Onomasiologie, cf. e.-g. Thomas 1904, 289; Schafroth 2014, 111. Erforschung der Wörter, ihrer Bedeutungen und der Regeln ihrer Verwendung wird damit zu einer Schlüsseldisziplin für die Erhellung des kulturellen Erbes. - 2.2 Problem des Zugriffs: Datensilos Die Einzeldisziplinen der Philologie und der Linguistik haben bereits ein enormes Wissen anhand der Textzeugnisse erarbeitet und in einer Vielzahl von modernen linguistischen Ressourcen beschrieben: in Texteditionen von Primärtexten, umfassenden Textkorpora, Sprachatlanten, semasiologisch (von der Bezeichnung einer Sache ausgehend) und onomasiologisch (von der bezeich‐ neten Sache ausgehend) 13 angelegten, lexikologischen Einzeluntersuchungen und in semasiologischen und onomasiologischen Wörterbüchern. In den letzten zwei Jahrzehnten haben sich viele Texteditionen, Wörterbücher und andere Res‐ sourcen von gedruckten Büchern per Retrodigitalisierung und Konvertierung in neue Datenformate zu vielseitigen digitalen Publikationen im World Wide Web (WWW) gewandelt. Und auch die Zahl der linguistischen Ressourcen, die genuin digital erarbeitet und online veröffentlicht werden, wird immer größer. Bei der Datenveröffentlichung im WWW entsteht jedoch das Problem der Da‐ tensilos: Das Wissen, das in den online publizierten linguistischen Ressourcen gespeichert ist, ist inhomogen - das liegt in der Natur der Sache -, fragmentiert und verstreut über das WWW. Jede Ressource verwendet ihre eigene Darstel‐ lung, Datenbank, Datenformat, Website, Zugriffsmethoden und Lesemöglich‐ keiten. Dies macht es sehr schwierig, die Ressourcen gemeinsam abzufragen und sie über das hinaus zu nutzen, was von den Erstellern der Ressourcen ursprünglich vorgesehen war und folglich implementiert ist. Die Publikationen im WWW sind das, wofür Tim Berners-Lee, der Erfinder von HTML, Begründer des WWW und Wegbereiter des Semantic Web, den Begriff des Datensilos geprägt hat: Die Daten in Datensilos sind zwar im WWW zugänglich, aber sie besitzen proprietäre Formate (etwa individuell strukturiertes HTML, das keinem Standard entspricht) und einen davon abhängigen, beschränkten Zugang (cf. McCrae/ Montiel-Ponsoda/ Cimiano 2012, 25). Die Abb. 1 und 2 demonstrieren das Datensilo-Problem mit den individuellen Lese- und Recherchefunktionen zweier historischer Wörterbücher: Französi‐ sches Etymologisches Wörterbuch (FEW) und DEAF. Wir sehen den Webauftritt des FEW mit der Möglichkeit, Band und Seite aufzurufen und die im Indexband (cf. FEW, Index) erfassten Wörter zu suchen, und den des DEAF mit tiefer gehenden Recherchemöglichkeiten, die nichtsdestoweniger eine auf den DEAF zugeschnittene Insellösung und damit proprietär sind. 154 Sabine Tittel <?page no="155"?> Abb. 1: Eine von der Onlineversion des FEW angebotene Suchbzw. Lesefunktion, cf. https: / / apps.atilf.fr/ lecteurFEW/ index.php? r=page/ view (30.04.2020). Kulturerbe, historische Linguistik und Semantic Web 155 <?page no="156"?> 14 Im Kontext von WWW-Publikationen bezeichnet ein Portal eine Webseite, die die Re‐ cherche über mehrere Quellen (einer bestimmten Disziplin oder eines Inhaltsbereichs) hinweg ermöglicht; ein Wörterbuchportal grenzt die Quellen auf Onlinewörterbücher ein; ein enzyklopädisches Portal verhält sich zum Wörterbuchportal wie eine Enzyklo‐ pädie zum Wörterbuch, und ein lexikologisches Portal enthält vorrangig Textkorpora (cf. Engelberg/ Müller-Spitzer 2013 zu einem Versuch der Typologisierung; detailreicher in Klosa/ Müller-Spitzer 2016, 46-54). Die Bezeichnung ‚Plattform‘ wird in der Literatur oft synonym zu ‚Portal‘ verwendet, meist mit Schwerpunkt auf Technologien. Abb. 2: Die von DEAFél angebotenen Suchbzw. Lesefunktionen, cf. https: / / deaf.ub.uni -heidelberg.de (11.10.2023). 2.2.1 Portale und Plattformen im WWW für die Auflösung von Datensilos? Neben eigenständigen Publikationen gibt es Wörterbuchportale, enzyklopädi‐ sche und lexikologische Portale, linguistische Rechercheplattformen und Hy‐ bride aller Arten. 14 Sie versuchen, die Mängel der Zugreifbarkeit von Daten in Datensilos über das Mittel der Ressourcenintegration zu beheben: Ihr Ziel ist die Beantwortung von Datenanfragen auch über mehrere Quellen hinweg. Dazu überführen sie entweder mehrere Ressourcen in ein gemeinsames Zielformat und versammeln sie an einer zentralen Stelle (das ist, je nach den zu integrie‐ renden Formaten, vergleichsweise kompliziert) oder sie versammeln lediglich die Verknüpfungen mit mehreren Ressourcen an einer zentralen Stelle (das ist 156 Sabine Tittel <?page no="157"?> 15 http: / / www.woerterbuchnetz.de (30.04.2020). 16 http: / / www.lexilogos.com (09.08.2019). 17 https: / / www.cnrtl.fr/ definition (09.08.2019). unter Umständen einfacher). Ein Beispiel für die erste Vorgehensweise ist das Wörterbuchnetz des Trierer Kompetenzzentrums für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften/ Trier Center for Digital Humanities mit zur Zeit 30 integrierten Wörterbüchern zum Deutschen (v. a. historische Sprachzustände und regionale Varietäten) und zwei zum Mittella‐ teinischen. 15 Zwei in der französischen Philologie bekannte Beispiele gehen den zweiten Weg und operieren mit Zeigern auf die weiterhin im WWW ver‐ teilten Datensätze: (i) lexilogos, 16 das sehr viele verschiedene lexikographische Ressourcen zahlreicher Sprachen dezentral (und zum Teil zentral) verwaltet und viele Links auf weitere Ressourcen gibt, und (ii) Centre National de Ressources Textuelles et Lexicales (CNRTL 17 ) mit den Wörterbuchressourcen Trésor de la Langue Française informatisé (TLFi), Dictionnaire du moyen français (DMF), Le Dictionnaire de l’Académie Françoise/ Française ( 4 1762, 8 1932-1935 und 9 1986-) und zwei weiteren Quellen. Allerdings weisen viele Portale und Plattformen Defizite auf, die die Re‐ cherche für den Nutzer einschränken oder mühsam machen, und auf die wir im Folgenden eingehen. 2.2.2 Defizite der Portale und Plattformen Der Fokus vieler Portale und Plattformen liegt auf Ressourcen moderner Sprachstufen und vernachlässigt die diachrone Sprachbetrachtung. Viele kon‐ zentrieren sich auf nur eine Sprache, was problematisch ist, denn die Wirklich‐ keit vieler Gesellschaften war durch die Zeiten hindurch selten monolingual, und das Zusammenspiel der verschiedenen Sprachen war ein wichtiger Faktor in der Herausbildung der Kulturen. Und schließlich sind die Recherchefunktionen in vielen Fällen für jede der Ressourcen, die über das Portal erreichbar sind, einzeln auszuführen. Das größte Defizit aber - und dies trifft nicht nur auf Portale und Plattformen, sondern auch auf eigenständige Publikationen zu - ist, dass die Suchfunktionen wortbasiert sind. Das bedeutet, sie zielen auf die Schreibformen der Wörter in Texten, auf die Zitierformen in Wörterbüchern, auf die Lemmata in Wörterbü‐ chern historischer Sprachstufen, die keine Schreibnorm aufweisen, und - im besten Falle - darüber hinaus auf die distinkten graphischen Realisierungen (Graphievarianten) eines Wortes in einer alten Sprachstufe. Ein Beispiel für ein Onlinewörterbuch, dass Graphievarianten in seine Suchfunktionen integriert, ist der DMF: Im Hintergrund der Suche nach einer Zeichenkette, die ein (dem Kulturerbe, historische Linguistik und Semantic Web 157 <?page no="158"?> 18 Diese Suchfunktion inkludiert nicht die nur als PDFs der Druckversion erhältlichen Artikel der Buchstaben G-K. 19 In der Regel phrastisch (nach dem aristotelisch-scholastischen Prinzip Genus proximum et differentia specifica, cf. Hausmann / Reichmann/ Wiegand/ Zgusta 1989, 564b-550b) im Fall von DEAFplus, aber oft auch als neufranzösische Pseudosuffixe im Fall von DEAFpré. 20 Cf. brenois adj. s. v. B R E N , DEAFpré, https: / / deaf.ub.uni-heidelberg.de/ lemme/ bren#bre nois (11.10.2023). Nutzer nicht bekanntes) Lexem im Mittelfranzösischen repräsentiert, läuft ein Werkzeug, dass mögliche Lemmata zu der gesuchten Zeichenkette errechnet und diese als Ergebnisse ausliefert (cf. Souvay 2007). Aber mit oder ohne Lemmatisierungshilfe reicht eine wortbasierte Suche für eine Recherche zu Wörtern und ihren Bedeutungen nicht zwangsläufig aus. Wir nehmen einmal an, wir möchten die Entwicklung von Musikinstrumenten recherchieren und zu diesem Zweck die relevanten historischen linguistischen Ressourcen auswerten. Konkret, es gehe uns um flöten- und pfeifenartige Instrumente. Wir lernen schnell, dass die Recherche mühsam ist: Welche Schreibformen sind in welcher Sprache, welcher Sprachstufe, in welcher Quelle zu suchen? Wie sind die Stellen in den Quellen zu finden, wo sind Flöten und Pfeifen beschrieben oder abgebildet? Es wird klar, dass wir eine Zugriffs‐ möglichkeit benötigen, die nicht (nur) auf die Wörter, sondern (auch) auf die Bedeutung der Wörter fokussiert: Wir suchen nicht nur nach < Flöte > und < Pfeife >, sondern nach der ‚Flöte‘ und der ‚Pfeife‘. Die Funktionen der Recherche avancée des DEAF etwa gehen zwar über die wortbasierte Suche (nach Lemmata und Graphievarianten) hinaus, indem sie die Möglichkeiten bereitstellen, die Bedeutungsdefinitionen nach Zeichenketten zu filtern. 18 Beispielsweise generiert die Suche nach der Frau, < femme >, eine Liste von 493 Definitionen, die diese Zeichenkette enthalten. Die Recherchefunktion ermöglicht es allerdings nur eingeschränkt, onomasiologische Fragestellungen an die Daten des DEAF heranzutragen: Sie basiert nicht auf einer außersprach‐ lichen Ordnung der Dinge im Sinne einer Ontologie (cf. dazu im Folgenden), sondern auf den Zeichenketten der (französischen) Bedeutungsdefinitionen. Die Qualität der Treffer ist damit direkt abhängig von der Art und Weise der Definitionsformulierung, 19 von Tippfehlern oder Homonymen, die falsche Treffer produzieren. Die Suche nach der Frau führt zum Beispiel auch zum Mann: afr. brenois adj. substantivé ‘mari dont la femme est infidèle’. 20 - 2.3 Desiderata Wir identifizieren also ein vielschichtiges Problem beim Zugriff auf die Infor‐ mationen in linguistischen Ressourcen: 158 Sabine Tittel <?page no="159"?> 21 In der Informatik und insbesondere im Bereich des SW ist die Semantik als der explizite Ausdruck von Beziehungen von Daten untereinander zu verstehen; dadurch werden Daten Informationen zu ihrem Inhalt zugewiesen (cf. Hitzler/ Krötzsch/ Rudolph/ Sure 2008, 13). Die Verknüpfung der Zeichenkette < Thomas Mann > mit der Information < ist ein > sowie < Mensch > oder < Autor > ist eine semantische Datenauszeichnung in diesem Sinne. • Wie können die heterogenen Daten der Ressourcen in einer Art und Weise zugreifbar und recherchierbar gemacht werden, die die Beschränkungen der Datensilos überwinden und die Defizite der üblichen Onlinepublikationen auflösen kann? • Und wie kann dabei ein onomasiologisch-semantischer Zugriff auf diese Informationen etabliert werden, der von den Inhalten der lexikalischen Einheiten ausgeht und der nicht von arbiträren Bedeutungsdefinitionen (in einer natürlichen Sprache) abhängt? Daraus ergeben sich die folgenden Desiderata: Es muss ein Zugriff auf die Daten erzeugt werden, der über Ressourcen, Sprachen, historische Sprachstufen und thematische Ausrichtungen der Quellen hinweg funktioniert und der auch die lexikalische Semantik berücksichtigt. Denn es ist diese Art von inte‐ griertem Zugriff, die nötig ist, um die Entwicklungen unserer multikulturellen, vielsprachigen Gesellschaft besser beleuchten zu können und Zusammenhänge zu erkennen. Bouda/ Cysouw (2012, 15) schreiben, dass das digitale Arbeitspa‐ radigma viele neue Herangehensweisen erlaube: „many new approaches to the quantitative comparison of languages, be it for a better understanding of cross-linguistic variation in grammatical structure or for new and improved historical-comparative reconstructions.“ Eine solche Herangehensweise liefern das Semantic Web und insbesondere die Initiative von Linked Open Data (LOD), die wirksame Lösungen für das beschriebene Problem bieten. 3 Semantic Web Die beschriebenen Defizite des Datenzugriffs im WWW können von Technolo‐ gien des Semantic Web (SW) überwunden werden. Das SW verfolgt das Ziel, die prinzipiell unstrukturierten Informationen des WWW so mit inhaltlichen Mar‐ kierungen zu versehen, dass sie maschinenlesbar und semantisch, d. h. bezogen auf den Inhalt der Daten, interpretierbar werden (cf. Berner-Lee/ Hendler/ Lassila 2001). 21 Die Informationspräsentation des WWW ist prinzipiell auf den Menschen ausgerichtet. Der Mensch ist in der Lage, die verschiedenen Formate (Gra‐ fiken, PDFs, Texte etc.), Inhalte und Gegenstandsbereiche korrekt zu interpre‐ Kulturerbe, historische Linguistik und Semantic Web 159 <?page no="160"?> 22 https: / / www.wikipedia.de/ wiki/ Turtle (08.05.2020). 23 https: / / en.wikipedia.org/ wiki/ Turtle (08.05.2020). 24 So das Suchergebnis am 02.05.2020 auf Google. 25 Die Idee, die Inhalte des Internets semantisch so zu annotieren, dass sie über Suchfunk‐ tionen intelligenter erreichbar wären, stammt aus der Mitte der 1990er Jahren. Für eine tieren. Die Maschine kann dies so ohne Weiteres nicht (cf. Hitzler/ Krötzsch/ Rudolph/ Sure 2008, 10). Infolgedessen generiert die Stichwortsuche über eine übliche Suchmaschine zahlreiche, aber unstrukturierte Treffer, die häufig nicht relevant im Sinne der Suche sind. Ein Beispiel: Wenn auf einer Semantic-Web-Konferenz das Wort ‚Turtle‘ fällt, wird in diesem Rahmen klar sein, dass die Rede von einer Sprache ist, mit der RDF-Graphen als lineare Zeichenketten ausgedrückt werden können (wir kommen darauf zurück). Wenn wir die Zeichenkette < turtle > in eine gängige Suchmaschine des WWW eingeben, erhalten wir aber den Link zu den Einträgen der deutschen Wikipedia für den Begriff ‚Turtle‘ (d. h. ein U-Boot von 1776, eines von 1968, ein Fels in der Antarktis etc.), 22 den Link auf die englische Wikipedia mit dem Eintrag zu den Reptilien der Ordnung ‚Schildkröte‘, 23 Bilder von Meeres- und Landschildkröten und vieles mehr. 24 Nach einer Weile des Scrollens erst gelangen wir auch zu Treffern, die auf wissenschaftsrelevante Seiten ver‐ weisen und zu Informationen über die Terse RDF Triple Language - Turtle führen. Die fehlende Spezifik der Ergebnisse liegt daran, dass die zugrunde liegenden Suchalgorithmen nicht wissen können, was der Mensch meint, wenn er ‚Turtle‘ sagt (oder tippt). Ein Verständnis der Semantik der Zeichenkette < turtle > ist im WWW nicht prinzipiell gegeben (cf. Busse/ Humm/ Lubbert/ Moelter/ Reibold/ Rewald/ Schlüter/ Seiler/ Tegtmeier/ Zeh 2014, 2). Die Zeichenkette < turtle >, die die Semantic-Web-Sprache repräsentiert, benötigt also genau diese inhaltliche Information: die des Bezeichnens dieser Sprache. Und diese Information muss in den Datensätzen so vorliegen, dass die Maschine sie versteht, in der Art von < turtle > < ist eine > < Sprache des Semantic Web > und < ist ein Akronym für > "Terse RDF Triple Language". Eine solche semantische Annotation der Daten ist der Ansatz des Semantic Web. Dabei ist ‚verstehen‘ so zu verstehen, dass die Bedeutung einer Zeichenkette interpretiert werden kann, was der Maschine erlaubt, automatisch Schlussfolgerungen zu ziehen und die Daten auch für nicht antizipierte Zwecke wieder- und weiterzuverwenden. Dazu werden Daten mithilfe von etablierten Standards der Datenauszeichnung mit Struktur (Syntax) und Bedeutung (Semantik) versehen und damit als Semantic Data maschinenlesbar und -interpretierbar (cf. Domingue/ Fensel/ Hendler 2011, 13-14). 25 160 Sabine Tittel <?page no="161"?> kurze Geschichte des SW, cf. die Zusammenfassung in Domingue/ Fensel/ Hendler 2011, 26-28. 26 https: / / www.w3.org (02.05.2020). Das World Wide Web Consortium (W3C) 26 pflegt solche Standards der im SW zu verwendenden Sprachen und Formate. Mithilfe der Standards wird ein Zugriff auf Informationen und Wissen geschaffen, der unabhängig von den Datenformaten des WWW und von den Informationsstrukturen und Publikati‐ onssprachen der WWW-Publikationen ist. Aus dem Blick der Philologie und der Linguistik eröffnen die Formate und Technologien des SW mächtige Ver‐ fahren für vergleichende, transdisziplinäre und translinguale, synchrone und diachrone Untersuchungen, die weit über den Rahmen einzelner Publikationen linguistischer Ressourcen und ihrer Recherchemöglichkeiten hinausgehen. Sie überwinden die Grenzen der Datensilos des WWW. - 3.1 Linked Open Data Das Paradigma von Linked Data (LD) ist in den letzten zehn Jahren zu einem der wichtigsten Eckpfeiler des SW geworden. Es umfasst eine Gruppe von Standardmethoden, mit Hilfe derer Daten strukturiert, publiziert und der Art mit semantischen Informationen versehen werden, dass sie mit anderen Daten verknüpft und gemeinsam angefragt werden können. Zu den Methoden ge‐ hören das Graphdatenformat Resource Description Framework (RDF) für die Modellierung der Daten, der Einsatz von Ontologien für die Abbildung von Wissensstrukturen und das Verwenden von URIs (Uniform Resource Identifier) als eindeutige Identifizierungen für die Daten. Man spricht von Linked Open Data (LOD), wenn explizit ausgedrückt wird, dass die Daten im Open Access vorliegen (cf. Bizer/ Heath/ Berners-Lee 2009). Tim Berners-Lee (http: / / www.w3.org/ DesignIssues/ LinkedData.html [10.09.2019]) formulierte für LOD vier Grundprinzipien: 1. Use URIs as names for things 2. Use HTTP URIs so that people can look up those names. 3. When someone looks up a URI, provide useful information, using the standards (RDF*, SPARQL) 4. Include links to other URIs. so that they can discover more things. 2010 fügte Berners-Lee (http: / / www.w3.org/ DesignIssues/ LinkedData.html [10.09.2019]) ein Fünfsternesystem für die Qualitätsbeurteilung der Daten hinzu: „in order to encourage people - especially government data owners […] you get more stars as you make it progressively more powerful, easier for people to use“: Kulturerbe, historische Linguistik und Semantic Web 161 <?page no="162"?> 27 Mit den genannten Prinzipien und Kriterien erfüllt das Paradigma von LOD ideal die FAIR Data principles (Findable, Accessible, Interoperable, and Re-usable) für nachhaltig nachnutzbare Forschungsdaten (cf. https: / / www.forschungsdaten.org/ index.php/ FAIR _data_principles [07.05.2020]; Cimiano/ Chiarcos/ McCrae/ Gracia 2020, 4-7). 28 Die LOD-Cloud enthält 1.239 Datensätze mit insgesamt 16.147 Links (cf. http: / / lod-clo ud.net [03.05.2020]). 5. Die Daten sind frei zugänglich (mit offener Lizenz) im Internet bereitge‐ stellt (z.-B. eine Bilddatei im PNG-Format). 6. Die Daten stehen in einem strukturierten, maschinenlesbaren Format bereit (z.-B. eine Tabelle im Excel-Format, nicht als Bilddatei). 7. Die Daten stehen in einem Open-Source-Format, nicht in einem proprie‐ tären Format bereit (z.-B. CSV statt Excel). 8. Die Daten sind mit Standards des W3C verarbeitet und mit eindeutigen Internetadressen (URIs) versehen, sodass darauf verlinkt werden kann. 9. Die Daten sind mit anderen Daten verlinkt, z. B. über Standardvokabulare (http: / / www.w3.org/ DesignIssues/ LinkedData.html [10.09.2019]). 27 Diese Regeln schaffen die Basis für die Interoperabilität - die gemeinsame Nutzung der Daten - und für die Schaffung eines Datennetzes. Die Vorteile der Modellierung von Daten als LOD sind evident. Ermöglicht werden unter anderem: 1. die strukturelle Interoperabilität über ein einheitliches Datenmodell (RDF) für verschiedene Typen von Ressourcen (im linguistischen Forschungskon‐ text sind dies z. B. Wörterbücher, Texteditionen, Korpora etc.), das einer einheitlichen Syntax und Semantik folgt, 2. die konzeptuelle Interoperabilität über gemeinsam eingesetzte Standard‐ vokabulare, 3. die Ressourcenintegration über die Verknüpfung von Daten mehrerer Ressourcen und 4. der ressourcenübergreifende Zugriff auf die Daten mit der Anfragesprache SPARQL (cf. Chiarcos/ McCrae/ Cimiano/ Fellbaum 2013). LOD-Ressourcen umfassen mittlerweile Daten aus Geographie, Biologie, aus Bereichen der Regierung und der Administration, sozialen Netzwerken, Me‐ dien, Verlagswesen und Linguistik. Wir können eine enorme Zunahme der LOD-Kompatibilität besonders in den vergangenen zehn Jahren feststellen, was im Anstieg der Veröffentlichungszahlen von LOD-Ressourcen in der LOD-Cloud 28 deutlich ablesbar ist (cf. Abb. 3). 162 Sabine Tittel <?page no="163"?> 29 https: / / babelnet.org (03.05.2020). 30 https: / / www.w3.org/ TR/ wordnet-rdf (03.05.2020). 31 http: / / www.acoli.informatik.uni-frankfurt.de/ liodi.html (03.05.2020). Abb. 3: Anzahl der publizierten LOD-Datensets 2007-01/ 2017, aus Gandon/ Sabou/ Sack (2017, 2). Auch im Bereich der Sprachdaten hat die wachsende Popularität des LD-Paradigmas zu einer zunehmenden Anzahl von LD-Datensätzen geführt. Darunter sind z. B. Wörterbücher und lexikalische Datenbanken wie Ba‐ belNet 29 , WordNetRDF 30 , Linked Open Dictionaries (LiODi 31 ), Språkbanken zum Schwedischen (cf. Borin/ Dannells/ Forsberg/ McCrae 2014), Wörterbücher der Apertium-Familie (22 Sprachen, z. B. Okzitanisch, Baskisch, cf. Gracia/ Vil‐ legas/ Gómez-Pérez/ Bel 2017) und der Familie von KDictionaries (Spanisch, Deutsch, cf. Bosque-Gil/ Gracia/ Montiel-Ponsoda/ Aguado de Cea 2016), WBÖ (Österreichisch-Bayerisch, cf. Declerck/ Wandl-Vogt/ Mörth 2015). Die Abb. 4 zeigt die Linguistic Linked Open Data (LLOD) als Teilmenge der LOD-Cloud mit linguistischen Datensätzen. Kulturerbe, historische Linguistik und Semantic Web 163 <?page no="164"?> 32 http: / / mhdbdb.sbg.ac.at (03.05.2020). Abb. 4: LLOD Cloud, http: / / lod-cloud.net (03.05.2020). Gegenwärtige linguistische Anwendungen des LD-Paradigmas konzentrieren sich hauptsächlich auf die modernen Sprachen; historische linguistischen Res‐ sourcen sind in der LOD-Landschaft noch kaum vertreten. Ausnahmen sind z. B. Arbeiten zum altenglischen Vokabular der Gefühle (cf. Khan/ Díaz-Vera/ Monachini 2016), zur historischen Versdichtung (mit deutscher Lyrik der Min‐ nesänger, cf. González-Blanco/ del Rio/ Martínez Cantón 2016), zur Mittelhoch‐ deutsche Begriffsdatenbank 32 (cf. Hinkelmanns 2019), zu Linked Old Germanic 164 Sabine Tittel <?page no="165"?> 33 https: / / lod-cloud.net/ dataset/ germlex (03.05.2020). 34 Erste Arbeiten zum Lessico Etymologico Italiano (LEI) wurden auch vorgelegt, ↑Nannini, La mappatura semantica del “Lessico Etimologico Italiano” (LEI), in diesem Band. 35 https: / / www.lexinfo.net (06.05.2020). Dictionaries 33 (cf. Chiarcos/ Sukhareva 2014), zum Altfranzösischen (cf. Tittel/ Chiarcos 2018), Altokzitanischen (cf. Tittel/ Gillis-Webber/ Nannini 2020) und zum Dictionnaire des termes médico-botaniques de l’ancien occitan (DiTMAO, cf. Corradini 2014). 34 - 3.2 Syntax der Daten: Strukturelle Interoperabilität über das Format Resource Description Framework Das Standardformat von LD ist das Graphdatenformat RDF (cf. Cyganiak/ Wood/ Lanthaler 2014). RDF stellt Daten als gerichtete (Multi-)Graphen dar, in welchen eine Information < a > (genannt: Subjekt) über einen Richtungspfeil (Prädikat) auf eine Information < b > (Objekt) verweist. Je ein Subjekt, Prädikat und Objekt ergeben ein Tripel, die Grundstruktur von RDF. Subjekt und Prädikat werden jeweils durch eine URI bezeichnet und verweisen damit auf eindeutig identifizierbare Informationen im Netz; das Objekt kann als URI oder als Literal (d. h. Zahl, Zeichenkette [z. B. "Terse RDF Triple Language" im obigen Beispiel]) ausgedrückt werden, cf. Abb. 5. Abb. 5: RDF-Graph mit Subjekt (DEAFél fievre), Prädikat („partOfSpeech“ von LexInfo 35 ) und Objekt („Noun“ desselben Vokabulars). Mehrere Tripel setzen sich zusammen zu einem Multigraphen, der ein Netz aus Subjekten und Objekten und den sie verbindenden Prädikaten abbildet, siehe das Beispiel in Abb. 6. Kulturerbe, historische Linguistik und Semantic Web 165 <?page no="166"?> Abb. 6: Modellierung von Informationen zum DEAF in einem RDF-Graphen. Um die in den Graphen vernetzten Informationen für den Computer in Daten zu konvertieren, die er verarbeiten kann, werden sie serialisiert, d. h. in Text‐ zeilen umgewandelt. Für die Serialisierung von RDF-Graphen stehen mehrere Syntaxen zu Verfügung. Für die Serialisierung des Graphen in Abb. 6 verwenden wir Turtle (cf. Prud’hommeaux/ Carothers 2014). Das Ergebnis ist wie folgt: Abb. 7: Codebeispiel 1. Das gemeinsame Verwenden des RDF-Formats vereinheitlicht die Syntax der Daten. Sie ist die Bedingung für die oben genannte strukturelle Interoperabilität der LD-Datensätze. 166 Sabine Tittel <?page no="167"?> 36 Der Terminus ‚Ontologie‘ wurde erst im 17. Jahrhundert geprägt, man nimmt an, von Rudolf Gockel/ Rudolph Goclenius dem Älteren (1547-1628), cf. Lexicon philosophicum, Frankfurt 1613 (Nachdruck 1964) 16, A B S T R A C T I O . 37 Es gibt ein breites Spektrum an Ontologien und kontrollierten Vokabularen (Samm‐ lung von Begriffen und ihren Bezeichnern mit eindeutig definierten Beziehungen untereinander), das von Glossaren über Thesauri (z. B. eine Liste von Begriffen mit Synonym-Antonym-Relationen) zu Taxonomien (hierarchisches Klasse-Unter‐ klasse-System, z. B. die Systema naturae von Carl von Linné) und darüber hinaus bis zu sogenannten heavy-weight-Ontologien mit einem sehr hohen Grad an Formalisierung reichen (cf. Kühne 2016, 28-30; Grimm/ Abecker/ Völker/ Studer 2011, 522-525). 3.3 Semantik der Daten: Konzeptuelle Interoperabilität über den Einsatz von Ontologien Ontologien spielen für das Semantic Web eine Schlüsselrolle, denn der ge‐ meinsame Einsatz von Ontologien ermöglicht die oben genannte konzeptuelle Interoperabilität von LOD-Datensätzen, die auf der Semantik der Daten basiert. Der Begriff der Ontologie bezieht sich auf die Lehre vom Sein. Diese ist eine Disziplin der Philosophie, deren Ursprünge rund 2.500 Jahre zurückreichen und die, so die heutige Mehrheitsmeinung, maßgeblich von Aristoteles (384- 322 v. Chr.) als der „Versuch, Objekte der realen und der gedachten Welt in Kategorien zu unterteilen, sowie deren Eigenschaften und Abhängigkeiten zu analysieren“ (Stuckenschmidt 2009, 3) weiterentwickelt wurde: Sie untersucht, wie man das, was in der Welt existiert, in eine Systematik von Entitäten einteilt, d. h. Ereignisse, Menschen, Orte, Sachverhalte, konkrete Gegenstände und Abstrakta, ihre Eigenschaften usw. 36 Die Informatik verwendet den Begriff der Ontologie in Analogie zur philosophischen Lehre. Als Fachterminus der Informatik bezeichnet die Ontologie ein formales Repräsentationssystem, das das Wissen eines bestimmten Wissens- oder Gegenstandsbereichs in logischen, maschinenlesbaren Strukturen abbildet. Diese Strukturen besehen aus Entitäten (die die Begriffe repräsentieren) und den zwischen ihnen bestehenden Rela‐ tionen. 37 Damit macht die Ontologie dieses Wissen nutz- und teilbar. Das Se‐ mantic Web setzt Ontologien und kontrollierte Vokabulare ein, um den Daten in einer standardisierten, maschinenlesbaren Weise Bedeutung, also Semantik, zu‐ zuweisen (cf. Guarino/ Oberle/ Staab 2009; Grimm/ Abecker/ Völker/ Studer 2011; Busse/ Humm/ Lubbert/ Moelter/ Reibold/ Rewald/ Schlüter/ Seiler/ Tegtmeier/ Zeh 2014). Bei der Modellierung von Ressourcen als Linked Data werden Ontologien und Vokabulare sowohl für die Prädikate (z. B. http: / / www.lexinfo.net/ ontology/ 2. 0/ lexinfo#partOfSpeech im Minimalbeispiel in Abb. 5) als auch für die Objekte (z. B. http: / / www.lexinfo.net/ ontology/ 2.0/ lexinfo#Noun, ib.) verwendet. Bei der Kulturerbe, historische Linguistik und Semantic Web 167 <?page no="168"?> 38 https: / / www.dublincore.org/ specifications/ dublin-core (11.10.2019). 39 Virtual International Authority File, http: / / viaf.org (06.05.2020). 40 Getty Thesaurus of Geographic Names, http: / / www.getty.edu/ research/ tools/ vocabulari es/ index.html (06.05.2020). 41 Ontologies of Linguistic Annotation, http: / / www.acoli.informatik.uni-frankfurt.de/ reso urces/ olia (05.11.2019). 42 Cf. F A V E E f. t. de botanique ‛petite plante dicotylédone, de la famille des Plantaginaceae, caractérisée par une tige plus ou moins dressée, par des feuilles opposées, ovales, par des fleurs bleues, fruit en capsule, vivant dans des lieux humides, aux bords des lacs, véronique des ruisseaux’, DEAFél, https: / / deaf.ub.uni-heidelberg.de/ lemme/ favee (11.10.2023). Modellierung linguistischer Ressourcen benötigt man in der Regel nicht nur eine, sondern mehrere Ontologien oder Vokabulare: für • nicht-linguistische Metadaten (Autor einer Quelle, Herausgeber, Lizenzen etc.), z.-B. DublinCore, 38 • Personennamen (z. B. für die Identifizierung von Ärzten, die in einem mit‐ telalterlichen medizinischen Text zitiert werden [Avicenna]), z.-B. VIAF, 39 • Ortsnamen (für die Identifizierung von Ortsnamen in z. B. Schlachtenbe‐ schreibungen [Roncesvalles - zentraler Ort für das Rolandslied]), z. B. TGN, 40 • die Beschreibung linguistischer Fachtermini: für die eindeutige Repräsen‐ tation der linguistischen Sachverhalte, die in den Datensätzen ausgedrückt sind (Wortart, Genus, Numerus, Lexeme, Mehrwortverbindungen, Wort‐ bildungsprodukte, Kollokationen, Fachsprachlichkeit, Stilmittel etc.), z. B. LexInfo und OLiA. 41 Für den Datenzugriff, der nicht nur die Semantik im Allgemeinen, sondern auch die lexikalische Semantik im Besonderen berücksichtigt, ist die im Folgenden genannte Gruppe von Ontologien essentiell: Ontologien für die Identifizierung der Aspekte der außersprachlichen Wirklichkeit im semiotischen Fünfeck (cf. Blank 2001, 9): für die konkreten Dinge und für die abstrakten Konzepte der Dinge, die die Verbindung zum einzelsprachlichen Zeichen herstellen. Wir nennen diese Ontologien ‚Realwelt-Ontologien‘. Ein Beispiel: Eine Bezeichnung für die Bachbunge (ein Wegerich-Gewächs, Veronica beccabunga, Linné) im Altfranzösischen ist favee f. 42 Diese Bezeich‐ nung kann auf den Eintrag zur Bachbunge einer Realwelt-Ontologie verweisen. Im Falle von afr. favee kann die Verknüpfung vom Lexem ausgehen, da afr. favee nur genau diese eine Bedeutung besitzt. Im Falle mehrerer Bedeutungen muss die Verknüpfung für jede lexikalische Einheit ausgeführt werden und von den Bedeutungen bzw. Konzepten ausgehen. 168 Sabine Tittel <?page no="169"?> 43 https: / / wiki.dbpedia.org (04.05.2020). 44 Ein Namensraum wird definiert und im Code mithilfe eines Präfixes referenziert, um auf eine gegebene Menge von Termini verweisen zu können (cf. Gandon/ Krummena‐ cher/ Han/ Toma 2011, 124). Ein Beispiel für eine solche Realwelt-Ontologie ist DBpedia. 43 DBpedia ist eine LOD-Version von Daten, die aus Wikipedia-Artikeln extrahiert sind. Damit stellt sie eine Art Enzyklopädie für das Semantic Web und einen bedeutenden Knotenpunkt für das Vernetzen von Daten zur Verfügung (cf. Hellmann/ Stadler/ Lehmann 2012, 181). Man kann mithilfe von DBpedia das folgende Tripel modellieren: Abb. 8: Codebeispiel 2. Erklärungen: • Das Subjekt ist < deaf: favee > als Eintrag im DEAF; es verweist über das Prädikat < ontolex: denotes > auf < dbr: Veronica_beccabunga > (Z. 5). • Dabei steht < deaf: > als eine Art Abkürzung (Präfix) für den Namensraum 44 <https: / / deaf-server.adw.uni-heidelberg.de/ lemme>, < ontolex > für <http: / / www.w3.org/ ns/ lemon/ ontolex#> und < dbr > für <http: / / www.dbpedia.org / resource/ > (Z. 1-3). Das Vokabular, das über den Namensraum < ontolex > referenziert wird, ist das für linguistische Ressourcen zentrale Vokabular OntoLex-Lemon, auf das wir zurückkommen werden. Nach diesem Muster können eine Flöte mit < dbr: Flute >, ein Frosch mit < dbr: Frog > und Rückenschmerzen mit < dbr: Back_pain > verknüpft werden. Eine solche Verknüpfung der Bedeutung bzw. des Konzepts einer lexikalischen Einheit mit einem Begriff einer Ontologie nennen wir lexikalisch-semantisches Mapping. Dieses Mapping ist die Voraussetzung für den lexikalisch-semanti‐ schen Zugriff auf die Daten. - 3.4 Integrierte Suchanfragen über Ressourcen und Sprachen hinweg Der Datenzugriff auf Ressourcen im RDF-Format kann mithilfe der vom W3C als Standard festgelegten Anfragesprache SPARQL Protocol And RDF Kulturerbe, historische Linguistik und Semantic Web 169 <?page no="170"?> 45 Einen Überblick über weitere Sprachen zur Anfrage von RDF-Daten geben Szeredi/ Lu‐ kácsy/ Benkő (2014, 130-155). Query Language (SPARQL, cf. Prud’hommeaux/ Seaborne 2008) erfolgen. 45 SPARQL-Anfragen werden über den Webservice eines SPARQL-Endpoints aus‐ geführt. SPARQL verwendet als Anfragemuster RDF-Tripel mit Turtle-Syntax (cf. Hitzler/ Krötzsch/ Rudolph/ Sure 2008, 202-213; Della Valle/ Ceri 2011). Ein Minimalbeispiel einer SPARQL-Anfrage, die Daten des Codebeispiels 1 anfragt, ist das Folgende: Abb. 9: Codebeispiel 3. Erklärungen: • Ebenso wie in RDF werden zunächst die Namensräume via Präfixe definiert (Z. 1-3). • Über SELECT werden in der Anfrage Variablen angegeben, die festlegen, für welche Elemente (z. B. Orte, Projektnamen) aus einem oder mehreren RDF-Datensätzen Rückgabewerte, also Ergebnisse im weiteren Sinne, er‐ halten werden sollen (Z. 5). • Die Datensätze, über die die Anfrage ausgeführt werden soll, werden mittels FROM + URI der Datensätze explizit genannt, hier beispielhaft die URI http: / / example.org (Z. 6). • Die Bedingungen dafür, welche selektierten Elemente zurückgegeben werden, können via WHERE präzisiert werden (Z. 8-9). • Die Anfrage erzeugt als Ergebnis eine Tabelle. Die Sortierung der Rückgabe‐ werte in der Tabelle kann via ORDER BY (z. B. Ressourcenname) bestimmt werden (nicht im Beispiel abgebildet). Das Ergebnis des Minimalbeispiels ist die folgende, einfache Tabelle mit genau einer Ergebniszeile: Abb. 10 170 Sabine Tittel <?page no="171"?> 4 Fallbeispiel mit historischen Sprachdaten des Französischen Anhand eines Fallbeispiels mit historischen Sprachdaten des Französischen zeigen wir im Folgenden einen Weg, linguistische Ressourcen als LOD in RDF zu modellieren. Wir können hier nicht mehr als einen Überblick versuchen, wollen aber dort ins Detail gehen, wo das lexikalisch-semantische Mapping der Daten erfolgt. Das Vokabular, das sich in den letzten Jahren zum De-Facto-Standard für die LOD-Modellierung von linguistischen Ressourcen entwickelt hat und das wir für unser Fallbeispiel einsetzen, ist das Vokabular LExicon Model for ONtologies (OntoLex-Lemon, cf. Cimiano/ McCrae/ Buitelaar 2016). - 4.1 Das OntoLex-Lemon-Vokabular Das Vokabular OntoLex-Lemon stellt die Kernontologie für die Repräsentation von Lexien in Wörterbüchern und verwandten linguistischen Ressourcen. Es ist zugleich eine Schnittstelle zwischen der linguistischen Ressource und weiteren Ontologien. Das Ziel von OntoLex-Lemon ist es, eine stabile Grundlage aus Prädikats- und Objektbezeichnern für die Abbildung von morphologischen, syntaktischen und semantischen Eigenschaften von Lexien einer linguistischen Ressource bereit zu stellen. Zwei der Charakteristika von OntoLex-Lemon sind für unseren Kontext des lexikalisch-semantischen Mappings besonders relevant: Das Modell basiert ers‐ tens auf dem Prinzip semantics by reference (Cimiano/ McCrae/ Buitelaar 2016, 3.3.; dazu McCrae/ Aguado de Cea/ Buitelaar/ Cimiano/ Declerck/ Gomez-Perez/ Gracia/ Hollink/ Montiel-Ponsoda/ Spohr/ Wunner 2012, speziell 703). Dies drückt aus, dass die Bedeutungsbestimmung einer Lexie (in OntoLex-Lemon die Klasse LexicalEntry ) auf zwei voneinander getrennten Ebenen organisiert ist: zum einen auf der Ebene der modellierten Daten in einem gegebenen Datensatz und zum anderen auf der von Ontologien, die typischerweise nicht Teil des Datensatzes sind. Es ist im Modell zwar vorgesehen, eine in der linguistischen Ressource enthaltene Bedeutungsdefinition in den Datensatz zu integrieren, z. B. ‘petite plante dicotylédone […], véronique des ruisseaux’ für afr. favee. Da aber die Definition zwangsläufig in der Sprache der linguistischen Ressource gehalten sein wird, ist damit die Sprachunabhängigkeit der Semantik der Daten nicht gewährleistet. Deswegen wird, über die Definition hinaus, der Lexie dadurch Bedeutung zugewiesen, dass sie auf einen außersprachlichen Begriff in einer Ontologie verweist (cf. bereits Codebeispiel 2). Zweitens fokussiert Ontolex-Lemon bei der Modellierung nicht auf die Lexie ( LexicalEntry ), sondern auf eine lexikalische Einheit, indem es ein LexicalEntry Kulturerbe, historische Linguistik und Semantic Web 171 <?page no="172"?> 46 Cf. DEAFél s.-v. F E S T R E , https: / / deaf.ub.uni-heidelberg.de/ lemme/ festre (11.10.2023). verknüpft mit (1) einer Bedeutung (Klasse LexicalSense ) und (2) einem Konzept (Klasse LexicalConcept ) und dieses wiederum mit dem außersprachlichen Begriff einer Ontologie. Ist es in Codebeispiel 2 möglich, das LexicalEntry mit einem Ontologiebegriff zu verknüpfen, so geht das etwa bei afr. festre 46 nicht: festre mit Bedeutung n o 1 ‘Röhre’ muss mit < dbr: Tube > verknüpft werden, festre mit Bedeutung n o 2 ‘Art Pfeife oder Flöte’ mit < dbr: Flute > / < dbr: Whistle >, festre mit Be‐ deutung n o 3 ‘Fistel’ mit < dbr: Fistula > und festre mit Bedeutung n o 4 ‘Röhren-Cassie’ (oder Indischer Goldregen) schließlich mit < dbr: Cassia_fistula >. Um die Beziehungen zwischen den Klassen in den RDF-Tripeln zu be‐ schreiben, definiert Ontolex-Lemon auch die Prädikate zur Verknüpfung von Subjekt und Objekt der Tripel, cf. Abb. 11. Abb. 11: Das Kernmodul von OntoLex-Lemon (cf. Cimiano/ McCrae/ Buitelaar 2016, 3). - 4.2 Flöten, Pfeifen und Verwandtes Um die Theorie der Modellierung linguistischer Daten als LOD in die Praxis zu führen, zeigen wir ein Anwendungsbeispiel, das Daten zu historischen und regionalsprachlichen, französischen Bezeichnungen von Flöten, Pfeifen und verwandten Instrumenten verarbeitet. Unser Ziel ist es, anhand von wenigen Beispielressourcen zunächst aufzuzeigen, dass die Lexikographie zum Franzö‐ 172 Sabine Tittel <?page no="173"?> 47 Onlineversion auf Gallica: https: / / gallica.bnf.fr/ ark: / 12148/ bpt6k30761726 (05.05.2020). 48 Onlineversion auf archive.org: https: / / archive.org/ details/ glossairedupato00contgoog/ page/ n7/ mode/ 2up (05.05.2020). sischen eine große Menge von interessanten Lexien verzeichnet, die große und kleine Flöten, Rohrflöten, Pfeifen, Schalmeien, Querflöten, Panflöten und vieles mehr bezeichnen. Darunter sind Lexien aus den historischen Sprachstufen des Alt- und Mittelfranzösischen und auch Lexien aus regionalen Varietäten, die für das 19. oder 20. Jahrhundert dokumentiert sind. Mit der Modellierung der händisch gesammelten Daten als LOD/ RDF legen wir dann die Basis für den Zugriff auf diese Daten: Dieser stützt sich auf die Bedeutung der Lexien, die über eine Realwelt-Ontologie definiert werden. Er ist damit unabhängig von den alt-, mittel- und neufranzösisch-regionalen Schreibformen und den in den lexi‐ kographischen Ressourcen gegebenen (französischen) Bedeutungsdefinitionen. Eine beispielhafte Anfrage an die Daten soll anschließend die Funktionsweise demonstrieren. 4.2.1 Datenerhebung Als linguistische Ressourcen für die Datenerhebung haben wir die folgenden lexikographischen Werke ausgewählt: • Dictionnaire étymologique de l’ancien français (DEAF), • Dictionnaire du moyen français (DMF), • Französisches Etymologisches Wörterbuch (FEW), • Zéliqzon, Léon, Dictionnaire des patois romans de la Moselle, Strasbourg, Librairie Istra, 1922-1924 (ZéliqzonMoselle), 47 • Contejean, Charles, Glossaire du patois de Montbéliard, Montbéliard, Impri‐ merie et Lithographie de H. Barbier, 1876 (ContejeanMontbéliard). 48 Es ist klar, dass die Werke zu wenige lexikographische Puzzlesteine aus einem viel zu großen zeitlichen Rahmen darstellen, um in irgendeiner Weise aus dia‐ chroner Sicht exhaustiv zu sein; zudem integriert sie (nur) zwei Wörterbücher zu regionalen Varietäten des Französischen, deren Wahl willkürlich ist. Aber wir hoffen trotz der mangelnden Repräsentativität der mittels der gewählten Werke erhobenen Daten ein Bild zeichnen zu können, das die Möglichkeiten, die das Paradigma von LOD für die Arbeit mit (historischen) Sprachdaten eröffnet, verdeutlicht. Um Daten zur Bezeichnung von Flöten und Pfeifen und ähnlichen Instru‐ menten in den gewählten Ressourcen zu sammeln, waren wir auf traditionelles Arbeiten, unterstützt von digitalen Methoden, angewiesen. Während die Webauftritte des DMF und (eingeschränkt) auch des FEW Recherchefunktionen Kulturerbe, historische Linguistik und Semantic Web 173 <?page no="174"?> anbieten, die eine digitale Suche nach Schreibformen ermöglichen, sind die Funktionen des DEAF komfortabler (cf. supra). Die Werke von Zéliqzon und Contejean haben wir zunächst mit Hilfe der Seitenscans auf Gallica bzw. archive.org und zusätzlich analog, durch das Blättern der Bücher, ausgewertet. Sowohl für die digitale als auch für die analoge Recherche legten wir folgende Suchwörter zugrunde: flûte, pipeau, mirliton, sifflet und chalumeau. Das bedeutet, dass wir zum einen die Treffer zu den Schreibformen gesammelt haben und zum anderen auch auf das Vorkommen der Suchwörter in den Definitionen geachtet haben. Es ist klar, dass gerade die Integration der zahlreichen altfranzösischen und mittelfranzösischen Schreibvarianten bzw., in diesem Sinne, die Schreib‐ varianten der Wörter jeder historischen Sprachstufe, die keine Schreibnorm aufweist, einen ganz wesentlichen Beitrag für die Modellierung als LOD dar‐ stellt. Denn das Ziel der lexikalisch-semantischen Auszeichnung ist es gerade, einen Zugriff auf die Daten zu ermöglichen, der über die Schreibformen hinweg funktioniert. Das folgende Codebeispiel erweitert die Daten aus Codebeispiel 2 entsprechend mit Schreibformen, d.-h. Lemma und graphischer Variante: Abb. 12: Codebeispiel 4. Erklärungen: • Der RDF-Code weist dem LexicalEntry zwei Schreibformen (definiert je als ontolex: Form ) zu: (1) die in der Ressource als Lemma ( canonicalForm , Z. 5) angelegte Schreibform favee_lemma , repräsentiert als Literal („favee“ Z. 7), und (2) die variante Form ( otherForm , Z. 9) favee_variant , ebenso repräsentiert als Literal („favede“, Z. 11). • Alle als Literal angegebenen Informationen müssen mittels eines Sprach‐ tags, der aus einem Sprachcode (und evtl. weiteren Komponenten) besteht, eindeutig als einer Sprache zugehörig definiert werden (cf. Phillips/ Davis 2009), hier @fro bzw. @agn (Z. 7; 11). Der Sprachcode ‚fro‘ steht für die 174 Sabine Tittel <?page no="175"?> 49 ISO 639 (International Organization for Standardization, Language codes - ISO 639, h ttps: / / www.iso.org/ iso-639-language-codes.html [29.11.2019]), legt den Standard für Sprachcodes fest. Zu den Defiziten der ISO-639-Sprachcodes für die Identifizierung v. a. von historischen Sprachstufen, cf. Gillis-Webber/ Tittel 2020. 50 Cf. F L Û T E , DMF, http: / / www.atilf.fr/ dmf/ definition/ flûte (04.05.2020). 51 Wir geben aus Platzgründen statt der im DEAF enthaltenen (i. d. R.) phrastischen Definitionen (z. B. festele ‘instrument de musique fait d’une tige de roseau dont la moelle a été dégagée et qui a été troué (d’un nombre variable de trous), sorte de flûte ou de pipeau’, https: / / deaf-server.adw.uni-heidelberg.de/ lemme/ festele [04.05.2020]) nur eine grobe Bedeutung in Form eines oder mehrerer deutscher Pseudosynonyme an. 52 Die URIs zu den Wörterbuchartikeln des DEAF entsprechen dem Muster F L A Ü T E , DEAFél, http: / / deaf-server.adw.uni-heidelberg.de/ lemme/ flaüte bzw., im Falle einer Ableitung, pipe s.-v. P I P E R 1 , DEAFél, https: / / deaf.ub.uni-heidelberg.de/ lemme/ piper1#pi pe (11.10.2023). ISO-639-3-Kodierung 49 für das Altfranzösische, ‚agn‘ für das Anglonorman‐ nische. • Da sowohl die Lemmaals auch die variante Schreibform mit dem Eintrag deaf: favee verknüpft sind und dieser mit DBpedia verlinkt ist, erhält man mit der entsprechenden SPARQL-Anfrage über Veronica beccabunga auch die verschiedenen Schreibformen als Rückgabewerte. Die vielen Graphievarianten der in DEAF, DMF und FEW verzeichneten Lem‐ mata (z. B. flahute, fleute, fleuthe, fleuste, fluste, flutte zu mfr. flûte im DMF 50 ) haben wir dennoch aus den Daten unseres Anwendungsbeispiels ausgeklam‐ mert, da die Kernaussage bezüglich der lexikalischen Semantik unabhängig von ihnen gemacht werden kann. Die folgenden Listen zeigen die Ergebnisse der Datenerhebung. DEAF: 51 - pipe s. v. P I P E R 1 Flöte/ Pfeife/ Sackpfeife 52 - pipet s.-v. P I P E R 1 Pfeife - flaüte Flöte - flaüte traversaine Querflöte - flaüte (de) Behaigne Flöte - flaihutel s.-v. F L AÜT E Flöte - flaüt s.-v. F L AÜT E Flöte - festele Flöte/ Pfeife - festel s.-v. F E S T E L E Flöte/ Pfeife - fistule Flöte/ Pfeife - festre Flöte/ Pfeife - flajol Flöte - flajot s.-v. F L A J O L Flöte - flajot de Saux Flöte - flajot doblier Flöte - frenel Panflöte - boheme Flöte - demicanon s.-v. C A N O N Flöte - chalemel Flöte/ Schalmei - chalemele Flöte/ Schalmei - doucine s.-v. D O U Z Flöte - frenel Panflöte - traversaine s.-v. T R A V E R S Querflöte - vïel s.-v. V Ï E L E Flöte Kulturerbe, historische Linguistik und Semantic Web 175 <?page no="176"?> 53 Die URIs zu den Wörterbuchartikeln des DMF entsprechen dem Muster F L Û T E , DMF http: / / www.atilf.fr/ dmf/ definition/ flûte (05.05.2020). 54 Die Suche nach Definitionen, die die Zeichenkette «sifflet» enthalten, ergibt einen Treffer in FEW (23,145a‒b s. v. M I R L I T O N ): hag. mirlitoun ‘partie d’rouet taillée en sifflet’. Dass mirlitoun hier nicht auf dbr: Whistle gemappt werden darf, ist offensichtlich. DMF: • flûte ‘flûte (instrument a vent)’ 53 • chalumeau ‘flûte champêtre, chalumeau’ • pipe ‘pipeau, flûte champêtre’ • sifflet ‘petit instrument avec lequel on siffle, sifflet’ FEW 3,612a‒b s.-v. F LA - U TA • afr. flehute, fleuhute, flaüte etc. (+ Schreibvarianten und moderne Dialekt‐ formen) ‘instrument à vent, ayant vers la partie supérieure une ouverture où l’on souffle, et percé dans sa longueur de trous sur lesquels on pose les doigts pour les ouvrir et les fermer, selon la note que l’on veut produire’ • afr. flaihutel ‘chalumeau’ • mfr. flusteau ‘petite flûte’ • nfr. flûteau ‘flûte grossièrement faite’ (+ moderne Dialektformen) FEW 23,145a‒b s.-v. F L U T E • mfr. coutre m. ‘flûte large par le milieu et à deux accords’ (DuFail) • nfr. jombarde f. ‘flûte du tambourin, ou flûte à trois trous’ (seit Enc 1765; […]) • nfr. rosse f. ‘petite flûte dans laquelle se meut un bâton’ (Boiste 1803-Moz 1842) • Vendôme hauberlette f. ‘petite flûte de berger’ • Centr. berdon m. ‘flûte; tuyeau de cornemuse’ • Isère chatrou m. ‘flûte à Pan’ FEW 23,145a‒b s.-v. MI R LIT O N • mirliton m. ‛petite flûte formée d’un roseau creusé, garni par les deux bouts d’une pelure d’oignon ou d’un morceau de baudruche’ (seit Trév 1752; […]) 54 ZéliqzonMoselle: • chousiote f. ‘flûte’, 1,143b • fiūte f. ‘flûte’, 2,275b • hhosiat m. ‘sifflet, flûte, mirliton’, 2,354a 176 Sabine Tittel <?page no="177"?> 55 Das FEW besitzt zwar eine durchgängige Seitenverweisstruktur, die URIs der Form h ttps: / / apps.atilf.fr/ lecteurFEW/ images/ few1/ few_1__0001.png führen aber zu Band und Seite. 56 https: / / www.w3.org/ TR/ xslt (03.05.2020). • fièstot m. ‘sifflet’, 2,271b • fiūtat m. ‘petite flûte, sifflet’ 2,275b • turlututu m. ‘mirliton’ (genre enfantin), 3,679b ContejeanMontbéliard: • nunnun m. ‘mirliton’, S.-144 • choterot m. ‘sifflet’, S.-76 (auch choterat, chotrot) • chotot m. ‘sifflet’, S.-77 4.2.2 Datenmodellierung Für die Datenmodellierung folgen wir dem Modell von OntoLex-Lemon. Wir fokussieren dabei auf das lexikalisch-semantische Mapping der Wörter. Das bedeutet, wir integrieren die Informationen zu den Lexien ( lexicalEntry ), soweit sie strukturell für das Mapping relevant sind. Informationen zu Wortart, Genus, Numerus, variante Schreibformen (cf. supra), Etymologien (im Fall von DEAF, DMF, FEW) und Anderes klammern wir aus unserem Fallbeispiel aus. Wie beschrieben, ist es eines der Prinzipien von LOD, sämtliche Informa‐ tionen im WWW eindeutig mittels URIs zu referenzieren („Use URIs as names for things“, cf. supra). In Bezug auf die erhobenen Daten können wir für DEAF und DMF real existierende URIs pro Lemma einsetzen, d. h. https: / / deaf.ub.uni-heidelberg.de und http: / / www.atilf.fr/ dmf/ definition. Für das FEW, ZéliqzonMoselle und ContejeanMontbéliard geht dies nicht, da keine URIs für die Worteinträge zur Verfügung stehen. 55 Wir setzen folglich für die Worteinträge in diesen drei Werken die hypothetische URI http: / / example.o rg ein, das Standardvorgehen für solche Anwendungsfälle. Als Präfix für den hypothetischen Namensraum verwenden wir dem Standard folgend ex. Wir haben die Daten, die wir in den genannten Ressourcen erhoben haben, großteils händisch modelliert. Für die Daten des DEAF kommen automatische Konvertierungsroutinen zum Einsatz, die aus den XML-Daten der Wörterbuch‐ artikel per XSLT-Scripts 56 die relevanten Informationen in RDF abbilden (cf. Tittel/ Chiarcos 2018). Für die Daten des DMF, die genuin digital erarbeitet werden, wäre die Entwicklung solcher Routinen möglich, lohnen aber ob der geringen Menge unserer Beispieldaten nicht; die Modellierung der Daten von Kulturerbe, historische Linguistik und Semantic Web 177 <?page no="178"?> 57 Für das FEW liegen bereits Arbeiten für eine strukturell weit tiefergehende Digitalisie‐ rung als die derzeitige Onlinepublikation auf <https: / / apps.atilf.fr/ lecteurFEW> vor (cf. Renders 2015), und die Überführung der Bände 16, 17 und 19 ist durchgeführt, cf. Französisches Etymologisches Wörterbuch - 1.1.4, <https: / / few-webapp.atilf.fr> [letzter Zugriff: 5. Mai 2020]; auch erste Vorarbeiten für eine Modellierung des FEW als LOD wurden vorgelegt (cf. Renders 2019). FEW, ZéliqzonMoselle und ContejeanMontbéliard ist so lange nicht automati‐ sierbar, wie eine Retrodigitalisierung der Werke nicht realisiert ist. 57 Wir geben in den Codebeispielen 5-11 (Abb. 13−19) Ausschnitte, die die Modellierung der unterschiedlichen Ressourcen zeigen. Die Gesamtzahl der erstellten Tripel beträgt 287. Die Tripel liegen den Anfragen zugrunde, die wir in Codebeispiel 12 (Abb. 20) zeigen. Die Modellierung der DEAF-Einträge flajol und frenel wird durchgeführt wie folgt: Abb. 13: Codebeispiel 5. Erklärungen: • Die Definition der Namensräume für die gesamten Daten ist abgebildet in Z. 1-6. • Flajol und frenel sind jeweils als ein ontolex: LexicalEntry repräsentiert (Z. 10; 17). 178 Sabine Tittel <?page no="179"?> 58 Der W3C-Standard für die Beschreibung eines Knowledge Organisation System (KOS), das Thesauri, Taxonomien und ähnliche Klassifikationsschemata repräsentiert, cf. Miles/ Bechhofer (2009). 59 Fehler in Tittel/ Gillis-Webber/ Nannini (2020), Listing 5, Z. 15 und Listing 6, Z.12: korrigiere „ontolex: definition“ in „skos: definition.“ • Einem LexicalEntry wird über das Prädikat ontolex: sense eine Bedeutung und diesem wiederum über das Prädikat ontolex: isLexicalizedSenseOf ein Konzept zugewiesen. Dafür wird zunächst eine Art Platzhalter eingesetzt, im Beispiel flajol ist das flajol_sense (Z. 11) und flajol_lexConcept (Z. 13). • Diese Platzhalter werden jeweils in einem nächsten Tripel als ontolex: LexicalSense (Z. 12) bzw. ontolex: LexicalConcept (Z. 14) definiert. • Das Konzept wird schließlich über das Prädikat ontolex: isConceptOf mit einem Begriff in einer Ontologie verknüpft, die außerhalb der Ressource liegt, hier DBpedia ( dbr: Flute , Z. 15). Dies legt die Bedeutung von flajol so fest, dass sie unabhängig von der Sprache der Ressource definiert ist. Auch für die Bedeutung ( LexicalSense ) stellt OntoLex-Lemon ein Prädikat ( ontolex: reference ) bereit, dass sie mit einem Ontologiebegriff verknüpft (nicht im Beispielcode enthalten). • Dem Konzept kann darüber hinaus die Bedeutungsdefinition zugewiesen werden, die im DEAF-Eintrag flajol angegeben ist („A definition can be added to a lexical concept as a gloss“, https: / / www.w3.org/ 2016/ 05/ ontolex / #lexical-concept): ‘flûte droite, à bec et généralement percée de six trous, utilisée souvent par les pâtres’. Dies geschieht über ein Prädikat aus dem Vokabular Simple Knowledge Organization System (SKOS), 58 skos: definition , und in der Form eines Literals, wie folgt: 59 Abb. 14: Codebeispiel 6. Die Integration der Definition als Literal in den RDF-Code zielt auf den Erhalt aller in der modellierten Ressource enthaltenen, relevanten Informationen ab, entspricht aber nicht dem Grundsatz des sprachunabhängigen, semantischen Disambiguierens mittels externer Ontologien (cf. Tittel/ Chiarcos 2018, 63). Die Modellierung der Mehrwortverbindung flaüte traversaine (DEAF) sieht aus wie folgt: Kulturerbe, historische Linguistik und Semantic Web 179 <?page no="180"?> Abb. 15: Codebeispiel 7. Erklärungen: • Die Lexie flaüte traversaine wird über die Klasse ontolex: MultiwordExpression als Mehrwortverbindung abgebildet (Z. 60). • Über das Prädikat decomp: subterm aus dem OntoLex-Zusatzmodul „decom‐ position“ („indicating which elements constitute a multiword or compound lexical entry“, https: / / www.w3.org/ 2016/ 05/ ontolex/ #decomposition-deco mp, 5.1) erfolgt die Anbindung der Mehrwortverbindung an einen Konsti‐ tuenten, hier deaf: flaüte (Z. 61). • In Z. 66 sehen wir, dass eine Verknüpfung sowohl zum DBpedia-Eintrag zur Querflöte als auch zur Flöte als ein mehr generischer Begriff integriert ist, um einen späteren Treffer bei einer Suchanfrage nach den allgemeinen Flöten zu ermöglichen. Das nächste Codebeispiel zeigt den Eintrag des DMF chalumeau: Abb. 16: Codebeispiel 8. Erklärung: • Für mfr. chalumeau, dessen Bedeutung - wie in DMF definiert: ‘flûte champêtre, chalumeau’ - nicht klar zwischen einer Flöte und einer Schalmei zu differenzieren ist, integrieren wir Verknüpfungen sowohl zum Eintrag von Flöte als auch von Schalmei, Z. 192. Die Modellierung von Einträgen in FEW, ZéliqzonMoselle und ContejeanMont‐ béliard entsprechen dem gezeigten Muster. In den folgenden Codebeispielen 180 Sabine Tittel <?page no="181"?> sehen wir, wie die hypothetische URI http: / / example.org über das Präfix ex eingesetzt wird (Z. 280; 282; 284; 303 etc.): Abb. 17: Codebeispiel 9: FEW: mirliton ‘Mirliton’ (Membranophon). Abb. 18: Codebeispiel 10: ZéliqzonMoselle: hhosiat ‘Flöte/ Pfeife/ Mirliton’. Abb. 19: Codebeispiel 11: ContejeanMontbéliard: chotot ‘Pfeife’. 4.2.3 Datenanfrage Die Modellierung der Daten wie oben gezeigt resultiert in die Möglichkeit, diese mit SPARQL anzufragen. Eine Anfrage nach den Daten, die die Lexien und die referenzierten Begriffe in der Ontologie selektiert, ist die folgende: Kulturerbe, historische Linguistik und Semantic Web 181 <?page no="182"?> 60 Für die Ausführung der SPARQL-Anfragen verwenden wir eine lokale Installation des SPARQL-Servers Apache Jena Fuseki, cf. https: / / jena.apache.org/ documentation/ fuseki 2 (18.09.2019). Abb. 20: Codebeispiel 12. Erklärungen: • Präfixe werden definiert wie bekannt (Z. 1-3). • SELECT wählt die als Variablen entry bzw. entity festgelegten Informationen (Z. 6). • Der angefragte Datensatz auf http: / / localhost: 3030/ Flute/ data/ Test ist der lokal gespeicherte und händisch erstellte, der die Gesamtheit der 287 Tripel enthält. 60 • Die von WHERE definierten Bedingungen für die Rückgabe von entry und entity sind, dass entry ein ontolex: LexicalEntry sei, einen ontolex: Lexical- Sense besitze, dieser auf ein ontolex: LexicalConcept verweise und jenes schließlich auf die Variable entity (Z. 9-14). • Der FILTER bedingt, dass als entity der DBpedia-Eintrag zur Flöte oder der zur Pfeife zurückgegeben werden (Z. 15). Es werden in dieser beispielhaften Anfrage also diejenigen Lexien nicht zurückgegeben, die nicht (auch) auf Flöte oder Pfeife verweisen, worunter z. B. die nur als Panflöten oder Mirlitone ausgezeichneten Lexien fallen. • Die Ergebnistabelle wird nach dem DBpedia-Verweis geordnet, festgelegt durch ORDER BY (Z. 18). 182 Sabine Tittel <?page no="183"?> Ein Auszug aus dem Ergebnis sieht aus wie folgt (aus Platzgründen fallen 27 der 43 Tabellenzeilen weg, darunter alle, die die Verknüpfungen mit dbr: Whistle zeigen): Abb. 21 Das Ergebnis der Datenanfrage sind Verweise auf Lexien in historischen lingu‐ istischen Ressourcen, die als Bezeichnungen von Flöten oder Pfeifen identifiziert sind, unabhängig von der Sprache der Ressource, von ihrer Schreibform in den historischen Sprachstufen des Französischen und von ihrer (französischen) Bedeutungsdefinition. 5 Interpretation der Ergebnisse und Fazit Wir haben gezeigt, wie die Modellierung von historischen Sprachdaten als LOD-Ressourcen und die daraus resultierenden Anfragemöglichkeiten im Se‐ mantic Web die Defizite des Zugangs zum Wissen in den Datensilos des WWW überwinden kann. Dem Linguisten, der Wörter und ihre Bedeutungen • übereinzelsprachlich analysiert: etwa für eine Recherche nach den Flöten und Pfeifen in den Sprachen von Kulturen, die miteinander durch die Zeit hindurch interagierten, um Phänomene des Sprach- und Kulturkontakts zu beleuchten, Kulturerbe, historische Linguistik und Semantic Web 183 <?page no="184"?> 61 Erste Arbeiten zur Modellierung von Sprachatlanten als LOD liegen vor, cf. Tittel/ Gillis-Webber 2019. 62 Siehe die Arbeiten zur Kompatibilität von Texteditionen in XML/ TEI mit RDF zuletzt in Cimiano/ Chiarcos/ McCrae/ Gracia 2020, 253-262. 63 Dass das Blättern und Lesen von Büchern immer auch enorm wertvoll ist, steht nicht in Abrede, ist aber ein anderes Thema. • ressourcenübergreifend recherchiert: etwa für eine Recherche nach Flöten und Pfeifen in verschiedenen Wörterbüchern, Glossaren, Sprachatlanten 61 und Texteditionen, 62 oder • zeitenübergreifend untersucht: für die Recherche diachroner Fragestel‐ lungen, etymologischer Zusammenhänge, Sprach- und Bedeutungswandel, verspricht das Paradigma von Linked Data zukunftsweisende Möglichkeiten des Wissensgewinns. Wenn diese Möglichkeiten in diesem kurzen Beitrag auch bei weitem nicht erschöpfend dargestellt werden konnten, so hoffen wir dennoch, sie mit einem Streiflicht beleuchtet zu haben. Die Fallstudie zeigt nur ein Minimalbeispiel mit Flöten und Pfeifen und Instrumenten ähnlicher Art. Die Datenerhebung mit den herkömmlichen Mitteln war vergleichsweise mühsam und zeitintensiv, denn wir waren von den heterogenen Publikationsformen und Recherchefunktionen der lexikographischen Werke abhängig. Wir haben die Daten großteils händisch gesammelt und sind uns sicher, zahlreiche Lexien dabei übersehen zu haben. Aber dies verstehen wir gerade nicht als Mangel des Fallbeispiels, sondern viel‐ mehr als ein ganz wichtiges Argument für die Modellierung der Daten als Linked Data: Die Tatsache, dass Vieles fehlt, beweist die letztendlich doch begrenzten Möglichkeiten einer Datenerhebung, die sich auf die Onlinerecherchen (mit unterschiedlich tiefgehenden Suchfunktionen) von WWW-Ressourcen und auf das Blättern und Lesen von Büchern stützt. 63 Das Ergebnis der SPARQL-Datenanfrage auf die von uns erstellten Daten zeigt ein bescheidenes Ergebnis: eine Liste von Lexien aus unterschiedlichen Ressourcen, die Flöten und Pfeifen bezeichnen. Wenn wir uns aber ein Szenario vorstellen, in welchem linguistische Ressourcen vieler Sprachen und Sprach‐ stufen als LOD vorliegen und lexikalisch-semantisch annotiert sind, dann wird das Ergebnis der gleichen Datenanfrage weitaus beeindruckender ausfallen. Wir hätten ein Mittel, einen onomasiologischen, bedeutungsgelenkten Zugang zu den Wörtern, deren Formen wir nicht zwangsläufig in allen Sprachen kennen, 184 Sabine Tittel <?page no="185"?> 64 Der verbesserte Zugriff auf die graphischen Varianten von Lexien nicht schreibnor‐ mierter Sprachstufen, der Zugriff auf Lexien über ihre Wortklassen, ihre Sprach- und Sprachperiodenzugehörigkeit, ihre Fachsprachlichkeit, auf autor- oder genrespe‐ zifische Aspekte von Texten usw., liegt nicht im Fokus dieser Ausführungen, ist aber ein weiteres, starkes Argument für das Paradigma von LOD. 65 Cf. https: / / europa.eu/ cultural-heritage (06.05.2020). zu erlangen, ohne dass onomasiologische Wörterbücher geschrieben werden müssten. 64 Die Verallgemeinerung des Ergebnisses der kleinen Fallstudie halten wir für legitim und sinnvoll, um die potentielle Mächtigkeit des Ansatzes anzudeuten. Ihr liegt die Hoffnung zugrunde, dass in den kommenden Jahren mehr und mehr linguistischen Ressourcen in die LLOD-Cloud integriert werden können. Der große Vorteil einer immer größeren Menge an LLOD-Ressourcen zum kulturellen Erbe ist die Verbesserung der Auffindbarkeit der reichen Infor‐ mationen zu den Entwicklungen der Kulturen, die in den linguistischen Res‐ sourcen gespeichert sind. Semantic-Web-Technologien gewährleisten die Zu‐ gänglichkeit der Daten. Die strukturelle und konzeptionelle Interoperabilität der LOD-Datensätze (gleiches Format, gleiche Abfragesprache, gemeinsames Voka‐ bular) ist der Garant für die integrale, ressourcenübergreifende Zugreifbarkeit. Die Schaffung von weiteren LOD-Ressourcen hat auch einen katalysierenden Effekt: Das Netz wird größer, die Ergebnisse, die generiert werden können, vielfältiger und umfassender. Das Vorhandensein des OntoLex-Lemon-Vokabu‐ lars zum Beispiel inspiriert, linguistische Daten als LOD zu modellieren. Daher ist das Ziel des Semantic Web nicht nur die Suche nach Wissen, sondern auch die Weitergabe dieses Wissens und der Anstoß, noch mehr Wissen zu beschreiben und zu teilen. Die Erzeugung von Linguistic Linked Open Data scheint uns ein gutes Beispiel dafür zu sein, wie der Slogan des European Year of Cultural Heritage 2018, „where the past meets the future“ in eine praktische Anwendung übersetzt werden kann. 65 Literatur Berners-Lee, Tim/ Hendler, James/ Lassila, Ora (2001): „The Semantic Web“, in: Scientific American 284 (5), 34-43. Bizer, Christian/ Heath, Tom/ Berners-Lee, Tim (2009): „Linked Data. The Story So Far“, in: International Journal on Semantic Web and Information Systems 5 (3), 1-22. Blank, Andreas (2001): Einführung in die lexikalische Semantik, Tübingen, Niemeyer. Borin, Lars/ Dannells, Dana/ Forsberg, Markus/ McCrae, John P. (2014): „Representing Swedish Lexical Resources in RDF with Lemon“, in: Horridge, Matthew/ Rospocher, Kulturerbe, historische Linguistik und Semantic Web 185 <?page no="186"?> Marco/ van Ossenbruggen, Jacco (eds.): International Semantic Web Conference (Posters & Demos) (ISWC-PD’14), Aachen, CEUR-WS.org, 329-332. Bosque-Gil, Julia/ Gracia, Jorge/ Montiel-Ponsoda, Elena/ Aguado de Cea, Guadalupe (2016): „Modelling Multilingual Lexicographic Resources for the Web of Data: the KDictionaries case“, in: Kernerman, Ilan/ Kosem, Iztok/ Krek, Simon/ Trap-Jensen, Lars (eds.): Proceedings of GLOBALEX’16 workshop at LREC’15, Portorož, Slovenia, 65-72. Bouda, Peter/ Cysouw, Michael (2012): „Treating Dictionaries as a Linked-Data Corpus“, in: Chiarcos, Christian: Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata, Berlin/ Heidelberg, Springer, 15-23. Busse, Johannes/ Humm, Bernhard/ Lubbert, Christoph/ Moelter, Frank/ Reibold, Anatol/ Rewald, Matthias/ Schlüter, Veronika/ Seiler, Bernhard/ Tegtmeier, Erwin/ Zeh, Thomas (2014): „Was bedeutet eigentlich Ontologie? Ein Begriff aus der Philosophie im Licht verschiedener Disziplinen“, in: Informatik Spektrum 37 (4), 286-297. Chiarcos, Christian/ McCrae, John P./ Cimiano, Philipp/ Fellbaum, Christiane (2013): „To‐ wards Open Data for Linguistics: Lexical Linked Data“, in: Oltramari, Alessandro/ Vossen, Piek/ Qin, Lu/ Hovy, Eduard (eds.): New Trends of Research in Ontologies and Lexical Resources: Ideas, Projects, Systems, Berlin/ Heidelberg, Springer, 7-25. Chiarcos, Christian/ Sukhareva, Maria (2014): „Linking Etymological Databases. A Case Study in Germanic“, in: Chiarcos, Christian/ McCrae, John P./ Osenova, Petya/ Vertan, Christina: 3rd Workshop on Linked Data in Linguistics: Multilingual Knowledge Re‐ sources and Natural Language Processing, Association for Computational Linguistics, 41-49. Cimiano, Philipp/ McCrae, John P./ Buitelaar, Paul (2016): Lexicon Model for Ontologies: Community Report, 10 May 2016. Final Community Group Report 10 May 2016, https: / / www.w3.org/ 2016/ 05/ ontolex [letzter Zugriff: 17.08.2022]. Cimiano, Philipp/ Chiarcos, Christian/ McCrae, John P./ Gracia, Jorge (2020): Linguistic Linked Data. Representation, Generation and Applications, Cham, Springer. Corradini, Maria Sofia (2014): „Lessico e tassonomia nell’organizzazione del Dictionnaire de Termes médico-botaniques de l’Ancien Occitan“, in: Revue de Linguistique Romane 78, 87-132. Cyganiak, Richard/ Wood, David/ Lanthaler, Markus (2014): RDF 1.1. concepts and abstract syntax: W3C recommendation 25 February 2014, https: / / www.w3.org/ TR/ 2014/ REC-rd f11-concepts-20140225 [letzter Zugriff: 17.08.2022]. Declerck, Thierry/ Wandl-Vogt, Eveline/ Mörth, Karlheinz (2015): „Towards a Pan Euro‐ pean Lexicography by Means of Linked (Open) Data“, in: Kosem, Iztok/ Jakubíček, Miloš/ Kallas, Jelena/ Krek, Simon (eds.): Electronic Lexicography in the 21st Century: Linking Lexical Data in the Digital Age. Proceedings of the eLex 2015 Conference, 11-13 August 2015, Herstmonceux Castle, United Kingdom, Ljubljana/ Brighton, Trojina, Institute for Applied Slovene Studies/ Lexical Computing Ltd., 342-355. 186 Sabine Tittel <?page no="187"?> Della Valle, Emanuele/ Ceri, Stefano (2011): „Querying the Semantic Web: SPARQL“, in: Domingue, John/ Fensel, Dieter/ Hendler, James A. (eds.): Handbook of Semantic Web Technologies, Heidelberg, Springer, 299-363. Domingue, John/ Fensel, Dieter/ Hendler, James A. (2011): „Introduction to the Semantic Web Technologies“, in: Domingue, John/ Fensel, Dieter/ Hendler, James A. (eds.): Handbook of Semantic Web Technologies, Heidelberg, Springer, 4-41. Engelberg, Stefan/ Müller-Spitzer, Carolin (2013): „Dictionary Portals“, in: Gouws, Rufus H./ Schweickard, Wolfgang/ Wiegand, Herbert Ernst (eds.): Dictionaries. An Interna‐ tional Encyclopedia of Lexicography. Supplementary Volume: Recent Developments with Focus on Electronic and Computational Lexicography, Berlin/ Boston, De Gruyter, 1023- 1035. Gandon, Fabien/ Krummenacher, Reto/ Han, Sung-Kook/ Toma, Ioan (2011): „Semantic Annotation and Retrieval: RDF“, in: Domingue, John/ Fensel, Dieter/ Hendler, James A. (eds.): Handbook of Semantic Web Technologies, Heidelberg, Springer, 117-155. Gandon, Fabien/ Sabou, Marta/ Sack, Harald (2017): „Weaving a Web of Linked Resources“, in: Semantic Web Journal 6, 1-6. Gillis-Webber, Frances/ Tittel, Sabine (2020): „A Framework for Shared Agreement of Language Tags beyond ISO 639”, in: Calzolari, Nicoletta/ Béchet, Frédéric/ Blache, Philippe/ Choukri, Khalid/ Cieri, Christopher/ Declerck, Thierry/ Goggi, Sara/ Isahara, Hitoshi/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Moreno, Asunción/ Odijk, Jan/ Piperidis, Stelios (eds.): Proceedings of LREC2020, Marseille, May 2020, European Language Resources Association, 3326-3332. González-Blanco, Elena/ del Rio, Gimena/ Martínez Cantón, Clara I. (2016): „Linked Open Data to Represent Multilingual Poetry Collections. A Proposal to Solve Interoperabi‐ lity Issues Between Poetic Repertoires“, in: McCrae, John P./ Chiarcos, Christian/ Mon‐ tiel Ponsoda, Elena/ Declerck, Thierry/ Osenova, Petya/ Hellmann, Sebastian (eds.): Proceedings of the LREC 2016 Workshop «LDL 2016. 5th Workshop on Linked Data in Linguistics: Managing, Building and Using Linked Language Resources», 24 May 2016, Portorož, Slovenia, European Language Resources Association, 77-80. Gracia, Jorge/ Villegas, Marta/ Gómez-Pérez, Asunción/ Bel, Núria (2017): „The Apertium Bilingual Dictionaries on the Web of Data“, in: Semantic Web - Interoperability, Usability, Applicability, 1-10. Grimm, Stephan/ Abecker, Andreas/ Völker, Johanna/ Studer, Rudi (2011): „Ontologies and the Semantic Web“, in: Domingue, John/ Fensel, Dieter/ Hendler, James A. (eds.): Handbook of Semantic Web Technologies, Heidelberg, Springer, 509-579. Guarino, Nicola/ Oberle, Daniel/ Staab, Steffen Staab ( 2 2009): „What Is an Ontology? “, in: Staab, Steffen/ Studer, Rudi (eds.): Handbook on Ontologies, Berlin/ Heidelberg, Springer, 1-17. Kulturerbe, historische Linguistik und Semantic Web 187 <?page no="188"?> Hausmann, Franz Josef/ Reichmann, Oskar/ Wiegand, Herbert Ernst/ Zgusta, Ladislav (1989): Wörterbücher / Dictionaries / Dictionnaires. Ein internationales Handbuch zur Lexikographie / An International Encyclopedia of Lexicography / Encyclopédie interna‐ tionale de lexicographie. vol.-1, in: Darquennes, Jeroen/ Epps, Patience (eds.), Handbü‐ cher zur Sprach- und Kommunikationswissenschaft (HSK) 5.1, Berlin/ New York, De Gruyter. Heidegger, Martin (1949): Über den Humanismus, Frankfurt a.-M., Klostermann. Hellmann, Sebastian/ Stadler, Claus/ Lehmann, Jens (2012): „The German dbr: A Sense Repository for Linking Entities“, in: Chiarcos, Christian (ed.): Linked Data in Lingu‐ istics. Representing and Connecting Language Data and Language Metadata, Berlin/ Heidelberg, Springer, 181-190. Hinkelmanns, Peter (2019): „Mittelhochdeutsche Lexikographie und Semantic Web. Die Anbindung der Mittelhochdeutschen Begriffsdatenbank an Linked Open Data“, Das Mittelalter 24 (1), 129-141. Hitzler, Pascal/ Krötzsch, Markus/ Rudolph, Sebastian/ Sure, York (2008): Semantic Web. Grundlagen, Berlin/ Heidelberg, Springer. Khan, Fahad/ Díaz-Vera, Javier E./ Monachini, Monica (2016): „The Representation of an Old English Emotion Lexicon as Linked Open Data“, in: McCrae, John P./ Chiarcos, Christian/ Montiel Ponsoda, Elena/ Declerck, Thierry/ Osenova, Petya/ Hellmann, Se‐ bastian (eds.): Proceedings of the LREC 2016 Workshop «LDL 2016. 5th Workshop on Linked Data in Linguistics: Managing, Building and Using Linked Language Resources», 24 May 2016, Portorož, Slovenia, European Language Resources Association, Paris, 73-76. Klosa, Annette/ Müller-Spitzer, Carolin (2016): Internetlexikografie. Ein Kompendium, Berlin/ Boston, De Gruyter. Kühne, Conny (2016): Incentive Mechanisms and Quality Assurance for Peer Production, Karlsruhe, Hochschulschrift am Institut für Programmstrukturen und Datenorgani‐ sation, Karlsruher Institut für Technologie. Lezcano, Leonardo/ Sánchez-Alonso, Salvador/ Roa-Valverde, Antonio (2013): „A Survey on the Exchange of Linguistic Resources“, in: Program 47 (3), 263-281. McCrae, John/ Montiel-Ponsoda, Elena/ Cimiano, Philipp (2012): „Integrating WordNet and Wiktionary with lemon“, in: Chiarcos, Christian (ed.): Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata, Berlin/ Heidel‐ berg, Springer, 25-34. McCrae, John/ Aguado de Cea, Guadalupe/ Buitelaar, Paul/ Cimiano, Philipp/ Declerck, Thierry/ Gomez-Perez, Asuncion/ Gracia, Jorge/ Hollink, Laura/ Montiel-Ponsoda, Elena/ Spohr, Dennis/ Wunner, Tobias (2012): „Interchanging Lexical Resources on the Semantic Web“, in: Language Resources and Evaluation 46 (4), 701-719. 188 Sabine Tittel <?page no="189"?> Miles, Alistair/ Bechhofer, Sean (2009): SKOS Simple Knowledge Organization System reference: W3C recommendation 18 August 2009, https: / / www.w3.org/ TR/ 2009/ REC-s kos-reference-20090818 [letzter Zugriff: 17.08.2022]. Phillips, Addison/ Davis, Mark (2009): „Tags for Identifying Languages“, in: BCP 47, 1-83, https: / / tools.ietf.org/ html/ bcp47 [letzter Zugriff: 17.08.2022]. Prud’hommeaux, Eric/ Carothers, Gavin (2014): RDF 1.1 Turtle: Terse RDF Triple Language. W3C Recommendation, 25 February 2014, https: / / www.w3.org/ TR/ turtle [letzter Zu‐ griff: 17.08.2022]. Prud’hommeaux, Eric/ Seaborne, Andy (2008): SPARQL Query Language for RDF. W3C Recommendation 15 January 2008, https: / / www.w3.org/ TR/ rdf-sparql-query [letzter Zugriff: 17.08.2022]. Renders, Pascale (2015): L’informatisation du «-Französisches Etymologisches Wörter‐ buch-». Modélisation d’un discours étymologique, Strasbourg, ÉLiPhi. Renders, Pascale (2019): „Integrating the Etymological Dimension into the Onto-Lex Lemon Model: A Case of Study“, in: Electronic lexicography in the 21st century (eLEX 2019). Book of Abstracts, 71-72. Schafroth, Elmar (2014): Französische Lexikographie. Einführung und Überblick, Berlin/ Boston, De Gruyter. Schipperges, Heinrich (1985): Homo patiens: zur Geschichte des kranken Menschen, München/ Zürich, Piper. Souvay, Gilles (2007): „LGeRM : un outil d’aide à la lemmatisation du moyen français“, in: Trotter, David (ed.): Actes Du XXIVe Congrès International de Linguistique et de Philologie Romanes (Aberystwyth, [1-6 août] 2004), Tübingen, Niemeyer, 457-466. Stuckenschmidt, Heiner (2009): Ontologien. Konzepte, Technologien und Anwendungen, Berlin/ Heidelberg, Springer. Szeredi, Péter/ Lukácsy, Gergely/ Benkő, Tamás (2014): The Semantic Web Explained: The Technology and Mathematics behind Web 3.0, Cambridge, Cambridge University Press. Thomas, Antoine (1904): Besprechung von „I nomi romanzi delle stagioni e dei mesi stu‐ diati particolarmente nei dialetti ladini, italiani, franco-provenzali e provenzali”-von Clemente Merlo, in: Romania 33, 289-291. Tittel, Sabine/ Chiarcos, Christian (2018): „Historical Lexicography of Old French and Linked Open Data: Transforming the Resources of the Dictionnaire étymologique de l’ancien français“, in: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). GLOBALEX Workshop (GLOBALEX-2018), Miyazaki, Japan, 2018, Paris, European Language Resources Association, 58-66. Tittel, Sabine/ Gillis-Webber, Frances (2019): „Identification of Languages in Linked Data: A Diachronic-Diatopic Case Study of French“, in: Kosem, Iztok/ Zingano Kuhn, Ta‐ nara/ Correia, Margarita/ Ferreira, José Pedro/ Jansen, Maarten/ Pereira, Isabel/ Kallas, Jelena/ Jakubíček, Miloš/ Krek, Simon/ Tiberius, Carole (eds.): Electronic lexicography Kulturerbe, historische Linguistik und Semantic Web 189 <?page no="190"?> in the 21st century. Proceedings of the eLex 2019 conference. 1-3 October 2019, Sintra, Portugal, Brno, Lexical Computing CZ, s.r.o., 547-569. Tittel, Sabine/ Gillis-Webber, Frances/ Nannini, Alessandro A. (2020): „Towards an Onto‐ logy based on Hallig-Wartburg’s Begriffssystem for Historical Linguistic Linked Data“, in: Ionov, Maxim/ McCrae, John P./ Chiarcos, Christian/ Declerck, Thierry/ Bosque-Gil, Julia/ Gracia, Jorge (eds.): Proceedings of the LREC 2020 Workshop LDL 2020. 7th Workshop on Linked Data in Linguistics: Building Tools and Infrastructure May 2020, Marseille, France, European Language Resources Association, 1-10. Union der Deutschen Akademien der Wissenschaften (2018): Die Wissenschaftsakade‐ mien - Wissensspeicher für die Zukunft. Forschungsprojekte im Akademienprogramm, ht tps: / / www.akademienunion.de/ publikation/ die-wissenschaftsakademien-wissensspe icher-fuer-die-zukunft [letzter Zugriff: 17.08.2022]. Vannini, Laurent/ Le Crosnier, Hervier (2012): Net.lang. Towards the multilingual cyber‐ space, Caen, C-&-F Éditions. Wörterbücher ContejeanMontbéliard = Contejean, Charles (1876): Glossaire du patois de Montbéliard, Montbéliard, Imprimerie et Lithographie de Henri Barbier. DEAF = Dictionnaire étymologique de l’ancien français (DEAF), fondé par Kurt Baldinger, continué par Frankwalt Möhren, publié sous la direction de Thomas Städtler, Québec/ Tübingen/ Berlin, Presses de L’Université Laval/ Niemeyer/ De Gruyter, 1971-2021, DEAFél, https: / / deaf.ub.uni-heidelberg.de [letzter Zugriff: 11.10.2023]. DEAFBibl = Möhren, Frankwalt (2021): Complément bibliographique, Berlin, De Gruyter, DEAFBiblél, https: / / alma.hadw-bw.de/ deafbibl/ [letzter Zugriff: 11.10.2023]. DiTMAO = Bos, Gerrit/ Mensching, Guido (2011-2020): Dictionnaire des termes mé‐ dico-botaniques de l’ancien Occitan, https: / / www.uni-goettingen.de/ en/ 487498.html [letzter Zugriff: 17.08.2022]. DMF-= Dictionnaire du Moyen Français, version 2015 (DMF 2015), ATILF - CNRS & Université de Lorraine, Paris, http: / / www.atilf.fr/ dmf [letzter Zugriff: 17.08.2022]. FEW = von Wartburg, Walther (1922‒): Französisches Etymologisches Wörterbuch (FEW), continué par Otto Jänicke, Charles Théodore Gossen, Jean-Pierre Chambon, Jean-Paul Chauveau et Yan Greub, ATILF, Bonn/ Heidelberg/ Leipzig/ Berlin/ Basel, Schroeder/ Winter/ Teubner/ Zbinden. FEW, Index-= Französisches Etymologisches Wörterbuch. Index A-Z (2003), ATILF, Paris, Champion. LEI = LEI. Lessico Etimologico Italiano, fondato da Max Pfister, diretto da Elton Prifti e Wolfgang Schweickard, Wiesbaden, Reichert, 1979-. 190 Sabine Tittel <?page no="191"?> TLFi = Trésor de la langue française informatisé (TLFi) (2004), ATILF - CNRS & Université de Lorraine, Paris, http: / / www.atilf.fr/ tlfi [letzter Zugriff: 17.08.2022]. ZéliqzonMoselle = Zéliqzon, Léon (1922-1924): Dictionnaire des patois romans de la Moselle, Strasbourg, Librairie Istra. Kulturerbe, historische Linguistik und Semantic Web 191 <?page no="193"?> Digitale Phraseologie Elmar Schafroth Abstract In this article three digital projects will be presented, which are carried out at the Department of Romance Studies of the University of Düsseldorf or in cooperation with researchers from other universities. These projects all have to do with phraseology, related to Italian or to several languages in parallel. The first one (2.1.), called FRAME (Fraseologia Multilingue Elettronica, in English Electronic Multilingual Phraseology), describes set phrases in seven languages (Chinese, German, English, French, Italian, Russian, Spanish) according to principles of Construction Grammar, which means that they are 1. corpus-based and 2. multiply retrievable in a database for learners and other people interested, providing exhaustive information on all formal and semantico-pragmatic peculiarities and restrictions. The second project (2.2.) is intended for students of Romance languages, German and English who are interested in phraseology. The 22 videos not only cover all the essential content on this topic, but also address current research questions such as the relationship between phraseology and Construction Grammar. The third project, GEPHRI (Gebrauchsbasierte Phraseologie des Italienischen, in English Usage-based Phraseology of Italian) (2.3.), describes the 500 most frequent verbal idioms of Italian in a database, mainly according to the principles of Construction Grammar, partly also according to Frame Semantics. Keywords: phraseology, set phrases, verbal idioms, multilingual, Italian, database, corpus-based, Construction Grammar, Frame Semantics, video tutorials Keywords: Phraseologie, Phraseme, verbal Idiome, mehrsprachig, Italie‐ nisch, Datenbanken, korpusbasiert, Konstruktionsgrammatik, Framese‐ mantik, Videotutorials <?page no="194"?> 1 Cf. etwa Eickelmann (2018, 21): „Damit nimmt der zweite Zyklus der IEA-Studie ICILS [International Computer and Information Literacy Study] mit Computational Thinking einen zusätzlichen Kompetenzbereich in den Blick, der im Gegensatz zu anderen Ländern in Deutschland bisher noch kaum verankert ist. Auch hier deutet sich eine Entwicklungs- und Zukunftsaufgabe für die Digitalisierung in der schulischen Bildung an.“ Oder, aktuell: „Dass bei der Digitalisierung der Schulen in Deutschland dringend Nachholbedarf besteht, darüber war man sich auch schon vor der Corona-Krise weitgehend einig“ (Kiesler 2020). Cf. auch Kreutzer/ Sobel/ Voigtländer (2020). 2 In den meisten Fällen handelt es sich nach wie vor um Retrodigitalisierungen auf der Basis bereits vorhandener Printwörterbücher. Als genuine Neudigitalisierungen seien hier stellvertretend die der Sense-Texte-Theorie Mel’čuks verpflichteten digitalen Ressourcen um und von Alain Polguère - DiCoPop und Dicouèbe - genannt, von denen Letzteres jedoch mehr den Charakter einer Datenbank als den eines herkömmlichen Wörterbuchs hat (cf. Schafroth 2014b, 144-147, 153-156), ferner DAFLES und ELDIT. 3 Cf. Baker (2006); Bubenhofer (2009); Cresti/ Panunzi (2013); Niehr (2014); Crocco (2015); Lemnitzer/ Zinsmeister (2015); Rocco/ Schafroth (2019). An Korpora seien exemplarisch Frantext, PAISÀ und die Plattform Sketch Engine genannt, die 600 Korpora zu derzeit über 90 Sprachen anbietet (09.05.2022). 1 Einleitung Gerade in diesem Jahr mussten Universitäten und Schulen, besonders aber letztere, schmerzlich erfahren, wie sehr Deutschland in Sachen Digitalisierungs‐ technologie und -kompetenz anderen Ländern hinterherhinkt. 1 Ob das auch auf die Geisteswissenschaften und insbesondere die romanistische Sprachwissen‐ schaft zutrifft, vermag ich nicht zu beurteilen und soll auch nicht Thema dieses Beitrags sein. Vielmehr sollen in diesem Rahmen digitale Forschungsaktivitäten einer Romanistik in Deutschland vorgestellt werden, wobei der thematische Schwerpunkt der im Folgenden skizzierten Projekte auf der italienischen bzw. mehrsprachigen Phraseologie liegt. 2 Digitale Projekte der Düsseldorfer Romanistik Es gibt wohl kaum noch ein Arbeitsgebiet innerhalb der romanistischen Sprach‐ wissenschaft, in dem man nicht mit digitalen Medien in Berührung kommt. Digitale Ressourcen zu generieren und zu nutzen, ist zur Selbstverständlich‐ keit nicht nur von Lexikographie, 2 Korpus- und Diskurslinguistik, 3 Dialekto‐ 194 Elmar Schafroth <?page no="195"?> 4 Zu letzteren beiden cf. etwa folgende Projekte Atlante sintattico d’Italia (ASIt), Atlas linguistique de la France (ALF), Atlas linguistique audiovisuel du francoprovençal valaisan (ALAVAL), Atlas sonore des langues régionales de France, Vivaio Acustico delle Lingue e dei Dialetti d’Italia (VIVALDI) und WALS Online. 5 Cf. z. B. die Banque de données lexicographiques panfrancophone (BDLP) oder den Atlante della lingua italiana quotidiana (ALIQUOT). 6 Cf. etwa den Interactive Atlas of Romance Intonation Interactive und den Atlas of the Prosody of Portuguese (InAPoP), beide an der Schnittstelle zur Varietätenlinguistik. 7 Projektleiter sind Paola Cotta Ramusino (Russistin), Fabio Mollica (Germanistik) und Elmar Schafroth. logie und Sprachgeographie, 4 Varietätenlinguistik, 5 Intonationsforschung 6 und anderen Disziplinen geworden, inzwischen bedienen sich auch universitäre Einführungsbände und Studienbücher immer häufiger digitaler Methoden und Materialien (z. B. Detey/ Lyche/ Durand/ Laks 2010, Pustka 2016), von Monogra‐ phien, Sammelbänden und Handbüchern, die schon längst digital erscheinen und zunehmend fast nur noch als elektronische Ressource benutzt werden (wie z. B. die bei De Gruyter verlegten Handbücher zur Sprach- und Kommunikati‐ onswissenschaft) sowie digitalen Zeitschriften ganz zu schweigen. Hinzu kommt der Bereich der digitalen universitären Lehre, der, wie wir gerade in den letzten Monaten feststellen mussten, mehr einer (vielfach wohl sogar geglückten) Improvisation als einer durchdachten Strategie gleicht. Und die wenigsten eLearning-Projekte scheinen letzten Endes auf Anhieb seminartauglich zu sein. Im Folgenden sollen drei Neudigitalisierungen aus dem Bereich der Phra‐ seologie vorgestellt werden, die am Lehrstuhl Romanistik IV des Instituts für Romanistik der Heinrich-Heine-Universität Düsseldorf entstanden bzw. in Zusammenarbeit mit diesem konzipiert wurden: das internationale Projekt FRAME (2.1.), das e-Learning Projekt Videotutorials zur Phraseologie in mehreren Sprachen (2.2.) und das DFG-Forschungsprojekt GEPHRI zur italienischen Phra‐ seologie (2.3.). - 2.1 Das Projekt FRAseologia Multilingue Elettronica (FRAME) Das 2014 an der Università degli Studi di Milano aus der Taufe gehobene internationale Projekt FRAME (FRAseologia Multilingue Elettronica) ist eine Kooperation zwischen dem Dipartimento di Scienze della Mediazione Linguistica e di Studi Interculturali der Università degli Studi di Milano und dem Lehrstuhl Romanistik IV in Düsseldorf. 7 Es handelt sich dabei um eine Datenbank zur Phraseologie in sieben Sprachen (Chinesisch, Deutsch, Englisch, Französisch, Italienisch, Russisch, Spanisch), deren Ziel es ist, eine Vergleichbarkeit von Phra‐ semen in diesen Sprachen zu ermöglichen (cf. Benigni/ Cotta Ramusino/ Mol‐ Digitale Phraseologie 195 <?page no="196"?> 8 Die wichtigste operative Komponente des Projekts ist die Arbeit von etwa 20 Sprach‐ wissenschaftlerinnen und Sprachwissenschaftlern (aus Mailand, Padua, Rom, Verona, Düsseldorf und anderen Städten) verschiedener Nationalitäten (Italienisch, Spanisch, Französisch, Deutsch, Polnisch, Ukrainisch und anderen), darunter die drei Projekt‐ leiter. 9 „In Fage kommend“ heißt, dass für jede Sprache alle geläufigen Phraseme eines semantischen Feldes aus lexikographischen oder phraseographischen Quellen oder durch Introspektion zusammengestellt werden. 10 Ähnliche onomasiologische Klassifizierungen finden sich in Hallig/ Wartburg (1963), dem OED und Schemann (2012). 11 Es versteht sich von selbst, dass in der begrifflichen Gliederung verschiedener Sprachen einzelsprachlich-kontingente Unterschiede bestehen können, zumal, wie hier, Sprachen verschiedener Kulturräume involviert sind. Dieses Problem wurde dadurch gelöst, dass die Möglichkeit eingebaut wurde, weitere concepts-clés hinzuzufügen, was etwa auch im Projekt GEPHRI mitunter geschieht. Der kulturellen Diversität wurde im Übrigen auch dadurch Rechnung getragen, dass ein Beschreibungsparameter für Phraseme, der das hierarchische Verhältnis zwischen den Gesprächspartnern (gerarchia) differenziert, angesetzt wird: dall’alto al basso - uguaglianza - dal basso all’alto - indifferenziato. 12 Zur gegenseitigen Wahrnehmung und wissenschaftlichen Beeinflussung von Phraseo‐ logie und Konstruktionsgrammatik cf. Gries (2008) und Ziem (2018). Zu den diversen lica/ Schafroth 2015; Schafroth 2019). 8 Diese wird primär bewerkstelligt durch das tertium comparationis der Zugehörigkeit zum selben semantischen Feld: Alle in Frage kommenden Phraseme (it. fraseologismi), 9 vornehmlich (verbale) Idiome, Formeln, Sprichwörter, Vergleichsphraseme, Kollokationen und Phra‐ seoschablonen, werden zunächst für jede Sprache bezüglich ihrer Zugehörigkeit zu einem bestimmten semantischen Feld kodiert. Konzeptionelle Grundlage ist dabei die onomasiologische Klassifizierung in Bárdosi/ Ettinger/ Stölting (2003, 2-3.), die auf Bárdosi (1986) zurückgeht und ausführlich in Bárdosi (2017, 116-126) erläutert wird. Diese Gliederung besteht aus 25 Oberbegriffen wie z. B. III. L A VI E H U MAIN E , die wiederum in (insgesamt 955) concepts-clés aufgeteilt sind, z. B. innerhalb der Kategorie III in ‘Âge de la vieʼ, ‘Santéʼ, ‘Maladieʼ, ‘Mortʼ. 10 Zu jedem Schlüsselkonzept werden dann die dazugehörigen ‚Redewendungen‘ (verbalen Idiome) behandelt, z. B. zu ‘Santéʼ: avoir une santé de fer, avoir bon pied bon œil, se porter comme un charme/ le Pont-Neuf, être robuste comme un chêne, être d’une pâte à vivre jusqu’à cent ans, avoir l’âme chevillée au corps, reprendre du poil de la bête (Bárdosi/ Ettinger/ Stölting 2003, 14-15). Das onomasiologische Raster wurde sodann im Rahmen von FRAME ins Italienische übertragen, weil die Metasprache für die Beschreibung aller Sprachen das Italienische ist. 11 Es ist im Dropdown-Menü campo semantico auf der Projektseite (http: / / www.fraseol ogia.it/ MAD/ ) einzusehen. Die Beschreibung der einzelsprachlichen Phraseme erfolgt im Sinne der Konstruktionsgrammatik, i.-e. korpusbasiert und ganzheitlich. 12 Es werden alle 196 Elmar Schafroth <?page no="197"?> theoretischen Ansätzen innerhalb der Konstruktionsgrammatik cf. Ziem/ Lasch (2013) und Masini (2016). 13 Unter ‚verstehensrelevantem Wissen‘ versteht Busse (1997, 16) „alle Faktoren […], die in irgendeiner Weise notwendige oder wesentliche Voraussetzung für das Verstehen einer sprachlichen Äußerung sind.“ Besonders auf die semantisch-pragmatische Bedeutung von Phrasemen trifft zu, dass beim Anspruch einer exhaustiven Beschreibung „gerade auch das zugrundeliegende, versteckte, normalerweise übersehene, weil als selbstver‐ ständlich unterstellte Wissen“ (Busse 2003, 26) offengelegt werden muss. Der Ansatz Busses geht zurück auf Fillmores Semantics of Understanding, einem der Fundamente für dessen Frame-Theorie (cf. Fillmore 1985). 14 Hierzu zählen die Parameter vicinanza (tu), distanza (Lei), misto (tu e Lei) und per evitare tu o Lei. 15 Damit ist ein „funktionales Äquivalent“ (oder auch mehrere) im Italienischen gemeint, welches im gleichen Kontext wie das beschriebene Phrasem verwendet wird und sowohl semantisch als auch hinsichtlich der diasystematischen Markierung ähnlich ist: z. B. zur spanischen Grußformel ¡Buenas noches! , das italienische Buona sera! , oder zum französischen verbalen Idiom casser la croûte, die italienischen Ausdrücke mangiare qualcosa und fare uno spuntino. 16 Wenn die Korpusanalysen Abweichungen bezüglich der Form eines Phrasems erkennen lassen und diese keine Okkasionalismen sind, werden sie als Varianten erfasst. Wenn sie das Ergebnis eines Wortspiels sind, werden sie nur dann berücksichtigt, wenn diese Information in irgendeiner Weise nützlich sein kann. Wenn die Bedeutungen von der gebräuchlichsten Bedeutung abweichen und diese Abweichung kein Einzelfall ist, wird diese Information in der Rubrik note d’uso vermerkt. Wenn es sich stattdessen um eine semantisch andere (und gängige) Bedeutung handelt, wird sie in einem eigenen Datensatz (i.-e. einer eigenen scheda) behandelt. 17 Hiermit sind die beiden Klassifikationsnomenklaturen des ‹Variantentyps› (lessicale, morfologica, sintattica, ortografica, fonetico-fonologica) und der ‹diasystematischen Markiertheit› (letterario; linguaggi settoriali; standard colto; colloquiale, familiare; giovanile; popolare; slang; volgare; regionale; molto formale - burocratico; neutro) gemeint. sprachlichen Merkmale und Beschränkungen auf der Form- und der Inhaltsseite erfasst (cf. Croft 2001, 18), die zum ‚verstehensrelevanten Wissen‘ 13 (cf. Busse 1997; Ziem 2008, 150ss.) über das betreffende Phrasem gehören, also proso‐ dische, morphologische und syntaktische Besonderheiten auf der Formseite und semantische, pragmatische und diskursfunktionale Charakteristika auf der Inhaltsseite, womit auch Sprechakte, die Registerzugehörigkeit und das Sprecher-Hörer-Verhältnis 14 mit zum Untersuchungsdesign gehören. Auf diese Weise verfügt jedes Phrasem über ein ausführliches semasiologisches Profil, das nach einheitlichen Beschreibungskategorien erstellt wird (cf. Abb. 2). Aus Sicht des Benutzers läuft eine Suchabfrage wie folgt ab: Auf der Ebene der Suchmaske (maschera ricerca) sind die in Abb. 1 angegebenen Informationskategorien (und zugleich Abfragemöglichkeiten) dargestellt: Sprache (lingua) - funktionales Äquivalent (equivalente funzionale) 15 - Phrasemvariante 16 (variante) 17 - Phrasemtyp (tipo fraseologismo) - Formal‐ Digitale Phraseologie 197 <?page no="198"?> 18 Hier wird unterschieden zwischen molto informale/ volgare; molto informale/ slang; in‐ formale/ popolare; informale/ giovanile; informale/ colloquiale; familiare; formale/ standard colto; formale/ linguaggi settoriali; molto formale/ burocratico; molto formale/ letterario; neutro/ non marcato. 19 Lexeme, die in synonymischer oder antonymischer Beziehung zum behandelten Phrasem stehen. 20 Hier werden weniger verbreitete, jedoch keine seltenen oder veralteten phraseologi‐ schen Synonyme und Antonyme des beschriebenen Phrasems mit entsprechender Markierung aufgelistet. Häufige synonyme bzw. antonyme Phrasemen werden als eigene lexikalische Einheiten (i.-e. als eigene Datensätze oder schede) beschrieben. 21 Hier werden vier Arten unterschieden: positivo, negativo, neutro, eufemistico. 22 Cf. Anm. 14. 23 Cf. Anm. 11. 24 Hier sind übliche Sprechaktkategorien wie entschuldigen, überreden, befehlen, gratu‐ lieren, ein Kompliment machen oder beleidigen gemeint, die jedoch in der Regel vor allem auf Formeln zutreffen. Verbale Idiome z. B. sind meist primär Feststellungen, können aber sekundär je nach Kontext einen weiteren Sprechakt zum Ausdruck bringen, etwa im Falle von Ich habe Hunger wie ein Wolf, das auch als Bitte oder Aufforderung gemeint sein könnte. Je nachdem, ob solche pragmatischen Bedeutungen verbreitet oder gar häufig sind, werden sie in der Rubrik particolarità discorsive (cf. Abb.-2) behandelt. itätsgrad (formalità) 18 - Thesaurus Lexeme (thesaurus lessemi) 19 - Thesaurus synonymischer Phraseme 20 (thesaurus fraseologismi sinonimici) - Thesaurus antonymischer Phraseme (thesaurus fraseologismi antonimici) - Thesaurus Kollokationen (thesaurus collocazioni) - semantisches Feld (campo semantico) - Konnotationen 21 (valutazione) - Beziehung zwischen den Gesprächspartnern (relazione) 22 - hierarchisches Verhältnis zwischen den Gesprächspartnern 23 (gerarchia) - Sprechakt 24 (atto linguistico). Abb. 1: FRAME: maschera ricerca; Abfrage mit drei Parametern: lingua, tipo fraseolo‐ gismo, campo semantico. 198 Elmar Schafroth <?page no="199"?> 25 Zum Beispiel dt. jemandem läuft das Wasser im Mund zusammen, fr. casser la croûte, avoir l’eau à la bouche, it. avere l’acquolina in bocca, sp. tener un hambre canina. Diese Informationen spiegeln sich im Datenbankeintrag zu einem bestimmten Phrasem (it. fraseologismo) wider (Abb. 2). Im hier gegebenen Beispiel lautet die Abfrage espressione idiomatica (tipo fraseologismo), kombiniert mit den beiden Suchkriterien francese (lingua) und piaceri della tavola/ nutrimento (campo seman‐ tico). Die Ergebnisliste zu dieser Recherche enthält somit alle französischen Idiome, die dem semantischen Feld des Essens und Trinkens zugeordnet wurden. Verändert man die Suchanfrage, indem man z. B. die Sprache offen lässt, erhält man die Idiome in diesem semantischen Feld für sechs der sieben Sprachen (derzeit [09.05.2022] 15 espressioni idiomatiche des Chinesischen, Deutschen, Französischen, Italienischen, Russischen und Spanischen). 25 Insgesamt wurden in FRAME ca. 100 Phraseme der Kategorien verbale Idiome, Formeln, Sprichwörter, Phraseoschablonen und Vergleichsphraseme in den genannten Sprachen erfasst. Abb. 2: FRAME: Ergebnis für fr. ʻcasser la croûteʼ (Detailansicht), resultierend aus der Suchanfrage espressione idiomatica, francese und piaceri della tavola/ nutrimento; die mit dem Pfeilsymbol markierten Beschreibungsparameter (z. B. → Thesaurus) bringen nach Mausklick die entsprechenden Besonderheiten zum Vorschein. Digitale Phraseologie 199 <?page no="200"?> 26 Der Einbezug des Kollokationskonzepts in die Beschreibung von Phrasemen, insbeson‐ dere verbaler Idiome, ist umstritten. Dennoch bestehen zweifelsohne kollexematische Affinitäten zwischen Idiomen und bestimmten Lexemen (cf. Mollica/ Schafroth 2021), die durchaus als kollokationell gesehen werden können. So sind typische Kookkur‐ renzen von an die große Glocke hängen die Lexeme Geheimnis, Neuigkeit, Geschichte. Setzt man diese als lexikalische Basen an, könnte argumentiert werden, dass sie mit dem Idiom an die große Glocke hängen mit der Bedeutung ʻverratenʼ eine kollokationelle Ver‐ bindung eingehen, so dass letztlich eine Synonymie zwischen ein Geheimnis verraten, welches zweifelsfrei eine Kollokation im Hausmannschen Sinne ist (cf. Hausmann 2004; Konecny 2010), und ein Geheimnis an die große Glocke hängen sichtbar wird. 27 Die unmittelbare Vergleichbarkeit bezieht sich also auf 1. dasselbe semantische Feld und 2. auf denselben Phrasemtyp. Es ist aber nicht in jedem Fall sinnvoll, auch das zweite tertium comparationis anzusetzen, weil ein Konzept in Sprache A durch ein verbales Idiom, in Sprache B aber womöglich durch ein Sprichwort phraseologisch versprachlicht sein kann. Es ist hier nicht der Ort, um auf die semasiologischen Profile en détail einzugehen, ich verweise hier auf Schafroth (2019). Zwei Dinge sollen jedoch unterstrichen werden: 1. In FRAME ist die Umsetzung des konstruktionsgrammatischen Prinzips der ganzheitlichen Beschreibung sprachlicher Einheiten auf allen formalen und inhaltlichen Ebenen verwirklicht: Semantik, Pragmatik, Diskurs, Pro‐ sodie, Morphologie und Syntax. Alle Besonderheiten spiegeln sich in Kor‐ pusbelegen wider, ein framesemantisches Prinzip kommt in den Thesauri zum Ausdruck, die bedeutungsähnliche oder antonymische Phrasemen desselben semantischen Feldes, das letztlich als Frame interpretiert werden kann (hier Essen und Trinken), zusammenfassen bzw. kollokatio‐ nelle Elemente miteinbeziehen (Kollokatoren oder Basen zu Idiomen etwa, z. B. zu it. mettere a segno die Basen, wenn man so möchte, 26 un colpo, un gol, un furto, mit jeweils unterschiedlicher Bedeutung des Idioms, oder der Kollokator gran in alzare un gran polverone). 2. Die Datenbank FRAME ist insofern zweifach komparatistisch angelegt, als zum einen auf der Basis des übergeordneten tertium comparationis, des se‐ mantischen Feldes, eine konzeptionelle Vergleichbarkeit hergestellt wird, und zusätzlich, unter Ansatz eines phrasemklassifikatorischen tertium comparationis (Idiom, Formel, Sprichwort etc.), die semasiologischen Pro‐ file der in Frage kommenenden Phraseme in allen untersuchten Sprachen miteinander verglichen werden können. 27 Auf diese Weise wird auch er‐ sichtlich, dass es echte Äquivalenz zwischen Phrasemen so gut wie nie gibt (cf. Schafroth 2020c), auch nicht zwischen vermeintlich austauschbaren Idiomen wie it. essere un’aqua cheta und dt. ein stilles Wasser sein. 200 Elmar Schafroth <?page no="201"?> 28 Am Datenexport durch Generierung von PDF-Dateien wird derzeit noch gearbeitet. 29 Auf diese Weise sind derzeit weitere rund 200 (noch nicht finalisierte) Phraseme offline und noch nicht in der Datenbank sichtbar. Es wird zudem versucht, in einer geeigneten Förderlinie Ressourcen zu akquirieren, die eine beschleunigte Fertigstellung des Projekts ermöglichen. 30 Ich möchte folgenden Personen sehr herzlich danken: Cornelia Delbos, Anita Pasquariello-Bönhof (ehemalige Mitarbeiterinnen am Lehrstuhl Romanistik IV) sowie Frederic Labudda und Koray Çoban (Mitarbeiter des Medienlabors). Mit anderen Worten: Es gibt immer eine formale und/ oder inhaltliche Restrik‐ tion in einer Sprache, die es in der anderen nicht gibt. Meistens sind es sogar mehrere. Was den Aspekt der Digitalisierung betrifft, war, wie so oft bei geisteswis‐ senschaftlichen Projekten, die größte Herausforderung, die Brücke zwischen sprachwissenschaftlicher Konzeption und webtechnologischer Implementie‐ rung zu schaffen. Die strukturelle Aufteilung der database in Datenerfassung (Projektmitarbeiter/ innen) und Suchmaske, Ergebnisliste und Phrasem-Detail‐ ansicht (Benutzer/ innen) war naheliegend, so dass sich der Dialog zwischen den Projektleitern und dem Informatiker als erfolgreich herausgestellt hat. 28 Eine weit größere Herausforderung ist es jedoch, die offline-Abläufe zu koordinieren und zu kontrollieren. Damit die Qualitätskontrolle der Artikel (Datensätze, schede) gewährleistet ist, wurde jeder Datensatz von einem weiteren mutter‐ sprachlichen Projektmitglied durchgesehen bzw. korrigiert und in einer ersten Phase des Projekts in Google Drive, danach in der Dropbox in den Ordnern da verificare, pronte da inserire und inserite abgelegt. 29 Aus webtechnologischer Sicht ist zu sagen, dass es sich bei der in FRAME verwendeten Software um eine LAMP-Umgebung handelt, die aus den Komponenten LINUX (als Betriebssystem), Apache (als Webserver), MySQL (als Datenbank) und PHP (als Skriptsprache) besteht. Das Ergebnis ist eine dynamische Webseite und Open-Source-Anwendung, die als Multiple Access Database entwickelt wurde. - 2.2 Videotutorials zur Phraseologie in mehreren Sprachen Auch für die Lehre wurde in Düsseldorf ein digitales Projekt zur Phraseologie realisiert. In Zusammenarbeit mit Mitarbeiterinnen des Lehrstuhls Romanistik IV, dem Medienlabor der Philosophischen Fakultät der Universität und mit Unterstüt‐ zung des eLearning-Förderfonds der Heinrich-Heine-Universität wurden in den Jahren 2017 bis 2019 22 Videos zur Phraseologie konzipiert, gedreht und veröffent‐ licht (https: / / phraseologie.phil.hhu.de/ ). 30 Die Phraseologie ist fester Bestandteil des Lehrplans der Sprachwissenschaften der Romanistik, der Germanistik und der Anglistik. Jedoch gibt es bis zum derzeitigen Zeitpunkt kein universitäres Studienbuch zum Themenbereich Phraseologie, das die romanischen Sprachen Digitale Phraseologie 201 <?page no="202"?> Italienisch, Spanisch und Französisch zusammen, geschweige denn zusätzlich die Sprachen Englisch und Deutsch, berücksichtigt (zum Deutschen etwa Burger 2015 und Fleischer 1997). Des Weiteren gibt es nur sehr wenige digitale Lehrmaterialien zu den Sprachwissenschaften generell und bislang keine zum Themenbereich Phraseologie. Mit den Online-Tutorials wurde ein fachspezifisches linguistisches und didaktisches Instrumentarium geschaffen, welches die derzeitigen multime‐ dialen Möglichkeiten profitabel nutzt und in vielen Lehrveranstaltungen der Romanistik, aber auch, da die Erklärungssprache Deutsch ist, in Seminaren zur deutschen oder englischen Phraseologie, zumindest in den terminologisch-be‐ grifflichen Teilen, eingesetzt werden kann. Da die Tutorials online ohne Zugangsbeschränkung veröffentlicht werden, wird die Zielgruppe der fakultätseigenen Studierenden um solche der Sprachwis‐ senschaften aus dem In- und Ausland erweitert (und hierbei insbesondere um Studierende beteiligter ausländischer Sprachwissenschaftler bspw. an Universi‐ täten in Österreich, Italien und Spanien). Aufgrund der hohen fremdsprachlichen Anteile und des komparativen Charakters sind die Tutorials ebenfalls für Ler‐ nende und Lehrende der Fremdsprachen Englisch, Französisch, Spanisch und Italienisch sowohl im universitären als auch im schulischen Bereich von Interesse. Abb. 3: Bildschirmfoto aus dem Videoturial „IX. Verbale Idiome“, hier: phraseologische Versprachlichungen des Konzepts ‹mit einer Vorstellung, Meinung o. Ä. sehr irren› in fünf Sprachen (ab Minute 15: 30), https: / / phraseologie.phil.hhu.de/ lektion9/ (11.05.2022). Drei unterschiedliche Typen von Videos sollen die unterschiedlichen Lernerbe‐ dürfnisse erfüllen: Grundlagentutorials vermitteln Grundkenntnisse zu den einzelnen Themen‐ bereichen der Phraseologie. Hierfür wurden Videos zu ersten Begriffserklä‐ 202 Elmar Schafroth <?page no="203"?> 31 Mein herzlicher Dank geht an die Kolleginnen Carmen Mellado Blanco (Univ. Santiago de Compostela), Christine Konecny (Univ. Innsbruck) und Luisa Giacoma (Univ. della Valle d’Aosta) sowie an den Kollegen Alexander Ziem (Univ. Düsseldorf). rungen des Themenbereichs und zu Definitionskriterien und Klassifizierungen von Phrasemen erstellt aber auch zu Untertypen von Phrasemen wie Kollo‐ kationen, verbalen Idiomen (Abb. 3), satzwertigen Phrasemen, Routine- und Gesprächsformeln, Vergleichsphrasemen und Phraseoschablonen sowieso zur Phraseologie aus Sicht der Konstruktionsgrammatik (Abb. 4): Abb. 4: Bildschirmfoto aus dem Videoturial „VI. Konstruktionsgrammatik“, hier: Anwen‐ dung des ganzheitlichen Beschreibungsansatzes (nach dem Modell von Croft 2001, 18) auf das verbale Idiom des Deutschen ʻjemandem ist eine Laus über die Leber gelaufenʼ (ab Minute 17: 00), https: / / phraseologie.phil.hhu.de/ lektion6/ (11.05.2022). Ergänzende Zusatzvideos wurden für Studierende erstellt, deren Interesse über die im Studium geforderten Kenntnisse zur Phraseologie hinausgeht und die u. a. zur thematischen Vorbereitung von Bachelor- und Masterarbeiten dienen sollen. Diese Zusatzvideos beleuchten beispielsweise einzelne Theorien von international bekannten Phraseologen (auch solche abseits des Mainstreams) und gehen auf bestimmte Untertypen von Phraseologismen, wie bspw. Sprich‐ wörter, noch detaillierter ein. Die dritte Videokategorie beinhaltet Expertenin‐ terviews. Für diese Kategorie wurden international bekannte Phraseologinnen und Phraseologen (bzw. Konstruktionsgrammatiker) zu ihren Theorien und neuesten Forschungsergebnissen befragt. 31 Wichtig bei der Vermittlung der Wissensinhalte war eine konsequente Orientierung an der Lebenswelt der Studierenden, um eine möglichst große Identifikation mit diesem in der All‐ tagssprache omnipräsenten Thema zu ermöglichen. Da ein solches Projekt Digitale Phraseologie 203 <?page no="204"?> 32 Cf. https: / / www.zim.hhu.de/ services-des-zim/ elearning/ lernmanagementsystem-ilias. html (11.05.2022). 33 Es handelt sich um ein von der Deutschen Forschungsgemeinschaft finanziertes Projekt mit einer Laufzeit von 2018 bis 2021. Das Team bestand aus dem Projektleiter, einem Koordinator, zwei wissenschaftlichen Mitarbeitern, drei studentischen bzw. wissen‐ schaftlichen Hilfskräften, einem Informatiker sowie zwei externen Lexikographinnen sowie mehreren externe Sprachexperten. 34 Über das Projekt GEPHRI, sein theoretisches Fundament und seine methodologische Konzeption informieren Imperiale/ Schafroth (2019), Schafroth/ Imperiale (2019), Schaf‐ roth (2020a, b). Der konstruktionsgrammatische Bezug wird am ausführlichsten darge‐ stellt in Schafroth (2014a, 2015). In Schafroth (2014a) wird zudem eine Verknüpfung mit der Mel’čukschen Sense-Text-Theorie und den lexikalischen Funktionen der Lexicologie explicative et combinatoire versucht (Polguère 2008). deutschlandweit bisher weder für den Bereich der Phraseologie noch für einen anderen Bereich der Sprachwissenschaften existiert, übernimmt das Institut für Romanistik hiermit eine Vorreiterrolle für kreative und an den Studierenden orientierte Wissensvermittlung. Der Anteil der eLearning-Elemente in den Lehrveranstaltungen variiert je nach inhaltlicher Ausrichtung der Lehrveran‐ staltung ebenso wie der Schwierigkeitsgrad und der Umfang der Übungen auf der universitätseigenen Lernplattform ILIAS (Integriertes Lern-, Informations- und Arbeitskooperations-System). 32 - 2.3 GEPHRI: Gebrauchsbasierte Phraseologie des Italienischen Das dritte digitale Phraseologie-Projekt 33 ist die elektronische Umsetzung des in 2.1 beschriebenen konstruktionsgrammatischen und (partiell) frameseman‐ tischen Ansatzes mit Bezug auf die verbalen Idiome des Italienischen. For‐ schungschronologisch muss präzisiert werden, dass die Idee für die Konzeption einer ganzheitlichen Phrasembeschreibung nach den genannten Prinzipien und einer digitallexikographischen Wissensrepräsentation in einem GEPHRI vorgeschalteten Projekt, der Lernerplattform Italienisch (2012-2017), entstanden und dann auch in das Mailänder Projekt FRAME eingeflossen ist. 34 Der Ausgangspunkt für das Anliegen, Phraseme in einer Fremdsprache so zu beschreiben, dass sie nicht nur in all ihren Bedeutungsfacetten verstanden werden, sondern auch aktiv in den Kontexten und mit derjenigen Intention benutzt werden können, die typischerweise bei Muttersprachlern zu beobachten ist, resultierte nicht nur aus zahlreichen persönlichen Erfahrungen im Gebrauch von Idiomen, Formeln oder Sprichwörtern, die die Schlussfolgerung zu Tage förderten, dass es alles andere als leicht ist, sie in den richtigen Momenten und Situationen einzubauen oder formal und inhaltlich adäquat anzuwenden, sondern ganz besonders auch aus der Erkenntnis, dass man es als Lerner oder Benutzer einer Fremdsprache offenbar mit einem Lerninhalt zu tun hat, der niemanden 204 Elmar Schafroth <?page no="205"?> 35 „Any linguistic pattern is recognized as a construction as long as some aspect of its form or function is not strictly predictable form its component parts or from other constructions recognized to exist“ (Goldberg 2003, 219). 36 „Patterns are stored as constructions even if they are fully predictable as long as they occur with sufficient frequency“ (Goldberg 2006, 5). 37 Gearbeitet wird mit PAISÀ, La Repubblica, itTenTen16, CORIS und anfangs auch WEBBIT. 38 Die Datenbank wird inklusive des Front- und eines passwortgeschützten Back-Ends auf der Serverinfrastruktur der Heinrich-Heine-Universität Düsseldorf gespeichert und zur Nutzung bereitgestellt. Für die Nutzung des Front-Ends werden keine Anmeldedaten der Nutzer/ innen erfragt. Eine Bearbeitung, das Hinzufügen oder das Löschen der Daten ist nur autorisierten Projektmitarbeiter/ innen möglich. Die zu verwaltende Datenmenge wird mit einem zu erwartenden Umfang von 1 GB - die vergleichsweise geringe Datenmenge resultiert aus der Tatsache, dass es sich größtenteils um Textdaten im txt-Format (UTF-8) handelt - für mindestens 10 Jahre auf zwei Servern (Supermicro und NetApp) der Universität Düsseldorf gespeichert. so richtig zu interessieren scheint: weder die Fremdsprachendidaktik noch die Lehrbuchverlage noch die (Lerner-)Wörterbücher noch die Lernergrammatiken (cf. Ettinger 2013, 2019; Schafroth 2013, 2014a). Phraseme sind etwas für Mutter‐ sprachler! Und im Zweifelsfall gilt: Quod licet Iovi non licet bovi! Ziel von GEPHRI ist es daher, Phraseme, die als Konstruktionen im Sinne Goldbergs (2003 35 , 2006 36 ) aufgefasst werden (cf. Dobrovol’skij 2013), exhaustiv, i. e. auf allen Ebenen ihrer Form- und ihrer Inhaltsseite zu beschreiben. ‚Sprachliches Wissen‘ wird somit als emergentes Produkt des Sprachgebrauchs verstanden, weshalb alle Analysen konsequent korpusbasiert sind. 37 Ferner wird der Beschreibung der pragmatischen Dimension von Phrasemen breiter Raum eingeräumt (cf. bereits Fillmore/ Kay/ O’Connor 1988) und rekurrent auf‐ tretende ‚Variation‘ auf allen formalen und inhaltlichen Ebenen dokumentiert, wobei insbesondere auf die Beschreibung neu entstandener types und auf häufige oder saliente tokens geachtet wird. Das erhobene Sprachwissen wird - nach dem Grad des Informationsbedürfnisses bzw. der Sprachkenntnisse der Benutzer/ innen in Form zweier Ebenen (‚Basis‘ und ‚Details‘) differenziert - in einer MYSQL 5.7-Datenbank gespeichert und auf einer dynamischen Webseite (CMS TYPO3) zur Verfügung gestellt. 38 Der Zugriff auf die Phraseme erfolgt über eine Schlagwort- oder Volltextssuche oder über die semantischen Felder. Jedes Idiom wird also - wie im FRAME-Projekt - einem (oder auch mehreren Digitale Phraseologie 205 <?page no="206"?> 39 Eine weitere onomasiologische und gleichzeitig framesemantische Komponente ist die Erfassung von bedeutungsähnlichen und antonymischen Lexemen und Phrasemen in den dafür vorgesehenen Rubriken Thesaurus Lexeme und Thesaurus Phraseme, die aufgrund ihrer semantischen Affinität Teile des durch das Phrasem aufgerufenen Frames sind. Durch onomasiologische Recherchen im analogischen Wörterbuch von Feroldi/ Dal Pra (2011) werden ferner weitere lexikalische Einheiten erfasst, die Bestand‐ teile dieses Frames sind, z. B. zum Idiom fare acqua (da tutte le parti) (semantische Felder: errore, fallimento, inutilità, lacuna, Frame: Scheitern) die Verben fallire, sbagliare, stentare, traballare, zoppicare, die Substantive allerta, crisi, difetto, errore, fallimento, fallo, incoerenza, lacuna, mancanza, neo, pecca, oder Kollokationen wie colare/ mandare a picco oder essere/ mettere in crisi. Diese Informationen verstehen sich als onomasiologischer ‚Service‘, der in der Tradition von Lernerwörterbüchern, die auch Produktionswörterbuch sein möchten, steht. 40 PAISÀ, WEBBIT, La Repubblica und CORIS. 41 Erstmals wurde dieses Modell in Schafroth (2013) vorgestellt, anhand des Phrasems jemandem ist eine Laus über die Leber gelaufen. semantischen Feldern) zugeordnet. Das digitale Wörterbuch GEPHRI ist folglich semasiologisch und onomasiologisch strukturiert. 39 Die empirische Basis für die untersuchten Phraseme wurde nach den Kriterien der Frequenz und Geläufigkeit bei Muttersprachlern ermittelt. Bisher galt es ja als Desi‐ derat (cf. Ettinger 2012, 2013, 2019), fundierte Aussagen über die Häufigkeit und den Verkehrswert von Phrasemen treffen zu können. Für GEPHRI wurde diese Heraus‐ forderung in vielversprechender Weise bewältigt, indem die Frequenzwerte aller in Quartu/ Rossi (2012) verzeichneten 2.030 verbalen Idiome einer Häufigkeitsanalyse in vier der oben genannten Korpora 40 untersucht und zusätzlich muttersprachliche Befragungen bei kritischen Frequenzwerten durchgeführt wurden, unabhängig davon, ob diese unterhalb oder oberhalb des definierten Schwellenwertes lagen, also auch wenn sie sehr niedrige Werte aufwiesen. Die Beschreibung der hieraus extrahierten 500 häufigsten und geläufigsten verbalen Idiome (espressioni idiomatiche verbali) erfolgt als Weiterentwicklung des seit 2012 als PhraseoFrame konzipierten lexikografischen Wissensrepräsen‐ tationsmodells, das alle formalen und inhaltlichen Restriktionen und Besonder‐ heiten eines Phrasems auf der Basis von Korpusanalysen erfassen soll. 41 Bei den PhraseoFrames handelt es sich um lexikografische Modellierungen, die Phraseme im Sinne der framesemantischen Strukturkonstituenten slots, fillers und default values beschreiben (cf. Ziem 2008). Mit den Leerstellen (slots) sind die relevanten Wissensaspekte, i. e. Beschreibungskategorien wie ‹Bedeu‐ tung› oder ‹illokutive Funktion› gemeint. Die Standardwerte (default values) betreffen das zu erwartende Wissen, wie es sich vor allem aus Wörterbüchern extrahieren lässt, und die konkreten Füllwerte (fillers) entsprechen dem mittels Korpusanalysen gewonnenen Wissen. Die Darstellung dieser Strukturkonstitu‐ 206 Elmar Schafroth <?page no="207"?> 42 Prosodische Aspekte spielen in der italienischen Phraseologie nur eine untergeordnete Rolle. 43 Die Metasprachen (z.-B. in den Bedeutungsbeschreibungen) sind Deutsch und Italienisch, i. e. es wird zwei Versionen der Webseite geben. Da die PhraseoFrames von einem deutschen Muttersprachler und einer italienischen Muttersprachlerin (mit Metasprache Deutsch bzw. Italienisch) geschrieben werden, werden laufend Übersetzungen der metasprachlich relevanten Teile der PhraseoFrames in die jeweils andere Sprache angefertigt. enten erfolgt in Form von ausformulierten Attribut-Werte-Zuordnungen (cf. das Beispiel andare a monte in der GEPHRI-Datenbank). Die Wissensaspekte, also die Beschreibungsparameter, entsprechen im We‐ sentlichen den Ebenen Morphologie und Syntax, der Semantik, Pragmatik und Diskurssteuerung. 42 Die Bereiche, in denen GEPHRI neue Wege beschreitet, sind die lexikalischen Valenzen, die Kookkurrenzen und Kollokationen der „internen Syntax“ sowie Charakteristika der „externen Syntax“, darüber hinaus eine strikt korpusbasierte kontextabhängige Bedeutungsbeschreibung, eine subtile Differen‐ zierung der illokutiven Funktionen sowie der Einbezug des situativen Rahmens, der registerspezifischen Besonderheiten und die didaktischen Gebrauchshinweise. All diese Beschreibungskategorien gehen weit über das hinaus, was jemals von einer lexikografischen Phraseologie geleistet wurde. Dreh- und Angelpunkt ist dabei die ganzheitliche lexikografische Modellierung verbaler Idiome, exemplifiziert am Italienischen, mit einer zusätzlichen kontrastiven Perspektive. Fremd- und zweitsprachendidaktische Aspekte spielen zwar eine wichtige Rolle, sind jedoch bei weitem nicht der einzige lexikografische Mehrwert, der in GEPHRI angeboten wird. Die folgenden Zielgruppen werden je nach Wissensbedürfnis und Sprachkompetenz (Basis- und Detailwissen) Antworten auf allen möglichen Fragen zu den verbalen Idiomen finden: • jede(r), die/ der Italienisch im fortgeschrittenen Stadium lernt; • insbesondere Studentinnen und Studenten mit Muttersprache Deutsch, die Bachelor, Master oder Lehramt Italienisch studieren; • Italienischsprachige, die an den deutschen Äquivalenten der Phraseme interessiert sind; • Italienisch-Lehrerinnen und -Lehrer an Gymnasien; • Übersetzer/ innen und Dolmetscher/ innen; • Verlage, die sich mit italienischer Lexikographie beschäftigen; • Wissenschaftler/ innen der Italianistik, besonders Sprachwissenschaftler/ innen; • interessierte Laien mit guten Italienischkenntnissen; • italienische Muttersprachler/ innen, die mehr über ihre modi di dire erfahren möchten. 43 Digitale Phraseologie 207 <?page no="208"?> 44 Auf der künftigen Webseite, die bei Redaktionsschluss dieses Artikels noch nicht fertig‐ gestellt war, wird es geringfügige Verschiebungen einzelner Beschreibungsparameter geben. So wird etwa die Kategorie Bedeutungen weiter oben erscheinen, da diese einem der wichtigsten Nachschlagebedürfnisse entspricht. 45 Allein die Tatsache, dass in GEPHRI grundsätzlich grammatikalische Valenzen bei Phrasemen beschrieben werden (z. B. darsi una mossa per INF, a INF, a NP), ist ein phra‐ seologisches Novum (cf. Imperiale/ Schafroth 2019). Die lexikalische Valenz (Terminus nach Schwarze 1995, 119, 126), valenzgrammatisch meist ein Direktivum (cf. Ágel 2017, 538ss.), zeige, so Schwarze, nicht nur die syntaktische Struktur an, wie di bei fidarsi di qualcuno (ʻjemandem trauenʼ), sondern enthalte zusätzlich „lexikalisch-semantische Information“ (Schwarze 1995, 119); diese Art von Valenz könne deshalb auch als lexikalisch variable oder lexikalische Valenz bezeichnet werden. Cf. die unterstrichenen Bestandteile in saperla lunga in fatto di qualcosa, in quanto a qualcosa, die im aktuellen Sprachgebrauch des Italienischen zusätzlich zu den grammatikalischen Valenzen in oder su qualcosa geläufig sind. 46 Zu den Begriffen „interne“ und „externe Syntax“ cf. ausführlich Mollica/ Schafroth (2021). Der systematische Einbezug von ‚Satellitenkonstituenten‘ eines Phrasems wurde zwar bereits von Ettinger (2009) auf der Grundlage von Korpusuntersuchungen ins Spiel gebracht, finden aber erst seit GEPHRI systematisch und umfassend Anwen‐ dung in der romanischen Phraseologie. Hierzu zählen Kollokationen (z. B. alzare un gran polverone) und kookkurrierende Elemente (z. B. avere una coda di paglia lunga un chilometro, mangiarsi le mani fino ai gomiti). 47 „Die externe Syntax betrifft den syntaktischen Verwendungsrahmen, i.e.S. den Verwen‐ dungskontext der Konstruktion“ (Feilke 2007, 72). Genauer in Mollica/ Schafroth (2021). Die Struktur der PhraseoFrames kann wie folgt schematisch dargestellt werden: 44 Schematische Struktur der PhraseoFrames Sprachliches Wissen über die 500 häufigsten verbalen Idiome des Italienischen - Formale (und andere) Varianten Syntax grammatische und lexikalische Valenzen 45 Kollokationen der internen Syntax 46 Kookkurrierende Elemente der internen Syntax Charakteristika der externen Syntax 47 Usuelle Satztypen Semantik semantische Felder 208 Elmar Schafroth <?page no="209"?> 48 Zum Idiom arrampicarsi sugli specchi etwa die „dephraseologische Derivation“ (cf. Stumpf 2015) l’arrampicata sugli specchi. 49 Links zu YouTube-Videos, in denen das Phrasem in einem authentischen Kontext verwendet wird. Bedeutung(en) Thesaurus Lexeme Thesaurus Phraseme Pragmatik wörtliche Bedeutung situativer Rahmen illokutive Funktion(en) Register metasprachlicher Gebrauch Weitere Besonderheiten formal ähnliche Phraseme mit unterschiedlichen (nicht unbedingt idiomatischen) Bedeutungen stilistische Besonderheiten Wortbildungen, die auf Idiomen basieren 48 kulturelle Spezifika weiteres Wissen über Idiome L2 Gebrauchshinweise (z.-B. formal ähnliche, jedoch semantische oder pragmatisch verschiedene Idiome) Videos 49 Wörterbücher und Korpusbelege (PDF) zweisprachige Wörterbücher einsprachige Wörterbücher phraseologische Wörterbücher Zusammenstellung der verwendeten Korpusbelege Abb. 5: schematische Struktur einer Phrasembeschreibung (= PhraseoFrame). Digitale Phraseologie 209 <?page no="210"?> Zur Lektüre in GEPHRI empfohlen seien die Phraseme fare carte false (ʻalles Erdenkliche tun, um zum Ziel zu kommenʼ), voltare le spalle (ʻjemanden im Stich lassenʼ, u. a.), darsi una mossa (ʻsich beeilenʼ, u. ä.), essere sul piede di guerra (ʻauf dem Kriegsfuß stehenʼ), dare un taglio (ʻmit etwas endgültig abschließenʼ, u. a.), andare nel pallone / in bambola vs. andare in tilt (ʻdurcheinander od. nervös seinʼ, u.-a.). 3 Herausforderungen und Perspektiven Lehr- oder Forschungsprojekte, seien sie digital oder analog, sind immer nur so gut wie die Köpfe, die sie konzipieren und die Mitarbeiter/ innen, die sie umsetzen. Zu diesen gesellen sich bei digitalen Projekten die Informatiker/ innen und bei audiovisuellen Projekten das Aufnahme- und Kamerateam. Alle diese Personen sind Teil des Projekts. Damit wachsen die qualitativen Ansprüche an ein Projekt noch einmal stark an. Hinzu kommt für jeden Wissenschaftler und jede Wissenschaftlerin die Herausforderung, die eigenen Anliegen in eine Sprache und in eine begriffliche Struktur zu übertragen, die von der Computer‐ abteilung verstanden werden können und als Basis für die webtechnologische Entwicklung des Projekts unabdingbar sind. Natürlich gilt das Gebot der Ver‐ stehbarkeit auch umgekehrt (von Informatik in Richtung Geisteswissenschaft). Doch es gibt weitere Aspekte, die bedacht werden müssen. Bereits bei der Antragsstellung müssen diverse Leitlinien zum Umgang mit Forschungsdaten beachtet werden, so etwa die Daten unentgeltlich und uneingeschränkt zur Nachnutzung zur Verfügung zu stellen, die langfristige Nutzungsmöglichkeit der Daten durch eine entsprechende Serverinfrastruktur zu gewährleisten und die Veröffentlichung in einem CLARIN-D-Zentrum in Aussicht zu stellen. Ist das Projekt dann genehmigt, geht es darum, urheberrechtliche Belange zu klären, besonders wenn man aus Wörterbüchern und Sprachkorpora oder (bei den Videotutorials) aus der Fachliteratur zitiert. Die Rolle der Informatiker/ innen ist bei Projekten wie FRAME und GEPHRI von besonderer Bedeutung, da die Datenbankkonzeption in der ersten Phase des Projekts in der Regel mehrmals modifiziert und die Pflege der Webseite zur Daueraufgabe wird, von den automatischen und regelmäßigen Backups der Daten und der Metadatenaufbe‐ reitung für Suchmaschinen ganz zu schweigen. Die meisten von uns sind nicht mit der IT-Welt groß geworden. Aber auch digital natives können nicht ohne Vorkenntnisse und einschlägige Erfahrungen mit Informatikern fachsimpeln. Es wird also einen enormen Bedarf an Schnitt‐ stellen zwischen Geisteswissenschaften und Informatik geben, der erst nach und nach erkannt und sicher so schnell nicht gedeckt werden wird, denn ein 210 Elmar Schafroth <?page no="211"?> 50 Inzwischen ( Juli 2023) ist das analoge Projekt IdeFitS (Idiome des Französischen im täglichen Sprachgebrauch) im Netz frei zugänglich. Es ist auf deutlich weniger Phraseme begrenzt und wird aus Mitteln der Heinrich-Heine-Universität Düsseldorf finanziert. ‚hybrider‘ Wissenschaftler, der (z. B.) Romanistik und Informatik studiert hat, falls es ihn oder sie überhaupt in nennenswerter Anzahl gibt, findet 100mal eher eine Stelle in der IT-Branche als in der Romanistik. Was die Desiderata für die beiden phraseologischen Projekte FRAME und GEPHRI betrifft, so wäre es in webtechnologischer Hinsicht wünschenswert, in beiden Projekten interaktive Schnittstellen für Benutzer/ innen zu schaffen, eine Art Userforum, ferner in beiden Datenbanken ein Interface für reziproken Datenaustausch zu implementieren und besonders GEPHRI als linked open data-Ressource zu modellieren. Was die Desiderata aus sprachwissenschaft‐ lich-phraseologischer Sicht angeht, so bleibt zu überlegen, ob eine Publikation von GEPHRI als Printwörterbuch überhaupt sinnvoll ist und ob ein ähnliches Projekt nicht auch für weitere romanischen Sprachen ins Auge gefasst werden sollte. 50 Sollte es dazu kommen, wäre wieder die Informatik gefragt, zwischen den Phrasemnetzen mehrerer Sprachen die entsprechenden begrifflichen Ver‐ knüpfungen und Hyperlinks herzustellen, um flexible Recherchen über die Sprachen hinweg und durch sie hindurch zu ermöglichen. Bibliographie Ágel, Vilmos (2017): Grammatische Textanalyse. Textglieder, Satzglieder, Wortgruppen‐ glieder, Berlin/ Boston, De Gruyter. Baker, Paul (2006): Using Corpora in Discourse Analysis, London, Continuum. Bárdosi, Vilmos (1986)-: De fil en aiguille. Les locutions françaises: recueil thématique et livre d’exercices, Budapest, Tankönyvkiadó. Bárdosi, Vilmos (2017)-: Du phrasème au dictionnaire. Études de phraséographie franco-hongroise, Budapest, Eötvös Kiadó. Bárdosi, Vilmos/ Ettinger, Stefan/ Stölting, Cécile ( 3 2003): Redewendungen Franzö‐ sisch/ Deutsch, Thematisches Wörter- und Übungsbuch, Tübingen, Francke. Benigni, Valentina/ Cotta Ramusino, Paola M./ Mollica, Fabio/ Schafroth, Elmar (2015): „How to apply CxG to phraseology: a multilingual research project“, in: Journal of Social Sciences 11, 275-288, DOI: -10.3844/ jssp.2015.275.288. Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Dis‐ kurs- und Kulturanalyse, Berlin, De Gruyter. Burger, Harald ( 5 2015): Phraseologie. Eine Einführung am Beispiel des Deutschen, Berlin, Schmidt. Digitale Phraseologie 211 <?page no="212"?> Busse, Dietrich (1997): „Semantisches Wissen und sprachliche Information. Zur Ab‐ grenzung und Typologie von Faktoren des Sprachverstehens“, in: Pohl, Inge (ed.): Methodologische Aspekte der Semantikforschung, Frankfurt a.-M., Lang, 13-34. Busse, Dietrich (2003): „Begriffsgeschichte oder Diskursgeschichte? Zu theoretischen Grundlagen und Methodenfragen einer historisch-semantischen Epistemologie“, in: Dutt, Carsten (ed.): Herausforderungen der Begriffsgeschichte, Heidelberg, Winter, 17-38. Cresti, Emanuela/ Panunzi, Alessandro (2013): Introduzione ai corpora dell’italiano, Bo‐ logna, Il Mulino. Crocco, Claudia (2015): „Corpora e testi di italiano contemporaneo“, in: Iliescu, Maria/ Roegiest, Eugeen (eds.): Manuel des anthologies, corpus et textes romans, Berlin/ Boston, De Gruyter, 509-534. Croft, William (2001): Radical Construction Grammar. Syntactic Theory in Typological Perspective, Oxford, Oxford University Press. Detey, Sylvain/ Lyche, Chantal/ Durand, Jacques/ Laks, Bernard (2010): Les variétés du français parlé dans l’espace francophone. Ressources pour l’enseignement, Paris, Ophrys. Dobrovol’skij, Dmitrij (2013): „Sind Idiome Konstruktionen? “, in: Steyer, Kathrin (ed.): Usuelle Wortverbindungen. Zentrale Muster des Sprachgebrauchs aus korpusanalytischer Sicht, Tübingen, Narr, 11-23. Duden 11 = Scholze-Stubenrecht, Werner (Red.) ( 4 2013): Duden, Redewendungen. Wörter‐ buch der deutschen Idiomatik, Berlin, Dudenverlag. Duden Redewendungen = Alsleben, Brigitte (Red.) ( 2 2007): Duden, Das große Buch der Zitate und Redewendungen, Mannheim, Dudenverlag. Eickelmann, Birgit (2018): „Digitalisierung in der schulischen Bildung. Entwicklungen, Befunde und Perspektiven für die Schulentwicklung und die Bildungsforschung“, in: McElvany, Nele/ Schwabe, Franziska/ Bos, Wilfried/ Holtappels, Heinz Günter (eds.): Digitalisierung in der schulischen Bildung. Chancen und Herausforderungen, Münster/ New York, Waxmann, 11-25. Ettinger, Stefan (2009): „Haben die Männer am Grill die Hosen an? Phraseographie und Sprachwirklichkeit“, in: Mellado Blanco, Carmen (ed.): Theorie und Praxis der idiomatischen Wörterbücher, Tübingen, Niemeyer, 45-64. Ettinger, Stefan (2012): „Einige phraseodidaktische Überlegungen zur Frequenz, zur Dis‐ ponibilität und zur Bekanntheit französischer Idiome und Sprichwörter“, in: -Szavak, frazémák szótárak / Mots, phrasèmes, dictionnaires - Írások Bárdosi Vilmos 60. születés‐ napjára / Mélanges offerts à Vilmos Bárdosi pour ses 60 ans (= Revue d’Études Françaises, numéro spécial), Budapest, ELTE, 85-104. Ettinger, Stefan (2013): „Aktiver Gebrauch und/ oder passive Phrasemkenntnisse im Fremdsprachenunterricht. Einige phraseodidaktische Überlegungen“, in: Isabel Gon‐ zález Rey (ed.): -Phraseodidactic Studies on German as a Foreign Language. Phraseodi‐ 212 Elmar Schafroth <?page no="213"?> daktische Studien zu Deutsch als Fremdsprache (= Lingua. Fremdsprachenunterricht in Forschung und Praxis 22), Hamburg, Dr. Kovač,-11-30. Ettinger, Stefan (2019): „Leistung und Grenzen der Phraseodidaktik. Zehn kritische Fragen zum gegenwärtigen Forschungsstand“, in: Philologie im Netz 87, 84-124, http : / / web.fu-berlin.de/ phin/ phin87/ p87i.htm (11.05.2022). Feilke, Helmuth (2007): „Syntaktische Aspekte der Phraseologie III: Construction Grammar und verwandte Ansätze“, in: Burger, Harald/ Dobrovol’skij, Dmitrij/ Kühn, Peter/ Norrick, Neal R. (eds.): Phraseologie. Ein internationales Handbuch der zeitgenös‐ sischen Forschung, vol. 1, Berlin/ New York, De Gruyter, 63-76. Fillmore, Charles J. (1985): „Frames and the semantics of understanding“, in: Quaderni di Semantica 6, 222-254. Fillmore, Charles J./ Kay, Paul/ O’Connor, Mary Catherine (1988): „Regularity and idioma‐ ticity in grammatical constructions: the case of let alone“, in: Language 64, 501-538. Fleischer, Wolfgang, ( 2 1997): Phraseologie der deutschen Gegenwartssprache, Tübingen, Niemeyer. Giacoma, Luisa/ Kolb, Susanne ( 4 2019): Il nuovo dizionario di Tedesco, Bologna, Zani‐ chelli/ Stuttgart, Klett. Goldberg, Adele E. (2003): „Constructions: a new theoretical approach to language“, in: Trends in Cognitive Sciences 7, 219-224. Goldberg, Adele E. (2006): Constructions at Work. The Nature of Generalization in Language, Oxford, Oxford University Press. Gries, Stefan Th. (2008): „Phraseology and linguistic theory: a brief survey“, in: Granger, Sylviane/ Meunier, Fanny (eds.): Phraseology: an interdisciplinary perspective, Ams‐ terdam/ Philadelphia, Benjamins, 3-25. Hallig, Rudolf/ Wartburg, Walther von ( 2 1963): Begriffssystem als Grundlage für die Lexikographie. Versuch eines Ordnungsschemas, Berlin, Akademie-Verlag. Hausmann, Franz Josef (2004): „Was sind eigentlich Kollokationen? “, in: Steyer, Kathrin (ed.): Wortverbindungen - mehr oder weniger fest, Berlin/ New York, De Gruyter, 309-334. Imperiale, Riccardo/ Schafroth, Elmar (2019): „Fraseologia italiana basata sull’uso: les‐ sicografia digitale per apprendenti tra la-Frame Semantics-e la Grammatica delle Costruzioni“, in: Italiano LinguaDue 11, 1-28,-DOI: 10.13130/ 2037-3597/ 11872. Kilgarriff, Adam/ Baisa, Vit/ Bušta, Jan/ Jakubíček, Miloš/ Kovář, Vojtěch/ Michelfeit, Jan/ Rychlý, Pavel/ Suchomel, Vit (2014): „The Sketch Engine: ten years on“,-in: Lexico‐ graphy 1, 7-36. Konecny, Christine (2010): Kollokationen. Versuch einer semantisch-begrifflichen Klassifi‐ zierung anhand italienischer Beispiele, München, Meidenbauer. Kreutzer, Michael/ Sobel, Martina/ Voigtländer, Andreas (2020): „Total digital? Digitalisie‐ rung heißt Pädagogik“, in: Klasse leiten 11, 38-41. Digitale Phraseologie 213 <?page no="214"?> Lemnitzer, Lothar/ Zinsmeister, Heike ( 3 2015): Korpuslingusitik. Eine Einführung, Tü‐ bingen, Narr. Masini, Federica (2016): Grammatica delle Costruzioni. Un’introduzione, Rom, Carocci. Mollica, Fabio/ Schafroth, Elmar (2021): „Valenz, interne und externe Syntax bei Phra‐ semen. Konstruktionsgrammatische und begriffstheoretische Überlegungen anhand des Deutschen und Italienischen“, in: Schafroth, Elmar/ Mollica, Fabio/ Mellado Blanco, Carmen (eds.): Kollokationen. Theoretische, forschungspraktische und fremdsprachen‐ didaktische Überlegungen, Berlin et al., Lang, 207-259. Niehr, Thomas (2014): Einführung in die linguistische Diskursanalyse, Darmstadt, Wis‐ senschaftliche Buchgesellschaft. Polguère, Alain ( 2 2008) : Lexicologie et sémantique lexicale. Notions fondamentales, Mont‐ réal, Les Presses de l’Université de Montréal. Pustka, Elissa ( 2 2016): Einführung in die Phonetik und Phonologie des Französischen, Berlin, Schmidt. Quartu, Monica/ Rossi, Elena (2012): Dizionario dei modi di dire della lingua italiana, Mailand, Hoepli. Rocco, Goranka/ Schafroth, Elmar (eds.) (2019): Vergleichende Diskurslinguistik. Methoden und Forschungspraxis, Berlin et al., Lang. Schafroth, Elmar (2013): „Das pragmatische Potential von Phrasemen - illustriert am Deutschen und Italienischen“, in: Cantarini, Sibilla (ed.): Wortschatz, Wortschätze im Vergleich und Wörterbücher. Methoden, Instrumente und neue Perspektiven, Frankfurt a.-M., Lang, 185-208. Schafroth, Elmar (2014a): „Eine Sache des Verstehens: Phraseme als Konstruktionen und ihre Beschreibung in der Lexikographie Französisch/ Deutsch“, in: Domínguez Vázquez, María José/ Mollica, Fabio/ Nied Curcio, Martina (eds.): Zweisprachige Lexi‐ kographie zwischen Translation und Didaktik, Berlin/ New York, De Gruyter, 83-111. Schafroth, Elmar (2014b): Französische Lexikographie. Eine Einführung, Berlin/ Boston, De Gruyter. Schafroth, Elmar (2015): „Italian phrasemes as constructions. How to understand and use them“, in: Journal of Social Sciences 11, 317-337, DOI: 10.3844/ jssp.2015.317.337. Schafroth, Elmar (2019): „FRAME: Fraseologia multilingue elettronica: i fondamenti teorici“, in: Repères-Dorif 18, 191-202 (= Numéro spécial: Phraséodidactique. De la conscience à la compétence, coordonné par G. Henrot Sostero et Mª I. González-Rey, http: / / www.dorif.it/ reperes/ elmar-schafroth-frame-fraseologia-multilingue-elettronicai-fondamenti-teorici/ (11.05.2022). Schafroth, Elmar (2020a): „Fraseologia basata sui corpora“, in: La lingua italiana. Storia, strutture, testi XVI, 167-187, DOI: 10.19272/ 202004301008. 214 Elmar Schafroth <?page no="215"?> Schafroth, Elmar (2020b): „Korpus- und webbasierte Phraseologie des Italienischen“, in: Lücke, Stephan et al. (eds.): Prof. Alpinista,-https: / / www.fsk.gwi.uni-muenchen.de/ ? p =5298 (11.05.2022). Schafroth, Elmar (2020c): „Why equivalence of idioms in different languages is the exception. Arguments from a constructional perspective“, in: Cotta Ramusino, Paola/ Mollica, Fabio (eds.): -Contrastive Phraseology, Cambridge, Cambridge Scholars, 129- 150. Schafroth, Elmar/ Imperiale, Riccardo (2019): „Gebrauchsbasierte Phraseologie des Italie‐ nischen: Digitale Lexikographie zwischen Frame-Semantik und Konstruktionsgram‐ matik“, in: Lexicographica 35, 87-121, DOI: 10.1515/ lex-2019-0004. Schemann, Hans ( 2 2012): Synonymwörterbuch der deutschen Redensarten, Berlin/ Boston, De Gruyter. Schwarze, Christoph ( 2 1995): Grammatik der italienischen Sprache, Tübingen, Niemeyer. Selva, Thierry/ Verlinde, Serge/ Binon, Jean (2002): „Le DAFLES, un nouveau dictionnaire électronique pour apprenants du français“, in: Euralex 2002 Proceedings, Kopenhagen, 199-208. Steyer, Kathrin (ed.) (2013): Usuelle Wortverbindungen. Zentrale Muster des Sprachge‐ brauchs aus korpusanalytischer Sicht, Tübingen, Narr. Stumpf, Sören (2015): Formelhafte (Ir-)Regularitäten. Korpuslinguistische Befunde und sprachtheoretische Überlegungen, Frankfurt a.-M., Lang. Ziem, Alexander (2008): Frames und sprachliches Wissen. Kognitive Aspekte der semanti‐ schen Kompetenz, Berlin/ New York, De Gruyter. Ziem, Alexander (2018): „Construction grammar meets phraseology: eine Standortbe‐ stimmung“, in: Linguistik online 90, 3-19. Ziem, Alexander/ Lasch, Alexander (2013): Konstruktionsgrammatik. Konzepte und Grundlagen gebrauchsbasierter Ansätze, Berlin/ Boston, De Gruyter. Online-Quellen ALF = Atlas linguistique de la France (CartoDialect 5.4.3), http: / / lig-tdcge.imag.fr/ cartod ialect5/ #/ (11.05.2022). ALAVAL = Atlas linguistique audiovisuel du francoprovençal valaisan, http: / / asit.maldura .unipd.it/ (11.05.2022). ALIQUOT = Atlante della lingua italiana quotidiana, https: / / www.atlante-aliquot.de/ (11.05.2022). ASIt = Atlante sintattico d’Italia, http: / / asit.maldura.unipd.it/ (11.05.2022). Atlas sonore des langues régionales de France, https: / / atlas.limsi.fr/ (11.05.2022). BDLP = Poirier, Claude/ Francard, Michel (2001-2014): Banque de données lexicographiques panfrancophone, http: / / www.bdlp.org (11.05.2022). Digitale Phraseologie 215 <?page no="216"?> CORIS = Corpus di Riferimento dell’Italiano Scritto (2001), http: / / corpora.dslo.unibo.it/ co ris_ita.html (11.05.2022). DAFLES = Verlinde, Serge/ Selva, Thierry/ Binon, Jean: Dictionnaire d’apprentissage du français langue étrangère ou seconde, Löwen, Institut Interfacultaire des Langues vivantes. Version électronique, BLF, https: / / www.kuleuven.be/ dafles (derzeit (11.05.2022) nicht erreichbar; letzter Zugriff: 15.08.2018). Cf. Selva/ Verlinde/ Binon (2002). DiCoPop = Polguère, Alain (dir.) (2013): DiCoPop. Accès grand public au Dictionnaire de combinatoire du français, Université de Montréal, http: / / olst.ling.umontreal.ca/ dicop op/ (11.05.2022). DiCouèbe = Kahane, Sylvain/ Steinlin, Jacques/ Polguère, Alain (2013): Dictionnaire en ligne de combinatoire du français, Université de Montréal, http: / / olst.ling.umontreal.c a/ dicouebe/ index.php (11.05.2022). ELDIT = Elektronisches Lernerwörterbuch Deutsch-Italienisch (2002), Bozen, Europäische Akademie, http: / / eldit.eurac.edu/ (11.05.2022). Feroldi, Donata/ Dal Pra, Elena (2011): Dizionario analogico della lingua italiana, Versione elettronica, Bologna, Zanichelli. FRAME = Cotta Ramusino, Paola/ Mollica, Fabio/ Schafroth, Elmar (dir.) (seit 2014): Fraseologia multilingue elettronica, Mailand, Università degli Studi, www.fraseologia. it (11.05.2022). FrameNet: https: / / framenet.icsi.berkeley.edu/ fndrupal/ frameIndex (21.06.2020). Frantext = Base textuelle FRANTEXT (1998-2020), ATILF-CNRS & Université de Lorraine, Nancy, ATILF, http: / / www.frantext.fr (11.05.2022). GEPHRI = Schafroth, Elmar (dir.) (seit 2018): Gebrauchsbasierte Phraseologie des Italieni‐ schen, Universität Düsseldorf, Romanistik IV, http: / / gephri.phil.hhu.de (11.05.2022). IdeFitS = Schafroth, Elmar (dir.) (seit 2021): Idiome des Französischen im täglichen Sprachgebrauch, Universität Düsseldorf, Romanistik IV, https: / / idefits.phil.hhu.de/ (08.10.2023). InAPoP = Interactive Atlas of the Prosody of Portuguese, http: / / labfon.letras.ulisboa.pt/ In APoP/ (11.05.2022). Interactive Atlas of Romance Intonation (2010-2014), http: / / prosodia.upf.edu/ iari/ (11.05.2022). itTenTen16 = Italian web corpus, https: / / www.sketchengine.eu/ (11.05.2022). Kiesler, Johanna (2020): „Noch ganz am Anfang. Digitalisierung der Schulen“, in: Me‐ dien360G. Das Portal des Mitteldeutschen Rundfunks für Medienthemen 30.04.2020, https: / / www.mdr.de/ medien360g/ medienwissen/ digitalisierung-der-schule-100.html (11.05.2021). „La Repubblica“ Corpus = Baroni, Marco et al. (eds.) (2004ss.): https: / / corpora.dipintra.it / public/ run.cgi/ first? corpname=repubblica (11.05.2022). 216 Elmar Schafroth <?page no="217"?> OED = Oxford English Dictionary online (2000-), www.oed.com (11.05.2022). PAISÀ = Corpus PAISÀ (Piattaforma per l’Apprendimento dell’Italiano Su corpora Anno‐ tati) (2009-2012), http: / / www.corpusitaliano.it/ (21.06.2020). Sketch Engine, https: / / www.sketchengine.eu (11.05.2022) (Cf. Kilgarriff/ Baisa/ Bušta/ Ja‐ kubíček/ Kovář/ Michelfeit/ Rychlý/ Suchomel. 2014). Videotutorials = Schafroth, Elmar: „Phraseologie-Tutorials: ein digitales Lehrprojekt“, https: / / phraseologie.phil.hhu.de/ (11.05.2022). VIVALDI = Vivaio Acustico delle Lingue e dei Dialetti d’Italia, https: / / www2.hu-berlin.de / vivaldi/ (11.05.2022). WALS Online = Dryer, Matthew S./ Haspelmath, Martin (eds.) (2013): The world atlas of language structures, https: / / wals.info/ (11.05.2022). WEBBIT = Baroni, Marco (ed.) (2007): clic.cimec.unitn.it/ marco/ webbit/ (derzeit (11.05.2022) nicht erreichbar; letzter Zugriff: 09.02.2019). Digitale Phraseologie 217 <?page no="219"?> Construction, exploitation et exploration de ressources linguistiques pour le traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary Abstract Multiword expressions are combinations of two or more lexical items displaying composition irregularity at one or more linguistic levels. Their automatic identification is a crucial component for Natural Language Processing, but faces challenges such as variability, ambiguity and discon‐ tiguity on top of idiomaticity detection. In order to tackle the identification problem, the PARSEME-FR project has developed new models and algo‐ rithms, as well as new linguistic resources, namely annotation guidelines for multiword expressions and corpora annotated accordingly, as well as tools to structure and complete lexical resources. Keywords : multiword expressions, natural langage processing, identifica‐ tion, models, algorithms, linguistic resources Mots-clés : expressions polylexicales, traitement automatique des langues, identification, modèles, algorithmes, ressources linguistiques 1 Introduction Les expressions polylexicales (multiword expressions en anglais, cf. Sag/ Baldwin/ Bond/ Copestake/ Flickinger 2002) sont des unités linguistiques formées de plu‐ sieurs éléments lexicaux qui démontrent une idiosyncrasie sur un ou plusieurs niveaux linguistiques, c’est-à-dire qu’elles comportent au moins une irrégularité de composition au niveau morphologique, lexical, syntaxique, sémantique ou pragmatique. Ces expressions forment un ensemble de phénomènes très variés <?page no="220"?> 1 https: / / parsemefr.lis-lab.fr/ doku.php [dernière consultation-: 02/ 03/ 2021]. tels que les expressions idiomatiques (faire face, mettre les voiles), les construc‐ tions à verbe support (faire promenade), les mots grammaticaux complexes (bien que), les composés nominaux (carte bleue) et adverbiaux (à tort). L’identification automatique des expressions polylexicales (EP) est la tâche consistant à repérer et annoter automatiquement, dans un texte donné en entrée, les occurrences d’EP. Cette tâche est cruciale pour le traitement automatique des langues (TAL), comme l’ont montré de nombreux chercheurs (cf. Gross 1986 ; Sag/ Baldwin/ Bond/ Copestake/ Flickinger 2002 ; Baldwin/ Kim 2010), pour, par exemple, l’analyse sémantique de textes (cf. Finlayson/ Kulkarni 2011 ; Navigli/ Jurgens/ Vannella 2013 ; Schneider/ Hovy/ Johannsen/ Carpuat 2016), la recherche d’information (cf. Baldwin/ Kim 2010) ou la traduction automatique (cf. Carpuat/ Diab 2010). L’identification des EP est cependant confrontée à de nombreux défis comme leur discontinuité (p. ex. Luc y fait souvent face), leur potentielle variabilité (p. ex. tu/ nous fais/ faisons un choix = le choix que tu/ nous fais/ faisons), leur opacité sémantique (p. ex. un cordon bleu dans le sens d’‘excellent cuisinier’ n’est pas un cordon et n’est pas de couleur bleue), leur ambiguïté (p. ex. J’aime bien que mes enfants viennent me voir bien qu’ils soient bruyants). Pour y faire face, une partie de la communauté de la recherche en TAL s’efforce de développer de nouveaux modèles et algorithmes d’identification (cf. Constant/ Eryiǧit/ Monti/ van der Plas/ Ramisch/ Rosner/ Todirascu 2017). Les différents modèles développés nécessitent un volume important de données : les corpus annotés en EP servent de bases d’exemples pour apprendre les modèles à l’aide de techniques d’apprentissage automatique ; des ressources lexicales riches en EP peuvent être complémentaires des corpus annotés en termes de couverture notamment. Savary/ Cordeiro/ Ramisch (2019) insistent en particulier sur le besoin de lexiques syntaxiques. Malgré la richesse des études linguistiques et du travail lexicographique sur les EP, leur traitement automatique en corpus, et notamment leur identification, demeure insatisfaisant dans la plupart des systèmes de TAL. Le projet PAR‐ SEME-FR (2016-2020), 1 justement, cherche à répondre à ces différents besoins pour le traitement automatique des EP en français, tout en développant des méthodes suffisamment robustes pour qu’elles soient facilement adaptables à d’autres langues. Cet article est dédié à la présentation des différents travaux du projet autour des points suivants-: 1. la conception d’une méthodologie de construction de corpus annotés en EP-; 220 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="221"?> 2. le développement d’outils informatiques pour aider à la construction de lexiques d’EP-; 3. le développement d’outils d’identification automatique d’EP dans des textes-; 4. la conception d’un démonstrateur en-ligne pour tester les outils d’identifi‐ cation et pour explorer les ressources développées. L’ensemble de ces ressources (corpus et lexiques) et méthodes (outils) dévelop‐ pées dans le projet PARSEME-FR représentent des contributions significatives vers l’intégration du traitement automatique d’EP dans les systèmes de TAL pour la langue française. 2 Construction de corpus annotés Cette section est consacrée aux travaux de PARSEME-FR autour de la construc‐ tion de deux corpus annotés : un premier corpus constitué d’environ 20.000 phrases annotées en expressions verbales (cf. Candito/ Constant/ Ramisch/ Sa‐ vary/ Parmentier/ Pasquer/ Antoine 2017) dans le cadre des deux éditions de la campagne internationale PARSEME (cf. PARSEME1.0, PARSEME1.1) ; un deuxième corpus plus petit d’environ 3.000 phrases annotées en expressions polylexicales et entités nommées (cf. Candito/ Constant/ Ramisch/ Savary/ Guil‐ laume/ Parmentier/ Cordeiro 2020). Ces corpus annotés permettent (i) de carac‐ tériser le phénomène des EP en s’appuyant sur des données réelles, et (ii) d’apprendre et/ ou évaluer des modèles d’identification automatique d’EP (↑4.). - 2.1 Principes généraux L’annotation d’expressions polylexicales implique d’en avoir une définition opérationnelle afin de pouvoir déterminer systématiquement si une expression candidate est une EP ou pas. C’est le rôle du guide d’annotation. Dans la littérature, les expressions polylexicales sont le plus souvent définies via des critères très peu formalisés et/ ou via des exemples typiques. Paradoxalement, les différents phénomènes linguistiques inclus dans ce terme sont très connus et très étudiés dans le domaine de la phraséologie, mais leur contour exact est difficile à déterminer et surtout ne fait pas consensus dans la communauté linguistique (cf. Melc’uk 2012). Par conséquent, l’annotation des EP en corpus est une tâche particulièrement difficile. De nombreuses initiatives existent que ce soit pour le français (cf. e. g. Abeillé/ Clément/ Toussenel 2003 ; Laporte/ Nakamura/ Voyatzi 2008a ; La‐ porte/ Nakamura/ Voyatzi 2008b ; Tutin/ Esperança-Rodier/ Iborra/ Reverdy 2016) ou d’autres langues (cf. e. g. STREUSLE ; UD ; PDT). Cependant, à notre Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 221 <?page no="222"?> 2 Le symbole # indique que la phrase qui suit est acceptable mais qu’elle a un sens inattendu. connaissance, les guides d’annotation se limitent le plus souvent, à indiquer des indices illustrés d’exemples ou à répertorier les différents cas associés également à des exemples. A titre d’illustration, le guide d’annotation du French Treebank (cf. Abeillé/ Clément/ Toussenel 2003) contient une liste de critères qui ne sont ni nécessaires ni suffisants : l’annotateur doit juger du statut d’une expression candidate à partir d’un faisceau d’indices et aucun moyen systématique n’est donné dans le guide pour prendre une décision déterministe. En revanche, l’une des contributions de nos travaux d’annotation de corpus en EP est d’avoir mis en place des guides d’annotation reposant sur des diagrammes de décisions au moyen de tests linguistiques précis. Dans nos travaux, nous partons de la définition suivante : une expression candidate (formée de plusieurs composants lexicaux) est une expression poly‐ lexicale si et seulement si son sens ne peut pas être dérivé du sens de ses composants individuels et de sa structure syntaxique d’une manière considérée régulière dans une langue donnée. Notre objectif a été de rendre cette défini‐ tion opérationnelle, en la traduisant en une procédure précise d’identification d’une EP, utilisant des critères formalisés. Ces critères s’appuient sur le fait que le figement d’un ou plusieurs composants d’une expression candidate implique une certaine idiomaticité. Le figement est caractérisé par le fait qu’appliquer une transformation linguistique sur une EP donnée conduit soit à une inacceptabilité, soit à un changement sémantique inattendu au regard de la transformation appliquée. Par exemple, la substitution du déterminant les par ces dans le cas de l’expression idiomatique verbale mettre les voiles, produit une modification (#mettre ces voiles) 2 qui va au-delà de celle attendue dans un contexte linguistique similaire (p. ex. mettre les gants/ mettre ces gants). Pour nos différentes campagnes d’annotation, nous avons mis en place une batterie de tests formels orchestrés par des diagrammes de décisions afin de déterminer de manière systématique et déterministe le statut d’une expression candidate. Il est à noter, cependant, que le choix de l’expression candidate à tester repose sur une première intuition de l’annotateur ou annotatrice, s’appuyant sur ses connaissances linguistiques. Celui-ci ou celle-ci doit donc avoir une expertise linguistique certaine. - 2.2 Données françaises de la campagne PARSEME Le projet PARSEME-FR a tout d’abord participé de manière active aux deux campagnes internationales d’annotation de corpus en expressions polylexicales 222 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="223"?> 3 Cf. https: / / parsemefr.lis-lab.fr/ parseme-st-guidelines [dernière consultation : 02/ 03/ 2021]. verbales, qui ont servi à constituer les jeux de données pour les deux éditions (1.0 et 1.1) de la compétition PARSEME d’identification des EP verbales (cf. PAR‐ SEME1.0 ; PARSEME1.1). Les deux jeux de données comportent respectivement 18 et 20 langues appartenant à cinq groupes de langues. Les corpus contiennent respectivement 5,4 et 6,1 millions de tokens, 62k et 79k occurrences d’EP verbales distribuées sur 5 et 8 catégories linguistiques. Une contribution de ce travail est l’exploitation d’un guide d’annotation 3 commun à toutes les langues de la campagne avec des diagrammes de décisions reposant sur différents tests. En plus du rôle moteur de certains de ses membres dans la campagne internationale, le projet PARSEME-FR a constitué et annoté les données fran‐ çaises. Nous synthétisons ci-dessous le travail d’annotation réalisé. Pour plus de précisions, nous conseillons au lecteur de se référer à Candito/ Constant/ Ra‐ misch/ Savary/ Parmentier/ Pasquer/ Antoine (2017) qui correspond à la version des données pour la première édition. Les données que nous avons annotées regroupent deux corpus communément utilisés en traitement automatique des langues pour l’analyse du français, tous deux étant déjà annotés pour la morphologie et la syntaxe de dépendances : le corpus French-UD-GSD (cf. UD), qui comprend des phrases prises aléatoirement de Google News, Blogger, Wikipedia et des avis de consommateurs ; et le corpus Sequoia (cf. Candito/ Seddah 2012), qui comprend des phrases issues de l’Est Républicain, de rapports de l’Agence Européenne du Médicament, de Wikipedia et d’Europarl, ainsi que des phrases issues de deux autres corpus inclus dans les Universal Dependencies (UD-French-partut et UD-French-pud). A titre d’exemple, la version de 2017 des données comprend 19.546 phrases, dont 16.447 proviennent du French-UD et 3.099 du Sequoia. Au total, 4.962 EP verbales ont été annotées. Pour le français, seules quatre catégories d’ex‐ pressions verbales sont réellement présentes : les expressions idiomatiques (faire face), les constructions à verbe support (prendre décision), les verbes intrinsèquement pronominaux (s’évanouir) et une catégorie autres (p. ex. aller et venir). On constate qu’environ 38 % des EP verbales annotées sont des expressions idiomatiques, 27 % sont des verbes intrinsèquement pronominaux et 35 % sont des constructions à verbe support. Il est intéressant de remarquer que globalement 40 % environ des EP verbales sont discontinues, mais il existe un fort contraste entre les constructions à verbe support et les autres catégories, environ 80-% de ces premières étant discontinues. Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 223 <?page no="224"?> 4 Le guide d’annotation se trouve à l’adresse suivante : https: / / gitlab.lis-lab.fr/ PARSEME -FR/ PARSEME-FR-public/ -/ wikis/ Guide-annotation-PARSEME_FR-chapeau [dernière consultation-: 07/ 04/ 2021]. 2.3 Corpus PARSEME-FR En parallèle de l’annotation des données françaises de la campagne internatio‐ nale PARSEME des EP verbales, nous avons travaillé sur l’annotation complète des expressions polylexicales et des entités nommées pour un plus petit corpus limité au Sequoia soit un peu plus de 3.000 phrases. Ce travail, qui reprend les travaux décrits dans la section 2.2., est détaillé dans Candito/ Constant/ Ra‐ misch/ Savary/ Guillaume/ Parmentier/ Cordeiro (2020). Nous en faisons ici une brève synthèse. Dans ce travail, nous avons distingué trois objets linguistiques différents : (i) les entités nommées (EN) monolexicales (p. ex. Autriche) et polylexicales (p. ex. Palo Alto), (ii) les expressions polylexicales verbales (p.-ex. couper les ponts)-; et (iii) les expressions polylexicales non-verbales (p. ex. en effet, pomme de terre). Chacun de ces objets a un guide d’annotation qui lui est dédié. Pour les EP verbales, le guide d’annotation des EP verbales est celui utilisé dans la section 2.2. et nous avons repris les annotations réalisées sur la partie qui correspond au Sequoia. Pour les EP non-verbales et les entités nommées, nous avons construit deux guides distincts. La procédure d’annotation 4 est la suivante-: pour chaque occurrence candidate dans le corpus, l’annotateur passe par un diagramme de décisions le dirigeant vers l’un des trois guides d’annotation. Une première contribution de ce travail est d’avoir mis en place des critères opérationnels pour distinguer EP et EN de manière relativement déterministe et reproductible via un diagramme de décisions. De manière schématique, cette distinction repose en particulier sur l’analyse de la convention de nommage qui relie une entité avec son nom (cf. Kleiber 2007). Si cette convention, une fois apprise, s’étend à tous les membres d’une classe du fait de leurs propriétés communes, alors on a affaire à un nom de concept (p. ex. si un locuteur connaît le sens de arme blanche, il pourra l’appliquer à un couteau qu’il n’a encore jamais vu, sans avoir à réapprendre une convention de nommage). Si, par contre, cette convention de nommage doit être apprise individuellement pour chaque nouvelle entité portant ce nom, alors il s’agit d’une EN (p. ex. Anna Duval, Ligue Internationale contre le racisme et l’antisémitisme). Concernant les expressions polylexicales non-verbales, une originalité de notre approche est d’avoir choisi d’utiliser des critères suffisants pour déter‐ miner le statut d’EP d’une expression candidate. En effet, dans de nombreux cas, les critères des EP sélectionnent des ensembles différents d’expressions. Nous avons donc opté pour des critères suffisants au lieu de s’appuyer sur des 224 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="225"?> décisions quantitatives mesurant la prévalence de certains critères par rapport à d’autres. Ainsi, si une expression candidate satisfait un de nos critères, elle est annotée comme une EP. Nous utilisons des tests classiques dans la lignée des travaux de Gross (1982) : des tests sémantiques simples (p. ex. une pomme de terre n’est pas une pomme), des tests de figement lexical (p. ex. en dépit/ *tristesse [de]), et des tests de figement morphosyntaxique (p. ex. garde du corps/ #garde des corps). Enfin, un trait fondamental de notre approche est d’avoir modélisé le statut d’EP séparément de l’annotation syntaxique : selon sa distribution et sa structure interne, une EP donnée peut être considérée comme régulière d’un point de vue syntaxique et recevoir une structure interne régulière. Plus particulière‐ ment, nous avons considéré une EP comme syntaxiquement régulière quand sa distribution syntaxique externe peut être prédite à partir de la séquence des catégories morphosyntaxiques de ses composants. Par syntaxique, nous entendons que la distribution est testée en se concentrant uniquement sur la grammaticalité, indépendamment de son interprétabilité. Par distribution externe, nous entendons les catégories des têtes syntaxiques auxquelles l’EP peut se rattacher. Au final, notre corpus de 3.099 phrases comprend 6.552 annotations : 47 % d’entre elles sont des entités nommées, 15 % sont des EP verbales et 37,5 % sont des EP non-verbales. Par ailleurs, nous comptons qu’environ un cinquième des occurrences des EP (verbales et non-verbales) sont irrégulières syntaxiquement. 3 Constitution de ressources lexicales Les ressources lexicales structurées sont cruciales pour l’identification automa‐ tique des EP notamment pour mieux gérer le cas des expressions rares en corpus (cf. Savary/ Cordeiro/ Ramisch 2019). Le projet PARSEME-FR a donc mis au point un certain nombre d’outils informatiques permettant d’aider à la constitution de telles ressources. Tout d’abord, nous avons développé un outil permettant d’extraire la structure valencielle d’expressions polylexicales verbales à partir d’un lexique tabulaire existant (↑3.1.). Nous avons ensuite créé des outils permettant d’ajouter du contenu linguistique aux entrées comme les lemmes et le degré de compositionnalité des expressions (↑3.2.). - 3.1 Extraction automatique d’un lexique syntaxique Pour le français, l’un des rares lexiques syntaxiques est constitué des tables du lexique-grammaire (LG) issues des travaux de Maurice Gross et de ses collègues dans la lignée de Gross (1975). Cette ressource décrit de manière méticuleuse et Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 225 <?page no="226"?> 5 La version 3.4 des tables du lexique-grammaire est téléchargeable en suivant le lien htt ps: / / infolingu.univ-mlv.fr/ DonneesLinguistiques/ Lexiques-Grammaires/ Telechargeme nt.html [dernière consultation-: 31/ 03/ 2021]. systématique le comportement syntaxique des verbes simples au sein de phrases élémentaires (cf. Gross 1975 ; Boons/ Guillet/ Leclère 1976 ; Guillet/ Leclère 1992), des noms prédicatifs au sein de constructions à verbe support (cf. Giry-Schneider 1987), ou d’expressions (principalement) verbales figées (cf. Gross 1982). Les entrées lexicales sont regroupées dans des classes et ces dernières sont encodées sous une forme tabulaire. Les tables du lexique-grammaire ont été dépoussiérées et normalisées par Tolone (2012) durant sa thèse. Notons également que, dans le cadre du projet PARSEME-FR, Laporte/ Beltran (2018) ont affiné certaines tables d’expressions figées en distinguant notamment les entrées collocationnelles et les entrées idiomatiques. Elles sont librement distribuées sous la licence LGPL-LR. 5 En particulier, concernant les expressions polylexicales, on dénombre 81 classes regroupant 14.271 noms prédicatifs et 69 classes regroupant 39.628 expressions (principalement verbales) figées. La couverture et la finesse de cette ressource est unique dans la communauté linguistique. Cependant, pour qu’elles soient exploitables directement par les outils du TAL, il est nécessaire de les transformer dans un format TAL-compatible, tel que des structures de traits (cf. Gardent/ Guillaume/ Perrier/ Falk 2006), qu’il est ensuite possible d’intégrer dans des grammaires formelles comme dans Hathout/ Namer (1998). Les efforts les plus avancés de ce type ont été fournis pour les verbes simples ou les noms prédicatifs par Tolone/ Sagot (2011) pour l’intégration dans une description de grammaire d’arbres adjoints (cf. Joshi/ Levy/ Takahashi 1975) appliquée à l’analyse syntaxique. Dans le projet PARSEME-FR, nous avons effectué un travail similaire sur les lexiques des expressions figées. 3.1.1 Formalisation des tables du lexique-grammaire Chaque classe du LG regroupe les entrées lexicales entrant dans une construc‐ tion syntaxique de base, parfois combinée à certaines propriétés syntaxiques et sémantiques. Par exemple, la classe C_fcan regroupe les entrées polylexicales verbales rentrant dans la construction verbale suivante : N0 faire N1 à N2, où N0 correspond au sujet (libre), N1 au complément d’objet lexicalement figé, et N2 à un complément (libre) introduit par la préposition à. Les classes sont décrites sous une forme tabulaire. Chaque ligne correspond au codage d’une entrée lexicale donnée. L’exemple dans le tableau 1 donne un échantillon de la table C_fcan-: il décrit les expressions faire attention (Max fait attention à la pluie), faire grâce (Max fait grâce à Paul), faire du pied (Luc fait du pied à Lea), faire les pieds (cet échec fait les pieds à Paul). 226 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="227"?> 6 Dans ces exemples, le symbole * indique l’inacceptabilité. Pour le sujet (N0), les syntagmes Paul et Cet échec représentent les noms humains (Nhum) et non-humains (N−hum). Pour le complément (N2), le syntagme Luc est un nom humain, la table et l’accroissement des chiffres sont des noms non-humains. On retrouve ainsi le codage de la table pour les entrées faire attention et faire les pieds. <ID> <ENT> <faire> <ENT> Det1 <ENT> C1 N2-=: - Nhum N2-=: - N−hum N0-=: - Nhum N0-=: - N−hum N0 faire Det1 C1 W à N2 de N3 5 faire <E> attention + + + − − 43 faire <E> grâce + − + − + 70 faire du pied + − + − − 71 faire les pieds + − − + − Tableau 1 : Echantillon de la classe C_fcan des tables du lexique-grammaire (échantillon en termes de lignes et de colonnes). Chaque colonne correspond à une propriété. La valeur d’une cellule indique la valeur d’une propriété donnée (colonne) pour une entrée donnée (ligne). Cette valeur peut être soit binaire (+ pour vrai et − pour faux) soit lexicale (<E> est l’élément vide). Les propriétés peuvent être les suivantes-: • l’identifiant <ID> de l’entrée dans la table (p. ex. l’identifiant 5 pour l’expression faire attention)-; • les différents composants lexicaux de l’entrée : par exemple , <ENT>Det1 et <ENT>C1 correspondent au déterminant et au nom du complément d’objet direct du verbe faire (le composant lexical <ENT><faire>). Pour l’entrée faire attention, le déterminant sera vide (<E>)-; • les réalisations syntaxiques des actants de l’entrée dans sa construction de base : p. ex. les colonnes N2 =: Nhum, N2 =: N−hum, N0 =: Nhum et N0 =: N−hum indiquent respectivement si le complément N2 et le sujet N0 sont des noms humains (Nhum) ou des noms non humains (N-hum). Ainsi, la table code les acceptabilités et inacceptabilités suivantes-: - (Paul + *Cet échec) fait attention à (Luc + la table + la croissance des chiffres), - (*Paul + Cet échec) fait les pieds à (Luc + *la table + *la croissance des chiffres) 6 • les transformations possibles de la construction de base : p. ex. N0 faire Det1 C1 W à N2 de N3 indique qu’un complément N3 introduit par la préposition Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 227 <?page no="228"?> 7 Le symbole W représente les autres potentiels compléments s’ils existent. de peut être ajouté à la construction de base. 7 Par exemple, pour l’entrée faire grâce, on peut aussi avoir Luc fait grâce à Paul de ce travail. 3.1.2 Transformation en un lexique syntaxique structuré Les tables du lexique-grammaire, comme indiqué ci-dessus, sont difficilement exploitables telles quelles par les outils du TAL. Dans cette optique, nous avons réalisé un outil d’extraction d’informations structurées depuis les tables décrivant des expressions polylexicales : en particulier, l’outil extrait pour chaque entrée polylexicale (chaque ligne) les réalisations possibles de ses actants, en plus de sa tête syntaxique dans la construction de base sous la forme de structures de traits. Par exemple, pour l’expression faire attention, la structure extraite est donnée dans le tableau 2. Pour chaque actant (figé ou libre), on indique la liste de ses réalisations possibles. Chacune des réalisations correspond à la forme que peut prendre le constituant associé. Par exemple, l’actant 0 qui correspond toujours au sujet est constitué d’un syntagme nominal libre (SN) dont la tête a le trait sémantique Humain. L’actant 2 correspond au complément introduit par la préposition (PREP) à, suivi d’un syntagme nominal qui peut être soit Humain soit Non-Humain. L’actant 1 correspond à un complément d’objet de type SN qui est figé et formé du seul nom (NOM) attention. Il convient de noter que les réalisations non acceptées (p. ex. un non-humain en sujet) n’apparaissent pas dans la structure extraite. Actant 0 NV Actant 1 Actant 2 - - Synt-: SN - Syntagme-: SN Syntagme : SN Lemme : faire Forme-: attention Forme-: à Humain-: Vrai Humain-: Vrai Cat-: VERBE Catégorie-: NOM Cat-: PREP Syntagme-: SN - - - - Non-Humain-: Vrai Tableau 2-: Structure valencielle extraite pour l’expression verbale faire attention. L’outil extrait cette structure pour chacune des entrées (ligne) de chaque classe (table) d’expressions polylexicales. Cet ensemble de structures est alors sauvegardé dans un format XML. 228 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="229"?> 8 L’occurrence de l’EP dans le texte est en gras. Le lemme associé de l’expression est entre crochets. 3.2 Complétion automatique de lexiques Pour le français, nous avons la chance d’avoir plusieurs lexiques riches d’ex‐ pressions polylexicales : les tables du lexique-grammaire pour les expressions verbales, mais aussi des dictionnaires électroniques pour les mots composés nominaux et adverbiaux (cf. e. g. DELAC), ainsi que les mots complexes fonctionnels (cf. e. g. Ramisch/ Nasr/ Valli/ Deulofeu 2016). Cependant, cet ensemble de ressources est encore loin d’être complet. Il est donc nécessaire de régulière‐ ment l’enrichir de nouvelles entrées. L’enrichissement entièrement manuel est souvent laborieux et l’usage de méthodes semi-automatiques est de plus en plus privilégié par les producteurs de ressources lexicales. Ces méthodes consistent à découvrir automatiquement des expressions candidates dans des corpus textuels et à pré-remplir le contenu de l’entrée associée du lexique. Un expert vient ensuite valider manuellement le choix de l’entrée et les informations ajoutées, et compléter les informations manquantes. Le projet PARSEME-FR a développé des méthodes pour ajouter automatiquement aux entrées polylexicales d’un lexique deux types d’informations : les lemmes (↑3.2.1.) et le degré de compositionnalité (↑3.2.2.). 3.2.1 Lemmatisation automatique Une fois une nouvelle expression découverte dans le corpus textuel de travail par une méthode automatique ou manuelle, il est nécessaire d’associer à cette expression sa forme de base dans le lexique. Cette forme de base est aussi appelée lemme de l’expression, par analogie à la forme de base des mots simples. La principale difficulté de la tâche réside dans les propriétés linguistiques variables des expressions qui résultent en différents cas de figure comme illustré dans les exemples ci-dessous-: 8 (1) Je mets les voiles. [mettre les voiles] (2) Mes cartes bleues ne marchent plus. [carte bleue] (3) Paul est aux abonnés absents concernant son travail. [aux abonnés absents] (4) Les décisions que les dirigeants ont prises me soulagent. [prendre décision] Dans le cas (1), seul le verbe est lemmatisé alors que le complément est figé. En effet, la transformation de l’EP en mettre la voile par modification morphosyn‐ taxique du nombre résulte en un changement inattendu de sens (cf. les critères Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 229 <?page no="230"?> d’identification des EP pour l’annotation). Dans le cas (2), la lemmatisation doit respecter les règles d’accord d’un groupe nominal : la tête syntaxique cartes étant lemmatisée en carte qui est un nom au féminin, son modifieur adjectival doit donc être au féminin (bleue). En effet, une lemmatisation naïve mot à mot de l’expression aurait produit la séquence *carte bleu, qui est interdite car l’adjectif bleu est au masculin. Dans le cas (3), l’expression est totalement figée. On ne peut donc transformer le nom abonnés en sa forme au singulier abonné-: *à l’abonné absent. Enfin, le cas (4) combine deux opérations : changement de l’ordre des mots pour mettre l’expression dans sa structure canonique, puis lemmatisation des mots de l’expression (décisions prises → prises décisions → prendre décision). Ces différents cas de figure sont extrêmement difficiles à prédire automati‐ quement. Cependant, dans le cadre du projet PARSEME-FR, Schmitt/ Constant (2019) montrent statistiquement que, pour le français, environ 85 % des entrées polylexicales dans un lexique à large couverture et 95 % des occurrences d’EP dans le French Treebank pouvaient être lemmatisées soit en gardant l’expression telle quelle, soit en lemmatisant les expressions mot à mot. Ces observations semblent donc rendre la tâche plus envisageable d’un point de vue automatique. Schmitt/ Constant (2019) ont ainsi développé une architecture s’appuyant sur un réseau de neurones modélisant la tâche de lemmatisation d’une occurrence d’EP donnée. Le principe est le suivant : le système prend en entrée une occurrence d’EP sous la forme d’une séquence de mots. Le modèle va alors générer pour chacun des mots la partie associée dans le lemme (on part donc de l’hypothèse que la taille en mots de la forme de l’EP est la même que pour son lemme). Le modèle prend en compte la morphologie du mot, ainsi que son contexte dans l’EP. Ce modèle est appris à partir de données d’apprentissage regroupant à la fois des ressources textuelles et dictionnairiques, formant un ensemble de couples (occurrence d’EP, lemme associé), accompagnées d’un ensemble de couples (mot simple, lemme associé) afin d’intégrer des connaissances sur la lemmatisation des mots simples. Les résultats obtenus sont encourageants : pour les EP non vues à l’apprentissage, le système obtient 93 % de réussite sur un corpus et 88 % de réussite sur un dictionnaire, les deux ressources étant constituées d’EP non verbales essentiellement. Cependant, les résultats sont décevants sur un corpus constitué d’EP verbales uniquement, avec environ 75 % de réussite (c’est-à-dire, une EP verbale sur quatre doit être corrigée manuellement a posteriori). La méthode a aussi été adaptée à d’autres langues romanes comme l’italien et le portugais avec des résultats similaires au français. Par contre, des expériences sur le polonais, une langue morphologiquement très riche, montrent des résul‐ tats très décevants (75 % de réussite sur corpus et 59 % sur dictionnaire dans 230 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="231"?> le cas des EP non vues à l’apprentissage). Une des pistes pour un futur travail est d’essayer d’intégrer plus de connaissances linguistiques dans le modèle de lemmatisation. 3.2.2 Prédiction du degré de compositionnalité Un autre aspect des travaux de recherche dans le cadre de PARSEME-FR concerne le degré de compositionnalité des expressions polylexicales. Par exemple, carte bleue a un certain degré de compositionnalité parce que cela correspond bien à une carte. L’idiomaticité vient du mot bleue, car une carte bleue est une carte de paiement, peu importe sa couleur. Par ailleurs, cordon bleu est complètement non-compositionnel car totalement opaque sémantiquement. L’hypothèse de départ de ce travail suppose qu’un score numérique (prédit automatiquement) peut rendre compte du degré de compositionnalité d’une EP, p.-ex. score(ciel bleu) > score(carte bleue) > score(cordon bleu). Dans les modèles distributionnels, les éléments lexicaux (les mots qui com‐ posent l’EP, ainsi que l’EP en tant qu’unité) peuvent être représentés par des vecteurs. Ces vecteurs sont appris sur de gros corpus textuels en fonction de la distribution des différents contextes d’occurrence de ces éléments lexicaux. Il est communément accepté que la proximité sémantique entre deux éléments lexicaux est corrélée à la proximité géométrique de leurs vecteurs correspon‐ dants. Ainsi, deux éléments lexicaux proches sémantiquement auront leurs représentations géométriquement proches dans leur espace vectoriel. Soient deux mots m1 et m2 et leurs représentations vectorielles v(m1) et v(m2). Soit une EP e formée des mots m1 et m2, et v(m1 m2) sa représentation vectorielle. Supposons qu’il existe une opération ⊕ de composition entre les vecteurs de deux mots (p. ex., l’addition vectorielle). Comparer à quel point la représentation vectorielle de l’EP (v(m1 m2)) est proche du résultat de la composition des deux mots de l’EP (v(m1)-⊕-v(m2)) permet de donner un indice sur le degré de compositionnalité de l’EP. Si les deux représentations sont proches, alors il y a de bonnes chances que l’expression soit compositionnelle. Dans le cas inverse, il est probable qu’elle ne le soit pas. Des mesures (telles que la similarité du cosinus) permettent de quantifier précisément ce degré de compositionnalité de manière continue : si la similarité du cosinus entre v(m1 m2) et v(m1) ⊕ v(m2) vaut 1, alors le sens de l’EP est totalement compositionnel, mais si elle vaut 0 l’EP est complètement idiomatique. Cordeiro/ Ramisch/ Idiart/ Villavicencio (2016) et Cordeiro/ Villavicencio/ Idiart/ Ramisch (2019) ont étudié et évalué des méthodes automatiques de ce type permettant de quantifier le degré de compositionnalité pour les noms composés de la forme nom+nom et nom+adjectif en français, anglais et portugais. Les Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 231 <?page no="232"?> 9 Pour évaluer un modèle, la corrélation de Spearman estime à quel point le modèle réussit à trier les noms composés (du moins compositionnel au plus compositionnel) dans le même ordre que les scores donnés par les annotateurs. auteurs ont d’abord créé des petits lexiques d’évaluation contenant 180 noms composés dans chaque langue, annotés par des locuteurs natifs sur une échelle allant de 0 (totalement idiomatique) à 5 (totalement compositionnel). Les scores moyennés sur 10‒20 annotateurs ont ensuite été utilisés comme référence pour évaluer la prédiction automatique. Les résultats indiquent une bonne corrélation 9 entre les scores prédits par les modèles et ceux donnés par les annotateurs : 0,602 pour le portugais, 0,702 pour le français, et 0,726 pour l’anglais (0,812 sur un sous-ensemble). Les auteurs ont aussi étudié, entre autres, les prétraitements du corpus (p. ex. lemmatisation), sa taille, le type de modèle distributionnel, la dimension des vecteurs, la fréquence des noms composés, et le type de fonction de composition ⊕. Les principaux résultats indiquent que (a) la lemmatisation est essentielle pour le français et le portugais, (b) les modèles neuronaux (cf. e. g. Mikolov/ Sutskever/ Chen/ Corrado/ Dean 2013) et les modèles traditionnels de factorisation de la matrice de cooccurrence (cf. e. g. Levy/ Goldberg/ Dagan 2015) ne présentent pas de différence significative et (c) l’addition simple est la fonction de composition la plus efficace. Ces méthodes pourraient, à terme, servir de base pour l’enrichissement systématique des ressources lexicales avec des informations quantitatives sur le degré de compositionnalité de l’ensemble des expressions polylexicales. Néanmoins, cela requiert de prendre en compte la variabilité syntaxique, par exemple, des EP verbales, plus complexe que celle des EP nominales étudiées dans ces travaux. La prise en compte de la variabilité a aussi été étudiée dans le projet PARSEME-FR, mais ne sera pas discutée ici dans un souci de concision (cf. Pasquer/ Savary/ Ramisch/ Antoine 2018). 4 Application à l’identification automatique d’expressions polylexicales L’un des objectifs majeurs du projet PARSEME-FR est de développer de nou‐ velles méthodes d’identification automatique d’expressions polylexicales. Le projet a participé à améliorer les connaissances dans la plupart des axes de recherche liés à cette tâche-: 1. Des méthodes de consultation de lexiques d’EP-; 2. Des méthodes de classification binaire d’EP candidates-; 232 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="233"?> 10 Ces formes lemmatisées sont obtenues grâce à l’application d’un lemmatiseur. 3. Des méthodes d’étiquetage séquentiel dans la même lignée que les mé‐ thodes classiques de reconnaissance des entités nommées-; et 4. Des méthodes liées aux approches d’analyse syntaxique. Nous invitons le lecteur ou la lectrice à se référer à Constant/ Eryiǧit/ Monti/ van der Plas/ Ramisch/ Rosner/ Todirascu (2017) pour un large éventail des méthodes d’identification automatique des EP. - 4.1 Identification par des méthodes de consultation d’un lexique Tout d’abord, une méthode simple pour identifier des occurrences d’EP dans un texte est de consulter un lexique d’EP existant. Quand les formes fléchies sont codées dans le lexique comme dans le dictionnaire DELA (cf. DELAC), la reconnaissance consiste juste à réaliser une correspondance simple entre le texte et les formes fléchies du lexique. Lorsque le lexique n’indique que la forme de base (p. ex. les tables du lexique-grammaire des expressions verbales figées), la tâche est plus compliquée et il est nécessaire de développer des heuristiques de mise en correspondance en utilisant des règles reposant notamment sur les formes fléchies et lemmatisées 10 du texte, voire même des informations syntaxiques pour gérer les différentes variantes et la discontinuité. Si sa couverture est importante, l’utilisation d’un lexique a un intérêt in‐ déniable. Cependant, cette méthode ne permet pas de gérer les EP absentes du lexique. Par ailleurs, elle n’autorise pas la gestion des EP ambiguës avec une co-occurrence accidentelle ou une lecture littérale de l’EP. Une solution partielle pour résoudre ces ambiguïtés est de tenir compte de plus de contraintes dans les procédures de consultation du lexique, notamment les contraintes syntaxiques comme l’ont étudié Savary/ Waszczuk (2017). Ces auteurs utilisent deux ressources lexicales d’EP en polonais-: i. un lexique extensionnel d’EP continues (nominales, adjectivales, adver‐ biales), où toutes les variantes morphosyntaxiques sont générées automa‐ tiquement à partir des descriptions fines, et ii. un lexique valenciel d’EP verbales, dont les entrées encodent les contraintes valencielles (p. ex. un verbe prenant un objet direct et un complément prépositionnel), lexicales (p. ex. figement d’un complément), morphologi‐ ques (p. ex. un objet direct devant être au pluriel) et syntaxiques (p. ex. une construction étant non passivable ou devant apparaître sous la portée d’une négation). Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 233 <?page no="234"?> 11 Un multi-ensemble est une extension d’un ensemble, qui correspond à un sac d’éléments pouvant apparaître plusieurs fois, contrairement aux ensembles où les éléments n’ap‐ paraissent qu’une fois. Ces ressources sont alors projetées sur un corpus arboré polonais (à l’aide d’un langage de requêtes sur mesure) de telle manière que des sous-arbres syntaxiques soient marqués comme composants d’une EP potentielle seulement si les contraintes encodées dans le lexique sont remplies. Cette méthode, même si relativement simple, s’avère assez précise (précision de 85 %). La raison principale en est que les seuls faux positifs sont les lectures littérales d’EP, et celles-ci s’avèrent peu fréquentes dans des corpus, comme l’ont confirmé Sa‐ vary/ Cordeiro/ Lichte/ Ramisch/ Iñurrieta/ Giouli (2019) en 5 langues de 5 genres différents. Une autre solution pour l’emploi du lexique dans la tâche d’identification d’EP est d’utiliser la consultation de lexiques comme un pré-traitement pour un outil d’identification en proposant un ensemble d’EP candidates (↑4.2. et ↑4.3.). - 4.2 Identification par classification de candidates Une autre méthode d’identification d’EP consiste à découper la procédure en deux étapes : une première étape pour extraire les occurrences candidates, suivie d’une deuxième étape de classification de celles-ci afin de décider s’il s’agit bien d’occurrences d’EP ou pas. Dans le cadre de PARSEME-FR, Pasquer/ Savary/ Ra‐ misch/ Antoine (2018) se sont intéressés à l’identification des EP verbales déjà vues dans un corpus d’entraînement. Cette tâche doit faire face aux défis de la variabilité et de l’ambiguïté des EP. La méthode analyse d’abord le corpus d’entraînement pour extraire les patrons les plus fréquents des EP verbales annotées, en s’appuyant sur les étiquettes morphosyntaxiques des composants des EP du corpus d’entraînement (p. ex. NOM et VERBE pour l’EP décisions prises) et leurs lemmes (p. ex. décision et prendre). Ces patrons, accompagnés des multi-ensembles 11 de lemmes d’EP déjà vues, constituent donc un lexique des EP verbales vues lors de la phase d’entraînement. Ce lexique sera utilisé pour identifier, dans le texte en entrée, toute manifestation d’une EP vue dans le corpus d’apprentissage. Le modèle de classification binaire est ensuite appris de la manière suivante. Le lexique permet de repérer toutes les cooccurrences des mots apparaissant dans des EP annotées dans le corpus d’entraînement. Ces cooccurrences can‐ didates sont soit des exemples positifs (occurrences idiomatiques) soit des exemples négatifs (occurrences littérales et co-occurrences fortuites) d’EP. Le jeu d’entraînement créé à partir d’une fonction d’extraction de traits sur 234 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="235"?> 12 L’outil Grew (Bonfante/ Guillaume/ Perrier 2018) de recherche de graphes a été utilisé. les exemples permet alors d’entraîner le modèle probabiliste de classification (classifieur naïf bayésien). Cette méthode, indépendante de la langue, a été expérimentée sur 19 langues lors de la campagne d’évaluation PARSEME 1.1. Elle produit des résultats glo‐ baux moins compétitifs que d’autres systèmes participants (sauf pour certaines langues, comme le bulgare), bien qu’elle soit compétitive sur les EP déjà vues dans le corpus d’apprentissage. Toujours dans le cadre de PARSEME-FR, Cordeiro/ Candito (2019) ont eux-aussi exploré la classification binaire d’occurrences candidates, mais fo‐ calisée sur l’identification d’un type spécifique d’EP verbale: les constructions à verbe support (CVS). Le point central de l’approche est que les CVS étant par définition syntaxiquement régulières, l’extraction des occurrences candidates peut utiliser non seulement les catégories morpho-syntaxiques, mais également la structure syntaxique. Ce travail se place donc dans le cas d'une identification de CVS au sein de phrases préalablement analysées syntaxiquement, grâce à un analyseur en dépendances. L’extraction des occurrences candidates se fait en repérant des patrons syn‐ taxiques. L’ensemble des patrons est d’abord extrait automatiquement du corpus d’entraînement : pour chaque CVS annotée, le chemin dans l’arbre syntaxique entre le verbe support et le nom prédicatif est extrait et délexicalisé : on ne retient que les catégories morpho-syntaxiques et les étiquettes de dépendances (par exemple NOM --mod--> VERBE pour l’EP décisions prises). Cette étape fournit un ensemble de patrons délexicalisés. La recherche systématique 12 de ces patrons au sein du corpus d'entraînement fournit des occurrences positives (i. e. effectivement annotées comme CVS) et négatives, constituant un jeu d’entraînement pour un classifieur binaire d'occurrences candidates. Les occurrences candidates sont représentées au moyen de traits issus de la représentation syntaxique des phrases, ainsi que de plongements lexicaux statiques pré-entraînés représentant le verbe support et le nom prédicatif supposés (entre autres traits). Plusieurs modèles de classification binaire des candidates ont été entraînés et testés sur les 19 langues de la campagne PARSEME 1.1. Expérimentalement, un modèle SVM s'est avéré légèrement plus performant qu'un réseau neuronal multi-couches, et globalement meilleur que les systèmes participants, permettant de conclure que les informations syntaxiques prédites, bien que bruitées, sont bénéfiques dans le cas de l'identification des EP de type CVS. Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 235 <?page no="236"?> 4.3 Identification-par modèles d’étiquetage séquentiel Une autre approche pour identifier les occurrences des expressions polylexicales dans une phrase est d’effectuer un étiquetage en séquence, c’est-à-dire d’associer une étiquette à chacun des mots de la phrase en tenant compte de son contexte (la séquence de mots de la phrase, voire les étiquettes déjà prédites). Cette approche s’inspire des méthodes de reconnaissance automatique d’entités nommées, en utilisant un jeu d’étiquettes de type IOB, permettant de modéliser sous la forme d’une tâche d’étiquetage la segmentation des séquences de plusieurs mots contigus (p.-ex. Los Angeles). L’exemple ci-dessous montre l’étiquetage de type IOB permettant d’identifier, dans une phrase en entrée, l’expression idiomatique met les voiles et le nom composé maison de campagne. L’étiquette O (Outside) indique que le mot ne se trouve pas dans une EP. L’étiquette B marque le mot initial d’une EP (c’est-à-dire, son mot le plus à gauche) alors que l’étiquette I indique un mot en position non-initiale d’une EP. Luc met souvent les voiles vers sa maison de campagne O B O I I O O B I I Les modèles d’étiquetage séquentiel sont appris automatiquement à partir de corpus déjà annotés en EP et convertis dans le format IOB. Il existe de nombreux types de modèles pour l’identification d’EP (cf. Constant/ Eryiǧit/ Monti/ van der Plas/ Ramisch/ Rosner/ Todirascu 2017). En particulier, dans le cadre du projet PARSEME-FR, Scholivet/ Ramisch/ Cordeiro (2017) ont étudié l’usage des champs aléatoires conditionnels (cf. Lafferty/ McCallum/ Pereira 2001) pour l’identification des noms composés en français. Par la suite, Zam‐ pieri/ Scholivet/ Ramisch/ Favre (2018) ont développé une architecture neuronale s’appuyant sur des couches récurrentes du type LSTM (cf. Hochreiter/ Schmid‐ huber 1997) informées par les lemmes et étiquettes morphosyntaxiques des mots fournis en entrée. Ce système a participé à la compétition PARSEME 1.1 d’identification automatique des expressions verbales pour 19 langues. En plus de donner en entrée du système d’identification des informations de base sur les mots (forme, lemme, étiquette morphosyntaxique) de la phrase, il est aussi possible de fournir au modèle des informations provenant de ressources lexicales afin de rendre le système plus robuste aux expressions non vues dans le corpus d’entraînement du modèle. Par exemple, Constant/ Sigogne (2011) informent le système du résultat d’un premier découpage naïf du texte en unités lexicales (incluant les EP) réalisé à l’aide d’une consultation d’un dictionnaire de 236 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="237"?> mots composés. Ce découpage ne prenant pas en compte l’ambiguïté potentielle des EP, le modèle va apprendre à faire confiance ou pas à la ressource lexicale en fonction des contextes. Ce système a été repris dans le cadre du projet PARSEME-FR dans l’application de démonstration (↑5.). - 4.4 Identification avec des méthodes d’analyse syntaxique L’identification des EP par étiquetage séquentiel se révèle efficace en pratique. Cependant, cette approche possède certains aspects insatisfaisants : la prise en compte de la syntaxe et le traitement des cas d’emboîtement sont en effet considérés de façon peu naturelle. Tout d’abord, les expressions polylexicales et la syntaxe sont intimement liées. Les expressions polylexicales forment en effet le plus souvent un sous-arbre de l’arbre syntaxique. Ainsi, les parties d’EP discontinues sont le plus souvent liées syntaxiquement, et la connaissance de la structure syntaxique de la phrase en entrée permet d’améliorer l’identification de telles expressions. Par ailleurs, les EP partagent certaines caractéristiques avec la syntaxe en termes de représentation. En effet, comme les syntagmes qui incluent d’autres syntagmes, une EP peut être imbriquée dans une autre EP plus large : p. ex. le nom composé faux pas est inclus dans l’expression verbale faire un [faux pas]. D’autre part, l’identification des EP semble partager certains mécanismes avec l’analyse syntaxique. En effet, les EP discontinues contiennent des trous qui peuvent potentiellement contenir d’autres EP : p. ex., la phrase Luc [remet] 1 sa [garde à vue] 2 [en cause] 1 contient deux expressions remet en cause et garde à vue. Ainsi, alors que le système est en train de reconnaître l’EP remet en cause, il doit aussi être capable d’identifier l’EP garde à vue. Cette reconnaissance «-récursive-» est similaire à l’analyse syntaxique d’une phrase. Dans le cadre du projet PARSEME-FR, Constant/ Nivre (2016) ont mis au point un mécanisme adapté de l’analyse syntaxique pour combiner identification d’EP et analyse syntaxique en dépendances. Ce mécanisme a notamment été partiellement repris et amélioré avec succès pour l’identification des EP verbales par Al Saied/ Candito/ Constant (2017 ; 2018 ; 2019) sur les données des campagnes d’évaluation PARSEME 1.0 et 1.1. Ils ont notamment obtenu des performances dépassant celles des systèmes ayant participé à ces deux compétitions, grâce notamment à la mise au point d’une procédure cross-lingue robuste d’apprentissage de modèles linéaires et neuronaux (cf. Al Saied/ Can‐ dito/ Constant 2019). Une autre approche d’analyse syntaxique intégrant une détection d’EP correspond aux travaux de Waszczuk/ Savary/ Parmentier (2016), qui se sont intér‐ Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 237 <?page no="238"?> 13 https: / / mwedemonstrator.atilf.fr [dernière consultation-: 31/ 03/ 2021]. essés à l’analyse syntaxique au moyen de grammaires formelles (en l’occurrence des grammaires d’arbres adjoints, cf. Joshi/ Levy/ Takahashi 1975). Ils ont déve‐ loppé un algorithme d’analyse de type A* qui utilise une heuristique donnant la priorité aux EP par rapport à une interprétation régulière lors du calcul de l’arbre d’analyse (en constituants). Pour évaluer l’efficacité de leur algorithme, les auteurs ont mis en place un cadre expérimental utilisant un corpus arboré du polonais de 9.000 phrases (cf. Świdziński/ Woliński 2010). À partir de ce corpus arboré qu’ils ont préalablement annoté en EP, ils ont extrait une grammaire d’arbres adjoints au moyen de techniques état-de-l’art (cf. Chen/ Shanker 2004). Au passage, il est intéressant de mentionner que l’annotation en EP s’est faite par projection automatique de ressources manuellement produites en utilisant des contraintes syntaxiques (↑4.1.). 2.026 occurrences d’EP ont ainsi été annotées. La grammaire extraite de ce corpus annoté est composée de 28.652 arbres élémentaires. Lors de cette expérience, les auteurs ont évalué l’efficacité de l’analyseur syntaxique en termes de portion de l’arbre de recherche explorée avant de produire une analyse correcte. Le nombre d’étapes d’exploration de l’arbre de recherche a été réduit de près de 40 % par l’utilisation de leur heuristique donnant priorité aux EP. 5 Une application en-ligne Dans le cadre du projet PARSEME-FR, Schmitt/ Moreau/ Constant/ Savary (2019) ont développé une application de démonstration en-ligne 13 qui sert de vitrine au projet. L’application permet (1) de tester les différents outils d’identification dé‐ veloppés lors du projet, et (2) d’explorer le corpus annoté en EP verbales (cf. Can‐ dito/ Constant/ Ramisch/ Savary/ Parmentier/ Pasquer/ Antoine 2017), ainsi que la ressource lexicale extraite des tables du lexique-grammaire. - 5.1 Tester des outils d’identification d’expressions polylexicales Tout d’abord, il est possible de tester les outils d’identification du projet sur le texte de son choix-: i. le système ATILF-LLF (cf. Al Saied/ Candito/ Constant 2018) s’appuyant sur des mécanismes inspirés de l’analyse syntaxique en dépendances (↑4.4.)-; ii. le système VarIDE (cf. Pasquer/ Savary/ Ramisch/ Antoine 2018) qui se fonde sur une méthode de classification d’EP candidates extraites à partir des expressions annotées dans le corpus d’apprentissage (↑4.2.)-; 238 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="239"?> iii. le système Veyn (cf. Zampieri/ Scholivet/ Ramisch/ Favre 2018) qui effectue un étiquetage séquentiel de type IOB (↑4.3.). Ces trois systèmes sont dédiés à l’identification des expressions polylexicales verbales et sont appris sur les données françaises annotées de PARSEME 1.1. Afin de permettre aux utilisateurs d’identifier des EP non verbales, il a été donné la possibilité de tester le système LGTagger (cf. Constant/ Sigogne 2011) qui fait de l’étiquetage séquentiel au moyen d’un modèle probabiliste informé notamment du dictionnaire de mots composés DELA (cf. DELAC ; ↑4.3.). Deux modèles peuvent être utilisés : un premier appris sur le corpus annoté en EP principalement continues et non-verbales dérivé du French Treebank (cf. Abeillé/ Clément/ Toussenel 2003), un autre appris sur le corpus annoté en EP essentiellement grammaticales dérivé des données françaises de l’UD Treebank (cf. UD). L’application de ces outils est précédée d’un prétraitement effectué au moyen de l’outil UDPipe (cf. Straka/ Strakovà 2017). Ce prétraitement qui sert à informer les outils d’identification comprend-: i. le découpage du texte en phrases et en-«-mots-»-; ii. l’étiquetage morphosyntaxique des mots, la prédiction de ses traits mor‐ phologiques, ainsi que sa lemmatisation, et iii. l’analyse syntaxique en dépendances de chaque phrase. L’utilisateur a la possibilité d’utiliser un ou plusieurs outils simultanément ou indépendamment. La figure 1 montre le résultat de l’analyse de la phrase par les systèmes LGTagger et VarIDE pour la phrase Le premier ministre joua un rôle certain dans ma garde à vue. Le résultat correspond à l’union des résultats des outils sélectionnés. Trois expressions polylexicales sont identifiées : les EP nominales premier ministre et garde à vue, ainsi que l’EP verbale joua rôle. L’affichage permet de visualiser sous forme graphique l’analyse syntaxique en dépendances de la phrase, ainsi que l’étiquette morphosyntaxique et le lemme de chacun des mots de la phrase. Le résultat peut également être téléchargé au format CUPT (cf. PARSEME1.1) regroupant toutes les annotations produites par l’outil de prétraitement UDPipe et les outils sélectionnés pour l’identification d’EP. Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 239 <?page no="240"?> 14 La classe C_fcpn contient des expressions polylexicales ayant pour forme de base N0 faire N1 Prép N2 où N0 est un sujet (libre), N1 est un complément d’objet figé Figure 1-: visualisation du résultat d’une annotation automatique. - 5.2 Explorer des ressources d’expressions polylexicales verbales Le démonstrateur en-ligne permet également d’explorer une ressource lexi‐ cale et un corpus annoté en EP qui ont été alignés automatiquement. La ressource lexicale correspond au lexique extrait automatiquement des tables du lexique-grammaire (↑3.1.). Le corpus annoté correspond aux données françaises (cf. Candito/ Constant/ Ramisch/ Savary/ Parmentier/ Pasquer/ Antoine 2017) de la campagne PARSEME 1.0 annotées en expressions verbales (cf. PARSEME1.0 ; ↑2.2.). L’alignement entre les deux ressources s’appuie sur une heuristique simple de mise en correspondance des éléments lexicaux figés des expressions du corpus et du lexique, autorisant une certaine flexibilité. À partir d’une occurrence annotée dans le corpus annoté, il est possible de suivre un lien vers les entrées correspondantes du lexique. Le démonstrateur contient aussi un moteur de recherche qui permet de faire des requêtes plus ou moins complexes dans le corpus ou le lexique sur un ou plusieurs éléments lexicaux figés des expressions recherchées, leur catégorie (p. ex. construction à verbe support), son nombre de mots ou d’autres caractéristiques plus avancées (une table du lexique-grammaire dont est issue l’expression recherchée, ses traits morphologiques, etc.). La figure 2 montre l’affichage de l’entrée lexicale faire preuve, issu de la classe C_fcpn 14 du lexique-grammaire, dans la structure extraite automatiquement. 240 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="241"?> entièrement lexicalisé et Prép N2 est un complément prépositionnel (libre) introduit par une préposition Prép différente de à. A noter que la classe C_fcan vue en 3.1.1. diffère juste sur la préposition qui est obligatoirement à. 15 http: / / match.grew.fr [dernière consultation-: 31/ 03/ 2021]. L’interface montre également les instances annotées de cette entrée dans le corpus. Il convient de noter que s’il existe plusieurs entrées pour une expression, toutes les entrées sont alignées avec l’occurrence. Il convient aussi de noter que nos différents corpus annotés peuvent tous être explorés au moyen du moteur Grew (cf. Bonfante/ Guillaume/ Perrier 2018) sur l’application en-ligne Grew-match. 15 Figure 2-: visualisation d’une entrée du lexique. 6 Conclusion Une caractérisation des phénomènes langagiers, à la fois linguistiquement précise et opérationnelle du point computationnel, est un défi majeur pour le TAL. En ce qui concerne le phénomène de l’idiomaticité, le projet PARSEME-FR s’est penché sur plusieurs questions de recherche liées à ce défi, telles que-: Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 241 <?page no="242"?> 1. la définition opératoire d’une expression polylexicale-; 2. la distinction (opératoire elle aussi) des expressions polylexicales et des entités nommées-; 3. l’approximation de la non-compositionnalité sémantique par le figement lexical et morpho-syntaxique-; 4. la caractérisation de l’irrégularité syntaxique des expressions-; 5. la définition formelle des lectures littérales et co-occurrences fortuites des expressions polylexicales. Toutes ces réflexions théoriques ont été validées expérimentalement et quanti‐ fiées à la base des données issues de corpus français de genres variés. Ces travaux ont également été à la fois précurseurs et bénéficiaires des avancées multilingues dans le cadre du réseau européen PARSEME. L’application phare pour la construction et la validation de nos propositions est l’identification automatique des expressions polylexicales. Il s’agit d’un problème complexe et crucial pour le traitement automatique des langues. Elle requiert le développement de ressources linguistiques volumineuses, ainsi que des méthodes et modèles capturant toute la complexité et la variété linguistique de ces expressions. C’est le défi qu’a essayé de relever le projet PARSEME-FR avec comme langue d’application le français. Dans le cadre de ce projet, nous avons tout d’abord conçu une méthodologie méticuleuse de construction de corpus annotés en EP à l’aide de tests linguisti‐ ques orchestrés par des diagrammes de décision. Nous avons ensuite développé des outils informatiques pour aider à la construction de lexiques d’EP, en particulier pour l’extraction de structures valencielles depuis un lexique existant et pour la complétion automatique d’entrées lexicales (forme de base et degré de compositionnalité d’une EP). À partir de ces ressources (et en particulier les corpus annotés), nous avons développé différentes techniques d’identification automatique des EP s’inscrivant dans quatre axes méthodologiques-: 1. l’identification par consultation de ressources lexicales-; 2. l’identification par classification binaire d’expressions candidates-; 3. l’identification par étiquetage séquentiel, et 4. l’identification au moyen de techniques liées à l’analyse syntaxique. Enfin, nous avons mis au point un démonstrateur en-ligne permettant de tester les outils d’identification et d’explorer une partie de nos ressources linguistiques. Malgré les contributions importantes du projet au domaine du traitement des expressions polylexicales, beaucoup de chemin reste encore à parcourir. 242 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="243"?> En particulier, la prise en compte systématique des ressources lexicales dans les méthodes d’identification est une piste importante à suivre afin de mieux gérer les expressions rares en corpus (cf. Savary/ Cordeiro/ Ramisch 2019). Par ailleurs, l’identification des EP devient particulièrement intéressante lorsqu’elle est intégrée dans des tâches sémantiques (p. ex. liage des occurrences d’EP dans des textes avec des entrées dans des dictionnaires, analyse en cadres sémantiques, traduction automatique ou extraction d’information). Là encore, de nombreuses questions de recherche demeurent. Bibliographie Abeillé, Anne/ Clément, Lionel/ Toussenel, François (2003): „Building a treebank for French“, in-: Abeillé, Anne (ed.): Treebanks-: Building and Using Parsed Corpora, Dordrecht, Kluwer Academic Publishers, 165-187. Al Saied, Hazem/ Candito, Marie/ Constant, Mathieu (2019): „Comparing linear and neural models for competitive MWE identification“, in-: Hartmann, Mareike/ Plank, Barbara (eds.): Proceedings of the 22nd Nordic Conference on Computational Linguistics, Turku, Linköping University Electronic Press, 86-96. Al Saied, Hazem/ Candito, Marie/ Constant, Mathieu (2018): „A transition-based verbal multiword expression analyzer“, in-: Markantonatou, Stella/ Ramisch, Carlos/ Savary, Agata/ Vincze, Veronika (eds.): Multiword expressions at length and in depth. Extended papers from the MWE 2017 workshop, Berlin, Language Science Press, 209-226. Al Saied, Hazem/ Candito, Marie/ Constant, Matthieu (2017): „ATILF-LLF System for PARSEME Shared Task-: a transition-based verbal multiword expression tagger”, in-: Markantonatou, Stella/ Ramisch, Carlos/ Savary, Agata/ Vincze, Veronika (eds.): Proceedings of the 13th Workshop on Multiword Expressions (MWE 2017)-: shared task track, Valencia, Association for Computational Linguistics, 127-132. Baldwin, Timothy/ Kim, Su Nam (2010): „Multiword Expressions“, in-: Indurkhya, Nitin/ Damerau, Fred J. (eds.): Handbook of Natural Language Processing. Second Edition, Boca Raton, CRC Press, 267-292. Bonfante, Guillaume/ Guillaume, Bruno/ Perrier, Guy (2018): „Application of Graph Rew‐ riting to Natural Language Processing“, in-: Rétoré, Christian (ed.): Logic, Linguistics and Computer Science Set, vol.-1, London, ISTE Wiley, 1-272. Boons, Jean-Paul/ Guillet, Alain/ Leclère, Christian (1976): La structure des phrases simples en français-: Constructions intransitives, Genève, Droz. Candito, Marie/ Constant, Mathieu/ Ramisch, Carlos/ Savary, Agata/ Parmentier, Yan‐ nick/ Pasquer, Caroline/ Antoine, Jean-Yves (2017): „Annotation d’expressions polyle‐ xicales verbales en français“, in : Eshkol, Iris/ Antoine, Jean-Yves (eds.): Actes de la 24 e conférence sur le Traitement Automatique des Langues Naturelles (TALN 2017) : articles Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 243 <?page no="244"?> courts, Orléans, France, 1-9. https: / / taln2017.cnrs.fr/ wp-content/ uploads/ 2017/ 06/ act es_TALN_2017-vol2.pdf [dernière consultation-: 31/ 03/ 2021]. Candito, Marie/ Constant, Mathieu/ Ramisch, Carlos/ Savary, Agata/ Guillaume, Bruno/ Parmentier, Yannick/ Cordeiro, Silvio (2020): „A French corpus annotated for multi‐ word expressions and named entities“, in: Journal of Language Modelling 8: 2, 415-479. Candito, Marie/ Seddah, Djamé (2012): „Le corpus Sequoia-: annotation syntaxique et exploitation pour l’adaptation d’analyseur par pont lexical“, in-: Antoniadis, Georges/ Blanchon, Hervé/ Sérasset, Gilles (eds.): Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, vol.-2-: TALN, Grenoble, ATALA/ AFCP, 321-334. Carpuat, Marine/ Diab, Mona (2010): “Task-based evaluation of multiword expressions-: A pilot study in statistical machine translation”, in : Kaplan, Ron/ Burstein, Jill/ Harper, Mary/ Penn, Gerald (eds.): Human Language Technologies : The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Los Angeles, Association for Computational Linguistics, 242-245. Chen, John/ Shanker, Vijay K. (2004): „Automated Extraction of Tags from the Penn Treebank“, in-: Bunt, Harry/ Carroll, John/ Satta, Giorgio (eds.): New Developments in Parsing Technology, Norwell, Kluwer Academic Publishers, 73-89. Constant, Mathieu/ Eryiǧit, Gülşen/ Monti, Johanna/ van-der-Plas, Lonneke/ Ramisch, Carlos/ Rosner, Michael/ Todirascu, Amalia (2017): „Multiword Expression Processing : A Survey“, in: Computational Linguistics 43: 4, 837-892. Constant, Matthieu/ Nivre, Joakim (2016): „A Transition-based System for Joint Lexical and Syntactic Analysis“, in : Erk, Katrin/ Smith, Noah A. (eds.): Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, vol.-1-: -Long Papers, Berlin, Association for Computational Linguistics, 161-171. Constant, Matthieu/ Sigogne, Anthony (2011): „MWU-aware Part-of-Speech Tagging with a CRF model and lexical resources“, in-: Kordoni, Valia/ Ramisch, Carlos/ Villa‐ vicencio, Aline (eds.): Proceedings of the Workshop on Multiword Expressions-: from Parsing and Generation to the Real World, Portland, Association for Computational Linguistics, 49-56. Cordeiro, Silvio/ Ramisch, Carlos/ Idiart, Marco/ Villavicencio, Aline (2016): „Predicting the compositionality of nominal compounds : Giving word embeddings a hard time“, in-: Erk, Katrin/ Smith, Noah A. (edd.): Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, vol.-1-: -Long Papers, Berlin, Association for Computational Linguistics, 1986-1997. Cordeiro, Silvio/ Villavicencio, Aline/ Idiart, Marco/ Ramisch Carlos (2019): „Unsupervised compositionality prediction of nominal compounds“, in: Computational Linguistics 45: 1, 1-57. Cordeiro, Silvio/ Candito, Marie (2019): „Syntax-based identification of light-verb const‐ ructions“, in : Hartmann, Mareike/ Plank, Barbara (eds.): Proceedings of the 22nd Nordic 244 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="245"?> Conference on Computational Linguistics, Turku, Linköping University Electronic Press, 97-104. DELAC-=-Courtois, Blandine/ Garrigues, Mylène/ Gross, Gaston/ Gross, Maurice/ Jung, René/ Mathieu-Colas, Michel/ Monceaux, Anne/ Poncet-Montange, Anne/ Silberztein, Max/ Vivès, Robert (1997): Dictionnaire électronique DELAC : les mots composés binaires, Paris, Université Paris 7, LADL. Finlayson, Mark A./ Kulkarni, Nidhi (2011): „Detecting multi-word expressions improves word sense disambiguation“, in : Kordoni, Valia/ Ramisch, Carlos/ Villavicencio, Aline (eds.): Proceedings ot he Workshop on Multiword Expressions-: from Parsing and Generation ot he Real World, Portland, Association for Computational Linguistics, 20-24. Gardent, Claire/ Guillaume, Bruno/ Perrier, Guy/ Falk, Ingrid (2006): „Extraction d’infor‐ mation de sous-catégorisation à partir des tables du LADL“, in : Mertens, Piet/ Fairon, Cédrick/ Dister, Anne/ Watrin, Patrick (eds.): Verbum ex machina (TALN). Actes de la 13 e conférence sur le traitement automatique des langues naturelles, vol.-1-: Cahiers du Cental, Louvain, Presses universitaires de Louvain, 139-148. Giry-Schneider, Jacqueline (1987): Les prédicats nominaux en français : Les phrases simples à verbe support, Genève, Droz. Gross, Maurice (1986): „Lexicon grammar. The representation of compound words“, in-: Coling 1986 The 11th International Conference on Computational Linguistics, vol.-1, Bonn, Association for Computational linguistics, 1-6. Gross, Maurice (1982): „Une classification des phrases «-figées-» du français“, in: Revue québécoise de linguistique 11: 2, 151-185. Gross, Maurice (1975): Méthodes en syntaxe : Régimes des constructions complétives, Paris, Hermann. Guillet, Alain/ Leclère, Christian (1992): La structure des phrases simples en français. Les constructions transitives locatives, Genève, Droz. Hathout, Nabil/ Namer, Fiammetta (1998): „Automatic construction and validation of French large lexical resources-: Reuse of verb theoretical linguistic descriptions”, in-: Proceedings of the First International Conference on Language Resources and Evaluation, Granada, ELRA, 627-636. Hochreiter, Sepp/ Schmidhuber, Jürgen(1997): „Long short-term memory“, in: Neural Computation 9: 8, 1735-1780. Joshi, Aravind K./ Levy, Leon S./ Takahashi, Masako (1975): „Tree adjunct grammars“, in: Journal of Computer and Systems Sciences 10: 1, 55-75. Kleiber Georges (2007): „Sur le rôle cognitif des noms propres“, in : Cahiers de lexicologie 91: 2, 153-167. Lafferty, John D./ McCallum, Andrew/ Pereira, Fernando C. N. (2001): „Conditional random fields-: Probabilistic models for segmenting and labeling sequence data“, Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 245 <?page no="246"?> in : Brodley, Carla E./ Pohoreckyj Danyluk, Andrea (eds.): Proceedings of the Eighteenth International Conference on Machine Learning, San Francisco, Morgan Kaufmann Publishers, 282-289. Laporte, Éric/ Beltran, Fabrice (2018): „Continuum of compositionality and formal description“, in-: Ist International Congress of Phraseology and Translation in Latin America, Lima (diapositives) https: / / hal.archives-ouvertes.fr/ hal-01890449 [dernière consultation-: 31/ 03/ 2021]. Laporte, Éric/ Nakamura, Takuya/ Voyatzi, Stavroula (2008): „A French corpus annotated for multiword nouns“, in-: Grégoire, Nicole/ Evert, Stefan/ Krenn, Brigitte (eds.): Proceedings of the LREC Workshop Towards a Shared Task for Multiword Expressions (MWE 2008), Marrakech, 27-30 (=2008a) http: / / www.lrec-conf.org/ proceedings/ lrec2 008/ workshops/ W20_Proceedings.pdf [dernière consultation-: 31/ 03/ 2021]. Laporte, Éric/ Nakamura, Takuya/ Voyatzi, Stavroula (2008): „A French corpus annotated for Multiword Expressions with adverbial function“, in-: Ide, Nancy/ Meyers, Adam (eds.): Proceedings of the 2nd Linguistic Annotation Workshop, Marrakech, 48-51 (=2008b). http: / / verbs.colorado.edu/ LAW2008/ LAWproceedings.pdf [dernière consul‐ tation-: 31/ 03/ 2021]. Levy, Omer/ Goldberg, Yoav/ Dagan, Ido (2015): „Improving Distributional Similarity with Lessons Learned from Word Embeddings“, in: Transactions of the Association for Computational Linguistics 3, 211-225. Mel’čuk, Igor (2012): „Phraseology in the language, in the dictionary, and in the computer”, in: Yearbook of Phraseology 3: 1, New York, De Gruyter, 31-56. Mikolov, Tomas/ Sutskever, Ilya/ Chen, Kai/ Corrado, Greg/ Dean, Jeffrey (2013): „Distri‐ buted representations of words and phrases and their compositionality“, in-: Burges, Christopher J. C./ Bottou, Léon/ Welling, Max/ Ghahramani, Zoubin/ Weinberger, Kilian Q. (eds.): Proceedings of the 26th International Conference on Neural Information Processing Systems, vol.-2-: -NIPS’13, Red Hook, Curran Associates Inc., 3111-3119. Navigli, Roberto/ Jurgens, David/ Vannella, Daniele (2013): „SemEval-2013 Task 12-: Multilingual Word Sense Disambiguation“, in : Manandhar, Suresh/ Yuret, Deniz (eds.): Second Joint Conference on Lexical and Computational Semantics (*SEM), vol.-2-: -Pro‐ ceedings of the 17th International Workshop on Semantic Evaluation (SemEval 2013), Atlanta, Association for Computational Linguistics, 193-201. PARSEME1.0-=-Savary, Agata/ Ramisch, Carlos/ Cordeiro, Silvio R./ Sangati, Fe‐ derico/ Vincze, Veronika/ Qasemi Zadeh, Behrang/ Candito, Marie/ Cap, Fabienne/ Gi‐ ouli, Voula/ Stoyanova, Ivelina/ Doucet, Antoine (2017): „The PARSEME Shared Task on Automatic Identification of Verbal Multiword Expressions“, in-: Markantonatou, Stella/ Ramisch, Carlos/ Savary, Agata/ Vincze, Veronika (eds.): Proceedings of the 13th Workshop on Multiword Expressions (MWE 2017)-: shared task track, Valencia, Associ‐ ation for Computational Linguistics, 31-47. 246 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="247"?> PARSEME1.1-=-Ramisch, Carlos/ Cordeiro, Silvio R./ Savary, Agata/ Vincze, Vero‐ nika/ Barbu Mititelu, Verginica/ Bhatia, Archna/ Buljan, Maja/ Candito, Marie/ Gantar, Polona/ Giouli, Voula/ Güngör, Tunga/ Hawwari, Abdelati/ Iñurrieta, Uxoa/ Kovalevs‐ kaitė, Jolanta/ Krek, Simon/ Lichte, Timm/ Liebeskind, Chaya/ Monti, Johanna/ Parra Es‐ cartín, Carla/ QasemiZadeh, Behrang/ Ramisch, Renata/ Schneider, Nathan/ Stoyanova, Ivelina/ Vaidya, Ashwini/ Walsh, Abigail (2018): „Edition 1.1 of the PARSEME shared task on automatic identification of verbal multiword expressions“, in : Savary, Agata/ Ramisch, Carlos/ Hwang, Jena D./ Schneider, Nathan/ Andresen, Melanie/ Pradhan, Sameer/ Petruck, Miriam R. L. (eds.): Proceedings of the Joint Workshop on Linguistic Annotation, Multiword Expressions and Constructions (LAW-MWE-CxG-2018), Santa Fe, Association for Computational Linguistics, 222-240. Pasquer, Caroline/ Savary, Agata/ Ramisch, Carlos/ Antoine, Jean-Yves (2018): „If you’ve seen some, you’ve seen them all-: Identifying variants of multiword expressions“, in-: Bender, Emily M./ Derczynski, Leon/ Isabelle, Pierre (eds.): Proceedings of the 27th International Conference on Computational Linguistics, Santa Fe, Association for Computational Linguistics, 2582-2594. PDT-=-Hajič, Jan/ Hajičová, Eva/ Mikulová, Marie/ Mírovský, Jiří (2017): “Prague Depen‐ dency Treebank”, in-: Ide, Nancy/ Pustejovsky, James (eds.): Handbook of Linguistic Annotation, Dordrecht, Springer, 555-594. Ramisch, Carlos/ Nasr, Alexis/ Valli, André/ Deulofeu, José (2016): „DeQue-: A lexicon of complex prepositions and conjunctions in French“, in-: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Goggi, Sara/ Grobelnik, Marko/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Helene/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (eds.): Procee‐ dings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož, European Language Resources Association (ELRA), 2293-2298. Sag, Ivan A./ Baldwin, Timothy/ Bond, Francis/ Copestake, Ann/ Flickinger, Dan (2002): „Multiword expressions-: A pain in the neck for NLP“, in-: Gelbukh, Alexander F. (ed.): Computational Linguistics and Intelligent Text Processing-: Third International Conference, CICLing 2002, Mexico City, Mexico, February 17‒23, 2002 Proceedings, Berlin-; Heidelberg-; New York-; Barcelona-; Hong Kong-; London-; Milan-; Paris-; Tokyo, Springer, 1-15. Savary, Agata/ Cordeiro, Silvio R./ Lichte, Timm/ Ramisch, Carlos/ Iñurrieta, Uxoa/ Giouli, Voula (2019): „Literal occurrences of multiword expressions-: Rare birds that cause a stir“, in: Prague Bulletin of Mathematical Linguistics 112, 5-54 (=2019). Savary, Agata/ Cordeiro, Silvio R./ Ramisch, Carlos (2019): „Without lexicons, multiword expression identification will never fly-: A position statement“, in-: Savary, Agata/ Parra Escartín, Carla/ Bond, Francis/ Mitrović, Jelena/ Barbu Mititelu, Verginica (eds.): Proceedings of the Joint Workshop on Multiword Expressions and WordNet (MWE-WN 2019), Florence, Association for Computational Linguistics, 79-91 (=2019). Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 247 <?page no="248"?> Savary, Agata/ Waszczuk, Jakub (2017): „Projecting multiword expression resources on a Polish treebank“, in-: Erjavec, Tomaž/ Piskorski, Jakub/ Pivovarova, Lidia/ Šnajder, Jan/ Steinberger, Josef/ Yangarber, Roman (eds.): Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing (BSNLP 2017), Valencia, Association for Computational Linguistics, 20-26. Schmitt, Marine/ Constant, Mathieu (2019): „Neural lemmatization of multiword expres‐ sions“, in-: Savary, Agata/ Parra Escartín, Carla/ Bond, Francis/ Mitrović, Jelena/ Barbu Mititelu, Verginica (eds.): Proceedings of the Joint Workshop on Multiword Expressions and WordNet (MWE-WN 2019), Florence, Association for Computational Linguistics, 142-148. Schmitt, Marine/ Moreau, Élise/ Constant, Matthieu/ Savary, Agata (2019): „Démonstrateur en-ligne du projet ANR PARSEME-FR sur les expressions polylexicales“, in-: Morin, Emmanuel/ Rosset, Sophie/ Zweigenbaum, Pierre/ Ligozat, Anne-Laure/ Ghannay, Sahar (eds.): Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN-RECITAL), Toulouse, Association française pour l’Intelli‐ gence Artificielle (AfIA), 627-630. Schneider, Nathan/ Hovy, Dirk/ Johannsen, Anders/ Carpuat, Marine (2016): „Se‐ meval-2016 task 10-: Detecting minimal semantic units and their meanings (DiMSUM)“, in : Bethard, Steven/ Carpuat, Marine/ Cer, Daniel/ Jurgens, David/ Nakov, Preslav/ Zesch, Torsten (eds.): Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016), San Diego, Association for Computational Lin‐ guistics, 546-559. Scholivet, Manon/ Ramisch, Carlos/ Cordeiro, Silvio (2018): „Sequence models and lexical resources for MWE identification in French“, in-: Markantonatou, Stella/ Ramisch, Carlos/ Savary, Agata/ Vincze, Veronika (eds.): Multiword expressions at length and in depth : Extended papers from the MWE 2017 workshop, Berlin, Language Science Press, 263-297. Straka, Milan/ Straková, Jana (2017): „Tokenizing, POS tagging, lemmatizing and parsing UD 2.0 with UDPipe“, in : Hajič, Jan/ Zeman, Dan (eds.): Proceedings of the CoNLL 2017 Shared Task : Multilingual Parsing from Raw Text to Universal Dependencies, Vancouver, Association for Computational Linguistics, 88-99. STREUSLE-=-Schneider, Nathan/ Onuffer, Spencer/ Kazour, Nora/ Danchik, Emily/ Mordowanec, Michael T./ Conrad, Henrietta/ Smith, Noah A. (2014): „Comprehensive annotation of multiword expressions in a social web corpus“, in-: Calzolari, Nico‐ letta/ Choukri, Khalid/ Declerck, Thierry/ Loftsson, Hrafn/ Maegaard, Bente/ Mariani, Joseph/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (eds.): Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), Reykjavik, European Resource Language Evaluation (ELRA), 455-461. 248 Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary <?page no="249"?> Świdziński, Marek/ Woliński, Marcin (2010): „Towards a bank of constituent parse trees for Polish“, in-: Sojka, Petr/ Horák, Aleš/ Kopeček, Ivan/ Pala, Karel (eds.): Text, Speech and Dialogue, 13th International Conference, TSD 2010, Brno, September 2010, Proceedings, Heidelberg, Springer, 197-204. Tolone, Elsa (2012): Analyse syntaxique à l’aide des tables du Lexique-Grammaire français. Sarrebruck, Éditions Universitaires Européennes. Tolone, Elsa/ Sagot, Benoît (2011): Using lexicon-grammar tables for French verbs in a large-coverage parser, Berlin/ Heidelberg, Springer, 183-191. Tutin, Agnès/ Esperança-Rodier, Emmanuelle/ Iborra, Manolo/ Reverdy, Justine (2016): „Annotation of multiword expressions in French“, in-: Corpas Pastor, Gloria (ed.): EUROPHRAS 2015. Computerised and Corpus-based Approaches to Phraseology : Mono‐ lingual and Multilingual Perspectives, Geneva, Editions Tradulex, 60-67. UD-=-Nivre, Joakim/ de-Marneffe, Marie-Catherine/ Ginter, Filip/ Goldberg, Yoav/ Hajič, Jan/ Manning, Christopher D./ McDonald, Ryan/ Petrov, Slav/ Pyysalo, Sampo/ Silveira, Natalia/ Tsarfaty, Reut/ Zeman, Daniel (2016): „Universal Dependencies v1. A mul‐ tilingual treebank collection“, in-: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Goggi, Sara/ Grobelnik, Marko/ Maegaard, Bente/ Mariani, Joseph/ Mazo, He‐ lene/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (eds.): Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož, European Language Resources Association (ELRA), 1659-1666. Waszczuk, Jakub/ Savary, Agata/ Parmentier, Yannick (2016): „Promoting multiword ex‐ pressions in A* TAG parsing“, in : Matsumoto, Yuji/ Prasad, Rashmi (eds.): Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics-: Technical Papers, Osaka, Association for Computational Linguistics, 429-439. Zampieri, Nicolas/ Scholivet, Manon/ Ramisch, Carlos/ Favre, Benoit (2018): „Veyn at PARSEME shared task 2018-: Recurrent neural networks for VMWE identification“, in-: Savary, Agata/ Ramisch, Carlos/ Hwang, Jena D./ Schneider, Nathan/ Andresen, Melanie/ Pradhan, Sameer/ Petruck, Miriam R. L. (eds.): Proceedings of the Joint Workshop on Linguistic Annotation, Multiword Expressions and Constructions (LAW-MWE-CxG-2018), Santa Fe, Association for Computational Linguistics, 290-296. Traitement automatique des expressions polylexicales en français-: le projet PARSEME-FR 249 <?page no="251"?> 1 Erste Überlegungen wurden schon in Blog-Form diskutiert, cf. Mersch (2019). Erste Schritte zu einer digitalen Chrestomathie des Altrumänischen Sam Mersch Abstract This contribution offers insight into the digital edition of the Old Romanian Chrestomathy by Moses Gaster, a binational Project involving researcher from Germany and Luxembourg. The project in itself is still in its infancy and the contribution deals with the problems and considerations encoun‐ tered with elaborating a digital edition, from start to finish, while focusing on the technical details encountered at the beginning. The aims of the project are, by themselves, to not only offer a digital facsimile, but also establish a digital critical edition, trying to expand the original analogue edition. There is also a hermeneutic concept inherent to the thought of the project, as it constitutes an attempt to investigate the digital potential of and possibilities for a chrestomathy as a type of knowledge transfer. Keywords: old Romanian, Moses Gaster, digitization, digital editions, digital hermeneutics Keywords: Altrumänisch, Moses Gaster, Digitalisation, digitale Editionen, digitale Hermeneutik 1 Einleitung Der folgende Beitrag behandelt das noch in den Kinderschuhen steckende Projekt einer digitalen Chrestomathie des Altrumänischen und soll vor allem auf die Möglichkeiten und Probleme eines solchen digitalen Vorhabens hinweisen, indem der bisherige Prozess hier dokumentiert wird. 1 Da die Digitalisierung, speziell das Trial-and-Error-Vorgehen dabei, etwas ist, womit Geisteswissen‐ schaftler vermehrt konfrontiert werden, vor allem bei der Anwendung digitaler <?page no="252"?> 2 Zu der Diskussion um die Zukunft der Geisteswissenschaften im Angesicht der eingetretenen und allumgebenden Digitalisierung, cf. DARIAH-DE (2015); Bode/ Arthur (2014); Robinson (2014); Turnbull (2014); McCarty (2014); Svensson (2010); Foka/ Westin/ Chapman (2018); Poole (2013) und Porsdam (2013). 3 Moses Gaster (1846‒1939) war ein gebürtiger Bukarester und hat ab 1873 in Breslau Philologie studiert, später in Leipzig promoviert. In seinen frühen Jahren sticht vor allem sein Werk zur rumänischen Sprache, Literatur und Kultur heraus. Da er sich aber vermehrt für die Rechte der Juden in Rumänien einsetzte, wurde er 1885 von dort ausgewiesen, was auch sein Schaffen zum Rumänischen späterhin beeinträchtigte bzw. beeinflusste. Zur Person Gasters cf. vor allem Mănescu (1940); Jacobs/ Lipkind (1906); Stanciu (2010), Cioată/ Keim (2018). 4 Allgemeines wie auch Kontexthistorisches zur Gasterschen Chrestomathie ist in Florea (2009) zu finden. Florea (1997), aber auch Florea (2007) geben dagegen mehr preis über das wissenschaftliche Werk Moses Gasters und auch seine Hinterlassenschaften. Methoden, scheint eine solche Darbietung angebracht. 2 Es handelt sich hierbei um ein binationales Projekt (Deutschland - Luxemburg), bei dem Prof. Dr. Wolf‐ gang Dahmen (Friedrich-Schiller-Universität Jena) sowie auch Sam Mersch und Christopher Morse (beide Universität Luxemburg) beteiligt sind. Im Folgenden wird darauf verzichtet, die Namen zu nennen, wenn nötig aber auf alle Personen als Projektverantwortliche verwiesen. Die zweisprachige Rumänische Chrestomathie von Moses Gaster 3 (Chresto‐ matie Română, 1891) ist und bleibt nach wie vor ein wichtiger Bestandteil für die diachrone Sprachwissenschaft des Rumänischen, wenngleich der Text schon 1891 publiziert wurde und auch späterhin nicht ergänzt oder verändert wurde (cf. Gaster 1891). 4 Johannes Kramer hat ein Jahrhundert später im Jahr 1991 diese Chrestomathie nochmals herausgegeben, damit das Werk der Öffentlichkeit zugänglicher gemacht werden konnte (cf. Gaster 1991). Die Chrestomathie birgt dabei ein paar Besonderheiten, die speziell für den Sprachhistoriker interessant sind, aber auch im Allgemeinen Beachtung ver‐ dienen. Zum einen sind hier alle nennenswerten ältesten Texte des Rumänischen vorzufinden. Da das rumänische Schrifttum mehr oder weniger parallel mit dem Buchdruck aufgekommen ist, handelt es sich hier, im Vergleich zur übrigen Romania, eher um ein spätes Auftreten der ersten Texte auf (Alt-)Rumänisch. So beginnt auch die Chrestomathie erst mit Texten aus dem Jahr 1550. Ein weiteres markantes Element der frühen rumänischen Schriftlichkeit ist die Benutzung einer Variante des kyrillischen Alphabets, die speziell auf die Bedürfnisse des Rumänischen abgestimmt war. Nur findet man in der Chrestomathie nicht nur sehr frühe Texte in Kyrilliza, sondern auch solche, die sowohl Kyrilliza aber auch das lateinische Alphabet benutzen und aus der Zeit der Transitionsphase der Alphabete stammt. 252 Sam Mersch <?page no="253"?> 5 E.-g. bei Wikimedia Commons (2020) und Internet Archive (2014). Die direkte Zugänglichkeit zum Material ist heutzutage, also über 125 Jahre später, aber absolut gewährleistet dadurch, dass das originale Copyright längst verjährt ist und die Chrestomathie (die erste Ausgabe, nicht die Wiederauflage von Kramer) von mehreren Seiten digitalisiert und auf öffentlichen Plattformen zur Verfügung gestellt wurde bzw. wird. 5 Es handelt sich hier aber lediglich um eine digitalisierte Bereitstellung des analogen Buches, wodurch es kaum einen Mehrwert gibt, wenn man von der vereinfachten Zugänglichkeit absieht. Der Zugang zum Werk als (digitalisiertes) Buch mag zwar dadurch leichter sein, jedoch nicht der Zugang zum eigentlich dargebrachten Material. Einfache Digitalisate sind von Natur aus etwas ganz anderes als ihre analogen Originale. Die Haptik, aber auch das schnelle Umherblättern bleiben bis heute noch die größten Vorteile eines Buches im Vergleich zu seinem Digitalisat. Auch wenn das Buch in einigen Faktoren wahrscheinlich nie ersetzt werden kann, so ist es dennoch möglich, Editionen zu entwickeln, die die vielfachen Möglichkeiten digitaler Formate nutzen können und so dem Nutzer einen neuen, vielleicht sogar neuartigen Zugang zum Material ermöglichen. So ist es auch das Ziel der digitalen rumänischen Chrestomathie, die Möglichkeiten der digital humanities dementsprechend auszuloten und auszunutzen, um das originale Format in eine adäquate digitale Passform zu bringen. Dabei bietet sich eine Chrestomathie insgesamt vorzüglich für eine eigen‐ ständige digitale Edition an, da sie von der Natur her holistisch gedacht ist, wenigstens zu dem Zeitpunkt ihrer Konzeption. Sie enthält Material über Grammatik, Geschichte und Literatur einer Sprache und vermittelt damit einen breiten Zugang zum (wissenschaftlichen) Erlernen und Umgang mit dieser Sprache. 2 Die W-Fragen Bei dem Aufbau einer jeglichen Edition, aber speziell einer digitalen Chresto‐ mathie, sollten drei Aspekte abgeklärt werden: das Fundamentale (Wieso? ), das Mediale (Wie? ) und das Raumzeitliche (Wann und wo? ). Eine solch pragmati‐ sche Herangehensweise ist nicht nur von der Arbeit her bedingt, sondern soll vor allem Umfang und Arbeitsaufwand der geplanten digitalen Edition, sowie die potenziellen Förderungsmöglichkeiten oder -restriktionen einplanen. Es wurde demnach ein Brainstorming gemacht, in diesem Falle ein digitales (bedingt durch die räumliche Trennung der Partizipanten), bei dem das Projekt-Story‐ board aufgestellt und anfänglich immer wieder revidiert wurde. Erste Schritte zu einer digitalen Chrestomathie des Altrumänischen 253 <?page no="254"?> 6 Das Altgriechische χρηστο-μάθεια, in der Primärbedeutung „‘desire of learning’“, se‐ kundär aber auch „‘book containing a summary of useful knowledge or select passages’“ (Liddell/ Scott 1996, 2007), ist zusammengesetzt aus den Wörtern χρηστός ‘(das) Notwen‐ dige’ (Benseler/ Kaegi 1911, 991 und 993) und μανθάνειν ‘lernen’ (Benseler/ Kaegi 1911, 572). Dabei gibt es auch das Altgriechische χρηστομαθής ‘der das (zu einer Wissenschaft) Nötige, Nützliche erlernt hat, kenntnisreich’ (Benseler/ Kaegi 1911, 993), wobei sowohl diese Bildung als auch das Wort Chrestomathie mit der verbalen Aoristbasis gebildet ist. Allein die Etymologie unterstreicht schon den wissenschaftlichen und didaktischen Charakter des Typs Chrestomathie. 7 Diese Nachdrucke stammen wohl von den Digitalisaten. Zu finden sind sie bei Forgot‐ tenBooks, BiblioBazaar, Facsimile Publisher etc., alles Verlage, die auf das Drucken und Verkaufen von Büchern mit abgelaufenem Copyright spezialisiert sind. 2.1 Das Wieso Wie bereits eingangs erwähnt, handelt es sich bei der Chrestomathie um eine, aus Sicht der Projektverantwortlichen, interessante Gattung (wissenschaftli‐ chen) Textes, und zwar sowohl im analogen Original wie auch bezüglich seiner digitalen Möglichkeiten. Wie der Gattungsname schon andeutet, 6 geht einer Chrestomathie ein didak‐ tisches Konzept voraus, das, wenn der zeithistorische Ansatz verglichen wird, wohl heute als holistisches Konzept gelten würde. Da es nicht nur darum geht, die Texte einer gewissen Sprachstufe einzuführen und zu präsentieren, sondern einen allgemeinen Einstieg in die Sprachstufe anhand der Texte, Grammatik und des kulturellen Hintergrunds zu bieten, so scheint eine Chrestomathie doch exemplarisch für ein alleinstehendes, geschlossenes Konzept einer digitalen Edition von größtmöglichem Potenzial. Die verbesserte Zugänglichkeit ist wohl eines der markantesten Stichwörter bei der Erstellung von Digitalisaten und digitalen Editionen. Es geht jedoch bei einer digitalen altrumänischen Chrestomathie nicht nur darum, einen allgemeinen Zugang zu gewährleisten, da es zum einen Nachdrucke gibt (Gaster 1991, neuerdings auch weitere Nachdrucke 7 ), zum anderen aber auch da die Chrestomathie als Digitalisat an mehreren Stellen zur Verfügung gestellt wurde. Es geht bei der verbesserten Zugänglichkeit, die in diesem Projekt anvisiert wird, vielmehr darum, den Einstieg in die Materie und den Zugang zur Sprachstufe zu verbessern, und zwar nicht nur für Sprachwissenschaftler, sondern für ein allgemeines, breites wissenschaftliches und öffentliches Publikum. Die digitale Publikationsweise soll dabei nicht nur den Einstieg und den verbesserten bzw. vereinfachten Zugang ermöglichen, sondern auch versuchen, alle möglichen Schwächen des Buches zu verbessern oder wenigstens eine alternative Sichtweise auf den Text zu ermöglichen. Das beinhaltet im Spezifi‐ schen die Loslösung von der Mehrbändigkeit der Druckedition, die der Natur 254 Sam Mersch <?page no="255"?> 8 Es versteht sich von selbst, dass dennoch die Angaben von Band und Seite für jeweilige Textpassagen zur Referenz mit angegeben werden sollen und müssen. 9 Wie beschrieben e. g. in Sahle (2016); Robinson (2013); Schmidt (2014) und Van Zundert/ Boot (2011). 10 Erweitert hier im Sinne von ‘durch die digitale Edition angepasst auf mögliche, von dem originalen visuellen Bild abweichende Darstellungsmöglichkeiten’. 11 Open Source wird hier im Sinne von freiem Zugang zu Materialien und Quellcode verstanden, in der Hoffnung, dass diese weiterbearbeitet werden und dadurch neue fruchtbare Produkte entstehen können, cf. opensource.com (2020) und Wikipedia (2020) s.v. Open source. des gedruckten Buches geschuldet ist, 8 zum anderen aber vor allem auch die verbesserte intra-, inter- und extratextuelle Referenzierbarkeit, die einem digitalen Medium inhärent ist. - 2.2 Das Wie Nach längerer Diskussion und intensiver Reflexion kristallisierten sich vier Punkte heraus, um das geplante Projekt zu realisieren. Es wurde sofort klar, dass das Ziel eine digitale kritische Edition sein sollte und nicht nur ein einfaches Digitalisat mit geringem Mehrwert gegenüber den schon vorhandenen digitalen Faksimiles. 9 Eine solche digitale kritische Edition sollte dann den Text sowohl im Faksimile als auch in erweiterter Form 10 wiedergeben und, soweit wie möglich, den Kontext der Texte, sowie der Chrestomathie selbst, kritisch beleuchten. Um neben dem verbesserten (und verlängerten) Zugang auch Transpa‐ renz im digitalen Aufbau zu gewährleisten, wurde schnell klar, dass eine Open-Source-Lösung 11 angestrebt werden sollte, bei der nicht nur der Chres‐ tomathie-Text öffentlich zugänglich sein sollte (und zwar in einer digitalen und annotierten Form), sondern auch die digitalen Tools, die dazu genutzt oder kreiert wurden. In dem Sinne wird, sofern möglich, auf Open-Source-Soft‐ ware gesetzt. Darüber hinaus soll aber auch das Interface, oder besser gesagt sein Quellcode, öffentlich verfügbar gemacht werden. Insgesamt zielen diese Bestrebungen der Durchsichtigkeit darauf, der forschenden Öffentlichkeit einen verbesserten Blick auf das Projekt zu geben, in der Hoffnung, dass Andere das Material so viel wie möglich nutzen und erweitern können und auf Schwächen hinweisen mögen. Der Open-Source-Gedanke geht auch einher mit dem Streben nach Erwei‐ terbarkeit. Die Chrestomathie soll der Idee nach kein abgeschlossenes Projekt bleiben, sondern in Zukunft so gut und so lange wie möglich erweitert werden durch Texte und Materialien, die nicht im Original zu finden waren. Das Öffnen der Daten (Quellcodes) und die Erweiterbarkeit sind auf eine mögliche Erste Schritte zu einer digitalen Chrestomathie des Altrumänischen 255 <?page no="256"?> Interoperabilität bezogen, um den Austausch und die Vernetzung zwischen ähnlichen Projekten zu ermöglichen. - 2.3 Das Wann und Wo Es stellte sich heraus, dass die Frage nach den temporalen und lokalen Disponi‐ bilitäten, also, dem Wann und Wo, relativ leicht zu beantworten war, und zwar: je nach Möglichkeit. Vorrangige primäre Verpflichtungen und Projekte, genauso wie die noch fehlende Förderung, machen dieses Projekt momentan nur auf freiwilliger Basis möglich. Dadurch ist es auch daran gebunden, wieviel die Projektverantwortlichen zeitlich beisteuern können. Der Vorteil eines digitalen Projektes ist primär, dass die Projektbeteiligten nicht an ein- und demselben Ort sein müssen, sofern keine Digitalisierungsarbeit nötig ist (wie in diesem Fall, cf. infra), sodass man das Internet oder die mit ihm verbundenen Vernetzungs‐ möglichkeiten leicht nutzen kann. 3 Ausgangsbasis Die Ausgangsbasis ist die zweibändige und zweisprachige Chrestomatie română (Gaster 1891), die sich in vier Teile untergliedern lässt: einen allgemeinen, einen grammatischen, einen textlichen Teil und ein Wörterbuch. Der allgemeine Teil beinhaltet etwa 100 Seiten generelle Einführung und Erklärungen, worauf die grammatischen Erläuterungen auf 33 Seiten folgen. Beide Teile sind in Band 1 zu finden. Der Textteil, der natürlich den Hauptteil ausmacht, ist insgesamt auf beide Bände verteilt. Der Wörterbuchteil ist auf 185 Seiten im zweiten Teil zu finden. Die allgemeinen und grammatischen Erklärungen sowie das Wörterbuch sind sowohl auf Rumänisch als auch auf Französisch verfasst. Der Aufbau des Originals legt den Schluss nahe, dass die Grundidee darin bestand, die einzelnen vier Teile als Referenz zu nehmen, um diese separat voneinander konsultieren zu können. Die Aufteilung in zwei Bände hatte vermutlich eher praktische Gründe, da der Umfang zu groß war, um alles in einen Band zu zwängen, aber die ersten Teile nicht umfangreich genug, um ihnen einen separaten Band zu widmen. Das Wörterbuch an das Ende des zweibändigen Werkes zu setzen, ist sicherlich ebenfalls aus praktischen Gründen geschehen, um ein schnelles Nachschlagen zu ermöglichen. Die digitale Version ist nicht an diese praktischen Notwendigkeiten ge‐ bunden, sodass sie die Teile separat aufzeigen und vernetzen kann. Jedoch soll einem Nutzer kein Aspekt des Originals vorenthalten werden, so auch nicht die Mehrbändigkeit. Letzten Endes ist diese spätestens für das Zitieren notwendig. 256 Sam Mersch <?page no="257"?> 12 Dies ist ersichtlich daran, dass die von Google zur Verfügung gestellten Digitalisate auch über Texterkennung verfügen, sodass es möglich wird, den Text zu durchsuchen, cf. Google Books (2007), aber auch Internet Archive (2014). Der Vorteil der Gasterschen Chrestomathie ist, dass es, neben der Neuauflage von Kramer, sonst keine Auflagen gab, sodass der Text nicht in vielen verschie‐ denen Versionen vorliegt, wie z. B. die Chrestomathie des Provenzalischen von Karl Bartsch, die es in vielen vermehrten oder veränderten Auflagen gibt (cf. Bartsch/ Koschwitz 1904, III) und deren digitale Umsetzung dadurch ganz andere Anforderungen mit sich bringt. 4 Digitale Anforderungen Die rein digitalen Anforderungen sind grob nach fünf Überlegungen einzuteilen, die zum einen mit banalen technischen Dingen, zum anderen aber auch mit einer adäquaten Umsetzung vom Analogen zum Digitalen zu tun haben. - 4.1 Das Digitalisat Um das Projekt der digitalen altrumänischen Chrestomathie starten zu können, bedurfte es zuerst eines Digitalisates, also erst einmal eines rein digitalen Faksimiles in der Form eines Scans. Glücklicherweise war es unnötig, eine Digitalisierung selbst zu besorgen, da die Gastersche Chrestomathie (in der Originalversion) an mehreren Stellen gescannt und der Öffentlichkeit zur Verfügung gestellt wurde, zumal die Publikation aufgrund ihres Alters nicht mehr dem Copyright unterliegt. Das Google-Unternehmen ist wohl einer der größten Produkteure bzw. Sponsoren von digitalen Faksimiles und hat auch in unserem Fall eine Digitalkopie von der Chrestomathie anfertigen lassen. Leider sind die von Google der Öffentlichkeit zur Verfügung gestellten Versionen schon durch mehrere Verarbeitungsschritte gegangen, was eine offene Benutzung der Daten erschwert, weil das Original(digitalisat) nicht veröffentlicht wurde. Dabei wurden zum Beispiel auch die Scans schon vektorisiert (cf. dazu e. g. Wikipedia 2018), was eine Texterkennung erschwert. Google selbst nutzt aber wohl die originalen Rohscans, um die eigenen Texterkennungsalgorithmen darüber laufen zu lassen. 12 Zum Glück ist das Gastersche Werk auch von anderer Seite als Digitalisat zur Verfügung gestellt worden, und zwar auch mit den notwendigen Rohdateien (cf. Internet Archive 2008a und 2008b). Diese Dateien bilden den Ausgangspunkt für jedwede weitere Arbeit an der digitalen altru‐ mänischen Chrestomathie. Textbezogen beinhaltet dies natürlich eine digitale, maschinenlesbare Version des Textes der Chrestomathie (cf. dazu ↑4.2.). Erste Schritte zu einer digitalen Chrestomathie des Altrumänischen 257 <?page no="258"?> 4.2 Infrastruktur (XML TEI v5) Bei der Umsetzung wird auf XML (Extended Markup Language) mit dem für digitale Editionen mittlerweile üblichen TEI (Text Encoding Initative) Standard gesetzt (Version P5, cf. TEI 2020), was die Langlebigkeit und einfache Nutzung gewährleisten soll. Die Standardisierung kommt auch der Maschinenlesbarkeit zu Gute, sodass eine Überführung auf ein späteres Format möglich sein sollte. Darüber hinaus ermöglicht die Benutzung eines standardisierten Formats auch eine breitere Nutzung durch Drittpersonen. Diese XML-Infrastruktur soll dann auch als Ganzes archiviert werden, um so den Zugang zu den Daten und nicht nur dem Endprodukt zu gewährleisten. - 4.3 Long term hosting Das long term hosting, also die Gewährleistung, dass die Arbeit auch über die Projektdauer hinaus zugänglich bleibt, ist der Knackpunkt jedes digitalen Projektes. Da sich aber noch keine Lösung für die digitale Chrestomathie des Altrumänischen gefunden hat und das Projekt derzeit noch nicht weit genug fortgeschritten ist, werden auch mögliche Eventualitäten eingeplant für den Fall, dass eine institutionelle Langzeitarchivierungsmöglichkeit nicht gefunden werden kann. Idealerweise lässt sich ein Projektpartner finden, der sich bereit erklärt, das Langzeithosting und die Wartung der Chrestomathie zu gewährleisten, wobei erste Gespräche mit dem neuen digitalen Zentrum der Universität Luxemburg, dem Luxembourg Centre for Contemporary and Digital History (C 2 DH) aufge‐ nommen wurden. Sollte aber ein solches Modell nicht möglich sein, so soll auf etwaige andere Plattformen zurückgegriffen werden, so zum einen auf archive.org oder das luxemburgische öffentliche Datenportal (data.public.lu) für die Daten in XML Format (cf. supra, ↑4.2.), zum anderen auf Webseiten, die auf das Hosting von Programmcode spezialisiert sind (so etwa GitHub 2020a, cf. auch GitHub 2020b), für die für die Chrestomathie entwickelten Tools. Aus Gründen der Unabhängigkeit und des Zugriffs für die Bearbeiter und Projektverantwortlichen auch nach dem möglichen Vertragsende an einer universitären Institution ist ein minimales Modell, das rein auf Open Source basiert, vorzuziehen. - 4.4 Mehrsprachige Unterstützung Da in der Gasterschen Chrestomathie im Original schon französische und (neu-)rumänische Erklärungen präsent sind, macht es auch Sinn, diese Mehr‐ sprachigkeit beizubehalten, zumal die Texterkennung hier weitaus leichter ist 258 Sam Mersch <?page no="259"?> 13 Dies ist dadurch bedingt, dass die Erläuterungen in lateinischer Schrift vorhanden sind. Cf. dazu die Ausführungen zu OCR unter ↑5. 14 Letztlich handelt es sich bei dem Projekt um eine digitale Edition einer Chrestomathie und nicht der Texte. So soll auch der Gedanke der Chrestomathie voranstehen. 15 Cf. dazu den Überblick für die Geistes- und Sozialwissenschaften in Terras (2016). Ein gutes Beispiel für mögliche Anwendungen auf und Probleme bei Nischenforschung zeigt Rampl (2011) für die Onomastik, wobei gewisse Parallelen gezogen werden können, vor allem im Bereich einer Stratifizierung bzw. Hierarchisierung der Datenauf‐ nahme, um einen gewissen Qualitätsanspruch zu gewährleisten (Rampl 2011, 157‒158). als beim Rest der Chrestomathie. 13 Die Frage stellt sich nun, inwiefern man die Mehrsprachigkeit erweitern sollte. Ob nun eine englische oder deutsche Übersetzung zu dem Erklärungsteil hinzugefügt werden soll, ist noch unklar, da dies vor allem in der jetzigen Phase mit immensem Arbeitsaufwand verbunden ist, der kurzbis mittelfristige Mehrwert aber eher gering wäre. Langfristig wäre der Mehrwert allerdings groß und könnte es ermöglichen, ein viel breiteres Pu‐ blikum anzusprechen, vor allem, wenn mindestens das Englische miteinbezogen würde. Aus didaktischen Gründen, aber auch für den erweiterten Zugang zum Inhalt der in der Chrestomathie dargebotenen Texte, wäre es sicherlich denkbar, Übersetzungen vor allem von den älteren Texten zu liefern, die sich auch dem Neurumänisch-Kundigen nicht leicht erschließen. Demnach sollten, sofern möglich, eine neurumänische und eine französische Übersetzung des Textes zum Original hinzugefügt werden. Mit jeder weiteren Erklärungssprache würde sich auch die Zahl der Übersetzungen erhöhen, wobei zu betonen ist, dass solche Übersetzungen eher zweitrangig sind bzw. nicht in einer frühen Phase angegangen werden können (und sollen), da das Handwerkszeug zur Überset‐ zung innerhalb des von Gaster gelieferten zusätzlichen Materials zu finden ist. 14 Da der Mehrwert multipler Übersetzungen den Mehraufwand aber letztlich rechtfertigen würde, sollte dieser Weg schließlich doch gegangen werden. Den vermehrten Aufwand könnte man durch Crowdsourcing auffangen, wobei einem breiten Publikum die Möglichkeit gegeben würde, an der wissenschaft‐ lichen Erschließung teilzunehmen. Wie dies mit minimalem Kosten- und Leis‐ tungsaufwand betrieben werden kann, wird zurzeit untersucht und verschie‐ dene Möglichkeiten werden in Erwägung gezogen. 15 Wichtig ist in diesem Zusammenhang, dass die zugrundeliegende Infra‐ struktur bereits auf mögliche mehrsprachige Varianten ausgelegt werden muss, sodass die Struktur flexibel bleibt und einfach erweitert werden kann (ohne wieder alles neu zu schreiben). Erste Schritte zu einer digitalen Chrestomathie des Altrumänischen 259 <?page no="260"?> 16 Cf. e. g. Myers (1993); Ferrara (2020); Sullivan/ Griswold/ Song/ Cai/ Shonle/ Tewari/ Rajan (2005) für die Rolle eines Interfaces für jedwede Software, speziell wenn diese eine breite Öffentlichkeit ansprechen soll. 17 Die sogenannten OCR-Verfahren, Kürzel für Optical Character Recognition. 4.5 Ansprechendes Interface Da das Projekt auch eine hermeneutische Mission hat, sodass es sich nicht nur um eine Darbietung eines digitalen Faksimiles handeln soll (in welcher Form auch immer), sondern auch um die Möglichkeiten, wie man die Idee oder den Typus einer Chrestomathie durch digitale Methoden und Verfahren erweitern kann, so spielt auch das Interface eine wichtige Rolle. 16 Als primär hat sich herausgestellt, dass ein ansprechendes und intuitives Design den Zugang zu und den Umgang mit der Chrestomathie erleichtern soll (nach den Prinzipien dargelegt von Nielsen 1994 und 2020). Das Interface soll in JavaScript geschrieben werden, der wohl geläufigsten Programmiersprache für Online-Applikationen, da sie auch in jedem Browser interpretierbar ist und nicht an Serverunterstützung gebunden ist (wie etwa Python). Das Interface soll bei der Darstellung der Daten auf die separate XML-Datei zugreifen. So soll die Ungebundenheit von Interface und Datengrundlage (sowohl formal als auch physisch) gewährleistet werden, sodass auch Interface und Datensatz separat gehostet werden können. Der Quellcode des Interface soll genauso wie alle anderen Tools der Öffentlichkeit zur Verfügung gestellt werden. 5 Erste Phase Wie bereits eingangs signalisiert, ist der Ausgangspunkt für die digitale kritische Edition der altrumänischen Chrestomathie eine maschinenlesbare Version des Textes der Gasterschen Chrestomathie. Bei den bereits vorhanden Digitalisaten (↑2.1.) wurde jeweils auch ein durch Texterkennungsalgorithmen 17 generierter digitaler Text hinzugefügt. Durch die Probleme bei altrumänischen Texten (vor allem bei der Kyrilliza) (dazu Dahmen 1996, 1997 und 2004) ist das Resultat dieser Texterkennung allerdings relativ schlecht. Wahrscheinlich ist die Texteigenart hier nicht erkannt worden, da ja auch (meistens richtig erkannte) französische und neurumänische Texte enthalten sind. Um einen brauchbaren, maschinenlesbaren Text zu erhalten, musste also an‐ ders vorgegangen werden. Ein einfaches Abtippen wäre durch den Umfang des Textes relativ schwierig zu bewerkstelligen, wobei das altkyrillische Alphabet in der Form, in der es bei altrumänischen Texten benutzt wurde, sicherlich auch eine zusätzliche Fehlerquelle sein kann, sodass eine computergestützte Variante dennoch die ökonomischste ist. Dabei muss aber vorab festgestellt werden, dass 260 Sam Mersch <?page no="261"?> 18 Man redet insgesamt von Trainingsdaten die zur Unterfütterung der Algorithmen der Künstlichen Intelligenz (KI) benutzt werden. Dabei werden dem Programm im Fall der OCR Verfahren sowohl Bild (Scan), wie auch Transkript zur Verfügung gestellt, damit die KI lernt die Parallelen zu erkennen. 19 Cf. e.-g. MacCormick (2012, 83‒89). 20 Diese Darstellung ist natürlich etwas simplifizierend, soll aber den Ablauf eines solchen Prozesses verallgemeinernd darstellen. Einen interessanten, aber auch sehr vereinfachten Einstieg in die Thematik bietet MacCormick (2012, 80‒121). 21 Dies gilt lediglich für spätere Versionen des Programms und bei gewissen Lizenzen. Bei den an der Universität Luxemburg vorliegenden Lizenzen war die Möglichkeit der altrussischen Texterkennung zum Zeitpunkt der Versuchsausübung nur an einem Terminal des dortigen digital lab mit erweiterter Lizenz möglich. bei diesen Texterkennungsalgorithmen immer eine gewisse Fehlerquote mit einkalkuliert ist (cf. dazu auch Voss 2018). Das resultiert aus dem Vorgangsver‐ lauf solcher Erkennungssoftware. Es handelt sich hier nämlich um sogenanntes machine learning (maschinelles Lernen): Dem Computer werden sowohl das Ausgangsmaterial (hier das Rohmaterial im Sinne der digitalisierten Seite, quasi das digitale Foto) wie auch sogenannte Trainingsdaten 18 zur Verfügung gestellt, wobei letztere ein Set von Daten sind, die ähnliche Charakteristika aufweisen wie das zu bearbeitende Material. 19 Das System erwägt dann je nach Qualität des Ausgangsmaterials und der Trainingsdaten, wie wahrscheinlich es ist, dass eine gewisse Anhäufung von Pixeln ein Zeichen, also ein Graphem, darstellen und wie dieses zuzuordnen ist. 20 Dabei können genauso Fehler entstehen wie bei einer manuellen Eingabe. Die Effizienz dieser Algorithmen zeichnet sich allerdings dadurch aus, dass Fehler reduziert werden können. So ist eine Fehlerquote von unter 5 % als effizient anzusehen (cf. e. g. Patel/ Patel/ Patel 2012). Dies ist natürlich dennoch eine Quote, die für Sprachwissenschaftler zu hoch ist, da ein möglichst fehlerfreies digitales Abbild benötigt wird. Der Vorteil ist allerdings das Ausmaß des bearbeitbaren Materials, sodass manuell nur noch eine Korrektur vorgenommen werden muss, auch wenn dieser Schritt immer noch arbeitsintensiv sein wird. In einem ersten Versuch wurde dann, um eine möglichst geringe Fehlerquelle zu erreichen, auf ABBYY Fine Reader (Version 14) zurückgegriffen, da der ursprünglich russische Produzent auch die Möglichkeit gibt, eine sogenannte altrussische Texterkennung zu bewerkstelligen. 21 Diese basiert aber, wie der Name sagt, auf (alt)russischen Trainingsdaten, sodass auch das Resultat der Texterkennung für die Gastersche Chrestomathie sehr schlecht war, mit einer Fehlerquote, die bei gut über 30-% lag. Da dies allerdings bei weitem zu hoch ist, musste eine Alternative gefunden werden, wobei Mitarbeiter des Mathematisch-Informatischen Instituts (Insti‐ Erste Schritte zu einer digitalen Chrestomathie des Altrumänischen 261 <?page no="262"?> 22 Es handelt sich um eine Softwaresammlung zur allgemeinen Datenanalyse und nicht um ein vollendetes (d. h. schon trainiertes) OCR-Programm, was es äußerst nützlich macht für einen Versuch mit altrumänischen Sprachdaten. 23 Wenn man also die A-Taste drückte, wird nicht U+0061 (a), sondern U+0430 (kyrilliza a) generiert. tutul de Matematică şi Informatică „Vladimir Andrunachievici“) in Moldawien auf eine vielversprechende Lösung hoffen ließen (Cojocaru/ Colesnicov/ Ma‐ lahov/ Bumbu/ Ungur 2017). Es wurde dort am Institut ein Trainingsdatensatz angelegt, der sich die ABBYY-Fine-Reader-Texterkennungssoftware zu nutzen macht und für moldauische Manuskripte und Frühdrucke in Kyrilliza konzipiert wurde. Im Sinne der Transparenz und Open Science stellten die Wissenschaftler ihre Trainingsdaten zur Verfügung, sodass diese als Ausgangsbasis zur Text‐ erkennung der Chrestomathie erprobt werden konnten. Leider stellte sich heraus, dass zum einen die Fehlerquote auch hier (für Sprachwissenschaftler) durchaus höher war als die Quote, die angestrebt wurde (im Vergleich zu den moldauischen Texten, für die diese Daten konzipiert wurden), zum anderen ist die in der Chrestomathie benutzte Schriftart für das Altkyrillische nicht de‐ ckungsgleich mit dem Testmaterial der moldauischen Wissenschaftler gewesen. Das Resultat war signifikant besser als das vorherige (altrussische Texterken‐ nung von ABBYY), leider aber immer noch nicht zufriedenstellend. Jedoch schien es, als könnten die Proben zur Texterkennung durch den moldauischen Trainingsdatensatz als Grundlage für andere Texterkennungsverfahren dienen. Nach einiger Suche und Rücksprache mit Spezialisten auf diesem Gebiet wurde beschlossen, das Algorithmenset OcroPy 22 zu nutzen und mit diesem einen Trainingssatz zu erstellen, da sich bei anderen Projekten gezeigt hatte, dass dieses Programm durchaus im Stande ist, eine nur geringfügige Fehlerquote zu erzielen (cf. Kaumanns/ Springmann 2015 und Kaumanns 2015). Das Ausbessern der zuvor generierten Proben stellte sich allerdings als äußerst mühsam heraus, da die Daten passend zum neuesten Unicode Stan‐ dard (13.0.0) gesetzt werden sollten (cf. Unicode 2020). Um die Arbeit der repetitiven Eingabe der Unicode Nummern zu erleichtern, aber auch um mög‐ liche Fehlerquellen zu vermeiden, wurde ein altrumänisches Tastaturlayout sowohl für Windows als auch für Mac OSX erstellt, das, aufbauend auf dem neurumänischen Tastaturlayout, so programmiert ist, dass die passenden Uni‐ code-Adressen für das Altkyrillische gewählt werden. 23 Die Tastaturlayouts sind im Sinne des freien Zugangs zur Wissenschaft und deren Software-Tools frei verfügbar (Mersch 2020). Es zeigte sich beim weiteren Verlauf des Projekts, dass diese Keyboard-Layouts den Arbeitsablauf erheblich ökonomischer gestalteten. 262 Sam Mersch <?page no="263"?> 24 MVP = minimal viable product, angelehnt an die Theorien und Methoden des lean startups, nach Ries (2011). Abb. 1: Auszug aus dem Windows Keyboard Layout Creator mit dem entwickelten Altrumänischen Tastaturlayout 6 Zweite Phase (Manuelles Training) In einer zweiten Phase soll neben der Erarbeitung der XML-Struktur nun das manuelle Training der Daten mit OcroPy beginnen. Dabei konnten die ersten Proben schon relativ gute Resultate erzielen, jedoch ist die Fehlerquote immer noch nicht wirklich akzeptabel, sodass die Resultate wieder verbessert und als zusätzliche Trainingsdaten benutzt werden. Es wird sich zeigen, inwiefern dieser Prozess produktiv ist oder umgeändert werden muss. Ziel der zweiten Phase ist es jedoch, ein möglichst fehlerfreies digitales und maschinenlesbares Abbild des Chrestomathietextes zu erlangen. Der bisherige Arbeitsverlauf sieht vor, dass vorab nur die ältesten Texte in ein maschinenlesbares Format übertragen werden sollen, um damit im Sinne eines MVP 24 ein erstes Testobjekt der altrumänischen Chrestomathie zu erstellen. So ist es dann auch möglich, schon frühzeitig auf gewisse Probleme zu reagieren. 7 Die nächsten Schritte - 7.1 Kurzfristig Kurzfristig gesehen, werden die nächsten Schritte einige eher einfach zu realisie‐ rende technische Elemente beinhalten. Dazu zählen zum einen die maschinelle Erste Schritte zu einer digitalen Chrestomathie des Altrumänischen 263 <?page no="264"?> 25 Der Grund dafür liegt darin, mögliche rechtliche Belange zu umgehen, die der ursprüng‐ lichen Drucktype von Brockhaus angehaftet sein könnten. Transliteration des altkyrillischen Schriftbildes in ein modernes mit lateinischen Lettern (mit gewissen Ausnahmen) (cf. dazu Dahmen 1997), zum anderen die Entwicklung eines Fonts, der dem Schriftbild der Chrestomathie so weit wie möglich ähnelt, ohne sich mit diesem hundertprozentig zu überschneiden. 25 Bisher wurde der von Sebastian Kempgen entwickelte BukyVede Schriftsatz verwendet, der mit allen für das altrumänische Kyrillische notwendigen Zeichen aufwarten kann (und Unicode-konform ist), aber leider sehr vom Schriftbild der Chrestomathie abweicht (Kempgen 2015). Da dieser Schritt jedoch eher von ästhetischer als praktischer Natur ist, ist es auch möglich, dass er erst einmal ausgeklammert wird. In einem nächsten Schritt soll das Wörterbuch (das nur in lateinischen Lettern gesetzt ist) mit den schon maschinenlesbaren Texten vernetzt werden, und zwar durch Sequenzabgleichung und Textstellenangabe. Dieser Schritt beinhaltet auch die Erprobung eines (minimalistischen) Interfaces. Die weitere Verfeinerung des Texterkennungsprozesses wird dabei immer weiter ein wichtiger Bestandteil sein, um für jeden Folgetext die Fehlerquote möglichst noch zu verringern. Es sollen dann auch die Trainingsdaten und etwaige Tools der Öffentlichkeit zur Verfügung gestellt werden, sobald diese funktionstüchtig sind. - 7.2 Langfristig Langfristig gesehen, ist es das Ziel, erst einmal alle Texte in Kyrilliza in ein maschinenlesbares Format zu bringen und mit dem Wörterbuch zu vernetzen. Das wäre schlussendlich der Großteil der 112 Texte in Band 1 (Texte bis 1710). Später sollen dann auch diejenigen Texte folgen, die sich durch Mischalphabete kennzeichnen. Die Texte, die bereits ganz in lateinischen Lettern geschrieben sind, sind durchweg einfacher umzusetzen, da es bereits adäquate Tools gibt, um eine sehr genaue Texterkennung zu generieren. Es wäre auch denkbar, dass diese Texte noch vor den Mischalphabeten integriert werden könnten. Das Interface soll ständig verbessert werden, wobei hier auf Forschung im Bereich der User Experience (UX) gesetzt wird. Neben der Einbindung des Wörterbuches soll dann auch der grammatische Kommentar an die einzelnen Textbestandteile gekoppelt werden. 264 Sam Mersch <?page no="265"?> 8 Zusammenfassung Das Projekt einer digitalen altrumänischen Chrestomathie birgt einige Schwie‐ rigkeiten, darunter editionsphilologische speziell in Bezug auf die Eigenarten der altrumänischen Texte, aber auch bezüglich einer digitalen hermeneutischen Herangehensweise an die Gattung der Chrestomathie. Die Basis des digitalen Projekts bildet die 1891 publizierte Chrestomatie română von Moses Gaster, die einen Fundus an altrumänischen Textbeispielen darstellt und für die diachrone Sprachwissenschaft des Rumänischen durchaus noch ihren Wert hat, trotz ihres Alters. Die größten anfänglichen Probleme beim Projekt bestehen aus der Schrifteigenart altrumänischer Texter, da sie in einer speziell für das Rumänische adaptierten Variante des kyrillischen Alphabets gesetzt wurden, später dann in kyrillisch-lateinischen Mischalphabeten. Einfache Digitalisate erlauben zwar einen breiteren Zugriff auf schwer zu‐ gängliches Material, jedoch kann ein Scan kein Buch ersetzen. Es soll daher mit diesem Projekt untersucht werden, inwiefern komplexe digitale Publikations‐ möglichkeiten einige Schwächen des Buch-Formats überbrücken können, um somit mehr als nur einen schnellen Zugriff auf Informationen zu ermöglichen. Danksagung Dank gebührt dem Luxembourg National Research Fund (FNR) (10929115) für die Finanzierung meiner Forschungsstelle an der Universität Luxemburg und Wolfgang Dahmen für Kommentare am Text. Die Trainingsdaten für ABBYY-Fine-Reader wurden freundlicherweise zu Testzwecken von Alexander Colesnicov am 24.05.2018 zur Verfügung gestellt. Ihm sei hierfür herzlich gedankt. Bibliographie Bartsch, Karl/ Koschwitz, Eduard (1904): Chrestomathie Provençale (X e ‒XV e siècles), Mar‐ burg, Elwert. Benseler, Gustav/ Kaegi, Adolf ( 13 1911) (eds.): Benselers griechisch-deutsches Schulwörter‐ buch, Leipzig, Teubner. Bode, Katherine/ Arthur, Paul (2014): „Collecting ourselves“, in: Bode, Katherine/ Arthur, Paul (eds.), Advancing Digital Humanities. Research, Methods, Theories, New York, Palgrave Macmillan, 1‒14. Cioată, Maria/ Keim, Katharina, Moses Gaster Projects (2018): http: / / www.manchesterjew ishstudies.org/ moses-gaster-project/ [letzter Zugriff: 26. April 2020]. Erste Schritte zu einer digitalen Chrestomathie des Altrumänischen 265 <?page no="266"?> Cojocaru, Svetlana/ Colesnicov, Alexandru/ Malahov, Ludmila/ Bumbu, Tudor/ Ungur, Ștefan (2017): „On digitization of Romanian cyrillic printings of the 17th and 18th centuries“, Computer Science Journal of Moldova 25: 2 (74), 217‒224. Dahmen, Wolfgang (2004): „Der rumänische Alexanderroman oder wozu es führen kann, wenn man in Deutschland Rumänisch studiert“, in: Schippel, Larisa (ed.), Im Dialog: Rumänistik im deutschsprachigen Raum, Bern, Lang, 133-152. Dahmen, Wolfgang (1997): „Editionsprobleme bei Balkanica“, in: Gleßgen, Martin-Diet‐ rich/ Lebsanft, Franz (eds.), Alte und neue Philologie, Tübingen, Niemeyer, 371-384. Dahmen, Wolfgang (1996): „Die Anfänge der rumänischen Literatur“, Balkan-Archiv (Neue Folge) 19/ 20, 1994/ 95 (1996), 547-551. DARIAH-DE-= Digital Research Infrastructure for the Arts and Humanities-DE (ed.) (2015): Handbuch für Digital Humanities. Anwendungen, Forschungsdaten und Projekte, Berlin, NeoPubli. Ferrara, John (2020): Playful design: Creating game experiences in everyday interfaces, New York, Rosenfeld Media. Florea, Virgiliu (2009): „O carte de referinţă pentru romanişti: Chrestomaţie Română (1891) de Moses Gaster“, Anuarul Institutului de Istorie George Bariţiu 48, 201‒219. Florea, Virgiliu (2007): Scriitori români în arhiva M. Gaster de la Londra, 2 vol., Cluj-Na‐ poca, Editura Fundației pentru Studii Europene. Florea, Virgiliu (1997): Prieteni români ai lui M. Gaster, Cluj-Napoca, Presa Universitară Clujeană. Foka, Anna/ Westin, Jonathan/ Chapman, Adam (2018): „Introduction to the DHQ Special Issue: Digital technology in the study of the past“, Digital Humanities Quarterly 12: 2, ht tp: / / digitalhumanities.org: 8081/ dhq/ vol/ 12/ 3/ 000396/ 000396.html [letzter Zugriff: 26. April 2020]. Gaster, Moses (1991): Chrestomatie română. Chrestomathie roumaine. Nachdruck mit einer Vorbemerkung von Johannes Kramer, Hamburg, Buske. Gaster, Moses (1891): Chrestomatie română. Chrestomathie roumaine, 2 vol., Leipzig/ Bu‐ cureşti, Brockhaus/ Socecu. GitHub, Main page (2020): https: / / github.com/ [letzter Zugriff: 26. April 2020] (=2020a). GitHub, What is Git? (2020): https: / / github.com/ git-guides [letzter Zugriff: 26. April 2020] (=2020b). Google Books (2007): Band-1 von Chrestomatie română: Texte tipărite și manuscrise sec. XVI‒XIX, dialectale și populare, cu o introducere, gramatică și un glosar ro‐ mâno-francez, Moses Gaster, https: / / books.google.lu/ books? id=28QNAAAAYAAJ& ; oe=UTF-8&redir_esc=y [letzter Zugriff: 26. April 2020]. Internet Archive (2014): Chrestomatie română by Moses Gaster Vol. 1, https: / / archive.org / details/ chrestomatierom00unkngoog/ page/ n11 [letzter Zugriff: 26. April 2020]. 266 Sam Mersch <?page no="267"?> Internet Archive (2008): Chrestomathie roumaine: textes imprimés et manuscrits du XVI me au XIX me siècle, spécimens dialectales et de littérature populaire, accompagnés d’une introduction, d’une grammaire et d’un glossaire roumain-français by Moses Gaster Vol. 1, https: / / archive.org/ details/ chrestomathierou01gastuoft/ page/ n6/ mode/ 2up [letzter Zugriff: 26. April 2020] (= 2008a). Internet Archive (2018): Chrestomathie roumaine: textes imprimés et manuscrits du XVI me au XIX me siècle, spécimens dialectales et de littérature populaire, accompagnés d’une introduction, d’une grammaire et d’un glossaire roumain-français by Moses Gaster Vol. 2, https: / / archive.org/ details/ chrestomathierou02gastuoft/ page/ n6/ mode/ [letzter Zugriff: 26. April 2020] (= 2008b). Jacobs, Joseph/ Lipkind, Goodman (1906): „GASTER, MOSES“, in: The Jewish encyclo‐ pedia, New York, 5.574, http: / / www.jewishencyclopedia.com/ articles/ 6524-gaster-mo ses [letzter Zugriff: 26. April 2020]. Kaumanns, David (2015): Ocrocis, https: / / gitlab.cis.uni-muenchen.de/ ocr/ ocrocis [letzter Zugriff: 26. April 2020]. Kaumanns, David/ Springmann, Uwe (2015): Ocrocis, http: / / cistern.cis.lmu.de/ ocrocis/ [letzter Zugriff: 26. April 2020]. Kempgen, Sebastian (2015): BukyVede - A free unicode font for Slavic medievalists, https: / / kodeks.uni-bamberg.de/ AKSL/ Schrift/ BukyVede.htm [letzter Zugriff: 26. April 2020]. Liddell, Henry/ Scott, Robert (1996): A Greek-English lexicon. Revised and augmented throughout by Sir Henry Stuart Jones with the assistance of Roderick McKenzie, Oxford, Clarendon Press. MacCormick, John (2012): Nine algorithms that changed the future, Princeton/ Oxford, Princeton University Press. Mănescu, Elisabeta (1940): Dr. M. Gaster, viaţa şi opera sa, Bucureşti, Rotativa. McCarty, Willard (2014): „Getting there from here: Remembering the future of Digital Humanities“, in: Bode, Katherine/ Arthur, Paul (eds.), Advancing Digital Humanities. Research, Methods, Theories, New York, Palgrave Macmillan, 291‒320. Mersch, Sam (2020): VechRom, Keyboard layout for input in Old Romanian. Unicode input, https: / / github.com/ sammersch/ VechRom-Old-Romaninan-Keyboard-Layout [letzter Zugriff: 26. April 2020]. Mersch, Sam (2019): Building a digital scholarly edition of the Romanian Chrestomathy, ht tps: / / dhh.uni.lu/ 2019/ 12/ 18/ building-a-digital-scholarly-edition-of-the-romanian-chr estomathy/ [letzter Zugriff: 26. April 2020]. Myers, Brad (1993): Why are human-computer interfaces difficult to design and implement. No. CMU-CS-93-183, Pittsburgh, Carnegie-Mellon University, Dept. of Computer Science. Nielsen, Jacob (2020): 10 Usability Heuristics for User Interface Design, https: / / www.nngr oup.com/ articles/ ten-usability-heuristics/ [letzter Zugriff: 26. April 2020]. Erste Schritte zu einer digitalen Chrestomathie des Altrumänischen 267 <?page no="268"?> Nielsen, Jacob (1994): „Enhancing the explanatory power of usability heuristics“, in: Adelson, Beth/ Dumais, Susan/ Olson, Judith (eds.), Proceedings of the SIGCHI conference on Human Factors in Computing System (Boston, MA, April 24‒28 1994), New York, Association for Computing Machinery, 152‒158. opensource.com (2020): What is open source? , https: / / opensource.com/ resources/ what-o pen-source [letzter Zugriff: 26. April 2020]. Patel, Chirag/ Patel, Atul/ Patel, Dharmendra (2012): „Optical character recognition by open source OCR tool Tesseract: A case study“, International Journal of Computer Applications 55: 10, 50‒56. Poole, Alex (2013): „Now is the future now? The urgency of digital curation in the digital humanities“, Digital Humanities Quarterly 7: 2, http: / / digitalhumanities.org: 8081/ dhq/ vol/ 7/ 2/ 000163/ 000163.html [letzter Zugriff: 26. April 2020]. Porsdam, Helle (2013): „Digital Humanities: On Finding the Proper Balance between Qualitative and Quantitative Ways of Doing Research in the Humanities“, Digital Humanities Quarterly 7: 3, http: / / digitalhumanities.org: 8081/ dhq/ vol/ 7/ 3/ 000167/ 0001 67.html [letzter Zugriff: 26. April 2020]. Rampl, Gerhard (2011): „Onomastik 2.0? “, in: Meineke, Eckhard/ Tiefenbach, Heinrich (eds.), Mikrotoponyme. Jenaer Symposion 1. und 2. Oktober 2009, Heidelberg, Winter, 155‒165. Ries, Eric (2011): The Lean Startup. How Today’s Entrepreneurs Use Continuous Innovation to Create Successful Businesses, New York, Crown. Robinson, Peter (2014): „Digital Humanities: Is bigger, better? “, in: Bode, Katherine/ Ar‐ thur, Paul (eds.), Advancing Digital Humanities. Research, Methods, Theories, New York, Palgrave Macmillan, 243‒257. Robinson, Peter (2013): „Towards a theory of digital editions“, Variants: the journal of the European society for textual scholarship 10, 105‒131. Sahle, Patrick (2016): „What is a scholarly digital edition? “, in: Driscoll, Matthew James/ Pierazzo, Elena (eds.), Digital scholarly editing: Theories and practices, Cambridge, Open Book Publishers, 19‒40. Schmidt, Desmond (2014): „Towards an interoperable digital scholarly edition“, Journal of the Text encoding initiative 7, https: / / doi.org/ 10.4000/ jtei.979 [letzter Zugriff: 26. April 2020]. Stanciu, Măriuca (2010): „Gaster, Moses“, in: YIVO Institute for Jewish Research (ed.), YIVO Encyclopedia of Jews in Eastern Europe, https: / / yivoencyclopedia.org/ article.asp x/ Gaster_Moses [letzter Zugriff: 26. April 2020]. Sullivan, Kevin/ Griswold, William/ Song, Yuanyuan/ Cai, Yuanfang/ Shonle, MAcneil/ Te‐ wari, Nishit/ Rajan, Hridesh (2005): „Information hiding interfaces for aspect-oriented design“, in: ACM SIGSOFT Software Engineering Notes 30: 5, 166‒175. 268 Sam Mersch <?page no="269"?> Svensson, Patrik (2010): „The Landscape of Digital Humanities“, Digital Humanities Quar‐ terly 4: 1, http: / / digitalhumanities.org: 8081/ dhq/ vol/ 4/ 1/ 000080/ 000080.html [letzter Zugriff: 26. April 2020]. TEI-= TEI Consortium (2020): TEI P5. Guidelines for electronic text encoding and inter‐ change, Text Encoding Initiative Consortium, https: / / tei-c.org/ release/ doc/ tei-p5-doc/ e n/ Guidelines.pdf [letzter Zugriff: 26. April 2020]. Terras, Melissa (2016): „Crowdsourcing in the Digital Humanities“, in: Schreibman, Susan/ Siemens, Ray/ Unsworth, John (eds.), A new companion to Digital Humanities, Boston, Wiley/ Blackwell, 420‒439. Turnbull, Paul (2014): „Margins, mainstreams and the mission of Digital Humanities“, in: Bode, Katherine/ Arthur, Paul (eds.), Advancing Digital Humanities. Research, Methods, Theories, New York, Palgrave Macmillan, 258‒273. Unicode, Unicode® 13.0.0 (2020): http: / / www.unicode.org/ versions/ Unicode13.0.0/ [letzter Zugriff: 26. April 2020]. Van Zundert, Joris/ Boot, Peter (2011): „The digital edition 2.0 and the digital library: services, not resources“, in: Fritze, Christine/ Fischer, Franz/ Sahle, Patrick/ Rehbein, Malte (eds.), Digitale Edition und Forschungsbibliothek. Beiträge der Fachtagung im Philosophicum der Universität Mainz am 13. und 14. Januar 2011, Leipzig, Harrasso‐ witz, 141‒152, http: / / peterboot.nl/ pub/ vanzundert-boot-services-not-resources-2011. pdf [letzter Zugriff: 26. April 2020]. Voss, Aurica (2018): OCR-Fehler: Ursachen und Lösungen, https: / / www.regis24.de/ blog/ o cr-fehler-ursachen-und-loesungen [letzter Zugriff: 26. April 2020]. Wikimedia Common (2020): Category: Books by Moses Gaster, https: / / commons.wikimed ia.org/ wiki/ Category: Books_by_Moses_Gaster? uselang=de [letzter Zugriff: 26. April 2020]. Wikipedia (2020): Open source, https: / / en.wikipedia.org/ wiki/ Open_source [letzter Zu‐ griff: 26. April 2020]. Wikipedia (2018): Vektorisierung (Grafik), https: / / de.wikipedia.org/ wiki/ Vektorisierung_ (Grafik) [letzter Zugriff: 26. April 2020]. Erste Schritte zu einer digitalen Chrestomathie des Altrumänischen 269 <?page no="271"?> Digital Humanities und Sprachgeschichte am Beispiel des USTC Zum Wert digitaler Kataloge frühneuzeitlicher Drucke für die sprachgeschichtliche Forschung Thomas Scharinger Abstract This paper discusses the suitability of using the Universal Short Title Cata‐ logue (USTC) for historical linguistic research on the Romance languages. As a digital database providing detailed information (e. g. authorship, place, region, language, subject) on more than 740.000 editions printed in early modern Europe, the USTC allows to reconstruct the use of a given language in a given area at a given time. Based on three case studies, it is demonstrated that the data generated with the USTC can be used to investigate the relationship between Latin and the Romance vernaculars, the rivalry between two competing Romance languages, such as Catalan and Spanish, as well as the spread of a Romance language beyond its original territory. Keywords: Early modern printing, digital humanities, historical linguistics, Romance languages Keywords: frühzeitliche Druckerzeugnisse, Digital Humanities, historische Sprachwissenschaft, romanische Sprachen 1 Einleitung Im folgenden Beitrag soll der Nutzen von digitalen Verzeichnissen frühneuzeitli‐ cher Druckerzeugnisse für die sprachgeschichtliche Forschung am Beispiel des im Open Access zugänglichen Universal Short Title Catalogue (USTC) diskutiert werden. Nach einer kurzen Darstellung der Bedeutung, die dem frühneuzeitlichen Buchdruck in der traditionellen und jüngeren romanistischen Sprachgeschichts‐ <?page no="272"?> 1 Zur Rolle des Buchdrucks in der französischen, italienischen und spanischen Sprach‐ geschichte cf. z.-B. Siouffi (2007, 468-472); Trifone (1993); Lapesa (1991, 283; 367). schreibung zukommt, werden zunächst die Stärken und Schwächen des ursprüng‐ lich nicht für sprachwissenschaftliche Zwecke konzipierten USTC aufgezeigt, bevor dessen Potential für sprachhistorische Untersuchungen anhand dreier kon‐ kreter Fallstudien exemplarisch illustriert wird. Es soll gezeigt werden, dass der USTC trotz bestimmter Unzulänglichkeiten eine wertvolle Datenbank darstellt, die zum einen erlaubt, in der Forschung mehr oder weniger etablierte Annahmen zur Rolle des Buchdrucks in der romanischen Sprachgeschichte, v.-a. im Hinblick auf den Ausbau und die Durchsetzung der romanischen Volkssprachen, empirisch zu überprüfen, und zum anderen auch für Studien zur Verbreitung einer romani‐ schen Sprache außerhalb ihres angestammten Gebietes, etwa als Verkehrs- oder Migrantensprache, genutzt werden kann. 2 Buchdruck, Sprachgeschichte und Digital Humanities In der romanistischen Sprachgeschichtsschreibung wird dem Buchdruck seit jeher ein gewisses Interesse entgegengebracht, 1 wobei, wie auch dem folgenden Passus aus Lebsanft (2006) zu entnehmen ist, neben seiner normierenden Funktion, z. B. im Hinblick auf die Graphie, immer wieder seine Bedeutung für den Ausbau der romanischen Volkssprachen und deren Emanzipation vom Lateinischen sowie für die Durchsetzung einer bestimmten romanischen Sprache gegenüber anderen autochthonen Volkssprachen hervorgehoben wird. Die Entstehung und Entwicklung des Buchdrucks ist bekanntlich ein wesentlicher Faktor in der Ausbildung und Durchsetzung bestimmter Volksals standardisierter Nationalsprachen einerseits gegenüber dem Latein, andererseits gegenüber anderen, konkurrierenden Volkssprachen. (Lebsanft 2006, 1297) Was die Emanzipation der romanischen Volkssprachen vom Lateinischen an‐ belangt, so zeige sich diese insbesondere anhand der allmählichen Zunahme volkssprachlicher Drucke gegenüber lateinischen, zunächst v. a. in der Verwal‐ tungsschriftlichkeit sowie in Werken aus den praxisnahen Wissenschaften. Im Hinblick auf die Konkurrenz zwischen zwei mehr oder weniger gleichermaßen im Ausbau begriffenen romanischen Volkssprachen innerhalb desselben Gebietes stellt Lebsanft (2006, 1297) z. B. für die Iberische Halbinsel fest, dass der Buchdruck wesentlich zur Durchsetzung des Kastilischen beitrug und etwa „Barcelona […] schon […] vor dem Beginn der antikatalanischen Sprachpolitik der Bourbonen […] einer der wichtigsten Druckorte für die spanische Literatur“ war. 272 Thomas Scharinger <?page no="273"?> 2 Zur Italia Spagnuola cf. e. g. Beccaria (1968) sowie Krefeld/ Oesterreicher/ Schwä‐ gerl-Melchior (2013). Jüngere sprachgeschichtliche Arbeiten betonen, dass die Berücksichtigung des Buchdrucks nicht nur für Untersuchungen zur Durchsetzung romanischer Volkssprachen innerhalb ihres angestammten Territoriums, sondern auch für die Rekonstruktion migrationsbedingter Mehrsprachigkeitskonstellationen, also des Nebeneinanders autochthoner und allochthoner Sprachen in einem bestimmten Gebiet, von großem Nutzen sein kann. So hat etwa Ambrosch-Ba‐ roua (2015) in ihrer Studie zur Buchproduktion in der sog. Italia Spagnuola 2 gezeigt, dass sich die Präsenz der Spanier im frühneuzeitlichen Italien auch im italienischen Buchdruck widerspiegelt. Da die Herstellung von Drucken in der Frühen Neuzeit kostspielig war und - zumindest in kleineren Druckorten - zumeist nur für den lokalen Markt produziert wurde, lasse die Produktion von fremdsprachigen Drucken in der Regel auf die Existenz von alloglotten Sprechergruppen schließen, die eben jene Drucke nachfragten: Der Buchdruck soll nicht als Instanz für Sprachnormierung und Gradmesser für die Toskanisierung, so wie bisher in der Sprachgeschichtsschreibung geschehen, sondern als Gradmesser für Mehrsprachigkeit betrachtet werden: Der Buchdruck ist demnach Indikator für die ‹Buchfähigkeit›, den Prestigewert und die ‹Marktgängig‐ keit› bestimmter Sprachen, Varietäten, […], er kann die ‹quantitative Präsenz› von Sprachen und Varietäten sowie deren unterschiedliche Verteilung in Raum und Zeit anzeigen. (Ambrosch-Baroua 2015, 4) Weniger umfängliche Studien, die im Anschluss - und in methodischer Anleh‐ nung - an die Arbeit von Ambrosch-Baroua (2015) entstanden sind (e. g. Scharinger 2017), haben schließlich darauf aufmerksam gemacht, dass der Buchdruck in seiner Eigenschaft als „Gradmesser für Mehrsprachigkeit“ auch im Hinblick auf die Verbreitung einer romanischen Sprache als Kultur- oder Bildungssprache (d. h. als Fremdsprache) aufschlussreich sein kann. So können etwa italienische Drucke, die im 16. Jahrhundert außerhalb Italiens produziert wurden, zwar durchaus von Muttersprachlern, d. h. von italienischen Migranten, nachgefragt worden sein, andererseits lässt sich angesichts der Bedeutung des Italienischen als Kultursprache im Europa der Renaissance (↑4.3) jedoch nicht ausschließen, dass die Produktion solcher Drucke auf die Nachfrage einer gesellschaftlichen Elite vor Ort zurückzuführen ist, die das Italienische als Fremdsprache be‐ herrschte. Um festzustellen, ob die Drucke auf die Präsenz von Migranten oder aber einer autochthonen Bildungselite hindeuten, bietet es sich an, neben der „quantitativen Präsenz“ (cf. den oben zitierten Passus aus Ambrosch-Baroua Digital Humanities und Sprachgeschichte am Beispiel des USTC 273 <?page no="274"?> 3 Cf. dazu ausführlich Scharinger (2017, 163-164). 2015) auch die Qualität der Drucke genauer zu betrachten. Handelt es sich bei der überwiegenden Mehrheit der fremdsprachigen Drucke um Belletristik, legt dies nahe, dass die Nachfrage von einer gebildeten Elite ausging, wohingegen eine Vielzahl an Titeln, die der Gebrauchsliteratur (z. B. Gesangbücher) oder Verwaltungsschriftlichkeit (z. B. Gesetzestexte) zuzuordnen sind, eher auf die Existenz alloglotter Migranten schließen lässt. Abgesehen von der Qualität der Drucke müssen allerdings weitere Variablen berücksichtigt werden. Im von Religionskriegen gebeutelten Europa des 16. Jahrhunderts ist z. B. selbst die Produktion von religiöser Gebrauchsliteratur nicht notwendigerweise ein Garant dafür, dass die Drucke auch tatsächlich vor Ort nachgefragt wurden und mithin der Präsenz von Migranten geschuldet sind. Insbesondere protes‐ tantische Autoren und Verleger könnten bestimmte Werke im Ausland gedruckt haben, um so der Zensur zu entgehen. Dies ist v. a. dann anzunehmen, wenn sich ein Autor etwa nur für kurze Zeit am entsprechenden Druckort aufhielt und die Mehrheit seiner übrigen Werke nicht im Ausland - oder zumindest auch in seiner Heimat - verlegt wurde. Auch die Lage und Größe des Druckorts ist von Bedeutung. Während die Herstellung von fremdsprachigen Drucken in Druckhochburgen wie Venedig und Paris oder in grenznahen Städten erwartbar ist und die Werke auch für den Export produziert worden sein könnten, deutet eine hohe Zahl an fremdsprachigen Drucken in kleinen Städten mit geringer Gesamtproduktion, insbesondere wenn es sich dabei um Gebrauchsliteratur handelt, auf eine alloglotte Minderheit vor Ort hin, die weiterhin in ihrer Muttersprache liest. Ohne hier auf weitere Faktoren, die es alle gleichzeitig zu berücksichtigen gilt, eingehen zu können, 3 lässt sich festhalten, dass sprachhistorische Unter‐ suchungen zum Buchdruck hohe Anforderungen an die als Datengrundlage herangezogenen Quellen stellen und daher auf Vorarbeiten aus der buchwis‐ senschaftlichen Forschung (v. a. Kataloge, die möglichst viele Informationen, wie Druckort, Genre, Drucker etc., zu den aufgelisteten Werken enthalten) an‐ gewiesen sind. Dies gilt nicht nur für die soeben skizzierten Studien zur Verbrei‐ tung einer romanischen Sprache außerhalb ihres ursprünglichen Geltungsbe‐ reichs, sondern gleichermaßen für potentielle Untersuchungen zum Verhältnis zwischen lateinischen und volkssprachlichen Drucken im angestammten Terri‐ torium einer bestimmten romanischen Volkssprache. Die eingangs erwähnten, in der Sprachgeschichtsschreibung inzwischen fest etablierten, aber nur selten durch konkrete Zahlen belegten Annahmen zur Rolle des Buchdrucks im Hinblick auf den Ausbau der romanischen Volkssprachen könnten so empirisch 274 Thomas Scharinger <?page no="275"?> 4 Definition (1) ist der Tischvorlage zum Vortrag von Ursula Reutner am 23. November 2019 in Wien entnommen. überprüft und ggf. untermauert werden. Auch hier wäre es von nicht unerheb‐ lichem Interesse, das Verhältnis zwischen volkssprachlichen und lateinischen Drucken in mehreren Städten (jeweils innerhalb des gallo-, italo- oder iberoro‐ manischen Sprachgebiets) miteinander zu vergleichen, um so z. B. innovativere Zentren mit bedeutender volkssprachlicher Produktion von eher konservati‐ veren mit überwiegend lateinischer Produktion zu unterscheiden. Ferner wäre natürlich auch ein größer angelegter Vergleich zwischen der Gallo-, Italo- und Iberoromania wünschenswert. Schließlich wäre auch danach zu fragen, in welchen Bereichen genau (z. B. Gesetzestexte vs. theologische Schriften) die Zahl der volkssprachlichen Drucke diejenige der lateinischen tatsächlich übersteigt, um so ein differenzierteres Bild von den einzelnen Etappen des Ausbaus zu erhalten. Dass solche Studien - ganz gleich, ob nun zum Ausbau oder zur Verbreitung einer romanischen Sprache als Verkehrs- oder Migrantensprache - kaum ohne den Rückgriff auf digitale Ressourcen auskommen, liegt angesichts der notwendigen Datenmenge (und deren Aufbereitung) auf der Hand und erklärt möglicherweise auch, warum bislang nur wenige sprachwissenschaftliche Ar‐ beiten zum Buchdruck entstanden sind. Der vorliegende Beitrag setzt genau hier an und möchte am Beispiel des USTC zeigen, wie Datenbanken aus der historischen Buchwissenschaft im Zeitalter der Digital Humanities für die sprachgeschichtliche Forschung genutzt werden können. Wie den folgenden, eher weiten Definitionen 4 entnommen werden kann, verstehe ich unter Digital Humanities nicht nur das tatsächliche Erstellen von Datenbanken einschließlich der Entwicklung spezieller Tools, um diese zu nutzen, sondern - ganz allgemein - jegliche Nutzung digitaler Ressourcen und Methoden, die für die geisteswissenschaftliche Forschung fruchtbar gemacht werden können: 1. Im weitesten Sinne handelt es sich dabei um die Beantwortung geisteswissen‐ schaftlicher Fragestellungen mithilfe digitaler Methoden. (DARIAH-DE 2015, 8) 2. Das interdisziplinär ausgerichtete Fach Digital Humanities […] umfasst die syste‐ matische Nutzung computergestützter Verfahren und digitaler Ressourcen in den Geistes- und Kulturwissenschaften sowie die Reflexion über deren Anwendung. (Wikipedia 2019, Digital Humanities) Wenn im Folgenden also anhand konkreter Fallstudien illustriert wird, wie bereits bestehende, nicht für sprachwissenschaftliche Untersuchungen konzi‐ Digital Humanities und Sprachgeschichte am Beispiel des USTC 275 <?page no="276"?> 5 Alle folgenden Angaben zum USTC sind der offiziellen Homepage des USTC ent‐ nommen (Stand: 15. Mai 2020, cf. dazu die Angaben in der Bibliographie). 6 Zum Umfang des USTC cf. auch Ambrosch-Baroua (2015, 25). Die im USTC berück‐ sichtigten nationalen Online-Ressourcen sind unter den erweiterten Suchoptionen, also unter Search Additional Criteria, zu finden. Eine exhaustive Liste aller 8.500 Biblio‐ theken, deren Bestände aufgenommen wurden, ist (noch) nicht online verfügbar. Die Daten nationaler Datenbanken basieren, da sie oft nur nationale Bestände oder - wenn ausländische Partner beteiligt sind - zumeist nur Drucke in der eigenen Landessprache berücksichtigen, für gewöhnlich auf den Beständen von deutlich weniger Bibliotheken. Zum Vergleich: EDIT16 (Zeitraum 1501-1600) enthält 68.550 Ausgaben und greift auf die Bestände von 1.591 Bibliotheken zurück; VD 16 (Zeitraum 1501-1600) katalogisiert 106.000 Titel (nicht Ausgaben) „mit Besitznachweisen aus derzeit 333 Bibliotheken“; VD 17 (Zeitraum 1601-1700) verzeichnet bisher 304.796 Ausgaben ohne genaue Angabe aller beteiligten Bibliotheken. Alle Angaben sind der jeweiligen offiziellen Homepage entnommen (Stand: 15. Mai 2020, cf. dazu die Angaben in der Bibliographie). pierten Datenbanken genutzt werden können, so gehört dies m. E. nicht weniger zum Bereich der digitalen romanistischen Sprachwissenschaft als etwa die Erstellung und Annotation von elektronischen Korpora. 3 Universal Short Title Catalogue (USTC) Beim inzwischen seit einigen Jahren im Open Access konsultierbaren USTC 5 handelt es sich um eine Datenbank, die Druckerzeugnisse (Bücher, aber auch kleinere Drucke wie Flugblätter) verzeichnet, die von den Anfängen bis 1650 in Europa entstanden sind. Bislang wurden 740.000 Ausgaben (insgesamt 4.000.000 bis heute erhaltene Exemplare) katalogisiert, wobei auf die Bestände aus 8.500 Bibliotheken, Museen und Archiven zurückgegriffen wurde. In etwa 100.000 Fällen verlinkt der USTC auch zu verfügbaren Digitalisaten der entsprechenden Titel. Da der USTC auch Daten aus nationalen digitalen Großprojekten wie z. B. EDIT16, GW, ISTC, STCN, STCV, VD 16 und VD 17 einspielt, kann die Datenbank, die im Übrigen stetig erweitert wird, derzeit wohl als die umfäng‐ lichste ihrer Art betrachtet werden und erlaubt - nicht zuletzt auch aufgrund einheitlicher Katalogisierungskriterien - vergleichende Untersuchungen zur europäischen Buchproduktion in der Frühen Neuzeit. 6 Von besonderem Interesse sind die vielfältigen, miteinander kombinierbaren Suchoptionen, durch die man zahlreiche Daten gewinnen kann, die für die sprachgeschichtliche Forschung genutzt werden können. Unter den neun Kategorien, nach denen die Datenbank durchsucht werden kann, sind v. a. die folgenden von Bedeutung: Region, Place, Language, Subject, Authorship. Während man unter Place und Authorship gezielt nach einzelnen Druckorten oder Autoren suchen kann, also selbst bestimmte Orts- oder Personennamen 276 Thomas Scharinger <?page no="277"?> 7 Seit Kurzem werden sukzessive weitere Regionen aufgenommen (etwa das Baltikum). Die Katalogisierung ist hier aber noch nicht abgeschlossen. 8 Auch hier werden analog zu den Regionen seit Kurzem weitere Sprachen hinzugefügt. 9 Insgesamt kann aus 38 Subkategorien ausgewählt werden, was als Besonderheit des USTC zu betrachten ist. In EDIT16 sind die möglichen Suchoptionen deutlich begrenzter (cf. auch Ambrosch-Baroua 2015, 25, Anm. 48). Allein der STCV bietet eine vergleichbar differenzierte Kategorisierung in sog. Subjects. eingeben kann, besteht innerhalb der Kategorien Region, Language und Subjects die Möglichkeit, aus einer Liste mit Vorschlägen auszuwählen: • Region: u. a. British Isles, Czech Republic, France, Holy Roman Empire, Iberia, Italian City States, Low Countries (Northern), Low Countries (Southern), Poland 7 • Language: u. a. Catalan, Dutch, English, French, German, Greek, Italian, Latin, Portuguese, Spanish 8 • Subjects: u. a. Agriculture, Art & Architecture, Bibles (including parts), Dicti‐ onaries, Government & Political Theory, History & Chronicles, Jurisprudence, Medical Texts, Music, Ordinances & Edicts 9 Bei allen Suchanfragen - ganz gleich, ob mehrere Suchoptionen miteinander kombiniert werden oder nicht - ist ein bestimmter Zeitraum oder ein bestimmtes Jahr (z. B. 1501-1600, 1510-1520, 1625) zu spezifizieren. So ist es etwa möglich, nach allen italienischsprachigen Bibeln zu suchen, die zwischen 1501 und 1600 in Frankreich oder auch nur in Lyon gedruckt wurden. Ebenso könnte die Zahl der volkssprachlichen Ordinances & Edicts mit jener der lateinischsprachigen in jedem Jahrzehnt des 16.-Jahrhunderts innerhalb Frankreichs verglichen werden - und im Anschluss den Ergebnissen einer vergleichbaren Suchanfrage für Italien oder Spanien gegenübergestellt werden. Des Weiteren können bei kombinierten Suchanfragen gewisse Kategorien (z.-B. die Region) auch ausgeschlossen werden, etwa, wenn man sich für italienischsprachige Werke Dantes interessiert, die zwischen 1501 und 1600 außerhalb Italiens gedruckt wurden. Neben diesen präzisen Suchanfragen liefern aber gerade auch weniger spe‐ zifische Recherchen interessante Ergebnisse, da der USTC bei jedem Suchvor‐ gang - gewissermaßen automatisch - auch Zusatzinformationen liefert, die äußerst benutzerfreundlich statistisch aufbereitet werden und durch einfaches Anklicken, also ohne erneute Suchanfrage, weitere, noch differenzierte Infor‐ mationen bieten. Sucht man etwa ohne Sprach- und Domänenspezifizierung nach Drucken, die von 1501 bis 1600 in Frankreich produziert wurden, erhält man zunächst insgesamt 83.804 Treffer, wobei die einzelnen Titel (jeweils mit Informationen zu Druckort, Subject, also Domäne, Erscheinungsjahr, Format, Sprache etc.) wahlweise entweder chronologisch aufsteigend oder absteigend Digital Humanities und Sprachgeschichte am Beispiel des USTC 277 <?page no="278"?> 10 Bis vor wenigen Jahren wurden in jeder der neun Kategorien lediglich die top ten angezeigt (cf. Scharinger 2017), inzwischen gelangt man durch einen Klick auf „Show more“ auf bis zu 30 Einträge, die in absteigender Reihenfolge erscheinen. Dass dadurch möglicherweise unbedeutende kleinere Druckorte nicht auf den ersten Blick angezeigt werden, ist nur manchmal ein Problem (cf. Anm. 24). In der Gesamtproduktion werden sie berücksichtigt, so dass die Zahlen dadurch nicht verfälscht werden. Meist ist für Überblicksstudien die Kenntnis der großen Druckorte völlig ausreichend. Schließlich könnte man nach einzelnen kleinen Druckorten auch gesondert suchen, wenn dies für eine ganz bestimmte Fragestellung von Interesse wäre. 11 Wie in Anm. 10 im Hinblick auf die Druckorte angemerkt, können auch hier durch einen Klick auf „Show more“ mehr Informationen abgerufen werden. Im konkreten Fall wäre zu erfahren, dass neben den oben genannten Sprachen u.-a. auch das Deutsche (17 Treffer), das Niederländische (66 Treffer) und das Hebräische (57 Treffer) vertreten sind. aufgelistet werden. Gleichzeitig findet man als Benutzer am linken Seitenrand aber auch statistische Angaben zur Gesamtheit aller Treffer. So wird automa‐ tisch angezeigt, wie sich die Treffer innerhalb jeder der neun Kategorien der Datenbank (Place, Language, Subject, Authorship etc.) zahlenmäßig verteilen. Wie Abb. 1 zu entnehmen ist, wird die Mehrheit aller Drucke, die zwischen 1501 und 1600 in Frankreich entstehen, in Paris produziert, wohingegen - abgesehen von Lyon - die übrigen Druckorte nur eine untergeordnete Rolle spielen. 10 Des Weiteren ist ersichtlich (cf. Abb. 2), dass die Mehrheit der Drucke bereits in der Volkssprache gedruckt wird und dass unter den ‚echten‘ Fremdsprachen - Latein und Griechisch nehmen in der Renaissance eine Sonderstellung ein - das Italienische (528 Treffer) von größerer Bedeutung ist als etwa das Spanische (136 Treffer) oder Englische (110 Treffer). 11 Abb. 1: Places (France 1501-1600). Abb. 2: Languages (France 1501-1600). 278 Thomas Scharinger <?page no="279"?> 12 Wie in Abb. 3 zu erkennen ist, wäre die Summe der italienischen Ausgaben aus den einzelnen Druckorten höher als die Gesamtzahl 528. Dies erklärt sich dadurch, dass die eigentlich in London und Venedig gedruckten Werke zwar zum im Druckerzeugnis selbst ausgewiesenen Druckbzw. Verlagsort (hier: Paris) gerechnet werden, aber noch einmal gesondert unter dem tatsächlichen Druckort aufgeführt werden. Sie werden aber korrekterweise nicht nochmals zur Gesamtzahl gezählt, da es sonst zu Dubletten käme. Die insgesamt 528 Ausgaben verteilen sich wie folgt: Lyon (361), Paris (155), Tours (5), Agen (2) sowie 5 weitere Ausgaben, die in anderen Druckorten produziert wurden und erst durch einen Klick auf „Show more“ sichtbar werden. Wählt man nun unter den angegebenen Sprachen z. B. das Italienische aus, werden ohne erneute Suchanfrage die Angaben innerhalb der Kategorien aktualisiert und nur noch für die 528 italienischen Ausgaben angezeigt (cf. Abb. 3 und 4). Abb. 3: Places (France 1501-1600, Italian). Abb. 4: Subjects (France 1501-1600, Italian). Wie Abbildung 3 und 4 zeigen, lassen sich auf diese Weise interessante Beobach‐ tungen machen, die ihrerseits zu neuen Fragen führen. Auffällig ist etwa, dass in Lyon deutlich mehr italienische Drucke hergestellt wurden als in Paris, obgleich Lyon für die französische Gesamtproduktion von geringerer Bedeutung war (cf. Abb. 1). Offenbar lässt sich die Zahl italienischer Titel also nicht anhand der Gesamtproduktion eines Druckortes vorhersagen. Es bliebe also zu klären, warum die Nachfrage in Lyon größer war. 12 Was die Domänen betrifft, so ist erkennbar, dass neben Literature, Poetry und Music auch religiöse Literatur vertreten ist, was auf die Präsenz von Migranten hindeuten könnte. Die Suche ließe sich dazu problemlos verfeinern. So könnte man durch einen Klick auf Digital Humanities und Sprachgeschichte am Beispiel des USTC 279 <?page no="280"?> 13 Interessant ist etwa, dass im Jahre 2017 noch Swiss Union als Country genannt wurde (cf. Scharinger 2017), wohingegen diese Bezeichnung heute nicht mehr unter den Regions des USTC erscheint. Eine Überprüfung ergibt, dass Druckorte wie Basel und Zürich dem Holy Roman Empire, Genf und Lausanne hingegen France zugeordnet werden (zu Genf cf. auch Abb. 1). Andererseits wurde Scandinavia ersetzt durch Norway, Sweden, Denmark. 14 So wird etwa das päpstliche Avignon nicht zu France, sondern zu Italian City States gerechnet. Religious (cf. Abb. 4) erfahren, wo die meiste italienischsprachige religiöse Literatur im frühneuzeitlichen Frankreich gedruckt wurde. Durch einen Klick auf Lyon (cf. Abb. 3) wäre hingegen herauszufinden, auf welche Bereiche sich die in Lyon produzierten italienischen Drucke verteilen. Die wenigen Beispiele sollen hier genügen, um zu illustrieren, wie aufschlussreich auch die Ergebnisse von zunächst gänzlich unspezifischen Suchanfragen sein können. Sie geben nicht nur einen ersten Überblick über die wichtigsten Druckorte eines Gebietes oder die am häufigsten vertretenen Sprachen, sondern werfen, da sie auf Besonderheiten aufmerksam machen, auch Fragen auf, denen es sich durchaus nachzugehen lohnt. Trotz aller soeben besprochenen Vorzüge des USTC sollte die Datenbank nicht unkritisch genutzt werden. Im Folgenden soll nicht auf kleinere Ungenau‐ igkeiten (z. B. vereinzelte Katalogisierungsfehler), die letztlich in jeder Daten‐ bank mit vergleichbarem Umfang begegnen, eingegangen werden, sondern auf systematische Schwächen, die es bei der Analyse der vom USTC generierten Daten zu berücksichtigen gilt. Diese betreffen sowohl die Kategorie Region bzw. Place als auch die so wichtige Kategorie Language. Dass heutige Grenzen anders verlaufen als im 16. Jahrhundert und sich Sprachgrenzen auch nicht notwendigerweise mit administrativen Grenzen decken, ist hinreichend bekannt. Obwohl der USTC in den letzten Jahren dazu übergegangen zu sein scheint, bei der Zuordnung von Druckorten zu bestimmten Regionen (nicht Ländern) nicht mehr (heutige) administrative Grenzen, sondern eher Sprachgebiete zu berücksichtigen, 13 bleibt die Zuord‐ nung bestimmter Druckorte manchmal nicht unproblematisch. 14 Für Studien, die sich bei der Auswahl der Druckorte an administrativen Grenzen orientieren möchten, kann aber selbst eine Kategorisierung, die auf historischen Grenzen basiert, ein Problem darstellen. Angesichts der bewegten Geschichte vieler Grenzorte in der Frühen Neuzeit ist es mehr als wahrscheinlich, dass ein bestimmter Druckort von z. B. 1501 bis 1600 nicht immer zum selben Herr‐ schaftsgebiet gehörte. Für den praktischen Umgang mit dem USTC ist dies aber nur bedingt als Nachteil zu betrachten, da man sich entweder auf ausgewählte 280 Thomas Scharinger <?page no="281"?> 15 Cf. dazu auch Ambrosch-Baroua (2015, 24-25, Anm. 47). Orte beschränken oder aber die Ergebnisse für bestimmte Druckorte ggf. vom Gesamtergebnis für eine Region ausschließen kann. Im Hinblick auf die Klassifizierung der (romanischen) Sprachen in den Druck‐ werken ist festzuhalten, dass der USTC für gewöhnlich von den heutigen Nati‐ onalsprachen ausgeht. Einzelne Varietäten (etwa Venezianisch, Bergamaskisch etc.) werden nicht gesondert ausgewiesen. Für Studien zur Verbreitung einer romanischen Sprache außerhalb ihres angestammten Gebietes stellt dies, wie am Beispiel ‚des Italienischen‘ als Migrantensprache kurz illustriert werden soll, aber kein wirkliches Problem dar. Zunächst gilt es herauszufinden, in welchen Regionen außerhalb der Apenninenhalbinsel überhaupt ‚italienische‘ Drucke nachgefragt wurden. Ähnliches gilt für Untersuchungen zur Konkurrenz zwi‐ schen ‚italienischen‘ und lateinischen Drucken auf der Apenninenhalbinsel. Für einen ersten Überblick kann es bereits sehr aufschlussreich sein, die Gesamt‐ heit der volkssprachlichen Drucke jener der lateinischen gegenüberzustellen (↑4.1). Gewiss wäre die Kenntnis der einzelnen italoromanischen Varietäten in den Drucken von Interesse. So könnten etwa Migrantengruppen einer bestimmten Region zugeordnet werden oder Aussagen über den möglicherweise unterschiedlichen Status bestimmter Varietäten gegenüber dem Lateinischen getroffen werden. Allerdings ist hier zu bedenken, dass der USTC nicht als Datenbank für sprachgeschichtliche Analysen konzipiert wurde und es daher nicht verwunderlich ist, dass eine solche Feindifferenzierung fehlt. Selbst die beeindruckende nationale Datenbank EDIT16 unterscheidet lediglich zwischen Italiano und Italiano-dialetti, 15 wobei letztere Kategorie sämtliche Dialekte des Italienischen umfasst. Wenn es für bestimmte Fragestellungen also notwendig ist, die in einem Druck verwendete Varietät genau zu bestimmen, bleibt letztlich nur die Prüfung der einzelnen Titel oder - wenn dies nicht ausreicht - der Blick ins Werk, was dank der Digitalisierungsbestrebungen heute schon in nicht wenigen Fällen möglich ist. Die - zumindest aus heutiger Sicht - kleineren romanischen Sprachen werden im USTC nicht berücksichtigt. Er unterscheidet lediglich zwischen dem Französischen, Katalanischen, Italienischen, Portugiesischen, Rumänischen und Spanischen. Dass aber auch Werke, in denen eine kleinere romanische Sprache eine Rolle spielt, durchaus in der Datenbank enthalten sind, zeigt eine Stichprobe zu Drucken, die zwischen 1500 und 1580 in Toulouse entstanden sind. Unter den Treffern einer Suchanfrage nach französischen Drucken (Tou‐ louse+French+1500-1580) finden sich u.-a. auch die folgenden Titel: Digital Humanities und Sprachgeschichte am Beispiel des USTC 281 <?page no="282"?> 16 Unter Französisch verstehe ich hier und im Folgenden sämtliche nordgalloromanischen Idiome, unter Okzitanisch alle südgalloromanischen Idiome. Dass hier natürlich noch genauer unterschieden werden könnte und auch das Frankoprovenzalische zu berück‐ sichtigen wäre, versteht sich von selbst. 17 Cf. dazu z.-B. Ambrosch-Baroua (2015, 25, Anm. 48) sowie Scharinger (2017, 165). • Lo doctrinal de sapiensa en lo lenguatge de Tholosa (1504) • La vida de nostre salvador et redemptor Jesus Christ (1545) • Poesias gasconas (1567) Was diese Unzulänglichkeit betrifft, so kann bei Untersuchungen so verfahren werden, wie es weiter oben im Zusammenhang mit der Nichtberücksichtigung verschiedener Varietäten einer romanischen Sprache vorgeschlagen wurde. Für einen ersten Vergleich zwischen volkssprachlicher und lateinischer Produktion können zunächst, um beim Beispiel der Galloromania zu bleiben, die ‚franzö‐ sischen‘, d. h. die galloromanischen Drucke mit den lateinischen verglichen werden. In einem zweiten Schritt wäre es aber natürlich wünschenswert, anhand der Titel zu prüfen, ob es sich dabei um französische oder okzitanische 16 Drucke handelt, um so mögliche Unterschiede bezüglich der Konkurrenz Latein vs. Volkssprache zwischen der Nord- und der Südgalloromania aufzuzeigen. Schließlich wäre es - insbesondere für die Südgalloromania - von Interesse, auch das Verhältnis zwischen französischen und okzitanischen Drucken ge‐ nauer zu beleuchten. Ein bis vor wenigen Jahren bestehendes Problem wurde inzwischen z. T. behoben. Während es früher nicht möglich war, die Ergebnisse nach mehrspra‐ chigen Drucken zu filtern, 17 ist heute innerhalb der Kategorie Languages auch die Suche nach Multilingual möglich. Allerdings fallen darunter nur Werke wie Wörterbücher oder Gesprächsbücher. Nach zweisprachigen Drucken, z. B. nach Übersetzungen, in denen sowohl der ausgangssprachliche als auch der zielsprachliche Text abgedruckt sind, kann indessen nicht gesondert gesucht werden. Diese können aber dennoch ermittelt werden. Wie Abb. 5 zeigt, liefert eine Suchanfrage nach italienischen Drucken im Frankreich des 16. Jahr‐ hunderts (France+Italian+1501-1600) die folgenden Ergebnisse innerhalb der Kategorie Language: 282 Thomas Scharinger <?page no="283"?> Abb. 5: Languages (France 1501-1600, Italian). Unter den 528 Treffern finden sich u. a. auch Drucke, in denen neben dem Italienischen noch mindestens eine weitere Sprache begegnet, z. B. 17 mit französischen Teilen, wobei es sich zum Großteil - aber nicht nur - um die oben erwähnten Übersetzungen handelt. Beabsichtigt man nun, diese Zahlen ‚weiterzuverarbeiten‘, etwa um die Menge an zwei- oder mehrsprachigen Werken zu ermitteln, in denen u. a. das Italienische vorkommt, dürfen die Zahlen (z.-B. 17 French, 9 Latin, 4 Spanish etc.) aber nicht einfach nacheinander addiert werden. Die vier Werke, in denen neben dem Italienischen auch das Spanische eine Rolle spielt, enthalten nämlich auch Teile auf Französisch (z. B. mehrsprachige Ausgaben des Galateo) und werden daher auch zu French gerechnet. Wenn man also die 17 französischen Drucke zur Gesamtzahl aller zwei- oder mehrsprachigen Werke mit italienischem Anteil rechnet, sind die vier spanischen bereits enthalten. Umgekehrt gilt, dass man, wenn man z. B. nur einsprachige italienische Drucke berücksichtigen möchte, von den insgesamt 528 Ausgaben nicht alle Treffer (z. B. 17 French, 9 Latin, 4 Spanish etc.) abziehen kann. Durch die Tilgung der 17 Werke mit französischem Anteil wären auch die vier Werke mit spanischem Anteil bereits getilgt. Beabsichtigt man, um ein weiteres Anwendungsbeispiel zu nennen, das Verhältnis zwischen lateinischen und spanischen Drucken auf der Iberischen Halbinsel zwischen Digital Humanities und Sprachgeschichte am Beispiel des USTC 283 <?page no="284"?> 18 Frühere Schwächen bei der Klassifikation mehrsprachiger Drucke, z. B. die Zuordnung zu nur einer der darin enthaltenen Sprachen (cf. Scharinger 2017, 165-166), sind in der Zwischenzeit behoben worden. 19 Die Daten der Tabelle basieren ihrerseits auf Fèbvre/ Martin (1958, 480). 1501 und 1600 zu untersuchen, müssten, wenn man jeweils nur einsprachige Drucke berücksichtigen möchte, zweisprachige Drucke, in denen Lateinisch und Spanisch begegnen (hier insgesamt: 76), sowohl von der Gesamtzahl der spanischen (hier: 9.981) als auch von der Gesamtzahl der lateinischen Drucke (hier: 5.037) abgezogen werden. Auch wenn hier also immer noch eine genaue Prüfung der einzelnen Titel und auch etwas praktische Erfahrung notwendig sein können, stellt der USTC durch diese Art der Aufbereitung ein brauchbares Hilfsmittel für Studien zu zwei- oder mehrsprachigen Drucken dar. 18 Zu einer vergleichbaren doppelten Auszeichnung kann es auch im Bereich der Subjects (Bibeln sind eine eigene Kategorie, tauchen aber z. B. auch unter Religious auf) kommen, so dass es auch diesbezüglich einer Prüfung bedürfen kann. Im Allgemeinen sind alle der bisher besprochenen Fälle aber eher selten und fallen, wie in den Fallstudien in Abschnitt 4.1., 4.2. und 4.3. gezeigt wird, bei quantitativen Analysen kaum ins Gewicht. Würde man die soeben skizzierten Fragestellungen mithilfe einzelner gedruckter Kataloge, die auch nicht alle ohne Weiteres zugänglich sind, bearbeiten wollen, wäre der Arbeitsaufwand in jedem Fall deutlich höher. 4 Fallstudien - 4.1 Extensiver Ausbau: lateinische vs. volkssprachliche Drucke In Abschnitt 2 wurde festgehalten, dass dem Buchdruck eine besondere Bedeu‐ tung für die Emanzipation der romanischen Volkssprachen vom Lateinischen zukommt, in den einschlägigen Werken zur Sprachgeschichte aber kaum kon‐ krete Zahlen genannt werden, um diese Annahmen empirisch zu untermauern. In den wenigen Fällen, in denen dies doch geschieht, decken die zu illustrativen Zwecken abgedruckten Zahlen zudem zumeist nur einen ausgewählten Teilbe‐ reich der Buchproduktion ab, wie etwa die folgende Tabelle zur Entwicklung des Anteils französischer Drucke an der Gesamtzahl der im Paris des 16. Jahr‐ hunderts produzierten Druckerzeugnisse aus der Französischen Sprachgeschichte von Berschin/ Felixberger/ Goebl (2008): 19 284 Thomas Scharinger <?page no="285"?> 20 Dass die überwiegende Mehrheit der nicht französischen Drucke lateinisch ist, kann zwar nicht anhand der Tabelle, aber indirekt aus den Aussagen der Autoren erschlossen werden (cf. Berschin/ Felixberger/ Goebl 2008, 196). 21 Die Unterscheidung zwischen intensivem und extensivem Ausbau schlagen Koch/ Oes‐ terreicher (2011, 136) vor. Unter ersterem verstehen sie u. a. die Erweiterung der Ausdrucksmittel, etwa der Lexik, einer Sprache, unter letzterem die zunehmende Verwendbarkeit und Durchsetzung einer Sprache in bestimmten Bereichen. Insgesamt Französisch % 1501 88 8 9 1528 269 38 14 1549 332 70 21 1575 445 245 55 Tab. 1: Anteil fr. Drucke in Paris im 16. Jahrhundert (Berschin/ Felixberger/ Goebl 2008, 196). Obwohl die Tabelle anschaulich zeigt, dass die Zahl der volkssprachlichen Drucke im Laufe des 16. Jahrhunderts kontinuierlich ansteigt und im letzten Viertel des Jahrhunderts schließlich diejenige der lateinischen 20 übersteigt, lässt sie doch einige Fragen offen. Zum einen wäre es von Interesse, nicht nur die Produktion in Paris, sondern auch jene anderer bedeutender Druckorte oder gar die gesamte Galloromania in den Blick zu nehmen - und dies nicht nur punktuell anhand von vier Momentaufnahmen. Zum anderen könnte gezeigt werden, in welchen Bereichen die volkssprachlichen Drucke sich gegenüber den lateinischen durchzusetzen vermögen. Schließlich wird immer wieder hervorgehoben (↑2), dass sich das sukzessive Vordringen der romanischen Volkssprachen in ganz bestimmte Verwendungsbereiche im Zuge des extensiven Ausbaus 21 auch im Buchdruck widerspiegelt. Die folgende Tabelle (Tab. 2) basiert auf den Daten des USTC und zeigt das Verhältnis zwischen volkssprachlichen und lateinischen Drucken im galloro‐ manischen Sprachgebiet des 16. Jahrhunderts (1501-1600, ohne Domänenspe‐ zifizierung) nach Jahrzehnten. Hier und in allen folgenden Tabellen entspricht die Angabe unter Drucke gesamt nicht der Summe der volkssprachlichen und Digital Humanities und Sprachgeschichte am Beispiel des USTC 285 <?page no="286"?> 22 Die Ergebnisse in Tab. 2 umfassen die Zahlen aller Druckorte, die im USTC zu France gezählt werden, die volkssprachlichen Drucke demnach französische, okzitanische und frankoprovenzalische. Mehrsprachige Drucke, d. h. solche, in denen noch mindestens eine weitere Sprache erscheint, wurden nicht von den Ergebnissen ausgeschlossen. Die Zahl der zweisprachigen Drucke (Latein/ Galloromanisch), die hier gesondert berücksichtigt und von den Ergebnissen ausgeschlossen werden könnten, ist recht überschaubar (1501-1600: 20 von 83.804 Drucken). Ihre Nichtberücksichtigung würde am Verhältnis Latein vs. Volkssprache ohnehin nichts ändern, weil jeder dieser Drucke unter beiden Sprachen zu tilgen wäre (↑3). 23 Wie die Zahlen des USTC belegen, übersteigen die volkssprachlichen Drucke (682) die lateinischen (556) bereits im Jahre 1560 (Gesamtzahl: 1.312). In Paris verhält es sich um 1560 im Übrigen nicht anders: lateinisch (280), volkssprachlich (367), gesamt (685). lateinischen Drucke, sondern der Gesamtproduktion innerhalb eines Zeitraums (z.-B. 1501-1510, cf. Tab. 2) oder einer Domäne (z.-B. Medical Texts, cf. Tab. 5). 22 - Volkssprache Latein Drucke gesamt 1501-1510 1.178 2.646 4.149 1511-1520 1.288 4.162 5.653 1521-1530 1.634 3.355 5.128 1531-1540 2.662 5.092 8.056 1541-1550 3.453 6.077 10.017 1551-1560 4.974 5.147 10.781 1561-1570 6.796 2.676 9.978 1571-1580 6.150 2.538 9.324 1581-1590 8.302 2.618 11.590 1591-1600 6.756 1.620 9.128 Tab. 2: Volkssprachliche und lateinische Drucke Galloromania (1501-1600). Auch wenn die Zahlen des USTC zur gesamten Galloromania sich im Wesent‐ lichen mit den Befunden aus Tab. 1 zu Paris decken, erlauben sie dennoch, die Entwicklung des volkssprachlichen Buchdrucks etwas differenzierter zu betrachten. So ist nicht nur zu erkennen, dass die Zahl der volkssprachlichen Drucke sich derjenigen der lateinischen schon in den 1550er Jahren stark annähert und diese spätestens in den 1560er Jahren deutlich übertrifft, 23 sondern auch, dass die volkssprachlichen Drucke mit 6.796 Ausgaben zwischen 1561 und 1570 bereits ca. 68 % der Gesamtproduktion (9.978 Drucke, cf. Tab. 2) ausmachen. 286 Thomas Scharinger <?page no="287"?> 24 Alle Druckorte, die im USTC zu Italian City States gezählt werden, wurden berücksich‐ tigt. Würde man z. B. die in Avignon entstandenen Drucke (1501-1600: 7 it., 77 lat.) abziehen, so würde dies an den Ergebnissen kaum etwas ändern. Aufgrund der in Anm. 10 besprochenen Darstellung der Druckorte im USTC können nicht alle Druckorte der Italian City States angezeigt werden. Davon sind aber nur Orte betroffen, die im 16. Jahrhundert weniger als 200 Drucke produzierten und zusammengenommen weniger als 5 % der italienischen Gesamtproduktion ausmachen. Von den Ergebnissen für Iberia (1501-1600: 16.575) wurden die in Mexiko entstandenen Drucke (1501-1600: insgesamt 302 Treffer) nicht abgezogen. Die Ergebnisse wären ohne sie vergleichbar. Die volkssprachlichen Drucke der Italian City States umfassen alle italoromanischen Varietäten bzw. Idiome, jene der Iberoromania alle ‚spanischen‘, portugiesischen und katalanischen Varietäten. Die Ergebnisse schließen mehrsprachige Drucke mit ein. Die Zahl der möglicherweise für die Analyse relevanten zweisprachigen Drucke wäre insgesamt unbedeutend (1501-1600: lat./ sp.: 76, lat./ pg.: 4, lat./ kat.: 7, sp./ pg.: 1, sp./ kat.: 1, kat./ pg.: 0). Dass die Summe aller volkssprachlichen und lateinischen Drucke im Zeitraum 1521-1530 und 1561-1570 in Tab. 4 leicht höher wäre als die eigentliche Gesamtzahl der Drucke, erklärt sich hier allerdings in der Tat dadurch, dass einige wenige mehrsprachige Drucke doppelt gezählt werden. Dies liegt aber an der für diesen Beitrag gewählten Art der Datenerhebung, nicht an einer etwaigen Ungenauigkeit des USTC. Dass die eigentliche Gesamtzahl niedriger ist, zeigt ja gerade, dass der USTC die in mehreren Kategorien ausgewiesenen Drucke nicht doppelt zählt (↑3). Die Ergebnisse für die Italo- und Iberoromania (cf. Tab. 3 und 4) zeigen jedoch, dass die volkssprachlichen Drucke in der Galloromania in der Tat etwas länger brauchen, um sich gegenüber den lateinischen durchzusetzen. 24 - Volkssprache Latein Drucke gesamt 1501-1510 891 2.548 3.831 1511-1520 1.466 2.428 4.202 1521-1530 1.348 1.743 3.320 1531-1540 1.794 1.523 3.567 1541-1550 2.790 2.071 5.148 1551-1560 3.273 2.681 6.278 1561-1570 4.452 4.028 8.807 1571-1580 5.547 3.955 9.832 1581-1590 7.318 5.024 12.805 1591-1600 7.107 4.194 11.742 Tab. 3: Volkssprachliche und lateinische Drucke Italoromania (1501-1600). Digital Humanities und Sprachgeschichte am Beispiel des USTC 287 <?page no="288"?> 25 Cf. dazu etwa Steinberg (1988, 122) sowie Ambrosch-Baroua (2015, 21). 26 Cf. dazu auch Ambrosch-Baroua (2015, 27), die nach ihrer auf EDIT16 basierenden Analyse zu einem vergleichbaren Ergebnis kommt und diesbezüglich feststellt, dass das Verhältnis Latein vs. Volkssprache „zwischen 1535 und 1540 zugunsten des Italienischen ‚kippt‘“. 27 In jeder Kategorie (Subject) wurden alle Ergebnisse berücksichtigt. Mehrsprachige Drucke wurden nicht ausgeschlossen, was vereinzelt zu Doppelzählungen führen kann (z. B. Medical Texts in Tab. 7, cf. auch Anm. 24). Ausgaben, die vom USTC auch anderen Kategorien zugeordnet werden, wurden nicht getilgt, da es hier irrelevant ist, ob ein Druck sowohl in die Kategorie Medical Texts als auch in die Kategorie Classical Authors fällt. Von Bedeutung wäre eine doppelte Auszeichnung überhaupt nur dann, wenn zwei der hier besprochenen Kategorien davon betroffen wären, was eher selten der Fall ist. So könnten z.-B. 8 der 1.125 als Medical Texts ausgewiesenen Drucke in der Galloromania (cf. Tab. 5) auch zu Ordinances & Edicts gerechnet werden. Volkssprache Latein Drucke gesamt 1501-1510 401 264 702 1511-1520 611 323 956 1521-1530 648 353 998 1531-1540 717 287 1.003 1541-1550 1.142 345 1.496 1551-1560 1.175 568 1.749 1561-1570 1.304 666 1.947 1571-1580 1.355 652 2.018 1581-1590 1.780 737 2.521 1591-1600 2.334 842 3.185 Tab. 4: Volkssprachliche und lateinische Drucke Iberoromania (1501-1600). Während bekannt ist, dass die volkssprachliche Produktion im iberoromani‐ schen Raum schon früh die lateinische übertraf, 25 überraschen die Ergebnisse zur Italoromania, in der die Zahl der volkssprachlichen Drucke deutlich früher ansteigt als in der Galloromania. Anders als bisweilen behauptet wird, übertrifft die ‚italienische‘ Druckproduktion die lateinische also schon in den 1530er Jahren. 26 Wie den folgenden Tabellen zu entnehmen ist, hängt die Wahl der Sprache in den Drucken aber auch von der jeweiligen Domäne ab. 27 288 Thomas Scharinger <?page no="289"?> Volkssprache Latein Drucke gesamt Agriculture 304 48 358 Arts & Architecture 85 26 123 Medical Texts 1.125 1.457 2.783 Jurisprudence 1.948 5.665 7.956 Ordinances & Edicts 7.190 6 7.204 Tab. 5: Volkssprachliche und lateinische Drucke nach Domänen Galloromania (1501- 1600). - Volkssprache Latein Drucke gesamt Agriculture 184 31 218 Arts & Architecture 255 92 354 Medical Texts 506 1.516 2.065 Jurisprudence 575 4.719 5.359 Ordinances & Edicts 5.411 1.490 7.070 Tab. 6: Volkssprachliche und lateinische Drucke nach Domänen Italoromania (1501- 1600). - Volkssprache Latein Drucke gesamt Agriculture 68 2 70 Arts & Architecture 19 0 19 Medical Texts 276 205 480 Jurisprudence 587 392 981 Ordinances & Edicts 1.564 231 1.808 Tab. 7: Volkssprachliche und lateinische Drucke nach Domänen Iberoromania (1501- 1600). Deutlicher als die Zahlen zur Iberoromania (cf. Tab. 7), in der ja schon zu Beginn des 16. Jahrhunderts mehr volkssprachliche als lateinische Drucke entstehen (cf. Tab. 4), zeigen die Ergebnisse für die Gallo- und Italoromania (cf. Tab. 5 Digital Humanities und Sprachgeschichte am Beispiel des USTC 289 <?page no="290"?> 28 In der Verwaltungsschriftlichkeit setzt dieser Prozess natürlich schon früh ein, was auch erklärt, warum in der Kategorie Ordinances & Edicts überwiegend, in der Galloromania sogar fast ausschließlich die Volkssprachen erscheinen (cf. Tab. 5, 6 und 7). 29 Wie eine Stichprobe zur Sprachenverteilung innerhalb der Kategorie Jurisprudence (1591-1600) zeigt, dominieren hier in der Galloromania gegen Ende des 16. Jahrhunderts bereits die volkssprachlichen Drucke (409 vs. 195), während in der Italoromania noch lateinische Ausgaben überwiegen (555 vs. 144). 30 Cf. dazu Barbier (2006, 221). 31 Beschin/ Felixberger/ Goebl (2008, 196) weisen - allerdings unter Bezugnahme auf Fèbvre/ Martin (1958) - darauf hin, dass im 16. Jahrhundert eine Vielzahl der französi‐ schen Drucke Flugschriften sind. Zur Bedeutung von Flugschriften cf. Wilhelm (1996). und 6), dass die lateinischen Drucke in bestimmten Bereichen noch überwiegen (z. B. Jurisprudence), wohingegen in anderen Domänen (z. B. Agriculture) vermehrt oder beinahe ausschließlich die Volkssprachen Verwendung finden. Dieser Befund deckt sich mit der etablierten Annahme, dass die romanischen Sprachen im Zuge ihres Ausbaus das Lateinische zunächst in den praxisnahen Wissenschaften und in der Verwaltungsschriftlichkeit 28 verdrängen konnten. Auch an dieser Stelle wäre es sinnvoll, die Verteilung der lateinischen und volkssprachlichen Drucke nach Jahrzehnten aufzuschlüsseln. Die lateinischen Drucke könnten selbst in den Bereichen, in denen sie stark vertreten sind, gegen Ende des 16. Jahrhunderts einer ähnlich hohen Zahl an volkssprachlichen Drucken gegenüberstehen. 29 Des Weiteren wären die genauen Verhältnisse in einzelnen Städten zu betrachten und miteinander zu vergleichen. Dass etwa der volkssprachliche Buchdruck in Florenz schon zu einem frühen Zeitpunkt bedeutender war als anderswo auf der Apenninenhalbinsel, ist hinreichend bekannt. 30 Schließlich könnte - dies allerdings nur anhand einer Prüfung der einzelnen Titel - ermittelt werden, welche Rolle die kleineren romanischen Sprachen spielten (↑3) und ob möglicherweise eine Korrelation zwischen dem Umfang eines Drucks und der gewählten Sprache besteht. 31 Im Rahmen dieses Beitrags können diese Fragen freilich nicht beantwortet werden. Sie seien aber genannt, um darauf aufmerksam zu machen, dass sie mithilfe des USTC durchaus beantwortet werden könnten. In den Fällen, in denen keine gezielten Suchanfragen möglich sind, wie z. B. im Hinblick auf den Umfang der Drucke, liefert der USTC die entsprechenden Informationen zumindest in der Beschreibung einer jeden Ausgabe. - 4.2 Konkurrenz zwischen romanischen Sprachen: spanische und katalanische Drucke Eingangs wurde am Beispiel der Konkurrenz zwischen dem Kastilischen und dem Katalanischen darauf hingewiesen, dass der Buchdruck auch für die 290 Thomas Scharinger <?page no="291"?> 32 Die Zahlen des USTC zeigen, dass zwischen 1501 und 1650 Barcelona (Gesamtpro‐ duktion: 5.513) der zweitgrößte, Valencia (Gesamtproduktion: 3.184) der fünftgrößte Druckort auf der Iberischen Halbinsel war. Ein beträchtlicher Teil der Drucke, die in der Iberoromania entstanden sind, kann allerdings keinem eindeutigen Druckort zugeordnet werden. Laut Rogge/ Beinke (1991, 198) wurde in Valencia auch das erste Buch auf der Iberischen Halbinsel überhaupt - auf Katalanisch - gedruckt (Les trobes en llaorde la verge Maria, 1474). 33 In den Ergebnissen sind auch mehrsprachige Drucke enthalten (Valencia: 1501-1650: lat./ sp.: 7, lat./ kat.: 0, kat./ sp.: 0; Barcelona: lat./ sp.: 13, lat./ kat.: 6, kat./ sp.: 3), was in wenigen Fällen zu einer doppelten Zählung führen kann. Gleiches gilt für Tab. 10 und 11. Durchsetzung einer romanischen Volkssprache gegenüber einer anderen von Bedeutung sein kann. Daher spiegle sich die Verbreitung des Kastilischen auch im frühneuzeitlichen Buchdruck wider. Insbesondere in den Druckzentren Barcelona und Valencia seien, so Lebsanft (2006, 1297), zwischen dem 15. und 17. Jahrhundert auch zahlreiche spanische Drucke produziert worden, was - ganz wie der Druck lateinischer Schriften - u.-a. wirtschaftliche Gründe hatte: Auch der Buchdruck trug weniger zur Verbreitung katalanischer als vielmehr latei‐ nischer und spanischer Schriften bei. Dies lag an den geringen Auflagenhöhen für katalanische Bücher und an der Gewähr für einen größeren wirtschaftlichen Erfolg durch den Druck lateinischer und spanischer Schriften. (Lüdtke 1991, 236) Im Folgenden soll anhand der Daten das USTC das Verhältnis zwischen kata‐ lanischen, spanischen und lateinischen Druckerzeugnissen in den Druckhoch‐ burgen Barcelona und Valencia 32 zwischen 1501 und 1650 beleuchtet werden (cf. Tab. 8 und 9). 33 - Katalanisch Spanisch Latein Drucke gesamt 1501-1520 62 57 50 172 1521-1540 36 104 66 206 1541-1560 41 82 114 241 1561-1580 49 177 142 370 1581-1600 86 328 151 568 1601-1620 119 420 149 692 1621-1650 136 635 168 935 Tab. 8: Katalanische, spanische und lateinische Drucke Valencia (1501-1650). Digital Humanities und Sprachgeschichte am Beispiel des USTC 291 <?page no="292"?> 34 So stellt etwa Kremnitz (2018, 19) - wenn auch im Hinblick auf das 18. Jahrhundert - fest, dass das Katalanische trotz gegenteiliger sprachpolitischer Bestrebungen noch in der gedruckten Gebrauchsliteratur verwendet wurde. Katalanisch Spanisch Latein Drucke gesamt 1501-1520 89 20 73 186 1521-1540 47 14 36 97 1541-1560 40 23 51 114 1561-1580 70 107 119 295 1581-1600 47 363 106 522 1601-1620 132 961 333 1.430 1621-1650 805 1.477 588 2.869 Tab. 9: Katalanische, spanische und lateinische Drucke Barcelona (1501-1650). Die Zahlen des USTC zeigen, dass die in Valencia und Barcelona produzierten lateinischen und spanischen Drucke zusammengenommen die Zahl der kata‐ lanischen in der Tat bereits am Anfang des 16. Jahrhunderts übersteigen. Allerdings ist deutlich zu erkennen, dass das Katalanische in Valencia bis in die 1520er, in Barcelona sogar bis in die 1540er Jahre die am stärksten vertretene Einzelsprache in den Druckerzeugnissen ist und bis 1650 in beiden Städten noch eine gewisse Rolle in der Druckproduktion spielte. Die Vermutung, es handle sich bei den katalanischen Drucken vorwiegend um Gebrauchsliteratur, 34 lässt sich durch einen Blick auf die Verteilung der Sprachen innerhalb bestimmter Domänen weitestgehend bestätigen. Wie in Tab. 10 und 11 zu sehen ist, wird zwar in beiden Städten z. B. auch Dichtung und religiöse Literatur auf Katalanisch gedruckt, eine besondere Bedeutung scheint dem Katalanischen aber dennoch v.-a. in der lokalen Verwaltung zugekommen zu sein. - Katalanisch Spanisch Latein Drucke gesamt Poetry 14 128 8 150 Ordinances & Edicts 322 93 22 437 Religious 101 607 297 1.005 Tab. 10: Katalanische, spanische und lateinische Drucke nach Domänen Valencia (1501- 1650). 292 Thomas Scharinger <?page no="293"?> 35 Denkbar wäre, dass das Spanische in der Verwaltungsschriftlichkeit erst später an Bedeutung gewinnt. Eine Stichprobe legt allerdings nahe, dass dies nur auf Barce‐ lona zutrifft. Das Verhältnis zwischen spanischen und katalanischen Drucken in der Kategorie Ordinances & Edicts zwischen 1501-1520 und 1601-1620 ist in Valencia vergleichbar (Valencia 1501-1520: kat. 4 vs. sp. 1, 1601-1620: kat. 106 vs. sp. 24; Barcelona: 1501-1520: kat. 37 vs. sp. 5, 1601-1620: kat. 19 vs. sp. 11). 36 Im Augenblick ist dies leider nicht möglich, da die Einträge zu frühen Drucken auf der Iberischen Halbinsel gerade aktualisiert werden und es daher zu Dubletten und fehlenden Auszeichnungen (z.-B. bei Language) kommt. 37 Die Ergebnisse basieren auf Scharinger (2017), es liegen aber die aktuellen Zahlen des USTC zugrunde. Katalanisch Spanisch Latein Drucke gesamt Poetry 51 172 5 227 Ordinances & Edicts 277 64 39 382 Religious 217 1.205 395 1.821 Tab. 11: Katalanische, spanische und lateinische Drucke nach Domänen Barcelona (1501- 1650). Auch hier wären natürlich weitere Recherchen wünschenswert, die im Rahmen einer explorativen Fallstudie nicht in vollem Umfang durchführbar sind. Abge‐ sehen von einer nach Jahrzehnten untergliederten Untersuchung der Sprachen‐ verteilung innerhalb der o. g. sowie weiterer Domänen, 35 in deren Rahmen auch zu klären wäre, was genau als Gebrauchsliteratur zu gelten hat, könnte, wie bereits weiter oben erwähnt, die Berücksichtigung des Formats der Drucke (Flugschriften vs. umfänglichere Drucke) aufschlussreich sein. Schließlich wäre es von Interesse, auch die Zeit vor 1500 in den Blick zu nehmen, da zu erwarten ist, dass das Katalanische in vielen Bereichen noch stärker vertreten war. 36 - 4.3 Allochthone Sprachen als Migranten- oder Kultursprachen: italienische Drucke im frühneuzeitlichen Europa Abschließend soll am Beispiel italienischer Drucke, die zwischen 1501 und 1600 außerhalb Italiens produziert wurden, illustriert werden, dass der USTC auch für Untersuchungen geeignet ist, die der Verbreitung einer romanischen Sprache als Migranten- oder Kultursprache gewidmet sind. Da die Verbreitung des Italienischen außerhalb Italiens schon ausführlich auf Basis des USTC un‐ tersucht worden ist (cf. Scharinger 2017), soll im Folgenden nur auf ausgewählte, besonders aussagekräftige Befunde eingegangen werden. 37 Wie in Abschnitt 4.1. Digital Humanities und Sprachgeschichte am Beispiel des USTC 293 <?page no="294"?> 38 Die Ergebnisse in Tab. 12 berücksichtigen alle der im USTC für die jeweilige Region aufgeführten Druckorte. Mehrsprachige Drucke, in denen neben dem Italienischen noch mindestens eine weitere Sprache erscheint, werden ebenfalls berücksichtigt. Schließlich sprechen auch solche Drucke für die Verbreitung des Italienischen in einem bestimmten Gebiet. 39 Seit Kurzem unterscheidet der USTC zwischen Low Countries Northern und Low Count‐ ries Southern. Unter erstere fallen v. a. die Druckorte Leiden, Amsterdam, Deventer, unter letztere Antwerpen, Löwen, Gent. und 4.2. soll auch hier v. a. auf das Potential des USTC sowie auf Methodisches aufmerksam gemacht werden. Wie die folgende Tabelle zeigt, unterscheidet sich die Anzahl der italienischen Drucke in den einzelnen Gebieten erheblich voneinander, was für einen unter‐ schiedlichen Marktwert der Drucke in den jeweiligen Gebieten spricht, wobei dies, wie ein Vergleich mit der Produktion lateinischer Titel zeigt, nicht von der Gesamtproduktion der jeweiligen Gebiete abhängig zu sein scheint. 38 - Drucke gesamt Latein Italienisch Holy Roman Empire 111.206 56.869 140 France 83.804 35.931 528 Low Countries (S) 21.449 9.764 396 Iberia 16.575 5.037 3 British Isles 14.816 2.567 78 Low Countries (N) 10.254 4.068 16 Tab. 12: Italienische Drucke im frühneuzeitlichen Europa (1501-1600). Während die größten Druckregionen (Holy Roman Empire, France, Low Count‐ ries Southern) 39 erwartungsgemäß auch die höchste Anzahl an lateinischen Drucken produzierten, lässt sich die Menge der italienischen Ausgaben nicht anhand der Gesamtproduktion vorhersagen. Im Heiligen Römischen Reich sind deutlich weniger italienische Drucke zu verzeichnen als in Frankreich oder Flandern, obwohl es als die bedeutendste Druckregion im frühneuzeitlichen Eu‐ ropa betrachtet werden muss. Ebenfalls auffällig sind die Unterschiede zwischen der Iberischen Halbinsel und den Britischen Inseln. Trotz einer etwas höheren Gesamtproduktion entstehen auf der Iberischen Halbinsel vergleichsweise wenige italienische Drucke. Die Zahlen des USTC bestätigen die etablierten Annahmen der Forschung zur Verbreitung des Italienischen als Kultursprache 294 Thomas Scharinger <?page no="295"?> 40 Zum italiano fuori d’Italia im frühneuzeitlichen Europa cf. die Überblicksdarstellungen von Stammerjohann (2013); Banfi (2014); Baglioni (2016). 41 Cf. dazu u.-a. Mattarucco (2003). 42 Cf. Silvestri (2001) zu Spanien sowie Pizzoli (2004) zu England. Im Hinblick auf Spanien ist allerdings zu bedenken, dass der - leider nur schwer rekonstruierbare - Import von italienischen Drucken, insbesondere aus Süditalien, eine gewisse Rolle gespielt haben könnte. 43 Die Tabellen enthalten jeweils nur die wichtigsten Druckorte der Region sowie die wichtigsten Druckorte für die italienischen Ausgaben. Auch unter den Domänen werden hier nur die bedeutendsten genannt. im frühneuzeitlichen Europa. 40 Dass Frankreich besonders offen für italienische Einflüsse war, ist hinreichend bekannt, 41 so dass es nicht verwundert, dass dort die höchste Zahl an italienischen Drucken außerhalb Italiens produziert wird. Was die Iberische Halbinsel anbelangt, so wird immer wieder betont, dass dort etwa im Gegensatz zu England erst spät Italienisch-Lehrwerke entstanden, was auf ein geringeres Interesse am Italienischen schließen lasse. 42 Die Produktion italienischer Drucke erklärt sich nun aber nicht ausschließlich durch das Prestige des Italienischen als Fremdsprache. Wie in Abschnitt 2 bereits erwähnt, kann ein Blick auf die Druckorte sowie die Domänen, auf die sich die Drucke verteilen, darüber Auskunft geben, ob die Drucke stattdessen auch der Präsenz von italienischen Migranten geschuldet sein könnten. Wie in Tab. 13 und 14 zu sehen ist, 43 lassen sich hinsichtlich der Druckorte der italienischen Ausgaben in Flandern sowie auf den Britischen Inseln keine Auffälligkeiten feststellen. Druckorte (gesamt) Druckorte (Italienisch) Domänen (Italienisch) Antwerpen: 14.987 Löwen: 2.793 Gent: 956 Antwerpen: 380 Lüttich: 11 Brügge: 2 Music: 281 Dictionaries: 59 Travel: 11 Tab. 13: Italienische Drucke Low Countries Southern (1501-1600). Druckorte (gesamt) Druckorte (Italienisch) Domänen (Italienisch) London: 13.766 Edinburgh: 352 Cambridge: 230 London: 76 Edinburgh: 1 s.l.: 1 Literature: 9 History & Chronicles: 8 Religious: 8 Tab. 14: Italienische Drucke British Isles (1501-1600). Digital Humanities und Sprachgeschichte am Beispiel des USTC 295 <?page no="296"?> 44 Cf. dazu Firpo (1962); Perini (1997). In beiden Regionen wird die überwiegende Mehrheit der Drucke (380 von 396 bzw. 76 von 78) in großen Druckzentren (Antwerpen/ London) gedruckt. Die Domänen, in denen die italienischen Titel zu finden sind, legen im Falle Flanderns nahe, dass das Italienische dort v. a. als Kultursprache eine Rolle spielte, entfallen doch 281 der 380 Drucke auf Musikliteratur und 59 auf Wörterbücher. Einige wenige Drucke, die vom USTC der Domäne Educational Books zugeordnet werden, lassen jedoch vermuten, dass sie von Migranten vor Ort nachgefragt wurden. • Lo presente libro insegna la vera arte delo excellente scrivere de diverse varie sorti de litere […] (1543; 1545; 1550) • La operina da imparare di scrivere littera cancellarescha (1545; 1546) Bei den beiden Werken - das erste von Giovanni Antonio Tagliente, das zweite von Ludovico degli Arrighi - handelt es sich um Gebrauchsliteratur, die dem Erlernen des Schreibens diente und möglicherweise von in Flandern ansässigen italienischen Bankiers für die Ausbildung ihres Nachwuchses genutzt wurde. Wie sich anhand des USTC leicht zeigen lässt, wurden beide Werke auch in Venedig verlegt. Dass sie für den Export produziert wurden, ist also unwahr‐ scheinlich. Auf den Britischen Inseln verteilen sich die Drucke auf mehrere Domänen. Während literarische Werke (etwa von Pietro Aretino) eher von einer des Italienischen mächtigen einheimischen Elite nachgefragt wurden, spricht die Produktion religiöser Literatur für die Präsenz von Immigranten. Die Autoren der folgenden Werke, Michelangelo Florio und Giovanni Battista Aurelio, waren beide Prediger in der reformierten italienischen Gemeinde Londons. 44 • Cathechismo cioè forma breve per amaestrare i fanciulli; laquale di tutta la christiana disciplina contiene la somma Tradotta di latino in lingua thoscana per m. Michelagnolo Florio (1553) • Esamine di varii giudicii de i politici e della dottrina e de i fatti de i protestanti veri, & de i cattolici romani. Libri quattro per Giovanni Battista Aurellio. Con la tavola de i capi principali che in quelli sono contenuti & fedelmente esplicati (1587) Für den Export war diese protestantische Literatur vermutlich nicht bestimmt. Vielmehr spiegelt sie die Verwendung des Italienischen als Sakralsprache in der Gemeinschaft der italienischen Glaubensflüchtlinge in London wider. 296 Thomas Scharinger <?page no="297"?> Wie die wenigen Beispiele deutlich machen, bedarf es, um anhand der Drucke die Existenz von Migranten nachzuweisen, letztlich einer genauen Analyse der einzelnen Titel. Der USTC stellt hier also v. a. insofern ein wertvolles Hilfsmittel dar, als er durch die Einteilung in verschiedene Domänen den Nutzer überhaupt erst auf religiöse Literatur und Gebrauchsliteratur aufmerksam macht, die andernfalls möglicherweise unberücksichtigt bliebe. Im Hinblick auf die Verbreitung einer romanischen Sprache außerhalb ihres angestammten Gebietes ließen sich mithilfe des USTC natürlich weitere Analysen durchführen. So könnte ein Vergleich zwischen allen in einer bestimmten Region produzierten fremdsprachigen Drucke darüber Aufschluss geben, ob eine Sprache ein beson‐ deres Prestige als Kultursprache genoss. In Abschnitt 3 wurde z. B. bereits darauf hingewiesen, dass im Frankreich des 16. Jahrhunderts deutlich mehr italienische als spanische oder englische Drucke produziert werden, das Italienische also einen höheren Marktwert hatte. Für das frühneuzeitliche Polen ließe sich Ähnliches feststellen, wo das Italienische bereits 1532 in einem mehrsprachigen Wörterbuch erschien, das Französische hingegen erst 42 Jahre später. 5 Zusammenfassung Das Ziel dieses Beitrags war es, den Nutzen des Universal Short Title Catalogue für die sprachgeschichtliche Forschung kritisch zu reflektieren. Als heute umfänglichstes digitales Verzeichnis frühneuzeitlicher Drucke, die bis 1650 in Europa entstanden sind, bietet der USTC nicht nur gegenüber z. T. veralteten und bisweilen schwer zugänglichen gedruckten Katalogen, sondern auch gegen‐ über großen nationalen Datenbanken wie VD 16 erhebliche Vorteile. Zum einen macht ihn die Menge an verzeichneten Ausgaben zu einer soliden Datengrund‐ lage für vergleichende Analysen zum europäischen Buchdruck, zum anderen kann er dank der vielfältigen, miteinander kombinierbaren Suchoptionen (Re‐ gion, Druckort, Domäne, Sprache etc.) auch als Rechercheinstrument genutzt werden, um etwa Daten zur Sprachenverteilung in den Druckerzeugnissen ausgewählter Regionen oder Städte in bestimmten Zeiträumen zu gewinnen. Als nachteilig erweist sich der Umstand, dass der nicht für die sprachwissen‐ schaftliche Forschung konzipierte USTC die kleineren romanischen Sprachen nicht gesondert berücksichtigt (okzitanische Drucke fallen z. B. unter French) und manchmal auch die Zuordnung einzelner Druckorte zu einem bestimmten Gebiet fragwürdig ist. Die mit dem USTC generierten Daten bedürfen daher immer der Kontrolle durch einen kritischen Nutzer. Dies gilt aber für die meisten - wenn nicht alle - Daten, die aus umfangreichen Datenbanken gewonnen werden. Wie anhand dreier explorativer Fallstudien gezeigt wurde, Digital Humanities und Sprachgeschichte am Beispiel des USTC 297 <?page no="298"?> stellt der USTC in jedem Fall ein brauchbares Hilfsmittel dar, das es erlaubt, in der Sprachgeschichtsschreibung mehr oder weniger etablierte Annahmen empirisch zu überprüfen. Was z. B. den Ausbau der romanischen Volkssprachen und deren Emanzipation vom Lateinischen anbelangt, so legen die Zahlen des USTC nahe, dass die volkssprachliche Druckproduktion in der Gallo- und Italoromania die lateinische schon etwas früher übertraf, als zumeist angenommen wird. Im Hinblick auf die Konkurrenz zwischen zwei im Ausbau begriffenen romanischen Volkssprachen zeigen die Ergebnisse der Fallstudie zum Verhältnis zwischen spanischen und katalanischen Drucken, die in Barce‐ lona und Valencia entstanden sind, dass im 16. Jahrhundert das Katalanische durchaus noch eine gewisse Rolle in der Druckproduktion spielte. Die Daten zu italienischen Drucken, die im 16. Jahrhundert außerhalb Italiens produziert wurden, zeigen, dass der Buchdruck nicht nur die Bedeutung des Italienischen als Kultursprache im frühneuzeitlichen Europa, sondern auch seine Verbreitung als Migrantensprache widerspiegelt. Insgesamt handelt es sich beim USTC trotz kleinerer Schwächen um eine hilfreiche Datenbank, die dank der anschaulichen Aufbereitung der Suchergebnisse nicht nur für die Forschung, sondern auch in Lehrveranstaltungen mit sprachgeschichtlichen Inhalten zu illustrativen Zwecken eingesetzt werden kann. Bibliographie Ambrosch-Baroua, Tina (2015): Mehrsprachigkeit im Spiegel des Buchdrucks. Das spani‐ sche Italien im 16. und 17.-Jahrhundert, Köln, MAP, DOI: http: / / dx.doi.org/ 10.16994/ b ad (15.05.2020). Baglioni, Daniele (2016): „L’italiano fuori d’Italia: dal Medioevo all’Unità“, in: Lubello, Sergio (ed.): Manuale di linguistica italiana, Berlin/ Boston, De Gruyter, 125-145. Banfi, Emanuele (2014): Lingue d’Italia fuori d’Italia. Europa, Mediterraneo e Levante dal Medioevo all’età moderna, Bologna, Il Mulino. Barbier, Frédéric (2006): L’Europe de Gutenberg. Le livre et l’invention de la modernité occidentale, Paris, Belin. Beccaria, Gian Luigi (1968): Spagnolo e spagnoli in Italia. Riflessi ispanici sulla lingua italiana del Cinque e del Seicento, Torino, Giappichelli (Ristampa anastatica, Torino, Giappichelli, 1985). Berschin, Helmut/ Felixberger, Josef/ Goebl, Hans (²2008): Französische Sprachgeschichte. Lateinische Basis. Interne und externe Geschichte. Sprachliche Gliederung Frankreichs. Mit einer Einführung in die historische Sprachwissenschaft, korrigierte und mit einem Nachtrag ergänzte Auflage, Hildesheim/ Zürich/ New York, Olms. 298 Thomas Scharinger <?page no="299"?> DARIAH-DE-= Digital Research Infrastructure for the Arts and Humanities-DE (ed.): Handbuch für Digital Humanities. Anwendungen. Forschungsdaten und Projekte, Berlin, ePubli. EDIT16 = Censimento nazionale delle edizioni italiane del XVI secolo, http: / / edit16.iccu.sb n.it/ web_iccu/ ihome.htm (15.05.2020). Fèbvre, Lucien/ Martin, Henri-Jean (1958): L’apparition du livre, Paris, Michel. Firpo, Luigi (1962): „Aureli, Giovan Battista“, in: Dizionario Biografico degli Italiani, vol. 4, http: / / www.treccani.it/ enciclopedia/ giovan-battista-aureli_(Dizionario-Biografico) (15.05.2020). GW-= Staatsbibliothek zu Berlin - Stiftung Preußischer Kulturbesitz (ed.): Gesamt‐ katalog der Wiegendrucke, Berlin, https: / / www.gesamtkatalogderwiegendrucke.de (15.05.2020). ISTC-= British Library (ed.): Incunabula Short Title Catalogue. The International Data‐ base of 15th-century European Printing, London, https: / / data.cerl.org/ istc/ _search (15.05.2020). Koch, Peter/ Oesterreicher, Wulf (²2011): Gesprochene Sprache in der Romania: Französisch - Italienisch - Spanisch, Berlin, De Gruyter. Krefeld, Thomas/ Oesterreicher, Wulf/ Schwägerl-Melchior, Verena (eds.) (2013): Reperti di plurilinguismo nell’Italia spagnola (sec. XVI-XVII), Berlin, De Gruyter. Kremnitz, Georg (2018): Katalanische und okzitanische Renaissance. Ein Vergleich von 1800 bis heute, Berlin, De Gruyter. Lapesa, Rafael ( 9 1991): Historia de la lengua española, Prólogo de Ramón Menéndez Pidal, Gredos, Madrid. Lebsanft, Franz (2006): „Massenkommunikation und Sprachgeschichte: Iberische Halb‐ insel“, in: Ernst, Gerhard/ Gleßgen, Martin-Dietrich/ Schmitt, Christian/ Schweickard, Wolfgang (eds.): Romanische Sprachgeschichte, vol. 2, Berlin/ New York, De Gruyter, 1293-1303. Lüdtke, Jens (1991): „Katalanisch: Externe Sprachgeschichte“, in: Holtus, Günter/ Met‐ zeltin, Michael/ Schmitt, Christian (eds.): Lexikon der romanistischen Linguistik, vol. 5.2, Tübingen, Niemeyer, 232-242. Mattarucco, Giada (2003): Prime grammatiche d’italiano per francesi (secoli XVI-XVII), Firenze, Accademia della Crusca. Perini, Giovanna (1997): „Florio, Michelangelo“, in: Dizionario Biografico degli Italiani, vol. 48, http: / / www.treccani.it/ enciclopedia/ michelangelo-florio_(Dizionario-Biograf ico) (15.05.2020). Pizzoli, Lucilla (2004): Le grammatiche di italiano per inglesi (1550-1776), Firenze, Acca‐ demia della Crusca. Digital Humanities und Sprachgeschichte am Beispiel des USTC 299 <?page no="300"?> Rogge, Waltraud/ Beinke, Christiane (1991): „Katalanisch: Sprachnormierung und Stan‐ dardsprache“, in: Holtus, Günter/ Metzeltin, Michael/ Schmitt, Christian (eds.): Lexikon der romanistischen Linguistik, vol. 5.2, Tübingen, Niemeyer, 192-218. Scharinger, Thomas (2017): „L’italiano fuori d’Italia im Spiegel des frühneuzeitlichen Buchdrucks - Zu Marktwert und Verbreitung italienischer Drucke im Europa des 16. Jahrhunderts“, in: Ambrosch-Baroua, Tina/ Kropp, Amina/ Müller-Lancé, Johannes (eds.): Mehrsprachigkeit und Ökonomie, München, Open Access LMU, 161-188, DOI: https: / / doi.org/ 10.5282/ ubm/ epub.40524 (15.05.2020). Silvestri, Paolo (2001): Le grammatiche italiane per ispanofoni (secoli XVI-XIX), Torino, Dell’Orso. Siouffi, Gilles (2007): „De la Renaissance à la Révolution“, in: Rey, Alain/ Duval, Frédéric/ Siouffi, Gilles: Mille ans de langue française. Histoire d’une passion, Paris, Perrin, 457-960. Stammerjohann, Harro (2013): La lingua degli angeli: italianismo, italianismi e giudizi sulla lingua italiana, Firenze, Accademia della Crusca. STCN-= Koninklijke Bibliotheek (ed.): Short-Title Catalogue, Netherlands, Den Haag, https: / / www.kb.nl/ en/ organisation/ research-expertise/ for-libraries/ short-title-catalo gue-netherlands-stcn (15.05.2020). STCV = Flanders Heritage Library (Vlaamse Erfgoedbibliotheken) (eds.): Bibliography of the Hand Press Book. Short Title Catalogue Flanders (Short Title Catalogus Vlaanderen), https: / / vlaamse-erfgoedbibliotheken.be/ en/ dossier/ short-title-catalogue-flanders-stc v/ stcv (15.05.2020). Steinberg, Siegfried Henry ( 3 1988): Die schwarze Kunst. 500 Jahre Buchdruck, München, Prestel. Trifone, Pietro (1993): „La lingua e la stampa nel Cinquecento“, in: Serianni, Luca/ Trifone, Pietro (eds.): Storia della lingua italiana, vol. 1: I luoghi di codificazione, Torino, Einaudi, 425-446. USTC-= University of St. Andrews (ed.): Universal Short Title Catalogue. A Digital Bibliography of Early Modern Print Culture, St. Andrews, https: / / www.ustc.ac.uk (15.05.2020). VD-16-= Bayerische Staatsbibliothek (ed.): Verzeichnis der im deutschen Sprachbereich erschienenen Drucke des 16. Jahrhunderts, München, https: / / www.bsb-muenchen.de/ s ammlungen/ historische-drucke/ recherche/ vd-16 (15.05.2020). VD-17-= Bayerische Staatsbibliothek/ Staatsbibliothek zu Berlin - Stiftung Preußischer Kulturbesitz/ Herzog August Bibliothek Wolfenbüttel (eds.): Verzeichnis der im deut‐ schen Sprachbereich erschienenen Drucke des 17.-Jahrhunderts, München/ Berlin/ Wol‐ fenbüttel, http: / / www.vd17.de (15.05.2020). Wikipedia-= Wikimedia Deutschland e.-V. (ed.): Wikipedia. Die freie Enzyklopädie, https : / / www.wikipedia.de (15.05.2020). 300 Thomas Scharinger <?page no="301"?> Wilhelm, Raymund (1996): Italienische Flugschriften des Cinquecento (1500-1550). Gat‐ tungsgeschichte und Sprachgeschichte, Tübingen, Niemeyer. Digital Humanities und Sprachgeschichte am Beispiel des USTC 301 <?page no="302"?> Romanistisches Kolloqium Bisher sind erschienen: Frühere Bände finden Sie unter: https: / / elibrary.narr.digital/ Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) Romanistik und neue Medien Romanistisches Kolloquium XVI 2004, 344 Seiten €[D] 88,00 ISBN 978-3-8233-5121-4 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweikard, Otto Winkelmann (Hrsg.) Lengua, historia e identidad - Sprache, Geschichte und Identiät Perspecitva espanola e hispanoamericana Spanische und hispanoamerikanische Perspektiven Romanistisches Kolloquium XVII 2006, 355 Seiten €[D] 78,00 ISBN 978-3-8233-6132-9 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweikard, Otto Winkelmann (Hrsg.) Englisch und Romanisch Romanistisches Kolloquium XVIII 2005, 378 Seiten €[D] 74,00 ISBN 978-3-8233-6133-6 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) Historische Pressesprache Romanistisches Kolloquium XIX 2006, 292 Seiten €[D] 68,00 ISBN 978-3-8233-6261-6 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) Was kann eine vergleichende romanische Sprachwissenschaft heute (noch) leisten? Romanistisches Kolloquium XX 2006, 427 Seiten €[D] 88,00 ISBN 978-3-8233-6213-5 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) Romanische Sprachwissenschaft und Fachdidaktik Romanistisches Kolloquium XXI 2009, 219 Seiten €[D] 48,00 ISBN 978-3-8233-6311-8 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) Zur Bedeutung der Namenkunde für die Romanistik Romanistisches Kolloquium XXII 2008, 287 Seiten €[D] 68,00 ISBN 978-3-8233-6407-8 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) Romanistik und Angewandte Linguistik Romanistisches Kolloquium XXIII 2011, 320 Seiten €[D] 78,00 ISBN 978-3-8233-6669-0 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) Die romanischen Sprachen als Wissenschaftssprachen Romanistisches Kolloquium XXIV 2010, 389 Seiten €[D] 88,00 ISBN 978-3-8233-6595-2 <?page no="303"?> Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) Südosteuropäische Romania Siedlungs-/ Migrationsgeschichte und Sprachtypologie Romanistisches Kolloquium XXV 2012, 235 Seiten €[D] 68,00 ISBN 978-3-8233-6740-6 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) America Romana Romanistisches Kolloquium XXVI 2012, 395 Seiten €[D] 88,00 ISBN 978-3-8233-6751-2 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) Romanische Kleinsprachen heute Romanistisches Kolloquium XXVII 2016, 449 Seiten €[D] 98,00 ISBN 978-3-8233-6881-6 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) Zur Lexikographie der romanischen Sprachen Romanistisches Kolloquium XXVIII 2014, 276 Seiten €[D] 68,00 ISBN 978-3-8233-6912-7 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Christina Ossenkop, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) Sprachvergleich und Übersetzung Die romanischen Sprachen im Kontrast zum Deutschen Romanistisches Kolloquium XXIX 2017, 436 Seiten €[D] 88,00 ISBN 978-3-8233-6982-0 Wolfgang Dahmen, Günter Holtus, Johannes Kramer, Michael Metzeltin, Claudia Polzin- Haumann, Wolfgang Schweickard, Otto Winkelmann (Hrsg.) Sprachkritik und Sprachberatung in der Romania Romanistisches Kolloquium XXX 2017, 427 Seiten €[D] 88,00 ISBN 978-3-8233-8104-4 Lidia Becker, Julia Kuhn, Christina Ossenkop, Anja Overbeck, Claudia Polzin-Haumann, Elton Prifti (Hrsg.) Geschichte des Fremdsprachenstudiums in der Romania Romanistisches Kolloquium XXXI 2020, 280 Seiten €[D] 98,00 ISBN 978-3-8233-8251-5 Lidia Becker, Julia Kuhn, Christina Ossenkop, Anja Overbeck, Claudia Polzin-Haumann, Elton Prifti (Hrsg.) Fachbewusstsein der Romanistik Romanistisches Kolloquium XXXII 2020, 327 Seiten €[D] 98,00 ISBN 978-3-8233-8418-2 Lidia Becker, Julia Kuhn, Christina Ossenkop, Claudia Polzin-Haumann, Elton Prifti (Hrsg.) Romanistik und Wirtschaft Romanistisches Kolloquium XXXIII 2020, 272 Seiten €[D] 98,00 ISBN 978-3-8233-8420-5 Lidia Becker, Julia Kuhn, Christina Ossenkop, Claudia Polzin-Haumann, Elton Prifti (Hrsg.) Digitale romanistische Sprachwissenschaft: Stand und Perspektiven Romanistisches Kolloquium XXXIV 301 Seiten €[D] 98,00 ISBN 978-3-8233-8506-6 Lidia Becker, Julia Kuhn, Christina Ossenkop, Claudia Polzin-Haumann, Elton Prifti (Hrsg.) Geschlecht und Sprache in der Romania: Stand und Perspektiven Romanistisches Kolloquium XXXV 2022, 398 Seiten €[D] 98,00 ISBN 978-3-8233-8584-4 <?page no="304"?> Lidia Becker, Julia Kuhn, Christina Ossenkop, Claudia Polzin-Haumann, Elton Prifti (Hrsg.) Zwischen Pluralität und Präskription: Sprachnormen in der Romania in Geschichte und Gegenwart Romanistisches Kolloquium XXXVI 2024, ca. 400 Seiten €[D] 98,00 ISBN 978-3-381-11091-9 <?page no="305"?> ISBN 978-3-8233-8506-6 R O M A N I S T I S C H E S KOLLOQUIUM XXXIV Die Rolle der Informatik in den Humanwissenschaften, einschließlich der Philologien, gewinnt zunehmend an Gewicht. Auch für die romanistische Sprachwissenschaft ergeben sich daraus einschneidende Veränderungen und neue Perspektiven vor allem in methodologischer Hinsicht. Die Beschreibung zentraler Aspekte dieser Prozesse steht im Mittelpunkt des vorliegenden Bandes, der die Beiträge des XXXIV. Romanistischen Kolloquiums vereint. Das Themenspektrum umfasst theoretische und methodologische Fragestellungen sowie die Präsentation und Diskussion laufender digital-basierter Forschungsprojekte vom Altrumänischen bis zum Gegenwartsspanischen. ROMANISTISCHES KOLLOQUIUM XXXIV Digitale romanistische Sprachwissenschaft: Stand und Perspektiven Lidia Becker, Julia Kuhn, Christina Ossenkop, Claudia Polzin-Haumann, Elton Prifti (eds.) Digitale romanistische Sprachwissenschaft: Stand und Perspektiven ROMANISTISCHES KOLLOQUIUM XXXIV