Neue Entwicklungen in der Korpuslandschaft der Germanistik
Beiträge zur IDS-Methodenmesse 2022
0530
2023
978-3-8233-9602-4
978-3-8233-8602-5
Gunter Narr Verlag
Marc Kupietz
Thomas Schmidt
10.24053/9783823396024
Die in diesem Band versammelten Beiträge zur Methodenmesse der Jahrestagung 2022 des Leibniz-Instituts für Deutsche Sprache geben einen Überblick über die aktuelle Korpuslandschaft in der germanistischen Linguistik: von historischen Sammlungen authentischer Sprachdaten über aktuelle Zeitungs- und Social-Media-Korpora, Gesprächskorpora, Korpora aus Texten von Deutschlernenden bis hin zu einem Korpus mit Texten leichter Sprache und einem Gebärdensprachekorpus. Die Beiträge erläutern jeweils die Designkriterien sowie die Methodik der Datenerhebung und geben einen Einblick, wie die Daten sprachwissenschaftlich verwendet werden können.
<?page no="0"?> Band Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache Marc Kupietz / Thomas Schmidt (Hrsg.) Neue Entwicklungen in der Korpuslandschaft der Germanistik Beiträge zur IDS-Methodenmesse 2022 11 <?page no="1"?> CLIP 11 <?page no="2"?> Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache Corpus Linguistics and Interdisciplinary Perspectives on Language Bd. / Vol. 11 Herausgeber / Editorial Board: Marc Kupietz, Harald Lüngen, Christian Mair Gutachter / Advisory Board: Heike Behrens, Mark Davies, Martin Hilpert, Reinhard Köhler, Ramesh Krishnamurthy, Ralph Ludwig, Michaela Mahlberg, Tony McEnery, Anton Näf, Michael Stubbs, Elke Teich, Heike Zinsmeister Die Bände der Reihe werden einem Peer-Review- Verfahren unterzogen. / The volumes of this series are peer reviewed. <?page no="3"?> Marc Kupietz / Thomas Schmidt (Hrsg.) Neue Entwicklungen in der Korpuslandschaft der Germanistik Beiträge zur IDS-Methodenmesse 2022 <?page no="4"?> Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. Die Publikationsreihe „Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache“ folgt den Regelungen des Rats für deutsche Rechtschreibung. Etwaige Abweichungen davon - insbesondere hinsichtlich der geschlechtsspezifischen Kennzeichnung von Personen - erfolgen auf ausdrücklichen Wunsch des Autors bzw. der Autorin. DOI: https: / / www.doi.org/ 10.24053/ 9783823396024 © 2023 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor: innen oder Herausgeber: innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor: innen oder Herausgeber: innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich. Internet: www.narr.de eMail: info@narr.de Redaktion: Melanie Kraus Layout: Annett Patzschewitz CPI books GmbH, Leck ISSN 2191-9577 ISBN 978-3-8233-8602-5 (Print) ISBN 978-3-8233-9602-4 (ePDF) www.fsc.org MIX Papier aus verantwortungsvollen Quellen FSC ® C083411 ® <?page no="5"?> Inhalt Marc Kupietz / Thomas Schmidt Einleitung ................................................................................................................................... 7 Sarah Ihden / Gohar Schnelle / Ingrid Schröder / Lars Erik Zeige Der Verbund ‚Deutsch Diachron Digital-- Referenzkorpora zur deutschen-Sprachgeschichte‘ Strategien der Erschließung, Analyse und nachhaltigen Nutzung historischer-Sprachdaten ...................................................................................................... 11 Patricia Scheurer / Raphael Müller / Bernard Schroffenegger / Phillip Ströbel / Benjamin Suter / Martin Volk Ein Briefwechsel-Korpus des 16.-Jahrhunderts in-Frühneuhochdeutsch Resultierend aus dem Digitalisierungsprojekt „Bullinger Digital“ ............................. 33 Amelie Dorn / Jan Höll / Theresa Ziegler / Wolfgang Koppensteiner / Hannes-Pirker Die österreichische Presselandschaft digital: Das Austrian Media Corpus (amc) und sein Potenzial für-die Linguistik .................................................................................................................... 43 Simon Meier-Vieracker Korpora zur Fußballlinguistik. Eine multilinguale Forschungsressource zur Sprache der-Fußballberichterstattung ............................................................................................... 57 Sarah Jablotschkin / Heike Zinsmeister LeiKo Ein Vergleichskorpus für Leichte Sprache und Einfache Sprache .............................. 71 Tatjana Scheffler / Lesley-Ann Kern / Hannah Seemann Individuelle linguistische Variabilität in sozialen Medien Ein multimediales Korpus .................................................................................................... 89 Louis Cotgrove New opportunities for researching digital youth language: The-NottDeuYTSch-corpus .................................................................................................. 101 Eckhard Bick / Klaus Geyer Das deutsch-dänische XPEROHS-Korpus: Hassrede-in-sozialen Medien ............... 115 <?page no="6"?> 6 INHALT Julia Krasselt / Philipp Dreesen / Matthias Fluor / Klaus-Rothenhäusler Swiss-AL Korpus und Workbench für mehrsprachige digitale Diskurse .................................. 127 Katharina Korecky-Kröll / Anja Wittibschlager / Markus Pluschkovits / Florian-Tavernier / Johanna Fanta-Jende / Rita Stiglbauer / Jakob Bal / Katharina Kranawetter / Rebecca Stocker Erhebung, Aufbereitung und (kollaborative) Nutzung-des-Korpus „Deutsch-in-Österreich. Variation-- Kontakt-- Perzeption“ ...................................... 143 Malte Belz / Bianca Sell / Robert Lange / Megumi Terada / Christine-Mooshammer / Anke Lüdeling BeDiaCo (L1-L1) und CoNNAR (L1-L1/ L2) Freie und aufgabenorientierte spontansprachliche Dialoge in direkter und videobasierter Kommunikation ........................................................................................ 159 Anne Betten / Carolina Flinz / Simona Leonardi Emigrantendeutsch in Israel: Die Interviewkorpora IS, ISW und ISZ im-Archiv-für-Gesprochenes-Deutsch-des-IDS .............................................................. 171 Hanna Fischer / Brigitte Ganswindt / Georg Oberdorfer Die regionalsprachlichen Tonkorpora des Forschungszentrums Deutscher Sprachatlas ............................................................................................................................. 189 Anne Kruijt / Stefan Rabanus / Marta Tagliani The VinKo Corpus Oral data from Romance and Germanic local varieties of Northern-Italy .............. 203 Sabine Hachmeister / Sandra Tietjens / Rebekka Wanka / Charlotte-Stehr / Michael Becker-Mrotzek Forschungsdatenbank Lernertexte (FD-LEX) ................................................................ 213 Yuan Li / Zekun Wu Chinesisches Deutschlerner-Korpus (CDLK) Ein umfangreiches Korpus mit Mehrebenen-Annotation und multidimensionalen-Metadaten ........................................................................................ 223 Reiner Konrad / Julian Bleicken / Calvin Khan / Amy Isard / Gabriele-Langer / Anke Müller / Marc Schulder Deutsche Gebärdensprache zugänglich und nutzbar-machen Das Öffentliche DGS-Korpus und das Digitale Wörterbuch der-Deutschen-Gebärdensprache ...................................................................................... 237 <?page no="7"?> MARC KUPIETZ/ THOMAS SCHMIDT Einleitung Die Methodenmesse der IDS-Jahrestagung 2022 Korpora in der germanistischen Sprachwissenschaft-- schriftlich, mündlich, multimedial unterschied sich in einigen Punkten von ihren Vorgängern, die unter leicht variierenden Namen seit 2016 fester Bestandteil des Jahrestagungsprogramms sind. Angesichts der bereits vergleichsweise starken methodischen Ausrichtung der Hauptkonferenz wollten wir die Gelegenheit nutzen, um auf Aspekte einzugehen, die sonst auf germanistischen Tagungen höchstens am Rande Erwähnung finden, aber eine Voraussetzung für eine empirisch fundierte Sprachwissenschaft bilden: methodische Aspekte von Korpusdesign, Datenerhebung, und Korpusangeboten. Um ein möglichst breites Angebot zu erhalten und nichts außer Acht zu lassen, was uns noch vielleicht nicht bekannt war, beschlossen wir außerdem, bei dieser Messe die Ausstellerinnen und Aussteller nicht direkt einzuladen, wie es sonst im Rahmen der IDS-Jahrestagungen üblich war, sondern einen offenen Call for Abstracts an die einschlägigen Mailinglisten zu schicken. Von der Reaktion auf unseren Aufruf waren wir geradezu überwältigt. Wir erhielten über 50 Einreichungen, von denen mindestens 50 so relevant, qualitativ hochwertig und interessant waren, dass wir sie liebend gern angenommen hätten. Da dies den Rahmen der Messe und der Jahrestagung gesprengt hätte, entschieden wir uns, Aktualität und tatsächliche aktuelle Verwendbarkeit als Auswahlkriterien einzubeziehen und zumindest 20 statt der bisher maximal 10 Aussteller*innen einzuladen. Außerdem wollten wir den einzelnen Beiträgen aufgrund ihrer hohen methodischen Qualität mehr Platz zur Darstellung einräumen als dies bisher im Rahmen der Veröffentlichung der Jahrestagungsbände üblich war und das breite Spektrum der Einreichungen möglichst gut abbilden. Die beiden weiteren Herausgeber der CLIP-Reihe, Christian Mair und Harald Lüngen waren leicht zu überzeugen, dass diese Methodenmesse ideal zum Konzept der Reihe passt. Entsprechend freuen wir uns, im Folgenden 17 Beiträge präsentieren zu können, die 18 der 20 Methodenmessepräsentationen abdecken. Im ersten Teil geht es um aktuell erweiterte und kuratierte historische Korpora. Sarah Ihden, Gohar Schnelle, Ingrid Schröder und Lars Erik Zeige stellen den Verbund Deutsch Diachron Digital (DDD) vor, der u.a. die Referenzkorpora Altdeutsch, Mittelhochdeutsch, Frühneuhochdeutsch, Mittelniederdeutsch/ Niederrheinisch vereinigt und damit eine Zeitspanne vom 8. bis zum 17.-Jahrhundert abdeckt. Dabei gehen sie auf Gemeinsamkeiten und Unterschiede im Hinblick auf sprachstufen- und damit korpusübergreifende Analysen sowie auf den Umgang mit Varianz und Ambiguität ein und beschreiben einige auf den Korpora basierende Forschungsprojekte sowie die Strategie des Verbundes für eine nachhaltige Ressourcenentwicklung. DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="8"?> MARC KUPIETZ/ THOMAS SCHMIDT 8 Im folgenden Beitrag stellen Patricia Scheurer, Raphael Müller, Bernard Schroffenegger, Phillip Ströbel, Benjamin Suter und Martin Volk vom Institut für Computerlinguistik der Universität Zürich ein Briefwechsel-Korpus mit Briefen aus dem 16.- Jahrhundert von und an den Zürcher Reformator Heinrich Bullinger vor. Sie gehen dabei auf methodische Aspekte der Transkription, der Code-Switch-Erkennung, der Normalisierung und auf korpuslinguistische Anwendungsaspekte ein. Den Auftakt zur Abteilung gegenwartssprachliche Korpora geschriebener Sprache machen Amelie Dorn, Jan Höll, Theresa Ziegler, Wolfgang Koppensteiner und Hannes Pirker mit ihrem Beitrag zum Austrian Media Korpus (amc) und seinen Potenzialen für die Linguistik. Die Autor*innen thematisieren dabei insbesondere die Relevanz von Abdeckung und Umfang des Korpus, seine Annotationsschichten und Nutzungsmöglichkeiten, die sie in zwei Fallstudien zum orthografischen Wandel und zur Wortbildungsvariation exemplifizieren. Im Folgenden stellt Simon Meier-Vieracker seine multilingualen Korpora zur Fußballlinguistik vor, die über eine CQPweb-Plattform zugänglich sind und linguistisch annotierte Texte der internetbasierten Berichterstattung in 13 europäischen Sprachen enthalten. Der Beitrag erläutert die Konzeption und Umsetzung des Korpus und umreißt anhand von Beispielen Nutzungsmöglichkeiten im Kontext linguistischer Fußballforschung und im Hinblick auf Fragestellungen aus der Emotionsforschung und Raumlinguistik. Als nächstes präsentieren Sarah Jablotschkin und Heike Zinsmeister das mehrebenen-annotierte Vergleichskorpus für Leichte Sprache LeiKo. Nach einer kurzen Einführung in Leichte und Einfache Sprache beschreiben sie Konzeption und Erstellung des Korpus und demonstrieren mögliche Anwendungsbereiche anhand einer Beispielstudie zur Vorfeldbesetzung. Den folgenden Teil zur Social-Media-Kommunikation beginnen Tatjana Scheffler, Lesley-Ann Kern und Hannah Seemann von der Ruhr-Universität Bochum mit einem Beitrag zur Analyse individueller linguistischer Variabilität in sozialen Medien anhand des vorgestellten multimedialen Textkorpus TwiBloCoP (Twitter+Blog Corpus-- Parenting), das für diese Zwecke besonders gut geeignet und bzgl. ausgewählter Modalpartikel und Intensivierer manuell annotiert ist. Im folgenden Artikel präsentiert Louis Cotgrove neue Möglichkeiten zur Erforschung der digitalen Jugendsprache anhand seines Korpus NottDeuYTSch ( Nott inghamer Korpus deu tscher Y ou T ube- S pra ch e). Er erläutert dabei insbesondere interessante Aspekte der Sampling-Methodik, z.B. um möglichst gezielt die Sprache von Jugendlichen abzubilden sowie außerdem thematische Domänen und den Zeitraum zwischen 2008 und 2018 möglichst breit und ausgewogen abzudecken. Anschließend stellen Eckhard Bick und Klaus Geyer das deutsch-dänische XPEROHS- Korpus vor, das als Datengrundlage für ein Projekt zur vergleichenden Analyse von <?page no="9"?> EINLEITUNg 9 Hassrede in sozialen Medien mit Material aus Twitter und Facebook aufgebaut wurde. Neben dem Korpusdesign beleuchten sie dabei insbesondere die spezielle Methodik zur Erkennung und Auszeichnung von Hassrede, zugrundeliegende Herausforderungen wie das Parsing von nicht-redigierten CMC-Texten, spezielle Anforderungen an die Sentimentanalyse und die zur Exploration und Auswertung der Daten propagierte Methodik eines iterativen Wechsels zwischen quantitativer Auswertung und qualitativer Inspektion. Den Schluss zum Social-Media-Teil bilden Julia Krasselt, Philipp Dreesen, Matthias Fluor, Klaus Rothenhäusler von der Zürcher Hochschule für Angewandte Wissenschaften (ZHAW) mit ihrem Beitrag zur Korpusfamilie Swiss-AL, die neben Social- Media-Daten auch Texte aus anderen Medien enthält und darauf abzielt, öffentlich Diskurse, sowohl was das Medium als auch was relevante Akteursgruppen betrifft, möglichst breit abzubilden. Im Text werden die speziellen Design-Prinzipien und Ziele erläutert und Aufbereitungs- und Annotationspipeline sowie die vielfältigen Analysemöglichkeiten, die die Swiss-AL-Workbench bietet, detailliert beschrieben. Der vierte Teil umfasst fünf Beiträge, die sich mit Korpora gesprochener Sprache auseinandersetzen. Zunächst stellen Katharina Korecky-Kröll, Anja Wittibschlager, Markus Pluschkovits, Florian Tavernier, Johanna Fanta-Jende, Rita Stiglbauer, Jakob Bal, Katharina Kranawetter und Rebecca Stocker vom Spezialforschungsbereich „Deutsch in Österreich“ das Korpus ‚Deutsch in Österreich. Variation-- Kontakt-- Perzeption‘ vor und gehen dabei außer auf Aspekte der Erhebung und Aufbereitung auch auf Möglichkeiten der kollaborativen Arbeit mit dem Korpus ein, für die der SFB eigene Tools entwickelt hat. Mit dem Berlin Dialogue Corpus (BeDiaCo) und dem Corpus of non-native addressee register (CoNNAR) beschreiben anschließend Malte Belz, Bianca Sell, Robert Lange, Megumi Terada, Christine Mooshammer und Anke Lüdeling von der Humboldt-Universität zu Berlin zwei Korpora, in denen themen- und aufgabenorientiert spontansprachliche Dialoge elizitiert und durch feinkörnige Annotation auf mehreren Ebenen erschlossen wurden. Zwei Anwendungsbeispiele illustrieren, wie die Korpora als empirische Basis zur Untersuchung von Artikulationsgeschwindigkeit und Füllwörtern dienen. Im Beitrag „Die Korpora IS, ISW und ISZ der AGD/ DGD“ befassen sich Anne Betten, Carolina Flinz und Simona Leonardi mit den Korpora zum Emigrantendeutsch in Israel, die seit vielen Jahren am Archiv für Gesprochenes Deutsch (AGD) archiviert und kuratiert werden und über die Datenbank für Gesprochenes Deutsch (DGD) zugänglich sind. Neben Informationen zur Entstehungsgeschichte der drei Datensammlungen geht der Artikel auch auf verschiedene Untersuchungen zur Gesprächs- und Erzählanalyse ein, die anhand der narrativ-biographischen Interviews durchgeführt wurden. <?page no="10"?> MARC KUPIETZ/ THOMAS SCHMIDT 10 Mit dem Repositorium des Forschungszentrums Deutscher Sprachatlas beschreiben Hanna Fischer, Brigitte Ganswindt und Georg Oberdorfer das zentrale Instrument, mit dem am Forschungszentrum Deutscher Sprachatlas in Marburg regionalsprachliche Korpora des Deutschen und weitere historische Materialien aus der fast 150-jährigen Geschichte der Einrichtung digital archiviert und erschlossen werden. Der Bogen spannt sich dabei von den ab den 1950er Jahren auf Tonträgern festgehaltenen Wenker-Sätzen bis zu neueren Erhebungen wie denen des Projekts regionalsprache. de (REDE). Den Teil zu den mündlichen Korpora abschließend stellen Anne Kruijt, Stefan Rabanus und Marta Tagliani das VinKo-Korpus vor. Bei den im Akronym thematisierten „Varietäten im Kontakt“ handelt es sich um Nicht-Standard-Varietäten romanischer und germanischer Sprachen, die in der Region Südtirol gesprochen werden. Der Beitrag geht neben Design und Inhalt des Korpus auch auf die Infrastruktur ein, die das Projekt entwickelt hat, um Daten im Crowd-Sourcing-Verfahren zu erheben. Im letzten Teil geht es um Lernerkorpora und ein Gebärdensprachekorpus. Zunächst stellen Sabine Hachmeister, Sandra Tietjens, Rebekka Wanka, Charlotte Stehr und Michael Becker-Mrotzek vom Mercator-Institut für Sprachförderung und Deutsch als Zweitsprache in Köln FD-Lex vor: eine seit 2018 auf inzwischen mehrere Tausend Texte angewachsene Datenbank, die Daten aus Schreibforschungsprojekten für die wissenschaftliche Nachnutzung aufbereitet und zur Verfügung stellt. Die Autor*innen gehen dabei auf Aufbau, Recherchemöglichkeiten, Aufnahmekriterien und ein Wortschatzprojekt ein, welches die FD-LEX-Daten nutzt. Im Folgenden stellen Yuan Li und Zekun Wu das Chinesische Deutschlerner-Korpus CDLK vor, in dem in aufeinanderfolgenden Lernphasen im Unterricht handschriftlich verfasste Texte von chinesischen DaF-Schüler*innen und -Studierenden archiviert sind. Sie gehen dabei auf CDLK’s Mehrebenenannotationen, multidimensionalen Metadaten, Korpus-Design, Datenaufarbeitung sowie auf erste Untersuchungen ein, die anhand des Korpus durchgeführt wurden, und demonstrieren seine vielseitige Nutzbarkeit für Fragestellungen im Bereich L2-Erwerb. Das Finale des Bandes bestreiten Reiner Konrad, Julian Bleicken, Calvin Khan, Amy Isard, Gabriele Langer, Anke Müller und Marc Schulder vom Institut für Deutsche Gebärdensprache und Kommunikation Gehörloser an der Universität Hamburg. In ihrem Beitrag zum Öffentlichen Deutschen Gebärdensprache-Korpus und zum Digitalen Wörterbuch der Deutschen Gebärdensprache zeigen die Autor*innen, nach einer Vorstellung des DGS-Korpus-Dauerprojekts und der zugrundeliegenden Datenerhebung und -aufbereitung, wie Korpus und Lexikon über verschiedene Portale bzw. Forschungswerkzeuge genutzt werden können und welche Funktionalitäten dabei jeweils zur Verfügung stehen. <?page no="11"?> SARAH IHDEN/ gOHAR SCHNELLE/ INgRID SCHRÖDER/ LARS ERIK ZEIgE Der Verbund ‚Deutsch Diachron Digital-- Referenzkorpora zur deutschen-Sprachgeschichte‘ Strategien der Erschließung, Analyse und nachhaltigen Nutzung historischer-Sprachdaten Abstract Der Verbund ‚Deutsch Diachron Digital‘ vereint die Referenzkorpora Altdeutsch, Mittelhochdeutsch, Frühneuhochdeutsch, Mittelniederdeutsch/ Niederrheinisch und Deutsche Inschriften, die aufgrund ihres Umfangs, ihrer Struktur sowie der enthaltenen Annotationen und Metadaten eine zentrale Ressource für die Erforschung der deutschen Sprachgeschichte darstellen. Im folgenden Beitrag wird zunächst der DDD-Verbund vorgestellt, bevor auf Gemeinsamkeiten und Unterschiede der Referenzkorpora mit Blick auf sprachstufen- und damit korpusübergreifende Analysen sowie auf den Umgang mit Varianz und Ambiguität eingegangen wird. Darüber hinaus werden auf den Korpora basierende Forschungsprojekte sowie die Strategie des Verbundes für eine nachhaltige Ressourcenentwicklung beschrieben. Keywords: corpus linguistics, High German, historical linguistics, language variation, grammatical annotations, Low German 1. Einleitung: Der DDD-Verbund Im Verbund ‚Deutsch Diachron Digital-- Referenzkorpora zur deutschen Sprachgeschichte‘ werden die ursprünglich DFG-geförderten Referenzkorpora zur deutschen Sprachgeschichte bereitgestellt, kuratiert und weiterentwickelt. - Referenzkorpus Altdeutsch (ReA; Berlin, Frankfurt, Jena; 2008-2015; 0,5-Mio.-Token) - Referenzkorpus Mittelhochdeutsch (ReM; Bochum, Bonn; 2009-2017; 2,5-Mio.-Token) - Referenzkorpus Frühneuhochdeutsch (ReF; Bochum, Halle, Potsdam; 2011-2019; 3,5 Mio. Token) - Referenzkorpus Mittelniederdeutsch/ Niederrheinisch (ReN; Hamburg, Münster; 2013-2019; 2,3 Mio. Token) - Referenzkorpus Deutsche Inschriften (ReDI; Bochum, Mainz; 2014-2016; 0,5-Mio. Token) DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="12"?> SARAH IHDEN/ gOHAR SCHNELLE/ INgRID SCHRÖDER/ LARS ERIK ZEIgE 12 Diese Ressourcen stellen erstmals Texte in deutscher Sprache vom Ende des 8. bis zur Mitte des 17.-Jahrhunderts als linguistisch tiefenannotierte und nach Raum, Zeit und Genre strukturierte Korpora in einem Gesamtumfang von 9,3-Mio. Token und mit reichhaltigen Metadaten zur Verfügung. Die einbezogenen Texte dokumentieren dabei wesentliche Teile der Sprach-, Literatur- und Kulturgeschichte Deutschlands und Europas, darunter viele Denkmäler, die über Editionen bislang nicht oder nur sehr schwer zugänglich sind. Diese Datengrundlage ermöglicht es, einzelne grammatische Merkmale und systemische Beziehungen sowohl innerhalb von Zeitschnitten als auch in ihrer diachronen Entwicklung empirisch zu untersuchen, Erscheinungsformen des Sprachwandels zu erschließen und seine Triebkräfte zu ermitteln. In Umfang und Annotationstiefe bilden die Korpora eine zentrale Ressource für die quantitative historische Linguistik des Deutschen. Aufbau und Annotation der Korpora sind nicht auf spezifische Forschungsfragen oder sprachwissenschaftliche Paradigmen ausgerichtet. Als ‚Referenzkorpora‘ sollen sie gewährleisten, dass relevante Belegstellen der historischen Quellen durch geeignete Suchabfragen präzise, umfassend und nach allgemein akzeptierten grammatischen Begriffen gefunden werden können. Das ReM, ReF und ReN sind hierfür als strukturierte Korpora angelegt worden, die ihre Sprachstufe in einem Raster aus Sprachräumen, Zeitschnitten und Textgenres in relevantem Umfang widerspiegeln, soweit hierfür ausreichend Textzeugen überliefert sind. Das ReA erfasst hingegen die altdeutsche Textüberlieferung vollständig, das ReDI alle bisher dokumentierten und über ‚Deutsche Inschriften Online (DIO)‘ verfügbaren deutschsprachigen Inschriften bis 1650. Für das ReM, ReF und ReN wurden die Quellen vorlagengetreu neu ediert, das ReA basiert auf den besten verfügbaren, handschriftengetreuen Editionen und das ReDI auf der Digitalisierungsarbeit von DIO. Zur Funktion als ‚Referenzkorpora‘ gehört außerdem der niedrigschwellige Zugang: Alle Korpora sind weltweit webbasiert, kostenfrei und ohne Anmeldung über die Such- und Visualisierungsplattform ANNIS (Krause 2019; Krause/ Zeldes 2016) zugänglich, außerdem werden Korpusdaten und Software in Repositorien frei zur Verfügung gestellt. Die Referenzkorpora unterstützen so die datenbasierte sprachgeschichtliche Forschung zum Deutschen im In- und Ausland. Um die fünf Korpora ist eine lebendige Fachgemeinschaft aus den Korpusprojekten, die heute als Verbund ‚Deutsch Diachron Digital‘ in einer ‚föderalen‘ Struktur zusammenarbeiten, und den Nutzerinnen und Nutzern, die die Korpora auswerten und über die Ergebnisse in Diskussion treten, entstanden. In diesem Artikel möchten wir deshalb zum einen Gemeinsamkeiten und Unterschiede der Referenzkorpora (Kap.-2) und ihren Umgang mit Varianz und Ambiguitäten (Kap.-3) genauer beschreiben, zum anderen Beispiele für die Auswertung und neue Projekte erläutern (Kap.-4). Kapitel-5 schließlich stellt unser Konzept vor, wie Ressourcen nach <?page no="13"?> DER VERBUND ‚DEUTSCH DIACHRON DIgITAL‘ 13 einer ausgelaufenen Projektförderung nachhaltig entwickelt und genutzt werden können. 2. Metadaten, Textdarstellung und Annotationen Da die Referenzkorpora zur deutschen Sprachgeschichte aufgrund von Kooperationen innerhalb des Verbundes ‚Deutsch Diachron Digital‘ methodisch aufeinander abgestimmt sind, weisen sie in der Metadatenerfassung sowie der Textdarstellung und der Annotation wesentliche Gemeinsamkeiten auf, die für gezielte Suchabfragen in mehreren Korpora zum Zwecke sprachstufenübergreifender Analysen genutzt werden können. Im Folgenden sollen exemplarisch solche Gemeinsamkeiten, aber auch Unterschiede, die mit den spezifischen Ausprägungen der jeweiligen Sprachstufe zusammenhängen, vorgestellt werden. 1 2.1 Metadaten Der Metadatenerfassung liegt in den Referenzkorpora ein ähnliches Schema zugrunde, das Informationen zum Entstehungskontext, zu weiteren quellenrelevanten Aspekten (z. B. Aufbewahrungsort des Originals, Editionen und weiterführende Forschungsliteratur) sowie zur Bearbeitung (z. B. Umfang des aufgenommenen Textes/ Ausschnitts, Name der Bearbeiterinnen und Bearbeiter, Hinweise zum Vorgehen der Transkription und Annotation) erfasst. Bezeichnung und Format der Metadaten können jedoch in geringem Umfang Abweichungen aufweisen. Die Übersicht in Tabelle-1 veranschaulicht anhand von Beispieltexten einige zentrale Kategorien, die vergleichsweise häufig für die Suche im Korpus sowie für die Erstellung eines eigenes Subkorpus herangezogen werden. 1 Die Ausführungen beziehen sich jeweils auf die folgenden Korpusversionen: ReA 1.1, ReM 1.0, ReF 1.0 und ReN 1.1 (siehe Literaturverzeichnis) sowie eine lokale Vorversion des ReDI. <?page no="14"?> SARAH IHDEN/ gOHAR SCHNELLE/ INgRID SCHRÖDER/ LARS ERIK ZEIgE 14 ReA ReM ReF ReN ReDI doc T_Tat57 annis: doc M089-G1 annis: doc F088 annis: doc Lüb._Bug._ Bibel_1534 annis: doc I029-525A - abbr_ddd BaGB abbr_ddd MainNat abbr_ddd Lüb. Bug. Bibel 1534 abbr_ddd DI 29 Worms Nr. 525A text Tatian text Bamberger Glaube u. Beichte text Naturlehre Mainau text_ReN Lübecker Bibel, sog. Bugenhagen- Bibel, Lübeck: Ludwig Dietz 1533 [1534] text Grabinschrift Otilia Demerten dialect ofrk. language-area ostfränkisch language-area hochalemannisch language-area luebisch dialect - - languageregion nordoberdeutsch languageregion westoberdeutsch - languageregion Worms language-area obd. language-type oberdeutsch language-type oberdeutsch language-type niederdeutsch language-type hochdeutsch time 9.1 time 12 time 14,2 time 16/ 1 time 16,2 - medium Handschrift medium Handschrift medium Druck medium Grabstein form Prosa genre P genre P genre P genre P topic Religion topic Religion text-type RE topic Religion topic Alltag - - - topic_ReN K - Tab.-1: Ausgewählte Metadatenkategorien (Fettdruck) und -inhalte im Vergleich Legende: P-= Prosa, RE-= Realientexte, K-= geistliche Schriftlichkeit (Religion) <?page no="15"?> DER VERBUND ‚DEUTSCH DIACHRON DIgITAL‘ 15 Viele der oben aufgeführten Kategorien sind konzeptuell ähnlich angelegt, beispielsweise die Bezeichnung des Textes in einer nach außen transparenten Benennung sowie einer formalisierten Dokumentangabe (z. B. Naturlehre Mainau ggü. F008), die Erfassung des Zeitraums in Form z. B. von Jahrhunderthälften und die Angabe des Sprachraums in unterschiedlicher Tiefe (z. B. oberdeutsch ggü. hochalemannisch). Bei der Textart sowie dem Textbereich zeigt sich eine stärkere Heterogenität der Daten. Innerhalb der Kategorie form (ReA) bzw. genre (ReM, ReF, ReN und ReDI) wird basierend auf der Struktur des Korpus der Mittelhochdeutschen Grammatik (MiGraKo) im Wesentlichen zwischen den Überlieferungsformen Prosa, Vers und Urkunde unterschieden. Das ReA enthält daneben die differenziertere Angabe Stabreim sowie die Kombinationen Prosa, Vers und Stabreim, Prosa, das ReM eine Kombination der Textarten in der Form PV. Das ReF unterscheidet zusätzlich zwischen T für Text und F für Flugschrift. Der Textbereich wird im ReA, ReM, ReN und ReDI unter topic erfasst, im ReF unter text-type. Das ReA und das ReM enthalten hier die Einträge Alltag, Literatur, Poesie, Recht, Religion und Wissenschaft; das ReN und ReDI orientieren sich ebenfalls daran, verzichten jedoch auf die Gruppe Literatur. Das ReF nimmt statt dieser Klassifikation eine Einteilung in Rechts- und Geschäftstexte (RG), chronikalische und Berichtstexte (CB), Realientexte (RE), unterhaltende Texte (UN), kirchlich-theologische Texte/ Bibeln (KT) sowie erbauliche Texte (EB) vor. Im ReN wird zusätzlich in der Kategorie topic_ReN zwischen den sogenannten Feldern der Schriftlichkeit unterschieden: Verwaltung (V), Recht (R), Urkunden (U), Wissensvermittlung (W), Geistliche Schriftlichkeit (Religion) (K), Literatur (L), Private Schriftlichkeit und Korrespondenz (P), Inschriften (I). Derartige systematische, aber auch rein formale Abweichungen zwischen den Korpora müssen von den Nutzerinnen und Nutzern berücksichtigt werden, um das Potenzial von Metadaten einschließenden Suchabfragen voll ausschöpfen zu können. 2.2 Textdarstellung und Annotationen Typische Suchabfragen sind auf Wortformen, Lemmata oder grammatische Annotationen ausgerichtet. Diese Daten sind in den Annotationsebenen der Referenzkorpora in spezifischer Weise organisiert, wobei auch hier sowohl Gemeinsamkeiten als auch Unterschiede bestehen, die in Tabelle-2 verdeutlicht sind. <?page no="16"?> SARAH IHDEN/ gOHAR SCHNELLE/ INgRID SCHRÖDER/ LARS ERIK ZEIgE 16 ReA ReM ReF ReN ReDI Text edition ze_énde text ze_ énde tok_dipl Uór tok_anno Uor norm vore tok_dipl gehorſam tok_anno gehorsam tok_dipl int tok_anno in t token in§t tok_dipl V_ERSCHIE= DEN tok_anno VERSCHIEDEN Lemma lemma enti translation Ende lemma vor(e) lemmaId 213246000 lemmaLemma 2 vor(e) lemma gehorsam lemmaId GG05091 lemma_wsd bôk¹ lemma bôk lemma_ simple bok lemma_var up,uppe lemma verscheiden lemmaId GV03483 PoS pos NA posLemma NA pos APPR posLemma AP pos ADJD posLemma ADJ pos NA posLemma NA pos VVPP posLemma VV Flex.morphologie inflection SG_DAT inflection- Class JA_NEUT inflection- ClassLemma JA_NEUT inflection Dat.Pl inflection- Class st.Neut inflection- ClassLemma st.Neut inflection Pos.*.*.* morph Neut.Nom.Sg inflection - Satzeinheiten 3 clause CF_U_M [als Spanne] punc DE [am Token] tok_anno (.) [zusätzl. Token] bound_sent Satz [als Spanne] tok_anno (.) [zusätzl. Token] Tab.-2: Text- und Annotationsebenen und -inhalte im Vergleich Legende: wsd- = word sense disambiguation (=- Homonymendifferenzierung); JA_NEUT-= Substantiv der ja-Stämme, Neutrum; CF_U_M-= Satzspanne mit finitem Verb_uneingeleitet_Hauptsatz, DE-= Deklarativsatz 2 Zur Abgrenzung zwischen dem belegspezifischen Lemma (lemma) und dem allgemeinen Lemma (lemmaLemma) siehe Klein/ Dipper (2016, S.-12): „In den meisten Fällen sind beide identisch. Bei Pronominaladverbien und Partikelverben erhält das Beleg-Lemma die entsprechenden Zusätze (z. B. kann dem allgemeinen Lemma dâr das Beleg-Lemma dâr/ +hin(e) entsprechen […])“. 3 Die Referenzkorpora wurden mit einem Fokus auf Lexik und Morphologie entworfen, antworten aber auch auf die Bedürfnisse nach syntaktischen Annotationen, indem Satzeinheiten markiert und teilweise mit zusätzlichen Informationen (z. B. zu Einleitung oder Satzart) versehen sind. Daneben stehen für einen Teil des ReF syntaktische Annotationen in einer Baumbank in ANNIS zur Verfügung (vgl. Demske 2019). <?page no="17"?> DER VERBUND ‚DEUTSCH DIACHRON DIgITAL‘ 17 Tabelle-2 lässt eine Reihe von Gemeinsamkeiten erkennen, beispielsweise das Vorhandensein quellenorientierter und normalisierter Textebenen. Dabei folgt die Textebene tok_dipl dem Original bzw. edition der handschriftengetreuesten Edition. Die Ebene tok_anno bzw. text normalisiert die Schreibung im Bereich der Getrennt- und Zusammenschreibung, Groß- und Kleinschreibung oder Zeichenform (siehe Kap.-3). Bei der Lemmaannotation weisen das ReM, das ReF und das ReDI die stärkste Ähnlichkeit auf, indem sie neben dem auf dem jeweiligen Wörterbuch basierenden Lemma (lemma) auch eine eindeutige Referenz-ID angeben (lemmaId), über die eine Verlinkung ins jeweilige Online-Wörterbuch erfolgt. 4 Die größte Übereinstimmung in der Annotation liegt im Bereich der Wortarten, wo alle Korpora zwischen einer belegspezifischen Wortart (pos) und einer allgemeinen, d. h. lemmabasierten Wortart (posLemma) unterscheiden. 5 Das ReA, ReM, ReF und ReDI sind mit dem Historischen Tagset HiTS (vgl. Dipper et al. 2013) annotiert, im ReN wurde eine darauf aufbauende, modifizierte Variante, das Historische Niederdeutsch-Tagset HiNTS (vgl. Barteld et al. 2018) verwendet. Beide Tagsets enthalten auf der Wortartebene eine Reihe identischer Tags für die Auszeichnung derselben Einheiten, z. B. ADJA für ein attributives vorangestelltes Adjektiv. Daneben existieren auch Tags mit unterschiedlicher Extension. So sind beispielsweise im HiTS die potenziellen Auxiliarverben nhd. sein, werden und haben grundsätzlich als Auxiliarverb (VA…) annotiert, während im HiNTS je nach vorliegendem Kontext eine Annotation als entweder Auxiliarverb (VA…) oder Vollverb (VV…) erfolgt (vgl. Barteld et al. 2021, S.-29 f.; Herbers et al. 2021, S.-38). Darüber hinaus bestehen auch in den Tags selbst gewisse Unterschiede, vor allem im Bereich der Pronomen und Determinierer. Während das HiTS eine lemmabasierte Annotation von Pronomen, die ausschließlich in substituierender Position vorkommen, vornimmt (z. B. PI für ein Indefinitpronomen), sind Einheiten in dieser Stellung im HiNTS als Determinierer/ Pronomen (z. B. DPIS für ein Indefinitum) annotiert, um nicht vor der Auswertung des Korpus zu entscheiden, ob sie ausschließlich substituierend, d. h. als Pronomen im klassischen Verständnis, oder doch auch attributiv erscheinen können (vgl. Barteld et al. 2018, S.- 3941; Herbers et al. 2021, S.- 32). Wie diese Beispiele zeigen, erfordern die voneinander abweichenden Tagsets HiTS und HiNTS ein genaues Wissen um die 4 Im Fall des ReM handelt es sich um eine Verlinkung zur Lemmaliste des Mittelhochdeutschen Wörterbuchs Online (http: / / www.mhdwb-online.de/ , Stand: 24.10.2022), beim ReF und ReDI sind die Lemmata mit dem Deutschen Wörterbuch von Jacob und Wilhelm Grimm im Trierer Wörterbuchnetz (http: / / dwb.uni-trier.de/ de/ , Stand: 24.10.2022) verknüpft. 5 In den meisten Fällen handelt es sich bei posLemma um die Angabe der Wortart des Lemmas (z. B. ADJ für ein Adjektiv) oder bei einem Wortartwechsel um die Wortart des Ausgangslexems (z. B. bei einem adjektivisch verwendeten Partizip Präteritum VVPP), bei pos um die Wortart des Lexems im gegebenen syntaktischen Kontext (z. B. ADJA für attributives Adjektiv). <?page no="18"?> SARAH IHDEN/ gOHAR SCHNELLE/ INgRID SCHRÖDER/ LARS ERIK ZEIgE 18 jeweils gültigen Annotationsregeln, um ein falsches Verständnis der Tags und der von ihnen bezeichneten Einheiten und daraus resultierende Missinterpretationen von Wortartverteilungen in den Korpora zu vermeiden. 3. Normalisierung und Ambiguitäten Die Erstellung von Nichtstandardkorpora, zu denen auch die Referenzkorpora zur deutschen Sprachgeschichte gehören, erfordert einen reflektierten Umgang mit sprachlicher Variation und Ambiguität, da diese oft das eigentliche Forschungsinteresse darstellen. Für die korpuslinguistische Modellierung wird dabei eine methodisch konsequente und technisch eindeutige Operationalisierung angestrebt. Für die in den DDD-Korpora repräsentierten Sprachstufen und Sprachräume ist das Fehlen einer Normvarietät charakteristisch. Dies hat einerseits Auswirkungen auf die Beschaffenheit der sprachlichen Daten selbst, die auf allen grammatischen Ebenen von einer hohen und schwer zu systematisierenden Varianz geprägt sind. Andererseits erschwert das Fehlen einer Normvarietät auch die korpuslinguistische Operationalisierung im Umgang mit Variation. Eine wichtige Anforderung für die Erstellung technisch verarbeitbarer Daten ist die Sicherstellung von Konsistenz (vgl. Dipper/ Lüdeling/ Reznicek 2013, S.-72). Eine wesentliche Maßnahme im Annotationsprozess stellt hierfür die Normalisierung, d. h. die konsistente und transparente Homogenisierung heterogener Daten dar (vgl. Hirschmann 2019, S.-29). Dieser Schritt kann je nach Art der Daten und des Forschungsfokus auf allen grammatischen Ebenen erfolgen, von besonderer Bedeutung ist er aber bei der Segmentierung. Für die DDD-Korpora musste zunächst eine Segmentierung von Annotationseinheiten erfolgen, da die Wortschreibung in historischen Sprachstufen oft vom modernen Wortkonzept abweicht. Frühe Texte zeigen beispielsweise noch Phänomene der Loslösung von der Scriptura continua, bei der der ‚space between words‘ noch seine Funktion sucht (vgl. Saenger 1997, S.-30-51). Im Übergang von Schreibungen, die auf das Vorlesen orientiert sind, zu Schreibungen, die eine still lesende Texterfassung ermöglichen, sind Reflexe prosodischer Strukturen in der Schrift zu erkennen und silbische, morphologische und wortbezogene Spatiensetzung interagieren, wie in den folgenden Beispielen aus den Monseer Fragmenten im ReA v1.1. In Abbildung-1 sind mit Ga- sahhun ‚sie.sahen‘ und ga- forah- tun ‚sie.fürchteten.(sich)‘ (MF I, 3,21) Verbformen durch Spatien zerteilt, in Abbildung-2 hingegen ist in qualadea das Nomen quala ‚Qual‘ mit dem darauffolgenden Demonstrativum zusammengeschrieben (MF XXI, 33,12). Abb.-1: Segmentierung bei getrenntschreibung von Wortformen <?page no="19"?> DER VERBUND ‚DEUTSCH DIACHRON DIgITAL‘ 19 Abb.-2: Segmentierung bei Zusammenschreibung von Wortformen Vergleichbare Probleme treten auch in jüngeren Sprachstufen auf, etwa in der Getrennt- und Zusammenschreibung von Komposita oder Partikelverben in frühneuhochdeutschen oder mittelniederdeutschen Handschriften und Drucken. Die Annotation relevanter grammatischer Kategorien wie Flexionsklasse, Tempus, Modus, Numerus und Person für gasahhun in obigem Beispiel muss aber auf die Worteinheit Bezug nehmen. In einer Mehrebenen-Korpusarchitektur kann dieses Problem durch die Anlage getrennter Ebenen aufgelöst werden, einer vorlagengetreuen und einer normalisierten. Die Abbildungen zeigen die Ebenen edition und text des ReA. Auf diese Weise wird die grammatische Annotation vereinheitlicht, durch Entsprechungs- und Überlappungsoperatoren der Abfragesprache ist es aber auch möglich, die besondere Form der Belege zu adressieren. Die hohe Variabilität der Wortformen stellt auch jenseits der Segmentierung eine Herausforderung dar. Abbildung- 3 illustriert die Schreibungsvariation am Beispiel der Belege für das Demonstrativpronomen dër (Mask.Nom.Sg) in den althochdeutschen Subkorpora des ReA. ther, der, thie, Ther, dher, Thie, thér, Der, ter, the, đer, Dher, dér, Ter, daer, dẽr, de, dir, tér, Daer, Thér, đe, Tér, dær, thir Abb.-3: Schreibungsvarianten von ahd. dër (Mask.Nom.Sg), nach Häufigkeit Um etwa den Lautwandel und die graphematische Variation des Anlauts nachzuvollziehen, müssen alle Formen gefunden werden können, ohne sie vorab zu kennen. In einer Mehrebenen-Architektur wird dies über einen gemeinsamen Lemmaansatz in einer separaten Annotationsebene gelöst. Gegenwartssprachliche Nicht-Standard-Korpora greifen hierfür systematisch auf standardsprachliche Entsprechung zurück, die in normsetzenden Nachschlagewerken kodifiziert sind. Im historischen Kontext jedoch wäre eine Abbildung auf den neuhochdeutschen Standard in vielen Fällen überinterpretierend, verfälschend oder erst gar nicht möglich. Für die Sprachstufen der DDD-Korpora liegen umfangreiche Sprachstufenwörterbücher vor, die in die Funktion der Normalisierungsinstanz eintreten können. So sind etwa im ReA für die althochdeutschen Belege Splett (1993) oder im Fall des ReN das MNWB (1956 ff.) und ergänzend Lübben/ Walther (1888) verwendet worden. In Kapitel- 5 zum Projekt WoDia stellen wir dar, wie diese Ansätze zukünftig verbunden werden sollen. Eine Besonderheit enthält das ReM mit der Ebene norm. In Tradition des Normalmittelhochdeutsch stehen hier aus Lemma, grammatischer Annotation und handschriftlicher Wortform erschlossene ‚Normalformen‘ zur Verfügung (z. B. <?page no="20"?> SARAH IHDEN/ gOHAR SCHNELLE/ INgRID SCHRÖDER/ LARS ERIK ZEIgE 20 statt belegtem chosota: Lemma kôsen + Prät.Sg.3-= Normform kôsété; vgl. Klein/ Dipper 2016,-S.-8). Die Referenzkorpora sind nach Annotationsrichtlinien annotiert, die die Zuweisung einer eindeutigen Kategorie fordern. Um Grenzfälle geeignet erfassen zu können, werden verschiedene Strategien angewendet (vgl. Barteld et al. 2018; Dipper et al. 2013): - unterspezifizierte Tags, z. B. DDA (‚Determinierer, definit, artikelartig‘) im ReA für die sprachgeschichtliche Zwischenstellung von ahd. dër zwischen Demonstrativum und definitem Artikelwort; - Kombinationen mehrerer Merkmalswerte, z. B. MN.Dat.Sg im ReF für im Maskulinum und Neutrum mögliche Nominalformen im Dativ Singular; - Kombinationen von Merkmalen verschiedener Ebenen: In allen Referenzkorpora wird z. B. bei der Wortart-Annotation unterschieden zwischen der allgemeinen Wortart des Lemmas (posLemma) und der syntaktisch bestimmten Wortart des vorliegenden Belegs (pos), z. B. wird ein Partizip Präteritum in der Funktion eines Adjektivs auf der pos-Ebene als Adjektiv und auf der Ebene posLemma als Verb annotiert. Alle in diesem Kapitel aufgeführten Annotationsstrategien verfolgen das Ziel, den Nutzerinnen und Nutzern der Referenzkorpora eine Möglichkeit zu bieten, in sprachhistorisch vielschichtigen Beleglagen Phänomene der Variation und des Wandels gezielt zu suchen. 4. Forschungsprojekte auf Basis der Referenzkorpora Seit ihrer jeweiligen Publikation werden die Referenzkorpora intensiv genutzt und haben insbesondere innovative sprachgeschichtliche Forschungsprojekte angeregt. Für diese Projekte bilden sie die Grundlage der Datenerhebung und -auswertung, wobei die Annotationstiefe, Qualität und Flexibilität wichtige Argumente für die Nutzung darstellen. Aus dem Spektrum dieser Forschung greifen wir aus Gründen der Autorschaft Beispiele heraus, die in der Verantwortung der Korpusprojekte liegen, möchten aber zuvor auf andere Projekte verweisen: Der internationale Projektverbund ‚Constraints on Variation-- Noun Phrases in Early Germanic‘ (Norwegian Research Council grant no. 261847; 2017-2020) untersucht beispielsweise die Verteilung prä- und postnominaler Modifizierer in den altgermanischen Sprachen unter-anderem mit dem ReA (Petrova, Wuppertal). Das DFG-Projekt ‚Lizenzierungsbedingungen für deutsche Verbdrittsätze in der Diachronie‘ (DFG-Nr. 376919537, 2017-2020; Petrova, Wuppertal) nutzt das ReA, ReM und ReN sowie das Bonner Frühneuhochdeutschkorpus (FnhdC). Auch individuelle Qualifikationsprojekte (Dissertationen z. B. Farasyn 2018; Flick 2020; Ihden 2020; Lemke 2020; Luxner 2020; <?page no="21"?> DER VERBUND ‚DEUTSCH DIACHRON DIgITAL‘ 21 Mittmann 2020; Habilitationsschriften z. B. Zeige 2019); Zeitschriftenbeiträge (z. B. Hübener 2021; Kroiß 2021; Catasso et al. 2021; Catasso 2021a, 2021b; Coniglio et al. 2021; Farasyn/ Breitbarth 2016; Dipper/ Waldenberger 2017) und Projekte des forschungsbasierten Lehrens und Lernens nutzen die Referenzkorpora. Der Verbund ‚Deutsch Diachron Digital‘ möchte den Austausch zwischen den Auswertungsprojekten anregen und veranstaltet daher z. B. Workshops für Nutzerinnen und Nutzer (siehe Kap.-6). Auf der Unterseite ‚Auswertungsprojekte‘ der ReA-Webseite wird die Möglichkeit geboten, eigene Auswertungsprojekte vorzustellen. Im Folgenden greifen wir am Beispiel des ReA und ReN je ein Projekt für die Nachnutzung der Daten in neuen Forschungskontexten und eines für die interne Weiterentwicklung des Korpus heraus. Im Projekt ‚Bildgebende Verfahren zur Analyse des Referenzkorpus Altdeutsch‘ (Donhauser/ Zeige/ Schnelle/ Friesenhan/ Klotz, HU Berlin) wurden neue Verfahren erforscht, um die komplexen Belegdaten einer ReA-Abfrage zu visualisieren. So, wie ein Röntgenbild die Diagnose des Arztes unterstützt, sollen adäquate bildgebende Verfahren eine intuitive Mustererkennung erlauben. Die im Projekt entwickelten ‚chronographischen Karten‘ legen zunächst den Fokus auf die raumzeitliche Verteilung sprachlicher Phänomene. Es sind mehrere Kartentypen entstanden, die die sprachstufentypischen Probleme der Textdatierung und -verortung berücksichtigen: Bereits die Grundkarte, die die Textzeugen und ihre Textgrößen räumlich und zeitlich verortet, trägt erheblich zum Verständnis der Überlieferungslage des Altdeutschen bei. Dominanzkarten zeigen auf dieser Grundlage die vorherrschenden Ausprägungen einer Variable, Verteilungskarten erfassen das Vorkommen einzelner Varianten und Kumulationskarten können mehrere Merkmale vergleichend darstellen (letztere noch in Entwicklung). Die interaktiven Visualisierungen werden auf der ReA-Webseite präsentiert und sind in Donhauser/ Zeige (2019) beschrieben. Eine moderne, korpusbasierte Grammatikographie deutscher Sprachstufen haben Klein/ Solms/ Wegera (2009, 2018) für die Flexions- und Derivationsmorphologie des Mittelhochdeutschen vorgelegt. Auf Grundlage des ReM wird gegenwärtig Band-IV zur Syntax erarbeitet (mit Beteiligung von Wich-Reif). Eine gegenwärtigen methodischen und inhaltlichen Standards genügende Grammatik des Mittelniederdeutschen ist hingegen noch ein Desiderat. 6 Um diese Lücke zu schließen, wird seit Februar 2020 an der Universität Hamburg an der Erstellung einer neuen mittelniederdeutschen Grammatik gearbeitet (DFG-Nr. 433078928), zunächst beginnend mit der Flexionsmorphologie. Die geplante Gesamtgrammatik soll sämtliche Sprachebenen berücksichtigen und sich an den zentralen Prinzipien der Variationssensitivität und diasystematischen Differenziertheit sowie der Korpusbasiertheit ausrich- 6 Das sowohl in Forschung als auch Lehre herangezogene Standardwerk ist noch immer die Mittelniederdeutsche Grammatik von Agathe Lasch (1914/ 1974). <?page no="22"?> SARAH IHDEN/ gOHAR SCHNELLE/ INgRID SCHRÖDER/ LARS ERIK ZEIgE 22 ten (vgl. Ihden/ Schröder 2021, S.- 80-82). Dabei ist unter anderem der mögliche Einfluss außersprachlicher Faktoren wie der Entstehungszeit, des Sprachraums und der Textdomäne bzw. -sorte, wie sie durch das ReN verfügbar sind, zu prüfen und abzubilden. Insbesondere die im ReN erfolgte Auszeichnung formaler Ambiguitäten erlaubt einen möglichst vorannahmefreien Zugriff auf die sprachlichen Strukturen im Mittelniederdeutschen. So werden beispielsweise für die aktuellen Analysen zur Flexion der Appellativa lediglich solche Belege nach flexionsmorphologischen Aspekten weiter annotiert und schließlich ausgewertet, die im ReN eine eindeutige Kasusannotation aufweisen, während Substantive mit ambigem Kasus (z. B. Dat-Akk) nicht berücksichtigt werden. Erste Auswertungen belegen, dass die Daten des ReN variationssensitive Untersuchungen ermöglichen, die neue Einblicke in die Substantivflexion im Mittelniederdeutschen, unter anderem bezüglich diachroner Entwicklungen, liefern (vgl. z. B. zum Genitiv Singular der Maskulina Ihden/ Schröder 2021, S.-84-97). Seit Januar 2020 arbeitet der SFB- 1412 ‚Register‘ an der Humboldt-Universität zu Berlin (DFG-Nr. 416591334). Das Teilprojekt B04 (Norde/ Donhauser/ Zeige) erforscht die Entstehung und den Wandel von Registern im Althochdeutschen und Altschwedischen. In der ersten Projektphase liegt der Fokus auf zwei individuellen Autoren mit breiter Textproduktion: Notker- III. von St. Gallen und der Hl. Birgitta von Schweden. Die Schriften Notkers sind als Subkorpus des ReA bereits annotiert verfügbar. Zunächst wurde Notkers Psalter um projektspezifische Register-Annotationen ergänzt (vgl. z. B. funktionale Textabschnitte wie Übersetzung und Kommentar, sozial auf- oder abwärtsgerichtete Adressatenbeziehung). Die bisher nicht als annotiertes Korpus verfügbaren Schriften Birgittas werden hingegen nach dem Vorbild des ReA von Grund auf neu tokenisiert und annotiert. Beide Teilkorpora werden als ‚BiNoKo-- Birgitta-Notker-Korpus‘ versioniert veröffentlicht und vergleichend ausgewertet (z. B. Beier/ Schnelle/ Unverzagt im-Ersch.). Das ReA ist daher nicht nur Datengrundlage des Projekts, sondern liefert auch das ‚Schnittmuster‘, nach dem eine vergleichende Korpusressource aufgebaut wird. Um Wandelprozesse im Wortschatz nicht nur isoliert für die einzelnen Sprachstufen, sondern sprachstufenübergreifend betrachten zu können, soll im geplanten Projekt ‚Wortfamilien diachron (WoDia)- - Eine Forschungsumgebung zur historischen Wortbildung des Deutschen‘ 7 (Burch/ Gippert/ Ihden/ Plate/ Schröder) ein Instrument geschaffen werden, das den alt- und mittelhochdeutschen, altsächsischen und mittelniederdeutschen Wortschatz miteinander verknüpft. Jedes Lemma wird dabei seiner jeweiligen Wortfamilie (bzw. mehreren im Falle von Lemmata mit mehreren-Stämmen) zugeordnet, zudem machen hierarchisierte Strukturformeln die Wort- 7 Vorarbeiten liefern das Frankfurter Projekt ‚Epochenübergreifende Wortfamilienstruktur‘ (Gippert/ Plate; ZHistLex https: / / zhistlex.de/ ziele/ wortfamilien/ , Stand: 24.10.2022; BMBF) sowie Klein (2018). <?page no="23"?> DER VERBUND ‚DEUTSCH DIACHRON DIgITAL‘ 23 bildungseinheiten und -prozesse operationalisierbar (z. B. Er-bau-er (p(wV))sS- - Substantivableitung aus dem präfigierten Verbstamm). Die nach Raum, Zeit, Genre und Texten gegliederten und annotierten Referenzkorpora zur deutschen Sprachgeschichte bieten durch ihre Metadaten die Möglichkeit, Entwicklungen in der Wortbildung zu verorten. Die Lemmata der WoDia-Forschungsumgebung sollen daher sowohl mit den Referenzwörterbüchern des Trierer Wörterbuchnetzes 8 als auch mit den Referenzkorpora verlinkt werden. Eine online frei zugängliche (graphische) Anwendungsoberfläche soll verschiedene Optionen der Suche und Auswertung, z. B. in interaktiven Visualisierungen, bereitstellen. 5. Nachhaltige Ressourcenentwicklung Die fünf Referenzkorpora zur deutschen Sprachgeschichte sind in DFG-geförderten Projekten aufgebaut worden, die Mitte bis Ende der 2010er Jahre beendet wurden. Die Projekte des Verbunds ‚Deutsch Diachron Digital‘ haben daher im Nachgang eine Strategie zur nachhaltigen Ressourcenentwicklung aufgestellt, die die Aspekte institutionelle Verankerung, Community-Feedback und eine darauf aufbauende bedarfsorientierte Beantragung von neuen Projekten, einen offenen Zugang zu Daten und Software mit entsprechender Versionierung sowie Nutzungsförderung durch Schulungen und weitere Maßnahmen beinhaltet. Institutionelle Verankerung . Derzeit sind Kolleginnen und Kollegen von zehn deutschen Universitäten am Verbund beteiligt. Die mit den Korpora verbundenen Aufgaben werden in der Regel als Teil des Workloads der betreffenden Abteilungen durchgeführt. Im Fall des ReA ist es gelungen, diese Aufgaben explizit an eine unbefristete Stelle an der Humboldt-Universität zu Berlin zu binden und so die Korpusbetreuung langfristig abzusichern. Für einen nachhaltigen Umgang mit Forschungsdaten und -ressourcen ist es notwendig, dass die Pflege und Weiterentwicklung von Ressourcen, die durch öffentliche Gelder geschaffen wurden und sich im Forschungsprozess bewähren, als Daueraufgaben anerkannt werden. Zu diesen Aufgaben gehört es, als zweite Säule der institutionellen Verankerung korpusbezogene Drittmittelprojekte vorzubereiten, zu beantragen und durchzuführen. Community-Feedback . Die Verantwortlichen der Referenzkorpora setzen auf einen engen Austausch mit den Nutzerinnen und Nutzern. Auf den Projekt-Webseiten sind dafür Kontaktmöglichkeiten und Support-Funktionen eingerichtet. Zudem wurden in einem Workshop Nutzerinnen und Nutzer der Korpora gebeten, aktuelle mit den Referenzkorpora verknüpfte Forschungsprojekte vorzustellen und dabei auf Vorgehen und Probleme einzugehen sowie Vorschläge zu unterbreiten, wie die kon- 8 Vgl. https: / / woerterbuchnetz.de (Stand: 24.10.2022); im Zuge des Projekts sollen noch nicht enthaltene Referenzwörterbücher digitalisiert und über das Wörterbuchnetz zugänglich gemacht werden. <?page no="24"?> SARAH IHDEN/ gOHAR SCHNELLE/ INgRID SCHRÖDER/ LARS ERIK ZEIgE 24 krete Arbeit mit den Korpora verbessert werden kann. Aus den Diskussionsergebnissen wurden Ziele für die Weiterentwicklung der Ressourcen abgeleitet, unter anderem die bessere Erforschbarkeit der deutschen Sprachgeschichte im Längsschnitt über mehrere Referenzkorpora hinweg, eine Stärkung von Annotationen für Fragen- der Wortbildung und Syntax, die verbesserte Online-/ Offline-Nutzung der Korpusdaten, weitere Visualisierer für Abfrageergebnisse und die Diversifizierung der Schulungs- und Transferangebote. Strategische Entwicklungspläne . Die Projekte und der Verbund übernehmen die Aufgabe, aus den Bedarfen der Forschungscommunity strategische Entwicklungspläne zu formulieren. Das ReA arbeitet beispielsweise gegenwärtig an je einem kurz-, mittel- und langfristigen Entwicklungsziel: den Versionen 1.2, 2.0 und 3.0. Gerade veröffentlicht ist v1.2 (Zeige et al. 2022), mit einem Fokus auf technischen Entwicklungen im Bereich der Korpuslinguistik. Das ReA stellt dabei das Annotationsformat vom spezialisierten ELANauf das generische Tabellenkalkulationsformat um und kann so darauf verzichten, eine nur für das ReA betriebene Konvertierungspipeline in das Publikationsformat ANNIS zu nutzen und weiterentwickeln zu müssen. Für xlsx-Dateien existiert hingegen eine generische Konvertierungsoption als Teil der ANNIS-Welt. Version 1.2 wird auch die erste ReA-Version sein, die im neuen ‚ANNIS 4‘ veröffentlicht wird, bei dem ANNIS die bisherige PostgreSQL- Datenbankstruktur aufgibt und zu einer leistungsfähigeren graphbasierten Datenbankstruktur wechselt (‚graphANNIS‘, Krause 2019). Das ReA als ‚ältestes‘ Korpus des DDD-Verbunds hat damit eine grundlegende technische Modernisierung vollzogen, die sowohl entwicklerseitig den Annotations- und Veröffentlichungsprozess erheblich vereinfacht, als auch nutzerseitig eine höhere Abfragekomplexität, schnellere Ausführung von Suchabfragen und einen besseren Datenexport ermöglicht. Auf dieser Grundlage können für die folgenden Versionen neue linguistische Annotationen und Visualisierungen in Angriff genommen werden: in v2.0 die Darstellung von Glossen zu den im Korpus enthaltenen Sprachdenkmälern und in v3.0 der Aufbau umfassenderer syntaktischer Annotationen, für die bereits Trial-Annotationen zur Bestimmung geeigneter Annotationsschemata durchgeführt und getestet sind. Offener Zugang und Versionierung . Die den Referenzkorpora zugrunde liegenden Korpusdaten stehen webbasiert und frei für eine Weiternutzung durch die Forschungscommunity zur Verfügung (CC BY-NC-SA 3.0). Auch die Plattform ANNIS ist als Open-Source-Software zugänglich. Neben der Belegsuche ergibt sich daraus die Möglichkeit, die Referenzkorpusdaten in externen Projekten nachzuannotieren und zu veröffentlichen. Als Teil der Entwicklungspläne des Verbunds sollen zukünftig Möglichkeiten geschaffen werden, z. B. in Qualifikations- oder Drittmittelprojekten nachannotierte Versionen der Referenzkorpora mit klarer Zuweisung <?page no="25"?> DER VERBUND ‚DEUTSCH DIACHRON DIgITAL‘ 25 von Datenquellen, Vorarbeiten, Autorenschaft und Verantwortlichkeit im Umfeld der Referenzkorpora zu publizieren. Dieser Schritt dient der nachhaltigen und freien Veröffentlichung von Forschungsdaten sowie der Nachvollziehbarkeit von Forschungsergebnissen. Die Referenzkorpora können so langfristig als Anker für darauf aufbauende Projekte, die wiederum neue digitale Daten erzeugen, dienen. Ziel ist es, weitere Formen der Nachnutzung zu ermöglichen und die Interaktion mit den Datenbeständen zu stärken. Erste Beispiele sind das ‚Lesekorpus Altdeutsch‘ (LeA, Mittmann/ Plate 2019, https: / / titus.uni-frankfurt.de/ lea/ , Stand: 24.10.2022), das auf den Daten des ReA basiert und sie für eine philologische Nutzung neu visualisiert, oder das ‚Corpus of Historical Low German‘ (CHLG, Booth et al. 2020, www.chlg.ugent.be/ , Stand: 24.10.2022), das Daten des ReN verwendet und umfassende syntaktische Annotationen hinzufügt. Im DFG-Projekt ‚Freie und gebundene Variation in der Grammatik. Diachronie und Diatopik der Auxiliarvariation im Deutschen‘ (Gillmann/ Werth) soll eine mit projektspezifischen Annotationen angereicherte Version des ReN online frei zugänglich veröffentlicht werden. Schulung und Support, Transfer und Outreach . Das Feedback der Nutzerinnen und Nutzer zeigt, dass die Relevanz der Referenzkorpora als Forschungsinstrumente gerade in deren Komplexität und Flexibilität begründet ist. Daraus ergibt sich aber auch, dass die Handhabung der Instrumente als Teil der sprachwissenschaftlichen Ausbildung erlernt werden muss. Hierfür wurde der Wunsch geäußert, dass Informations- und Weiterbildungsangebote erweitert werden: einfache Nutzungsszenarien und Angebote für den Einsatz in der schulischen und akademischen Lehre, komplexe Nutzungsszenarien für die Forschung. In den kommenden Jahren möchte der Verbund daher seine Schulungsangebote ausbauen. Einführungen und Workshops werden als Präsenz- und Online-Veranstaltungen angeboten, Webseiten und Handbücher werden weiterentwickelt und um zeitgemäße Präsentationsformen (z. B. Online-Tutorials) erweitert, es werden wissenschaftlich begleitet neue Lernmaterialien entwickelt und bereitgestellt, die Korpora beteiligen sich zudem an Ausstellungen und Outreach-Projekten. Das ReN beispielsweise bietet Workshops zu Korpusstruktur, -visualisierung und -suche sowie konkreten Anwendungsperspektiven regelmäßig im Rahmen thematisch einschlägiger Konferenzen wie der Jahrestagung der Gesellschaft für germanistische Sprachgeschichte oder des Internationalen Arbeitskreises für Historische Stadtsprachenforschung an, um dort auf die Potenziale korpusbasierter Untersuchungen aufmerksam zu machen und den Kreis der aktiven Nutzerinnen und Nutzer des ReN zu erweitern. Ein Pilotprojekt in diesem Bereich ist auch ‚d4-- deutsch diachron digitale Didaktik‘ (Schnelle; von der HU Berlin im Rahmen der Förderung digitaler Lehre finanziert). Das Projekt entwickelt korpusbasierte Lehrmaterialien für den Unterricht in den historischen Sprachstufen des Deutschen, konzipiert sowohl für Lehrende als auch für Studierende (vgl. Schnelle/ Petrova/ Herbers 2022), um das nachhaltige Arbeiten mit den Korpusdaten (Daten- <?page no="26"?> SARAH IHDEN/ gOHAR SCHNELLE/ INgRID SCHRÖDER/ LARS ERIK ZEIgE 26 extraktion, eigene Analysearbeit, Verfügbarmachen von Ergebnissen und Datenständen) in der universitären Ausbildung als Teil der sprachwissenschaftlichen Praxis einzuüben. 6. Zusammenfassung Der Verbund ‚Deutsch Diachron Digital‘ und seine fünf Referenzkorpora zur deutschen Sprachgeschichte bieten durch ihren für historische Korpora sehr großen Umfang, die vielfältigen Metadaten und die tiefen grammatischen Annotationen einen zentralen datenbasierten Zugang zum Forschungsfeld der deutschen Sprachgeschichte. Verschiedene Ansätze der Normalisierung (z. B. auf der Ebene der Textdarstellung oder durch die Annotation von Lemmata) erleichtern den Zugriff auf die stark von Variation geprägten historischen Sprachdaten. Ein sich in den Annotationen niederschlagender reflektierter Umgang mit Ambiguitäten (z. B. die explizite Auszeichnung ambiger Formen) erlaubt es, insbesondere Forschungsfragen zu Variation und Wandel mithilfe der Korpusdaten zu bearbeiten. Dass sich die Referenzkorpora aufgrund dieser Merkmale besonders gut für Studien zur deutschen Sprachgeschichte eignen, belegen nicht nur die hier vorgestellten Projekte, in denen die Korpora nachgenutzt werden, sondern auch zahlreiche bereits entstandene Forschungsarbeiten, die auf den Korpusdaten basieren. Der DDD-Verbund und seine Mitglieder fungieren dabei als Ansprechpartner für Projekte, Forscherinnen und Forscher, Studierende und weitere Interessierte und übernehmen zudem die Verantwortung für die Nutzbarkeit und die Weiterentwicklung dieser für die historische germanistische Linguistik zentralen digitalen Ressourcen. Literatur Beier, Phil/ Schnelle, Gohar/ Unverzagt, Silke (im Ersch.): Intra-writer variation in Old High German and Old Swedish. The impact of social role relationship on constructing instructions. In: Schiegg, Markus/ Huber, Judith (Hg.): Intra-writer variation in Historical Sociolinguistics. (=- Historical Sociolinguistics. Studies on Language and Society in the Past). Berlin u. a.: Lang. Catasso, Nicholas (2021a): Verbspäterstellungen, komplexe Vorfelder und die linke Satzperipherie im Mittel- und Frühneuhochdeutschen. In: Sprachwissenschaft- 46,- 1, S.-35-70. Catasso, Nicholas (2021b): How theoretical is your (historical) syntax? Towards a typology of verb-third in Early Old High German. In: Journal of Comparative Germanic Linguistics-24,-1, S.-1-48. Catasso, Nicholas/ Coniglio, Marco/ De Bastiani, Chiara/ Fuß, Eric (2021): He then said …: (Understudied) deviations from V2 in Early Germanic. In: Journal of Historical Syntax- 5, S.-1-39. <?page no="27"?> DER VERBUND ‚DEUTSCH DIACHRON DIgITAL‘ 27 Coniglio, Marco/ De Bastiani, Chiara/ Hinterhölzl, Roland/ Weskott, Thomas (2021): In the right mood, in the right place: on mood and verb placement in Old Germanic subordinate clauses. In: Journal of Historical Syntax-5, S.-1-27. Dipper, Stefanie/ Lüdeling, Anke/ Reznicek, Marc (2013): NoSta-D: A corpus of German nonstandard varieties. In: Zampieri, Marcos/ Diwersy, Sascha (Hg.): Non-standard data sources in corpus-based research. (=-Schriften des Zentrums Sprachenvielfalt und Mehrsprachigkeit-der Universität zu Köln (ZSM)-5). Aachen: Shaker, S.-69-76. Donhauser, Karin/ Zeige, Lars Erik (2019): Bildgebende Verfahren zur Analyse des Referenzkorpus Altdeutsch: Das Konzept der chronographischen Karte. In: Nievergelt, Andreas/ Rübekeil, Ludwig (Hg.): athe in palice, athe in anderu sumeuuelicheru stedi. Raum und Sprache. Festschrift für Elvira Glaser zum 65.-Geburtstag. Unter Mitarbeit von Andi Gredig. (=-Germanistische Bibliothek-66). Heidelberg: Winter, S.-73-82. Farasyn, Melissa/ Breitbarth, Anne (2016): Nullsubjekte im Mittelniederdeutschen. In: Beiträge zur Geschichte der deutschen Sprache und Literatur-138,-4, S.-524-559. Flick, Johanna (2020): Die Entwicklung des Definitartikels im Althochdeutschen. Eine kognitiv-linguistische Korpusuntersuchung. (=- Empirically Oriented Theoretical Morphology and Syntax-6). Berlin: Language Science Press. Hirschmann, Hagen (2019): Korpuslinguistik. Eine Einführung. Berlin: Metzler. Hübener, Carlotta J. (2021): What does solid spelling reveal about cognition? Evidence from Middle Low German. In: Yearbook of the German Cognitive Linguistics Association-9,-1, S.-117-134. Ihden, Sarah (2020): Relativsätze im Mittelniederdeutschen. Korpuslinguistische Untersuchungen zu Struktur und Gebrauch. (=-Lingua Historica Germanica-23). Berlin/ Boston: De Gruyter. Ihden, Sarah/ Schröder, Ingrid (2021): Mittelniederdeutsche Grammatik: Konzeption und erste Analysen. In: Niederdeutsches Jahrbuch-144, S.-79-104. Klein, Thomas (2018): Mittelhochdeutsche Wortfamilien: Ermittlung und Perspektiven. In: Zeitschrift für Wortbildung-2,-1, S.-11-31. Klein, Thomas/ Solms, Hans-Joachim/ Wegera, Klaus-Peter (2009): Mittelhochdeutsche Grammatik. Teil-3: Wortbildung. Tübingen: Niemeyer. Klein, Thomas/ Solms, Hans-Joachim/ Wegera, Klaus-Peter (2018): Mittelhochdeutsche Grammatik. Teil-2: Flexionsmorphologie. Bd.-1-2. Berlin/ Boston: De Gruyter. Kroiß, Daniel (2021): Mittelhochdeutsche Sprachzeugnisse oder romantische Fälschungen? Zur Echtheitsfrage der Inschriften von Burg Wildenberg. In: Beiträge zur Geschichte der deutschen Sprache und Literatur-143,-2, S.-163-204. Lasch, Agathe (1914/ 1974): Mittelniederdeutsche Grammatik. (=-Sammlung kurzer Grammatiken germanischer Dialekte. A: -Hauptreihe-9). Tübingen: Niemeyer. Lemke, Ilka (2020): Das Komma. Zur syntaktisch-graphematischen Klassifikation des Zeichens im Sprach- und Schriftsystem des Deutschen und zur historischen Entwicklung aus <?page no="28"?> SARAH IHDEN/ gOHAR SCHNELLE/ INgRID SCHRÖDER/ LARS ERIK ZEIgE 28 formaler und funktionaler Perspektive. (=-Deutsche Sprachgeschichte. Texte und Untersuchungen-10). Berlin u. a.: Lang. Lübben, August/ Walther, Christoph (1888): Mittelniederdeutsches Handwörterbuch. Nach dem Tode des Verfassers vollendet von Christoph Walther. Norden/ Leipzig: Soltau. Luxner, Bernhard (2020): Die althochdeutschen Adjektive auf -aht(i)/ -oht(i). Eine diachron- und synchron-vergleichende Untersuchung. Diss. Jena: Philosophische Fakultät der Friedrich-Schiller-Universität Jena. Mittmann, Roland (2020): Zur althochdeutschen Zeit- und Dialektgliederung. Eine computergestützte Untersuchung auf Grundlage der textlichen Überlieferung. (=-Studien zur historisch-vergleichenden Sprachwissenschaft (SHVS)-15). Hamburg: Baar. Mittmann, Roland/ Plate, Ralf (2019): Das ‚Referenzkorpus Altdeutsch‘ als Lesekorpus. Grammatisch annotierte und mit Wörterbüchern verknüpfte Texte für Lehre und Selbststudium. In: Das Mittelalter. Perspektiven mediävistischer Forschung. Zeitschrift des Mediävistenverbandes-24,-1 (Themenheft: Digitale Mediävistik), S.-173-187. MNWB- = Lasch, Agathe/ Borchling, Conrad/ Cordes, Gerhard/ Möhn, Dieter/ Schröder, Ingrid- (Hg.) (1956 ff.): Mittelniederdeutsches Handwörterbuch. Bd.- 1 ff. Neumünster: Wachholtz. MNWB-= / Cordes, Gerhard/ Möhn, Dieter/ Schröder, Ingrid (Hg.) (1956 f.): Mittelniederdeutsches Handwörterbuch. Begründet von Agathe Lasch und Conrad Borchling. Bd.-1. Neumünster: Wachholtz. Saenger, Paul (1997): Space between words. The origins of silent reading. (=-Figurae: reading medieval culture). Stanford: Stanford University Press. Schnelle, Gohar/ Petrova, Svetlana/ Herbers, Birgit (2022): Korpusbasiert Althochdeutsch lernen. Das Referenzkorpus Altdeutsch in der universitären Lehre. In: Meier, Jörg (Hg.): Sprachgeschichte und Bildung. (=- Jahrbuch für germanistische Sprachgeschichte- 13.1). Berlin/ Boston: De Gruyter, S.-102-128. Splett, Jochen (1993): Althochdeutsches Wörterbuch. Analyse der Wortfamilienstrukturen des Althochdeutschen. Zugleich Grundlegung einer zukünftigen Strukturgeschichte des deutschen Wortschatzes. Bd.-1-3. Berlin/ New York: De Gruyter. Zeige, Lars Erik (2019): Die Präpositionalgruppe im ältesten Deutsch. Korpus, Grammatik, Darstellung. Bd.-2. Habil. Berlin: Humboldt-Universität zu Berlin. Korpora CHLG- = Breitbarth, Anne/ Hoste, Veronique/ Haegemann, Liliane: Corpus of Historical Low Geman. www.chlg.ugent.be (Stand: 24.10.2022). Demske, Ulrike (2019): Referenzkorpus Frühneuhochdeutsch: Baumbank.UP. Potsdam: Institut für Germanistik der Universität Potsdam. https: / / hdl.handle.net/ 11022/ 0000- 0007-EAF7-B (Stand: 24.10.2022); ANNIS-Zugang: https: / / annis.linguistics.rub.de/ REF/ <?page no="29"?> DER VERBUND ‚DEUTSCH DIACHRON DIgITAL‘ 29 (Stand: 24.10.2022); Webseite: www.uni-potsdam.de/ de/ guvdds/ baumbankup (Stand: 24.10.2022). LeA-= Mittmann, Roland (2019): Lesekorpus Altdeutsch. Althochdeutsche und altsächsische Texte, grammatisch annotiert für Lehre und Selbststudium. https: / / titus.uni-frankfurt.de/ lea/ (Stand: 24.10.2022). ReA v1.1- = Donhauser, Karin/ Gippert, Jost/ Lühr, Rosemarie (2013): Deutsch Diachron Digital- - Referenzkorpus Altdeutsch. Version- 1.1. Berlin: Humboldt-Universität zu Berlin. https: / / doi.org/ 10.34644/ laudatio-dev-WiWkDnMB7CArCQ9CyBEw; ANNIS-Zugang: https: / / korpling.german.hu-berlin.de/ annis/ ddd (Stand: 24.10.2022); Webseite: www. deutschdiachrondigital.de/ rea (Stand: 24.10.2022). ReA v1.2- = Zeige, Lars Erik/ Schnelle, Gohar/ Klotz, Martin/ Donhauser, Karin/ Gippert, Jost/ Lühr, Rosemarie (2022): Deutsch Diachron Digital- - Referenzkorpus Altdeutsch. Version-1.2. Berlin: Humboldt-Universität zu Berlin. https: / / doi.org/ 10.34644/ laudatio-dev- MiXVDnMB7CArCQ9CABmW. ANNIS-Zugang: https: / / korpling.german.hu-berlin.de/ annis/ ddd; Webseite: www.deutschdiachrondigital.de/ rea (Stand: 6.4.2022). ReDI-= Wegera, Klaus-Peter/ Herbers, Birgit: Referenzkorpus Deutsche Inschriften. Webseite: www.ruhr-uni-bochum.de/ wegera/ ReDI/ index.htm (Stand: 24.10.2022). ReF- = Wegera, Klaus-Peter/ Solms, Hans-Joachim/ Demske, Ulrike/ Dipper, Stefanie (2021): Reference Corpus of Early New High German (1350-1650). Version- 1.0. Bochum: Ruhr- Universität Bochum/ Halle-Wittenberg: Martin-Luther-Universität Halle-Wittenberg/ Potsdam: Universität Potsdam. https: / / doi.org/ 10.34644/ laudatio-dev-s0ImHH8BwG- ADazlg9LW; ANNIS-Zugang: https: / / linguistics.rub.de/ annis/ annis3/ REF/ (Stand: 24.10.2022); Webseite: www.linguistics.rub.de/ ref/ (Stand: 24.10.2022). ReM- = Klein, Thomas/ Wegera, Klaus-Peter/ Dipper, Stefanie/ Wich-Reif, Claudia (2016): Reference Corpus of Middle High German (1050-1350). Version- 1.0. Bonn: Rheinische Friedrich-Wilhelms-Universität Bonn/ Bochum: Ruhr-Universität Bochum. https: / / doi. org/ 10.34644/ laudatio-dev-xCS3CnMB7CArCQ9C3LRB; ANNIS-Zugang: www.linguis tics.rub.de/ annis/ annis3/ REM/ (Stand: 24.10.2022); Webseite: www.linguistics.rub.de/ rem/ (Stand: 24.10.2022). ReN- = ReN-Team (2021): Reference Corpus Middle Low German/ Low Rhenish (1200-1650); Referenzkorpus Mittelniederdeutsch/ Niederrheinisch (1200-1650). Version- 1.1 vom 6.1.2021. http: / / doi.org/ 10.25592/ uhhfdm.9195; ANNIS-Zugang: https: / / annis.fdm.unihamburg.de/ annis-gui-3.6.0/ ren (Stand: 24.10.2022); Webseite: www.slm.uni-hamburg.de/ ren.html (Stand: 24.10.2022). Weitere Online-Ressourcen Barteld, Fabian/ Ihden, Sarah/ Dreessen, Katharina/ Schröder, Ingrid (2018): HiNTS: A tagset for-Middle Low German. In: Proceedings of the eleventh international conference on language resources and evaluation (LREC 2018), Miyazaki, Japan, 7-12-May 2018. European <?page no="30"?> SARAH IHDEN/ gOHAR SCHNELLE/ INgRID SCHRÖDER/ LARS ERIK ZEIgE 30 Language Resources Association (ELRA), S.-3940-3945. www.lrec-conf.org/ proceedings/ lrec2018/ pdf/ 870.pdf (Stand: 28.10.2022). Barteld, Fabian/ Dreessen, Katharina/ Ihden, Sarah/ Schröder, Ingrid/ Kleymann, Verena/ Nagel, Norbert/ Peters, Robert/ Schilling, Elmar/ Tiedemann, Meike (2021): Annotationshandbuch. Teil-1: PoS und Morphologie. Referenzkorpus Mittelniederdeutsch/ Niederrheinisch (1200- 1650). www.fdr.uni-hamburg.de/ record/ 9195/ files/ Annotationshandbuch_1_2021-01-30. pdf ? download=1 (Stand: 28.10.2022). Booth, Hannah/ Breitbarth, Anne/ Ecay, Aaron/ Farasyn, Melissa (2020): A penn-style treebank of Middle Low German. In: Proceedings of the 12 th conference on language resources and evaluation (LREC 2020), Marseille, 11-16-May 2020. European Language Resources Association (ELRA), S.- 766-775. www.lrec-conf.org/ proceedings/ lrec2020/ pdf/ 2020.lrec-1.96. pdf (Stand: 28.10.2022). Deutsche Inschriften Online (DIO): Die Inschriften des deutschen Sprachraumes in Mittelalter und Früher Neuzeit. www.inschriften.net/ (Stand: 28.10.2022). Deutsches Wörterbuch von Jacob und Wilhelm Grimm. Trier: Universität Trier, Kompetenzzentrum- - Trier Center for Digital Humanities. http: / / dwb.uni-trier.de/ de/ (Stand: 28.10.2022). Dipper, Stefanie/ Waldenberger, Sandra (2017): Investigating diatopic variation in a historical corpus. In: Nakov, Preslav/ Zampieri, Marcos/ Ljubešić, Nikola/ Tiedemann, Jörg/ Malmasi, Shevin/ Ali, Ahmed (Hg.): Proceedings of the EACL-workshop on NLP for similar languages, varieties and dialects (VarDial). Valencia: Association for Computational Linguistics, S.-36-45. https: / / aclanthology.org/ W17-1204.pdf (Stand: 28.10.2022). Dipper, Stefanie/ Donhauser, Karin/ Klein, Thomas/ Linde, Sonja/ Müller, Stefan/ Wegera, Klaus- Peter (2013): HiTS: ein Tagset für historische Sprachstufen des Deutschen. In: Journal of Language Technology and Computational Linguistics- 28,- 1, S.- 85-137. www.linguistics. ruhr-uni-bochum.de/ ~dipper/ pub/ jlcl13_webVersion.pdf (Stand: 28.10.2022). Farasyn, Melissa (2018): Fitting in or standing out? Subject agreement phenomena in Middle Low German. PhD Thesis. Gent: Universität Gent. http: / / hdl.handle.net/ 1854/ LU-8561561 (Stand: 28.10.2022). Herbers, Birgit/ Kösser, Sylwia/ Lemke, Ilka/ Wenner, Ulrich/ Berger, Juliane/ Kwekkeboom, Sarah/ Thielert, Frauke (2021): Dokumentation zum Referenzkorpus Frühneuhochdeutsch und Referenzkorpus Deutsche Inschriften. (=- Bochumer Linguistische Arbeitsberichte- 24). https: / / linguistics.rub.de/ forschung/ arbeitsberichte/ 24.pdf (Stand: 28.10.2022). Klein, Thomas/ Dipper, Stefanie (2016): Handbuch zum Referenzkorpus Mittelhochdeutsch. (=- Bochumer Linguistische Arbeitsberichte- 19). www.linguistics.rub.de/ rem/ documenta tion/ index.html (Stand: 28.10.2022). Krause, Thomas (2019): ANNIS: a graph-based query system for deeply annotated text corpora. Diss. Berlin. https: / / doi.org/ 10.18452/ 19659. <?page no="31"?> DER VERBUND ‚DEUTSCH DIACHRON DIgITAL‘ 31 Krause, Thomas/ Zeldes, Amir (2016): ANNIS3: a new architecture for generic corpus query and visualization. In: Digital Scholarship in the Humanities 31, 1, S.-118-139. http: / / dsh. oxfordjournals.org/ content/ 31/ 1/ 118 (Stand: 28.10.2022). Mittelhochdeutsches Wörterbuch Online. www.mhdwb-online.de/ (Stand: 28.10.2022). Plate, Ralf (Red.): Wortfamilien. Computergestützte Etablierung epochenübergreifender Wortfamilienstrukturen. Abschlussbericht. [Projekt „eHumanities-Zentrum für Historische Lexikographie“ (ZHISTLEX)]. https: / / zhistlex.de/ ziele/ wortfamilien/ (Stand: 28.10.2022). Wörterbuchnetz des Kompetenzzentrums- - Trier Center for Digital Humanities. https: / / woerterbuchnetz.de (Stand: 28.10.2022). <?page no="33"?> PATRICIA SCHEURER/ RAPHAEL MÜLLER/ BERNARD SCHROFFENEggER/ PHILLIP STRÖBEL/ BENJAMIN SUTER/ MARTIN VOLK Ein Briefwechsel-Korpus des 16.-Jahrhunderts in-Frühneuhochdeutsch Resultierend aus dem Digitalisierungsprojekt „Bullinger Digital“ Abstract Der vorliegende Aufsatz stellt eine Sammlung von Briefen aus dem 16.-Jahrhundert von und an den Zürcher Reformator Heinrich Bullinger vor. Von Bullingers Briefwechsel sind rund 12.000 Briefe erhalten, etwa ein Viertel davon ist in Frühneuhochdeutsch verfasst und stammt von mehr als 300 Personen. Im Rahmen des laufenden Projektes „Bullinger Digital“ werden die vorhandenen Wissensquellen zusammengetragen und digital aufbereitet sowie weitere Informationen erschlossen. Bereits entwickelt wurden eigene Verfahren zur Sprachidentifikation und Normalisierung, die im vorliegenden Aufsatz kurz vorgestellt werden. Mit der Sprachidentifikation werden zuverlässig alle frühneuhochdeutschen Sätze im Briefwechsel erkannt, die Normalisierung der frühneuhochdeutschen Wortformen erhöht die Benutzerfreundlichkeit des Korpus. Der Briefwechsel ist online durchsuchbar, die Speicherung in TEI konformem XML ermöglicht dessen Weiternutzung. Keywords: Briefkorpus, Code-Switching, Computerlinguistik, Frühneuhochdeutsch, Reformationsgeschichte 1. Briefwechsel von Heinrich Bullinger Der Reformator Heinrich Bullinger (1504-1575) 1 war Mitarbeiter und Nachfolger von Huldrych Zwingli in Zürich und ein wichtiger Multiplikator für die Ideen der Reformation in der Schweiz und in Europa. Er stand mit bedeutenden Persönlichkeiten seiner Zeit in Kontakt, darunter Luther, Calvin, König Eduard-VI von England und König Sigismund von Polen. Sein Korrespondenz-Netzwerk umfasste über 1000 Personen. Der erhaltene Bullinger-Briefwechsel erstreckt sich von 1523 bis 1575 und gilt mit 12.000 überlieferten Briefen als einer der umfangreichsten Briefwechsel des 16.-Jahrhunderts. Die Briefe behandeln ein breites Spektrum an Themen von theologischen Fragen über politische Ereignisse bis zu alltäglichen Begebenheiten und geben Aufschluss über Beziehungen und Bildung, Krankheiten, Umweltereignisse, aber auch über Speisen der damaligen Zeit. 2 Damit kann die Briefsammlung als Beitrag zur 1 https: / / de.wikipedia.org/ wiki/ Heinrich_Bullinger (Stand: 31.10.2022). 2 Einen Überblick über die Themenvielfalt der Briefe sowie einige Übersetzungen in modernes Deutsch finden sich bei Beeler/ Bucher/ Koller (Hg.) (2018). DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="34"?> PATRICIA SCHEURER ET AL. 34 „republic of letters“ (Hotson/ Wallnig (Hg.) 2019) erachtet werden, die den Wert von Briefwechseln aus der Frühen Neuzeit als Zeitzeugnisse aus erster Hand würdigt. 1.1 Überlieferung und Erschließung Von Bullingers Briefwechsel sind rund 12.000 Briefe erhalten. Davon sind 10.000 Briefe an Bullinger gerichtet, 2000 Briefe stammen von ihm selbst. Rund 11.000 Manuskripte liegen in den Archiven der Zentralbibliothek Zürich und des Staatsarchivs Zürich und werden von den beiden Gedächtnisinstitutionen im Rahmen des laufenden Digitalisierungsprojektes (siehe Kap.-1.2) restauriert und gescannt. Die 3100 Briefe aus den Jahren 1523 bis 1547 hat das Institut für schweizerische Reformationsgeschichte (IRG) bereits ediert (vgl. HBBW-Edition 1973-2022). Zu weiteren 5500 Briefen aus späteren Jahren liegen ebenfalls vom IRG provisorische Transkriptionen vor. Damit sind die Brieftexte von 8600 Briefen bereits verfügbar, was umgekehrt bedeutet, dass zu knapp 30% aller Briefe noch keine Abschriften vorliegen. Deshalb können keine abschließenden Aussagen zur Größe oder zur Sprachzusammensetzung des Briefwechsels gemacht werden. Schon jetzt ist jedoch klar, dass Latein die vorherrschende Korrespondenzsprache ist, gefolgt von Deutsch. Nur vereinzelt sind Briefe in Französisch, Griechisch oder Italienisch geschrieben, außerdem finden sich in verschiedenen Briefen hebräische oder griechische Ausdrücke oder Phrasen. 1.2 Das Digitalisierungsprojekt „Bullinger Digital“ „Bullinger Digital“ ist ein Digitalisierungsprojekt der Universität Zürich unter der Leitung des Instituts für Computerlinguistik und des Instituts für schweizerische Reformationsgeschichte. Projektstart war Anfang 2021 und das Projekt ist auf eine Laufzeit von zwei Jahren ausgelegt. Dies bedeutet, dass das hier vorgestellte Briefwechsel-Korpus in Frühneuhochdeutsch spätestens im Mai 2023 vollständig verfügbar sein wird. Der aktuelle Stand ist bereits jetzt unter www.bullinger-digital.ch (Stand: 31.10.2022) einseh- und durchsuchbar. In Hinblick auf eine langfristige und nachhaltige Nutzung wird das Briefwechselkorpus in TEI-konformem XML kompiliert und annotiert. Ziel von „Bullinger Digital“ ist es zum einen, alle vorhandenen Wissensquellen zum Bullinger-Briefwechsel zusammenzuführen und online verfügbar zu machen. Diese Wissensquellen umfassen Metadaten wie Datum, Absender, Empfänger, Archivort und Signatur zu jedem überlieferten Brief, Regesten und Anmerkungen zu den bereits edierten Briefen sowie die oben erwähnten Transkriptionen. Zum anderen wird der Briefwechsel um weitere Informationen ergänzt: So werden aktuell von allen in Zürich liegenden Briefen Faksimiles erstellt und ins Online-System einge- <?page no="35"?> EIN BRIEFWECHSEL-KORPUS DES 16.-JAHRHUNDERTS IN-FRÜHNEUHOCHDEUTSCH 35 pflegt. Auch werden die Faksimiles genutzt, um ein System zur automatischen Handschriftenerkennung (Handwritten Text Recognition) zu entwickeln, mit dem die noch fehlenden 3400 Transkriptionen automatisch erstellt werden. Ebenfalls in Arbeit ist ein System zur maschinellen Übersetzung für die in Latein verfassten Briefe mit der Zielsprache Deutsch. Bereits entwickelt sind Verfahren zur automatischen Sprachidentifikation (siehe Kap.- 2.3) sowie zur Normalisierung der frühneuhochdeutschen Brieftexte (siehe Kap.-3). Verschiedene Visualisierungen wie eine Zeitleiste zur überlieferten Korrespondenz zwischen Bullinger und einem bestimmten Briefpartner bzw. einer bestimmten Briefpartnerin oder eine interaktive Karte zu den Absende- und Empfangsorten der Briefe sind bereits umgesetzt. Andere Visualisierungen sind in Arbeit, beispielsweise sprachspezifische Wortwolken zu den am häufigsten verwendeten Begriffen eines bestimmten Korrespondenten bzw. einer bestimmten Korrespondentin pro Sprache. Entwickelt werden auch Verfahren zur automatischen Erkennung von Eigennamen sowie für deren automatische Verlinkung mit bestehenden Wissensressourcen wie die Gemeinsame Normdatei (GND) oder Wikipedia. 2. Frühneuhochdeutsches Briefwechsel-Korpus Nach gut einem Jahr Projektlaufzeit liegen die Transkriptionen zu 8300 Briefen vor, davon sind 1600 hauptsächlich in Deutsch verfasst. 3 Damit ist davon auszugehen, dass das Briefwechsel-Korpus zu Projektende etwa 2500 deutsche Briefe umfassen wird. Anhand der bereits edierten Briefe zeigt sich allerdings, dass sich die deutschen Briefe nicht gleichmäßig über die Zeit verteilen: Von 1523 bis Mitte 1546 beträgt deren Anteil lediglich 20%, ab Mitte 1546 steigt ihr Anteil auf rund 50% (vgl. Bodenmann 2019, S.- 15). Dieser deutliche Anstieg lässt sich mit dem einsetzenden Schmalkaldischen Krieg erklären, indem die Kriegsnachrichten schnell auch an Latein-Unkundige übermittelt werden mussten (vgl. Bodenmann 2015, S.-13). Zu welchem Zeitpunkt der Anteil der deutschen Briefe wieder abnahm und ob andere Ereignisse zu einem erneuten Anstieg führten, ist noch zu untersuchen. Neben vollständigen Briefen in Deutsch finden sich auch viele deutsche Passagen und Sätze in lateinischen Briefen. Auch diese deutschen Briefteile sind im hier vorgestellten Briefwechsel-Korpus enthalten, womit dieses nach einem Jahr Projektlaufzeit 39.600 Sätze und rund 800.000 laufende Wortformen umfasst. Mit der Transkription der restlichen Briefe wird das Briefwechsel-Korpus in Frühneuhochdeutsch 3 Transkribiert sind insgesamt zwar 8600 Briefe, in der Heinrich-Bullinger-Briefwechseledition (HBBW-Edition) wurde jedoch auf den Abdruck von Brieftexten verzichtet, die bereits im Rahmen anderer Editionsprojekte publiziert worden waren. Diese Transkriptionen werden nach Möglichkeit beschafft und digital aufbereitet. <?page no="36"?> PATRICIA SCHEURER ET AL. 36 bis zu Projektende noch anwachsen; wir rechnen mit einer Korpusgröße von etwa 1,2 Millionen laufenden Wortformen. 2.1 Transkriptionen 1000 der bereits vorliegenden Briefe in Deutsch, also knapp die Hälfte, sind in der- Heinrich-Bullinger-Briefwechseledition (HBBW-Edition) publiziert, womit die Transkriptionen von höchster Qualität sind. 4 Bei den 5500 provisorischen Transkriptionen ist vereinzelt noch mit Unsicherheiten in Bezug auf die Interpretation von Schreibweisen zu rechnen. Schließlich ist bei den Transkriptionen, die mit Hilfe des eigens entwickelten Handwritten-Text-Recognition-Systems erstellt werden, mit Fehlern zu rechnen, wobei eine Zeichenfehlerrate von weniger als 5% angestrebt wird. Unabhängig von der Quelle der Transkriptionen werden die historischen Sonderzeichen wie aͤ/ oͤ / uͤ und uͦ sowie Ligaturen wie æ aus den Handschriften ins Briefkorpus übernommen und Abkürzungen wie key[serliche] m[ajestät] wenn immer möglich aufgelöst. Folgendes Beispiel zu Transkription und Handschrift soll einen Eindruck von Art und Güte der Transkription vermitteln: 5 (1) Wyter ist min gar ernstlich begaͤr, das ir nunmee die raͤchnung stellen und mir anzeigen woͤllind, was ich üch schuldig und ze thuͦ n sye, es sye des tischs halb, über das er laͤnger by üch dann Josias by mir xin, ouch alles des, das ir imm gelihen und für inn uußgaͤben habend. Abb.-1: Handschriftliche Passage zu Beispiel (1) 4 Zu den Editionsgrundsätzen siehe HBBW Bd. 1 (1973, S.-29-31). 5 Auszug aus dem Brief von Heinrich Bullinger an Peter Simler vom 1.-Oktober 1546. www.bullingerdigital.ch/ letter/ 12651 (Stand: 31.10.2022). <?page no="37"?> EIN BRIEFWECHSEL-KORPUS DES 16.-JAHRHUNDERTS IN-FRÜHNEUHOCHDEUTSCH 37 2.2 Auftreten von Frühneuhochdeutsch Am Briefwechsel sind über 1000 Korrespondenzpartner/ -innen beteiligt. Rund ein Drittel der Beteiligten schreibt in Deutsch, wobei sich 5 verschiedene Arten des Auftretens von Deutsch unterscheiden lassen: - Gesamte Korrespondenz in Deutsch - Einzelne Briefe vollständig in Deutsch - Einzelne Passagen in Deutsch - Einzelne Sätze in Deutsch - Einzelne Phrasen oder Wörter in Deutsch Mit einigen Briefpartnern wie Philipp Landgraf von Hessen oder Graf Georg von Württemberg-Mömpelgard sowie mit den meisten Briefpartnerinnen korrespondierte Bullinger ausschließlich in Deutsch. Von anderen Briefpartnern, z. B. dem St.- Galler Bürgermeister und Reformator Joachim Vadian, liegen sowohl Briefe in Latein als auch in Deutsch vor. Häufiger sind jedoch Briefe, die sowohl lateinische als auch deutsche Passagen enthalten. Geradezu programmatisch wird dieses Code- Switching in einem Brief von Vadian vollzogen: 6 Mit den Worten „Nunc profana tractemus“, was übersetzt etwa so viel bedeutet wie „Nun wollen wir uns mit weltlichen Dingen befassen“, leitet Vadian den Wechsel von Latein zu Deutsch ein. Im lateinischen Teil seines Briefes finden sich Ausführungen zu Kirche und Bibel, im deutschen Teil Informationen über die Politik in Frankreich, Polen und der Schweiz. Durch welche situativen Faktoren das Code-Switching-- Latein war im 16.-Jahrhundert Bildungs- und Wissenschaftssprache in ganz Europa, während Deutsch eher für die alltägliche Konversation verwendet wurde (vgl. Jung 2016, S.-21)-- auch in anderen Briefen gesteuert ist, wäre zu untersuchen. Feststeht, dass das Briefwechsel- Korpus in Frühneuhochdeutsch nicht nur Informationen zu weltlichen oder alltäglichen Themen bereithält. So wird beispielsweise in der auf Deutsch geführten Korrespondenz zwischen den Pfarrern und Lehrern von Zürich und den Ratsmitgliedern von Bern der Abendmahlstreit mit Martin Luther verhandelt. 7 Wie oben erwähnt, tritt Deutsch in lateinischen Briefen auch in Form von einzelnen Sätzen, Phrasen oder Wörtern auf. Beispiel (2) illustriert Code-Switching innerhalb eines lateinischen Satzes, der eine Phrase in Deutsch enthält. 8 Umgekehrt können 6 Brief von Joachim Vadian an Bullinger vom 2.-Mai 1548. www.bullinger-digital.ch/ letter/ 108 (Stand: 31.10.2022). 7 Vgl. z. B. Brief der Pfarrer und Lehrer von Zürich an Schultheiß, Rat und Burger von Bern vom 12.-März 1545. www.bullinger-digital.ch/ letter/ 12147 (Stand: 31.10.2022). 8 Beispiel aus dem Brief von Tobias Egli an Heinrich Bullinger vom 14. Februar 1573. www.bullingerdigital.ch/ letter/ 9202 (Stand: 31.10.2022). <?page no="38"?> PATRICIA SCHEURER ET AL. 38 auch lateinische Sätze, Phrasen oder Wörter in deutschen Briefen auftreten, wie Beispiel (3) illustriert. 9 (2) Crastino comitia erunt Domus tantum Dei propter dissidium Zuziensium et Samadensium von stok und galgen wegen. [Hervorhebung der VerfasserIn] (3) Dann Galli nostri treüwend unnd erschreckend mengem das hertz, das er hinschlichen last, ne privetur stipendio. [Hervorhebung der VerfasserIn] 2.3 Sprachidentifikation Für die Identifikation von lateinischen und deutschen Sätzen haben wir ein eigenes Verfahren ausgearbeitet, mit dem die Sprachidentifikation bei monolingualen Sätzen mit einer Länge von mindestens 20 Buchstaben einwandfrei funktioniert. Bei kurzen monolingualen Sätzen (mit 10 bis 19-Buchstaben) beträgt die Fehlerrate geringe 2,2% (vgl. Volk et al. 2022). Bei Sätzen mit Code-Switching ist die Mehrheit der Wörter ausschlaggebend für die Bestimmung der Satzsprache. Das heißt, wenn ein Satz den größeren Teil Wörter in Latein enthält, wird die Sprachidentifikation Latein auswählen, ansonsten Deutsch. Die Sprachidentifikation auf Satzebene bringt es mit sich, dass deutsche Phrasen oder Wörter wie von stok und galgen wegen aus Beispiel (2) nicht als Deutsch (de) ausgewiesen sind (siehe Abb.-2). Umgekehrt finden lateinische Phrasen oder Wörter Eingang ins hier vorgestellte Briefwechsel-Korpus in Frühneuhochdeutsch. Griechische oder hebräische Einschübe hingegen sind als solche annotiert und können entsprechend herausgefiltert werden. Abb.-2: Sprachannotation auf Satzebene; der mittlere Satz entspricht Beispiel (2) 9 Beispiel aus dem Brief von Tobias Egli an Heinrich Bullinger vom 17. November 1567. www.bullingerdigital.ch/ letter/ 7304 (Stand: 31.10.2022). <?page no="39"?> EIN BRIEFWECHSEL-KORPUS DES 16.-JAHRHUNDERTS IN-FRÜHNEUHOCHDEUTSCH 39 Neben der Sprachidentifikation auf Satzebene werden die pro Brief identifizierten Sprachen unter Angabe der jeweiligen Sprachanteile in Prozent ausgewiesen. Im Online-Suchsystem unter www.bullinger-digital.ch (Stand: 31.10.2022) können die Briefe dementsprechend abgefragt werden (siehe Abb.-3). 10 Der Download von Abfrageergebnissen ist zurzeit noch nicht möglich, auf Anfrage wird das Briefwechsel- Korpus jedoch gern zur Verfügung gestellt. 11 Dabei kann das Korpus in Abhängigkeit vom Forschungsinteresse ausschließlich aus den als Deutsch annotierten Sätzen bestehen oder aus allen Briefen, die deutsche Sätze enthalten. Abb.-3: Suchmaske mit Option, Briefe nach Korrespondenzsprache zu selektieren 3. Normalisierung Im Rahmen des laufenden Digitalisierungsprojekts ist eine linguistische Aufbereitung wie Part-of-Speech-Tagging (automatische Wortarten-Klassifikation) oder Lemmatisierung nicht geplant, auch ist im Unterschied zu den lateinischen Brieftexten fürs Frühneuhochdeutsche keine Übersetzung in modernes Deutsch vorgesehen. Um die Online-Suche zu vereinfachen und um die frühneuhochdeutschen Brieftexte einfacher lesbar zu machen, haben wir jedoch ein statistisches Verfahren zur Nor- 10 Die Entwicklung dieser Funktion ist aktuell in Arbeit, die Darstellung wird sich bis zur Implementierung im Online-Suchsystem möglicherweise noch leicht verändern. 11 Anfragen per E-Mail an bullinger-digital@protonmail.com. <?page no="40"?> PATRICIA SCHEURER ET AL. 40 malisierung entwickelt. Diese ist definiert als strikte Eins-zu-Eins-Übertragung von frühneuhochdeutschen Wortformen auf ihre moderne Schreibweise, womit allfällige Veränderungen in der Wortbedeutung unberücksichtigt bleiben. So wird beispielsweise husfrou nicht zu Ehefrau, sondern zu Hausfrau normalisiert. Auch die Syntax bleibt bei der Normalisierung unverändert. 3.1 gegenstand der Normalisierung Neben der Normalisierung von frühneuhochdeutschen Schreibvarianten wie zyten, zytten, ziten, zitten, zeyten, zeiten zu Zeiten oder bruder, bruoder, bruͦ der zu Bruder werden auch morphologische Unterschiede des Frühneuhochdeutschen normalisiert: So werden Vokale, welche die Diphthongierung noch nicht durchlaufen haben, wie in lüdt [lyˑt] (vs. Leute [ˈlɔɪ ̯ tә]), ebenso normalisiert wie morphologische Suffixe, die in modernem Deutsch nicht mehr existieren. So wird beispielsweise das frühneuhochdeutsche wöllind [3.-Pers. pl.] normalisiert zu wollen. Noch offen ist, ob die normalisierten Texte den Originaltexten gegenübergestellt werden oder ob die Normalisierung nur angezeigt wird, wenn mit der Maus über einen frühneuhochdeutschen Begriff gefahren wird. Auf jeden Fall wird die Normalisierung in der Suche hinterlegt, damit weder die Kenntnis der frühneuhochdeutschen Schreibweisen erforderlich ist, noch alle Schreibvarianten einzeln abgefragt werden müssen, um die gewünschten Ergebnisse zu erhalten. Das Briefwechsel- Korpus kann aber weiterhin nach einer bestimmten Schreibvariante (ohne Normalisierung) durchsucht werden, indem der gewünschte Begriff in Anführungs- und Schlusszeichen gesetzt wird. 3.2 Qualität Die Qualität unseres Normalisierungs-Verfahrens entspricht mit knapp 15% Fehlerrate den gängigen Normalisierung-Modellen für historische Texte (vgl. Makarov/ Clematide 2020). Allerdings lassen sich die meisten Fehler, die mit unserem Verfahren entstehen, auf geringfügige Abweichungen in der Schreibweise wie fehlerhafte Groß-Klein-Schreibung zurückführen. Gravierende Fehler durch die Abbildung auf ein falsches Lemma wie beim frühneuhochdeutschen Wort bruch zu Bruch statt zu Brauch sind jedoch selten; die manuelle Auswertung einer Stichprobe ergab eine Fehlerrate von nur 3,7%. Um das Ergebnis unseres Normalisierungs-Verfahrens zu veranschaulichen, ist in Abbildung- 4 ein frühneuhochdeutscher Brieftextausschnitt der normalisierten Schreibung gegenübergestellt. Mit der fehlerhaften Normalisierung von imm houpt zu ihm Haupt (statt korrekt im Haupt) liegt auch gleich ein Beispiel für einen Fehler vor, wie er durch unser Verfahren entstehen kann. <?page no="41"?> EIN BRIEFWECHSEL-KORPUS DES 16.-JAHRHUNDERTS IN-FRÜHNEUHOCHDEUTSCH 41 Abb.-4: Beispiel für statistische Normalisierung 12 4. Korpuslinguistische Anwendungsmöglichkeiten Das Briefwechsel-Korpus des 16.- Jahrhunderts in Frühneuhochdeutsch bietet verschiedene Möglichkeiten für korpuslinguistische Untersuchungen: Die implementierte Normalisierung kann für Analysen zu Schreibvarianten genutzt werden, der Korrespondenzzeitraum von 50 Jahren erlaubt diachrone Untersuchungen zur allfälligen Standardisierung von Schreibvarianten oder Sprachwandel. Die grosse Anzahl der in Frühneuhochdeutsch Schreibenden lässt Untersuchungen zu regionalen Unterschieden zu, die einheitliche Textsorte zu textsortenspezifischen Formulierungsmustern. Schliesslich bieten sich die gemischt-sprachlichen Briefe für Untersuchungen zu situativen Faktoren von Code-Switching an. 5. Zusammenfassung Der vorliegende Aufsatz stellt ein umfangreiches Korpus frühneuhochdeutscher Brieftexte aus dem 16.- Jahrhundert vor und gibt Aufschluss über die Verwendung von Frühneuhochdeutsch in den 12.000 Briefen von und an Heinrich Bullinger. Es wurde aufgezeigt, welche Informationen bereits vorhanden sind und welche Arbeiten im Rahmen des laufenden Digitalisierungsprojekts noch geplant sind. Insbesondere wurde die Identifizierung von frühneuhochdeutschen Sätzen im Briefwechsel vorgestellt und gezeigt, wie die Normalisierung frühneuhochdeutscher Wortformen definiert ist. Auch der mögliche Nutzen des Briefkorpus für korpuslinguistische Forschung wurde umrissen. Bis zu Projektende sollen alle Briefe aus dem überlieferten Bullinger-Briefwechsel aufbereitet sein und online zur Verfügung stehen. Das Briefwechsel-Korpus in Frühneuhochdeutsch kann bereits jetzt angefordert werden, bis zum Projektende wird es etwa 1,2 Millionen laufende Wortformen umfassen. 12 Auszug aus dem Brief von Bullinger an Johannes Fries und dessen Ehefrau Elisabeth, vom 27.-Dezember 1538, www.bullinger-digital.ch/ letter/ 11252 (Stand: 31.10.2022). <?page no="42"?> PATRICIA SCHEURER ET AL. 42 Dank Wir bedanken uns für die Projektfinanzierung durch verschiedene Sponsoren und deren Gewinnung durch die UZH Foundation. Mehr dazu unter www.bullingerdigital.ch/ about (Stand: 31.10.2022). Literatur Beeler, Luca/ Bucher, Gina/ Koller, Andreas (Hg.) (2018): Nüwe Zyttungen: Der Briefwechsel des Reformators Heinrich Bullinger. Zürich: Scheidegger & Spiess. Bodenmann, Reinhard (2015): Einleitung. In: Bodenmann, Reinhard/ Kess, Alexandra/ Steiniger, Judith (Hg.): Heinrich Bullinger. Werke. Zweite Abteilung: Briefwechsel. Bd.-17: Briefe von Juni bis September 1546. Hrsg. vom Institut für schweizerische Reformationsgeschichte. Zürich: TVZ, S.-13-45. Bodenmann, Reinhard (2019): Einleitung. In: Bodenmann, Reinhard/ Kess, Alexandra/ Steiniger, Judith (Hg.): Heinrich Bullinger. Werke. Zweite Abteilung: Briefwechsel. Bd.-19: Briefe von Januar bis März 1547. Hrsg. vom Institut für schweizerische Reformationsgeschichte. Zürich: TVZ, S.-13-57. HBBW-Edition (1973-2022): Heinrich Bullinger Werke. Zweite Abteilung: Briefwechsel. Bde.-1-20. Hrsg. vom Institut für schweizerische Reformationsgeschichte. Zürich: TVZ. Hotson, Howard/ Wallnig, Thomas (Hg.) (2019): Reassembling the republic of letters in the digital age. Standards, systems, scholarship. Göttingen: Göttingen University Press. Jung, Martin H. (2016): Die Reformation. Wittenberg-- Zürich-- Genf. 1517-1555. (=-marixwissen). Wiesbaden: Marix. Makarov, Peter/ Clematide, Simon (2020): Semi-supervised contextual historical text normalization. In: Jurafsky, Dan/ Chai, Joyce/ Schluter, Natalie/ Tetreault, Joel (Hg.): Proceedings of-the 58 th annual meeting of the association for Computational Linguistics. Association for-Computational Linguistics, S.-7284-7295. https: / / aclanthology.org/ 2020.acl-main.650/ (Stand: 31.10.2022). Volk, Martin/ Fischer, Lukas/ Scheurer, Patricia/ Schroffenegger, Bernard/ Schwitter, Raphael/ Ströbel, Phillip/ Suter, Benjamin (2022): Nunc profana tractemus. Detecting code-switching in a large corpus of 16 th century letters. In: Calzolari, Nicoletta/ Béchet, Frédéric/ Blache, Philippe/ Choukri, Khalid/ Cieri, Christopher/ Declerck, Thierry/ Goggi, Sara/ Isahara, Hitoshi/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the 13 th conference on language resources and evaluation (LREC 2022), Marseille, 20-25- June 2022. Paris: European Language Resources Association (ELRA), S.-2901-2908. <?page no="43"?> AMELIE DORN/ JAN HÖLL/ THERESA ZIEgLER/ WOLFgANg KOPPENSTEINER/ HANNES-PIRKER Die österreichische Presselandschaft digital: Das Austrian Media Corpus (amc) und sein Potenzial für-die-Linguistik Abstract Das Austrian Media Corpus (amc) ist mit derzeit rund 11- Mrd. Token eines der größten deutschsprachigen Korpora journalistischer Prosa. Es bietet damit weitreichende Analysemöglichkeiten für eine Vielzahl sprachwissenschaftlicher Aspekte, wie z. B. die Analyse grammatischer, orthographischer und lexikalischer Variation oder die Erforschung diskurslinguistischer wie attitudinal-perzeptiver Fragestellungen. In diesem Beitrag geben wir Einblicke in Beispielanalysen zu Standard(schrift)sprache auf Basis des amc sowie deren Bedeutung für die Erforschung von Sprachvariation in Österreich, um das enorme Potenzial des Korpus für sprachwissenschaftliche Fragestellungen zu illustrieren. Keywords: Korpuslinguistik, Textkorpora, Standardschriftsprache, Sprachvariation, Deutsch in Österreich 1. Einleitung Im reichen Angebot digitaler Medienkorpora, die der Wissenschaft heute zur Verfügung stehen, stellt das Austrian Media Corpus (amc) ein besonderes Beispiel eines digital born Textkorpus dar, da es die Printmedienlandschaft eines gesamten Landes über mehrere Jahrzehnte hinweg nahezu vollständig abdeckt (siehe Ransmayr 2014; Ransmayr/ Mörth/ Ďurčo 2013, 2017). Inwiefern dieses zentrale Alleinstellungsmerkmal des amc besondere Möglichkeiten für die Erforschung von Sprachvariation und Sprachwandel in Österreich sowohl auf einer räumlichen als auch zeitlichen Ebene eröffnet, soll in diesem Beitrag anhand zweier exemplarischer Analysen veranschaulicht werden, die im Kontext des Spezialforschungsbereichs (SFB) „Deutsch in Österreich. Variation- - Kontakt- - Perzeption“ (FWF F60) entstanden sind. 1 Dabei wird das orthographische Phänomen aus diachroner Perspektive beleuchtet, während das morphologische Fallbeispiel (primär) aus synchroner Variationsperspektive betrachtet wird. Der vorliegende Artikel dient somit einerseits der Vorstellung 1 Innerhalb des SFB DiÖ ist der vorliegende Beitrag eingebettet in die beiden SFB-Teilprojekte PP03 („Sprachrepertoires und Varietätenspektren“) sowie PP08 („Standardvarietäten aus Perspektive der perzeptiven Variationslinguistik“). Beide Teilprojekte werden von Alexandra N. Lenz (Universität Wien bzw. Austrian Centre for Digital Humanities and Cultural Heritage, Österreichische Akademie der Wissenschaften) geleitet. DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="44"?> AMELIE DORN ET AL. 44 des amc und des Umganges mit dem Korpus inklusive exemplarischer Untersuchungsergebnisse, er soll aber auch zur eigenständigen Beschäftigung und idealerweise auch zur weiteren Forschung mit dem umfassenden Material des amc anregen. 2. Das Austrian Media Corpus (amc) Das amc wird im Rahmen einer Kooperation der Austria Presse Agentur (APA) als Datengeber und dem Austrian Centre for Digital Humanities and Cultural Heritage (ACDH-CH) der Österreichischen Akademie der Wissenschaften (ÖAW) als Kurator geführt. Für die (sprachwissenschaftliche bzw. lexikographische) Forschung und Lehre (speziell als Datenquelle für Studienarbeiten aller Art) steht es Interessierten nach Registrierung online zur Verfügung. 2 Als digital born Korpus umfasst das amc aktuell (in der Version- 4.1) über 47 Millionen Artikel und 11 Milliarden Token. Damit ist es das größte Korpus zur Standardschriftsprache in Österreich und rangiert auch im deutschen Sprachraum unter den größten standardschriftsprachlichen Textsammlungen. Beginnend mit 1986 und seither sukzessive anwachsend, vereint das amc praktisch die gesamte Printmedienproduktion des Landes: Dazu gehören die Komplettausgaben aller österreichischen Tageszeitungen, regionale und überregionale Wochenzeitungen sowie Magazine und Monatszeitschriften; in Summe 51 verschiedene Medien unterschiedlicher inhaltlicher Ausrichtung. Ergänzt wird die umfangreiche Sammlung klassischer Printmedien durch Agenturmeldungen der APA und Presseaussendungen via OTS 3 sowie durch Transkripte der Nachrichtenproduktionen österreichischer TV- und Radioanstalten (vgl. Abb.-1). 2 Die Webseite https: / / amc.acdh.oeaw.ac.at/ (Stand: 7.11.2022) dient als zentrales Zugangsportal zum amc. Dort finden sich die Nutzungsbedingungen und das Registrierungsformular, Dokumentationen zum Inhalt und Aufbau des Korpus sowie Publikationen, die zum amc oder mit Hilfe des amc entstanden sind. 3 Das Originaltext-Service (OTS) der APA. <?page no="45"?> DIE ÖSTERREICHISCHE PRESSELANDSCHAFT DIgITAL 45 Abb.-1: amc Korpus-Details: Zeitliche und quantitative Verteilung der amc-Artikel auf Medientypen und Region; grafik: CC-BY Theresa Ziegler Der Mehrwert gerade für die sprachwissenschaftliche Forschung ergibt sich aber nicht nur durch das inhaltliche Volumen- - Ransmayr/ Mörth/ Ďurčo (2017, S.- 30) nennen es „die größte Sprachdatenressource ihrer Art“- -, sondern auch durch die für den interessierten Nutzer_innenkreis von Sprachwissenschaft(l)er_innen optimierte Aufbereitung des Korpus. Die Texte wurden automatisch mit linguistischen Informationen annotiert: TreeTagger 3.2 4 (siehe auch Schmid 1995), RFTagger 5 (siehe auch Schmid/ Laws 2008) und SpaCy 6 3.2 (siehe auch Honnibal et al. 2020) wurden für das mehrfache Part-of-Speech Tagging (PoS) und die Ergänzung von flexionsmorphologischer Information verwendet, zudem kamen der Dependenzparser und die Named-Entity-Recognition (NER) aus SpaCy zum Einsatz. Darüber hinaus wurde das Korpus mit zahlreichen (außer)sprachlichen Meta-Informationen, Attributen und Strukturen auf Tokenbzw. Artikelebene ergänzt, beispielsweise mit einer Regionenzuordnung der Artikel, die sich mit der im Variantenwörterbuch des Deutschen (VWB) (Ammon/ Bickel/ Lenz (Hg.) 2016) verwendeten Einteilung deckt (vgl. Abb.- 1). Unterschieden werden vier geographische Regionen- - „aost“, „asuedost“, 4 Siehe www.cis.uni-muenchen.de/ ~schmid/ tools/ TreeTagger/ (Stand: 7.11.2022). 5 Siehe www.cis.uni-muenchen.de/ ~schmid/ tools/ RFTagger/ (Stand: 7.11.2022). 6 Siehe https: / / spacy.io/ (Stand: 7.11.2022). <?page no="46"?> AMELIE DORN ET AL. 46 „amitte“ und „awest“, letztgenannte Region wird durch das Attribut „province“ weiter unterteilt. 7 Die dahinter stehende Differenzierung in die beiden Bundesländer Tirol und Vorarlberg kann für areal-horizontal perspektivierte Untersuchungen zwischen dem bairischen und alemannischen Sprachraum von Relevanz sein. Die wichtigste Funktionalität der NoSketch Engine 8 (siehe auch Kilgarriff et al. 2014; Rychlý 2007) ist die Möglichkeit, über die Abfragesprache (Corpus Query Language, CQL) komplexe Suchen in beliebigen Attributen und Strukturen des Korpus vorzunehmen, wobei insbesondere auch Reguläre Ausdrücke (Regular Expressions, REGEX) und Wildcards unterstützt werden. Darüber hinaus kann die NoSketch Engine auch zur Ermittlung von Kollokationen oder zur automatischen Erkennung von Schlüsselworten verwendet werden. Benutzer_innen haben die Möglichkeit, Subkorpora anhand der annotierten Metadaten oder basierend auf vorangegangenen Abfragen zu erstellen (vgl. Abschn.-3). Die Verwendung von Makros erleichtert die Durchführung wiederkehrender und aufwändiger Konkordanz-Abfragen und individueller Anzeigeeinstellungen. Nach erfolgreicher Abfrage im amc kann das Suchergebnis an die individuellen Anforderungen angepasst als Frequenzliste angezeigt werden und steht zum Download in verschiedenen Formaten für die weitere Analyse und Visualisierung zur Verfügung. Zwei Beispiele von Suchabfragen im amc und den darauf aufbauenden Auswertungen, die den räumlichen und zeitlichen Umfang des Korpus anschaulich demonstrieren, werden im Folgekapitel beschrieben. 3. Analysebeispiele Zu den zahlreichen Forschungsprojekten, für die das amc eine wichtige Ressource darstellt, zählt auch der bereits erwähnte Spezialforschungsbereich (SFB) „Deutsch in Österreich. Variation-- Kontakt-- Perzeption“ (FWF F60) 9 (Lenz 2018), im Rahmen dessen amc-Daten für die Erforschung verschiedenster Aspekte der deutschen- Sprache in Österreich herangezogen werden (vgl. Budin et al. 2019). Für systemlinguistische Studien, in denen auf Basis von amc-Material bereits Untersuchungen im Kontext des SFB durchgeführt wurden, lassen sich etwa (flexions)mor- 7 Zusätzlich zu den vier geographischen Regionen enthält das amc die Region „agesamt“, der überregional erscheinende Medien zugeordnet werden, sowie die Region „spezifisch“ für solche Medien, die entweder thematisch spezifisch und/ oder regional nicht zuzuordnen sind. Für eine vollständige Auflistung aller enthaltenen Medien und deren Zuordnung zu den amc-Regionen vgl. https: / / amc.acdh. oeaw.ac.at/ dokumentation/ korpusinhalt-attribute/ #doc.region (Stand: 7.11.2022). 8 Siehe https: / / nlp.fi.muni.cz/ trac/ noske (Stand: 7.11.2022). 9 Für grundlegende Informationen zum SFB und dessen Teilprojekten siehe die Projektwebsite www. dioe.at (Stand: 7.11.2022). <?page no="47"?> DIE ÖSTERREICHISCHE PRESSELANDSCHAFT DIgITAL 47 phologische Arbeiten (vgl. Korecky-Kröll 2020; Ziegler 2021) nennen. Insbesondere aber die Lexik stellt eine Systemebene dar, für deren Erforschung innerhalb des SFBs intensiv mit amc-Daten gearbeitet wird (vgl. u. a. Koppensteiner 2015; Lenz/ Dorn/ Ziegler 2021). Dass das Korpus über die Systemlinguistik hinaus auch für attitudinal-perzeptive Analysen geeignet ist, zeigt etwa Höll (2020). 10 Im Folgenden nutzen wir das amc für drei weitere Analysebeispiele, die besonders der korpuslinguistisch-methodologischen Reflexion des amc dienen sollen: zum einen im Hinblick auf zwei orthographische Phänomene zu Sprachwandel, zum anderen ein Wortbildungsphänomen im Kontext von Austriazismen. 3.1 Fallstudie: Orthographischer Wandel Das Potenzial des Datenmaterials im amc für diachrone sprachwissenschaftliche Analysen lässt sich besonders anschaulich anhand orthographischer Phänomene im Deutschen demonstrieren (siehe dazu auch Ransmayr/ Mörth/ Ďurčo 2013, S.- 114). Das erste orthographische Beispiel dieses Beitrags steht im Zusammenhang mit der Laut-Buchstaben-Zuordnung innerhalb der deutschen Schriftsprache. Diese stellt einen jener Bereiche der Orthographie(norm) dar, die von der Rechtschreibreform von 1996 besonders drastisch beeinflusst wurden. Unter anderem wurden Änderungen bei der Umlautschreibung bestimmter Lexeme vorgesehen, um „Verstöße gegen das Stammprinzip zu beseitigen“ (Heller 2006, S.-4). Dies bedeutet beispielsweise für das Lexem überschwänglich, dass im Rahmen der Reform die ursprüngliche Schreibweise überschwenglich in Analogie zum Substantiv Überschwang zu überschwänglich angepasst wurde. Diese Entwicklung ist auch bei einer Abfrage der beiden Schreibweisen deutlich erkennbar (siehe Abb.-2) 11 : Nach dem Inkrafttreten der Reform 1998 bricht die Gebrauchsfrequenz der Form überschwenglich rapide ein, während überschwänglich in wenigen Jahren das Frequenzniveau der alten Schreibweise vor 1998 erreicht. In den jüngsten Daten des amc ist die veraltete Schreibweise quasi nicht mehr aufzufinden. 10 Mit den genannten SFB-Studien ist natürlich nur ein Teil jener Möglichkeiten beschrieben, die das amc für diachron und synchron ausgerichtete Forschungsdesiderata bietet. Insbesondere auch für die Analyse von Diskursen innerhalb von Pressetexten stellt das amc eine hervorragende Quelle dar (vgl. etwa Mayer 2021; Aprent 2019). 11 Abfragesyntax: [word=“überschwänglich.*“] bzw.- [word=“überschwenglich.*“]; für die Abfragen zu den orthographischen Phänomenen in Abschnitt- 3.1 diente das gesamte amc-Korpus ohne weitere Sucheinschränkungen als Basis. <?page no="48"?> AMELIE DORN ET AL. 48 Abb.-2: Visualisierung der Analyse zu den Schreibvarianten des Lexems überschwänglich; grafik: CC-BY Jan Höll 12 Anhand eines zweiten orthographischen Beispiels lässt sich der Effekt der Revision der Rechtschreibreform von 2006 auf den orthographischen Usus in den Medien illustrieren. Die ursprüngliche Neuregelung sah in zahlreichen Fällen eine konsequente Getrenntschreibung vor, was bekanntlich auch innerhalb der Sprachwissenschaft auf teils harsche Kritik stieß (vgl. u. a. Günther 1997, S.- 12; Ickler 1997, S.-58 f.). Diese Grundposition zur Getrenntschreibung wurde 2006 im Rahmen der tiefgehenden Überarbeitung der Reform wieder aufgelockert. So wurde etwa eine Reihe von Verben wie eislaufen, kopfstehen oder auch leidtun in eine Liste von Substantiv-Verb- Verbindungen aufgenommen, bei welchen die substantivischen Bestandteile „verblasst und zu Verbzusätzen geworden“ seien (Heller 2006, S.-7). Demzufolge wurde die 1996 festgelegte Regelung, die eine Getrenntschreibung vorsah, für diese Verben gänzlich revidiert. Einige weitere Verben, als Beispiel sei das Verb achtgeben mit seiner orthographischen Variante Acht geben herangezogen, wurden wiederum als Zweifelsfälle deklariert, für welche fortan beide Schreibweisen als korrekt im Sinne der angepassten Empfehlungen zur Orthographie gelten sollen. Die Auswirkung dieser Maßnahmen auf die Schreibung innerhalb der österreichischen Medien lässt sich anhand entsprechender Suchanfragen im amc zu den beiden Schreibweisen bestens nachverfolgen. 12 Sämtliche Grafiken in diesem Beitrag basieren zwar auf amc-Daten, für die Visualisierung wurde jedoch auf externe Tools zurückgegriffen, da das Abfragetool NoSketch Engine nur beschränkte Visualisierungsoptionen anbietet. <?page no="49"?> DIE ÖSTERREICHISCHE PRESSELANDSCHAFT DIgITAL 49 Wie in Abbildung-3 erkennbar ist, beginnt (wie bereits beim vorigen Beispiel, siehe Abb.-2) mit dem Inkrafttreten der Reform 1998 ein Wechsel der Gebrauchsfrequenz der Schreibvarianten von achtgeben hin zu Acht geben 13 . Anders als beim vorherigen Beispiel wurden nun jedoch 2006 die Empfehlungen von 1998 (teil-)revidiert. Dies äußerte sich in der Praxis in den untersuchten Texten dahingehend, dass die „alte“ Schreibweise achtgeben sich Ende der 2000er Jahre erneut als präferierte Variante etablierte und diese Position bis heute innehat. Die Variante Acht geben auf der anderen Seite behält dennoch eine gewisse- - wenn auch niedrigere- - Gebrauchsfrequenz bei (während z. B. beim oben erwähnten Lexem eislaufen die zwischenzeitlich empfohlene Schreibweise Eis laufen nach 2006 wieder gänzlich verschwand, vgl. Ransmayr/ Mörth/ Ďurčo 2013, S.-114 f.). Abb.-3: Visualisierung der Analyse zu den Schreibvarianten des Lexems achtgeben; grafik: CC-BY Jan Höll Die Möglichkeit der Beobachtung von Verwendungsfrequenzen alternierender Schreibweisen stellt einen zentralen Mehrwert des amc dar, der auch vom Rat für deutsche Rechtschreibung aktiv als Ressource genutzt wird, um weitere Empfehlungen zum Orthographiesystem evaluieren zu können (vgl. Ransmayr/ Mörth/ Ďurčo 2017, S.-35). Für die eingangs evozierte räumliche Dimension sprachlicher Dynamik, die mithilfe von amc-Daten analysiert werden kann, ziehen wir im Folgenden ein morphologisches Analysebeispiel heran. 13 Abfragesyntax: [word=“(A|a)chtgeben“] bzw.-[word=”(A|a)cht”][word=”geben”]. <?page no="50"?> AMELIE DORN ET AL. 50 3.2 Fallstudie: Wortbildungsvariation in Raum und Zeit Die Erforschung sprachlicher Variation innerhalb der Standardsprache in Österreich erfolgt nicht selten mit Blick auf Austriazismen, die als Besonderheiten der österreichischen Standardsprache angesehen werden (siehe etwa Ammon 1995, S.-142-148). Sie korrespondieren mit sprachlichen Alternativen der Deutschschweiz (Helvetismen) und Deutschlands (Teutonismus, Germani(zi)smen oder auch Deutschlandismen) 14 und weisen einen unterschiedlichen (areal-horizontalen) Geltungsbereich auf, der sich-- trotz ihres attitudinal-perzeptiven Austriazismen-Status-- oft nicht mit österreichischen Landesgrenzen fassen lässt (vgl. Ammon 1995; Ebner 2008, 2019). In besonderem Maß findet in der Auseinandersetzung mit Austriazismen die lexikalische Systemebene Berücksichtigung, mit u. a. real-politischen Auswirkungen: 23 (kulinarische) Austriazismen, von Beiried über Marillen bis Vogerlsalat, wurden im Rahmen der EU-Beitrittsverhandlungen Österreichs in den Beitragsvertrag hineinreklamiert (vgl. Lutz 1994; Markhardt 2002) und genießen laut Annex zum Beitrittsvertrag (vgl. Protokoll Nr.-10) Statusgleichheit mit den in Deutschland verwendeten entsprechenden Ausdrücken. Austriazismen finden sich allerdings nicht nur auf lexikalischer Ebene, sondern u. a. auch auf Ebene der Wortbildung. Im Folgenden wird am Beispiel des Wortpaares Wissenschafter_in/ Wissenschaftler_in ein Phänomen der Wortbildung auf synchrone Variation hin analysiert 15 . Der Form Wissenschafter_in wird in einschlägigen lexikographischen Nachschlagewerken (vgl. Ebner 2019; ÖWB 2018; Ammon/ Bickel/ Lenz (Hg.) 2016) Austriazismen- (und Helvetismen-)Status zuerkannt, die Bildung auf {-er} gleichzeitig aber-- teils explizit, teils implizit-- als „Nebenform“ (zur gemeindeutschen Variante Wissenschaftler_in) bezeichnet. Im Duden Österreichisches Deutsch (Ebner 2019, S.-493) wird die Form Wissenschafter_in als „Nebenform“ zur Bildung auf {-ler} beschrieben. Das Variantenwörterbuch des Deutschen weist Wissenschafter_in als Austriazismus und Helvetismus aus und ergänzt: „Wird in CH seltener verwendet als das gemeindt. Substantiv Wissenschaftler(in)“ [Formatierung im Original] (Ammon/ Bickel/ Lenz (Hg.) 2016, S.-829). Im Österreichischen Wörterbuch (ÖWB 2018) sind Einträge zu beiden Wortbildungsvarianten vorhanden, wobei die Bildung Wissenschafter_in als „Nebenform“ ausgewiesen wird (ÖWB 2018, S.-833). Ein ÖWB-Infokasten weist außerdem darauf hin, dass Personenbezeichnungen auf {-ler} häufig als abwertend und umgangssprachlich wahrgenommen werden, weil mit {-ler} gebildete Bildungen wie Grantler_in, Postler_in und Giftler_in diesen 14 Zur Diskussion der Benennung sprachlicher Besonderheiten Deutschlands vgl. Schneider-Wiejowski/ Ammon (2013). 15 Abfragesyntax im analysierten Subkorpus: [lemma=“Wissenschafter|Wissenschaftler|Wissenschafterin|Wissenschaftlerin“]. <?page no="51"?> DIE ÖSTERREICHISCHE PRESSELANDSCHAFT DIgITAL 51 Rückschluss zuließen (ÖWB 2018, S.-833). Mithilfe des amc soll nun die Verwendung der beiden Varianten in der Standardschriftsprache in Österreich und etwaige regionale Verwendungstendenzen in den amc-Regionen (siehe oben Abb.- 1) sichtbar gemacht werden. Für die nachfolgende Auswertung (Abb.-4) wurde innerhalb des amc ein Subkorpus kompiliert, das exklusiv Printmedien beinhaltet und Medien eines 20-Jahres-Zeitraums ab 2001 berücksichtigt. Ein Blick auf die diachrone Gebrauchsfrequenz der Varianten offenbart ein stabiles Verhältnis der untersuchten Varianten über die letzten zwei Jahrzehnte im Untersuchungskorpus (vgl. Abb.-4a) 16 , wobei die Form {-er} quantitativ durchgehend dominiert. 17 Das ÖWB (2018) und auch Ebner (2019) halten ein gegenteiliges Gebrauchsverhältnis der beiden Varianten als das hier erhobene fest: Der Austriazismus (auf {-er}) wird in den Kodizes jeweils als „Nebenform“ angegeben und weicht damit von der durchgeführten amc-Abfrage ({-er} 61%, {-ler} 39%) ab. Die Analyse des durchsuchten Subkorpus weist die Form Wissenschafter_in (und damit den Austriazismus) als die häufiger verwendete Variante aus, Wissenschaftler_in (die gemeindeutsche Form, siehe Ammon/ Bickel/ Lenz (Hg.) 2016, S.-829) als „Nebenform“ (vgl. Abb.-4b und c). Die Variante Wissenschafter_in kann daher als „zentrumsintern variabler“ Austriazismus (Ammon 1995, S.-147) kategorisiert werden: Im gesamtösterreichischen Raum findet neben der Bildung auf {-er} auch die gemeindeutsche Variante auf {-ler} Verwendung, wobei sich eine deutliche variantenspezifische Verwendungsdynamik in den amc-Regionen zeigt. 16 Als möglicher Erklärungsansatz für den angedeuteten Anstieg der Graphen ab 2019 bietet sich die zu diesem Zeitpunkt einsetzende COVID-19 Pandemie an und die damit vermehrt in die Berichterstattung der Medien rückende Gruppe an Wissenschafter_innen (bzw. Wissenschaftler_innen). Für die Überprüfung dieser Annahme biete sich eine über die NoSketch Engine im amc durchführbare Auswertung der Konkordanzen an. 17 Welche als Datengrundlage ebenso u. a. auf das amc zurückgreifen. <?page no="52"?> AMELIE DORN ET AL. 52 Abb.-4: Visualisierung der Analyse von Wissenschafter_in und Wissenschaftler_in im amc-Subkorpus hinsichtlich zeitlicher (a), räumlicher (b) und regionaler (c) Variation und Verteilung; grafik: CC-BY Theresa Ziegler 4. Zusammenfassung und Ausblick Von groß angelegten Projekten wie dem SFB „Deutsch in Österreich“ oder dem Variantenwörterbuch des Deutschen (Ammon/ Bickel/ Lenz (Hg.) 2016) bis hin zu studentischen Seminararbeiten dient das Austrian Media Corpus als Grundlage für ein heterogenes Feld an Forschungsprojekten, die von seiner durch die gesamtheitliche Abdeckung des österreichischen Printmedienraums über die letzten etwa 25 Jahre bedingten hervorragenden Stellung innerhalb des breiten Angebots an Medienkorpora profitieren. Die fortgesetzte Zusammenarbeit mit der APA gewährleistet darüber hinaus die laufende Aktualisierung und Erweiterung des Datenmaterials und somit auch eine Gültigkeit dieses Anspruchs in der Zukunft. Wie sich die große Dichte an Daten des amc für linguistische Fragestellungen nutzen lässt, wurde im vorliegenden Beitrag anhand verschiedener Anwendungsbeispiele angedeutet. Die Auswertungsbeispiele liefern allerdings nur einen ersten <?page no="53"?> DIE ÖSTERREICHISCHE PRESSELANDSCHAFT DIgITAL 53 Einblick in die vielfältigen Möglichkeiten, wie das amc produktiv für Forschung, Lehre und Studium eingesetzt werden kann. Die zahlreichen Projekte, Publikationen und auch Vorträge, die auf Basis von Materialien des amc entstanden sind und- entstehen werden, unterstreichen prägnant den Wert, den ein Korpus dieser Art für die Aufarbeitung des standardschriftsprachlichen Sprachgebrauchs innerhalb eines Landes haben kann und in diesem Sinne lässt sich abschließend das Desiderat formulieren, dass vergleichbare Korpora auch in anderen Ländern wünschenswert wären und einen großen Mehrwert für die Forschung-- aber auch darüber hinaus-- versprächen. Literatur Ammon, Ulrich (1995): Die deutsche Sprache in Deutschland, Österreich und der Schweiz. Das Problem der nationalen Varietäten. Berlin/ New York: De Gruyter. Ammon, Ulrich/ Bickel, Hans/ Lenz, Alexandra N. (Hg.) (2016): Variantenwörterbuch des Deutschen: Die Standardsprache in Österreich, der Schweiz, Deutschland, Liechtenstein, Luxemburg, Ostbelgien und Südtirol sowie Rumänien, Namibia und Mennonitensiedlungen. 2., völlig neu bearb. und erw. Aufl. Berlin/ Boston: De Gruyter. Aprent, Patrick (2019): Prägende Diskurse im Gedenkjahr 2018. Eine digitale Analyse österreichischer Printmedien auf Basis des „Austrian Media Corpus“. In: zeitgeschichte-46,-4, S.-501-531. Austrian Media Corpus (amc). Version 4.1. https: / / amc.acdh.oeaw.ac.at/ (Stand: 7.11.2022). Budin, Gerhart/ Elspaß, Stephan/ Lenz, Alexandra N./ Newerkla, Stefan M./ Ziegler, Arne (2019): The research project (SFB) ‚German in Austria‘. Variation-- Contact-- Perception. In: Bülow, Lars/ Fischer, Ann-Kathrin/ Herbert, Kristina (Hg.): Dimensionen des sprachlichen Raumes. Variation-- Mehrsprachigkeit-- Konzeptualisierung. (=-Schriften zur deutschen Sprache in Österreich). Frankfurt a. M. u. a.: Lang, S.-7-35. Ebner, Jakob (2008): Duden. Österreichisches Deutsch. Eine Einführung von Jakob Ebner. Mannheim u. a.: Dudenverlag. Ebner, Jakob (2019): Österreichisches Deutsch. Wörterbuch der Gegenwartssprache in Österreich. 5.,-völlig neu überarb. und erw. Aufl. Berlin: Dudenverlag. Günther, Hartmut (1997): Zur grammatischen Basis der Getrennt-/ Zusammenschreibung im Deutschen. In: Dürscheid, Christa/ Ramers, Karl H./ Schwarz, Monika (Hg.): Sprache im Fokus. Festschrift für Heinz Vater zum 65.-Geburtstag. Tübingen: Niemeyer, S.-3-16. Heller, Klaus (1998): Rechtschreibreform: Eine Zusammenfassung. In: SPRACHREPORT 1998 (Extraausgabe Dezember), S.-1-13. Heller, Klaus (2006): Zur Neuregelung der deutschen Rechtschreibung ab 1.-August 2006. In: SPRACHREPORT 2006 (Extraausgabe Juli), S.-1-16. Höll, Jan (2020): Wissensstrukturen im Kontext der deutschen Rechtschreibreform. Framebasierte Analyse eines medialen Diskurses in Österreich. Masterarbeit. Wien: Universität Wien. <?page no="54"?> AMELIE DORN ET AL. 54 Honnibal, Matthew/ Montani, Ines/ Van Landeghem, Sofie et al. (2020): explosion/ spaCy: v3.4.3: Extended Typer support and bug fixes. https: / / doi.org/ 10.5281/ zenodo.1212303. Ickler, Theodor (1997): Kritischer Kommentar zur „Neuregelung der deutschen Rechtschreibung“. (=-Erlanger Studien-116). Erlangen u. a.: Palm & Enke. Kilgarriff, Adam/ Baisa, Vít/ Bušta, Jan/ Jakubíček, Miloš/ Kovář, Vojtěch/ Michelfeit, Jan/ Rychlý, Pavel/ Suchomel, Vít (2014): The Sketch engine: ten years on. In: Lexicography- 1,- 1, S.-7-36. Koppensteiner, Wolfgang (2015): Das österreichische Deutsch im plurizentrischen Kontext: eine korpuslinguistische Untersuchung der österreichischen Presse im Zeitraum von 1986-2013. Diplomarbeit. Wien: Universität Wien. Korecky-Kröll, Katharina (2020): Morphological dynamics of German adjective gradation in rural regions of Austria. In: Zeitschrift für Dialektologie und Linguistik-87,-1, S.-25-65. Lenz, Alexandra N. (2018): The special research programme „German in Austria. Variation-- Contact- - Perception“. In: Ammon, Ulrich/ Costa, Marcella (Hg.): Sprachwahl im Tourismus-- mit Schwerpunkt Europa. (=-Sociolinguistica. Internationales Jahrbuch für europäische Soziolinguistik-32). Berlin/ Boston: De Gruyter, S.-269-277. Lenz, Alexandra N./ Dorn, Amelie/ Ziegler, Theresa (2021): Lexik aus areal-horizontaler und vertikal-sozialer Perspektive-- Erhebungsmethoden zur inter- und intraindividuellen Variation. In: Sprachwissenschaft-46,-4, S.-387-431. Lutz, Fabian (1994): Das Austriazismenprotokoll im EU-Beitrittsvertrag. In: ecolex Jg.- 1994, S.-880-883. Markhardt, Heidemarie (2002): Das österreichische Deutsch im Rahmen der Europäischen Union. Das „Protokoll Nr.-10 über die Verwendung österreichischer Ausdrücke der deutschen Sprache“ zum österreichischen EU-Beitrittsvertrag und die Folgen: eine empirische Studie zum österreichischen Deutsch in der EU. Bd.-1. Dissertation. Wien: -Universität Wien. Mayer, Clara (2021): Klimadiskurs(e) in Österreich. Masterarbeit. Wien: Universität Wien. ÖWB = Österreichisches Wörterbuch (2018): Herausgegeben im Auftrag des Bundesministeriums für Bildung. Vollständige Ausgabe mit dem amtlichen Regelwerk. 43.,-überarb. Aufl. Wien: Österreichischer Bundesverlag Schulbuch. Protokoll Nr.-10 über die Verwendung spezifisch österreichischer Ausdrücke der Deutschen Sprache im Rahmen der Europäischen Union, Protokoll zum EU-Beitrittsvertrag. www. ris.bka.gv.at/ GeltendeFassung.wxe? Abfrage=Bundesnormen&Gesetzesnummer=10007687 (Stand: 7.11.2022). Ransmayr, Jutta (2014): Neue Forschungsmöglichkeiten zum österreichischen Deutsch mit dem Austrian Media Corpus (amc). In: Ransmayr, Jutta/ Moser-Pacher, Andrea/ Fink, Ilona E. (Hg.): Österreichisches Deutsch und Plurizentrik. (=- ide. Informationen zur Deutschdidaktik. Zeitschrift für den Deutschunterricht in Wissenschaft und Schule- 38.3). Innsbruck: StudienVerlag, S.-63-68. <?page no="55"?> DIE ÖSTERREICHISCHE PRESSELANDSCHAFT DIgITAL 55 Ransmayr, Jutta/ Mörth, Karlheinz/ Ďurčo, Matej (2013): Linguistic variation in the Austrian Media Corpus. Dealing with the challenges of large amounts of data. In: Procedia-- Social and Behavioral Sciences-95, S.-111-115. Ransmayr, Jutta/ Mörth, Karlheinz/ Ďurčo, Matej (2017): AMC (Austrian Media Corpus)-- Korpusbasierte Forschungen zum österreichischen Deutsch. In: Resch, Claudia/ Dressler, Wolfgang U. (Hg.): Digitale Methoden der Korpusforschung in Österreich. (=-Veröffentlichungen zur Linguistik und Kommunikationsforschung 30). Wien: Verlag der Österreichischen Akademie der Wissenschaften, S.-27-38. Rychlý, Pavel (2007): Manatee/ Bonito-A modular corpus manager. In: RASLAN- 2007, S.-65-70. Schmid, Helmut (1995): Improvements in part-of-speech tagging with an application to German. Stuttgart: Universität Stuttgart, Institut für machinelle Sprachverarbeitung. [ACL SIGDAT-Workshop: From texts to tags: issues in multilingual language analysis. Dublin, Ireland. March 27, 1994]. Schmid, Helmut/ Laws, Florian (2008): Estimation of conditional probabilities with decision trees and an application to fine-grained POS tagging. In: - Scott, Donia/ Uszkoreit, Hans (Hg.): Proceedings of the 22nd international conference on computational linguistics (Coling 2008). Manchester, UK: Coling 2008 Organizing Committee, S.-777-784. Schneider-Wiejowski, Karina/ Ammon, Ulrich (2013): Deutschlandismus, Germani(zi)smus, Teutonismus. Wie sollen die spezifischen Sprachformen Deutschlands heißen? In: Muttersprache-123,-4, S.-48-65. Ziegler, Theresa (2021): Über Geschenk-s-körbe und Schokolade-Ø-torten (zu runden Geburtstagen). Sneak Peek auf eine Abschlussarbeit über areal-horizontale Verfugungstendenzen bei NN-Komposita mit schwankenden Fugenelementen in der österreichischen Standard(schrift)sprache. In: Wiener Linguistische Gazette- 89, S.- 55-83. [Special Issue: Vom Tun nicht lassen können. Festgabe für Alexandra N. Lenz zum runden Geburtstag, hrsg. von Kim, Agnes/ Korecky-Kröll, Katharina/ Breuer, Ludwig M./ Höll, Jan/ Koppensteiner, Wolfgang]. <?page no="57"?> SIMON MEIER-VIERACKER Korpora zur Fußballlinguistik. Eine multilinguale Forschungsressource zur Sprache der-Fußballberichterstattung Abstract Die multilingualen Korpora zur Fußballlinguistik enthalten Texte der internetbasierten Berichterstattung in 13 europäischen Sprachen in vollständig annotierter Form. Sie werden registrierten Nutzenden über die webbasierte Korpusanalyseplattform CQPweb zugänglich gemacht. Der Beitrag stellt die Konzeption und Umsetzung der Ressource vor und umreißt anhand von Beispielen einige Nutzungsmöglichkeiten der Korpora im Rahmen der linguistischen Fußballforschung einerseits und erweiterten Fragestellungen etwa aus der Emotionsforschung und Raumlinguistik andererseits, die am Beispiel des Fußballs adressiert werden können. Keywords: Fußball, Korpuslinguistik, Sprachvergleich, Lexik, Kollokationen 1. Einleitung Fußball wird nicht nur gespielt und geschaut, über Fußball wird auch gesprochen und geschrieben. Und das so ausdauernd und ausführlich, dass sich längst eine charakteristische Sprache des Fußballs und der Fußballberichterstattung herausgebildet hat. Diese hat längst auch das Interesse der Sprachwissenschaft geweckt, die sich seit gut 90 Jahren immer wieder dem reichhaltigen sprachlichen Material zugewendet hat, das der Fußball hervorbringt (Lavric et al. (Hg.) 2008). In einer Vielzahl von Studien sind die lexikalischen und phraseologischen Eigenheiten der Sondersprache des Fußballs (Burkhardt 2010), aber auch charakteristische Textmuster und Textsorten aus der thematischen Domäne des Fußballs beschrieben worden. Aufgrund der internationalen Verbreitung des Fußballs spielen dabei sprachvergleichende Perspektiven seit jeher eine wichtige Rolle (McClintock 1933; Schönfelder 1954; Bergh/ Ohlander 2020). Seit einigen Jahren sind in der linguistischen Fußballforschung vermehrt korpuslinguistische Zugänge zu verzeichnen (Callies/ Levin (Hg.) 2019). Typischerweise wird hier auf die großen, thematisch unspezifischen Korpora wie etwa das British National Corpus oder D E R E K O zurückgegriffen, die natürlich auch Fußballtexte enthalten, oder es werden, insbesondere für sprachvergleichende Analysen, eigene Datensammlungen genutzt. Mit den hier vorzustellenden multilingualen Korpora zur Fußballlinguistik (https: / / fussballlinguistik.de/ korpora/ , Stand: 11.11.2022) (Meier 2017) liegt nun jedoch eine Forschungsressource vor, die in deutlich größerem Maßstab DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="58"?> SIMON MEIER-VIERACKER 58 auch sprachvergleichende korpuslinguistische Untersuchungen zur Sprache des Fußballs ermöglicht. 2. Die Ausgangslage Die Ausgangslage für die empirische Erforschung der Sprache des Fußballs und der Fußballberichterstattung ist wegen der Allgegenwärtigkeit des Themas Fußball etwa in der (Online-)Presse ausgesprochen günstig. Die großen Pressekorpora wie etwa das Deutsche Referenzkorpus enthalten auch Fußballtexte wie Spielberichte in großer Zahl. Dank der automatisierten Themenannotation (Weiß 2005) kann über das Abfragesystem KorAP gezielt in Texten dieses Themenbereichs recherchiert werden. Dennoch sind die Analysemöglichkeiten limitiert. Zum einen sind die auf diese Weise themenannotierten Texte sehr heterogen und nicht weiter nach unterschiedlichen Textsorten (Spielberichte, Liveticker usw.) unterschieden. Zum anderen müssen die Analysen dann auf das Deutsche beschränkt bleiben. Für sprachvergleichende Untersuchungen müsste auf verschiedene (National-)Korpora zugegriffen werden, und die in ganz unterschiedlichen Ausgabeformaten vorliegenden Ergebnisse müssten anschließend kompiliert werden. Da sich in den letzten Jahren die Fußballberichterstattung in die Onlinemedien ausgeweitet hat, können nun auch mit vergleichsweise geringem technischen Aufwand thematisch fokussierte Textkorpora erstellt werden. Da über den laufenden Spielbetrieb in großer Regelmäßigkeit berichtet wird und die entsprechend seriellen Texte in übersichtlichen Archiven-- etwa in Form von mit Hyperlinks versehenen Spielplänen- - auf den Webseiten präsentiert werden, können sehr saubere Datensätze mit vielfältigen Metadaten erhoben werden. Diesen Umstand machen sich die hier präsentierten Korpora zunutze und bereiten den thematisch präzise umgrenzten Bereich der internetbasierten Fußballberichterstattung in größerem Umfang so auf, dass die Sondersprache des Fußballs zielgenau korpuslinguistisch untersucht werden kann. 3. Konzeption und Umsetzung Die Korpora zur Fußballlinguistik enthalten Texte der internetbasierten Fußballberichterstattung in vollständig annotierter und um Metadaten angereicherter Form in den Sprachen Deutsch, Schweizer Standarddeutsch, 1 Englisch, Niederländisch, Französisch, Italienisch, Spanisch, Portugiesisch, Norwegisch, Polnisch, Tschechisch, Russisch, Ungarisch und Griechisch im Gesamtumfang von ca. 78-Mio. Token (Stand: Dezember 2021). Die erfassten Texte entfallen auf die Textsorten Liveticker, Spielbe- 1 Die Schweizer standarddeutsche Fußballsprache weist einige lexikalische und grammatische Besonderheiten auf (Glauninger/ Graf 2010) und wird darum hier als eigene Sprache geführt. <?page no="59"?> KORPORA ZUR FUSSBALLLINgUISTIK 59 richt, Taktikanalyse und Einzelkritik. Außerdem ist ein kleines Korpus mit transkribierten Radio-Livereportagen enthalten. Es handelt sich um Monitorkorpora, die auf ständige Erweiterung und Aktualisierung hin angelegt sind. Die Korpora sollen vor allem die „Reportsprache“ (Burkhardt 2006a, S.-55) des Fußballs dokumentieren. Deshalb liegt der Fokus auf redaktionellen Textsorten, deren Textexemplare konkrete Fußballspiele behandeln. Weitere Textsorten aus der Domäne des Fußballs wie etwa Hintergrundreportagen, Newsmeldungen, Fanzines (Meier-Vieracker 2021a) oder auch Social-Media-Beiträge wie Livetweets (Meier 2019a) werden nicht erfasst, da sie thematisch zu divers sind. Die folgende Tabelle zeigt die Zusammensetzung der Korpora, wobei jede Quelle als vordefiniertes Korpus einzeln abfragbar ist: Quelle Sprache Textsorten Tokens Texte kicker.de deutsch Liveticker, Spielberichte 6.200.542 3.060 weltfussball.de deutsch Liveticker 13.077.803 5.192 SID deutsch Liveticker 8.926.082 3.163 nzz.ch deutsch (CH) Liveticker 883.263 537 spielverlagerung.de deutsch Taktikanalysen 5.102.902 2.962 Taktikblogs diverse deutsch Taktikanalysen 498.264 290 sportschau.de deutsch Einzelkritiken 69.624 1.158 sportal.de deutsch Einzelkritiken 1.475.256 29.570 sportsmole.co.uk englisch Liveticker, Spielberichte 6.529.955 3.257 fcupdate.nl niederländisch Liveticker 4.706.975 2.476 lequipe.fr französisch Liveticker 2.730.803 1.247 matchendirect.fr französisch Liveticker 3.148.723 1.469 as.com spanisch Liveticker, Spielberichte 4.106.134 2.702 tuttomercatoweb.it italienisch Liveticker 5.505.344 3.080 maisfutebol.pt portugiesisch Liveticker 998.581 687 vglive.no norwegisch Liveticker 1.823.444 980 sportowefakty.wp.pl polnisch Liveticker 1.512.280 1.421 isport.cz tschechisch Liveticker 2.366.568 960 liveresult.ru russisch Liveticker 6.573.660 3.066 <?page no="60"?> SIMON MEIER-VIERACKER 60 Quelle Sprache Textsorten Tokens Texte nemzetisport.hu ungarisch Liveticker, Spielberichte 21.208 154 sport24.gr griechisch Liveticker 593.187 413 ARD deutsch Radioreportage 31.992 5 Tab.-1: Zusammensetzung der Korpora Die meisten Korpora führen jeweils eine Textsorte. In einigen (kicker.de, sportsmole. co.uk, as.com und nemzetisport.hu) sind hingegen Texte verschiedener Textsorten erfasst, die jeweils die gleiche Menge an Spielen aus unterschiedlichen Perspektiven behandeln. Gemessen an den in der Korpuslinguistik inzwischen üblichen Größenstandards handelt es sich freilich um eher kleine Korpora. Sie bieten jedoch den Vorteil, eine thematisch eng begrenzte, aber populärkulturell bedeutsame schriftsprachliche Domäne sozusagen in Reinform sowie sprachübergreifend zu repräsentieren. Das im Prinzip vergleichbare „Webkorpus Ballsportarten“, das seit kurzem in den Webkorpora des Digitalen Wörterbuchs der Deutschen Sprache verfügbar ist (www.dwds. de/ d/ korpora/ ballsport, Stand: 11.11.2022), ist mit 375 Millionen Wörtern zwar um ein Vielfaches größer. Das Korpus ist jedoch auf deutschsprachige Texte beschränkt, und durch das Scraping ganzer Webseiten einschließlich der Kommentarbereiche (Barbaresi 2019) ist es auch thematisch deutlich gestreuter. Bei der Auswahl der Quellen sind inhaltliche und technische Aspekte leitend. Berücksichtigt werden vor allem nicht vereinsgebundene Quellen mit hoher Reichweite, insbesondere überregionale (Online-)Presseportale wie kicker.de oder as.com. Vereinsseitige Berichterstattung wird ausgeklammert (Oksefjell Ebeling 2019). Soweit es möglich ist, werden die Texte saisonweise erhoben, um die erfassten Zeiträume und Wettbewerbe (v. a. die nationalen Ligen und Pokalwettbewerbe) möglichst vollständig abdecken zu können und auch diachrone Analysen zu ermöglichen. Da die Erhebung der Texte automatisiert geschieht (Webscraping), sind zudem technische Anforderungen an die Quellen gesetzt. Vollständig dynamische Webseiten ohne Archiv können nicht berücksichtigt werden. Die Texte werden einschließlich Metadaten mit Angaben zum Spiel (u. a. Datum, Wettbewerb, beteiligte Mannschaften, Ergebnis) sowie zur Publikation (Textsorte, Quelle, URL) erfasst und in einem XML-Format aufbereitet. Jeder Text erhält dabei eine korpusübergreifend eindeutige Sigle, welche Auskunft über Quelle, Wettbewerb, Saison bzw. Jahr und Textsorte gibt. In den Korpora wird nur der aus dem HTML-Code extrahierte Fließtext erfasst. In die Texte eingebettete Bilder und andere multimodale, etwa typographische Gestaltungselemente bleiben unberücksich- <?page no="61"?> KORPORA ZUR FUSSBALLLINgUISTIK 61 tigt. Allerdings kann über die in den Metadaten erfasste URL die Originalquelle aufgerufen und in ihrer ursprünglichen Textgestalt betrachtet werden (die indes vom jeweils aktuellen, sich häufig ändernden CSS-Style abhängt). Die aufbereiteten Texte werden schließlich mit linguistischen Annotationen versehen (part-of-speech und Lemmatisierung). Hierfür werden die Software TreeTagger (Schmid 2003) und die standardmäßig mitgelieferten Parameter-Dateien genutzt. Dabei wird die Funktion -no-unknown genutzt, mit der bei nicht erkannten Wörtern die Wortform auf der Lemmaposition ausgegeben wird. Für das Deutsche und Englische wurden die Parameter-Dateien um manuell erstellte, themenspezifische Lexika ergänzt, um die häufigsten Tagging- und Lemmatisierungsfehler zu vermeiden. Insgesamt ist die Qualität der Annotationen gut, auch wenn es sich in Teilen um konzeptionell mündliche (Koch/ Oesterreicher 2007) Schriftsprache handelt. Die Korpora sind über die browserbasierte Korpusanalyseplattform CQPweb (Hardie 2012) zugänglich, die auf der IMS Corpus Workbench (Evert/ CWB Development Team 2019) aufbaut. Nach kostenloser Registrierung (für Seminarkontexte können auch Gruppenaccounts beantragt werden) kann in einem passwortgeschützten Bereich in den Texten mit der standardisierten Suchsyntax CQP sowie dem vereinfachten Derivat Simple Query Syntax recherchiert werden. Einfache Plain-Text-Abfragen wie in gängigen Suchmaschinen sind ebenso möglich wie sehr komplexe, auf regulären Ausdrücken basierende Abfragen der annotierten Daten unter Einbezug der Metadaten. Neben der üblichen Keywords-in-Context-Ansicht der Ergebnisse und der Anzeige des Kontextes einzelner Belege von bis zu 1000 Wörtern stehen auch verschiedene statistische Auswertungsinstrumente zur Verfügung. Diese reichen von der Aufschlüsselung der (relativen) Frequenzen von Wortformen und ihrer Verteilung über Metadatenkategorien (etwa Zeiträume oder Textsorten) bis hin zu flexibel anpassbaren Keywords- und Kollokationsanalysen. Als Hilfestellung für die Nutzenden wurde ein inhaltlich auf die Korpora zugeschnittenes Tutorial entwickelt, das in aufsteigender Schwierigkeit in die Recherche- und Analysemöglichkeiten einführt (https: / / ali.gsw.tu-dresden.de/ tutorial.html, Stand: 11.11.2022). Auf dem Blog https: / / fussballlinguistik.de (Stand: 11.11.2022) werden zudem kleinere Forschungsergebnisse in popularisierender Form publiziert, welche die Nutzungsmöglichkeiten der Korpora veranschaulichen. Die in den Korpora erfassten Texte sind urheberrechtlich geschützt, so dass die Korpora nicht in Gänze zum Download angeboten werden können. Es können nur Textausschnitte angezeigt werden. Jedoch können Frequenzlisten exportiert und Ergebnisse von Suchanfragen und Berechnungen in verschiedenen Formaten heruntergeladen werden. Mit einigen Anbietern aus Deutschland, Großbritannien, der Niederlande und Russland konnten vertragliche Nutzungsvereinbarungen abgeschlossen werden, welche die Modalitäten der wissenschaftlichen Nutzung der Kor- <?page no="62"?> SIMON MEIER-VIERACKER 62 pora durch die Fachöffentlichkeit explizit regeln. Gemäß §-60d des 2019 novellierten deutschen Urheberrechtsgesetzes (Text und Data Mining für Zwecke der wissenschaftlichen Forschung) können für die registrierten Nutzenden aber auch die Texte jener Anbieter für wissenschaftliche Nutzungen mit den benannten Einschränkungen bereitgestellt werden, mit denen keine Nutzungsvereinbarung geschlossen werden konnte. 4. Nutzungsmöglichkeiten Die multilingualen Korpora zur Fußballlinguistik lassen sich für verschiedene linguistische Forschungskontexte nutzen. Neben fußballspezifischen Fragestellungen eignen sie sich auch für Forschungsfragen, die sich gut am Beispiel des Fußballs bearbeiten lassen. Zuvorderst können mit den Korpora die fußballtypische Lexik und Phraseologie untersucht werden. Bereits Lavric hält in der Einleitung zum epochemachenden Sammelband „The linguistics of football“ fest, dass sich die Fußballsprache in erster Linie durch lexikalische Eigenheiten auszeichne (Lavric 2008, S.-5). Zu den zahlreichen Untersuchungen und lexikographischen Ressourcen zum Fußballwortschatz (Burkhardt 2006b), die häufig auch sprachübergreifend und sprachvergleichend angelegt sind (Schmidt 2009; Jackson/ Penot 1983; Vollmert-Spiesky 1996), kann in den Korpora ergänzend recherchiert werden. Sie liefern erweiterte Belegsammlungen oder können auch zur Erhebung bislang nicht erfasster Lexeme (wie etwa Fliegenfänger, Spielaufbau oder Dreierkette, die im mehrsprachigen elektronischen Fußballwörterbuch Kicktionary nicht geführt werden) und Phraseologismen (z. B. die fußballcharakteristische Redewendung to throw the kitchen sink, dt. annäherungsweise ‚alles nach vorne werfen‘) (Meier-Vieracker 2022a) genutzt werden. Die in CQPweb implementierte Kollokationsanalyse, ein Standardinstrument der korpusbasierten Lexikographie, ermöglicht zudem Präzisierungen der bestehenden Wörterbucheinträge. So lässt sich zum Beispiel mit einer Verbkollokationsanalyse zeigen, dass die Jargonwörter Pille und Leder, die als stilitisch markierte Varianten zu Ball gelten, mit eher expressiven Verben wie nageln, dreschen und knallen kombiniert werden, während bei Ball Verben wie legen, bringen hochsignifikante Verbkollokate sind. Über Kollokationsanalysen können auch einzellexemübergreifende Formulierungsmuster im Sinne von usuellen Wortverbindungen (Steyer 2014) am Übergang zur Phraseologie erhoben werden, die gerade in sprachvergleichender Perspektive besonders interessant sind (Hausmann 2004). Beispielsweise lässt sich zeigen, dass im Englischen die bereits zu einem Funktionsverbgefüge verfestigte Kollokation to score an own goal gebräuchlich ist, während es im Deutschen typischerweise in stärkerer Betonung der Unabsichtlichkeit heißt, dass dem Spieler ein Eigentor unterläuft. Im Spanischen und Französischen hingegen sind mit marcar un gol en propia puerta <?page no="63"?> KORPORA ZUR FUSSBALLLINgUISTIK 63 und marquer contre son camp dem Englischen vergleichbare Formulierungen üblich. Auch bei den Bezeichnungen für Ecke bzw. Eckball lassen sich in den verschiedenen Sprachen jeweils typische Wortverbindungen nachweisen (Meier-Vieracker 2022c), die teilweise sogar als Kollokationen im engeren Sinne, also nichtkompositionale, teilidiomatische Wortverbindungen (Evert 2009, S.- 1214) beschrieben werden können. Für Schilderungen aus der Perspektive des angreifenden Teams, dem also der Eckball zugesprochen wird, stehen die folgenden Formulierungen zur Verfügung. Sprache Kollokation wörtl. Übersetzung deutsch eine Ecke herausholen englisch to win a corner eine Ecke gewinnen niederländisch en hoekschop verdienen eine Ecke verdienen spanisch forzar un saque de esquina eine Ecke erzwingen französisch obtenir un corner eine Ecke erhalten italienisch guadagnere/ conquistare un angolo eine Ecke verdienen/ erobern portugiesisch ganhar canto eine Ecke gewinnen norwegisch vinner et hjørnespark eine Ecke gewinnen griechisch κερδίζω κόρνερ eine Ecke verdienen russisch заработать угловой eine Ecke verdienen polnisch wywalczyć rzut rożny eine Ecke erkämpfen tschechisch vybojovat rohový kop eine Ecke erkämpfen Tab.-2: Verbkollokationen zu Ecke im Sprachvergleich-1 Das sprachliche Bild, dass das angreifende Team eine Ecke wie eine Belohnung erhält, ist offenbar in vielen Sprachen gebräuchlich. Es wird aber ganz unterschiedlich perspektiviert, indem eine Ecke verdient (niederl., ital., griech., russ.), gewonnen (engl., norw., portug.) oder aber erzwungen und erkämpft (span., poln., tschech.) wird. Für Schilderungen aus der Perspektive des verteidigenden Teams, das also durch das Spielen des Balles ins eigene Toraus den Eckball verursacht, sind dagegen folgende Formulierungen üblich: Sprache Kollokation wörtl. Übersetzung deutsch zur Ecke klären englisch deflect behind for a corner nach hinten für eine Ecke ablenken spanisch despejar a sqaue de esquina zur Ecke klären <?page no="64"?> SIMON MEIER-VIERACKER 64 Sprache Kollokation wörtl. Übersetzung französisch degager en corner in die Ecke räumen italienisch rifiugiarsi in angolo sich in die Ecke flüchten portugiesisch cortar para canto für die Ecke schneiden norwegisch klarere til korner zur Ecke klären griechisch διώχνω σε κόρνερ zur Ecke vertreiben Tab.-3: Verbkollokationen zu Ecke im Sprachvergleich-2 Nicht nur die mit den Eckballbezeichnungen zu kombinierenden Verben, sondern auch die Präpositionen variieren von Sprache zu Sprache, so dass die entsprechenden Mehrworteinheiten auch als ganze gelernt werden müssen. Für die Thematisierung der Fußballsprache im Fremdsprachunterricht ergeben sich hier interessante Perspektiven (Meier-Vieracker 2022c). Besonders breit erfasst ist in den Korpora die Textsorte Liveticker (Chovanec 2018), die als schriftliche Form der Echtzeitberichterstattung eine einzigartige Ressource für die linguistische Fußballforschung darstellt. Liveticker sind zum einen eine besonders ergiebige Quelle für die Reportsprache des Fußballs. Da die Autor: innen unter großem Zeitdruck Text produzieren müssen und deshalb auf etablierte Formulierungsroutinen zurückgreifen, diese Routinehaftigkeit aber durch ein breites-Set an (Quasi-)Synonymen etwa für Ball oder schießen ausbalancieren (Meier 2019b), kann die stark ausdifferenzierte Fußballsprache hier in geradezu verdichteter Form beobachtet und analysiert werden. Zum anderen liefert die Textsorte als eine Form der quasi-synchronen, aber schriftlichen Kommunikation hochergiebiges Material für Fragen etwa nach konzeptioneller Mündlichkeit sowie nach der sprachlich-textuellen Codierung von Emotionen. So finden sich in Livetickern expressiv wirkende Formen emulierter Mündlichkeit etwa durch Zeicheniterationen (z. B. Tooooor, Uiiiii usw.), die sich mit der regex-basierten Suchsyntax systematisch auffinden lassen. Diese Merkmale sind aus den Forschungen zur internetbasierten Schriftkommunikation wohlbekannt, werden hier aber auch in einer redaktionellen Textsorte offenbar nach dem Vorbild mündlicher Livekommentare zur Erzeugung von Spannung und Unmittelbarkeit eingesetzt (Kern 2014). Auf syntaktischer Ebene lässt sich ebenfalls eine besondere Expressivität nachweisen, etwa anhand der hochfrequenten Exklamativkonstruktionen wie [was für ein x] (Meier 2019a, S.- 164) bzw. [what a- x] (Chovanec 2018, S.- 196). Aber auch nach Verberst-Exklamatikvsätzen (Ist das bitter! ) (Zifonun/ Hoffmann/ Strecker 1997, S.-672), die in schriftlichen Textsorten sonst ausgesprochen selten sind, lässt sich in den syntaktisch annotierten Korpora gezielt recherchieren. Die einen größeren Zeitraum gleichmäßig abdeckenden und mit Metadaten versehenen Livetickerkor- <?page no="65"?> KORPORA ZUR FUSSBALLLINgUISTIK 65 pora ermöglichen schließlich auch diachrone Analysen, in denen gezeigt werden kann, dass konzeptionell mündliche Merkmale mit der Zeit abnehmen und sich die Textsorte nach und nach dem geschriebenen Standard annähert (Meier-Vieracker 2021b). Schließlich können die Livetickerkorpora auch für textsortenlinguistische Fragestellungen genutzt werden. Insbesondere in den Sprachen Deutsch, Englisch und Spanisch, in denen jeweils zum gleichen Set an Spielen Liveticker und Spielberichte vorliegen, können etwa durch Keywordanalysen (Culpeper/ Demmen 2015) typische Merkmale der Livebzw. Nonliveberichterstattung erhoben werden. So zeigt sich, dass für Liveticker origo-gebundene deiktische Ausdrücke wie dt. jetzt, hier, derzeit, engl. here, now und span. ahora typisch sind. In den deutschsprachigen Spielberichten sind dagegen anaphorische Pronominaladverbien wie danach oder worauf charakteristisch. In den englischen und spanischen Spielberichten werden temporale Konnektoren wie when und before bzw. cuando signifikant häufig verwendet, was zugleich auf eine komplexere Syntax hinweist. Ein ähnlicher Befund zeigt sich für das Deutsche, wo subordinierende Konjunktionen in Spielberichten deutlich häufiger verwendet werden als in Livetickern. Die für die jeweiligen Produktionsbedingungen typischen Vertextungsmuster für die gemeinsame Aufgabe des Berichtens über Fußballspiele lassen sich auf diesem Wege in quantitativen Zugängen untersuchen. Eine ausgesprochen ertragreiche Quelle bieten die Korpora auch für raumlinguistische Fragestellungen. In der Fußballberichterstattung müssen allem voran Bewegungen von Ball und Spielern beschrieben werden. Sie werden dabei typischerweise aus der Perspektive eines der beiden Teams geschildert (siehe oben die beiden Perspektiven auf die Verursachung von Eckbällen). Mögliche Analysegegenstände sind etwa deiktisch markierte Referenzrahmen für die Versprachlichung von Bewegung und Raum wie in Pass hinter die Abwehr oder Angriff über links (Meier/ Thiering 2017). Weiterhin kann die in der Konstruktionsgrammatik breit diskutierte caused motion-Konstruktion (Goldberg 1995, S.-152-179), in der Verben durch die Kombination mit einer direktionalen Präpositionalphrase eine neue Lesart erhalten, korpusbasiert untersucht werden. Einschlägige Beispiele wie dt. streichelt den Ball über die Linie, engl. drills the ball into the box oder niederl. krult de bal voor het doel lassen sich in großer Zahl finden. Über den in CQPweb möglichen Export von Abfrageergebnissen sind sogar quantitative Analysen in Form von Kollostruktionsanalysen (Stefanowitsch/ Gries 2003) möglich, um Verben zu berechnen, die besonders stark mit dieser Konstruktion assoziiert sind (Meier-Vieracker 2022b). Gleiches gilt für die way-Konstruktion (Goldberg 1995, S.-199-218) wie jinks his way inside the box sowie ihre deutsche Entsprechung der reflexiven Bewegungskonstruktion wurschtelt sich durch den Strafraum (Willich 2022, S.-77-81). <?page no="66"?> SIMON MEIER-VIERACKER 66 5. Fazit Die vorgestellten Korpora zur Fußballlinguistik stellen eine bislang einzigartige Ressource für die linguistische Fußballforschung dar. Doch nicht nur an der Fußballsprache als solche interessierte Forschende finden hier eine nützliche empirische Basis. Auch für andere Fragestellungen etwa aus der Emotions- oder der Raumlinguistik, die gut am Beispiel des Fußballs adressiert werden können, bieten sich die Korpora an. Die multilinguale Anlage der Korpora überwindet dabei die einzelsprachliche Orientierung vieler öffentlich verfügbarer Korpusressourcen und kann somit zur internationalen Vernetzung von korpuslinguistisch Forschenden beitragen. Darüber hinaus eignen sich die Korpora auch für methodendidaktische Zugänge, um am Beispiel der populären und lebensweltlich relevanten Fußballsprache korpuslinguistische Fragestellungen und Techniken zu vermitteln und corpus literacy (Mukherjee 2004) zu fördern. Literatur Barbaresi, Adrien (2019): The vast and the focused: on the need for domain-focused web corpora. In: Bánski, Piotr/ Barbaresi, Adrian/ Biber, Hanno/ Breiteneder, Evelyn/ Clematide, Simon/ Kupietz, Marc/ Lüngen, Harald/ Iliadi, Caroline (Hg.): Proceedings of the workshop on challenges in the management of large corpora (CMLC-7), Cardiff, 22- July 2019. Mannheim: Leibniz-Institut für Deutsche Sprache, S.-29-32. Bergh, Gunnar/ Ohlander, Sölve (2020): From national to global obsession: football and football English in the superdiverse 21st Century. In: Nordic Journal of English Studies-19,-5, S.-359-383. Burkhardt, Armin (2006a): Sprache und Fußball. Linguistische Annäherung an ein Massenphänomen. In: Muttersprache-1/ 116, S.-53-73. Burkhardt, Armin (2006b): Wörterbuch der Fußballsprache. Göttingen: Werkstatt. Burkhardt, Armin (2010): Der deutsche Fußball und seine Sprache. Ein Beitrag zur Fach- und Sondersprachendidaktik im DaFUnterricht. In: Brünner Hefte zu Deutsch als Fremdsprache-3,-2, S.-149-166. Callies, Marcus/ Levin, Magnus (Hg.) (2019): Corpus approaches to the language of sports. Texts, media, modalities. (=-Corpus and Discourse). London: Bloomsbury. Chovanec, Jan (2018): The discourse of online sportscasting: constructing meaning and interaction in live text commentary. (=- Pragmatics & beyond new series- 297). Amsterdam/ Philadelphia: Benjamins. Culpeper, Jonathan/ Demmen, Jane (2015): Keywords. In: Biber, Douglas/ Reppen, Randi (Hg.): The Cambridge handbook of English Corpus Linguistics. Cambridge: Cambridge University Press, S.-90-105. <?page no="67"?> KORPORA ZUR FUSSBALLLINgUISTIK 67 Evert, Stefan (2009): Corpora and collocations. In: Lüdeling, Anke/ Merja, Kytö (Hg.): Corpus Linguistics. An international handbook. Bd.-2. (=-Handbooks of Linguistics and Communication Science-29.2). Berlin/ Philadelphia: De Gruyter, S.-1212-1248. Evert, Stefan/ CWB Development Team (2019): The IMS open corpus workbench (CWB).-CQP interface and query language manual.-CWB version-3.5. http: / / cwb.sourceforge.net/ files/ CQP_Tutorial.pdf (Stand: 11.11.2022). Glauninger, Manfred M./ Graf, Martin H. (2010): Österreichischer und schweizderdeutscher Fußball-Jargon im Spiegel charakteristischer Wörter und Wendungen. In: Der Deutschunterricht-62,-3, S.-66-75. Goldberg, Adele E. (1995): Constructions: a construction grammar approach to argument structure. (=-Cognitive Theory of Language and Culture Series). Chicago/ London: University of Chicago Press. Hardie, Andrew (2012): CQPweb-- combining power, flexibility and usability in a corpus analysis tool. In: International Journal of Corpus Linguistics-17,-3, S.-380-409. Hausmann, Franz Josef (2004): Was sind eigentlich Kollokationen? In: Steyer, Kathrin (Hg.): Wortverbindungen-- mehr oder weniger fest. (=-Jahrbuch des Instituts für Deutsche Sprache-2003). Berlin/ New York: De Gruyter, S.-309-334. Jackson, Ross/ Penot, Erich (1983): Fussballterminologie (D-F-I-E). In: Lebende Sprachen-28,-2, S.-85-88. Kern, Friederike (2014): „und der schlägt soFORT nach VORne“-- Zur Konstitution von Spannung und Raum in Fußball-Livereportagen im Radio. In: Bergmann, Pia/ Birkner, Karin/ Gilles, Peter/ Spiekermann, Helmut/ Streck, Tobias (Hg.): Sprache im Gebrauch: räumlich, zeitlich, interaktional. Festschrift für Peter Auer. (=- Oralingua- 9). Heidelberg: Winter, S.-327-342. Koch, Peter/ Oesterreicher, Wulf (2007): Schriftlichkeit und kommunikative Distanz. In: Zeitschrift für germanistische Linguistik-35,-3, S.-346-375. Lavric, Eva (2008): Introduction. In: Lavric/ Pisek/ Skinner/ Stadler (Hg.), S.-5-8. Lavric, Eva/ Pisek, Gerhard/ Skinner, Andrew/ Stadler, Wolfgang (Hg.) (2008): The linguistics of football. (=-Language in performance-38). Tübingen: Narr. McClintock, Theodore (1933): English and American sport terms in German. In: American Speech-8,-4, S.-42-47. Meier, Simon (2017): Korpora zur Fußballlinguistik-- eine mehrsprachige Forschungsressource zur Sprache der Fußballberichterstattung. In: Zeitschrift für germanistische Linguistik-45,-2, S.-345-349. Meier, Simon (2019a): mitfiebern- - Mediatisierte emotionale Kommunikationspraktiken in Fußball-Livetickern und Livetweets. In: Hauser, Stefan/ Luginbühl, Martin/ Tienken, Susanne (Hg.): Mediale Emotionskulturen. Bern: Lang, S.-155-178. <?page no="68"?> SIMON MEIER-VIERACKER 68 Meier, Simon (2019b): Formulaic language and text routines in football live text commentaries and match reports- - a crossand corpus-linguistic approach. In: Callies/ Levin (Hg.), S.-13-35. Meier, Simon/ Thiering, Martin (2017): The encoding of motion events in football and cycling live text commentary: a corpus linguistic analysis. In: Yearbook of the German Cognitive Linguistics Association-5,-1, S.-43-56. Meier-Vieracker, Simon (2021a): Diskurslinguistik für Fans. Kritisches Medienmonitoring von Fußballfans als Gegenstand und Ziel der Diskurslinguistik. In: Zeitschrift für Diskursforschung-2020, 2/ 3, S.-118-140. Meier-Vieracker, Simon (2021b): The evolution of football live text commentaries: a corpus linguistic case study on genre change. In: AILA Review-34, S.-274-299. Meier-Vieracker, Simon (2022a): Kontrastive Phraseologie des Fußballs. Ein korpuslinguistischer Zugang. In: Linguistische Treffen in Wroclaw-20,-2, S.-133-146. Meier-Vieracker, Simon (2022b): Fußbälle, nicht Taschentücher. Korpuslinguistische Analysen zum Gebrauch von caused-motion-Konstruktionen in der Fußballberichterstattung. In: - Zenodo.- https: / / zenodo.org/ record/ 6386177- (Stand: 11.11.2022). [Meeting: Konstruktionsgrammatik germanischer Sprachen, (KxG2022), Dresden,-24.-25.3.2022]. Meier-Vieracker, Simon (2022c): Fußballwortschatz digital. Korpuslinguistische Ressourcen für den Sprachunterricht. In: Korpora Deutsch als Fremdsprache-2,-1, S.-7-24. Mukherjee, Joybrato (2004): Bridging the gap between applied corpus linguistics and the reality of English language teaching in Germany. In: Connor, Ulla/ Upton, Thomas A. (Hg.): Applied Corpus Linguistics. A multidimensional perspective. (=- Language and Computers-52). Leiden: Brill, S.-239-250. Oksefjell Ebeling, Signe (2019): The language of football match reports in a contrastive perspective. In: Callies/ Levin (Hg.), S.-37-62. Schmid, Helmut (2003): Probabilistic part-of-speech tagging using decision trees. In: Jones, Daniel B./ Somers, Harold (Hg.): New methods in language processing. London: Routledge, S.-154-164. Schmidt, Thomas (2009): The Kicktionary-- a multilingual lexical resource of football language. In: Boas, Hans C. (Hg.): Multilingual framenets in computational lexicography. Methods and applications. (=-Trends in Linguistics. Studies and Monographs [TiLSM]-200). Berlin/ Boston: De Gruyter, S.-101-132. Schönfelder, Karl-Heinz (1954): Englische Lehnwörter in der deutschen Fußballsprache. In: Zeitschrift für Anglistik und Amerikanistik-2, S.-295-326. Stefanowitsch, Anatol/ Gries, Stefan Th. (2003): Collostructions: investigating the interaction- of words and constructions. In: International Journal of Corpus Linguistics- 8,- 2, S.-209-243. Steyer, Kathrin (2014): Usuelle Wortverbindungen: Zentrale Muster des Sprachgebrauchs aus korpusanalytischer Sicht. (=-Studien zur Deutschen Sprache-65). Tübingen: Narr. <?page no="69"?> KORPORA ZUR FUSSBALLLINgUISTIK 69 Vollmert-Spiesky, Sabine (1996): Vergleichende Untersuchung der Lexik des Fußballspiels im Russischen, Polnischen und Deutschen: Ein Beitrag zur Eurolinguistik. (=- Slavistische Veröffentlichungen-81). Wiesbaden: Harrassowitz. Weiß, Christian (2005): Die thematische Erschließung von Sprachkorpora. (=-OPAL-- Online Publizierte Arbeiten zur Linguistik-1/ 2005). Mannheim: Institut für Deutsche Sprache. Willich, Alexander (2022): Konstruktionssemantik: Frames in gebrauchsbasierter Konstruktionsgrammatik und Konstruktikographie. (=-Linguistik-- Impulse & Tendenzen-98). Berlin/ Boston: De Gruyter. Zifonun, Gisela/ Hoffmann, Ludger/ Strecker, Bruno (1997): Grammatik der deutschen Sprache. Bd.- 1. (=- Schriften des Instituts für Deutsche Sprache- 7.1). Berlin/ New York: De Gruyter. <?page no="71"?> SARAH JABLOTSCHKIN/ HEIKE ZINSMEISTER LeiKo Ein Vergleichskorpus für Leichte Sprache und Einfache Sprache Abstract Leichte und Einfache Sprache sind vereinfachte Varianten des Deutschen, welche für Menschen mit Einschränkungen im Lesen oder Textverstehen den Zugang zu geschriebenen Informationen ermöglichen. Um diese beiden Varianten systematisch aus linguistischer Perspektive untersuchen zu können, wurde das Mehrebenen-annotierte Vergleichskorpus LeiKo erstellt. Nach einer Einordnung von Leichter und Einfacher Sprache werden im vorliegenden Text die Konzeption und Erstellung des Korpus beschrieben und anschließend anhand einer Beispielstudie zur Vorfeldbesetzung mögliche Anwendungsbereiche demonstriert. Keywords: Vereinfachtes Deutsch, Vergleichskorpus, Korpuserstellung, Annotation, Vorfeldbesetzung, ANNIS-Abfrage 1. Einleitung Um für erwachsene Personen mit eingeschränkter Lesekompetenz (vgl. Grotlüschen et al. 2020) den Zugang zu geschriebenen Informationen zu gewährleisten, gibt es im Deutschen Einfache Sprache und Leichte Sprache. Leichte Sprache ist in Deutschland gesetzlich verankert durch die UN-Behindertenrechtskonvention und das Behindertengleichstellungsgesetz. Im Zuge dessen wurden Regelwerke für Leichte Sprache entwickelt (BITV 2.0, 2011; Netzwerk Leichte Sprache 2014), welche wiederum zum Gegenstand linguistischer Beschreibungen wurden (Bredel/ Maaß 2016). In Beispiel (1), einem Auszug aus einem Leichte-Sprache-Text, werden z. B. nur Verbzweit- und keine Verbletztsätze verwendet und Personalpronomen vermieden: (1) Die 2 großen Veranstaltungen sind an einem Wochen·ende. Deshalb sind die Bewohner von St. Pauli genervt. Die Bewohner von St. Pauli sagen: Zu diesen 2 großen Veranstaltungen kommen sehr viele Menschen. Diese Menschen machen viel Lärm. Und diese Menschen machen viel Müll. Deshalb stören diese Menschen uns. (NDR 2018a) Die Auswirkungen solcher syntaktischer und lexikalischer Vereinfachungen auf die Textebene sind bisher noch nicht ausreichend untersucht worden. Auch ist aus linguistischer Perspektive die genaue Abgrenzung zwischen Einfacher und Leichter DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="72"?> SARAH JABLOTSCHKIN/ HEIKE ZINSMEISTER 72 Sprache oft unklar. Als eine mögliche empirische Grundlage wurde daher das Mehrebenen-annotierte Vergleichskorpus LeiKo entwickelt, das auf Zenodo nachhaltig frei zur Verfügung steht. 1 Im Folgenden ordnen wir die beiden Varianten Leichte und Einfache Sprache ein und stellen bestehende Korpora vor (Abschn.-2). Im Anschluss beschreiben wir die Konzeption und Erstellung von LeiKo (Abschn.-3) und demonstrieren anhand einer Beispielstudie zur Vorfeldbesetzung mögliche Einsatzbereiche (Abschn.-4), ehe wir mit einer Zusammenfassung abschließen (Abschn.-5). 2. Leichte Sprache und Einfache Sprache Sowohl Leichte Sprache als auch Einfache Sprache verfolgen das Ziel, die Textverständlichkeit für bestimmte Personengruppen zu verbessern. Beide unterscheiden sich jedoch im Hinblick auf ihre Entstehungsgeschichte und sprachliche Restringiertheit. Die Verwendung von Einfacher Sprache wurde laut Kellermann (2013, S.-5, mit Bezug auf Tronbacke 1999) maßgeblich vom Bibliotheks- und Verlagswesen angetrieben, welches den Zugang zu Informationen und Kultur als demokratisches Recht deklarierte. In aktuellen Ratgebern zu Einfacher Sprache wird diese als Mittel der fachexternen Kommunikation konzeptualisiert (Baumert 2019, S.-1 f., https: / / www. einfache-sprache.com/ , Stand: 18.11.2022). Im Gegensatz dazu ist Leichte Sprache aus dem Empowerment 2 von Menschen mit Lernschwierigkeiten 3 heraus entstanden, welche eine Teilhabe an der Gesellschaft durch zugängliche Informationen einforderten (vgl. Netzwerk Leichte Sprache 2021). Während sich die Erstellung von Texten in Einfacher Sprache an Empfehlungen orientiert, welche auch Wert auf künstlerische Freiheit legen (Tronbacke 1999; Ismaiel 2018; Baumert 2019), wurden für Leichte Sprache relativ starre Regeln formuliert (vgl. Inclusion Europe o.-J.; Netzwerk Leichte Sprache 2014). Inzwischen haben jedoch Studien gezeigt, dass Texte mit dem Label Leichte Sprache häufig nicht durch eine strikte Regelumsetzung entstehen, sondern dass in den Texten auch Strukturen 1 Zenodo-Archiv von LeiKo: https: / / doi.org/ 10.5281/ zenodo.6362739. 2 Auch: Ermächtigung. Gemeint ist die Entdeckung persönlicher Ressourcen und der Fähigkeit, diese im Sinne der Selbstbestimmung für die eigenen Interessen einsetzen zu können (vgl. ISL o. J.). 3 Die teilweise in der Wissenschaft auf der Basis von IQ-Levels vorgenommene Unterscheidung zwischen geistiger Behinderung und Lernschwierigkeiten (vgl. Bredel/ Maaß 2016, S.-146-148) wird hier nicht übernommen. Stattdessen verwenden wir die Selbstbezeichnung Menschen mit Lernschwierigkeiten, welche u. a. von Selbstvertretungsverbänden gefordert wird (vgl. Mensch zuerst 2022). <?page no="73"?> LeiKo 73 auftreten, die von den Regelwerken abgelehnt werden (z. B. Bock 2017; Lange 2019; Fuchs 2021). Bei der sprachwissenschaftlichen Einordnung gehen Linguist*innen mit dieser Divergenz zwischen Leichte-Sprache-Regeln und Textpraxis unterschiedlich um. So werden die Regeln von Maaß (2015) und Bredel/ Maaß (2016) linguistisch untermauert und präzisiert, um eine einheitlichere Qualität der Texte sicherzustellen, und Leichte Sprache als eine auf allen linguistischen Ebenen regulierte Varietät eingeordnet (Bredel/ Maaß 2016, S.- 14). Bock (2018, S.- 9-11) hingegen nähert sich Leichter Sprache im Rahmen des LeiSa-Projekts induktiv und untersucht korpusbasiert die Extension von Leichte Sprache. Sie verwendet den Begriff folglich als „Dachbegriff “ für verschiedene verständlichkeitsoptimierte Ansätze. Die Regeln versteht sie lediglich als „Faustregeln“ und hebt darüber hinaus die Bedeutung von Angemessenheit z. B. in Bezug auf die Textfunktion hervor (Bock 2018, S.-17). Einfache Sprache wird in der Regel nicht als linguistisches Phänomen für sich genommen beschrieben, sondern in Relation zu Leichter Sprache, und auf dem Komplexitätskontinuum zwischen Leichter Sprache und Standardsprache eingeordnet (z. B. Lange/ Bock 2016; Maaß 2020). Während es für die Erstellung von Texten in Einfacher Sprache keinen standardisierten Ablauf gibt, werden Leichte-Sprache-Texte häufig von professionellen Leichte-Sprache-Büros erstellt, welche mit Prüfer*innen aus der Leichte-Sprache- Zielgruppe zusammenarbeiten (Nagel 2021). Darüber hinaus existieren aber auch redaktionell erstellte Leichte-Sprache-Inhalte, z. B. vom NDR, welcher mit den Regeln von Bredel/ Maaß (2016) arbeitet und sich in regelmäßigem Austausch mit der Forschungsstelle Leichte Sprache Hildesheim befindet (persönliche Kommunikation). Für die Erforschung von Einfacher und Leichter Sprache sind bereits diverse Korpora erstellt worden, sowohl monolinguale Korpora mit Texten von einem Herausgeber (Fuchs 2017) oder mehreren (Fuchs 2019, 2021) als auch Vergleichskorpora mit vergleichbaren Texten der verschiedenen Varianten (vgl. das LeiSa-Korpus: Lange/ Bock 2016; Bock 2017; Lange 2019) und Parallelkorpora mit standardsprachlichen Ausgangstexten und den jeweiligen Übersetzungen in Leichte Sprache (vgl. Jekat et al. 2017; Battisti et al. 2020; Hansen-Schirra/ Nitzke/ Gutermuth 2021). Die größeren Korpora von Battisti et al. (2020) mit circa 1,9 Mio. Token und Hansen-Schirra/ Nitzke/ Gutermuth (2021) mit mehr als 1-Mio. Token enthalten automatische Annotationen auf Ebenen wie Wortarten und syntaktischen Dependenzen und darüber hinaus Alignierungen auf Satzebene. Im Gegensatz zu den hier skizzierten Korpora ist LeiKo frei online durchsuchbar und nachnutzbar. Darüber hinaus ist es auf mehreren Ebenen nicht nur automatisch, sondern in Teilen auch manuell annotiert. <?page no="74"?> SARAH JABLOTSCHKIN/ HEIKE ZINSMEISTER 74 3. Textgrundlage und Korpusarchitektur LeiKo besteht aus einem manuell annotierten Kernkorpus mit circa 10.000 Token und einem automatisch annotierten, erweiterten Korpus mit circa 46.000 Token. Beide Teilkorpora beinhalten Texte von jeweils vier Herausgebern, davon zwei für Informationen in Leichter Sprache (NDR und tazleicht) sowie zwei für Informationen in Einfacher Sprache (SR und nachrichtenleicht). Alle Texte wurden in den Jahren 2017 und 2018 veröffentlicht. 4 Als „Mehrebenenkorpus“ (Zeldes 2018, S.-4, 7-9; Stede 2018, S.-199 f.) enthält LeiKo unabhängig voneinander erstellte Annotationen auf verschiedenen linguistischen Ebenen. Dadurch, dass Annotationsebenen separat voneinander erstellt werden, kann zum einen die Komplexität der einzelnen Annotationsaufgabe reduziert werden, zum anderen sind die Annotationsergebnisse deutlich einfacher nachvollziehbar und reproduzierbar (vgl. Stede 2008, S.-313; Emmrich/ Hennig 2022). Indem Interaktionen zwischen den verschiedenen Annotationen berechnet werden, sind Untersuchungen von komplexen linguistischen Phänomenen wie Kohärenz möglich (Stede 2008, S.-312, 2018, S.-199-203; Zeldes 2017, S.-603-609, 2018, S.-12). Dies ist für Leichte und Einfache Sprache besonders interessant, da Kohärenz eine ausschlaggebende Rolle für das Textverstehen spielt (z. B. McNamara et al. 1996; Rayner et al. 2012; Christmann/ Groeben 2019), die bisherigen Ratgeber und Regelwerke sowie linguistische Untersuchungen sich jedoch vor allem auf Vereinfachungen konzentrieren, die separat auf den einzelnen Ebenen wirken. Mithilfe von LeiKo lässt sich beispielsweise untersuchen, ob Komplexitätsreduktionen auf einer Ebene (z. B. feste Wortstellung) systematisch mit komplexitätssteigernden Eigenschaften auf anderen Ebenen (z. B. implizite Diskursrelationen) einhergehen. LeiKo ist darüber hinaus ein Vergleichskorpus mit thematisch und funktional vergleichbaren Texten verschiedener Sprachsysteme (vgl. Lemnitzer/ Zinsmeister 2015, S.-138), welches trotz seiner eher geringen Größe die Untersuchung frequenter linguistischer Kategorien, wie z. B. vieler Wortarten und Dependenzfunktionen, zulässt (vgl. Zeldes 2017, S.-584). Die Sprachsysteme sind zum einen durch die Variantenlabels Leichte Sprache (ca. 39.700 Token) und Einfache Sprache (ca. 16.700 Token) definiert. Zum anderen lässt sich durch die Erfassung der Herausgeber als Metadatum untersuchen, welchen Einfluss diese bzw. deren Text-Erstellungspraxen auf die Variation innerhalb einer Variante haben. 4 Ausgewogenheit in Bezug auf die zeitliche Stratifizierung im Publikationszeitraum war kein Ziel des Samplings. <?page no="75"?> LeiKo 75 4. Korpuserstellung Die Onlinetexte wurden mithilfe der Python-Pakete requests und bs4 heruntergeladen 5 und aus den entsprechenden html-Dateien extrahiert (vgl. Sweigart 2015). Teilweise musste manuell nachkorrigiert werden. Anschließend fand eine Tokenisierung mithilfe des in NLTK3.0 (Bird/ Klein/ Loper 2009) integrierten Systems Punkt (Kiss/ Strunk 2006) sowie eine Konversion ins CoNLL2009-Format (Hajič et al. 2009) statt. 6 Abb.-1: Annotationen in LeiKo Abbildung-1 zeigt die Annotationsabfolge. Das gesamte Korpus wurde mit den Mate Tools (Björkelund et al. 2010) automatisch annotiert. Dabei wurden für die Lemmata und Wortarten auf dem TIGER-Korpus (Brants et al. 2002) trainierte Modelle genutzt 5 Die Nutzungsrechte wurden bei den Herausgebern erfragt. Nachnutzung zulässig unter CC BY 4.0. 6 Für das Zurverfügungstellen der Präprozessierungsskripte danken wir herzlich Melanie Andresen. <?page no="76"?> SARAH JABLOTSCHKIN/ HEIKE ZINSMEISTER 76 und für die Dependenzannotation ein auf der Hamburg Dependency Treebank (Foth et al. 2014) trainiertes Modell (Adelmann et al. 2018). Bei der automatischen Koreferenzannotation kam das neuronale Annotationstool von Schröder/ Hatzel/ Biemann (2021) zum Einsatz. Im Folgenden werden grundlegende Annotationsentscheidungen kurz skizziert. Für die ausführlichen Guidelines sei an dieser Stelle auf das Zenodo-Archiv zum Korpus verwiesen. Im Zuge der Lemmatisierung des Gesamtkorpus war eine manuelle Nachkorrektur bei Nominalkomposita notwendig (z. B. Ehe·paar). Die Wortarten wurden im Kernkorpus gemäß dem STTS (Schiller et al. 1999) und den Modifikationen zu Indefinitpronomina und Pronominaladverbien aus den TI- GER-Guidelines (vgl. Albert et al. 2003, S.- 123) korrigiert. Jedoch wurde, entgegen den STTS-Guidelines (Schiller et al. 1999, S.-29), auch bei den Verben haben und sein zwischen Voll- und Hilfsverb (VA.* oder VV.*) unterschieden. Die Leichte-Sprachetypischen phonologischen Transkriptionen wurden wie das Ausgangswort annotiert. So wurde beispielsweise Di-Dschey als Transkription von DJ mit dem Label NN getaggt. Für Aufzählungszeichen wurde das Listen-Label LI eingeführt. Die syntaktischen Dependenzen wurden im Kernkorpus gemäß den Guidelines von Foth (2006) korrigiert. Eine besondere Herausforderung stellte aufgrund der untypischen Interpunktion die Identifikation von Satzgrenzen dar (vgl. Jablotschkin/ Zinsmeister 2021). Um eine einheitliche Tokenisierung auf Satzebene sicherzustellen, wurde diese auf dem Gesamtkorpus manuell korrigiert. Die Ebene Koreferenz wurde im Kernkorpus gemäß den Guidelines von Naumann (2007) und Reznicek (2013) korrigiert. Dabei wurden jedoch keine Relationstypen, sondern nur Äquivalenzketten annotiert. Außerdem wurden zusätzlich koreferierende generische Ausdrücke als Kandidaten berücksichtigt. Die Diskursrelationen wurden im Kernkorpus gemäß den PDTB-Guidelines (Webber et al. 2019) annotiert. Weil implizite Conjunction-Relationen in der Praxis nicht zuverlässig von Entity-Relationen unterschieden werden konnten, wurden nur explizite Conjunction-Relationen annotiert. 5. Beispielstudie zur Vorfeldbesetzung Das Vorfeld (VF) nimmt im Deutschen eine wichtige Rolle ein, wenn Sätze zu einem kohärenten Text verknüpft werden sollen. Es ist beispielsweise eine Position für die Markierung von Diskursrelationen (z. B. mithilfe von Pronominaladverbien wie deshalb) (Breindl 2014, S.-20-22) und für Frame-Setters wie temporale oder lokale Adverbiale (Krifka/ Musan 2012, S.-31). Für die Untersuchung von kohärenzstiftenden <?page no="77"?> LeiKo 77 Mitteln in vereinfachten Texten des Deutschen ist es deshalb besonders interessant, die Vorfeldbesetzung zu untersuchen. Diesem Unterfangen widmet sich auch Fuchs (2021) und kompiliert ein Korpus mit Leichte-Sprache-Texten verschiedener Herausgeber. Die insgesamt 3.121 im Korpus enthaltenen Vorfelder identifiziert und annotiert Fuchs (2021) manuell nach ihren syntaktischen Funktionen sowie teilweise nach weiteren Kriterien wie adverbialem Subtyp. In der Stichprobe steht in 73,4% der Instanzen ein Subjekt im Vorfeld und nur in 4,3% ein Objekt. Das bedeutet, dass in den meisten Fällen die unmarkierte und oft für Leichte Sprache geforderte Subjekt-Verb-Wortstellung vorliegt. Den zweiten Rang im Vorfeld nehmen allerdings mit 21,9% Adverbiale ein, darunter vor allem Lokal- und Konditionaladverbiale (Fuchs 2021, S.-119 f.). Aufgrund der verschiedenen Leichte-Sprache-Konventionen sowie der unklaren Abgrenzung zu Einfacher Sprache halten wir es für angemessen, die Untersuchung der Vorfelder auf der Herausgeber-Ebene zu stratifizieren, und untersuchen deshalb in der vorliegenden Studie die Vorfeldkonstituenten in LeiKo getrennt nach den vier dort erfassten Herausgebern von Zeitungs- und Nachrichtentexten in vereinfachtem Deutsch. In der Beispielstudie beschränken wir uns auf die Auswertung von lexikalischen und (morpho-)syntaktischen Informationen, die gemeinsam über ANNIS (Krause/ Zeldes 2016) abfragbar sind. Hierbei legen wir unseren Fokus zunächst auf Formen und Funktionen von Adverbialen im Vorfeld und überlassen die Analyse weiterer Vorfeld-Konstituenten in vereinfachtem Deutsch zukünftigen Studien. 5.1 Methode Weil insbesondere die automatische Annotation der Satzglieder Subjekt und Akkusativobjekt nicht zuverlässig funktioniert, verwenden wir für diese Studie nur das manuell korrigierte Kernkorpus (part=“core“). Um Vorfelder (VF) zu extrahieren, verwenden wir die folgenden ANNIS-Suchanfragen (a) bis (c) auf der annis-Version von LeiKo v1.5. Dabei beschränken wir uns auf eine Extraktion der Köpfe von nichtsatzwertigen Vorfeldkonstituenten auf der Basis der Wortarten- und Dependenzannotationen und unterscheiden nicht zwischen verschiedenen Satzarten (Fragevs. Aussagesätze; vgl. Abschn.-5.2). Tabelle-1 zeigt eine Übersicht über die Dependenzlabels (deprel), welche in der Ergebnisauswertung (Abschn.- 5.2) zu übergeordneten syntaktischen Funktionen zusammengefasst werden. Die Studie beschränkt sich auf Verbzweitsätze, die ein nicht-satzwertiges Subjekt beinhalten; subjektlose Sätze und solche mit satzwertigen Subjekten werden hier nicht erfasst. Für genauere Informationen zur ANNIS-Suchanfrage sei an dieser Stelle auf die ANNIS-Dokumentation 7 verwiesen. 7 https: / / korpling.github.io/ ANNIS/ 3.6/ user-guide/ aql.html (Stand: 18.11.2022). <?page no="78"?> SARAH JABLOTSCHKIN/ HEIKE ZINSMEISTER 78 (a) Nichtsubjekt-Konstituenten im VF mit Anbindung ans finite Verb: lemma =/ .*/ .* pos=/ V.FIN/ .* tok & cat & #2 ->dep[deprel= "PP" ] #1 & #2 ->dep[deprel="SUBJ"] #3 & #4 _i_ #1 @* part="core" Das in (a) fettgedruckte Label PP ersetzen wir im Weiteren durch das entsprechende Dependenzlabel, nach dem jeweils gesucht wird (siehe Tab.-1). (b) Objektkonstituenten im VF mit Anbindung ans nicht-finite Vollverb: 8 lemma =/ .*/ .* pos=/ V(A|M)FIN/ .* tok .* pos=/ VV.*/ & cat & #4 ->dep[deprel= "OBJA" ] #1 & #2 ->dep[deprel="SUBJ"] #3 & #5 _i_ #1 @* part="core" Das in (b) fettgedruckte Label ersetzen wir durch das jeweilige Objektlabel. (c) Subjektkonstituenten im VF: cat & tok .* pos=/ V.FIN/ & #3 ->dep[deprel="SUBJ"] #2 & #1 _i_ #2 @* part="core" Synt. Funktion Dependenzlabels nach Foth (2006) Subjekt SUBJ Adverbial ADV, PP, ZEIT Objekt OBJA, OBJD, OBJP (OBJG, OBJA2, OBJI) Sonstiges EXPL, PRED (ETH) Tab.-1: Aufschlüsselung nicht-satzwertiger, vorfeldfähiger Funktionen nach Dependenzlabels (Labels in Klammern kamen in unserer Stichprobe nicht im Vorfeld vor) Die Treffer der Suchanfragen werden über den in ANNIS implementierten CSVExporter zur weiteren Auswertung heruntergeladen. Weil Suchanfrage (c) zu den Subjekten im Vorfeld übergeneriert, führten wir eine manuelle Nachselektion der Treffer durch, um Belege mit Verbletztstellung auszuschließen (Präzision: 717/ 804 = 0,89). 9 8 Für alle Objektlabels wird sowohl Suchanfrage (a) als auch (b) durchgeführt. 9 In standardsprachlichen Texten ist bei Suchanfrage (c) eine niedrigere Präzision zu erwarten, weil Verbletztsätze frequenter sind. Um den Recall der Subjekte im VF zu ermitteln, überprüften wir alle VF mit Objektannotation, dem häufigsten Verwechslungskandidaten (Recall = 1,0). Weitere systematische Evaluierung ergab für die extrahierten Adverbiale eine Doppelzählung aufgrund der Annotationsvorgaben für von-bis-Konstruktionen, ebenso vier nicht erfasste Belege aufgrund von Annotationsfehlern (Präzision: 280/ 281 = 1,00; Recall: 280/ 284 = 0,96); die Objekte waren fehlerfrei erfasst. <?page no="79"?> LeiKo 79 5.2 Ergebnisse Zunächst werden die Vorfeldkonstituenten gemäß ihrer syntaktischen Funktionen- und im Anschluss die Adverbiale gemäß ihrer häufigsten formalen Realisierungen analysiert. Die aus ANNIS exportierten (und bei den Subjekten manuell nachselektierten) Treffer werden mit R (R Core Team 2021) weiterverarbeitet und ausgewertet. In Abbildung- 2 sind die prozentualen Häufigkeiten der Vorfeldkonstituenten Subjekt, Adverbial, Objekt und Sonstiges in den jeweiligen Herausgeber-Subkorpora abgebildet. Allen Subkorpora ist gemein, dass wie erwartet ein substanzieller Anteil an Nicht-Subjekten zu beobachten ist. Laut Chi-Quadrat-Unterschiedstest weicht die Verteilung zwar signifikant von einer Gleichverteilung ab (χ² = 33,998, df = 9, p < 0,001). Dazu trägt insbesondere das Auftreten der Adverbiale bei, welches im NDR-Subkorpus deutlich höher ist als erwartet (standardisiertes Pearson-Residuum: 3,54) und im tazleicht-Subkorpus geringer (standardisiertes Pearson-Residuum: -2,11). Die Effektstärke ist jedoch gering (Cramérs V = 0,3). Abb.-2: Prozentuale Verteilung der VF-Funktionen in den Subkorpora (n = 1065, „LS“ = Leichte Sprache, „ES“ = Einfache Sprache) Um sich den kohärenzstiftenden Funktionen der Vorfelder anzunähern, sind in Tabelle-2 jeweils die häufigsten Kopf-Lemmata unter den Vorfeld-Adverbialen pro Subkorpus abgebildet. 10 In allen vier Subkorpora sind Präpositionalphrasen mit dem Kopf in das häufigste Vorfeld-Adverbial. Im NDR-Subkorpus ist außerdem die Prä- 10 Einmalig vorkommende Lemmata werden nicht dargestellt. Die Anzahl der Hapax Legomena auf Lemma-Ebene beträgt in NDR 14, in tazleicht 16, in SR 12 und in nachrichtenleicht 21. <?page no="80"?> SARAH JABLOTSCHKIN/ HEIKE ZINSMEISTER 80 position bei sehr frequent. Im NDR- und im nachrichtenleicht-Subkorpus ist darüber hinaus das Pronominaladverb deshalb häufig vertreten. Im tazleicht-Subkorpus belegen den zweiten und den dritten Rang die adverbialen Fragepronomen warum und wie. Insgesamt fällt auf, dass der Anteil, den die häufigsten Lemmata unter den Adverbialen ausmachen, in den Subkorpora deutlich variiert: Während im NDR-Subkorpus drei Viertel der Vorfeld-Adverbiale eines der in der Tabelle aufgeführten Lemmata als Kopf enthalten, sind es bei den drei anderen Subkorpora jeweils nur etwa die Hälfte. Dies deutet darauf hin, dass das Vorfeld im NDR-Subkorpus formal und funktional eingeschränkter ist als in den anderen Subkorpora. Leichte Sprache Einfache Sprache NDR (n = 117) tazleicht (n = 91) SR (n = 30) nachrichtenl . (n = 43) Lemma Freq. Lemma Freq. Lemma Freq. Lemma Freq. in 32 in 21 in 13 in 8 deshalb 20 warum 7 mit 3 deshalb 5 bei 15 wie 6 dazu 2 außerdem 4 dann 12 dann 5 für 3 jetzt 9 dort 5 auf 2 Tab.-2: Häufige Kopf-Lemmata unter den Adverbialen im Vorfeld pro Subkorpus 5.3 Diskussion und Ausblick Das Vorfeld spielt bei der Verknüpfung von Sätzen und bei der Herstellung von Kohärenz eine entscheidende Rolle. Eine strikte Regulierung nach rein syntaktischen Kriterien (z. B. feste Subjekt-Verb-Wortstellung) ist daher für die Textverständlichkeit nicht zielführend. Dies wird auch an den LeiKo-Texten sichtbar, die das Ergebnis von Fuchs (2021) stützen und sogar darüber hinausgehen: Je nach Subkorpus sind 27% (nachrichtenleicht) bis fast 40% (NDR) der Vorfelder durch Nichtsubjekt- Konstituenten besetzt. In allen Subkorpora ist das Adverbial nach dem Subjekt die zweithäufigste syntaktische Funktion im Vorfeld. Durch den Chi-Quadrat-Test lässt sich jedoch ein Effekt der Variable Subkorpus auf die Vorfeldbesetzung nachweisen. Es erweist sich daher als berechtigt, anders als bei Fuchs (2021) Metadaten wie Herausgeber oder Regelwerk in die Auswertung miteinzubeziehen. Dass in der vorliegenden Untersuchung die Unterschiede zwischen den Subkorpora NDR und tazleicht, die beide als Leichte Sprache publiziert werden, besonders groß sind, spricht zudem gegen die Einordnung von Leichter Sprache als eine auf allen linguistischen Ebenen regulierte Varietät (vgl. Bredel/ Maaß 2016). Darüber hinaus ist anhand der Vorfeld- <?page no="81"?> LeiKo 81 Besetzung keine klare Unterscheidung zwischen Leichter Sprache und Einfacher Sprache möglich. Die häufigsten Kopf-Lemmata geben Hinweise auf die Funktionen der Vorfeldadverbiale in Leichter und Einfacher Sprache. In allen vier Subkorpora sind durch in regierte Präpositionalphrasen (PPs) die häufigste Realisierung. Im NDR-Subkorpus ist zudem die Präposition bei die dritthäufigste Realisierung unter den Vorfeld-Adverbialen. In wird typischerweise lokal oder temporal wie in (2) verwendet. Auch bei hat häufig eine temporale Lesart und markiert Gleichzeitigkeit wie in (3). (2) Im vergangenen Jahr waren mehr als 10000 Sportler dabei. (NDR 2018a) (3) In Hamburg war ein Unfall. Bei diesem Unfall ist ein Auto aus einem Park·haus gestürzt. (NDR 2018b) Die temporale in-PP in (2) dient ähnlich wie Lokaladverbiale dem Frame-Setting, also dem Setzen eines Redehintergrunds, vor dem die nachfolgende Proposition interpretiert werden muss. Sie hilft daher, den Common Ground zwischen Sender*in und Hörer*in herzustellen (Krifka/ Musan 2012, S.-31). Der Kontext zeigt, dass die unterstrichene bei-PP in (3) hingegen kein Frame-Setter ist, sondern der Markierung der Diskursrelation Arg2-as-detail (vgl. Webber et al. 2019) dient: Im ersten Argument wird ein Sachverhalt, hier ein Unfall, geschildert, welcher im zweiten Argument mit einem höheren Detailliertheitsgrad wiederaufgenommen wird. Dadurch werden einem explizit eingeführten Diskursgegenstand schrittweise Propositionen zugeordnet. Die Diskursrelation ließe sich alternativ versprachlichen mit genauer gesagt. Im tazleicht-Subkorpus sind unter den Vorfeld-Adverbialen neben den in-PPs die adverbialen Fragepronomen warum und wie häufig. Diese tauchen in Zwischenüberschriften wie in Beispiel (4) auf und dienen der Herstellung globaler Kohärenz. (4) Warum gibt es immer mehr widerstandsfähige Keime? Warum wirken die Antibiotika nicht? (tazleicht 2018) Durch das explizite Einwerfen von Fragen wird dem nachfolgenden Abschnitt jeweils ein kommunikatives Ziel gegeben und die Zuordnung von Einzelinformationen zu einem übergeordneten Thema ermöglicht ( Stutterheim/ Klein 2019, S.-212 f.). Die positive Wirkung von Gliederungssignalen auf die Verständlichkeit wurde in der Psycholinguistik vielfach nachgewiesen (vgl. Christmann 2008, S.-1098). Deshalb ist ein häufiges Vorfeld-Adverbial in den Texten vom NDR und nachrichtenleicht. Dieser kausale Konnektor wird beispielsweise von Bredel/ Maaß (2016, S.-393 f.) präferiert, weil sich damit Kausalnebensätze vermeiden lassen. Welche weiteren kausalen Ausdrucksmittel in Leichter und Einfacher Sprache verwendet wer- <?page no="82"?> SARAH JABLOTSCHKIN/ HEIKE ZINSMEISTER 82 den und wie das Verhältnis von Adverbkonnektoren und kausalen Subjunktoren ist, kann in LeiKo mithilfe der Annotation von Diskursrelationen untersucht werden und wird Gegenstand zukünftiger Studien sein. In der vorliegenden Beispielstudie wurden nur formale und funktionale Kategorien von Adverbialen im Vorfeld näher beleuchtet. Die Formen und Funktionen von Subjekten und Objekten im Vorfeld spielen allerdings ebenfalls eine wichtige Rolle bei der Herstellung von Kohärenz. Zukünftig sollte deshalb auch untersucht werden, welche nominalen Formen und Informationsstatus Subjekte und Objekte im Vorfeld haben und unter welchen Bedingungen Objekt-Topikalisierungen in Leichter und Einfacher Sprache verwendet werden. Diese und ähnliche Fragestellungen können mithilfe der Mehrebenen-Annotation in LeiKo untersucht werden. 6. Zusammenfassung Leichte und Einfache Sprache sind wichtige Instrumente zur Sicherung gesellschaftlicher Teilhabe für Menschen mit eingeschränkten Lesekompetenzen, wurden bisher allerdings nur unzureichend hinsichtlich komplexer linguistischer Phänomene wie Kohärenz untersucht. Dass dies mithilfe des hier vorgestellten Korpus LeiKo möglich ist, demonstrieren wir anhand einer Beispielstudie zur Vorfeldbesetzung, bei der Annotationen auf den Ebenen Lemma, Wortart, syntaktische Dependenz sowie Metadaten miteinander kombiniert werden. In allen vier Subkorpora ist das Adverbial die zweithäufigste syntaktische Funktion im Vorfeld. Es dient beispielsweise dem Frame-Setting, der Markierung von Diskursrelationen und der Einleitung von textstrukturierenden Fragen. Allerdings unterscheidet sich die Verteilung der Vorfeld-Konstituenten über die verschiedenen Subkorpora hinweg signifikant. So ist beispielsweise der Anteil der Adverbiale im NDR-Subkorpus deutlich höher als erwartet und der im tazleicht-Subkorpus geringer als erwartet, obwohl beide Subkorpora nur Texte enthalten, die von den Herausgeber*innen unter dem Label Leichte Sprache veröffentlicht wurden. Die beiden Einfache-Sprache-Subkorpora (SR und nachrichtenleicht) weichen hingegen nicht signifikant von der erwarteten Verteilung ab. Dies zeigt, dass linguistische Untersuchungen von Leichter und Einfacher Sprache nicht ohne den Einbezug von Metadaten erfolgen sollten. Das Vergleichskorpus LeiKo leistet hierzu trotz seiner relativ geringen Größe einen wertvollen Beitrag. Durch die Mehrebenen-Annotation können zukünftig noch weitere Kohärenzphänomene untersucht werden, z. B. mithilfe der Annotation von Koreferenz oder der Diskursrelationen. Darüber hinaus sehen wir in Ergänzung zu Korpusstudien, die die Sprachproduktion in den Mittelpunkt stellen, die Notwendigkeit für psycho- und neurolinguistische Studien, die auch das Textverständnis untersuchen können <?page no="83"?> LeiKo 83 (vgl. z. B. die Studien in Bock 2018 und das Graduiertenkolleg zu Leichter Sprache in Mainz 11 ). 12 Literatur Adelmann, Benedikt/ Andresen, Melanie/ Menzel, Wolfgang/ Zinsmeister, Heike (2018): Evaluation of out-of-domain dependency parsing for its application in a digital humanities project. In: Barbaresi, Adrien/ Biber, Hanno/ Neubarth, Friedrich/ Osswald, Rainer (Hg.): Proceedings of the 14th conference on natural language processing (KONVENS 2018), September 19-21, 2018, Vienna, Austria. Österreichische Akademie der Wissenschaften, S.- 121-135. https: / / konvens.org/ proceedings/ 2018/ PDF/ konvens18_14.pdf (Stand: 21.11.2022). Albert, Stefanie/ Anderssen, Jan/ Bader, Regine/ Becker, Stephanie/ Bracht, Tobias/ Brants, Sabine/ Brants, Thorsten/ Demberg, Vera/ Dipper, Stefanie/ Eisenberg, Peter/ Hansen, Silvia/ Hirschmann, Hagen/ Janitzek, Juliane/ Kirstein, Carolin/ Langner, Robert/ Michelbacher, Lukas/ Plaehn, Oliver/ Preis, Cordula/ Pußel, Marcus/ Rower, Marco/ Schrader, Bettina/ Schwartz, Anne/ Smith, George/ Uszkoreit, Hans (2003): TIGER Annotationsschema. Aufbau eines linguistisch interpretierten Korpus des Deutschen. Universität des Saarlandes/ Universität Stuttgart/ Universität Potsdam. www.ims.uni-stuttgart.de/ documents/ ressourcen/ korpora/ tiger-corpus/ annotation/ tiger_scheme-syntax.pdf (Stand: 21.11.2022). Battisti, Alessia/ Pfütze, Dominik/ Säuberli, Andreas/ Kostrzewa, Marek/ Ebling, Sarah (2020): A corpus for automatic readability assessment and text simplification of German. In: Calzolari, Nicoletta/ Béchet, Frédéric/ Blache, Philippe/ Choukri, Khalid/ Cieri, Christopher/ Declerck, Thierry/ Goggi, Sara/ Isahara, Hitoshi/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the 12th language resources and evaluation conference, Marseille, France, 11-16-May 2020. European Language Resources Association (ELRA), S.-3302-3311. Baumert, Andreas (2019): Mit einfacher Sprache Wissenschaft kommunizieren. (=-essentials). Wiesbaden: Springer Fachmedien Wiesbaden GmbH. Bird, Steven/ Klein, Ewan/ Loper, Edward (2009): Natural language processing with Python. Analyzing text with the natural language toolkit. Beijing/ Cambridge, MA: O’Reilly. BITV 2.0: Verordnung zur Schaffung barrierefreier Informationstechnik nach dem Behindertengleichstellungsgesetz (Barrierefreie-Informationstechnik-Verordnung). Ausfertigungsdatum: 12.09.2011. Zuletzt geändert: 21.5.2019. Björkelund, Anders/ Bohnet, Bernd/ Hafdell, Love/ Nugues, Pierre (2010): A high-performance syntactic and semantic dependency parser. In: Liu, Yang/ Liu, Ting (Hg.): Coling 2010: demonstrations. August 2010, Beijing, China. Coling 2010 Organizing Committee, S.-33-36. 11 https: / / leichtesprache.uni-mainz.de/ (Stand: 18.11.2022). 12 Wir danken den Herausgebern für die ausführlichen und sehr konstruktiven Kommentare. <?page no="84"?> SARAH JABLOTSCHKIN/ HEIKE ZINSMEISTER 84 Bock, Bettina M. (2017): Das Passiv- und Negationsverbot ‚Leichter Sprache‘ auf dem Prüfstand-- empirische Ergebnisse aus Verstehenstest und Korpusuntersuchung. In: SPRACH- REPORT-1/ 2017, S.-20-28. Bock, Bettina M. (2018): „Leichte Sprache“- - Kein Regelwerk. Sprachwissenschaftliche Ergebnisse und Praxisempfehlungen aus dem LeiSA-Projekt. Leipzig: Universität Leipzig. https: / / ul.qucosa.de/ api/ qucosa%3A31959/ attachment/ ATT-0/ (Stand: 21.11.2022). Brants, Sabine/ Dipper, Stefanie/ Hansen, Silvia/ Lezius, Wolfgang/ Smith, George (2002): The TIGER treebank. In: Proceedings of the workshop on treebanks and linguistic theories (TLT 2002), 20-21- September 2002, Sozopol, Bulgaria. Bulgarian Academy of Sciences, S.-24-41. Bredel, Ursula/ Maaß, Christiane (2016): Leichte Sprache. Theoretische Grundlagen, Orientierung für die Praxis. Berlin: Dudenverlag. Breindl, Eva (2014): Syntaktische Grundlagen: syntaktische Konnektorklassen, komplexe Satzstrukturen und ihr Variationsspielraum. In: Breindl, Eva/ Volodina, Anna/ Hermann, Ulrich W. (Hg.): Handbuch der deutschen Konnektoren 2. Teilband 1: Semantik der deutschen Satzverknüpfer. (=-Schriften des Instituts für Deutsche Sprache-13.1). Berlin/ München/ Boston: De Gruyter, S.-11-50. Christmann, Ursula (2008): Rhetorisch-stilistische Aspekte moderner Verstehens- und Verständlichkeitsforschung. In: Fix, Ulla/ Gardt, Andreas/ Knape, Joachim (Hg.): Rhetorik und- Stilistik. Ein internationales Handbuch historischer und systematischer Forschung. (=-Handbücher zur Sprach- und Kommunikationswissenschaft-31.1). Berlin/ New York: De Gruyter, S.-1092-1106. Christmann, Ursula/ Groeben, Norbert (2019): Verständlichkeit: die psychologische Perspektive. In: Maaß, Christiane/ Rink, Isabel (Hg.): Handbuch Barrierefreie Kommunikation. (=- Kommunikation- - Partizipation- - Inklusion- 3). Berlin: Frank & Timme, S.-123-145. Emmrich, Volker/ Hennig, Mathilde (2023): GiesKaNe. Korpusaufbau zwischen Standard und Innovation. In: Deppermann, Arnulf/ Fandrych, Christian/ Kupietz, Marc/ Schmidt, Thomas (Hg.): Korpora in der Germanistischen Sprachwissenschaft. Mündlich, schriftlich, multimedial. (=- Jahrbuch des Leibniz-Institut für Deutsche Sprache 2022). Berlin/ New York: De Gruyter, S.-199-224. Foth, Kilian A. (2006): Eine umfassende Constraint-Dependenz-Grammatik des Deutschen. Hamburg: Universität Hamburg. http: / / edoc.sub.uni-hamburg.de/ informatik/ volltexte/ 2014/ 204/ (Stand: 21.11.2022). Foth, Kilian A./ Köhn, Arne/ Beuck, Niels/ Menzel, Wolfgang (2014): Because size does matter: the Hamburg dependency treebank. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Loftsson, Hrafn/ Maegaard, Bente/ Mariani, Joseph/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the 9th international conference on language resources and evaluation (LREC’14). May 26-31, 2014. Reykjavik, Iceland. European Language Resources Association (ELRA), S.-2326-2333. <?page no="85"?> LeiKo 85 Fuchs, Julia (2017): Leichte Sprache und ihr Regelwerk-- betrachtet aus der Perspektive der Informationsstruktur. In: -Sprachwissenschaft-42,-1, S.-97-119. Fuchs, Julia (2019): Leichte Sprache auf dem Prüfstand. Realisierungsvarianten von kausalen Relationen in Leichte-Sprache-Texten. In: -Sprachwissenschaft-44, 4, S.-441-480. Fuchs, Julia (2021): The German Vorfeld (prefield) in texts in German easy language: syntactic and information-structural considerations. In: Jekat/ Puhl/ Carrer/ Lintner (Hg.), S.-115-124. Grotlüschen, Anke/ Buddeberg, Klaus/ Dutz, Gregor/ Heilmann, Lisanne/ Stammer, Christopher (2020): Low literacy in Germany. Results from the second German literacy survey. In: European Journal for Research on the Education and Learning of Adults-11,-1, S.-127-143. https: / / doi.org/ 10.3384/ rela.2000-7426.rela9147. Hajič, Jan/ Ciaramita, Massimiliano/ Johansson, Richard/ Kawahara, Daisuke/ Martí, Maria Antònia/ Màrquez, Lluís/ Meyers, Adam/ Nivre, Joakim/ Padó, Sebastian/ Štěpánek, Jan/ Straňák, Pavel/ Surdeanu, Mihai/ Xue, Nianwen/ Zhang, Yi (2009): The CoNLL-2009 shared task: syntactic and semantic dependencies in multiple languages. In: Hajič, Jan (Hg.): Proceedings of the 13thconference on computational natural language learning (CoNLL 2009): shared task. Boulder, Colorado, June 2009. Association for Computational Linguistics, S.-1-18. Hansen-Schirra, Silvia/ Nitzke, Jean/ Gutermuth, Silke (2021): An intralingual parallel corpus of translations into German easy language (Geasy Corpus): what sentence alignments can tell us about translation strategies in intralingual translation. In: Wang, Vincent X./ Lim, Lily/ Defeng, Li (Hg.): New perspectives on corpus translation studies. (=-New Frontiers in Translation Studies (NFTS)). Singapore: Springer Singapore, S.- 281-298. https: / / doi. org/ 10.1007/ 978-981-16-4918-9_11. Inclusion Europe (o. J.): Informationen für alle. Europäische Regeln, wie man Informationen leicht lesbar und leicht verständlich macht. Entwickelt im Rahmen des Projektes Pathways- - Wege zur Erwachsenenbildung für Menschen mit Lernschwierigkeiten. www. inclusion-europe.eu/ wp-content/ uploads/ 2017/ 06/ DE_Information_for_all.pdf. (Stand: 21.11.2022). ISL (Interessenvertretung Selbstbestimmt Leben in Deutschland e. V.) (o. J.): Empowerment.-In: Handbuch Empowerment. www.handbuch-empowerment.de/ index.php/ zumnachschlagen/ glossar/ 78-empowerment (Stand: 21.11.2022). Ismaiel, Mansour (2018): „Einfache“ Sprache. Einführung, Tipps und Beispiele. Bremen: IQ- Netzwerk. https: / / iq-netzwerk-bremen.de/ wp-2021/ wp-content/ uploads/ Einfache_ Sprache_9_Tipps.pdf (Stand: 2.2.2023). Jablotschkin, Sarah/ Zinsmeister, Heike (2021): Annotating colon constructions in easy and plain German. In: Jekat/ Puhl/ Carrer/ Lintner (Hg.), S.-125-134. Jekat, Susanne J./ Germann, Esther/ Lintner, Alexa/ Soland, Corinne (2017): Wahlprogramme in- Leichter Sprache- - Eine korpuslinguistische Annäherung. In: Bock, Bettina M./ Fix, Ulla/ Lange, Daisy (Hg.): „Leichte Sprache“ im Spiegel theoretischer und angewandter For- <?page no="86"?> SARAH JABLOTSCHKIN/ HEIKE ZINSMEISTER 86 schung. (=- Kommunikation- - Partizipation- - Inklusion- 1). Berlin: Frank & Timme, S.-229-246. Jekat, Susanne J./ Puhl, Steffen/ Carrer, Luisa/ Lintner, Alexa (Hg.) (2021): Proceedings of the 3rd Swiss conference on barrier-free communication (BfC 2020). Winterthur (online), June 29-July 4, 2020. Winterthur: ZHAW Zurich University of Applied Sciences. https: / / doi.org/ 10.21256/ ZHAW-3001. Kellermann, Gudrun (2013): Die Rolle der Leichten Sprache aus wissenschaftlicher Sicht. Vortrag im Rahmen der Ringvorlesung „Behinderung ohne Behinderte? ! Perspektiven der Disability Studies“. Universität Hamburg, 08.04.2013. Hamburg: ZedisPlus. www.zedisev-hochschule-hh.de/ files/ kellermann_08042013.pdf (Stand: 21.11.2022). Kiss, Tibor/ Strunk, Jan (2006): Unsupervised multilingual sentence boundary detection. In: Computational Linguistic-32,-4, S.-485-525. doi: 10.1162/ coli.2006.32.4.485. Krause, Thomas/ Zeldes, Amir (2016): ANNIS3: a new architecture for generic corpus query and visualization. In: Digital Scholarship in the Humanities-31,-1, S.-118-139. http: / / dsh. oxfordjournals.org/ content/ 31/ 1/ 118 (Stand: 21.11.2022). Krifka, Manfred/ Musan, Renate (2012): Information structure: overview and linguistic issues. In: Krifka, Manfred/ Musan, Renate (Hg.): The expression of information structure (=-The expression of cognitive categories-5). Berlin/ Boston: De Gruyter, S.-1--44. Lange, Daisy (2019): Der Genitiv in der ‚Leichten Sprache‘-- das Für und Wider aus theoretischer und empirischer Sicht. In: Zeitschrift für Angewandte Linguistik- 70, S.- 37-72. https: / / doi.org/ 10.1515/ zfal-2019-2001. Lange, Daisy/ Bock, Bettina M. (2016): Was heißt ‚Leichte‘ und ‚einfache Sprache‘? Empirische Untersuchungen zu Begriffssemantik und tatsächlicher Gebrauchspraxis. In: Mälzer, Nathalie (Hg.): Barrierefreie Kommunikation: Perspektiven aus Theorie und Praxis (=-Kommunikation-- Partizipation-- Inklusion 2). Berlin: Frank & Timme, S.-117- 134. Lemnitzer, Lothar/ Zinsmeister, Heike (2015): Korpuslinguistik: Eine Einführung. 3., überarb. u. erw. Aufl. (=-Narr-Studienbücher). Tübingen: Narr. Maaß, Christiane (2015): Leichte Sprache. Das Regelbuch. (=-Barrierefreie Kommunikation). Münster: Lit. Maaß, Christiane (2020): Easy language- - Plain language- - Easy language plus. balancing comprehensibility and acceptability (=- Easy- - Plain- - Accessible- 3). Berlin: Frank & Timme. Mensch zuerst- - Netzwerk People First Deutschland e. V. (2022): Der Verein. https: / / www. menschzuerst.de/ pages/ startseite/ wer-sind-wir/ verein.php (Stand: 2.2.2023). McNamara, Danielle S./ Kintsch, Eileen/ Songer, Nancy B./ Kintsch, Walter (1996): Are good texts always better? Interactions of text coherence, background knowledge, and levels of understanding in learning from text. In: Cognition and Instruction-14,-1, S.-1-43. Nagel, Carola (2021): Wie ein Text in leichter Sprache entsteht. In: Netzwerk Leichte Sprache e. V. (Hg.): Leichte Sprache verstehen. Mit Beispielen aus dem Alltag, Tipps für die Praxis <?page no="87"?> LeiKo 87 und zahlreichen Texten in Leichter Sprache. Wiesbaden: Verlagshaus Römerweg, S.-43-46. Naumann, Karin (2007): Manual for the annotation of in-document referential relations. Tübingen: Universität Tübingen, Seminar für Sprachwissenschaft, Abt. Computerlinguistik. www.sfs.uni-tuebingen.de/ fileadmin/ static/ ascl/ resources/ tuebadz-coreferencemanual-2007.pdf (Stand: 21.11.2022). NDR (2018a): 2 große Veranstaltungen in Hamburg. Nachricht vom 10.07.2018. www.ndr.de/ fernsehen/ barrierefreie_angebote/ leichte_sprache/ 2-grosse-Veranstaltungen-in-Hamburg, veranstaltungen318.html (Stand: 21.11.2022). NDR (2018b): Auto fällt aus Park⋅haus. Nachricht vom 27.06.2018. www.ndr.de/ fernsehen/ barrierefreie_angebote/ leichte_sprache/ Auto-faellt-aus-Parkhaus-,unfall11928.html (Stand: 21.11.2022). Netzwerk Leichte Sprache (2014): Leichte Sprache. Ein Ratgeber. Hrsg. von Bundesministerium für Arbeit und Soziales (BMAS). www.bmas.de/ SharedDocs/ Downloads/ DE/ Publika tionen/ a752-ratgeber-leichte-sprache.pdf; jsessionid=17D5319196E994B8795C599929320 CA3.delivery2-replication? __blob=publicationFile&v=3 (Stand: 21.11.2022). Netzwerk Leichte Sprache (2021): Die Geschichte der Leichten Sprache. www.leichte-sprache. org/ der-verein/ die-geschichte/ (Stand: 21.11.2022). Rayner, Keith/ Pollatsek, Alexander/ Ashby, Jane/ Clifton Jr., Charles (2012): Comprehension of discourse. In: Psychology of reading. Second edition. New York, NY: Psychology Press, S.-245-275. R Core Team (2021): R: a language and environment for statistical computing. Vienna, Austria: R Foundation for Statistical Computing. www.R-project.org/ (Stand: 21.11.2022). Reznicek, Marc (2013): Linguistische Annotation von Nichtstandardvarietäten- - Guidelines und ‚Best Practices‘. Guidelines Koreferenz. Version- 1.1. Bochum: Ruhr Universität Bochum. https: / / www.linguistik.hu-berlin.de/ de/ institut/ professuren/ korpuslinguistik/ for schung/ nosta-d/ nosta-d-cor-1.1 (Stand: 21.11.2022). Schiller, Anne/ Teufel, Simone/ Stöckert, Christine/ Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset). Stuttgart: Institut für maschinelle Sprachverarbeitung/ Tübingen: Seminar für Sprachwissenschaft. Schröder, Fynn/ Hatzel, Hans O./ Biemann, Chris (2021): Neural end-to-end coreference resolution for German in different domains. In: Evang, Kilian/ Kallmeyer, Laura/ Osswald, Rainer/ Waszczuk, Jakub/ Zesch, Torsten (Hg.): Proceedings of the 17th conference on natural language processing (KONVENS 2021). 6-9 September 2021, Düsseldorf, Germany. KONVENS 2021 Organizers, S.-170-181. Stede, Manfred (2008): Disambiguating rhetorical structure. In: Research on Language and Computation 6, 3-4, S.-311-332. https: / / doi.org/ 10.1007/ s11168-008-9053-7. Stede, Manfred (2018): Korpusgestützte Textanalyse: Grundzüge der Ebenen-orientierten Textlinguistik. 2., überarb. Aufl. (=-Narr Studienbücher). Tübingen: Narr. <?page no="88"?> SARAH JABLOTSCHKIN/ HEIKE ZINSMEISTER 88 Stutterheim, Christiane von/ Klein, Wolfgang (2019): Mündliche Textproduktion: Informationsorganisation in Texten. In: Janich, Nina (Hg.): Textlinguistik: 15 Einführungen und eine Diskussion. 2., überarb. u. erw. (=-Narr-Studienbücher). Tübingen: Narr, S.-209-226. Sweigart, Al (2015): Web scraping. In: Sweigart, Al (Hg.): Automate the boring stuff with Python: practical programming for total beginners. San Francisco: No Starch Press. https: / / automatetheboringstuff.com/ chapter11/ (Stand: 21.11.2022). tazleicht (2018): Wenn Medikamente nicht wirken. Kranke sterben oft, weil Medikamente nicht wirken. Ein Grund sind bestimmte Keime. Original-Text: Manfred Kriener. Übersetzung: Christine Stöckel und Belinda Grasnick. Prüfung: capito. Berlin, Büro für barrierefreie Information. https: / / taz.de/ Leichte-Sprache/ ! 5486636/ (Stand: 21.11.2022). Tronbacke, Bror I. (1999): Richtlinien für Easy-Reader Material. Übersetzt von Antje Cockrill. (=- IFLA Professional Reports- 57). Niederlande: Den Haag: International Federation of Library Associations and Institutions. https: / / archive.ifla.org/ VII/ s9/ nd1/ iflapr-57g.pdf (Stand: 21.11.2022). Webber, Bonnie/ Prasad, Rashmi/ Lee, Alan/ Joshi, Aravind (2019): The penn discourse treebank 3.0 annotation manual. https: / / catalog.ldc.upenn.edu/ docs/ LDC2019T05/ PDTB3- Annotation-Manual.pdf (Stand: 21.11.2022). Zeldes, Amir (2017): The GUM corpus: creating multilayer resources in the classroom. In: Language Resources and Evaluation- 51,- 3, S.- 581-612. https: / / doi.org/ 10.1007/ s10579-016-9343-x. Zeldes, Amir (2018): Multilayer corpus studies (=-Routledge advances in corpus linguistics-22). New York: Routledge. <?page no="89"?> TATJANA SCHEFFLER/ LESLEY-ANN KERN/ HANNAH SEEMANN Individuelle linguistische Variabilität in sozialen Medien Ein multimediales Korpus Abstract Das multimediale Textkorpus TwiBloCoP (Twitter+Blog Corpus - Parenting) enthält Twitter- und Blogtexte von insgesamt 44 Personen, die über familienbezogene Themen auf selbstgeführten Blogs und Twitter-Accounts berichten. Das Korpus stellt 468 Blogposts und 81.440 Tweets als Rohtext sowie satzsegmentierte und tokenisierte XML-Dateien zur Verfügung. Das Korpus ermöglicht die Untersuchung individueller sowie medienspezifischer linguistischer Variation anhand einer vergleichenden Analyse von Texten derselben Autorinnen und Autoren in den sozialen Medien Blog vs. Twitter. Das gesamte Korpus ist anonymisiert und für die wissenschaftliche Forschung nutzbar. Es wurden darüber hinaus durch uns ausgewählte Modalpartikeln und Intensivierer im Korpus manuell annotiert. Keywords: Multimediales Korpus, Soziale Medien, computer-mediated communication, CMC, linguistische Variation 1. Motivation Der vorliegende Beitrag präsentiert ein neues, multimediales Korpus deutschsprachiger Texte aus den sozialen Medien Weblogs und Twitter. Das grundlegende Forschungsinteresse für die Korpuserstellung war der Wunsch nach einem Korpus, das die Nutzung von Sprache in unterschiedlichen sozialen Medien sowie die individuelle linguistische Variation zwischen diesen Medien abbildet. Entscheidend hierfür ist die Vorannahme, dass Autorinnen und Autoren ihre Sprachverwendung an Publikum, Thema und Medium anpassen können, indem beispielsweise individuelle linguistische Merkmale genutzt werden. Bisher existierende Korpora sammeln zum Beispiel deutsche Blogposts (Barbaresi/ Würzner 2014), deutschsprachige Tweets (Scheffler 2014), deutsche und englische Tweets aus Österreich (Barbaresi 2016) oder deutschsprachige Chatverläufe (Beißwenger 2013). Allerdings beschränken sich diese Korpora jeweils auf ein einzelnes Medium. Diese Korpora und die darauf basierenden Arbeiten belegen die stark medienspezifische Variabilität sprachlicher Merkmale, wie bei der Verwendung von Intensivierern, Emojis und Emoticons, usw. Allerdings ist ein medienübergreifender Vergleich der sprachlichen Phänomene nicht möglich, da sich die Korpora in der Zusammenstellung stark in Bezug auf Erstellungsdatum, Autorschaft, Thema und andere Merkmale unterscheiden. So kann zum Beispiel nicht nachgewiesen werden, ob die Verwendung unterschiedlicher Intensivierer in Tweets und Blogposts auf die unterschiedliche Altersstruktur der Au- DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="90"?> TATJANA SCHEFFLER/ LESLEY-ANN KERN/ HANNAH SEEMANN 90 torinnen und Autoren in verschiedenen Korpora zurückzuführen ist (da Intensivierer bekannterweise großer altersabhängiger Variabilität und ständiger Erneuerung unterworfen sind Ito/ Tagliamonte 2003), oder ob es sich tatsächlich um ein medienspezifisches Phänomen handelt. Um diese Art medialer Variabilität abzubilden und untersuchen zu können, benötigt man ein Korpus, welches die Sprache derselben Autorinnen und Autoren in verschiedenen sozialen Medien enthält. Ein solches Korpus erlaubt die Analyse der intra-individuellen sprachlichen Variation in digitalen Medien. Das präsentierte Korpus enthält schriftliche Textdokumente des Formats „Weblog“ sowie Postings der Social-Media-Plattform Twitter. Ein vergleichbares multimediales Parallelkorpus des Deutschen 1 existiert unseres Wissens nach nicht. Als soziale Medien wurden Blogposts und Tweets ausgewählt, weil diese unterschiedliche Bereiche der „konzeptionellen Schriftlichkeit und Mündlichkeit“ abdecken (vgl. Koch/ Oesterreicher 1985, 2007). Bei beiden handelt es sich um Medien, die in geschriebener (getippter) Form zu finden sind, doch i. d. R. unterscheidet sich der Entstehungsprozess. Blogposts werden inhaltlich und strukturell geplant und möglicherweise vor der Veröffentlichung überarbeitet, während Tweets zumeist spontan entstehen. Zugleich sind beide Medien jedoch sehr flexibel und erlauben sowohl eine spontane oder private Nutzung, als auch eine professionalisierte, eher standardnahe Nutzung, so dass auch innerhalb der beiden Medien im Korpus noch weiter differenziert werden muss. Die Untersuchung von Texten derselben Personen aus diesen beiden Medien ermöglicht den direkten Vergleich der verwendeten Sprache und somit Rückschlüsse auf individuelle und medienspezifische Sprachverwendung. 2. Datensammlung Die Korpus-Rohdaten wurden im Februar 2017 gesammelt, eine Ergänzung mit aktualisierten Daten ist in Planung. Entsprechend dem Ziel der Korpuserstellung, vergleichbare Sprachdaten von Nutzerinnen und Nutzern zu erhalten, die sowohl Blogs als auch Twitter bedienen, wurde zunächst eine thematische Auswahl getroffen: Als thematischer Schwerpunkt wurde Elternschaft und Erziehung gewählt, da diese Themen in der Blogosphäre breit präsent sind und gleichzeitig auch auf Twitter relativ großen Raum einnehmen. So soll eine möglichst große inhaltliche Überschneidung der Blog- und Tweettexte erreicht werden, um die Vergleichbarkeit der Teilkorpora zu erhöhen. Wir extrahierten über die Twitter-Liste Elternbloggerkarte 1 Englischsprachige Untersuchungen wurden bereits an einem ähnlichen Twitter-Korpus durchgeführt, jedoch ohne vergleichende Untersuchungen anhand eines Vergleichskorpus mit Blogposts derselben Personen (Friginal/ Waugh/ Titak 2018). <?page no="91"?> INDIVIDUELLE LINgUISTISCHE VARIABILITäT IN SOZIALEN MEDIEN 91 eine Sammlung an Personen, die sowohl Twitter-Accounts haben, als auch einen Elternblog betreiben. Diese Liste wurde manuell um wenige bekannte Twitter-/ Blogaccounts ergänzt. Zentrales Thema sowohl der Blogs als auch der Tweets sind persönliche Erlebnisse in der Familie, Elternschaft, Kinder und Erziehung. Die in der Liste verlinkten Twitter-Profile wurden automatisch ausgelesen und ein in der Twitter-Bio angegebener Link auf den zugehörigen Blog gespeichert. Mit Hilfe von Python-Skripten wurden anschließend die Rohdaten aus Twitter und den angegebenen Blogs folgendermaßen gesammelt: Die letzten verfügbaren Tweets (in der Regel maximal 3200 Tweets) wurden durch die Twitter-API ausgelesen, Retweets wurden dabei ausgeschlossen. Die Blogposts wurden über einen RSS-Feed (wenn vorhanden) ausgelesen, es wurden alle Blogposts je Nutzerin bzw. Nutzer in einem Dokument gespeichert und durch Trennzeichen voneinander getrennt. Die RSS-Feeds erlaubten je nach Einstellung Zugriff auf die 5 bzw. 10 letzten Texte des Blogs (bei einer Person: alle 61 Blogtexte). Im Folgenden wurden nur die 50- Accounts betrachtet, bei denen sowohl Tweets als auch Blogposts automatisch gesammelt werden konnten. Die Verlinkung zwischen Twitterdaten und Blogdaten wurde anhand der selbst angegebenen (nutzerseitigen) Verlinkung in der Twitter-Bio vorgenommen. 3. Datenschutz §60d UrhG erlaubt die Reproduktion von Texten aus dem Internet für wissenschaftliche Nutzung durch Text- und Datamining. Allerdings handelt es sich bei den Korpusdaten um persönliche Texte. Deshalb wurde ein Opt-Out-Verfahren durchgeführt, in dem alle 50 Autorinnen und Autoren per Mail über die Sammlung und Verwendung ihrer Daten informiert wurden. Drei der Kontaktierten lehnten ab, ihre Daten wurden vollständig gelöscht. Sechs Personen stimmten nach Rückfragen zu, und 41 Personen meldeten sich nicht zurück, was ebenfalls als Einverständnis gewertet wurde. Da im Nachhinein bei drei Autorinnen bzw. Autoren nicht festgestellt werden konnte, ob hinter den Benutzernamen ein Kollektiv an Autorinnen bzw. Autoren oder eine Einzelperson steht, wurden diese ebenfalls aus dem Korpus entfernt. Insgesamt befinden sich somit 44 Einzelpersonen mit ihren Blogposts und Tweets im Korpus. Anschließend führten wir eine manuelle Anonymisierung aller personenbezogenen Daten durch, bei der persönliche Angaben durch Platzhalter ersetzt wurden (siehe Abb.-1). Anonymisiert wurden die Informationen Personennamen, Blogtitel, E-Mailadressen, Ortsnamen, Usernamen, URLs und Telefonnummern. Dieser Schritt dient dazu, persönliche Informationen weniger auffindbar zu machen, ohne die sprachliche Struktur zu verändern. Personen der Öffentlichkeit (Politikerinnen und Politiker, Berühmtheiten, historische Personen etc.) wurden nicht anonymisiert. <?page no="92"?> TATJANA SCHEFFLER/ LESLEY-ANN KERN/ HANNAH SEEMANN 92 Abb.-1: Anonymisierungsbeispiel für die Information Ort Gastartikel und Interviews wurden gelöscht, da hier die Autorschaft nicht zweifelsfrei zuordenbar war und ggf. Anpassungen durch die Interviewerin bzw. den Interviewer durchgeführt wurden. Darüber hinaus wurden für die Analyse anonymisierte IDs anstelle der Nutzernamen oder Klarnamen der Autorinnen und Autoren erstellt, anhand derer die Tweets den zugehörigen Blogposts zugeordnet werden können. Diese IDs können jedoch bei Bedarf auf die jeweilige reale Person zurückgeführt werden. 4. Korpus Unser multimediales Korpus besteht aus Blogposts und Tweets von 44 Personen. Alle Daten sind zwischen Oktober 2016 und Februar 2017 entstanden. Twitter Blog Posts 81.440 468 Token 1,2 Mio. 360.000 Durchschnittliche Anzahl pro Person 1850,9 Tweets 10,6 Blogposts Tab.-1: Übersicht über die Korpusdaten Im Korpus wird eine große Bandbreite an Themen abgedeckt. Autorinnen und Autoren bewerten Produkte (1), teilen Rezept- und Bastelideen (2)-(3) oder werben für ihr eigenes Gewerbe (4). (1) [Werbung] DER Kinderroller [...] Und hätte ich ihn bezahlt [...], ich hätte sicherlich das ein oder andere Mal protestiert: „Nicht dort lang! Davon geht der Roller doch kaputt! “ Tatsächlich hat der Roller alles mitgemacht. Aus meiner Sicht also eine aufrichtige Kaufempfehlung. [blogposts-5035-2] (2) Das Rezept ist aus meinen fast 10 Uahre alten Schwedischkursmaterialien. [...] Hier das Rezept, korrigiert und ergänzt. <?page no="93"?> INDIVIDUELLE LINgUISTISCHE VARIABILITäT IN SOZIALEN MEDIEN 93 Für den Teig: 100g Butter oder Margarine in einem Topf schmelzen [...] [blogposts-6317-7] (3) Fotos aufbewahren: 30 DIY Ideen Ausgedruckte Bilder werden noch lange nicht von der digitalen Variante ersetzt. [...] Schau dir mal diese DIY-Ideensammlung an: Bastle Alben, Fotowände, Geschenkschachteln, Lesezeiten und vieles mehr! [blogposts-1095-5] (4) Juhuhhuuu! ! Endlich live und buchbar! Der neue #Kinderwunsch Kurs-- zur #Wartezeit nach dem #Transfer! Echte Hilfe … [URL] [tweets-9475] In anderen Texten berichten Autorinnen und Autoren von Meilensteinen im eigenen Leben oder dem der Kinder (5), oder teilen Erlebnisse aus dem Familienalltag (6) sowie Eindrücke und Gefühle aus bestimmten Situationen (7). (5) Willkommen im Leben-- [NAME] ist da ♥ [URL] [URL] [tweets-2995] (6) @[USERNAME] Schule fängt um 7.40 an. Aufstehen, Frühstück, Zähne putzen, Schulweg. [tweets-5035] (7) Ich werde mich riesig mit dir über jeden weiteren Schritt freuen, auch wenn ich mir dabei vielleicht hin und wieder mal verstohlen eine Träne wegwische. Klar, bist du ein Großer, mein Kleiner. Das ist gut so, und ich begleite dich-- wie deinen Bruder-- mit großem Stolz dabei. [blogposts-1611-9] Das Korpus enthält ebenfalls Texte, in denen Autorinnen und Autoren stärker argumentieren als in den vorigen Beispielen. Themen, über die argumentiert werden, schließen Elternschaft und Beziehung (8), Gesundheit und Ernährung (9), Familienpolitik (10), Bildung und Bildungspolitik (11), Gender (12), Nachhaltigkeit (13) und weitere ein. (8) Soziale und gesellschaftliche Akzeptanz ist immer noch eines der Hauptprobleme #VaeterNRW [URL] [tweets-5440] (9) @[USERNAME] Mir ist ein veganes Produkt trotzdem lieber als ein Milchprodukt , da ich das Methan-Problem als schwerwiegender sehe ... [tweets-7671] (10) Ich habe Glück-- offener Brief an Winfried Kretschmann [...] Ich bin seit genau 6 Jahren getrennt und mein erstes Kind wird im März 12- Jahre alt [...]. Dass eine Alleinerziehende in diesem Land sich nur aus purem Glück nicht finanziell und gesundheitlich komplett zugrunde richtet, ist eine Katastrophe. [blogposts-3499-6] <?page no="94"?> TATJANA SCHEFFLER/ LESLEY-ANN KERN/ HANNAH SEEMANN 94 (11) „Was unsere Schule braucht ist eine milliardenstarke Digitalisierungsoffensive! “. Sie reden jetzt schon von Bildung 4.0- - und ich frag mich, was war an Bildung 1.0 eigentlich so verdammt buggy, dass es drei weitere Major-Releases bedurfte? Was war so verdammt falsch daran, als Grundschüler Lesen, Schreiben (mit dem Füller in der Hand! ), Grammatik, Orthografie, Rechnen lernten, die Arten- und Pflanzenvielfalt in heimischen Wäldern mit ihren Lehrern erstaunt entdeckten und sich mehrmals die Woche im Sportunterricht auspowern konnten? [blogposts-8391-1] (12) @[USERNAME] Glaubst du die stehen dem Kind besser , nur weils ne Vulvina hat? Also ich würde das wirklich gern verstehen. [tweets-6838] (13) #Plastiktueten Wieso keine Ökosteuer drauf wie bei Benzin und Diesel ? Den so profitiert nur der Handel vom Geld für die Tueten [tweets-5743] Unterschiedliche Autorinnen und Autoren behandeln auch verschiedene Themen. Dabei können Blog und Tweets dieselben Themen abdecken, sie können aber auch jeweils andere Themenschwerpunkte haben. Die parallele Erfassung von Blogposts und Tweets derselben Autorinnen und Autoren ermöglicht die Untersuchung der Verwendung von Sprache derselben Person zum selben Thema in den verschiedenen Medien: (14) und (15) bzw. (16) und (17) zeigen Beispiele, in denen dieselbe Person in unterschiedlichen Medien vom selben Umstand berichtet. (14) „Es ist nur eine Phase…“ wie mich dieser Satz nervt! [URL] [tweets-6794] (15) Natürlich geht es nach der Geburt gleich weiter, all die gut gemeinten Ratschläge und so. Mit der Zeit kam ich damit zurecht, aber einen Satz konnte und kann ich nicht leiden: „Es ist nur eine Phase! “ [...] Ich meine dieses altkluge, veteranenmäßige Es ist nur eine Phase, das kam wenn ich wirklich meine Sorgen und Nöte schilderte. [blogposts-6794-4] (16) Das Baby präsentiert sich heute in der Bauchweh-Edition und ich hoffe sehr, dass das kein Dauer-Abo wird. [tweets-2995] (17) Aber das Bauchwehbaby ist viel unruhig, einer muss ihn immer auf dem Bauch haben. Seufz. Während der Mann ihn versorgt, mache ich was schnelles zu Abend: Leberkäs mit Ei.- Dann fliegender Wechsel: der Mann fährt mit-[NAME] los, um [NAME] abzuholen-- die hatte einen Auftritt mit ihrer Garde- - und ich übernehme den Kleinen. Nach ihrer Rückkehr badet der Mann [NAME], [NAME] geht noch duschen und ich bringe [NAME] ins Bett, während der Mann den Kleinen kuschelt. So schnell ist ein Wochenende vorbei. [blogposts-2995-1] <?page no="95"?> INDIVIDUELLE LINgUISTISCHE VARIABILITäT IN SOZIALEN MEDIEN 95 Zusätzlich zu inhaltlichen Untersuchungen bietet die Erfassung der Tweet-Metadaten wie Tweet-ID, Replys und Retweets die Möglichkeit, ausgehend von den Daten des Korpus Interaktionen auf Twitter zu untersuchen. 5. Formate und Vorverarbeitung Die XML-Struktur orientiert sich am vorgeschlagenen TEI-CMC Schema (Beißwenger et al. 2012). Das Korpus wurde mit Hilfe des Python-Paketes SoMaJo 2 automatisch satzsegmentiert und tokenisiert. Der Header enthält den Titel des Dokuments, die der Nutzerin bzw. dem Nutzer zugewiesene ID, den Zeitraum der Erstellung des Posts und den Zeitraum des Downloads sowie das Medium, aus dem der Post stammt. Den einzelnen Blogposts wurden eindeutige IDs zugewiesen. Ebenso wurden die Absätze und Sätze innerhalb der Blogposts sequenziell nummeriert. Das folgende Beispiel (18) zeigt das XML-Format der Blogposts. Hier sind der Header eines Dokuments, der Titel des ersten Posts und dessen erste Sätze, tokenisiert und in Paragraphen unterteilt, zu sehen. Nicht-textuelle Medien wie Bilder und Videos wurden nicht gespeichert und deren Links entfernt. (18) <TEI> <teiHeader> --------<fileDesc> ------------<titleStmt> ----------------<title>1123_blog</ title> ----------------<author>UserID-1123</ author> ------------</ titleStmt> ------------<publicationStmt> ----------------<scrapedate>20.02.2017</ scrapedate> <date>10/ 16 - 02/ 17</ date> ------------</ publicationStmt> ------------<sourceDesc> ----------------<medium>Blog</ medium> ------------</ sourceDesc> --------</ fileDesc> </ teiHeader> <text> --------<body> ------------<posts-xml: id=”1123B”-type=”blog”> ----------------<post-xml: id=”1123B_1”-type=”blog”> <head>Maternal-Gatekeeping</ head> <div-xml: id=“1123B_1-1“-type=“paragraph“> 2 https: / / github.com/ tsproisl/ SoMaJo (Stand: 14.11.2022). <?page no="96"?> TATJANA SCHEFFLER/ LESLEY-ANN KERN/ HANNAH SEEMANN 96 <div-xml: id=“1123B_1-1-1“-type=“sentence“>Rund-80-Prozent-- - - - der-Väter-sagen-,-sie-wünschen-sich-mehr-Zeit-für-ihre-- - - - Familie-und-würden-sich-gerne-mehr-an-der-Erziehung-und-- - - - Betreuung-der-eigenen-Kinder-beteiligen-.</ div> <div-xml: id=“1123B_1-1-2“-type=“sentence“>In-der-Praxis-tut-- - - - sich-jedoch-nicht-so-viel-und-deshalb-wird-fleißig-nach-- - - - Ursachen-gesucht-.</ div> <div xml: id=“1123B_1-1-3“-type=“sentence“>Immer-wieder-- - - - taucht-dabei---vor-allem-in-der-Argumentation-von-Vätern-- - - --das-so-genannte-„-Maternal-Gatekeeping-“-auf-.</ div> <div-xml: id=“1123B_1-1-4“-type=“sentence“>Zuletzt-gestern-- - - - und-heute-auf-Twitter-von-zwei-Männern-,-die-in-- - - - Deutschland-immer-wieder-angehört-und-eingeladen-- - - - werden-,-wenn-es-um-diese-Fragen-geht-.</ div> </ div> Auch im Format der Tweets wie in (19) sind Informationen über den Text hinaus vorhanden. Datum und Uhrzeit der Erstellung des Tweets, die Twitter-ID der Autorin bzw. des Autors, die ID des Tweets, u. U. ein Tweet, auf den geantwortet wird sowie die Anzahl an Likes und Retweets können den Metadaten eines jeden Tweets entnommen werden. Auch Tweets können mehrere Sätze enthalten, wie im Korpusausschnitt (19) zu sehen. (19) <TEI> <teiHeader> --------<fileDesc> ------------<titleStmt> ----------------<title>1095_twitter</ title> <author>UserID-1095</ author> ------------</ titleStmt> ------------<publicationStmt> ----------------<scrapedate>14.-16.02.17</ scrapedate> <date>10/ 16-02/ 17</ date> ------------</ publicationStmt> ------------<sourceDesc> ----------------<medium>Twitter</ medium> ------------</ sourceDesc> --------</ fileDesc> </ teiHeader> <text> --------<body> <p-ost-xml: id=”1095T_1”-type=”tweet”-created-at=”2017-02-10-10: 35: 09”- userid=”4148508797”-tweetid=”830002155314671616”-replyid=”None”- likes=”4148508797”-retweets=”2”> <?page no="97"?> INDIVIDUELLE LINgUISTISCHE VARIABILITäT IN SOZIALEN MEDIEN 97 <div-- -xml: id=”1095T_1-1”-type=”sentence”>The-#Evolution-of-- #Desktop-.</ div> <div-- -xml: id=“1095T_1-2“-type=“sentence“>Mit-Smartphone-wäre-- - das-#gif-komplett-! -: )-[URL]</ div> </ post> <p-ost-xml: id=”1095T_2”-type=”tweet”-created-at=”2017-02-09- 10: 15: 18”-userid=”4148508797”-tweetid=”829634774507646980”- replyid=”None”-likes=”4148508797”-retweets=”0”> <div xml: id=“1095T_2-1“-type=“sentence“>#Lego-eröffnet- #SozialesNetzwerk-für-#Kinder-: -Werbung-oder- Medienerziehung-? </ div> <div xml: id=“1095T_2-2“-type=“sentence“>Das-nächste-unnötige-- soziale-Netzwerk-? </ div> <div-- -xml: id=”1095T_2-3”-type=”sentence”>[URL]</ div> </ post> 6. Intra-individuelle Variation in sozialen Medien Die Analyse des Korpus bestätigt erwartete Effekte der Variabilität der Sprachverwendung in Abhängigkeit vom (sozialen) Medium der Kommunikation: So sind zum Beispiel durchgehende Großschreibung („SÜSSIGKEITEN“), orthographische Längung („Mamaaaa“), sowie alle Arten von Emojis weitaus häufiger in den Tweets zu finden, als in den Blogposts (siehe Abb.-2). Allerdings lässt die Zusammensetzung des Korpus zusätzliche Schlussfolgerungen zu. So kann zum Beispiel gezeigt werden, dass das mehr als 50 mal so frequente Vorkommen der Emojis in den Tweets nicht inter-, sondern intraindividueller Variation zuzuschreiben ist, da die Autorinnen und Autoren in beiden Medien gleich sind. In einer Pilotstudie zur Trennung verschiedener Arten der Variation wurden im Korpus vorhandene Modalpartikeln und Intensivierer manuell annotiert und ihre Häufigkeiten ausgezählt. Wir haben darüber hinaus drei im Korpus enthaltene Register konzeptioniert (informative/ narrative/ persuasive), die allen Blogposts des Korpus und jeweils allen Tweets pro Autorin bzw. Autor gesammelt zugeordnet wurden. Es zeigte sich in der Auswertung in Bezug auf die Modalpartikeln und Intensivierer, dass das jeweilige Register eines Textes einen stärkeren Einfluss auf die Wahl linguistischer Merkmale hatte als das gewählte Medium. Somit kann ein soziales Medium nicht mit einem Register gleichgesetzt werden. Das präsentierte Korpus erlaubt die Differenzierung der sprachlichen Variabilität (individuell, register- oder mediumbezogen) und weitergehend die Beantwortung von Forschungsfragen wie: Ist ein bestimmtes linguistisches Phänomen abhängig vom verwendeten Medium oder dem gewählten Register? <?page no="98"?> TATJANA SCHEFFLER/ LESLEY-ANN KERN/ HANNAH SEEMANN 98 Abb.-2: Vorkommen typischer CMC-Phänomene (pro 1000 Token) 7. Verfügbarkeit Das anonymisierte Korpus ist als Rohtext (.txt-Format) sowie tokenisiert im .xml- Format vorhanden. Es steht für wissenschaftliche Forschungen frei zur Verfügung. Bei wissenschaftlichem Interesse an den Korpusdaten melden Sie sich bitte bei Tatjana Scheffler. Weitere Informationen sind über unsere Lehrstuhl-Website verfügbar. 3 Danksagung Wir danken dem IDS für das Ausrichten der 58.- Jahrestagung des Leibniz-Instituts für Deutsche Sprache sowie der Methodenmesse Korpora in der germanistischen Sprachwissenschaft. Gefördert durch die Deutsche Forschungsgemeinschaft (DFG)-- Projektnummer 317633480-- SFB 1287. 3 http: / / staff.germanistik.rub.de/ digitale-forensische-linguistik/ forschung/ textkorpus-sprachlichevariation-in-sozialen-medien/ (Stand: 14.11.2022). <?page no="99"?> INDIVIDUELLE LINgUISTISCHE VARIABILITäT IN SOZIALEN MEDIEN 99 Literatur Barbaresi, Adrien (2016): Collection and indexing of tweets with a geographical focus. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Goggi, Sara/ Grobelnik, Marko/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Moreno, Asunción/ Odijk, Jan/ Piperidis, Stelios (Hg.): Tenth international conference on language resources and evaluation (LREC’16), 23-28-May 2016, Portorož, Slovenia. European Language Resources Association (ELRA), S.-24-27. Barbaresi, Adrien/ Würzner, Kay-Michael (2014): For a fistful of blogs: discovery and comparative benchmarking of republishable German content. In: Faaß, Gertrud/ Ruppenhofer, Josef (Hg.): - Workshop proceedings of the- 12th- edition of the KONVENS conference. Hildesheim, 8.-10.-Oktober 2014. Hildesheim: Hildesheim University Press, S.-2-10. Beißwenger, Michael (2013): Das Dortmunder Chat-Korpus: Ein annotiertes Korpus zur Sprachverwendung und sprachlichen Variation in der deutschsprachigen Chat-Kommunikation. In: Zeitschrift für germanistische Linguistik- 41,- 1, S.- 161-164. https: / / doi. org/ 10.1515/ zgl-2013-0009. Beißwenger, Michael/ Ermakova, Maria/ Geyken, Alexander/ Lemnitzer, Lothar/ Storrer, Angelika (2012): A TEI Schema for the representation of computer-mediated communication. In: Journal of the Text Encoding Initiative-3 (TEI and Linguistics), November 2012. Friginal, Eric/ Waugh, Oksana/ Titak, Ashley (2018): Linguistic variation in Facebook and Twitter posts. In: Friginal, Eric (Hg.): Studies in corpus-based sociolinguistics. New York, NY: Routledge, S.-342-362. Ito, Rika/ Tagliamonte, Sali (2003): Well weird, right dodgy, very strange, really cool: Layering and recycling in English intensifiers. In: Language in Society-32,-2. S.-257-279. https: / / doi. org/ 10.1017/ S0047404503322055. Koch, Peter/ Oesterreicher, Wulf (1985): Sprache der Nähe-- Sprache der Distanz: Mündlichkeit und Schriftlichkeit im Spannungsfeld von Sprachtheorie und Sprachgeschichte. In: Romanistisches Jahrbuch-36,-1, S.-15-43. Koch, Peter/ Oesterreicher, Wulf (2007): Schriftlichkeit und kommunikative Distanz. In: Zeitschrift für germanistische Linguistik-35,-3 (Themenschwerpunkt Schrift-- Text-- Bild), S.-346-375. Scheffler, Tatjana (2014): A German Twitter snapshot. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Loftsson, Hrafn/ Maegaard, Bente/ Mariani, Joseph/ Moreno, Asunción/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the ninth international conference on language resources and evaluation (LREC’14). Reykjavik, Iceland, May-2014. European Language Resources Association (ELRA), S.-2284-2289. <?page no="101"?> LOUIS COTgROVE New opportunities for researching digital youth language: The-NottDeuYTSch-corpus Abstract This article details the process of creating the Nott inghamer Korpus deu tscher Y ou- T ube- S pra ch e (‘The Nottingham German YouTube Language Corpus’-- or NottDeuYTSch corpus) and outlines potential research opportunities. The corpus was compiled to analyse the online language produced by young German-speakers and offers significant opportunity for in-depth research across several linguistic fields including lexis, morphology, syntax, orthography, and conversational and discursive analysis. The NottDeuYTSch corpus contains over 33 million words taken from approximately 3 million YouTube comments from videos published between 2008 to 2018 targeted at a young, German-speaking demographic and represent an authentic language snapshot of young German speakers. The corpus was proportionally sampled based on video category 1 and year from a database of 112 popular German-speaking YouTube channels in the DACH region for optimal representativeness and balance and contains a considerable amount of associated metadata for each comment that enable further longitudinal cross-sectional analyses. The NottDeuYTSch corpus is available for analysis as part of the German Reference Corpus (D�R�K�). Keywords: youth language, CMC, DMC, YouTube, German, digital communication, corpus linguistics 1. The need for the NottDeuYTSch corpus YouTube is a significant source of authentic linguistic data created by young people. However, there are significant gaps in corpus linguistic scholarship within the field. The linguistic features used by young people in YouTube comments have rarely been analysed in studies of either Digitally Mediated Communication (DMC) or- youth language, despite YouTube becoming one of the most-used online sites of-communication in this demographic (Saferinternet.at 2018), with 86% of 12‐19year‐olds reporting that they regular watched YouTube videos in 2018 (Bahlo et al. 2019, p.-80). To address this underdeveloped field of scholarship, I have constructed the NottDeuYTSch specifically to enable the investigation of the language of young German-speakers in digital spaces. 1 For Germany and Austria, the complete list of 31 categories (translated into English) are as follows: film-& animation, autos & vehicles, music, pets & animals, sports, short movies, travel & events, gaming, videoblogging, people & blogs, comedy, entertainment, news & politics, howto & style, education, science & technology, nonprofits & activism, movies, anime/ animation, action/ adventure, classics, comedy, documentary, drama, family, foreign, horror, sci-fi/ fantasy, thriller, shorts, shows, and trailers. DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="102"?> LOUIS COTgROVE 102 The NottDeuYTSch corpus is a collection of over 33 million words written between 2008 and 2018 taken from the comment sections of 112 mainstream German-language YouTube channels that produce content targeted at young people. While other corpora of digital German language have been constructed, they have focused on other sources of data, e. g. websites and online forums (the DECOW corpus, Schäfer 2015; the DWDS WebXL Korpus, Geyken et al. 2017; Barbaresi/ Geyken 2020), South Tyrolean Facebook texts (the DiDi Korpus, Glaznieks/ Frey 2020), Internet Relay Chat (IRC) messages from students (the Dortmunder ChatKorpus, Beißwenger et al. 2015), WhatsApp messages (the MoCoDa2 corpus, Beißwenger et al. 2020), and SMS, e-mail, IRC, Twitter, and Wikipedia article and discussion pages (the IBK und Social Media-Korpora, Lüngen/ Kupietz 2020). Some of the corpora aim to capture a wide range of DMC text types, but the majority are highly specialised: either focusing on one method of communication or on one target group. The range of specialised corpora demonstrates the “unparalleled and rapidly evolving diversity in terms of speakers and settings” in DMC (Barbaresi 2019, p.-29), although none of the above-mentioned corpora have exclusively focused on the language of young people. Indeed, Barbaresi (ibid., p.-30) advocates for the creation of more specialised corpora of online language, “to complement existing collections, as they allow for better coverage of specific written text types and genres, especially the language evolution seen through the lens of user-generated content, which gives access to a number of variants, socioand idiolects”. Androutsopoulos/ Tereick (2016, pp.-366 f.) also advocate specifically for more linguistic research using YouTube, highlighting “comment interaction, remix and multimodality, discourse participation, performance and stylization of linguistic variability” as potential areas of study. The NottDeuYTSch corpus answers these calls, providing an unparalleled opportunity for exploratory study of colloquial DMC of and between young people. The period covered by the corpus, 2008-2018, sits within the internet epoch referred to as Web- 2.0 (O’Reilly 2005), an era of online and digital communication that began in the mid-2000s characterised by “social interaction and user-generated content”, rather than information repositories (Herring 2013, p.- 1). This decade was also an important period of technological transition from PC to mobile-based communication for many young people, who experienced the “digitalisation [of their] everyday lives” (Döring 2010, p.-161), acquiring personal access to the internet through smartphones, rather than being restricted to family or school computers or internet cafes. The corpus therefore can potentially capture any linguistic changes in digital youth language that may have accompanied the technological changes. The article is divided into four sections. Section-2 presents the methodology behind selecting the data for the NottDeuYTSch corpus, including the guiding principles of building the corpus and identifying the YouTube channels from which the comments <?page no="103"?> NEW OPPORTUNITIES FOR RESEARCHINg DIgITAL YOUTH LANgUAgE 103 were collected. Section- 3 outlines the processes of constructing the NottDeuYTSch corpus, examining methodological concerns, such as corpus balance and size, and explains the sampling procedures used. Section-4 provides an overview of the NottDeuYTSch corpus and contains a breakdown of the key statistical features. Finally, section- 5 outlines the potential applications of the corpus within future linguistic research. 2. Selecting the Data in the NottDeuYTSch Corpus This section presents the methodological processes and principles behind selecting the data for the NottDeuYTSch corpus. Section-2.1 presents the aims and objectives of the corpus, and the typical content of the videos selected to provide comments for the corpus. Section-2.2 presents the case for treating the comments collected to construct the corpus can be considered as authentically produced by young people, and the ethical considerations surrounding the data. Finally, section-2.3 details the processes to identify the channels and videos to be included in the pre-corpus database, in preparation for sampling to create the NottDeuYTSch corpus. 2.1 Principles of building the NottDeuYTSch corpus Five main factors governed the construction of the corpus, which ensure that it is balanced, representative, and able to be used in a wide range of future research: 1) The NottDeuYTSch corpus should represent, as best as possible, the language used by young German-speakers online. It is impossible to achieve perfect representativeness, but every effort has been made to ensure that the data were selected according to a strict methodology. 2) The data must be able to be analysed longitudinally. 3) The NottDeuYTSch corpus must be able to be used in comparison with other German-language corpora. 4) Only videos with over 100 comments were selected. My previous research on YouTube suggests that the average comment contains just over 10 tokens, so selecting videos with over 100 comments, should ensure that every video contributes (on average) over 1.000 words. A 1.000-word minimum sample size helps “to reliably represent the distributions of linguistic features” (Biber 1993, p.-252). 5) Videos must be published between July 2008 and October 2018. This ensured that all videos and comments were created after YouTube launched the localised version of the website for Germany on 8th November 2007, which had the effect of promoting German-language content to German speakers. <?page no="104"?> LOUIS COTgROVE 104 2.2 The identity of the commenters The NottDeuYTSch corpus is intended to be a collection of authentic language created by German-speaking young people. However, verifying the age of the commenters presents a methodological challenge for the construction of the corpus, as this knowledge is not publicly available and is often not disclosed within a comment. The corpus was constructed following approaches suggested by Döring (2010, p.-164) that describe how an online user may present their digital identity to infer that the comments are generally written by young people. These include direct and indirect self-presentation of identifying information, such as statements about oneself and viewing habits, although language use was not considered as this was the focus of study. A more in-depth explanation of the application of Döring’s principles to the data selection of the NottDeuYTSch corpus can be found in Cotgrove (2022, pp.-62-64). In summary, the videos were specifically selected for the corpus (as detailed in section- 2.1.3 below) because they were produced to target a young German-speaking demographic and contain many instances of self-disclosure of relevant age. Therefore, we can assume the corpus reflects German-language youth culture. While there may be commenters who would not be counted as young people, the small size of this group, roughly 5% based on the self-disclosure statistics, would not significantly statistically affect the analyses. 2.3 Identifying relevant YouTube channels In order to select the comments that comprise the NottDeuYTSch corpus, a database of channels was created. The process of identifying the channels was initially informed by my previous exposure to German-language YouTube culture. The channels identified had either received considerable media attention due to their YouTube popularity, such as BibisBeautyPalace, or were owned by media companies specifically targeted at young people, such as the YouTube channel of the radio station 1Live (the youth station of WDR). Background information collected on Bibi from BibisBeautyPalace revealed that she often appeared on the front cover of BRAVO, the teen magazine. Due to the magazine’s prominent role in German-speaking youth culture and regular news items involving German-language YouTubers, 63 of the 112 YouTube channels in the database featured in BRAVO cover stories and home page articles. Additionally, music channels were added to the database by analysing the German music charts for successful German-speaking artists over the past 10 years and German music YouTube channels, such as AggroTV. Eight artist or music channels were selected who had the highest chart success, largest YouTube presence, and highest number of appearances in youth media (including BRAVO). <?page no="105"?> NEW OPPORTUNITIES FOR RESEARCHINg DIgITAL YOUTH LANgUAgE 105 Five successful youth/ online media platforms that have a high number of views and subscriptions on YouTube, such as PromiFlash, the leading YouTube-based news service aimed at young German speakers, were also included. Each of the five media outlet channels included in the corpus (1Live, AGGRO.TV, Promiflash, RTL, World Wide Wohnzimmer) has at least 50m views and has uploaded 500 videos, with Promi- Flash leading the way with almost 2bn views and 1.2m comments. I used aYouTube social aggregation website SocialBlade which lists the 250 channels in each of Germany, Austria, and Switzerland with the most subscribers. This achieved two goals. Firstly, it verified whether the channels had a large enough number of subscribers to be eligible for inclusion in the corpus. Secondly, using the Internet Archive 2 to view the page at various times since 2014, I was able to identify YouTube channels aimed at the demographic that were popular in the past and include them in the database. This was crucial to ensuring that the NottDeuYTSch corpus is as representative as possible of all years encompassed by the corpus, not just at time of its construction. This process added 18 further channels to the database, such as Coldmirror, 3 famous for Harry Potter parody videos. The final process in expanding the database was to explore the ‘Related channels’ section on the ‘About’ page (as in fig.- 3.3) from the 101 channels in the database identified up to this point. To do so, I used the ‘YouTube Tools Channel Network Module’, 4 which produces a list of channels that are similar to, or recommended by, the list of channels inputted. Combined with manual checks of the ‘Related channels’ sections, I added eleven more channels to the database. A breakdown of the sources of the channels for the YouTube corpus is presented in table-1. Channel identification process Number of channels identified Existing knowledge 7 BRAVO magazine covers and website 63 Music channels 8 Youth media channels 5 SocialBlade.com 18 Related channels 11 Total 112 Table-1: Breakdown of sources used to identify channels included in the NottDeuYTSch Corpus 2 https: / / archive.org/ web (last accessed: 17-11-2022). 3 www.youtube.com/ user/ coldmirror (last accessed: 17-11-2022). 4 https: / / tools.digitalmethods.net/ netvizz/ youtube/ mod_channels_net.php (last accessed: 17-11-2022). <?page no="106"?> LOUIS COTgROVE 106 3. Constructing the NottDeuYTSch Corpus This section explains the methods taken to construct the NottDeuYTSch corpus. Section-3.1 outlines the process of extracting and cleaning of the data. Section-3.2 outlines the steps taken to ensure the corpus is as balanced and representative as can be. Section-3.3 explains how the corpus can be considered an appropriate size for a wide range of future linguistic analyses. 3.1 Extracting and cleaning the data Using the statistical software, R (R Core Team 2021), custom code was written to interact with the YouTube Application Programming Interface (API) to import data on the channels in the database. This meant that the number of videos and comments could be established, and how they were distributed across video category and year for further sampling. The initial size of the pre-corpus database was 102.115 videos, and approximately 3.000 videos were removed as they did not have any comments that could be extracted, because the uploader either had disabled comments for that video or had streamed the video live through YouTube. This brought the total number of videos to 99.334. Whilst comments under a live-streamed video can be extracted using other methods, I chose not to include them as the interaction between commenters and the nature of their participation in a ‘live’ environment creates a different communicative environment: for example, comments simply express that a user is virtually present, rather than interacting with the content of the video or other users (Stenson 2020, p.-233). 3.2 Corpus representativeness and balance One of the most important principles for the construction of the NottDeuYTSch corpus, is that it is ‘representative’ of the language used by young German-speakers in comments under mainstream YouTube videos, i.-e. the findings in the corpus can be generalised to the wider population from which the data were sampled (Biber 1993, p.- 243). The database contains information on the upload date and video category for every video uploaded by the 112 channels, as well as the timestamp for every comment written under the videos. The upload year and category of the video were selected to be the two parameters used to ensure the representativeness of the NottDeuYTSch corpus using stratified random sampling, which is an optimal method to ensure corpus ‘balance’ where a corpus contains “a wide range of text categories” (McEnery/ Xiao/ Tono 2006, p.-16), as is the case here. <?page no="107"?> NEW OPPORTUNITIES FOR RESEARCHINg DIgITAL YOUTH LANgUAgE 107 3.3 Determining the size of the NottDeuYTSch corpus As researchers on corpus linguistics have observed (e. g. Baker 2010), the appropriate size of a corpus varies depending on the features that are to be analysed. From a purely statistical standpoint, a chi-square test requires an expected value of at least five occurrences of a linguistic feature to successfully run the test. If the frequency of this feature occurs once every 10-000 tokens, then the corpus must contain at least 50.000 tokens. 5 The NottDeuYTSch corpus is intended to be large enough to analyse lexical, orthographical, morphological, and syntactic features, the last of which requires a corpus size of at least one million tokens, according to Baker (2010, pp.-95 f.). This should also be large enough to provide a suitable number of features for grammatical and morphosyntactic analysis, as well as offer the opportunity for longitudinal examination over the ten-year period covered by the corpus. The total number of comments under the 99.334 videos in the database was over 150 million, which equates to roughly 1,5bn tokens. This amount of data would take too long to process and analyse within the scope the project, so, as noted above, I used stratified random sampling of the pre-corpus database based on the proportions of videos under each video category and year. The smallest acceptable size for the corpus was based on the number of videos that would contribute at least 1.000 comments in the smallest category (in this case ‘pets & animals’), which would also provide a minimum of 10.000 tokens per category. This number of tokens was sufficient for the analyses planned for the project, as well as enabling possible future inter-categorical research, i.-e. genre analyses. I therefore scaled the corpus down to find the number of comments needed per video category and year when the total number of comments in the ‘pets & animals’ category was equal to 1,000 comments. Based on this figure, the NottDeuYTSch corpus should therefore have 4.8 million comments with an approximate token count of 50 million. The final proportions of the database were adjusted so that every intersection of video category and upload year contained at least one video, and each set of comments extracted from under a video contained complete conversational threads. This ensured that there was complete data for longitudinal, genre, and conversational analyses. Within each intersection, I devised a programmatic method to select videos with the closest number of comments to the proportion required, ensuring that a wide range of channels were selected to provide videos, as well as videos with a wide spread of the number of comments. For an in-depth explanation of these methods see Cotgrove (2022, pp.-78 f.). The final number of comments extracted in every intersection is provided in the appendix (Table-3). 5 However, see Kilgarriff (2005) and Koplenig (2017) on the pitfalls of statistical significance testing in corpus linguistics. <?page no="108"?> LOUIS COTgROVE 108 4. Statistical overview of the NottDeuYTSch corpus A statistical overview of the NottDeuYTSch corpus is presented in table-2 outlining the token count, total number of comments, and key averages of the corpus. The mean number of tokens per comment (10,72) correlates with the average found in my previous research on the language of young German-speakers on YouTube (Cotgrove 2017). The type-token ratio of the NottDeuYTSch corpus (0,017) is slightly lower than that of the DWDS-Kernkorpus (0,021) (Geyken 2010, p.-1), which indicates less lexical diversity, i. e. commenters use the same words more often (Kettunen 2014, p.-223), but the closeness of the figures implies that young people’s vocabulary in YouTube comments is almost as broad as that found in general written communication by adults. Statistic Value Number of tokens (including emoji and emoticons) 33.760.494 Number of tokens (only lexemes) 32.549.462 Number of types 567.086 Type-token ratio (TTR) 0,017 Number of comments 3.149.457 Number of videos 296 YouTube channels represented 63 Mean tokens per comment 10,72 Median tokens per comment 5 Mean comments per video 1.914 Table-2: Statistical overview of the NottDeuYTSch corpus The extracted numbers of comments for each intersection were consistently lower than the target, as shown in table-2 above. This was a trend for most intersections, and it was discovered that the reported number of comments by the YouTube Application Programming Interface was different to the number of comments that it was possible to extract. Some of the differences can be explained by the videos selected having fewer comments than the target number. However, 1,7-million comments of the predicted 4,8-million were not available to download using the YouTube API. The main reason for this shortfall is that the comments had been removed from YouTube but were still counted by the YouTube API. 6 Despite this shortfall, the NottDeuYTSch 6 Comments can be removed by the commenter, the channel owner, or by YouTube themselves, if the comment violates their community guidelines. <?page no="109"?> NEW OPPORTUNITIES FOR RESEARCHINg DIgITAL YOUTH LANgUAgE 109 corpus, with a total of 3,1-million comments from 296 covering 10-years of data from 2008 to 2018, is still a suitable size to answer the research areas covered above. Furthermore, the targeted proportions for the distribution of comments per video category and year were generally met, although the comment timestamps in the NottDeuYTSch corpus are slightly more weighted towards later years. For most videos, the bulk of the comments are posted within the first two months of the upload date. However, commenters revisit older YouTube videos and leave comments, such as “Who is still watching this in 2017? ” under a video uploaded in 2008, which is the major contributing factor to the slight difference between the targeted and achieved proportions for the distribution of comments per video category and year. This does not pose any thorny methodological problems, as the comments are timestamped. 5. Applications of the NottDeuYTSch corpus The NottDeuYTSch corpus is one of the first large corpora of linguistic data containing language written specifically by young German-speakers in YouTube comments, an important and popular site of youth culture and discourse. The corpus is thus a significant contribution to corpora of online data, complementing existing corpora mentioned in section-1, which focus on other areas of online language, such as the MoCoDa2 corpus of WhatsApp messages (Beißwenger et al. 2020), the DiDi corpus of Facebook texts (Glaznieks/ Frey 2020), and the IBK corpus of multiple online sources, e. g. emails, IRC chats, and blogs (Lüngen/ Kupietz 2020). The NottDeuYTSch corpus offers a wide range of new possibilities for study and is now available as part of the German Reference Corpus (D�R�K�, Leibniz-Institut für Deutsche Sprache 2022). The structured sampling of the data over the time frame of the corpus enables a wide range of longitudinal studies for lexical, orthographical, and morphosyntactic features, as shown in examples-1 to 3. Videos and comments contain a wealth of metadata, which can facilitate a wide range of future research, e. g., analyses of video genres, time frames, users, or YouTubers. The metadata also allow interactional and discourse analyses of interactions between commenters as it preserves the comment structure on a page, i. e., parent comments and replies. Example 1 (2015) Hey [YOUTUBER] Es wär oberMEGAsuperHammerGeilo wenn ich dabei sein könnte 😁 (‘Hey [YOUTUBER] It would be “above‐MEGA‐super‐hammercool-o” if I could be there 😁) Example 2 (2012) Ich möchte gewinnen weil wegen is so ; D (‘I would like to win because cos of it is like that ; D’) <?page no="110"?> LOUIS COTgROVE 110 Example 3 (2018) Hey ich liebe 😍3 Uhr nachts wiedios 🦄🦄🦄🦄💁 (‘hey I love 😍3am videos 🦄🦄🦄🦄💁’) The large size of the NottDeuYTSch corpus allows for considerable quantitative research, including the investigation of features that do not occur frequently, such as some syntactic constructions, as well as linguistic features specific to Digitally-Mediated Communication, such as emoji and hashtags, where a large amount of data is required for linguistic study beyond qualitative analysis. The comments in the NottDeuYTSch corpus are predominantly written in German (including dialect use), but there is also a significant presence of other languages, such as English, Turkish, and Russian, including linguistic elements from multiple languages within the same comment, and the corpus can also be used for potential quantitative and qualitative analyses of multilingualism. For example, in Cotgrove (2022), three linguistic case studies were presented, which each focus on a different area of linguistics; lexis, morphosyntax, and orthography, demonstrating the wide applicability of the NottDeuYTSch corpus to analyse the digital writing of young people. It is hoped that further research in this vein can be produced with the NottDeuYTSch corpus. <?page no="111"?> NEW OPPORTUNITIES FOR RESEARCHINg DIgITAL YOUTH LANgUAgE 111 6. Appendix Category 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 Total Autos & Vehicles 0 (0%) 0 (0%) 0 (0%) 0 (0%) 0 (0%) 0 (0%) 0 (0%) 0 (0%) 3.508 (0,11%) 2.306 (0,07%) 704 (0,02%) 6.518 (0,21%) Comedy 434 (0,01%) 439 (0,01%) 2.986 (0,09%) 1.686 (0,05%) 5.405 (0,17%) 9.326 (0,3%) 23.731 (0,75%) 10.279 (0,33%) 25.447 (0,81%) 36.908 (1,17%) 13.116 (0,42%) 129.757 (4,12%) Education 0 (0%) 29 (<0,01%) 196 (0,01%) 300 (0,01%) 139 (<0,01%) 19 (<0,01%) 115 (<0,01%) 2.470 (0,08%) 28.046 (0,89%) 5.422 (0,17%) 3.914 (0,12%) 40.650 (1,29%) Entertainment 494 (0,02%) 2.590 (0,08%) 7.236 (0,23%) 13.854 (0,44%) 22.588 (0,72%) 70.378 (2,23%) 39.747 (1,26%) 81.248 (2,58%) 340.062 (10,8%) 348.523 (11,07%) 203.871 (6,47%) 1.130.591 (35,9%) Film & Animation 0 (0%) 86 (<0,01%) 3.781 (0,12%) 3.204 (0,1%) 3.503 (0,11%) 1.056 (0,03%) 4.561 (0,14%) 2.124 (0,07%) 4.373 (0,14%) 4.044 (0,13%) 2.069 (0,07%) 28.801 (0,91%) Gaming 0 (0%) 24 (<0,01%) 118 (<0,01%) 883 (0,03%) 49.482 (1,57%) 89.822 (2,85%) 78.498 (2,49%) 97.392 (3,09%) 124.231 (3,94%) 70.262 (2,23%) 30.754 (0,98%) 541.466 (17,19%) Howto & Style 5 (<0,01%) 380 (0,01%) 3.585 (0,11%) 5.119 (0,16%) 5.188 (0,16%) 15.998 (0,51%) 52.969 (1,68%) 63.920 (2,03%) 323.636 (10,28%) 345.654 (10,98%) 51.115 (1,62%) 867.569 (27,55%) Music 0 (0%) 93 (<0,01%) 1.219 (0,04%) 849 (0,03%) 1.610 (0,05%) 1.723 (0,05%) 2.227 (0,07%) 1.210 (0,04%) 5.446 (0,17%) 35.710 (1,13%) 7.436 (0,24%) 57.523 (1,83%) News & Politics 0 (0%) 86 (<0,01%) 2.699 (0,09%) 416 (0,01%) 195 (0,01%) 195 (0,01%) 339 (0,01%) 46 (<0,01%) 3.390 (0,11%) 1.071 (0,03%) 1.654 (0,05%) 10.091 (0,32%) Nonprofits & Activism 0 (0%) 0 (0%) 0 (0%) 0 (0%) 0 (0%) 184 (0,01%) 18 (<0,01%) 68 (<0,01%) 1.571 (0,05%) 142 (<0,01%) 34 (<0,01%) 2.017 (0,06%) People & Blogs 25 (<0,01%) 818 (0,03%) 566 (0,02%) 3.405 (0,11%) 6.290 (0,2%) 12.501 (0,4%) 7.258 (0,23%) 16.762 (0,53%) 52.608 (1,67%) 77.513 (2,46%) 16.871 (0,54%) 194.617 (6,18%) Pets & Animals 0 (0%) 0 (0%) 0 (0%) 0 (0%) 0 (0%) 0 (0%) 0 (0%) 0 (0%) 1.053 (0,03%) 8 (<0,01%) 3 (<0,01%) 1.064 (0,03%) Science & Technology 0 (0%) 0 (0%) 32 (<0,01%) 54 (<0,01%) 20 (0%) 6 (<0,01%) 12 (<0,01%) 51 (<0,01%) 986 (0,03%) 1.101 (0,03%) 11 (<0,01%) 2.273 (0,07%) Shows 0 (0%) 245 (0,01%) 4.896 (0,16%) 5.747 (0,18%) 26.482 (0,84%) 37.874 (1,2%) 1.951 (0,06%) 1.775 (0,06%) 1.865 (0,06%) 1.152 (0,04%) 616 (0,02%) 82.603 (2,62%) Sports 11 (<0,01%) 56 (<0,01%) 170 (0,01%) 565 (0,02%) 948 (0,03%) 1.520 (0,05%) 1.801 (0,06%) 479 (0,02%) 5.801 (0,18%) 11.819 (0,38%) 2.368 (0,08%) 25.538 (0,81%) Travel & Events 0 (0%) 26 (<0,01%) 138 (<0,01%) 198 (0,01%) 204 (0,01%) 384 (0,01%) 2.079 (0,07%) 4.956 (0,16%) 12.149 (0,39%) 6.272 (0,2%) 1.973 (0,06%) 28.379 (0,9%) Total 969 (0,03%) 4.872 (0,15%) 27.622 (0,88%) 36.280 (1,15%) 122.054 (3,88%) 240.986 (7,65%) 215.306 (6,84%) 282.780 (8,98%) 934.172 (29,66%) 947.907 (30,1%) 336.509 (10,68%) 3.149.457 (100%) Table-3: Number of comments per video category and year in the NottDeuYTSch corpus <?page no="112"?> LOUIS COTgROVE 112 References Androutsopoulos, Jannis/ Tereick, Jana (2016): YouTube: language and discourse practices in participatory culture. In: Georgakopoulou, Alexandra/ Spilioti, Tereza (eds.): The Routledge handbook of language and digital communication. (=-Routledge Handbooks in Applied Linguistics). Abingdon: Routledge, pp.-354-370. Bahlo, Nils/ Becker, Tabea/ Kalkavan-Aydın, Zeynep/ Lotze, Netaya/ Marx, Konstanze/ Schwarz, Christian/ Șimșek, Yazgül (2019): Jugendsprache: Eine Einführung. Berlin: Metzler. Baker, Paul (2010): Sociolinguistics and Corpus Linguistics. (=- Edinburgh Sociolinguistics). Edinburgh: Edinburgh University Press. Barbaresi, Adrien (2019): The vast and the focused: on the need for thematic web and blog corpora. In: Bánski, Piotr/ Barbaresi, Adrian/ Biber, Hanno/ Breiteneder, Evelyn/ Clematide, Simon/ Kupietz, Marc/ Lüngen, Harald/ Iliadi, Caroline (eds.): Proceedings of the workshop on challenges in the management of large corpora (CMLC-7), Cardiff, 22 July 2019. Mannheim: Leibniz-Institut für Deutsche Sprache, pp.-29-32. Barbaresi, Adrien/ Geyken, Alexander (2020): Die Webkorpora im DWDS--Strategien des Korpusaufbaus und Nutzungsmöglichkeiten. In: Marx/ Lobin/ Schmidt (eds.), pp.-345-348. Beißwenger, Michael/ Ehrhardt, Eric/ Horbach, Andrea/ Lüngen, Harald/ Steffen, Diana/ Storrer, Angelika (2015): Adding value to CMC corpora: CLARINification and part‐of‐speech annotation of the Dortmund Chat Corpus. In: Beißwenger, Michael/ Zesch, Torsten (eds.): Proceedings of the 2nd workshop on natural language processing for computer‐mediated communication/ social media at GSCL2015 (NLP4CMC2015) University of Duisburg- Essen, September 28. German Society for Computational Linguistics & Language Technology, pp.-12-16. Beißwenger, Michael/ Fladrich, Marcel/ Imo, Wolfgang/ Ziegler, Evelyn (2020): Die Mobile Communication Database 2 (MoCoDa 2). In: Marx/ Lobin/ Schmidt (eds.), pp.-349-352. Biber, Douglas (1993): Representativeness in corpus design. In: Literary and Linguistic Computing 8,4, pp.-243-257. Cotgrove, Louis A. (2017): #GlockeAktiv: gender and ethnicity differences in German-language YouTube comments. Master’s Thesis. Nottingham: University of Nottingham. Cotgrove, Louis A. (2022): #GlockeAktiv: a corpus linguistic investigation of German online youth language. PhD Thesis. Nottingham: University of Nottingham. Döring, Nicola (2010): Sozialkontakte online: Identitäten, Beziehungen, Gemeinschaften. In: Schweiger, Wolfgang/ Beck, Klaus (eds.): Handbuch Online-Kommunikation. Wiesbaden: VS Verlag für Sozialwissenschaften, pp.-159-83. Geyken, Alexander (2010): Statistical variations of German support verb constructions in very large corpora. In: -A Way with Words, pp.-169-186. Geyken, Alexander/ Barbaresi, Adrien/ Didakowski, Jörg/ Jurish, Bryan/ Wiegand, Franck/ Lemnitzer, Lothar (2017): Die Korpusplattform des „Digitalen Wörterbuchs der deutschen <?page no="113"?> NEW OPPORTUNITIES FOR RESEARCHINg DIgITAL YOUTH LANgUAgE 113 Sprache“ (DWDS). In: Zeitschrift für germanistische Linguistik 45, 2, pp.-327-344. https: / / doi.org/ 10.1515/ zgl-2017-0017. Glaznieks, Aivars/ Frey, Jennifer-Carmen (2020): Das DiDi-Korpus: Internetbasierte Kommunikation aus Südtirol. In: Marx/ Lobin/ Schmidt (eds.), pp.-353-354. Herring, Susan C. (2013): Discourse in web 2.0: familiar, reconfigured, and emergent. In: Tannen, Deborah/ Trester, Anne M. (eds.): Discourse 2.0: language and new media. Washington DC: Georgetown University Press, pp.-1-26. Kettunen, Kimmo (2014): Can type-token ratio be used to show morphological complexity of languages? In: Journal of Quantitative Linguistics 21, 3, pp.-223-45. https: / / doi.org/ 10.108 0/ 09296174.2014.911506. Kilgarriff, Adam (2005): Language is never, ever, ever, random. In: Corpus Linguistics and Linguistic Theory 1, 2, pp.-263-276. https: / / doi.org/ doi: 10.1515/ cllt.2005.1.2.263. Koplenig, Alexander (2017): Against statistical significance testing in corpus linguistics. In: Corpus Linguistics and Linguistic Theory 15, 2, pp.-321-346. Leibniz-Institut für Deutsche Sprache (2022): Deutsches Referenzkorpus/ Archiv der Korpora geschriebener Gegenwartssprache 2022-I. (Release vom 08.03.2022). Mannheim: Leibniz-Institut für Deutsche Sprache. www.ids-mannheim.de/ DeReKo (last accessed: 14-11-2022). Lüngen, Harald/ Kupietz, Marc (2020): IBK- und Social Media-Korpora am Leibniz-Institut- für- Deutsche Sprache. In: Marx/ Lobin/ Schmidt (eds.), pp.- 319-342. https: / / doi. org/ 10.1515/ 9783110679885-016. Marx, Konstanze/ Lobin, Henning/ Schmidt, Axel (eds.): Deutsch in Sozialen Medien: Interaktiv-- Multimodal-- Vielfältig. (=-Jahrbuch des Instituts für Deutsche Sprache 2019). Berlin/ Boston: De Gruyter. McEnery, Tony/ Xiao, Richard/ Tono, Yukio (2006): Corpus-based language studies: an advanced resource book. (=-Routledge applied linguistics). Abingdon: Routledge. O’Reilly, Tim (2005): What is web 2.0? : design patterns and business models for the next generation of software. www.oreillynet.com/ pub/ a/ oreilly/ tim/ news/ 2005/ 09/ 30/ what-isweb-20.html (last accessed: 14-11-2022). R Core Team (2021): R: a language and environment for statistical omputing. Vienna, Austria: R Foundation for Statistical Computing. www.R-project.org/ (last accessed: 14-11-2022). Saferinternet.at. (2018): Jugend-Internet-Monitor 2018. Saferinternet.at. 2018. www.safer internet.at/ presse-detail/ jugend-internet-monitor-2018/ (last accessed: 14-11-2022). Schäfer, Roland (2015): Processing and querying large web corpora with the COW14 architecture. In: Bański, Piotr/ Biber, Hanno/ Breiteneder, Evelyn/ Kupietz, Marc/ Lüngen, Harald/ Witt, Andreas (eds.): Proceedings of the 3rd workshop on challenges in the management of large corpora (CMLC-3), Lancaster, 20 July 2015. Mannheim: Institut für Deutsche Sprache, pp.- 28-34. https: / / ids-pub.bsz-bw.de/ frontdoor/ index/ index/ docId/ 3836 (last accessed: 14-12-2022). <?page no="114"?> LOUIS COTgROVE 114 Stenson, Robert (2020): “TUNE IN/ JOIN US”: mobilising liveness as a promotional strategy in film trailer exhibition. PhD Thesis. Nottingham: University of Nottingham. <?page no="115"?> ECKHARD BICK/ KLAUS gEYER Das deutsch-dänische XPEROHS-Korpus: Hassrede-in-sozialen Medien Abstract Das deutsch-dänische XPEROHS-Korpus wurde als Datengrundlage für ein dreijähriges Projekt in der Hassrede-Forschung an der Süddänischen Universität erstellt. Es handelt sich um ein Monitorkorpus mit Material aus den sozialen Medien Twitter und Facebook, wobei das Interesse sich einerseits auf die Diskriminierung von ethnischen und religiösen Minoritäten richtet, andererseits auf den Vergleich der deutschen und dänischen Daten. Insgesamt enthält das Korpus über 3 Milliarden Wörter, wobei das Verhältnis zwischen Dänisch und Deutsch in etwa das Größenverhältnis der entsprechenden Sprachgemeinschaften widerspiegelt. Das gesamte Korpus wurde mehrfach mit speziell für das Genre angepassten und laufend verbesserten Parsern annotiert (GerGram und DanGram). Dabei wurden fast alle linguistischen Ebenen berücksichtigt, neben Morphologie (Flexion, Lemmatisierung, Zusammensetzungen, orthographische Variation und Fehlererkennung usw.) auch syntaktische Funktionen und Dependenzstrukturen sowie semantische Klassifizierung von Inhaltswörtern und Prädikationen (Ontologien, Framenet). Auch nicht-lexikalische Information wie Emoticons/ Emojis und Hashtags wurden berücksichtigt. Die morphologische Fehlerrate lag bei ca. 3%, die syntaktische bei 8%. Suchanfragen im Korpus sind über eine graphische Benutzeroberfläche (CorpusEye) möglich, die sowohl Tag-basierte als auch strukturelle Abfragen erlaubt und insbesondere das Wechselspiel zwischen qualitativer und quantitativer Auswertung unterstützt. Keywords: Hassrede, Soziale Medien, Korpuslinguistik, Parsing, Deutsch-dänisches CMC- Korpus, CorpusEye 1. Einführung Das Forschungsprojekt Towards balance and boundaries in public discourse: expressing and perceiving online hate speech (https: / / xperohs.sdu.dk, Stand: 28.11.2022; siehe auch Baumgarten et al. 2019), in dessen Rahmen unser Korpus erstellt wurde, beschäftigt sich mit der (linguistischen) Manifestation und der (subjektiven) Perzeption von Hassrede und richtet ein besonderes Augenmerk auf den Online-Diskurs über bzw. gegen Zugewanderte und Geflüchtete auf Dänisch und auf Deutsch. Einen aktuellen Hintergrund bildeten dabei einerseits die aktuellen Migrationsbewegungen, andererseits die zunehmende Präsenz von Hassrede in online geführtem Diskurs (Foxman/ Wolf 2013) und dem daraus resultierenden Konflikt zwischen freier Meinungsäußerung und den Versuchen der großen sozialen Medien, Hassrede automatisch zu identifizieren und zu blockieren. DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="116"?> ECKHARD BICK/ KLAUS gEYER 116 Neben den Korpusdaten wurden auch experimentelle Studien durchgeführt und Fragebögen ausgewertet. Dabei dient das Korpus der Identifizierung und Quantifizierung sprachlicher Hassredemuster und -mechanismen sowie herabsetzender Ethnophaulismen (Geyer 2021) und anderer Wortbildungen. Auch der Gebrauch von derogativen Metaphern und indirekter Hassrede wird untersucht (Geyer 2023). Eine manuelle Hassrede-Klassifizierung von Korpusbeispielen diente als Grundlage für Perzeptionsexperimente und Fragebögen (Neitsch/ Niebuhr 2020). 2. Das Korpus 2.1 Quellen und Kompilation Das hier vorgestellte Korpus wurde mit dem Ziel erstellt, Sprachgebrauch in sozialen Medien qualitativ und quantitativ auf Hassrede gegen ethnische und religiöse Minderheiten untersuchen zu können. Es handelt sich um ein Monitor-Korpus von Twitter-Einträgen (Ende 2017 bis 2020) und Facebook-Posts (Ende 2017 bis Mitte 2018), wobei die Abfrageschnittstelle (API) für Twitter (TW) durch Verwendung hochfrequenter Suchwörter (z. B. und/ og, oder/ eller, der-die-das/ den-det, er-sie-es/ han-hun, ist/ er) einen fast 100-prozentigen Deckungsgrad ermöglichte, während Facebook (FB) eine Vorauswahl bestimmter Webseiten und damit einen thematischen Bias erzwang (z. B. Medien, Politiker, Parteien). Die gezielte Seitenauswahl für Facebook führte naturgemäß zu einem höheren Prozentsatz von Äußerungen über Zugewanderte und Geflüchtete. Deshalb ist kein direkter quantitativer Vergleich zwischen FB und TW möglich, wohl aber ein qualitativer sowie der deutsch-dänische Sprachvergleich. Auch ergänzen sich die beiden Medien in gewisser Weise. So sind Tweets in der Regel kurze öffentliche „Einweg“-Texte (one-to-many-Kommunikation) ohne Bildbezug, während FB-Einträge oft privateren Charakter haben, meist bebildert sind und zu diskursiven Kommentarketten führen. Twitter (Annotiertes Hauptkorpus 2018-2020) Facebook (insgesamt Nov. 2017-Juni 2018) Insgesamt Deutsch 3.161 Mio. 200 Mio. 3.361 Mio. Dänisch 194 Mio. 60 Mio. 254 Mio. 3.355 Mio. 260 Mio. 3.615 Mio. Tab.-1: Korpusumfang <?page no="117"?> DAS DEUTSCH-DäNISCHE XPEROHS-KORPUS: HASSREDE-IN-SOZIALEN MEDIEN 117 Andere soziale Netze wurden erwogen, aber verworfen, z. B. wegen zu hohem Multimedienbezug der Texte (Uninterpretierbarkeit ohne Bildbezug) oder dem Fehlen dänischsprachiger Beiträge (Englisch als lingua franca). Insgesamt enthalten die Twitter-Korpora über 3- Milliarden Wörter für Deutsch und 250- Millionen Wörter für Dänisch, die kleineren Facebook-Korpora ca. 200-Millionen Wörter für Deutsch und 60-Millionen Wörter für Dänisch. 2.2 Aufbereitung, Anonymisierung und Pseudonymisierung Rohdaten aus den Abfrageschnittstellen von TW und FB können aus verschiedenen Gründen nicht direkt als Korpus verwendet werden. Außer qualitativen Gründen wie z. B. abweichender Orthografie und Sprachvermischung gibt es formelle Datenschutzprobleme mit der europäischen GDPR-Verordnung und ihrer Umsetzung bzw. Deutung in Dänemark. So mussten persönliche Meta-Daten wie Benutzernamen und Eintragszeitpunkt in getrennte Dateien ausgelagert werden, wobei das Korpus selbst nur einen Zahlenschlüssel für jeden Tweet, Post oder Kommentar enthält. Korpus und Metadateien werden getrennt auf geschützten Servern aufbewahrt. In der Benutzerschnittstelle ermöglicht der Zahlenschlüssel es dann, den originalen Eintrag im Internet anzuklicken, soweit dieser nicht zwischenzeitlich gelöscht worden ist. Diese Lösung erlaubt es, trotz der anonymisierten Korpusdateien diskursive Interaktionen und eventuellen multimedialen Kontext zu untersuchen (Bilder, Video, Audio und URL-Verweise). Im Text eingebundene Benutzernamen können allerdings nicht sicher entfernt werden, ohne die syntaktische Kohäsion zu gefährden, weil sie z. B. die Rolle eines Subjekts, Objekts oder Vokativs ausfüllen können. In diesen und ähnlichen Fällen wurde Pseudonymisierung statt Anonymisierung benutzt, mit einem Dummy „twittername“ anstatt des eigentlichen Benutzernamens. Für größere Datenauszüge, z. B. N-Gram-Statistiken, wurden außerdem Personennamen generell, Publikationstitel, Internetadressen sowie Zahlenausdrücke und numerische Zeitangaben pseudonymisiert. Abgesehen vom Datenschutz erleichtert dies auch das Erkennen von linguistischen Mustern, weil ein einheitliches Kürzel signifikant häufiger auftritt als Tausende verschiedener Namen, Jahreszahlen usw. Spezifisch für das dänische Twitter-Korpus war eine unzulängliche Sprachseparation. So konnte Twitters API, trotz eines Sprachparameters, nicht sicher zwischen dänischen und anderen skandinavischen Sprachen oder Niederländisch unterscheiden, vermutlich weil der Unterscheidungsalgorithmus ausschließlich auf Frequenzen von Buchstabenkombinationen beruht. Wir lösten dieses Problem durch zusätzliche Sprachfilter (Google) sowie durch lexikongestützte Wortgewichtungen und das Vorkommen von sprachspezifischen Buchstabenkombinationen. <?page no="118"?> ECKHARD BICK/ KLAUS gEYER 118 3. Linguistische Aufbereitung Viele linguistische Muster sind in reinen Textkorpora schwierig zu identifizieren, und auch für Generalisierungen und quersprachliche Vergleiche bedarf es linguistischer Annotation. Beispiele für solche Erleichterungen sind Lemmatisierung und die Verwendung von Wortklassen und Funktionstags für die Erkennung und Generalisierung morphosyntaktischer Muster. Beides, wie auch eine semantische Klassifizierung, erhöht außerdem die Präzision von Suchanfragen mit mehrdeutigen Wörtern. Einen besonderen Wert für Deutsch und Dänisch hat die Kompositumanalyse, da beide Sprachen in hohem Maße produktive Zusammensetzungen bilden, die sich andernfalls als unbekannte Wörter ohne Lexikon-Abdeckung der Analyse entziehen. In der Hassrede-Forschung ist es außerdem nützlich, eine Korpusanfrage semantisch eingrenzen zu können, beispielsweise bei der Suche nach entmenschlichenden Metaphern (Tier- oder Krankheitenbezeichnungen) oder verbalen Indizien für Aggression. All diese linguistische Information ist für unser Korpus über eine grafische Benutzerschnittstelle zugänglich. Diese ist eine erweiterte Version von CorpusEye (corp. hum.sdu.dk, Stand: 28.11.2022), die intern auf einer CQP-Datenstruktur (Hardie 2012) basiert. Die Projektversion enthält neben Feld- und Tag-basierten Suchoptionen auch Neuerungen wie gestaffelte Suchen, N-Gram-Auswertung, die Unterstützung von Emojis und den Zugang zu Dependenzrelationen. 3.1 Parser-Eigenschaften und Performanz Texte aus sozialen Medien und anderer Online-Kommunikation (computer-mediated communication, CMC) sind generell schwieriger zu parsen als redigierte und auf Publikation angelegte Texte in den traditionellen Massenmedien. Proisl (2018) erwähnt hier am Beispiel Web Tagger Probleme mit unzulänglicher Lexikonabdeckung, Emoticons/ Emojis, Interaktionswörtern (lach, heul), Hashtags, URLs, Onomatopoetika, orthografischer Variation und Kontraktionen (z. B. Klitisierungen wie stimmts? , kannste). Beißwenger et al. (2016) erwähnen weitere Probleme wie Hervorhebung durch Versalien (verwechselbar mit Abkürzungen und Namen von Organisationen) oder Buchstabenwiederholungen, diskursive Links (Hashtags und Benutzeradressen) sowie das Vorkommen von umgangssprachlicher Syntax und Diskurspartikeln (Interjektionen, Verstärker, Fokus- und Modalpartikel). Alle diese CMC-Merkmale und weitere sind im XPEROHS-Korpus reichlich zu finden, oft in Kombination im gleichen Satz: In 5..10 Jahren sind die Deutschen eine Minderheit u.können die heutigen #Asylanten kostenlos verklagen❣☺ Ich find‘ d.#Toleranzgesetz cool <?page no="119"?> DAS DEUTSCH-DäNISCHE XPEROHS-KORPUS: HASSREDE-IN-SOZIALEN MEDIEN 119 Dass sich dies negativ auf die Qualität automatischer Annotation auswirkt, belegen Giesbrecht/ Evert (2009) mit ihrer Auswertung von 5 State-of-the-art-Parsern, deren Performanz bei der Wortarterkennung (POS) sich von 97% korrekt auf 93% verschlechterte, sogar wenn sowohl das Trainingsals auch das Auswertungskorpus aus Web-Daten bestanden. Verben (87-89% korrekt) und Eigennamen (17,4% korrekt) schnitten dabei am schlechtesten ab. Dazu kommt, dass selbst innerhalb der CMC-Domäne die Parser-Performanz leidet, wenn man die Datenquelle wechselt. So erreichten Neunerdt et al. (2013) zwar eine auf 93,7% verbesserte Performanz mit Web-basierten Trainingsdaten, was sich dann aber nicht ohne neues Trainingskorpus auf Chat-Daten (89% korrekt POS) und YouTube-Kommentare (84% korrekt POS) übertragen ließ. Neben mangelnder Text-Standardisierung scheinen Lexikonlücken das Hauptproblem zu sein. So klassifizierte das System von Neunerdt et al. zwar 95,8% aller bekannten Wörter korrekt, aber nur 68% der unbekannten. Aus diesen Gründen, und ohne ein zweisprachiges Trainingskorpus für Facebook oder Twitter, fiel unsere Wahl nicht auf einen statistischen Tagger, sondern auf eine Kombination von zwei linguistisch basierten Parsern, DanGram und GerGram (http: / / visl.sdu.dk, Stand: 28.11.2022). Beide benutzen den Constraint Grammar-Formalismus (Karlsson 1990; Bick/ Didriksen 2015), der sich auf eine vollständige morphologische Analyse, lexikalische Information und kontextuelle Disambiguierung stützt. Ein solches regelbasiertes System erlaubt es, einen existierenden Parser durch wenige gezielte Regeländerungen an CMC-typische Besonderheiten anzupassen, indem man z. B. den Bias gegen Imperative reduziert oder Subjekt-elliptische Sätze in der Disambiguierung berücksichtigt. Für ein deutsches Twitter-Testkorpus (5.000 Tokens) lag die Fehlerrate unseres Genre-angepassten Parsers bei 2% für Wortklassen-Tagging (POS) und bei 6,5% für syntaktische Funktionen. 3.2 Morphologie Im aufbereiteten Korpus werden alle Wörter lemmatisiert, klassifiziert und einer Flexionsanalyse unterzogen. Um die Worterkennungsrate zu erhöhen, verwendeten wir spezielle Muster für die Erfassung von Abkürzungen, Kontraktionen, komplexen Namen und anderen Mehrwortausdrücken. Eine aktuelle Herausforderung war die Unterscheidung von Emoticons und Satzzeichen und das Erkennen gegenderter Substantivvarianten, deren Gebrauch im Übrigen umgekehrt proportional mit Hassrede korrelierte. Für nicht erkannte Wörter benutzten wir eine speziell entwickelte automatische Rechtschreibkontrolle, wobei Änderungen nur auf dem Levenshtein 1-Niveau erlaubt waren (=- 1 Buchstabenänderung), in einer zweiten und dritten Runde aber auch potenzielle Kompositateile und Wortstämme abgetestet wurden. <?page no="120"?> ECKHARD BICK/ KLAUS gEYER 120 Besonders effektiv für die POS-Kategorisierung und semantische Klassifizierung unbekannter Wörter ist die Analyse zusammengesetzter Wörter. Auch gibt es im Korpus viele Beispiele, wo Wortneubildungen für pejorative Verstärkung (Muslimaschlampe) oder als Kürzel für ganze Narrative eingesetzt werden (Wahrlüge, Mitteextremist, Völkerpumpe). Komposita und Derivationen waren im Korpus mit etwa 10% vertreten, wovon 1/ 6 unbekannt waren. Diese waren im Verhältnis 2: 1 sichere/ unsichere Analysen, wobei die Fehlerrate für erstere 3%, für letztere 17% betrug. Für die Identifizierung von Hassrede ist es nützlich, pejorative Wortteile separat ansprechen und auszählen zu können. Nach Finkbeiner/ Meibauer/ Wiese (2016) lassen sich drei Klassen unterscheiden: (1) pejorative Attribute (Scheißaraber, Drecksland, Pädopartei), (2) pejorative Nominalkerne (-pack, -zicke, -Heini, -Uschi) und (3) pejorative Derivation (Burka-Gedöns, Flutling, Merklinge). Hinzufügen ließe sich noch (4) Co-Pejoration, wo ein abwertendes Kompositum aus isoliert gesehen neutralen oder sogar positiven Elementen besteht (Volkspfosten, Allahmänner). Und schließlich gibt es neben attributiver Modifikation auch (5) syntaktische Worteinbindungen (Islamistenfreund, Teddywerfer). 3.3 Morphosyntax und Dependenz Auch auf der syntaktischen Ebene weichen unsere CMC-Daten oft deutlich von der standarddeutschen Norm ab. So gibt es viele Hauptsätze ohne finites Verbum oder Subjekt-- beides ansonsten obligatorische Konstituenten. Am Bahnhof Flüchtlinge vor Kameras beklatschen und im nächsten Jahr die eigenen Kinder auf ne Privatschule schicken. Darüber hinaus gab es zunächst Probleme mit Uniqueness-basierten Regeln für die Zuordnung syntaktischer Funktionen, weil Sätze mit fehlender Zeichensetzung oder falsch getrennt geschriebenen Kompositumteilen oder Präfixen wegen einer zu hohen Zahl von nicht koordinierten Nominalphrasen zu falschen Subjekt- und Objektfunktionen oder zu falschen Präpositionsverbindungen führen können. wenn der alman der einzige ist mit dem Führerschein und Papas Mercedes in der Kanaken Gang. 3.4 Semantische Klassifizierung Für beide Sprachen werden Inhaltswörter im Korpus semantisch klassifiziert. Bei Substantiven handelt es sich um eine flach ausgelegte Ontologie mit etwa 200 Kategorien. Hyperonymkategorien wie <H> (Mensch), <L> (Ort), <food> (Essen) oder <tool> (Werkzeug) enthalten Hyponymkategorien wie <Hprof> (Berufsbezeich- <?page no="121"?> DAS DEUTSCH-DäNISCHE XPEROHS-KORPUS: HASSREDE-IN-SOZIALEN MEDIEN 121 nung), <Hideo> (Anhänger einer Ideologie) oder <Lh> (human-funktioneller Ort). Auch Eigennamen werden nicht nur als potenzielle Mehrworteinheiten erkannt, sondern gleichzeitig semantisch klassifiziert (Named-entity recognition). Für Adjektive wurde ein ähnliches System mit 110 Kategorien erstellt (Bick 2019), z. B. <jpsych> (Gefühle), <janat> (Körperadjektive) oder <jsize> (Größe). Für Verben und prädizierende Substantive werden Frames verwendet (Bick 2011, 2017), die neben einem semantischen Tag für die (Unter-)Bedeutung des Verbs selbst auch ein Prädikationsmuster mit morphosyntaktischen Restriktionen für die Zuordnung semantischer Rollen im Satz enthalten. Die semantische Annotation kommt einerseits dem Parser bei der Disambiguierung zugute, erlaubt andererseits aber auch Korpusanfragen semantisch zu filtern, z. B. bei der Suche nach entmenschlichenden Metaphern (Tier- oder Krankheitsbezeichnungen) oder Stereotypen (bzgl. Essen, Ideologien, Aktivitäten). 3.5 Sentimentanalyse Sentiment-relatierte Tags sind ein wichtiges Werkzeug bei der Suche nach Hassrede und können einerseits als Vorfilter die Korpusinspektion erleichtern, andererseits gezielt bei der Suche nach indirekter Hassrede helfen. In unserem Korpus wird dies durch Polaritätsmarkierungen (Q+/ Q-) unterstützt, die im engeren Sinne Antonymien wie warm-kalt oder gut-böse markieren, oft aber gleichzeitig ein entsprechendes positives oder negatives (evtl. metaphorisches) Sentiment signalisieren. Ein weiteres Werkzeug zur Sentimentanalyse sind Emoticons und Emojis. Erstere müssen in Abgrenzung von Zeichensetzung erkannt werden, letztere individuell oder über Unicode-Blöcke. 1 Beide werden im Korpus syntaktisch als Adverbien behandelt und 10 semantischen „Lemmas“ zugeordnet (Bick 2020), z. B. „emo-happy“ oder „emo-angry“. Rentner sammeln Flaschen und Flüchtlinge leben auf großem Fuß 😡 🤛 Ein Hassredebeispiel wie obiges aus dem Korpus herauszufiltern, ist mit normalen Suchanfragen nahezu unmöglich, und der Ausdruck auf großem Fuß wird erst durch den Kontrast und die Emojis wirklich negativ. 1 Ohne dazwischenliegendes Leerzeichen können Emojis auch mit Nachbarwörtern verschmelzen und diese für den Parser unerkennbar machen. <?page no="122"?> ECKHARD BICK/ KLAUS gEYER 122 4. Suchanfragen und Korpusexploration Unsere zur Exploration des Korpus angewandte Methode ist ein iterativer Wechsel zwischen quantitativer Auswertung und qualitativer Inspektion. Die Oberfläche zur Korpussuche unterstützt dies, indem die Elemente der Resultate von Suchanfragen-- z. B. Attribute oder Verbalrelationen von Minoritätssubstantiven-- ausgezählt und nach absoluter oder relativer Frequenz geordnet werden können, um dann wiederum eine verdichtete Konkordanz einzelner interessanter Attribute oder Verben näherer Inspektion zu unterziehen. Eine andere Methode, relevante Beispiele zu verdichten, ist, die Komplexität der Suchanfragen zu erhöhen. Als Beispiel mögen die Suche nach Ironie und nach bestimmten entmenschlichenden Metaphern dienen. Bei der Suche nach Ironie (als Vehikel von indirekter Hassrede) stößt man bereits über die Auswertung frequenter Attribute auf ein Adjektiv wie arm, das in Verbindung mit Minoritätssubstantiven meist uneigentlich/ ironisch benutzt wird und nicht als Antonym von reich. Ein komplizierteres Beispiel ist die Konstruktion die ách-so ADJ NP [HUM] (Bick/ Geyer/ Kleene 2021; Geyer/ Bick/ Kleene 2022), wo ADJ ein positiv valorisiertes Adjektiv und NP eine Personenbezeichnung im Plural ist. Die vollständige Suchanfrage vereint nicht nur linguistische Information von mehreren Ebenen, sondern muss auch ein gewisses Maß an Variation formulieren. Eine wesentlich generellere Suchmaske wird schließlich durch die Einbeziehung von Emojis möglich: (1) Vorfilterung: Sätze mit lemma = „emo-(skeptical|laugh).*“ (2) Hauptsuche: Feld 1: ADJ & @>N & Q+ Feld 2: N + lemma=“(Flüchtling|Einwanderer|Moslem ...)“ Die Ironie-Spezifität dieser Suchanfrage ergibt sich aus der positiven Sentiment- Markierung (Q+) des Attributs (@>N) einerseits und der Vorfilterung auf skeptische oder „lachende“ Emojis andererseits: Der friedliche und weltoffene Islam😂😂😂😂😂 Ach, die Reisewarnung betrifft also nur reiche Ausländer 😂😂😂 Freie Fahrt für freie Islamisten 🤪 Weil bei anständigen Flüchtlingen die Familie zusammenbleibt 😬 🤔 mal überlegen, das stellt diese ehrenwerten Flüchtlinge auf eine Stufe mit dem IS Die Suche nach (potenziellen) entmenschlichenden Metaphern (Geyer 2023) kombiniert eine Vorfilterung, die anhand der Lemmata für die relevanten Personenbezeichnungen Teilkorpora erstellt, mit einer semantischen Suche nach einerseits Tier- und andererseits Krankheitsbezeichnungen auf Basis der in Abschnitt-2.4 er- <?page no="123"?> DAS DEUTSCH-DäNISCHE XPEROHS-KORPUS: HASSREDE-IN-SOZIALEN MEDIEN 123 läuterten Ontologie. Um die wichtige Gruppe der prädikativen Metaphern (X sind Ratten) zu erfassen, werden die entsprechenden syntaktischen Eigenschaften bei der Suche festgelegt (d. h. Subjekt, Kopula, Prädikativum), und es werden Möglichkeiten für Variation (z. B. adverbiale Modifikation) implementiert. Die Suchergebnisse liefern nicht nur vielfältige Beispiele (potenzieller) entmenschlichender Metaphern im Bereich von Tier- und Krankheitsbezeichnungen, die sodann einer qualitativen Analyse unterzogen werden, sondern sie verdeutlichen auch, dass die Bezeichnungen für Personengruppen aus dem Bereich von Zuwanderung und Flucht im Vergleich zu ihrer generellen Vorkommenshäufigkeit deutlich häufiger in Prädikativkonstruktionen mit Tier- und Krankheitsbezeichnungen-- d. h. typischerweise mit metaphorischen Ausdrücken- - vorkommen als andere Personenbezeichnungen. Dies ist als ein klarer Hinweis auf ihre herausgehobene Verwendung in Hassrede zu interpretieren. 5. Ausblick Mit seiner tiefen linguistischen Aufbereitung und seinem großem Datenumfang erlaubt das XPEROHS-Korpus eine bilingual-vergleichende Exploration von linguistischen Hassrede-Mechanismen in deutschen und dänischen Twitter- und Facebook- Beiträgen. Die dem Genre angepassten Parser sollten darüber hinaus zukünftige Hassrede-Projekte mit anderen sozialen Medien oder späterem Zeitfenster (z. B. Ukraine-Konflikt) erleichtern. Auch sollte es möglich sein die aktuell bestehenden Daten mit Bezug auf andere Hassrede-Themen und -Zielgruppen zu untersuchen (z. B. Corona-Diskussion, Gender-Diskriminierung). Literatur Baumgarten, Nicole/ Bick, Eckhard/ Geyer, Klaus/ Iversen, Ditte A./ Kleene, Andrea/ Lindø, Anna V./ Neitsch, Jana/ Niebuhr, Oliver/ Nielsen, Rasmus/ Petersen, Esben N. (2019): Towards balance and boundaries in public discourse: expressing and perceiving online hate speech (XPEROHS). In: RASK- - International Journal of Language and Communication-50, S.-87-108. Beißwenger, Michael/ Bartsch, Sabine/ Evert, Stefan/ Würzner, Kay-Michael (2016): EmpiriST 2015: a shared task on the automatic linguistic annotation of computer-mediated communication and web corpora. In: Paul Cook/ Evert, Stefan/ Schäfer, Roland/ Stemle, Egon (Hg.): Proceedings of the 10th web as corpus workshop (WAC-X) and the EmpiriST shared task. August 2016, Berlin. Association for Computational Linguistics, S.-44-56. Bick, Eckhard (2011): A FrameNet for Danish. In: Pedersen, Bolette S./ Nešpore, Gunta/ Skadiņa, Inguna (Hg.): Proceedings of the 18th Nordic conference of computational Linguistics (NODALIDA 2011), May 11-13, Riga, Latvia. (=- NEALT Proceedings Series- 11). Northern European Association for Language Technology (NEALT), S.-34-41. <?page no="124"?> ECKHARD BICK/ KLAUS gEYER 124 Bick, Eckhard (2017): Propbank annotation of Danish noun frames. In: Gardent, Claire/ Retoré, Christian (Hg.): Proceedings of IWCS2017-- 12th international conference on computational semantics,Montpellier, September 2017. Association for Computational Linguistics. http: / / aclweb.org/ anthology/ W17-69 (Stand: 23.11.2022). Bick, Eckhard (2019): A semantic ontology of Danish adjectives. In: Dobnik, Simon/ Chatzikyriakidis, Stergios/ Demberg, Vera (Hg.): Proceedings of IWCS 2010-- 13th international- conference on computational semantics, Gothenburg, 23-27- May 2019. Association for- Computational Linguistics, S.- 71-78. http: / / aclweb.org/ anthology/ W19-04 (Stand: 23.11.2022). Bick, Eckhard (2020): Annotating emoticons and emojis in a German-Danish social media corpus for hate speech research. In: RASK-- International Journal of Language and Communication-52, S.-1-20. Bick, Eckhard/ Didriksen, Tino (2015): CG-3-- Beyond classical constraint grammar. In: Megyesi, Beáta (Hg.): Proceedings of the 20th Nordic conference of computational Linguistics (NODALIDA 2015), May- 11-13, Vilnius, Lithuania. (=- NEALT Proceedings Series- 23) (=- Linköping Electronic Conference Proceedings 109). Linköping: LiU Electronic Press, S.-31-39. Bick, Eckhard/ Geyer, Klaus/ Kleene, Andrea (2021): „Die ách so friedlichen Muslime“: Eine korpusbasierte Untersuchung von Formulierungsmustern fremdenfeindlicher Aussagen in Sozialen Medien. In: Wachs, Sebastian/ Koch-Priewe, Barvara/ Zick, Andreas (Hg.): Hate speech- - Multidisziplinäre Analysen und Handlungsoptionen. Theoretische und empirische Annäherungen an ein interdisziplinäres Phänomen. Wiesbaden: Springer VS, S.-81-103. Finkbeiner, Rita/ Meibauer, Jörg/ Wiese, Heike (2016): What is pejoration, and how can it be expressed in language? In: Finkbeiner, Rita/ Meibauer, Jörg/ Wiese, Heike (Hg): Pejoration. Amsterdam/ Philadelphia: Benjamins, S.-1-18. Foxman, Abraham H./ Wolf, Christopher (2013): Viral hate: containing its spread on the internet. New York: St. Martin’s Press. Geyer, Klaus (2021): Verwendung (use) vs. Erwähnung (mention) von Ethnophaulismen: Eine Untersuchung zu Hassrede in Facebook-Beiträgen. In: Lüger, Heinz-Helmut/ Giessen, Hans W. (Hg.): Text-, Diskurs- und Kommunikationsforschung: Festschrift für Hartmut Lenk. (=-Landauer Schriften zur Kommunikations- und Kulturwissenschaft). Landau: Verlag Empirische Pädagogik, S.-165-184. Geyer, Klaus (2023): Entmenschlichende Metaphern in ethnotroper („fremdenfeindlicher“) Hatespeech in sozialen Medien. In: Meyer-Vieracker, Simon/ Bülow, Lars/ Marx, Konstanze/ Mroczynski, Robert (Hg.): Digitale Pragmatik. (=- Digitale Linguistik- 1). Stuttgart: Metzler, S.-185-210. Geyer, Klaus/ Bick, Eckhard/ Kleene, Andrea (2022): “I am not a racist, but …”. A corpus-based analysis of xenophobic hate speech constructions in Danish and German social media discourse. In: Knoblock, Natalia (Hg.): The grammar of hate: morphosyntactic features <?page no="125"?> DAS DEUTSCH-DäNISCHE XPEROHS-KORPUS: HASSREDE-IN-SOZIALEN MEDIEN 125 of- hateful, aggressive, and dehumanizing discourse. Cambridge: Cambridge University Press, S.-241-261. Giesbrecht, Eugenie/ Evert, Stefan (2009): Is part-of-speech tagging a solved task? An evaluation of POS taggers for the German web as corpus. In: Alegria, Iñaki/ Leturia, Igor/ Sharoff, Serge (Hg.): Proceedings of the 5th web as corpus workshop (WAC5), San Sebastian, Spain, 7-September 2009. Hardie, Andrew (2012): CQPweb- - combining power, flexibility and usability in a corpus analysis tool. In: International Journal of Corpus Linguistics-17,-3, S.-380-409. Karlsson, Fred (1990): Constraint grammar as a framework for parsing running text. In: Karlgren, Hans (Hg.): COLING 1990: Proceedings of the 13th international conference on computational Linguistics. Bd.- 3.-August 20-25, 1990, Helsinki, Finland. Association for Computational Linguistics, S.-168-173. Neitsch, Jana/ Niebuhr, Oliver (2020): Are Germans better haters than Danes? Language-specific implicit prosodies of types of hate speech and how they relate to perceived severity and societal rules. In: Xu, Mingxing (Hg.): Proceedings of the 16th edition of the annual conference of the international speech communication association. October 25-29, 2020, Shanghai, China. (=-INTERSPEECH 2020). International Speech Communication Association (ISCA), S.-1843-1847. Neunerdt, Melanie/ Trevisan, Bianka/ Reyer, Michael/ Mathar, Rudolf (2013): Part-of-speech tagging for social media texts. In: Gurevych, Iryna/ Biemann, Chris/ Zesch, Torsten (Hg.): Language processing and knowledge in the web. 25th international conference, GSCL 2013, Darmstadt, Germany, September 25-27, 2013. Proceedings. (=- Lecture Notes in Computer Science (LNCS)-8105). Heidelberg: Springer, S.-139-150. Proisl, Thomas (2018): SoMeWeTa: a part-of-speech tagger for German social media and web texts. In: Calzolari, Nicoletta/ Choukri, Khalid/ Cieri, Christopher / Declerck, Thierry/ Goggi, Sara/ Hasida, Koiti/ Isahara, Hitoshi/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios/ Tokunaga, Takenobu (Hg.): Proceedings of the 11th international conference on language resources and evaluation (LREC 2018), 7-12 May 2018, Miyazaki, Japan. Paris: European Language Resources Association (ELRA), S.-665-670. <?page no="127"?> JULIA KRASSELT/ PHILIPP DREESEN/ MATTHIAS FLUOR/ KLAUS-ROTHENHäUSLER Swiss-AL Korpus und Workbench für mehrsprachige digitale Diskurse Abstract Swiss-AL bezeichnet eine Familie von Korpora für die Analyse ein- und mehrsprachiger öffentlicher Diskurse in der Schweiz. Die in Swiss-AL enthaltenen Textdaten stammen von journalistischen Akteuren sowie von Akteuren aus den Bereichen Politik und Verwaltung, Wirtschaft, Wissenschaft und Zivilgesellschaft. Die Daten werden über die Schweizer Mediendatenbank sowie über webseitenspezifisches Crawling und Scraping bezogen. Für die Verarbeitung dieser Primärdaten wird eine modularisierte, sprachspezifische Pipeline verwendet. Für einen Einsatz in transdisziplinären Forschungsprojekten und der linguistischen Lehre sowie für einen Zugriff durch die Öffentlichkeit steht die Swiss-AL-Workbench zur Verfügung, die einen einfachen browserbasierten Zugang zu den Korpora ermöglicht und in der eine Vielzahl korpuslinguistischer Analysen implementiert sind. Keywords: Webkorpus, digitale Diskursanalyse, transdisziplinäre Forschung, Mehrsprachigkeit, Korpusanalyse, Pipeline 1. Einleitung An der Zürcher Hochschule für Angewandte Wissenschaften (ZHAW) wird seit 2016 eine Familie von Korpora für die Analyse öffentlicher digitaler Diskurse in der Schweiz entwickelt und in wissenschaftlichen Forschungsprojekten eingesetzt. Diese Korpusfamilie wird mit dem Namen Swiss-AL bezeichnet (AL-= Applied Linguistics) und ist die gegenwärtig größte Sammlung linguistisch annotierter, digitaler Textdaten in allen vier Landessprachen der Schweiz. Als Familie von Korpora setzt sich Swiss-AL aus mehreren, je nach Verwendungszweck unterschiedlich modellierten Einzelkorpora zusammen (Kap.- 2.1). Eine besondere Rolle nimmt dabei das Swiss-AL Basiskorpus (Swiss-AL Base) ein, welches für die induktive und deduktive Exploration öffentlicher Diskurse konzipiert ist (Kap.- 2.2). Alle Swiss-AL-Korpora werden mit einer modular aufgebauten computerlinguistischen Pipeline prozessiert (Kap.-2.3). Um die Swiss-AL-Korpora der Öffentlichkeit zugänglich zu machen und um sie in transdisziplinären Forschungszusammenhängen einsetzen zu können, wurde die Swiss-AL-Workbench entwickelt. Sie richtet sich insbesondere an korpuslinguistische Laien und legt einen Fokus auf die Visualisierung quantitativer Analyseergebnisse (Kap.-3). DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="128"?> JULIA KRASSELT/ PHILIPP DREESEN/ MATTHIAS FLUOR/ KLAUS-ROTHENHäUSLER 128 2. Swiss-AL 2.1 Eine Korpusfamilie für die Analyse digitaler Diskurse Swiss-AL setzt sich zusammen aus Swiss-AL Base, Swiss-AL Media und einer Vielzahl an Projektkorpora (vgl. Abb.-1). Grundlegend für diese Unterteilung ist die Annahme, dass öffentliche Diskurse durch unterschiedliche Akteursgruppen geprägt sind. Die Vertreter: innen dieser Akteursgruppen stellen die Emittenten der in Swiss- AL enthaltenen Texte dar und unterteilen sich in journalistische Medien, Politik & Verwaltung, Wirtschaft, Wissenschaft und Zivilgesellschaft. Als Korpus für die Angewandte Diskursanalyse berücksichtigt Swiss-AL damit die Bedürfnisse von Praxisakteuren, Diskurse nicht nur basierend auf journalistischen Texten zu untersuchen (vgl. Gefahr der Genrereduktion und Newspaper Bias, Warnke 2013, S.- 191), sondern auch Akteure des jeweiligen Betätigungsfeldes als zentrale Stimmen im Diskurs in den Fokus zu nehmen (in der Praxis als Stakeholder bezeichnet). Abb.-1: Die Korpusfamilie Swiss-AL bestehend aus Swiss-AL Base, Swiss-AL Media und projektspezifischen Korpora (Swiss-AL Projects) Mit Swiss-AL Base liegt ein Korpus vor, welches jährlich aktualisiert wird und die Exploration gegenwärtiger und zukünftiger Diskurse in der Schweiz ermöglicht. Es umfasst alle fünf genannten Akteursgruppen. Swiss-AL Media enthält journalistische Medien (überregionale Tages- und Wochenzeitungen, Lokalausgaben sowie Medientitel mit spezifischen thematischen Ausrichtungen), welche von der Schweizer Mediendatenbank bezogen werden und einen Großteil der Medienlandschaft in der Schweiz repräsentieren. Das Korpus wird u. a. für die Wahl des Schweizer Wort <?page no="129"?> SWISS-AL 129 des Jahres in allen drei Landessprachen eingesetzt (Perrin et al. 2020). Eine dritte Gruppe stellen diskursspezifisch modellierte Forschungs- und Lehrkorpora dar, beispielsweise zu Schweizerischen Antibiotikadiskursen- oder zu Diskursen über automatisiertes Fahren (Borghoff et al. 2019; Blass et al. 2021). Die darin enthaltenen Akteure sind größtenteils in Swiss-AL Base oder Swiss-AL Media enthalten, werden aber auch projektspezifisch als Textemittenten aufgenommen. Der Einsatz dieser Korpora in konkreten Projektzusammenhängen führt zu methodischen Innovationen, die zu einer Weiterentwicklung von Swiss-AL Base und Swiss AL Media führen. Ein Beispiel ist der Umgang mit Duplikaten, die durch die Aufnahme von Lokalausgaben eines Zeitungsverbundes entstehen (der gleiche Text wird in mehreren lokalen Ausgaben einer Zeitung veröffentlicht). In Projektzusammenhängen werden Lösungen dafür entwickelt, die dann auch in Swiss-AL Base und Media implementiert werden (vgl. Kap.-2.3). 2.2 Das Swiss-AL-Basiskorpus Die Idee zur Entwicklung von Swiss-AL Base entstand aus theoretischen Überlegungen und Projekterfahrungen der Diskurslinguistik in Anwendung (Dreesen/ Stücheli-Herlach 2019), der korpuslinguistischen Forschung und Entwicklung (Krasselt et al. 2020) sowie der Lehre und Weiterbildung. In der Angewandten Linguistik, die sich zur Lösung von praxisbezogenen Problemen für den Sprachgebrauch ausgewählter öffentlicher Diskurse interessiert, stellt sich insbesondere die Herausforderung, wie in einer transdisziplinären Forschung aus Praxis und Wissenschaft für Nichtfachleute eine nachvollziehbare Diskursmodellierung (Dreesen/ Stücheli-Herlach 2019) nachhaltig vermittelt werden kann. Eine solche transdisziplinäre Forschung wird im Digital Discourse Lab der ZHAW betrieben, in dessen Rahmen projektspezifische Swiss-AL-Korpora entstehen, die auf Swiss-AL Base aufbauen und dieses gleichzeitig durch methodische Innovationen weiterentwickeln (Kreislaufmodell). 1 In Swiss-AL Base wird ein Grundstock an öffentlichen Textemittenten so zusammengestellt, dass möglichst viele gegenwärtige und zukünftige Diskurse in der Schweiz in ihren Grundzügen modelliert werden können. Unter solchen Diskursmodellen verstehen wir Aussageordnungen, die zu erklären helfen, wie öffentliche Vorstellungen von Gegenständen wie Nachhaltigkeit, Energiesicherheit oder digitale Transformation geformt werden. Swiss-AL Base besteht erstens aus einer Zusammenstellung von Medientiteln aus Swiss-AL Media, die zu den auflagenstärksten Titeln der Schweizer Medienlandschaft gehören und aus den zentralen Verlagshäusern der Schweiz stammen. Es besteht zweitens aus Presse- und Newsmitteilungen, 1 www.zhaw.ch/ de/ linguistik/ dienstleistung/ digital-discourse-lab/ (Stand: 28.11.2022). <?page no="130"?> JULIA KRASSELT/ PHILIPP DREESEN/ MATTHIAS FLUOR/ KLAUS-ROTHENHäUSLER 130 aktuellen Hinweisen und Blogposts von Webseiten wichtiger Akteure der öffentlichen Kommunikation in der Schweiz (unterteilt in die Akteurskategorien Politik und Verwaltung, Wirtschaft, Wissenschaft, Zivilgesellschaft, siehe oben). Swiss-AL Base wird erstens eingesetzt für Explorationen bei neuen Diskursforschungsprojekten. So ist es etwa möglich, erste Korpusabfragen zu Distributionen vorzunehmen, um eine grobe Vorstellung vom Untersuchungsgegenstand zu erhalten und eine Heuristik zu beginnen. Für die Beantwortung diskursspezifischer Einzelfragen ist es hingegen nur bedingt geeignet. Hierzu wäre es erforderlich, ein Subkorpus aus Swiss-AL Base zu bilden oder ein spezifisches Untersuchungskorpus auf Grundlage der durch Exploration gewonnenen Erkenntnisse zu kompilieren. Zweitens wird Swiss-AL Base im Digital Discourse Lab für Demonstrationen gegenüber Praxispartner: innen eingesetzt, die einen Einblick in korpuszentrierte Diskursanalyse erhalten möchten. Insbesondere mittels der Swiss-AL-Workbench (siehe Kap.-2) können in Swiss-AL Base mit und für Nicht-Linguist: innen Abfragen wie Distributionen und Kollokationen nachgeschlagen werden. Ziel der Demonstration ist es, das grundlegende Prinzip von korpuszentrierter Diskursanalyse zu vermitteln. Drittens wird Swiss-AL Base in der Lehre (z. B. Vergleichende Diskurslinguistik, Rocco/ Schafroth (Hg.) 2019) und Weiterbildung eingesetzt. Mit Swiss-AL Base (wie auch mit Swiss-AL Media) wird eine nachhaltige Strategie verfolgt: Im Gegensatz zu projektspezifischen Korpora, die i. d. R. nach Projektabschluss nicht mehr gepflegt werden, wird es jährlich aktualisiert, ggf. um neue Akteure erweitert sowie qualitativ weiterentwickelt (v. a. Fehlerreduktion bei der Datenbeschaffung und -aufbereitung vgl. Kap.-1.3). Wie beschrieben, ist Swiss-AL Base für klar umrissene Aufgaben der Angewandten Linguistik konzipiert. Im Umkehrschluss bedeutet dies, dass das Korpus weder als Referenzkorpus für die Schweiz geplant ist noch zukünftig diesen Anspruch erfüllen soll. Hierzu ist das Korpus allein schon aufgrund der Quellenauswahl nicht in der Lage (beispielsweise bzgl. Domänen, Textsorten, fiktionalen Genres).- 2.3 Pipeline Alle Swiss-AL-Korpora werden mit einer computerlinguistischen Pipeline erstellt, die flexibel mit unterschiedlichen Primärdaten umgehen kann und über sprachspezifische Module verfügt. Die Daten werden hauptsächlich 2 durch die Schweizer Mediendatenbank (SMD) 3 sowie aus dem Web bezogen, wofür ein in-house entwickel- 2 Weitere Daten werden beispielsweise über die Twitter-API bezogen oder die API des Schweizer Parlaments (Parlamentsdebatten). 3 In der Schweiz wird durch die Initiative Swissdox@LiRi ein Volltextzugriff auf in der SMD enthaltene Medientitel für die wissenschaftliche Nutzung ermöglicht: www.liri.uzh.ch/ en/ services/ swissdox. html (Stand: 28.11.2022). <?page no="131"?> SWISS-AL 131 ter Webcrawler verwendet wird. Der Fokus liegt auf dynamischen Teilen der Webseiten (z. B. Newsmeldungen, Medienmitteilungen, Blogs), die über eigene Übersichtsseiten verfügen. Von diesen werden zuerst Links und vorhandene Metadaten (z. B. Publikationsdatum) gesammelt. Anschließend werden die verlinkten Seiten heruntergeladen und lokal gespeichert. Webseitenspezifische Scraper werden anschließend zur Extraktion von Texten verwendet. Sie bestehen aus XPath-Ausdrücken, um den relevanten Content so präzise wie möglich zu extrahieren und Boilerplates (z. B. Seitennavigation, Impressa) herauszufiltern. Der Content wird zur weiteren Verarbeitung zusammen mit allen extrahierten Metadaten in einer strukturierten Form in die Datenbank Elastic Search geladen. Auf die beschriebenen Primärdaten werden eine Reihe von Filtern angewendet: Neben Textlängenfiltern sind Sprachfilter entscheidend, um die Texte im weiteren Verlauf sprachspezifisch zu verarbeiten. Dafür verwenden wir den Compact Language Detector (CLD) aus dem Chromium Browser Projekt von Google, 4 der im Gegensatz zu anderen Spracherkennungssystemen in der Lage ist, auch Sprachenwechsel innerhalb eines Textes zu erkennen. Außerdem werden sog. Nahezu-Duplikaten herausgefiltert, d. h. Texte, die bis auf wenige Veränderungen identisch sind. Sie treten beispielsweise auf, wenn ein Dokument redaktionell korrigiert worden ist, die ursprüngliche Version dennoch auf einer Webseite verbleibt. Die Identifikation von Nahezu-Duplikaten erfolgt mit Hilfe des SpotSigs Algorithmus (Theobald/ Siddharth/ Paepcke 2008). Er basiert auf speichereffizienten Textrepräsentationen, die aus Verkettungen von Funktionswörtern (Antezedenten) mit einem oder mehreren adjazenten Inhaltswörtern gebildet werden. Die Ähnlichkeit von Texten wird mithilfe des Jaccard-Koeffizienten berechnet und wurde experimentell auf einen Wert von 0.85 festgelegt. Der Anteil ausgefilterter Dokumente schwankt quellenspezifisch und bewegt sich zwischen 0 und über 90%. Die Erkennung von Nahezu-Duplikaten ist so parametrisierbar, dass wir die Textmenge, in der gesucht wird, spezifizieren können. Standardmäßig werden Nahezu-Duplikate nur akteursspezifisch gesucht, so dass leicht abgewandelte Presseagenturmeldungen, die von mehreren Akteuren veröffentlicht werden, erhalten bleiben. Der linguistische Teil der Pipeline basiert auf dem UIMA Framework (Ferrucci/ Lally 2004), der eine flexible Konfiguration von Verarbeitungsmodulen erlaubt. Zum PoS- Tagging wird standardmäßig der TreeTagger (Schmid 1994) eingesetzt, alternativ stehen Module basierend auf OpenNLP 5 und Mate Tools (Björkelund et al. 2010) bereit. Die Eigennamenerkennung basiert auf Stanford NER (Finkel/ Grenager/ Manning 2005), für das Italienische kommt das trainierte Modell von Tint 6 (Palmero 4 https: / / github.com/ cld2owners/ cld2 (Stand: 28.11.2022). 5 https: / / opennlp.apache.org/ (Stand: 28.11.2022). 6 https: / / github.com/ dhfbk/ tint (Stand: 28.11.2022). <?page no="132"?> JULIA KRASSELT/ PHILIPP DREESEN/ MATTHIAS FLUOR/ KLAUS-ROTHENHäUSLER 132 Aprosio/ Moretti 2016) zum Einsatz. Ortsnamen werden mittels CLAVIN 7 disambiguiert und georeferenziert. Für Dependenzparsings stehen Komponenten bereit, die- wahlweise auf dem Stanford Dependency Parser (Manning et al. 2014), dem MaltParser (Nivre/ Hall/ Nilsson 2006) oder dem Parser der Mate Tools aufbauen. Für Italienisch greifen wir dabei wiederum auf das Modell von Tint zurück. Für deutschsprachige Texte sind einige zusätzliche Komponenten verfügbar. So gibt es beispielsweise eine Komponente zum Named Entity Linking (AmbiverseNLU), 8 zum topologischen Parsing (Eigenentwicklung) oder zur morphosyntaktisch ausdifferenzierten Wortartkennung (Schmid/ Laws 2008). 3. Die Swiss-AL-Workbench Nutzer: innen von Korpora sind auf geeignete Werkzeuge angewiesen, die einen systematischen Zugriff auf Primärdaten, Annotationen und Metadaten erlauben. Je nach Forschungsgebiet, Zweck der Untersuchung und den zu bearbeitenden Fragestellungen werden unterschiedliche Analysemethoden benötigt. In der korpuszentrierten Diskursanalyse sind das bspw. kontextsensitive Methoden wie Kollokationen, die Berechnung von Mehrworteinheiten und Keywords oder die Darstellung von komplexen Suchanfragen in Form von Konkordanzen (vgl. Bubenhofer 2009; Kalwa 2013; Baker 2014; Baker et al. 2008). Abb.-2: Architektur der Swiss-AL-Workbench 7 https: / / github.com/ Novetta/ CLAVIN (Stand: 28.11.2022). 8 https: / / github.com/ ambiverse-nlu/ ambiverse-nlu (Stand: 28.11.2022). <?page no="133"?> SWISS-AL 133 Während es eine Vielzahl von Werkzeugen für die korpuslinguistische Analyse gibt, füllt die Swiss-AL-Workbench eine spürbare Lücke (Krasselt et al. 2021): 9 Sie ist browserbasiert und leicht zugänglich (ohne Anmeldung oder vorherige Installation von Software), richtet sich an ein sehr heterogenes Publikum und bietet eine breite Palette von Analysemethoden, zu denen sowohl klassische korpuslinguistische Methoden wie auch Methoden des maschinellen und Deep Learnings gehören. Die Swiss-AL-Workbench unterscheidet sich damit von anderen Tools wie CQPweb (Hardie 2012), AntConc (Anthony 2005), Corpus Explorer (Rüdiger 2020), LancsBox (Brezina/ Weill-Tessier/ McEnery 2020) oder WMatrix (Rayson 2008). 3.1 Zielgruppe Die Swiss-AL-Workbench richtet sich an drei Gruppen von Nutzer: innen: 1)- Praktiker: innen aus dem Bereich der öffentlichen Kommunikation, die in diskurslinguistisch ausgerichteten Projekte involviert sind oder Diskursanalysen für die eigene Organisation durchführen wollen, jedoch kaum oder keine korpuslinguistische Vorkenntnisse besitzen (Dreesen/ Stücheli-Herlach 2019; Dreesen/ Krasselt 2021); 2)- Promovierende und Studierende, die eine diskurslinguistische Fragestellung bearbeiten und dafür korpuslinguistische Methoden einsetzen möchten oder die in traditionellen sowie sich neu etablierenden korpuslinguistischen Methoden ausgebildet werden sollen; 3)-korpuslinguistische Expert: innen innerhalb von inter- und transdisziplinärem Projektteams, die die Workbench bspw. in gemeinsamen Datensitzungen für die schnelle Visualisierung von Korpusabfragen nutzen möchten (vgl. Kap.-1.2). 3.2 Architektur Die Swiss-AL-Workbench basiert auf Shiny, einem R-Paket zur Erstellung interaktiver Webapplikationen (Chang et al. 2020). Mithilfe von Shiny werden in Echtzeit R- Funktionen ausgelöst, die Korpusdaten abrufen, verarbeiten und zurücksenden, um sie auf der webbasierten Benutzeroberfläche der Workbench darzustellen. Korpusabfragen sowie Berechnungen von Kollokationen und Distributionen werden mit Hilfe des R-Pakets polmineR (Blaette 2020) ausgeführt, welches direkt auf die in der Corpus Workbench (Evert/ Hardie 2011) indexierten Swiss-AL-Korpora zugreift. Für die Darstellung von Topic und Word Embedding Modellen sowie für N-Gramme und Kookkurrenzen wird auf vorberechnete Daten zugrückgegriffen. Die Workbench verfügt durch die Implementierung mithilfe von Shiny über eine aufgeräumte Benutzeroberfläche, die einen einfachen Wechsel zwischen den einzelnen Analysefunktionen ermöglicht (vgl. Abb.-3). 9 http: / / swiss-al.linguistik.zhaw.ch (Stand: 28.11.2022). <?page no="134"?> JULIA KRASSELT/ PHILIPP DREESEN/ MATTHIAS FLUOR/ KLAUS-ROTHENHäUSLER 134 Abb.-3: Benutzeroberfläche Swiss-AL-Workbench Die Workbench ermöglicht Nutzer: innen, die für die jeweilige Analyse verwendeten Daten durch das Einstellen von Parametern selbst genauer zu definieren. Beispielsweise ist es möglich, durch das Einstellen eines Sliders auf einem Zeitstrahl den Zeitraum zu definieren, in dem Texte entstanden sein müssen, um in die Distributionsanalyse einzufließen (vgl. Kap.-2.3). Durch die direkte Anbindung an die Corpus Workbench ist eine Verwendung der CQP-Syntax möglich und erlaubt so auch elaborierte, komplexe Korpusabfragen (vgl. ebenso Kap.-2.3). 3.3 Funktionen Die Swiss-AL-Workbench bietet klassische, für Diskursanalysen etablierte korpuslinguistische Methoden an. Zudem stehen mit Topic Modellen und Word Embedding Modellen zwei Methoden zur Verfügung, die im Kontext des Natural Language Processing entwickelt wurden und deren Nutzen für Diskursanalysen erst in den vergangenen Jahren vermehrt wahrgenommen wird (Krasselt/ Dreesen 2022; Bubenhofer 2020). Die Swiss-AL-Workbench ermöglicht insbesondere Korpusanalysen auf der Ebene der diskursiven Makro-Ebene. Der Fokus liegt auf der Ermittlung aggregierter Analyseergebnisse, die unmittelbar visuell dargestellt werden. Eine Analyse von Einzeltexten ist aus Gründen des Urheberrechtsschutzes in der gegenwärtigen <?page no="135"?> SWISS-AL 135 Version nicht möglich. Im Folgenden werden die verfügbaren Funktionen mit Nutzungsszenarien vorgestellt. 3.3.1 Corpus Query Mit der Funktion „Corpus Query“ können Token oder Sequenzen von Token unter Verwendung der CQP-Syntax und unter Einbezug verfügbarer Annotationsebenen gesucht werden. Für diskurslinguistische Fragestellungen ist diese Funktion z. B. nützlich, um Wortbildungsmuster (Beispiel- 1), Attribuierungen von Substantiven (Beispiel-2) oder syntaktische Funktionen (Beispiel-3) abzufragen, um Aussagen über die Produktivität eines Morphems, die Konnotation eines Ausdrucks oder das Handlungspotenzial von Akteuren zu treffen. (1) [pos = ‘ADJA’][lemma = ‘Welle’] → attributives Adjektiv gefolgt von einem Nomen (2) [word = ‘.+welle ’] → Wortbildungen mit -welle (3) [depRel = ‘SB’ & pos = ‘NN’] → Nomen, die syntaktisch Subjekte sind 3.3.2 Kollokationen und Kookkurrenzen Mit den Funktionen „Collocations“ und „Cooccurrences“ werden zwei kontextsensitive Methoden angeboten, die in der Diskurslinguistik für die Analyse von Wortbedeutungen verwendet werden. Als Kollokationen werden Wörter bezeichnet, die innerhalb eines vordefinierten Fensters signifikant häufig gemeinsam vorkommen (Evert 2008). Sie können für einzelne Wörter mit Hilfe der Log-Likelihood-Ratio berechnet werden. Die Größe des Kontextfensters kann von Nutzer: innen individuell eingestellt werden (ein bis zehn Wörter rechts und links). Kollokationen können entweder tabellarisch, als Balken- oder als Baumdiagramms angezeigt werden. Sie sind besonders nützlich für semantische Analysen, da die Bedeutung eines Wortes von seinem unmittelbaren Gebrauch abhängt (sog. distributionelle Hypothese). Nutzer: innen können mithilfe dieser Funktion beispielsweise analysieren, ob es einen Bedeutungsunterschied zwischen Atomenergie und Kernenergie gibt. <?page no="136"?> JULIA KRASSELT/ PHILIPP DREESEN/ MATTHIAS FLUOR/ KLAUS-ROTHENHäUSLER 136 Abb.-4: Netzwerkvisualisierung von Kookkurrenzen auf Textebene Mit Hilfe der Funktion „Cooccurrences“ können Wörter identifiziert werden, die auf Textebene miteinander korrelieren. Wir verwenden den Begriff Kookkurrenzanalyse, um diesen Ansatz von dem für Kollokationen beschriebenen klassischen Fensteransatz zu unterscheiden. Die Pearson-Korrelation wird als statistisches Maß verwendet. Gemeinsam vorkommende Wörter können entweder in einem Balkendiagramm oder in einem Netzwerk visualisiert werden. Eine Netzwerkvisualisierung ist vor allem dann sinnvoll, wenn die gleichzeitige Verwendung mehrerer Wörter angezeigt werden soll, um Assoziationen innerhalb eines Diskurses aufzuzeigen (vgl. Abb.-4). 3.3.3 Distribution über Zeit und Akteure Durch die Funktion «Distribution» kann die Frequenz von Wortformen im Zeitverlauf sowie für einzelne, im Korpus repräsentierte Akteure visuell dargestellt werden. Nutzer: innen können den in der Verlaufskurve darzustellenden Zeitraum individuell einstellen. Frequenzen im Zeitverlauf werden im rollenden 7-Tage-Durchschnitt angegeben. Aus diskurslinguistischer Sicht ist eine solche Analyse von Interesse, um den Gebrauch von Wörtern in einen Zusammenhang mit diskursrelevanten Ereignissen zu stellen oder um Präferenzen für konkurrierende Begriffe bei einzelnen Akteuren darzustellen. <?page no="137"?> SWISS-AL 137 3.3.4 n-gramme Analysen, die über Wortgrenzen hinaus gehen, werden mit Hilfe der Funktion „ngrams“ möglich und sind für diskursanalytische Untersuchungen insbesondere deshalb nötig und wichtig, weil ein großer Teil sprachlicher Äußerungen in Form von konventionalisierten Mehrworteinheiten realisiert wird (Erman/ Warren 2000). Nutzer: innen können unter Vorgabe eines Wortes oder einer Wortart Mehrworteinheiten aus bis zu vier aufeinanderfolgenden Wörtern berechnen, in denen dieses vorgegebene Wort/ die vorgegebene Wortart enthalten ist. n-Gramme können für spezifische Quellengruppen berechnet und so miteinander verglichen werden. Beispielsweise können Nutzer: innen 4-Gramme mit dem Personalpronomen wir berechnen und diese zwischen journalistischen und politischen Akteuren vergleichen. 3.3.5 Keywords Mit der Funktion „Keywords“ kann typisches, d. h. signifikant häufig auftretendes Vokabular in einem Korpus A berechnet werden, indem dessen Vokabular mit dem eines Korpus B verglichen wird (McEnery 2016). Gegenwärtig ermöglicht die Workbench, innerhalb eines Korpus 1)-einzelne Jahre, 2)-Akteursklassen und 3)-einzelne Quellen miteinander zu vergleichen. Nutzer: innen können so beispielweise analysieren, wie sich das Vokabular in journalistischen Medien im Jahr vor der Coronapandemie (2019) vom Vokabular im ersten Jahr der Pandemie (2020) unterscheidet. 3.3.6 Topic Modelle Für die Mehrheit der Korpora auf der Workbench stehen sogenannte Topic Modelle zur Verfügung, die einen datengetriebenen/ induktiven Zugang zur thematischen Struktur von Korpora ermöglichen. Topic Modeling ist eine Sammelbezeichnung für probabilistische Verfahren des maschinellen Lernens, bei denen Musterhaftigkeiten im Gebrauch von Wörtern in Texten eines Korpus datengeleitet identifiziert werden (Blei 2012). Als Topics werden Listen von Wörtern bezeichnet, die überzufällig häufig gemeinsam in Texten eines Korpus vorkommen. Die auf der Swiss-AL-Workbench verfügbaren Modelle werden mit Hilfe eines LDA-Algorithmus vorberechnet (Blei/ Ng/ Jordan 2003) und tabellarisch (mit den 25 wichtigsten Wörtern jedes Topic) und in einer interaktiven, webbasierten Visualisierung (LDAvis, Sievert/ Shirley 2014) angezeigt. Darüber hinaus kann die Entwicklung von Topics im Zeitverlauf als Liniendiagramm visualisiert werden, um zu sehen, ob ein Topic zu bestimmten Zeitpunkten besonders salient ist. <?page no="138"?> JULIA KRASSELT/ PHILIPP DREESEN/ MATTHIAS FLUOR/ KLAUS-ROTHENHäUSLER 138 Abb.-5: Visualisierung von Topic Modellen mit Hilfe von LDAvis (Sievert/ Shirley 2014) 3.3.7 Word Embedding Modelle Schließlich bietet die Swiss-AL-Workbench auch Zugang zu semantischen Vektorraummodellen, sog. Word Embeddings (Lenci 2018), die die semantische Ähnlichkeit von Wörtern durch einen Vergleich ihres Gebrauchskontextes räumlich abbilden. Die Modelle können in TensorBoard visualisiert und exploriert werden. In der Diskursanalyse können Word Embeddings besonders nützlich sein, um semantisch verwandte Wörter zu identifizieren, die sich auf ein übergreifendes Konzept beziehen. Wer sich zum Beispiel für die diskursive Konstruktion von ‚Angst‘ im COVID- 19-Diskurs interessiert, würde entweder händisch semantisch verwandte Ausdrücke und Begriffe nachschlagen oder in einem Referenzkorpus ermitteln und so beispielsweise Sorge identifizieren. Das Word-Embedding-Modell würde zum einen die erwarteten nächsten Nachbarn von Angst (z. B. Sorge) aufzeigen, zudem aber auch Wörter, die im COVID-19-Diskurs mit dem Konzept der Angst verwandt sind (z. B. in Panik geraten, Vereinsamung, verunsichern). 4. Ausblick Die Swiss-AL-Workbench befindet sich gegenwärtig in einer frühen Entwicklungsphase. Ein kurzfristiges Ziel ist die Verbesserung der Performanz der Workbench; dafür testen wir datenbankbasierte Lösungen. Ein mittelfristiges Ziel ist der Ausbau der verfügbaren Funktionen, ein Desiderat ist beispielsweise die Berechnung von <?page no="139"?> SWISS-AL 139 Distributionen für Mehrworteinheiten oder eine vereinfachte Form der CQP-Syntax. Ein langfristiges Ziel ist die Veröffentlichung des zugrundeliegenden Codes als Open Source. In Bezug auf Swiss-AL werden für den Bereich der projektspezifischen Korpora Methoden des (mehrsprachigen) Diskursetrackings exploriert. Ein Ziel ist die Aktualisierung diskursspezifischer Korpora in möglichst kurzen Zeitabschnitten, um Veränderungen im Diskurs beobachten zu können (z. B. im Rahmen von Themenverschiebungen, die in Topic Modellen sichtbar werden). Literatur Anthony, Laurence (2005): AntConc: design and development of a freeware corpus analysis-toolkit for the technical writing classroom. In: IPCC 2005. Proceedings. International professional communication conference. Limerick, Ireland: IEEE, S.-729-737. http: / / ieeexplore.ieee.org/ document/ 1494244/ (Stand: 28.11.2022). Baker, Paul/ Gabrielatos, Costas/ Khosravinik, Majid/ Krzyzanowski, Michał/ Mcenery, Tony/ Wodak, Ruth (2008): A useful methodological synergy? Combining critical discourse analysis and corpus linguistics to examine discourses of refugees and asylum seekers in the UK press. In: Discourse & Society-19,-3, S.-273-306. Baker, Paul (2014): Using corpora to analyze gender. London u. a.: Bloomsbury. Björkelund, Anders/ Bohnet, Bernd/ Hafdell, Love/ Nugues, Pierre (2010): A high-performance-syntactic and semantic dependency parser. In: Liu, Yang/ Liu, Ting (Hg.): COLING 2010. Proceedings of the 23rd international conference on computational Linguistics: demonstrations. 23-27-August 2010, Beijing, China. Coling 2010 Organizing Committee, S.-33-36. Blaette, Andreas (2020): polmineR: verbs and nouns for corpus analysis. Version- 0.8.7. [26.8.2022]. Blass, Philipp/ Kaiser, Susanne/ Eichhorn, Anita/ Atasayar, Hatun/ Schneider, Florian (2021): Automatisiertes Fahren in Österreichs medialem Diskurs. (=-KFV-- Sicher leben-28). Wien: Kuratorium für Verkehrssicherheit. www.kfv.at/ automatisiertes-fahren-oesterreichsstimmungsbild-im-check/ (Stand: 28.11.2022). Blei, David M./ Ng, Andrew Y./ Jordan, Michael I. (2003): Latent dirichlet allocation. In: Journal of Machine Learning Research-3, S.-993-1022. Blei, David M. (2012): Probabilistic topic models. In: Communications of the ACM- 55, S.-77-84. Borghoff, Birgitta/ Stücheli-Herlach, Peter/ Schwarz, Natalie/ Bilat, Loïse (2019): Antibiotikaresistenzen auf die Agenda! L’antibiorésistance à l’agenda: Schlussbericht zur situativen Analyse öffentlicher Diskurse über Antibiotikaresistenzen mittels digitaler Daten 2017 -2018. Winterthur: ZHAW. <?page no="140"?> JULIA KRASSELT/ PHILIPP DREESEN/ MATTHIAS FLUOR/ KLAUS-ROTHENHäUSLER 140 Brezina, Vaclav/ Weill-Tessier, Pierre/ McEnery, Tony (2020): #LancsBox. Lancaster University corpus toolbox. http: / / corpora.lancs.ac.uk/ lancsbox (Stand: 28.11.2022). Bubenhofer, Noah (2009): Sprachgebrauchsmuster: Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. (=-Sprache und Wissen-4). Berlin/ New York: De Gruyter. Bubenhofer, Noah (2020): Semantische Äquivalenz in Geburtserzählungen: Anwendung von Word Embeddings. In: Zeitschrift für germanistische Linguistik 48, 3 (Themenheft: „Narrativität als linguistische Kategorie“ besorgt von Sonja Zeman), S.-562-589. Chang, Winston/ Cheng, Joe/ Allaire, J.- J./ Sievert, Carson/ Schloerke, Barret/ Xie, Yihui/ Allen, Jeff/ McPherson, Jonathan/ Dipert, Alan/ Borges, Barbara (2020): shiny: web application framework for R. https: / / CRAN.R-project.org/ package=shiny (Stand: 28.11.2022). Dreesen, Philipp/ Krasselt, Julia (2021): Exploring and analyzing linguistic environments. In: Cooren, François/ Stücheli-Herlach, Peter (Hg.): Handbook of management communication. (=-Handbooks of Applied Linguistics-16). Berlin/ Boston: De Gruyter, S.-389-408. Dreesen, Philipp/ Stücheli-Herlach, Peter (2019): Diskurslinguistik in Anwendung: Ein transdisziplinäres Forschungsdesign für korpuszentrierte Analysen zu öffentlicher Kommunikation. In: Zeitschrift für Diskursforschung-7,-2, S.-123-162. Erman, Britt/ Warren, Beatrice (2000): The idiom principle and the open choice principle. In: Text-& Talk-20,-1, S.-29-62. Evert, Stefan (2008): Corpora and collocations. In: Lüdeling, Anke/ Kytö, Merja (Hg.): Corpus Linguistics. An international handbook. Bd.-2. (=-Handbücher zur Sprach- und Kommunikationswissenschaft-29.2). Berlin/ New York: De Gruyter, S.-1212 -1248. Evert, Stefan/ Hardie, Andrew (2011): Twenty-first century corpus workbench: updating a query architecture for the new millennium. In: Proceedings of the corpus Linguistics conference 2011, 20-22 July 2011, ICC Birmingham: University of Birmingham. Ferrucci, David/ Lally, Adam (2004): UIMA: an architectural approach to unstructured information processing in the corporate research environment. In: Natural Language Engineering-10,-3/ 4, S.-327-348. Finkel, Jenny Rose/ Grenager, Trond/ Manning, Christopher (2005): Incorporating non-local information into information extraction systems by Gibbs Sampling. In: Knight, Kevin/ Ng, Hwee T./ Oflazer, Kemal (Hg.): Proceedings of the 43nd annual meeting of the association for computational Linguistics (ACL 2005). June 2005, Ann Arbor, Michigan. Association for Computational Linguistics, S.-363-370. Hardie, Andrew (2012): CQPweb — combining power, flexibility and usability in a corpus analysis tool. In: International Journal of Corpus Linguistics-17,-3, S.-380-409. Kalwa, Nina (2013): Das Konzept „Islam“: Eine diskurslinguistische Untersuchung. (=-Sprache und Wissen-14). Berlin/ Boston: De Gruyter. Krasselt, Julia/ Dressen, Philipp/ Fluor, Matthias/ Mahlow, Cerstin/ Rothenhäusler, Klaus/ Runte, Maren (2020): Swiss-AL: a multilingual Swiss web corpus for applied Linguistics. In: Cal- <?page no="141"?> SWISS-AL 141 zolari, Nicoletta/ Béchet, Frédéric/ Blache, Philippe/ Choukri, Khalid/ Cieri, Christopher/ Declerck, Thierry/ Goggi, Sara/ Isahara, Hitoshi/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the 12th language resources and evaluation conference. May 2020, Marseille, France. European Language Resources Association (ELRA), S.- 4145-4151. www.aclweb.org/ anthology/ 2020. lrec-1.510/ (Stand: 28.11.2022). Krasselt, Julia/ Fluor, Matthias/ Rothenhäusler, Klaus/ Dreesen, Philipp (2021): A workbench for corpus linguistic discourse analysis. In: Gromann, Dagmar/ Sérasset, Gilles/ Declerck, Thierry/ McCrae, John P./ Gracia, Jorge/ Bosque-Gil, Julia/ Bobillo, Fernando/ Heinisch, Barbara (Hg.): 3rd conference on language, data and knowledge (LDK 2021). (=-Open access series in informatics (OASIcs)). Dagstuhl, Germany: Schloss Dagstuhl- - Leibniz-Zentrum- für Informatik: Dagstuhl Publishing, S.- 26: 1-26: 9. https: / / drops.dagstuhl.de/ opus/ volltexte/ 2021/ 14562 (Stand: 2.12.2022). Krasselt, Julia/ Dreesen, Philipp (2022): „[D]er Koran muss wörtlich genommen werden (sagt der Koran)“. Korpuslinguistische Befunde zur Islamfeindlichkeit im Korandiskurs und ethische Überlegungen zu Bedingungen von Streitkultur. In: Gürtler, Christian/ Prinzing, Marlies/ Zeilinger, Thomas (Hg.): Streitkulturen. Medienethische Perspektiven auf gesellschaftliche Diskurse. (=- Kommunikations- und Medienethik- 18). Baden-Baden: Nomos, S.-95-112. Lenci, Alessandro (2018): Distributional models of word meaning. In: Annual Review of Linguistics-4,-1, S.-151-171. Manning, Christopher D./ Surdeanu, Mihai/ Bauer, John/ Finkel, Jenny/ Bethard, Steven/ McClosky, David (2014): The Stanford CoreNLP natural language processing toolkit. In: Bontcheva, Kalina/ Zhu, Jingbo (Hg.): Proceedings of 52nd annual meeting of the association for computational Linguistics: system demonstrations. June 2014, Baltimore, Maryland USA. Association for Computational Linguistics, S.-55-60. www.aclweb.org/ anthology/ P/ P14/ P14-5010 (Stand: 2.12.2022). McEnery, Tony (2016): Keywords. In: Baker, Paul/ Egbert, Jesse (Hg.): Triangulating methodological approaches in corpus linguistic research. (=-Routledge advances in corpus linguistics-17). New York/ London: Routledge, S.-20-32. Nivre, Joakim/ Hall, Johan/ Nilsson, Jens (2006): MaltParser: A data-driven parser-generator for dependency parsing. In: Calzolari, Nicoletta/ Choukri, Khalid/ Gangemi, Aldo/ Maegaard, Bente/ Mariani, Joseph/ Odijk, Jan/ Tapias, Daniel (Hg.): Proceedings of the 5th international conference on language resources and evaluation (LREC’06). May 2006, Genoa, Italy. European Language Resources Association (ELRA), S.-2216-2219. Palmero Aprosio, Alessio/ Moretti, Giovanni (2016): Italy goes to Stanford: a collection of CoreNLP modules for Italian. In: ArXiv e-prints. Perrin, Daniel/ Whitehouse, Marlies/ Lamas, Elsa L./ Kriele, Christian (2020): Diskursforschung im Schaufenster. Ein transdisziplinärer Ansatz zur Ermittlung und Vermittlung von Wörtern des Jahres. In: Zeitschrift für Diskursforschung-2, S.-164-189. <?page no="142"?> JULIA KRASSELT/ PHILIPP DREESEN/ MATTHIAS FLUOR/ KLAUS-ROTHENHäUSLER 142 Rayson, Paul (2008): From key words to key semantic domains. In: International Journal of Corpus Linguistics-13,-4, S.-519-549. Rocco, Goranka/ Schafroth, Elmar (Hg.) (2019): Vergleichende Diskurslinguistik. Methoden und Forschungspraxis. In Zusammenarbeit mit Juliane Niedner. (=-Kontrastive Linguistik. Linguistica contrastiva-9). Berlin u. a.: Lang. Rüdiger, Jan O: (2020): CorpusExplorer v2.0-- Visualisierung prozessorientiert gestalten. In: Bubenhofer, Noah/ Kupietz, Marc (Hg.): Visualisierung sprachlicher Daten: Visual Linguistics-- Praxis-- Tools. Heidelberg: Heidelberg University Publishing, S.-257-268. Schmid, Helmut (1994): Probabilistic part-of-speech tagging using decision trees. In: Proceedings of international conference on new methods in language processing, September 1994, Manchester, UK, S.-44-49. Schmid, Helmut/ Laws, Florian (2008): Estimation of conditional probabilities with decision trees and an application to fine-grained POS tagging. In: Scott, Donia/ Uszkoreit, Hans (Hg.): - Proceedings of the 22nd international conference on computational Linguistics (COLING 2008). August 2008, Manchester, UK. Coling 2008 Organizing Committee, S.-777-784. Sievert, Carson/ Shirley, Kenneth (2014): LDAvis: a method for visualizing and interpreting topics. In: Chuang, Jason/ Green, Spence/ Hearst, Marti/ Heer, Jeffrey/ Koehn, Philipp (Hg.): Proceedings of the workshop on interactive language learning, visualization, and interfaces. June 2004, Baltimore, Maryland, USA. Association for Computational Linguistics. S.-63-70. http: / / aclweb.org/ anthology/ W14-3110 (Stand: 2.12.2022). Theobald, Martin/ Siddharth, Jonathan/ Paepcke, Andreas (2008): SpotSigs: robust and efficient near duplicate detection in large web collections. In: Myaeng, Sung-Hyon/ Oard, Douglas W./ Sebastiani, Fabrizio/ Chua, Tat-Seng/ Leong, Mun-Kew (Hg.): Proceedings of the 31st annual international ACM SIGIR conference on research and development in information retrieval (SIGIR 2008). Singapore, Singapore. Association for Computing Machinery, S.-563-570. Warnke, Ingo H. (2013): Urbaner Diskurs und maskierter Protest-- Intersektionale Feldperspektiven auf Gentrifizierungsdynamiken in Berlin Kreuzberg. In: Roth, Kersten S./ Spiegel, Carmen (Hg.): Angewandte Diskurslinguistik. Felder, Probleme, Perspektiven. (=-Diskursmuster-- Discourse Patterns-2). Berlin: Akademie-Verlag, S.-189-221. <?page no="143"?> KATHARINA KORECKY-KRÖLL/ ANJA WITTIBSCHLAgER/ MARKUS PLUSCHKOVITS/ FLORIAN-TAVERNIER/ JOHANNA FANTA-JENDE/ RITA STIgLBAUER/ JAKOB BAL/ KATHARINA KRANAWETTER/ REBECCA STOCKER Erhebung, Aufbereitung und (kollaborative) Nutzung-des-Korpus „Deutsch-in-Österreich. Variation-- Kontakt-- Perzeption“ Abstract Dieser Beitrag beschreibt die Prozesse der Datenerhebung, -aufbereitung und geplanten Veröffentlichung eines Teilkorpus des vom österreichischen Wissenschaftsfonds (FWF) finanzierten Spezialforschungsbereichs (SFB) „Deutsch in Österreich. Variation- - Kontakt- - Perzeption“ (FWF F060). Die Daten werden v. a. aus variationslinguistischer, kontaktlinguistischer wie auch perzeptionslinguistischer Perspektive analysiert, wofür eigene Tools entwickelt wurden, die-- ebenso wie das Korpus selbst-- mittelfristig der interessierten Öffentlichkeit zur Verfügung gestellt werden. Keywords: Deutsch in Österreich, Variationslinguistik, Sprachgebrauchs- und -einstellungsdaten, gesprochensprachliches Korpus, Methodenmix, expressive Komposita 1. Einleitung 1 Der Spezialforschungsbereich (SFB) „Deutsch in Österreich. Variation-- Kontakt-- Perzeption“ 2 untersucht das Gesamtspektrum an Variation und Varietäten des Deutschen in Österreich („DiÖ“) aus den Perspektiven der Variationslinguistik, der Perzeptions- und Einstellungsforschung und der Sprachkontakt- und Mehrsprachigkeitsforschung (vgl. Lenz 2018). Das Forschungsnetzwerk setzt sich aus insgesamt sieben Teilprojekten zusammen. Im vorliegenden Beitrag fokussieren wir den Auf- und Ausbau des Korpus der beiden Wiener SFB-Teilprojekte (project parts) PP03 („Sprachrepertoires und Varietätenspektren“) und PP08 („Standardvarietäten aus Perspektive der perzeptiven Variationslinguistik“), das sowohl Sprachproduktionsdaten als auch Daten zu Spracheinstellungen und wahrnehmung von Erwachsenen aus ländlichen Regionen Österreichs umfasst. Das Teilprojekt PP11 („Kollaborative Online-Forschungsplattform Deutsch in Österreich“) ist für den Zugang zu den Daten und deren technische Aufbereitung zuständig (vgl. DiÖ 2016 f.). Der Fokus dieses 1 Markus Pluschkovits und Jakob Bal gilt ein spezieller Dank des gesamten DiÖ-Teams für die Koordination, Entwicklung und Programmierung der vorgestellten Tools. 2 Der SFB „Deutsch in Österreich. Variation-- Kontakt-- Perzeption“ (FWF F60) wird vom FWF gefördert; Sprecherin: Alexandra N. Lenz. Zum SFB i. A. siehe z. B. DiÖ (2016 f.); Budin et al. (2019); Lenz (2018). Nach Phase I (2016-2019) befindet sich das Projekt derzeit in Phase-II (2020 f.). DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="144"?> KATHARINA KORECKY-KRÖLL ET AL. 144 Beitrags liegt auf Erhebung und Aufbereitung der gesprochensprachlichen Daten und ihrer systemlinguistischen/ sprachgebrauchsorientierten Aufbereitung. 2. Datenerhebung Die einzelnen Schritte der Datenerhebung umfassen die Auswahl der Erhebungsorte, der Gewährspersonen und der Erhebungssettings, deren Konzeption sowie die tatsächliche Durchführung der Erhebung. 2.1 Ortsnetz und gewährspersonen Die Auswahl der ruralen Erhebungsorte, die 2016 festgelegt wurden und seitdem der Anlaufpunkt für unsere „direkten“ Datenerhebungen vor Ort sind, orientierte sich an dialektgeographischen und politischen Räumen Österreichs. Es wurde folglich darauf geachtet, dass die Orte möglichst gleichmäßig über Österreichs Dialektregionen und Bundesländer verteilt sind, eine gewisse Distanz zu größeren Städten aufweisen und zwischen 500 und 2000 Einwohner/ -innen zählen. Darüber hinaus sollte der Ortskern idealerweise siedlungsgenetisch eine Einheit bilden und weder historisch geteilt noch topographisch zerstreut sein. Um kontrastive Aussagen zu ermöglichen, wurde auch darauf geachtet, dass zu jedem Ort ein originaler Wenkerbogen 3 vorliegt. Abb.-1: Erhebungsorte (Dreiecke) der SFB-Teilprojekte PP03 und PP08 3 Siehe REDE für Informationen zur originalen Erhebung von Georg Wenker. <?page no="145"?> ERHEBUNg, AUFBEREITUNg, NUTZUNg-DES-KORPUS-„DEUTSCH-IN-ÖSTERREICH“ 145 Konkret erfolgten die Datenerhebungen in 13- Erhebungsorten (Raggal, Tarrenz, Tux, Weißbriach, Oberwölz, Hüttschlag, Passail, Neckenmarkt, Taufkirchen/ Pram, Steyrling, Neumarkt/ Ybbs, Allentsteig, Gaweinstal), die sich auf Österreichs Bundesländer und unterschiedliche Dialektregionen nach der Einteilung von Wiesinger (1983) verteilen (siehe Abb.-1). Hinzu kommen zwei Pretesting-Ortschaften (Piringsdorf im Burgenland und Neumarkt/ Steiermark), in denen das Erhebungssetting ausführlich erprobt wurde. Bevorzugt wurden „autochthone“ Gewährspersonen mit Dialektkompetenzen gesucht, deren Sprachrepertoire zur Analyse areal-horizontaler wie sozial-vertikaler Variation auf der Dialekt-Standard-Achse herangezogen werden können. Um bei den ausgewählten Gewährspersonen möglichst unterschiedliche vertikale Registerausschnitte sowie Spracheinstellungs- und Sprachwahrnehmungsdaten zu evozieren, wurden und werden im Zuge der komplexen Erhebungen seit 2016 vielfältige freie und kontrollierte Erhebungssettings eingesetzt (siehe Abschn.-2.2). Die insgesamt rund 230 Gewährspersonen 4 waren Frauen und Männer aus zwei verschiedenen Altersgruppen (jung: 18-35, alt: 60+). Während in der Gruppe der älteren Generation lediglich Personen ohne Hochschulreife (klassische NORMs/ NORFs) vertreten waren, wurden in der jungen Generation zwei Bildungsniveaus (mit/ ohne Hochschulreife) unterschieden. Alle Personen sind am Wohnort aufgewachsen, haben mehr als die Hälfte ihres Lebens im jeweiligen Ort gelebt (Kriterium „autochthon“) und sind-- auch falls sie pendeln-- nach wie vor in die lokalen Netzwerke integriert. Außerdem stammt mindestens einer ihrer Elternteile ebenfalls aus dem Erhebungsort (siehe Lenz 2018). 2.2 Erhebungssettings Um der intra- und interindividuellen Variation auf der Dialekt-Standard-Achse in Österreich nachzugehen, wurde ein „Kernkorpus“ von bislang 139 Personen (Stand: Mai 2022) aufgezeichnet, die jeweils acht Erhebungssettings durchlaufen haben. Neben kontrollierten Sprachdaten aus Vorleseaufgaben (Text und Einzelwörter als standardschriftsprachliche Stimuli), Sprachproduktionsexperimenten (SPE; einmal in einem standardsprachorientierten Durchgang, einmal in einem dialektorientierten Durchgang) 5 und Übersetzungsaufgaben (einmal in Standardsprechsprache und einmal in Dialekt) 6 wurden auch freie Gesprächsdaten und Spracheinstellungsdaten 4 Bis dato (Stand: Mai 2022) wurden insgesamt Daten von 230 Gewährspersonen erhoben. Darunter finden sich 139 Personen, die sämtliche Erhebungssettings durchlaufen haben und somit das sogenannte „Kernkorpus“ bilden (siehe Abschn.-2.2). 5 Lenz et al. (2019) bieten weitere Einblicke in die PP03-Sprachproduktionsexperimente. 6 Als Basis dienten die Wenkersätze, die im Hinblick auf syntaktische Phänomene, insbesondere Nebensatzeinleitungen (siehe Fingerhuth/ Lenz 2020), um neun weitere Sätze ergänzt wurden. <?page no="146"?> KATHARINA KORECKY-KRÖLL ET AL. 146 in formelleren, standardsprachenäheren Interviews und informelleren, dialektnäheren Freundesgesprächen erhoben (vgl. auch andere Großprojekte mit ähnlicher Methodik, siehe REDE (siehe z. B. Ganswindt/ Kehrein/ Lameli 2015) oder SiN (siehe z. B. Elmentaler et al. 2015)). Bei den Erhebungen konnten insgesamt etwa 570 Stunden Audiomaterial aufgezeichnet werden, das durch zwei schriftliche Settings (Fragebögen 7 und Hörerurteilstests 8 , siehe Abb.-2) ergänzt wird. Abb.-2: Die Erhebungssettings der SFB DiÖ-Teilprojekte PP03 und PP08 (S-=-Standard, D-=-Dialekt; adaptiert aus Lenz 2019, S.-336; Abb.-2) 3. Methoden der Datenaufbereitung 9 Bei der Datenaufbereitung kamen drei Transkriptionsarten zum Einsatz, die einerseits den Umfang des Sprachmaterials bewältigbar machen und anderseits den unterschiedlichen Anforderungen der zu erforschenden sprachlichen Ebenen gerecht werden sollten. Dieser systemebenenspezifische und übergreifende Ansatz erfordert zudem ein flexibles Annotationssystem, welches Forscher/ -innen aus den unterschiedlichen Bereichen der Linguistik (und darüber hinaus) das Arbeiten mit dem Korpus ermöglichen soll. 7 Fragebögen finden vielseitig Einsatz in PP03/ 08, ein Fokus liegt hierbei jedoch auf der Erhebung lexikalischer Variation (siehe Lenz/ Dorn/ Ziegler 2021). 8 Für weitere Informationen zur Methode „Hörerurteilstest“ siehe Koppensteiner/ Lenz (2017). 9 Der Fokus liegt im Folgenden auf der Datenaufbereitung der gesprochensprachlichen Korpusdaten. Zur Aufbereitung der attitudinal-perzeptiven Daten (insbesondere Interviews, Fragebogenerhebungen und Hörerurteilstests) siehe Koppensteiner/ Breuer (2020); Koppensteiner/ Kim (2020); Koppensteiner/ Lenz (2020, 2021). <?page no="147"?> ERHEBUNg, AUFBEREITUNg, NUTZUNg-DES-KORPUS-„DEUTSCH-IN-ÖSTERREICH“ 147 3.1 Transkription Verwendet werden die standardorthographische (1), die lautorientierte/ literarische (2) und die phonetische Transkription (3), von welchen-- angepasst an die Anforderungen der jeweiligen Settings-- mindestens je eine zum Einsatz kommt. 10 (1) Du hast heute am meisten gelernt und bist artig gewesen. (2) du hascht heit am moaschten gelernt und bischt ortig gewesen. (3) [ɔɐ̯ tɪk] Für die freien Gesprächsdaten (Interview und Freundesgespräch) wird im ersten Schritt die standardorthographische Transkription angefertigt, die sich an den aktuellen Regeln der Orthographie orientiert, was insbesondere für Inhaltsanalysen oder das Auffinden bestimmter Zeichenkombinationen, Lexeme und Konstruktionen von Vorteil ist. Die standardorthographische Transkription erfolgt seit 2019 im projekteigenen Tool SpeechHouse (siehe Abschn.-4.1). Darüber hinaus wird passagenweise für die freien Gesprächsdaten sowie für die Verarbeitung der kontrollierten Sprachdaten (Lese-, Übersetzungsaufgaben sowie Experimente) die lautorientierte Transkription verwendet, die auf dem gesprächsanalytischen Transkriptionssystem GAT- 2 (siehe Selting et al. 2009) basiert: Dabei wird auf das graphematische System des Deutschen zurückgegriffen, um sprachliche Variation abzubilden. Die lautorientierte Transkription beschränkt sich vor allem auf jene Passagen, die für die jeweils untersuchten systemlinguistischen (v. a. grammatischen, pragmatischen) Phänomene relevant sind. Für Analysen auf der Lautebene kommt eine phonetische Transkription zum Einsatz. Diese wird im Gegensatz zu den anderen beiden Transkriptionsarten auf Einzelwortebene angefertigt und folgt den Regeln des Internationalen Phonetischen Alphabets (IPA). 3.2 Annotation Die sprachgebrauchsorientierte 11 Annotation der linguistischen Daten erfolgt über ein projektintern entwickeltes Annotationstool (siehe DiÖ 2022; Pluschkovits/ Kranawetter 2021) mit unterschiedlichen Front-Ends. Annotiert wird phänomenbasiert: Jedes linguistische Phänomen erhält dabei eine eigene Annotationsebene, die nicht mit linguistischen Systemebenen korrespondiert und der die jeweiligen Annotationen (engl. tags) zugewiesen werden. Die tatsächlichen Tags werden in engem 10 Die Unterschiede der einzelnen Transkriptionsarten werden anhand des hervorgehobenen Wortes „artig“ verdeutlicht. 11 Zur Annotation attitudinal-perzeptiver Aspekte siehe Koppensteiner/ Breuer (2020); Koppensteiner/ Kim (2020). <?page no="148"?> KATHARINA KORECKY-KRÖLL ET AL. 148 Austausch mit den SFB-DiÖ-Forschenden als selbstständige Entitäten mit eigener, stabiler ID in der relationalen Datenbank festgehalten. Die einzelnen Abfolgen der Tags werden dann als Fremdschlüssel der jeweiligen Tags gespeichert. Auf diese Weise lassen sich bereits vergebene Annotationen im Nachhinein auf einfache Weise adaptieren, da nur ihre jeweilige (stabile) ID zu den einzelnen Sprachdaten gespeichert wird. Insgesamt folgt der Aufbau der jeweiligen Tagging-Abfolgen einer globalen Logik: Einzelne Tags einer Ebene sind nach einem Parent-Child-System aufgebaut, bei dem die einzelnen Generationen hierarchisch organisiert sind. Generation-0-Tags einer Ebene referieren dabei auf das Phänomen, das annotiert wird. Die darauffolgenden Tags der Generation 1 spezifizieren die Kategorien, die zur Beschreibung des Phänomens notwendig sind. Generation-2-Tags wiederum markieren die Features der einzelnen Kategorien, die im tatsächlichen Sprachmaterial vorhanden sind. Dementsprechend ergänzen einander die Tags der 1.-Generation in ihrer Beschreibung des annotierten Phänomens, während sich die Tags der Generation-2 gegenseitig ausschließen. Für die Annotation von expressiven Komposita (siehe unten) bedeutet dies beispielsweise, dass jedes Auftreten des untersuchten Phänomens den Tag der 1. Generation „WBA“ (für Wortbildungsart) und „WA“ (für Wortart) erhält, da sich diese in der Beschreibung der einzelnen Belege ergänzen. Die spezifischen Realisierungen der untersuchten Variablen erhalten aber nur jenen Generation-2-Tag, der auf sie zutrifft: Ein Beleg ist entweder ein Substantiv oder ein Adjektiv, allerdings nicht beides gleichzeitig. Ein erheblicher Vorteil dieser Art der Annotation, die durch ihre Speicherung in einem relationalen Datenbanksystem flexibel, durch die globale Annotationslogik allerdings auch vordefiniert ist, liegt darin, dass nur den Vorgaben entsprechende Annotationen entstehen können. Gleichzeitig erlaubt das flexible System aber auch ein anschließendes Filtern nach bestimmten Tags. 12 Exemplarisch für den Annotationsvorgang wird im Folgenden auf das Tagging von expressiven Komposita im Bereich der Morphopragmatik eingegangen. Prinzipiell finden Annotationen allerdings für diverse linguistische Systemebenen und Spracheinstellungen Anwendung. Aus Platzgründen kann auf die spezifischen Abläufe der phonetisch-phonologischen, morphologischen, syntaktischen und lexikalischen Annotation sowie auf das Tagging der Spracheinstellungen an dieser Stelle nicht näher eingegangen werden. 12 Für weiterführende Informationen zum Annotationssystem im SFB DiÖ siehe Breuer/ Seltmann (2018) bzw. Pluschkovits/ Kranawetter (2021). <?page no="149"?> ERHEBUNg, AUFBEREITUNg, NUTZUNg-DES-KORPUS-„DEUTSCH-IN-ÖSTERREICH“ 149 Bei pragmatischen Analysen spielen häufig mehrere sprachliche Ebenen sowie der größere syntaktische oder textliche Kontext (d. h. auch mehrere Äußerungen vor oder nach dem jeweils analysierten Element) eine Rolle. Am Beispiel eines Belegs für das expressive Adjektivkompositum „scheißeteuer“ (siehe Abb.- 3) soll verdeutlicht werden, wie morphopragmatische Tags für expressive Wortbildungstypen aussehen können. Die oberhalb des Tags befindliche Angabe eines größeren Äußerungskontexts ist dabei hilfreich für die Interpretation. Expressive Komposita sind typischerweise Adjektiv- oder Substantivkomposita mit einem expressiven Element (hier: „scheiße“), das häufig das Erstglied ist und das in der Regel metaphorisch gebraucht wird (vgl. Meibauer 2013). Abb.-3: Tagging für das expressive Kompositum „scheißeteuer“ in der DiÖ-Datenbank Das Phänomen ‚expressiver Wortbildungstyp‘ (EXPR) wird in der 0. Generation des Taggings angeführt (Expr), danach wird die Wortart (WA) bestimmt-- im genannten Beispiel (Abb.- 3) handelt es sich um ein Adjektiv (Adj), gefolgt von der Wortbildungsart (WBA) ‚Komposition‘ (Komp). Die pragmatische Semantik/ Funktion (Wert) ist im konkreten Fall negativ (neg), weil aus dem größeren Kontext klar hervorgeht, dass sich die Sprecherin über zu hohe Mietpreise beschwert. Und schließlich spielt bei expressiven Komposita auch die Prosodie bzw. Intonation (Int) eine Rolle. Häufig weisen sie (wie im vorliegenden Beispiel) Doppelakzent (level: „schéißetéier“) auf, aber auch ein fallender Akzent mit Betonung auf dem Erstglied (fall) wie bei prototypischen (nicht expressiven) Determinativkomposita wie „Háustür“ oder ein steigender Akzent mit Betonung auf dem Zweitglied (rise), der allerdings bei Komposita relativ selten vorkommt, ist möglich. Für pragmatische Analysen können also Annotationen auf verschiedenen systemlinguistischen Ebenen sinnvoll sein. Die nach erfolgter Annotation aus der Datenbank generierten Tabellen, welche automatisiert entweder im Excel- oder csv-Format ausgegeben werden können, dienen wiederum als Basis für alle weiteren Schritte der Datenauswertung bzw. -analyse. Abbildung- 4 zeigt beispielhaft einen Ausschnitt aus einer automatisch generierten Datentabelle im Excel-Format. <?page no="150"?> KATHARINA KORECKY-KRÖLL ET AL. 150 Abb.-4: Ausschnitt aus der SFB DiÖ-Datentabelle zu expressiven Komposita Die bisherigen Publikationen aus PP03 und PP08 zeugen davon, dass die erhobenen Daten und ihre Aufbereitungen für die gewählte Zielformulierung (siehe Abschn.-1) ergiebig sind. Die vielseitige Nutzbarkeit des Korpus gerade für die variationslinguistische Forschung wird nun exemplarisch anhand des bereits erwähnten pragmatischen Phänomens der expressiven Komposita dargelegt, wobei die areal-horizontale Variationsdimension im Fokus steht: Expressive Komposita haben insgesamt eine niedrige Tokenfrequenz bei vergleichsweise vielen unterschiedlichen Types, die abhängig von der Dialektregion stark variieren. Eine adäquate visuelle Darstellung der vielen unterschiedlichen expressiven Elemente ist also durchaus herausfordernd. Abbildung-5 zeigt eine Darstellung der häufigsten expressiven Elemente (Gesamtkorpus-Tokenfrequenz von mindestens 10) nach Dialektregion. Hierfür wurde auf die umfangreichen Filterfunktionen von Pivottabellen und -diagrammen in MS Excel zurückgegriffen. 13 Abb.-5: Die häufigsten expressiven Elemente in Komposita (mindestens 10 Token) in Freundesgesprächen aus fünf Dialektregionen; Datenbasis: 64 Sprecher/ -innen in 40 Freundesgesprächen, insgesamt 209 Belege 13 Da expressive Komposita in informelleren, dialektnäheren Settings weitaus höherfrequent auftreten als in standardnäheren, formelleren Settings, beschränkt sich die Analyse auf die dialektnäheren Freundesgespräche. <?page no="151"?> ERHEBUNg, AUFBEREITUNg, NUTZUNg-DES-KORPUS-„DEUTSCH-IN-ÖSTERREICH“ 151 Abbildung- 5 verdeutlicht die wichtigsten Unterschiede und Gemeinsamkeiten expressiver Elemente zwischen den Dialektregionen: So kommen vor allem scheiß(e)-, aber auch mordsin allen Dialektregionen vor, während bodeausschließlich in der alemannischen Region auftritt und sich urauf die bairischen Regionen (mit Schwerpunkt im Mittelbairischen) beschränkt. Vom Mittelbis zum Südbairischen ist saujeweils am zweithäufigsten vertreten, lässt sich aber weder im Südbairisch-Alemannischen noch im Alemannischen belegen. Selbstverständlich erlaubt die umfassende Transkription und Annotation auch etliche weitere Analysen zu systemspezifischen Fragestellungen, beispielsweise in Hinblick auf situative Sprachverwendung und innersprachliche Steuerungsfaktoren (Lautkontext, lexikalische Eigenheiten usw.). Hierzu sind bereits eine Vielzahl von Publikationen zu den einzelnen Systemebenen entstanden, siehe exemplarisch etwa Goryczka et al. (im- Ersch.), Bülow/ Wittibschlager/ Lenz (einger.) für syntaktische Analysen; Korecky-Kröll (2020a, 2022a) für die morphologische Ebene; Korecky- Kröll (2020b, 2022b), Korecky-Kröll/ Dressler (2022) für pragmatische Untersuchungen; Lenz/ Dorn/ Ziegler (2021) zur lexikalischen Variation; Fanta-Jende (2020), Fanta-Jende et al. (2021), Tavernier (2021), Lanwermeyer et al. (2019) für die Ebene der Phonetik/ Phonologie. Zur Spracheinstellungs- und -wahrnehmungsperspektive sind besonders Koppensteiner/ Lenz (2017, 2021) zu erwähnen. Durch die daraus entstehende Vielzahl an linguistischen Analysen desselben Datenmaterials aus unterschiedlichen Blickwinkeln, welche sukzessive weiter ausgebaut werden, sind darüber hinaus auch wertvolle übergreifende Analysen möglich, die über einzelne Systemebenen hinausgehen, beispielsweise zu Fragen der Struktur und Dynamik der Dialekt-Standard-Achse (z. B. Korecky-Kröll im-Ersch.), zu Aspekten inter- und intraindividueller Variation (z. B. Fanta-Jende 2021) sowie zum Verhältnis der einzelnen Systemebenen für die Konstitution von Varietäten. Hierzu werden aktuell weitere Publikationen erarbeitet. 14 4. Tools Um den speziellen Anforderungen des SFB DiÖ 15 gerecht zu werden, wurden bzw. werden diverse projekteigene Tools entwickelt, die im Folgenden vorgestellt werden. 14 Siehe https: / / www.dioe.at/ aktuelles (Stand: 28.12.2022) für Neuerscheinungen aus dem SFB DiÖ. 15 Die Anwendung der DiÖ-Tools ist nicht auf die Teilprojekte PP03 und PP08 beschränkt, sondern erstreckt sich über das gesamte Projekt. <?page no="152"?> KATHARINA KORECKY-KRÖLL ET AL. 152 4.1 SpeechHouse Zur Transkription von Audiodateien wurde im SFB DiÖ ein eigenes Front-End namens SpeechHouse entwickelt. Wie bereits in Abschnitt-3.1 erwähnt, wurde ein großer Teil des Audiomaterials mittels dieser Software transkribiert. 16 SpeechHouse ist im UI-Design am EXMARaLDA-Partitur-Editor (Schmidt/ Wörner 2014) angelehnt und bietet eine Partitur-Ansicht für das Transkript an, begleitet wahlweise mit einer Oszillogramm- oder Spektrogrammvisualisierung. 17 Für Sprecher/ -innen stehen mehrere token-basierte Transkriptionsspuren und event-basierte Annotationsspuren zur Verfügung. Nach gegenwärtigem Stand werden Transkriptdateien von SpeechHouse in einem eigenen Format gespeichert, welches leider nicht kompatibel mit anderen Transkriptionsprogrammen ist. Dafür besteht die Möglichkeit, die Audiospur einzelner Events schnell und einfach zur Weiterverarbeitung mit anderen Programmen (z. B. Praat) zu exportieren. Zu den weiteren Besonderheiten von SpeechHouse zählt neben dem erwähnten token-basierten Ansatz etwa die Möglichkeit, die Transkripte über ein zentrales Back- End zu beziehen und Echtzeit-Kollaboration zwischen verschiedenen Projektstandorten und Forschenden zu ermöglichen. Außerdem besitzt SpeechHouse einen konfigurierbaren Type-Token-Parser, der einzelne Token semantisch anreichert (beispielweise Token unterschiedliche Eigenschaften verleiht, je nachdem, ob diese Worttoken sind oder Intonation anzeigen). Dies hat außerdem den Vorteil, die Transkription konsistenter zu machen, da fehlerhaft verwendete Zeichen-- wenn diese nicht als Token Type geparst werden können-- direkt als Fehler angezeigt werden. SpeechHouse lässt sich allerdings auch für einzelne User/ -innen mit lokaler Speichermöglichkeit der Transkriptdateien verwenden und wird in dieser Form als Stand-alone-Tool veröffentlicht. 18 4.2 Tools zum Datenzugriff Für den Zugriff auf das DiÖ-Korpus sind-- zusätzlich zur Überführung der Daten in ein für die Wissenschaft zugängliches Repositorium-- mehrere eigenständige Tools geplant. Ein niederschwelliger Zugang zum annotierten Datenmaterial soll dabei über ein intern entwickeltes Kartentool ermöglicht werden, welches die Sprachdaten aus der internen Forschungsplattform dynamisch auf einer Karte darstellt. Der Zugang soll dabei ein explorativer sein, der Benutzer/ -innen nahelegt, selbstständig 16 Mit Stand von Mai 2022 liegen 211 transkribierte Gespräche in SpeechHouse vor. 17 Für Weiteres zur Audioverarbeitung und -visualisierung von SpeechHouse siehe Breuer et al. (2022). 18 Für einen Überblick zum Transkriptionstool siehe auch Kranawetter/ Graf (2020). Die Veröffentlichung der Stand-alone-Version ist bis spätestens Dezember 2023 geplant. <?page no="153"?> ERHEBUNg, AUFBEREITUNg, NUTZUNg-DES-KORPUS-„DEUTSCH-IN-ÖSTERREICH“ 153 Sprachdaten zu kartieren. Ausgangsbasis für die Kartierung sind dabei (unter anderem) Annotationen und Erhebungssettings der Sprachdaten, aber auch soziodemographische Daten der Gewährspersonen. Den User/ -innen wird damit die Möglichkeit geboten, selbstständig verschiedene annotierte Phänomene zu kartieren und die entsprechenden Belege aus den verschiedenen Settings anzuhören. Um die Daten des Projekts erschließen zu können, wird es möglich sein, nach konkreten Tags und Tagkombinationen zu suchen, aber auch nach verschiedenen Erhebungsarten, Einzelaufgaben und soziodemographischen Variablen zu filtern oder explorativ die erhobenen Daten für einen bestimmten Ortspunkt einzusehen. Mit Stand Mai 2022 befindet sich der Sprachatlas des SFB DiÖ in Entwicklung, die Veröffentlichung ist bis Ende 2023 geplant. Als weitere Zugänge sind außerdem eine API (=- Application Programming Interface) und ein eigenes online Front-End für den Zugang zu allen Daten und Annotationen geplant (im Rahmen der Datenschutzbestimmungen). Diese Zugriffsmöglichkeiten sollen mittelfristig geschaffen werden und zum angestrebten Open-Science- und Open-Data-Ansatz des SFB DiÖ beitragen. 5. Fazit und Ausblick Mit Schwerpunkten auf areal-horizontaler, situativ-vertikaler sowie intra- und interindividueller Variation tragen die im vorliegenden Beitrag fokussierten beiden Teilprojekte des großangelegten SFB DiÖ (PP03 und PP08) zur Erstellung eines für Sprachforschung in Österreich in Umfang und Vielfalt einzigartigen Gesamtkorpus bei. 19 Aktuell umfasst das beschriebene Teilkorpus von PP03/ 08 bereits Aufnahmen von über 570 Stunden gesprochener Sprache aus den direkten Erhebungen sowie zusätzliche Fragebogenbzw. Hörerurteilsdaten von rund 3.800 Gewährspersonen. Bis zum Ende der Projektlaufzeit wird das Korpus stetig durch laufende Fragebogenrunden und Daten aus einer weiteren geplanten direkten Felderhebung (mit Fokus auf Lexik und Pragmatik) ergänzt und der Datenaufbereitungsprozess (Transkription und Annotation) kontinuierlich fortgeführt. Durch die Vielfalt der Datentypen (mündlich vs. schriftlich; kontrolliert vs. frei) und das flächendeckende Ortsnetz eignet sich das Korpus nicht nur-- wie in Abschnitt-3 exemplarisch dargestellt- - für horizontale und vertikale Sprachproduktionsanalysen auf allen linguistischen Systemebenen, sondern auch zur Erforschung der Sprachperzeption und -einstellung. Der Nutzen des (aufbereiteten) PP03/ 08-Korpus geht allerdings weit über diese (variations-)linguistischen Zwecke hinaus, eine potenzielle Nutzbarkeit liegt vor allem auch im Bereich der Didaktik. Bis zum Ende der Projektlaufzeit werden der interessierten Öffentlichkeit große Teile des DiÖ-Ge- 19 Zu den weiteren Teilprojekten des SFB DiÖ siehe z. B. DiÖ (2016 f.). <?page no="154"?> KATHARINA KORECKY-KRÖLL ET AL. 154 samtkorpus auf einer kollaborativen Forschungsplattform zur Verfügung gestellt. Neben den Daten selbst werden externen Forscher/ -innen auch jene multi-userfähigen Tools (siehe Abschn.- 4), die im SFB DiÖ entwickelt wurden, zugänglich gemacht. Literatur Breuer, Ludwig M./ Seltmann, Melanie E.-H. (2018): Sprachdaten(banken)-- Aufbereitung und Visualisierung am Beispiel von SyHD und DiÖ. In: Börner, Ingo/ Straub, Wolfgang/ Zolles, Christian (Hg.): Germanistik digital. Digital Humanities in der Sprach- und Literaturwissenschaft. Wien: Facultas UTB, S.-135-152. Breuer, Ludwig M./ Graf, Arnold/ Singer, Tahel/ Pluschkovits, Markus (2022): Transcribe: a web-based linguistic transcription tool. In: Palliwoda, Nicole (Hg.): Data processing and visualization in variational Linguistics/ Dialectology. (=-Working Papers in Corpus Linguistics and Digital Technologies: Analyses and Methodology [WPCL]-7). Szeged: Universität Szeged/ Hamburg: Universität Hamburg, S. 7-23. Budin, Gerhard/ Elspaß, Stephan/ Lenz, Alexandra N./ Newerkla, Stefan M./ Ziegler, Arne (2019): The research project (SFB) ‘German in Austria’. Variation-- Contact-- Perception. In: Bülow, Lars/ Herbert, Kristina/ Fischer, Ann Kathrin (Hg.): Dimensions of linguistic space. Variation-- Multilingualism-- Conceptualisations. (=-Schriften zur deutschen Sprache in Österreich-45). Berlin u. a.: Lang, S.-7-35. Bülow, Lars/ Wittibschlager, Anja/ Lenz, Alexandra N. (einger.): Variation and change of relativizers in Austria’s German varieties. In: Linguistic Variation. DiÖ (2016 f.): SFB Deutsch in Österreich. Variation- - Kontakt- - Perzeption. www.dioe.at/ (Stand: 5.12.2022). DiÖ (2022): GitHub-Repositorien des SFB: Deutsch in Österreich. https: / / github.com/ germanin-austria/ (Stand: 5.12.2022). Elmentaler, Michael/ Gessinger, Joachim/ Lanwer, Jens/ Rosenberg, Peter/ Schröder, Ingrid/ Wirrer, Jan (2015): Sprachvariation in Norddeutschland (SiN). In: Kehrein/ Lameli/ Rabanus (Hg.), S.-397-424. Fanta-Jende, Johanna (2020): Varieties in contact. Horizontal and vertical dimensions of phonological variation in Austria. In: Lenz/ Maselko (Hg.), S.-203-240. Fanta-Jende, Johanna (2021): Situational effects on intra-individual variation in German. Reflexes of Middle High German ei in Austrian speech repertoires. In: Werth, Alexander/ Bülow, Lars/ Pfenninger, Simone E./ Schiegg, Markus (Hg.): Intra-individual variation in language. (=-Trends in Linguistics. Studies and Monographs [TiLSM]-363). Berlin/ Boston: De Gruyter, S.-87-125. Fanta-Jende, Johanna/ Tavernier, Florian D./ Dorn, Amelie/ Korecky-Kröll, Katharina (2021): Plosive in Zeiten von Corona. Zusammenhänge zwischen der Realisierung von Plosiven in verschiedenen Dialektregionen Österreichs und der Ausbreitung von COVID-19 durch <?page no="155"?> ERHEBUNg, AUFBEREITUNg, NUTZUNg-DES-KORPUS-„DEUTSCH-IN-ÖSTERREICH“ 155 Aerosole. In: Wiener Linguistische Gazette- 89, Themenheft: Vom Tun nicht lassen können. Historische und rezente Perspektiven auf sprachliche Variation (in Österreich und darüber hinaus). Festgabe für Alexandra N. Lenz zum runden Geburtstag, S.-135-166. Fingerhuth, Matthias/ Lenz, Alexandra N. (2020): Variation and dynamics of „complementizer agreement“ in German. Analyses from the Austrian language area. In: Linguistic Variation-21,-2, S.-322-369. Ganswindt, Brigitte/ Kehrein, Roland/ Lameli, Alfred (2015): Regionalsprache.de (REDE). In: Kehrein/ Lameli/ Rabanus (Hg.), S. 425-457. Goryczka, Pamela/ Wittibschlager, Anja/ Korecky-Kröll, Katharina/ Lenz, Alexandra N. (im Ersch.): Variation und Wandel adnominaler Possessivkonstruktionen im Deutschen. Horizontal-areale und vertikal-soziale Analysen zum österreichischen Sprachraum. In: Zeitschrift für Dialektologie und Linguistik. Kehrein, Roland/ Lameli, Alfred/ Rabanus, Stefan (Hg.) (2015): Regionale Variation des Deutschen. Projekte und Perspektiven. Berlin/ Boston: De Gruyter. Koppensteiner, Wolfgang/ Breuer, Ludwig M. (2020): Wo Wien anderst ist und wo nicht. Kontrastierung von Spracheinstellungsdaten aus Wien und ruralen Regionen Österreichs. In: Hundt, Markus/ Kleene, Andrea/ Plewnia, Albrecht/ Sauer, Verena (Hg.): Regiolekte-- Objektive Sprachdaten und subjektive Sprachwahrnehmung. (=-Studien zur Deutschen Sprache-85). Tübingen: Narr, S.-55-76. Koppensteiner, Wolfgang/ Kim, Agnes (2020): Perspectives on change. Language (varieties) contact and language ideologies on German in Austria. In: Lenz/ Maselko (Hg.), S.-317-358. Koppensteiner, Wolfgang/ Lenz, Alexandra N. (2017): Theoretische und methodische Herausforderungen einer perzeptiv-attitudinalen Standardsprachforschung. Perspektiven aus und auf Österreich. In: Sieburg, Heinz/ Solms, Hans-Werner (Hg.): Das Deutsche als plurizentrische Sprache. Ansprüche-- Ergebnisse-- Perspektiven. (=-Sonderheft der Zeitschrift für deutsche Philologie-136). Berlin: ESV, S.-43-68. Koppensteiner, Wolfgang/ Lenz, Alexandra N. (2020): Tracing a standard language in Austria using methodological microvariations of verbal and matched guise technique. In: Linguistik Online-102,-2, S.-47-82. Koppensteiner, Wolfgang/ Lenz, Alexandra N. (2021): Standard(s) aus der Perspektive von „Nicht-LinguistInnen“ in Österreich. In: Hoffmeister, Toke/ Hundt, Markus/ Naths, Saskia (Hg.): Laien, Wissen, Sprache. Theoretische, methodische und domänenspezifische Perspektiven. (=-Sprache und Wissen-50). Berlin/ Boston: De Gruyter, S.-391-416. Korecky-Kröll, Katharina (2020a): Morphological dynamics of German adjective gradation in rural regions of Austria. In: Zeitschrift für Dialektologie und Linguistik-87,-1, S.-25-65. Korecky-Kröll, Katharina (2020b): Von bodeguten, hundsnormalen, urleiwanden und saupeinlichen Scheißwörtern: Expressive Komposita in unterschiedlichen Dialektregionen Österreichs. In: DiÖ-Online. https: / / iam.dioe.at/ blog/ 2525 (Stand: 5.12.2022). <?page no="156"?> KATHARINA KORECKY-KRÖLL ET AL. 156 Korecky-Kröll, Katharina (2022a): Nichtprototypische Flexion und Derivation in ländlichen Regionen Österreichs. In: Vergeiner, Philipp C./ Elspaß, Stephan/ Wallner, Dominik (Hg.): Struktur von Variation zwischen Individuum und Gesellschaft. Akten der 14. Bayerisch- Österreichischen Dialektologietagung 2019. (=- ZDL-Beihefte- 189). Stuttgart: Steiner, S.-49-79. Korecky-Kröll, Katharina (2022b): „Ma tuat net so vüü verniedlichen“-- oder doch? Verweigerung und Hinzufügung von Diminutiven als Schnittstellenprobleme von mündlichen „Wenker“-Übersetzungsaufgaben. In: Zeitschrift für Dialektologie und Linguistik- 89,- 1, S.-39-81. Korecky-Kröll, Katharina (im Ersch.): Vertikale morphologische Variation des Deutschen in Österreich am Beispiel der Diminutivbildung. In: Fischer, Hannah/ Rabanus, Stefan (Hg.): Morphologische und syntaktische Variation in den deutschen Regionalsprachen: Impulse für die Erforschung der sprachlichen Vertikale. (=- Germanistische Linguistik). Hildesheim: Olms, S.-135-172. Korecky-Kröll, Katharina/ Dressler, Wolfgang U. (2022): Expressive German adjective and noun compounds in aggressive discourse: morphopragmatic and sociolinguistic evidence from Austrian corpora. In: Knoblock, Natalia (Hg.): The grammar of hate. Morphosyntactic features of hateful, aggressive, and dehumanizing discourse. Cambridge: Cambridge University Press, S.-197-221. Kranawetter, Katharina/ Graf, Arnold (2020): SFB proudly presents: transcribe. In: DiÖ- Online. https: / / iam.dioe.at/ blog/ 2501 (Stand: 5.12.2022). Lanwermeyer, Manuela/ Fanta-Jende, Johanna/ Lenz, Alexandra N./ Korecky-Kröll, Katharina (2019): Competing norms of standard pronunciation. Phonetic analyses on the ‹-ig›variation in Austria. In: Dialectologia et Geolinguistica-27,-1, S.-143-175. Lenz, Alexandra N. (2018): The special research programme „German in Austria. Variation-- Contact-- Perception”. In: Ammon, Ulrich/ Darquennes, Jeroen/ Oakes, Leigh/ Wright, Sue (Hg.): Sprachwahl im Tourismus- - mit Schwerpunkt Europa. Language choice in tourism-- Focus on Europe. Choix de langues dans le tourisme-- focus sur l’Europe. (=-Jahrbuch Sociolinguistica-32). Berlin/ Boston: De Gruyter, S.-269-277. Lenz, Alexandra N. (2019): Der SFB „Deutsch in Österreich. Variation-- Kontakt-- Perzeption“. In Eichinger, Ludwig M./ Plewnia, Albrecht (Hg.): Neues vom heutigen Deutsch. Empirisch- - methodisch- - theoretisch. (=- Jahrbuch des Instituts für Deutsche Sprache 2018). Berlin/ Boston: De Gruyter, S.-335-338. Lenz, Alexandra N./ Breuer, Ludwig M./ Fingerhuth, Matthias/ Wittibschlager, Anja/ Seltmann, Melanie E.-H. (2019): Exploring syntactic variation by means of “language production experiments”: methods from and analyses on German in Austria. In: Journal of Linguistic Geography-7,-2, S.-63-81. Lenz, Alexandra N./ Maselko, Mateusz (Hg.) (2020): VARIATIONist Linguistics meets CONTACT Linguistics. (=-Wiener Arbeiten zur Linguistik-6). Göttingen: Vienna University Press. <?page no="157"?> ERHEBUNg, AUFBEREITUNg, NUTZUNg-DES-KORPUS-„DEUTSCH-IN-ÖSTERREICH“ 157 Lenz, Alexandra N./ Dorn, Amelie/ Ziegler, Theresa (2021): Lexik aus areal-horizontaler und vertikal-sozialer Perspektive. Erhebungsmethoden zur inter- und intraindividuellen Variation. In: Sprachwissenschaft-46,-4, S.-387-433. Meibauer, Jörg (2013): Expressive compounds in German. In: Word Structure-6,-1, S.-21-42. Pluschkovits, Markus/ Kranawetter, Katharina (2021): Es (PRON) war (AUX) einmal (ADV). Die linguistische Annotation von Sprachdaten im SFB. In: DiÖ-Online. https: / / iam.dioe. at/ blog/ 2837 (Stand: 5.12.2022). REDE = Schmidt, Jürgen E./ Herrgen, Joachim/ Kehrein, Roland/ Lameli, Alfred/ Fischer, Hanna (Hg.) (2020 f.): Regionalsprache.de (REDE). Forschungsplattform zu den modernen Regionalsprachen des Deutschen. Bearbeitet von Robert Engsterhold, Heiko Girnth, Simon Kasper, Juliane Limper, Georg Oberdorfer, Tillmann Pistor, Anna Wolańska. Unter Mitarbeit von Dennis Beitel, Milena Gropp, Maria Luisa Krapp, Vanessa Lang, Salome Lipfert, Jeffrey Pheiff, Bernd Vielsmeier. Studentische Hilfskräfte. Marburg: Forschungszentrum Deutscher Sprachatlas. www.regionalsprache.de/ (Stand: 5.12.2022). Schmidt, Thomas/ Wörner, Kai (2014): EXMARaLDA-- creating, analysing and sharing spoken language corpora for pragmatic research. In: Durand, Jacques/ Gut, Ulrike/ Kristoffersen, Gjert (Hg.): The Oxford handbook of corpus phonology. (=-Oxford Handbooks). Oxford: Oxford University Press, S.-402-419. Selting, Margret/ Auer, Peter/ Barth-Weingarten, Dagmar/ Bergmann, Jörg/ Bergmann, Pia/ Birkner, Karin/ Couper-Kuhlen, Elizabeth/ Deppermann, Arnulf/ Gilles, Peter/ Günthner, Susanne/ Hartung, Martin/ Kern, Friederike/ Mertzlufft, Christine/ Meyer, Christian/ Morek, Miriam/ Oberzaucher, Frank/ Peters, Jörg/ Quasthoff, Uta/ Schütte, Wilfried/ Stukenbrock, Anja/ Uhmann, Susanne (2009): Gesprächsanalytisches Transkriptionssystem-2 (GAT-2). In: Gesprächsforschung-- Online-Zeitschrift zur verbalen Interaktion-10, S.-353-402. SiN- = Sprachvariation in Norddeutschland. DFG-Projekt. https: / / corpora.uni-hamburg.de/ / sin/ index.html (Stand: 5.12.2022). Tavernier, Florian D. (2021): Standardaussprache in Österreich. Zur phonetisch-phonologischen Variation alveolarer und bilabialer Fortisplosive im ländlichen Raum. Diplomarbeit. Wien: Universität Wien. Wiesinger, Peter (1983): Die Einteilung der deutschen Dialekte. In: Besch, Werner/ Knoop, Ulrich/ Putschke, Wolfgang/ Wiegand, Herbert E. (Hg.): Dialektologie. Ein Handbuch zur deutschen und allgemeinen Dialektforschung. 2.-Halbbd. (=-Handbücher zur Sprach- und Kommunikationswissenschaft-1.2). Berlin/ New York: De Gruyter, S.-807-900. <?page no="159"?> MALTE BELZ/ BIANCA SELL/ ROBERT LANgE/ MEgUMI TERADA/ CHRISTINE-MOOSHAMMER/ ANKE LÜDELINg BeDiaCo (L1-L1) und CoNNAR (L1-L1/ L2) Freie und aufgabenorientierte spontansprachliche Dialoge in direkter und videobasierter Kommunikation Abstract Wir beschreiben zwei gesprochene Korpora mit deutschen Muttersprachler/ -innen (BeDiaCo, 36-Versuchspersonen) sowie deutschen Muttersprachler/ -innen und Lerner/ -innen des Deutschen (CoNNAR, 56-Versuchspersonen). Beide Korpora enthalten gelesene Wortlisten und spontane gesprochene Dialoge derselben Sprecher/ -innen in verschiedenen Situationen (freie Konversation, aufgabenbasierter Dialog). Die Erhebungen fanden teilweise von Angesicht zu Angesicht und teilweise über ein Videokonferenztool statt. Beide Korpora sind aus spezifischen Forschungsfragen heraus entstanden und für linguistische Forschung wiederverwendbar. Anhand zweier Fallstudien zu Artikulationsgeschwindigkeit (BeDiaCo) und Füllpartikeln (CoNNAR) wird ein beispielhafter Einblick zu möglichen Forschungsfragen gegeben. Keywords: Korpora gesprochener Sprache, Zoom, Artikulationsgeschwindigkeit, Füllpartikeln, Non-Native Addressee Register, Wiederverwendbarkeit 1. Korpora und Forschungsgegenstände Das Berlin Dialogue Corpus (BeDiaCo) und das Corpus of Non-Native Addressee Register (CoNNAR) enthalten spontane gesprochensprachliche Dialoge in verschiedenen Situationen und dienen sowohl ganz allgemein der Grundlagenforschung an gesprochener Sprache als auch der Beantwortung spezifischer Forschungsfragen wie zum Beispiel zu registerbezogenen Phänomenen. Beide Korpora sind gesprochene phonetische Korpora, d. h. sie enthalten das akustische Signal, damit zeitlich alignierte Transliterationen und Annotationsebenen sowie eine automatisch segmentierte und alignierte Annotation auf Segmentebene. 1.1 Motivation und grundlagenforschung Sowohl BeDiaCo als auch CoNNAR sind aus spezifischen Forschungsfragen heraus entstanden, ähnlich aufgebaut und von Beginn an mit dem Ziel erstellt, wiederverwendbar zu sein. Die Motivation für die Erhebung von BeDiaCo war eine spezifische Forschungsfrage zur phonetischen Realisierung von Füllpartikeln (siehe Belz 2021). BeDiaCo entstand jedoch von Beginn an auch mit dem Ziel, das Korpus für die phonetische und DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="160"?> MALTE BELZ ET AL. 160 für weitere linguistische Grundlagenforschung an gesprochener Sprache wiederzuverwenden. Hierfür muss das Korpus mitsamt komplettem akustischem Signal und Annotationen für wissenschaftliche Dritte nachnutzbar sein, was sich in einer flexiblen Korpusarchitektur, in einem multisituationalen Korpusdesign (die gleichen Sprecher/ -innen sprechen in verschiedenen Situationen, z. B. in einem freien Dialog und einem aufgabenbasierten Dialog), in den Einwilligungserklärungen und der Versionierung niederschlägt (zur methodischen Problematisierung FAIRer gesprochener Korpora vgl. Odebrecht/ Belz 2023). Dank dieser Voraussetzungen können auch die Annotationsebenen, welche vornehmlich für die spezifische Forschungsfrage erstellt wurden, für andere Fragestellungen wiederverwendet werden. Neben der Transliteration und der phonetischen Segmentierung ist dies beispielsweise die Ebene IP, auf welcher Intonationsphrasen-annotiert sind. Diese Ebene wird zurzeit für eine Studie zur Schwa-Realisierung in Flexionsendungen wiederverwendet. Das Korpus bietet sich weiterhin für die Grundlagenforschung zu phonetisch-phonologischen, morphologischen, syntaktischen, prosodischen, pragmatischen und interaktionslinguistischen Phänomenen spontaner gesprochener Sprache an. Die CoNNAR zugrundeliegende Forschungsfrage lautet, ob und wie sich Muttersprachler/ -innen (L1) sprachlich an Lerner/ -innen (L2) anpassen. CoNNAR vergleicht dieses Register mit dem L1-L1-Register in verschiedenen Situationen. Durch die enthaltene Multisituationalität von BeDiaCo und CoNNAR ist neben der interindividuellen Betrachtung allgemeiner Merkmale gesprochener Sprache auch spezifische Forschung zu intraindividueller Variation möglich. Beispiele hierfür sind, ob sich Sprecher/ -innen einander sprachlich annähern (Konvergenz) oder ob es registerspezifische sprachliche Effekte gibt, wie im folgenden Kapitel näher beleuchtet wird. 1.2 Registerforschung Wir verstehen Register als eine wiederkehrende, intra-individuelle Variation im Sprachverhalten (vgl. Lüdeling et al. 2022), die von funktionalen und situativen Aspekten abhängt. Dazu gehören etwa das Kommunikationsziel (z. B. Lösen einer Aufgabe vs. Smalltalk), der/ die Gesprächspartner/ -in und der Kanal (z. B. face-to-face vs. Videoanruf). Die Registerwahl folgt dabei dem/ der kommunikativen Zweck/ Ziel/ Funktion, sodass „some linguistic features are common in a register because they are functionally adapted to the communicative purposes and situational contexts of texts from that register“ (Biber/ Conrad-2009, S.-2). Relevante linguistische Merkmale können auf allen sprachlichen Ebenen auftreten. CoNNAR wurde gezielt für die Untersuchung adressatenbedingter Registervariation konzipiert. Dabei liegt die Fragestellung zugrunde, ob Sprecher/ -innen sich in ihrem Sprechstil an die tatsächlichen oder angenommenen Bedürfnisse ihrer Gesprächs- <?page no="161"?> BEDIACO (L1-L1) UND CONNAR (L1-L1/ L2) 161 partner/ -innen anpassen (Bell 1984), wenn sie mit erwachsenen Lerner/ -innen kommunizieren. CoNNAR enthält Daten der Proband/ -innen jeweils im Gespräch mit einer nicht-muttersprachlichen Versuchsperson zur Elizitierung von non-native addressee register (andere Begriffe sind foreigner talk, foreigner-directed speech oder-Xenolekt, vgl. Bradlow/ Bent 2002; Roche 1998) und mit einem/ -r deutschen Muttersprachler/ -in als Vergleichsbasis (siehe Kap.- 3). Auch BeDiaCo ermöglicht registerbezogene Untersuchungen des Sprachverhaltens, zum Beispiel in Face-toface-Dialogen gegenüber Videocall-Dialogen oder in aufgabenbasierten Dialogen (Diapix-Aufgabe) gegenüber einer freien Konversation. 2. BeDiaCo BeDiaCo v.2 (Belz et al. 2021a) enthält 150.000 Token von 36 Sprecher/ -innen in zwei Subkorpora mit spontansprachlichen Dialogen (11,2-h reine Artikulationszeit) und vorgelesenen Wortlisten. Das Subkorpus BeDiaCo-main (BeDiaCo m ) enthält 46.000 Token von 16 Sprecher/ -innen (10 männlich, 6 weiblich) zwischen 18 und 31 Jahren (x̄ -=-24,1, s-=-4,2) mit 3-h Artikulationszeit. Die Gesprächspartner/ -innen kennen sich nicht und sprechen in acht Face-to-face-Dialogen miteinander. Das Subkorpus BeDiaCo-videocall (BeDiaCo v ) enthält 104.000 Token von 20 Sprecher/ -innen (10 männlich, 10 weiblich) zwischen 19 und 32 Jahren (x̄ -=-25,7, s-=-3,8) mit 8-h Artikulationszeit. In zwei Sitzungen sind bilinguale Sprecher/ -innen enthalten. Die Gesprächspartner/ -innen kennen sich (Mitbewohner/ -innen, Geschwister, Partner/ -innen, Eheleute) und sprechen in zwei verschiedenen Sitzungen über unterschiedliche Kanäle miteinander, einmal face-to-face und einmal über das Videokonferenztool Zoom. In beiden Subkorpora wird der freie Dialog themenorientiert mit einer Frage der Experimentleitung nach der Qualität des Mensaessens (BeDiaCo m ) oder dem Thema Berlin bzw. Traumreise (BeDiaCo v ) begonnen und dauert zwischen 10 und 15 min, wobei die Versuchspersonen schnell dazu übergehen, über selbstgesetzte Themen zu sprechen. Die aufgabenbasierten Dialoge nutzen ins Deutsche übersetzte Diapix- Aufgaben (Baker/ Hazan 2011; Van Engen et al. 2010) mit zwei fast identischen Bildern, in welchen die Versuchspersonen Unterschiede finden müssen. Zusätzlich sind Wortlisten für alle 36 Versuchspersonen enthalten, in denen ein Trägersatz Sage X bitte ein zweisilbiges Wort X enthält, welches auf der ersten Silbe betont ist. Die Wörter enthalten alle Monophthonge des Deutschen und die beiden Reduktionsvokale [ə ɐ] in der zweiten unbetonten Silbe. <?page no="162"?> MALTE BELZ ET AL. 162 Das Experiment ist folgendermaßen aufgebaut: Wortliste, Diapix, freier Dialog, Diapix, Wortliste. Die Versuchspersonen saßen in einer schallisolierten Kabine (mit Hörsprechgarnitur beyerdynamics Opus-54) bzw. in der Zoombedingung (mit Kopfhörern und Stabmikrofonen) zusätzlich in einem Büro, welches an das Labor angrenzt. Das Experiment dauerte maximal eine Stunde und wurde mit 10 bzw. 11 Euro kompensiert. 2.1 Annotation Die Annotation ist in einem Mehrebenenmodell aufgebaut, mit dem akustischen Signal aligniert und dokumentiert (Belz et al. 2021b). Enthalten sind manuell erstellte und automatisch alignierte Ebenen (z. B. die Transliteration mithilfe von Web- MAUS, vgl. Kisler/ Reichel/ Schiel 2017), automatisch erstellte Ebenen (z. B. Normalisierung, Lemmatisierung und Wortarten) sowie manuell erstellte und alignierte Ebenen (z. B. zu Füllpartikeln und Intonationsphrasen). Die manuelle Annotation erfolgt in Praat (Boersma/ Weenink 2019). 2.2 Zugang und Wiederverwendung Die pseudonymisierten Audiodaten und Annotationen sind für wissenschaftliche Zwecke über das Medienrepositorium der Humboldt-Universität zu Berlin verfügbar. Das Korpus kann bspw. mit emuR (Winkelmann et al. 2018) in R analysiert werden. Eine solche vorerstellte Datenbank wird in einer neuen Version zur lokalen Verwendung bereitgestellt. Das Korpus wird für die Arbeit an neuen Forschungsfragen kontinuierlich verbessert und kollaborativ mit neuen Ebenen annotiert. Dies erfolgt über eine vom Computer- und Medienservice der Humboldt-Universität zu Berlin bereitgestellten Versionierungssoftware (GitLab). Weitere Annotationsebenen von Dritten können nach Rücksprache mit den Herausgeber/ -innen in das Korpus aufgenommen werden. 2.3 Fallstudie: Artikulationsgeschwindigkeit in BeDiaCo v Als Fallbeispiel für eine registerbezogene Forschungsfrage wird im Folgenden die Artikulationsgeschwindigkeit für das Subkorpus BeDiaCo v v.2 in den beiden Situationen (face-to-face vs. Videocall) und Aufgaben (freier Dialog vs. Diapix) miteinander verglichen. Die Ebene dipl wird dazu in eine Emu-Datenbank überführt und die Dauer für alle Token inkl. Füllpartikeln wie äh/ ähm und exklusive paralinguistischer Phänomene wie Räuspern oder Lachen sowie stiller Pausen abgefragt. Die Silben werden mithilfe des R-Pakets sylly (Michalke 2017) berechnet. Nach Ausschluss der bilingualen Sprecher/ -innen (zwei Dyaden) sind noch 16 Versuchspersonen im Korpus enthalten. <?page no="163"?> BEDIACO (L1-L1) UND CONNAR (L1-L1/ L2) 163 Die Artikulationsgeschwindigkeit beträgt in der Face-to-face-Situation im Mittel aller Sprecher/ -innen 5,3- σ/ s, in der Videocall-Situation 5- σ/ s, ist im Videocall also global betrachtet etwas langsamer. Bezieht man die Aufgabe mit ein, so beträgt der Mittelwert in der Face-to-face-Situation für die Diapix-Aufgabe 5- σ/ s und für die freie Konversation 5,7- σ/ s. In der Videocall-Situation ergeben sich für die Diapix- Aufgabe 4,7- σ/ s und für die freie Konversation 5,4- σ/ s. Um zu überprüfen, ob die Unterschiede signifikant sind, wird ein lineares gemischtes Modell mit Artikulationsgeschwindigkeit als abhängiger Variable, Situation, Aufgabe und deren Interaktion als unabhängige Variablen sowie den Sprecher/ -innen als Random Intercepts in R mit dem Paket lme4 (v.1.1.28, Bates et al. 2014) gerechnet. Aufgabe und Situation sind zusätzlich als Random Slope je Sprecher/ -in enthalten. Die Effekte sind in Abbildung-1 abgebildet. Abb.-1: Effekte der Situation und Aufgabe auf die Artikulationsgeschwindigkeit in BeDiaCo v Die Artikulationsgeschwindigkeit ist während des freien Dialogs (oberer Bereich, gestrichelte Linien) in beiden Situationen schneller (β-= 0,73, se-= 0,09, p-< 0,001) als in den Diapix-Aufgaben (unterer Bereich, durchgezogene Linien). Dieser Unterschied bleibt beim Wechsel von face-to-face zu Videocall erhalten, da die Interaktion im Modell nicht signifikant ist. Die Artikulationsgeschwindigkeit ist bei der <?page no="164"?> MALTE BELZ ET AL. 164 Videocall-Situation signifikant geringer als in der Face-to-face-Situation, dargestellt durch die gestrichpunktete Verbindungslinie (β-= -0,28, se-= 0,08, p-< 0,001). Sprechen zwei Personen also per Videoanruf miteinander (z. B. über Zoom), so artikulieren sie in beiden Aufgaben jeweils langsamer, als wenn sie sich zusammen in einem Raum befinden und von Angesicht zu Angesicht besprechen. Es ist also eine Adaption an den Kommunikationskanal zu beobachten, der vielleicht durch die vorweggenommene Berücksichtigung möglicher Verzögerungen in der Signalübertragung entsteht. 3. CoNNAR Das Corpus of non-native addressee register (CoNNAR) dient der Untersuchung von adressatenbedingten Registerunterschieden. Zahlreiche Studien zeigen, dass sich Sprecher/ -innen an die tatsächlichen oder angenommenen Bedürfnisse ihres/ -r Gesprächspartners/ -in anpassen (Bell 1984; Campbell-Kibler 2010)-- etwa wenn der/ die Gesprächspartner/ -in eine andere L1 hat. CoNNAR besteht aus zwei Subkorpora, die Aufnahmen von insgesamt 40 Versuchspersonen sowie 16 instruierten Confederates enthalten. Die Versuchspersonen (L1 Deutsch, 20 männlich, 20 weiblich, zwischen 18 und 40 Jahren) durchlaufen das Experiment jeweils zweimal-- einmal mit einem Confederates (Nicht-Muttersprachler/ -innen, L1 Englisch, Proficiency in Deutsch B1/ B2 oder C1, Alter zwischen 18 und 40 Jahren) und einmal mit deutschen Muttersprachler/ -innen, die dem Confederate in Alter und Geschlecht entsprechen. Dadurch soll im Vergleich der Bedingungen (muttersprachliche/ -r Adressat/ -in vs. nicht-muttersprachliche/ -r Adressat/ -in) der Einfluss von Alter und Geschlecht der Confederates auf das sprachliche Verhalten der Versuchspersonen kontrolliert werden. Englisch als L1 der Confederates wurde unter der Annahme gewählt, dass Englisch mit keinem negativen Bias besetzt ist. Damit ermöglicht CoNNAR Studien zum Deutschen, die frühere Arbeiten zu nonnative addressee register mit ihrem Fokus auf Adressat/ -innen mit niedrigem Sprachniveau und weniger prestigeträchtigen L1 (etwa dem sogen. Gastarbeiterdeutsch, Hinnenkamp 1982) ergänzen. Ziel ist es, eine Analyse von eventuellen Registerunterschieden auf verschiedenen sprachlichen Ebenen-- wie z. B. der phonetisch-phonologischen und morpho-syntaktischen Ebene-- zu ermöglichen. Das Subkorpus CoNNAR-videocall (CoNNAR v , ca. 110-000 Token) besteht aus Aufnahmen von 20 Versuchspersonen (je 10 weiblich und männlich, Alter 20-38, x̄ -=-26, s-=-4,5) und 8 Confederates (je 4 weiblich und männlich, Alter 20-27, x̄ -=-22,9, s-=-2, 4-Muttersprachler/ -innen und 4 Lerner/ -innen), die in getrennten Räumen (die VP in einer schallisolierten Kabine, die Confederates im angrenzenden Büro) saßen und über das Videokonferenztool Zoom verbunden waren. Zoom wurde nur zur Kommunikation verwendet, die Audioaufnahmen erfolgten über Stabmikrofone, die bei- <?page no="165"?> BEDIACO (L1-L1) UND CONNAR (L1-L1/ L2) 165 de mit einem Kabel durch ein kleines Loch in der Wand an einen Vorverstärker angeschlossen waren. Das Experiment dauerte jeweils etwa eine Stunde und wurde mit 11-Euro vergütet. Das Experimentdesign besteht aus Wortliste, freier Konversation,-zweimal Diapix-Aufgabe, Wortliste, und ist damit ähnlich zu BeDiaCo aufgebaut, mit kleinen Unterschieden: In der freien Konversation unterhalten sich die Teilnehmer/ -innen 8-Minuten lang über ein Thema ihrer Wahl. In der Diapixaufgabe sollen die Teilnehmer/ -innen in 8-Minuten möglichst viele der 12-Unterschiede finden und es werden angepasste Bildstimuli zur Elizitierung von gespannten Vokalen verwendet (Bullock Oliveira/ Sell 2022). Die Confederates bitten bei dem zweiten Diapix nach 3-4 gefundenen Unterschieden um eine klarere Aussprache. Dadurch wird die Aufmerksamkeit der Versuchsperson auf das sprachliche Verhalten gelenkt, sodass der Vergleich vor und nach der Bitte um eine deutlichere Aussprache Rückschlüsse auf Bewusstheit von NNAR-Anpassungen erlaubt: Weisen die Versuchspersonen nach der Bitte stärkere NNAR-Merkmale auf, dürfte es sich um eine bewusste Anpassung handeln. Das Subkorpus CoNNAR-face-to-face (CoNNAR f2f ) befindet sich in der Erhebung. Geplant sind auch hier 20 Versuchspersonen und 8 Confederates, die gemeinsam in- einer schallisolierten Kabine sitzen. Das Experimentdesign wird gegenüber CoNNAR v außerdem erweitert um eine Bildbeschreibungsaufgabe (die Versuchspersonen sehen ein Bild und lesen eine Bildbeschreibung vor bzw. beschreiben das Bild selbst in einem Satz so, dass der/ die Confederate das passende Bild aus 4 ähnlichen Bildern auswählen kann) und eine kognitive Belastung (vor den Diapixaufgaben sehen die Versuchspersonen jeweils eine 4x4-Matrix mit unterschiedlich komplex angeordneten Punktmustern, die nach Beendigung der Diapixaufgabe reproduziert werden müssen, vgl. De Neys/ Schaeken 2007). Dadurch soll die Automatizität der Registerwahl geprüft werden unter der Annahme, dass automatische Prozesse weniger kognitive Ressourcen erfordern und unter erhöhter kognitiver Belastung weiterhin erfolgen, nicht-automatische dagegen nicht. 3.1 Aufbereitung und Annotation Die erhobenen Daten werden in Praat (Boersma/ Weenink 2019) transliteriert und in WebMAUS (Kisler/ Reichel/ Schiel 2017) um segmentale Annotationen erweitert. Die Annotation ist in einem Mehrebenenmodell aufgebaut und mit dem akustischen Signal aligniert. Mithilfe eines selbst erstellten Skripts werden Normalisierungen und POS-Tags ergänzt. Zusätzlich sind manuell erstellte und alignierte Annotationen u. a. der Intonationsphrasen, Turns und syntaktischer Einheiten geplant. Auch diese Annotationen werden in Praat (Boersma/ Weenink 2019) erstellt und in einer Dokumentation beschrieben. <?page no="166"?> MALTE BELZ ET AL. 166 3.2 Zugang und Wiederverwendung Die pseudonymisierten Audiodaten und Annotationen werden nach Abschluss von Version-1 für wissenschaftliche Zwecke zur Verfügung gestellt. Das Korpus kann für die Arbeit an neuen Forschungsfragen kontinuierlich verbessert und kollaborativ mit neuen Ebenen annotiert werden (GitLab). Weitere Annotationsebenen von Dritten können nach Rücksprache mit den Herausgeber/ -innen in das Korpus aufgenommen werden. Das Korpus wird sowohl als EmuR-Datenbank (Winkelmann et al. 2018) als auch im ANNIS-Format vorliegen (Krause/ Zeldes 2016). 3.3 Fallstudie: Füllpartikeln in CoNNAR v Ein zweites Fallbeispiel für eine registerbezogene Forschungsfrage ist die intra-individuell variierende Produktion von Füllpartikeln in CoNNAR v . Im Folgenden betrachten wir die relativen Häufigkeiten der Füllpartikeln je Sprecher/ -in und Adressat/ -in (L1 vs. L2) in beiden Aufgaben (Diapix vs. freier Dialog). Dafür werden alle orthographisch als äh und ähm repräsentierten Füllpartikeln der diplomatischen Transliterationsebene dipl extrahiert und ihre Häufigkeiten pro Sprecher/ -in ins Verhältnis zur Tokenanzahl je Adressat/ -in und je Aufgabe gesetzt. Abbildung-2 zeigt die unterschiedliche Registerabhängigkeit in der Produktion von Füllpartikeln bei den einzelnen Sprecher/ -innen. Die Punkte inklusive Beschriftung repräsentieren dabei die Sprecher/ -innen mit je anteiligen Füllpartikeln gegenüber den verschiedenen Adressaten/ -innen (L1 auf der x-Achse, L2 auf der y-Achse). Liegt ein Datenpunkt auf der Winkelhalbierenden (x- =- y), hat der/ die Proband/ -in anteilig gleich viele Füllpartikeln gegenüber L1- und L2-Adressat/ -in geäußert. Wird die Diapix-Aufgabe zusammen mit muttersprachlichen Gesprächspartner/ -innen absolviert, produzieren die meisten Probanden/ -innen mehr Füllpartikeln verglichen mit nicht-muttersprachlichen Adressaten/ -innen. Bis auf zwei Sprecher/ -innen (p03 und p11) sind die relativen Häufigkeiten bezogen auf die Adressaten/ -innen ähnlich verteilt. In der freien Konversation ist der Anteil an Füllpartikeln je Sprecher/ -in und Adressatenbezug etwas heterogener verteilt. Hier äußern 12 von 20 Probanden/ -innen anteilig mehr Füllpartikeln im Gespräch mit L2als mit L1-Gesprächspartner/ -innen. Ein lineares gemischtes Modell (siehe Abschn.-1.3) mit dem Verhältnis von Füllpartikel/ Token als abhängiger Variable, Adressat/ -in und Aufgabe als unabhängigen Variablen und Sprecher/ -in als zufälligen Effekt ergibt, dass die Aufgabe (Diapix vs. freie Konversation) ein signifikanter Einflussfaktor auf die Verteilung von Füllpartikeln ist, mit geringfügig weniger Füllpartikeln in der freien Konversation (β-=--0,011, se-=-0,003, p-<-0,001). Sprechen die Versuchspersonen mit einem/ -r nichtmuttersprachlichen Gesprächspartner/ -in, produzieren sie etwas weniger Füllpartikeln/ Token als gegenüber muttersprachlichen Gesprächspartner/ -innen (β-=--0,007, <?page no="167"?> BEDIACO (L1-L1) UND CONNAR (L1-L1/ L2) 167 Abb.-2: Relative Häufigkeiten der Füllpartikeln je Sprecher/ -in in CoNNAR, inkl. Winkelhalbierender (x-=-y) <?page no="168"?> MALTE BELZ ET AL. 168 se-=-0,003, p-<-0,05). Die Interaktion zwischen Adressat und Aufgabe erreicht keine statistische Signifikanz. Danksagung Wir danken Melina Pfundstein für die Annotation von BeDiaCo (gefördert durch die-Medienkommission des Akademischen Senats der Humboldt-Universität zu Berlin). Wir bedanken uns bei Alina Zöllner und Lea-Sophie Adam für die Erstellung und Annotation von BeDiaCo v . CoNNAR und BeDiaCo v wurden gefördert durch die Deutsche Forschungsgemeinschaft (DFG)- - SFB 1412, 416591334, https: / / sfb1412. hu-berlin.de (Stand: 12.12.2022). Literatur Baker, Rachel/ Hazan, Valerie (2011): DiapixUK: task materials for the elicitation of multiple spontaneous speech dialogs. In: -Behavior Research Methods-43,-3, S.-761-770. https: / / doi. org/ 10.3758/ s13428-011-0075-y. Bates, Douglas/ Maechler, Martin/ Bolker, Ben/ Walker, Steven (2014): lme4: linear mixedeffects models using ‘Eigen’ and S4. http: / / cran.r-project.org/ web/ packages/ lme4 (Stand: 23.1.2023). Bell, Allan (1984): Language style as audience design. In: - Language in Society- 13,- 2, S.-145-204. Belz, Malte (2021): Die Phonetik von äh und ähm: Akustische Variation von Füllpartikeln im Deutschen. Berlin: Metzler. Belz, Malte/ Mooshammer, Christine/ Zöllner, Alina/ Adam, Lea-Sophie (2021a): Berlin Dialogue Corpus (BeDiaCo): Vers.-2. Berlin: -Humboldt-Universität zu Berlin, Medien-Repositorium. https: / / rs.cms.hu-berlin.de/ phon (Stand: 12.12.2022). Belz, Malte/ Zöllner, Alina/ Terada, Megumi/ Lange, Robert/ Adam, Lea-Sophie/ Sell, Bianca (2021b): Dokumentation und Annotationsrichtlinien für das Korpus BeDiaCo-v2. Berlin: Humboldt-Universität zu Berlin, Institut für deutsche Sprache und Linguistik. Zenodo. https: / / doi.org/ 10.5281/ zenodo.4593351. Biber, Douglas/ Conrad, Susan (2009): Register, genre, and style. (=- Cambridge Textbooks in Linguistics). Cambridge: Cambridge University Press. Boersma, Paul/ Weenink, David (2019): Praat: doing phonetics by computer. [Computer program]. www.praat.org/ (Stand: 12.12.2022). Bradlow, Ann R./ Bent, Tessa (2002): The clear speech effect for non-native listeners. In: J.-Acoust. Soc. Am.-112,-1, S.-272-284. Bullock Oliveira, Maggie/ Sell, Bianca (2022): PDF and PSD files of DiapixGEtv picture materials- - German version adapted to elicit tense vowels [Data set]. Zenodo. https: / / doi. org/ 10.5281/ ZENODO.6510724. <?page no="169"?> BEDIACO (L1-L1) UND CONNAR (L1-L1/ L2) 169 Campbell-Kibler, Kathryn (2010): The sociolinguistic variant as a carrier of social meaning. In: Language Variation and Change-22,-3, S.-423-441. De Neys, Wim/ Schaeken, Walter (2007): When people are more logical under cognitive load: dual task impact on scalar implicature. In: - Experimental Psychology- 54,- 2, S.- 128-133. 10.1027/ 1618-3169.54.2.128 (Stand: 12.12.2022). Hinnenkamp, Volker (1982): Foreigner Talk und Tarzanisch: Eine vergleichende Studie über dieSprechweise gegenüber Ausländern am Beispiel des Deutschen und des Türkischen. Hamburg: -Buske. Kisler, Thomas/ Reichel, Uwe/ Schiel, Florian (2017): Multilingual processing of speech via web services. In: - Computer Speech & Language- 45, S.- 326-347. https: / / doi.org/ 10.1016/ j. csl.2017.01.005. Krause, Thomas/ Zeldes, Amir (2016): ANNIS3: a new architecture for generic corpus query and visualization. In: Digital Scholarship in the Humanities-31,-1, S.-118-139. https: / / doi. org/ 10.1093/ llc/ fqu057. Lüdeling, Anke/ Alexiadou, Artemis/ Adli, Aria/ Donhauser, Karin/ Dreyer, Malte/ Egg, Markus/ Feulner, Anna H./ Gagarina, Natalia/ Hock, Wolfgang/ Jannedy, Stefanie/ Kammerzell, Frank/ Knoeferle, Pia/ Krause, Thomas/ Krifka, Manfred/ Kutscher, Silvia/ Lütke, Beate/ McFadden, Thomas/ Meyer, Roland/ Mooshammer, Christine/ Müller, Stefan/ Maquate, Katja/ Norde, Muriel/ Sauerland, Uli/ Solt, Stephanie/ Szucsich, Luka/ Verhoeven, Elisabeth/ Waltereit, Richard/ Wolfsgruber, Anne/ Zeige, Lars Erik (2022): Register. Language users’ knowledge of situational-functional variation. Frame text of the first phase proposal for the CRC 1412. In: REALIS-1,-1. https: / / doi.org/ 10.18452/ 24901. Michalke, Meik (2017): sylly.de: language support for ’sylly’ package: German. https: / / github. com/ unDocUMeantIt/ sylly (Stand: 12.12.2022). Odebrecht, Carolin/ Belz, Malte (2023): Akustisches Signal, Mehrebenenannotation und Aufgabendesign: flexible Korpusarchitektur als Voraussetzung für die Wiederverwendung gesprochener Korpora. In: Deppermann, Arnulf/ Fandrych, Christian/ Kupietz, Marc/ Schmidt, Thomas (Hg.): Korpora in der germanistischen Sprachwissenschaft-- mündlich, schriftlich, multimedial. (=-Jahrbuch des Instituts für Deutsche Sprache 2022). Berlin/ Boston: De Gruyter, S.-181-198. Roche, Jörg (1998): Variation in xenolects (foreigner talk). In: - Sociolinguistica- 12,- 1, S.-117-139. Van Engen, Kristin J./ Baese-Berk, Melissa/ Baker, Rachel E./ Choi, Arim/ Kim, Midam/ Bradlow, Ann R. (2010): The Wildcat corpus of native-and foreign-accented English: communicative efficiency across conversational dyads with varying language alignment profiles. In: -Language and Speech-53,-4, S.-510-540. https: / / doi.org/ 10.1177/ 0023830910372495. Winkelmann, Raphael/ Jaensch, Klaus/ Cassidy, Steve/ Harrington, Jonathan (2018): emuR: main package of the EMU speech database management system. https: / / cran.r-project. org/ web/ packages/ emuR/ (Stand: 25.1.2023). <?page no="171"?> ANNE BETTEN/ CAROLINA FLINZ/ SIMONA LEONARDI Emigrantendeutsch in Israel: Die Interviewkorpora IS, ISW und ISZ im-Archiv-für-Gesprochenes-Deutsch-des-IDS Abstract Die Korpora IS, ISW und ISZ im Archiv für Gesprochenes Deutsch des IDS enthalten 316 Aufnahmen mit 275 deutschsprachigen Emigranten der 1. und 2.-Generation in Israel-- insgesamt ca. 517 Stunden, die zwischen 1989 und 2019 meist als spontane narrative autobiographische Interviews von Anne Betten und weiteren Interviewer*innen durchgeführt wurden. Nach einem Bericht über die Entstehung der Korpora, die ursprünglichen Forschungsziele (Dokumentation und soziolinguistische Begründung der Bewahrung eines schriftnahen Bildungsbürgerdeutsch) und das weitere Untersuchungspotenzial der Daten wird auf einige der bisherigen linguistischen Forschungsschwerpunkte näher eingegangen: Arbeiten im Bereich der Sprachgeschichte und -variation sowie der Migrationslinguistik, Untersuchungen zur Gesprächs- und Erzählanalyse und quantitativ-qualitative Analysen. Keywords: Emotionsanalyse, Erzählen und Erinnern, Mehrfachinterviews, Migrationslinguistik, Sprachbewahrung und -verlust, quantitativ-qualitative Ansätze 1. Entstehungsgeschichte, Kurzcharakterisierung und Untersuchungspotenzial der Korpora Die drei Korpora „Emigratendeutsch in Israel“ (IS), „Emigrantendeutsch in Israel: Wiener in Jerusalem“ (ISW) und „Zweite Generation deutschsprachiger Migranten in Israel“ (ISZ), die vom Archiv für Gesprochenes Deutsch (AGD) am Leibniz-Institut für Deutsche Sprache (IDS) über die Datenbank für Gesprochenes Deutsch (DGD) verfügbar gemacht werden, blicken mittlerweile auf eine über 30-jährige Geschichte zurück, doch kam bis in jüngster Zeit immer wieder neues Material hinzu und auch die Metadaten werden laufend erweitert und aktualisiert. Es handelt sich heute um 216 Interviews mit 209 deutschsprachigen Emigrant*innen der 1.-Generation in Israel (IS und ISW) und 100 Interviews mit 66 Sprecher*innen der 2.-Generation (ISZ)-- insgesamt ca. 517 Stunden, aufgenommen zwischen 1989 und 2019 von Anne Betten und weiteren Interviewer*innen. 1 Die Transkription der Interviews bleibt noch länger ein „work in progress“: in der DGD stehen derzeit von Korpus IS 1 Weitere Interviewer*innen des Stammkorpus IS sind Kristine Hecker, Miryam Du-nour, Eva Eylon, mit späteren Ergänzungsaufnahmen Michaela Metz, Johannes Schwitalla. Die Interviews im Korpus ISW mit ehemaligen Österreicher*innen wurden 1998 in Jerusalem von den Teilnehmer*innen einer Exkursion der Salzburger Germanistik unter Leitung von A.-Betten gemacht, später ergänzt von Michaela Metz. Das Stammkorpus der 2.-Generation wurde von A.-Betten ab 1999 aufgenommen, 2019 kamen Wiederholungsaufnahmen von Rita Luppi hinzu. DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="172"?> ANNE BETTEN/ CAROLINA FLINZ/ SIMONA LEONARDI 172 an Aufnahmen mit Transkripten nur insgesamt gut 27 Stunden (22 Interviews, davon 16 mit quantifizierbaren Transkripten) zu Verfügung und von ISW 32 Stunden (20 Interviews mit quantifizierbaren Transkripten); dazu kommen viele weitere vollständige, aber noch nicht durchkorrigierte Transkripte, die im persönlichen Service der AGD eingesehen werden können, sowie noch viele Teiltranskripte, die in Zukunft ergänzt werden sollen. Die Korpora sind inzwischen Grundlage vieler wissenschaftlicher Arbeiten 2 und einiger Folgeprojekte geworden, deren weites Themenspektrum einerseits das große Untersuchungspotenzial des Datenmaterials demonstriert, andererseits auch Entwicklungen v. a. innerhalb linguistischer Interessensgebiete widerspiegelt. Dies soll im Folgenden zumindest ansatzweise vorgestellt werden. Ziel des ursprünglichen DFG-Projekts „Sprachbewahrung nach der Emigration- - Das Deutsch der 20er Jahre in Israel“ 3 (Laufzeit 1989-1992 und 1993-1994) war zunächst die Dokumentation des schriftnahen Bildungsbürgerdeutsch, das von den Interviewpartner*innen noch viele Jahrzehnte nach ihrer Emigration gesprochen und teilweise von ihnen selbst als „Weimarer Deutsch“ bezeichnet wurde: 4 (1) (Interview Anne Betten mit Dr. Joseph Walk, *1914 in Breslau-- IS_E_00135-- Jerusalem 1991) um auch da n gleich * gleich ein beispiel zu bringen↑ ich bin noch immer gewohnt und muß mir das abgewöhnen↓ ich weiß es↑ * nebensätze einzuschalten↑ * und das verb ans ende zu stellen↑ * un: d * ich weiß daß das heute nicht mehr üblich is↑ und bemühe mich↓ das zu umgehen↑ aber * bei manchen meiner aufsätze beziehungsweise bücher * ist mir das jetzt schon passiert↑ daß man mich da verbessert hat↑ und * ich gebe zu daß es für die * aufnahmefähigkeit↑ des lesers durchaus erleichternd is wenn man * die heutige form benutzt↓ […] (Betten 2000b, S.-219 f.) 2 Eine detaillierte, ständig aktualisierte Bibliographie, in der auch nachgewiesen wird, was zu welchen Interviews bislang publiziert wurde, ist unter dem Link https: / / www.zotero.org/ groups/ 2219390/ israelkorpus/ library abrufbar. 3 So auch der Titel der beiden ersten Buchpublikationen mit Transkripten und linguistischen Analysen, siehe Betten (Hg.) (1995), Betten/ Du-nour (Hg.) (2000). 4 Belegt wurde dies u. a. durch detaillierte Analysen zur grammatisch korrekten Konstruktion sehr komplexer Sätze mit vielen eingebetteten Nebensätzen und Parenthesen, so v. a. in den Beiträgen von Ch.-Albert, A.-Betten, A.-Weiss in Betten/ Du-nour (Hg.) (2000), zusammenfassend dazu Betten (2000a, S.-160-164). <?page no="173"?> EMIgRANTENDEUTSCH IN ISRAEL: DIE KORPORA IS, ISW UND ISZ IM AgD 173 Bei den überwiegend zwischen eineinhalb und drei Stunden dauernden ungesteuerten Gesprächen stand, ohne größere methodische Vorgaben, das spontane freie Reden im Vordergrund, bei den Korpora IS und ISW war jedoch von den meisten der Interviewten z. T. viele Monate vorher ein vierseitiger Fragebogen ausgefüllt worden, der den Interviewerinnen bei Bedarf als Leitfaden zur Vertiefung lebensgeschichtlicher und ganz besonders sprachbiographischer Fragestellungen dienen konnte: Abb.-1: Seite-1 und 4 des Fragebogens von Joseph Walk 5 Die Gespräche, die in der Regel mit einer Person, gelegentlich aber auch zusammen mit Ehepartnern oder Freunden, in deren Privatwohnung geführt wurden, können größtenteils als spontane narrative autobiographische Interviews bezeichnet werden. 6 Von der Thematik her bieten sie u. a. auch viel Untersuchungsmaterial für Oral History 7 und deutsch-jüdische Kulturgeschichte. 8 In diesem Beitrag konzentrieren 5 DGD > IS > Zusatzmaterialien, IS_S_00154_Z_01. 6 Mit einer Erörterung der genaueren Textsortenbestimmung vgl. zuletzt Betten (2017). 7 Da dies hier nicht im Fokus steht, sei lediglich auf die Beiträge von Betten/ Farges/ Leonardi (2018) und Farges (2020) hingewiesen. 8 Vgl. Farges (2022); siehe auch Koesters Gensini/ Leonardi (im Ersch.) und Betten/ Leonardi (im Dr.). <?page no="174"?> ANNE BETTEN/ CAROLINA FLINZ/ SIMONA LEONARDI 174 wir uns jedoch auf bereits geleistete bzw. begonnene und künftige linguistische Erschließungsmöglichkeiten. 2. Linguistisches Untersuchungspotenzial der Korpora 2.1 Sprachgeschichte und -variation, Sprachkritik, Sprachinselforschung und Migrationslinguistik Ursprünglich waren die Aufnahmen mit den nach Israel in den 1930er Jahren emigrierten deutschsprachigen Juden für das IDS v. a. als ein zusätzliches Korpus von Migrantendeutsch bzw. als Dokumente einer in der jüngsten Sprachgeschichte entstandenen Sprachinsel interessant und zur Publikation in der entsprechend orientierten Phonai-Reihe vorgesehen. Der tatsächliche Befund erwies sich als vielschichtig: 2.1.1 Historische regionale Sprechsprachen Wegen der erstaunlich unveränderten Bewahrung einer stark normorientierten Sprache können die meisten Aufnahmen zum einen als Zeugnis der gebildeten Sprechsprache im ersten Drittel des 20.- Jahrhunderts gelten. Dialekt (ebenso wie „Jiddeln“) war in den meisten deutsch-jüdischen Elternhäusern verpönt; 9 zum anderen sind aber dennoch regionale „Einfärbungen“ erkennbar, so dass v. a. das Korpus IS hinsichtlich Phonetik, Intonation und anderer parasprachlicher Merkmale sowie zumindest ansatzweise auch des Wortschatzes als Dokumentation damaliger regionaler deutscher Umgangssprachen betrachtet werden kann, und das besonders, weil es auch heute nicht mehr deutschsprachige Gebiete wie Pommern, Ostpreußen, Schlesien, Böhmen, Mähren, die Bukowina u. a. m. einschließt. Zu vielen primären Sprachdaten gibt es auch (wie schon in Beispiel-1) metasprachliche Kommentare der Befragten selbst, wie etwa den folgenden von Moshe Max Ballhorn: 9 Ausnahmen finden sich z. B. bei alteingesessenen jüdischen Familien in Städten wie Frankfurt, wo auch das wohlhabende selbstbewusste Bürgertum einen „gehobenen“ Dialekt sprach (vgl. das sog.- Honoratiorenschwäbisch in Stuttgart): So äußert etwa die 91-jährige, ebenso gewandte wie lebendige Erzählerin Anni Glaubert [IS_E_00050, PID- = http: / / hdl.handle.net/ 10932/ 00-0332-C3C5- 623A-FA01-8] die Überzeugung, dass es heute kaum noch Menschen gäbe, die so frankfurterisch sprächen wie sie (allgemeiner dazu Betten 2000a, S.-174-180). Für 31 österreichische Interviewpartner*innen in IS und ISW hat Mauser (2004) detaillierter ermittelt, dass die meisten den Dialekt bzw. „substandardsprachliche Varianten und Varietäten“ zwar beherrschen, aufgrund der negativen Konnotierung jedoch vermeiden, außer in stark affektiven Partien, wo sie häufig in wörtlichen Zitaten als „authentizitätskonstituierendes erzählerisches Mittel“ eingesetzt werden, um Gefühle zu evozieren und für die Zuhörerschaft nachempfindbar zu machen (ebd., S.-228)-- oder aber, v. a. in ISW--, ebenfalls als „Sprache der Nähe“, Solidarisierung mit den Interviewer*innen aus der ehemaligen Heimat anzeigen können (ebd., S.-241 f.). <?page no="175"?> EMIgRANTENDEUTSCH IN ISRAEL: DIE KORPORA IS, ISW UND ISZ IM AgD 175 (2) (Interview Anne Betten mit Moshe Max Ballhorn, *1913 in Berlin-- IS_E_00006-- Tiberias 1991) Da kann ich mich erinnern, dass ich in Berlin in eine Spielschule ging, das hieß Spielschule, später hieß diese Anstalt Kindergarten und dieses Wort Kindergarten ist von der englischen Sprache übernommen worden, zu meiner Zeit hieß es noch nicht Kindergarten. Zu den metasprachlichen Kommentaren gehören auch zahlreiche, meist kritische Anmerkungen zum heutigen Deutsch. Sie konzentrieren sich weitgehend auf den unbefangeneren Gebrauch des Dialekts im öffentlichen Sprachgebrauch auch bei Gebildeten, die starke Zunahme von Fremdwörtern, v. a. Anglizismen, und den lockeren, „unkorrekten“, oft elliptischen mündlichen Sprachstil. 10 2.1.2 Migrationsvarietäten in der 1. und 2.-generation Metakommunikativ begleitet wird auch die eigene Sprachvarietät, die sich in der Gruppe der israelischen „Jeckes“ (wie die deutschen und später die meisten deutschsprachigen Juden genannt werden) über mehrere Jahrzehnte ausgebildet hat und somit eine neue, aufgrund der speziellen Emigrationssituation jedoch sehr kurzlebige, auf die Emigrantengeneration selbst beschränkte deutsche Sprachinsel entstehen ließ. Umstritten ist hier sowohl in der Selbsteinschätzung wie in der Datenanalyse der Anteil von Interferenzen aus dem für die Einwanderer an Bedeutung ständig zunehmenden Hebräischen, zu einem geringeren Anteil auch aus dem Englischen, das besonders in den Anfängen, zur Britischen Mandatszeit, für die sprachliche, kulturelle und berufliche Neuorientierung oft eine wichtige Brückenfunktion hatte. 11 Zwar lassen sich gewisse, für die Sprechergruppe typische Interferenzerscheinungen beobachten, 12 auf die Einzelnen zurückgerechnet bleiben sie jedoch geringfügig,-daher sozusagen unauffällig. Das Charakteristische dieser Varietät zeigt sich wohl in der Spannung zwischen den puristischen Idealen des „reinen“ und grammatisch korrekten Sprechens als Relikt der Herkunftskultur und den Einflüssen der-anderssprachigen alltäglichen, beruflichen und zunehmend auch der familiären 10 Vgl. dazu die Originalauszüge im Transkriptteil von Betten/ Du-nour (Hg.) (2000) (bes. Kap.-1.7.1 „Ansichten über das ‚neue‘ Deutsch […]“) sowie, detailliertere Analysen dieses Bandes zusammenfassend,-Betten (2000a). 11 Siehe Du-nour (2000); mit einer kritischen Abwägung von Du-nours Annahmen zur Alltags-Häufigkeit von Code-Switching bzw. Sprachenmischung in der in-group-Kommunikation der Jeckes (vgl. ebd., S.-448 f.) siehe Betten (2000a, S.-167-171). 12 Du-nour (2000) gibt hier u. a. interessante Beispiele von Hybridformen in Morphologie und Phonologie, Interferenzen in der Genus- und Präpositionsverwendung sowie von Lehnübersetzungen. <?page no="176"?> ANNE BETTEN/ CAROLINA FLINZ/ SIMONA LEONARDI 176 Umgebung, was aber in jedem Einzelfall zu anderen Ergebnissen führt. Besonderes Interesse fand daher bisher v. a. die Verschiebung des Gefüges der einzelnen Sprachen und ihrer Beherrschung, was zu ganz unterschiedlichen Gebrauchsverteilungen führen kann und zentral für die individuelle Identitätsbildung ist. 13 Für die Mehrsprachigkeitsforschung findet sich hier reiches Material. Ganz andere Fragen der Migrations- und Mehrsprachigkeitslinguistik stellen sich bei den Aufnahmen der 2.- Generation in ISZ. Hat häufig das erste Kind Deutsch zunächst als Familiensprache erlernt (und dann später mit den Eltern oft auch beibehalten), so tritt die Erstsprache spätestens mit dem Schuleintritt zugunsten des Hebräischen, das sich rasch zur dominanten Vollsprache entwickelt, in den Hintergrund, wird oft auch aus Scham wegen der Tabuisierung des Deutschen verdrängt; Schreib- und Lesekompetenzen werden von den wenigsten erworben. Hierzu ist bislang v. a. über den Zusammenhang von Sprachkompetenz und sozial-psychologischen Faktoren geforscht worden (u. a. Betten 2016a). Die Sprechkompetenz der Interviewten reicht von grammatisch voll kompetent bis stark pidginisiert. Die kommunikative Kompetenz ist jedoch auch bei den guten Sprecher*innen nicht in allen Themenbereichen gleich gut ausgebaut und wird meist durch Code-Switching kompensiert; andererseits war auch bei sehr schlechten Sprecher*innen und solchen, die das Interview lieber auf Englisch führen wollten, das Hörverständnis wesentlich besser und gelegentliches Triggering ins Deutsche möglich. 14 Da in diesem Korpus- viele Mehrfachinterviews vorliegen (bis zu 4 Interviews derselben Person- über- einen Zeitraum von bis zu 20 Jahren durch 2 oder auch 3 verschiedene Interviewer*innen), lässt sich in den späteren Interviews, nach dem Tod der Eltern, mit denen evtl. noch Deutsch gesprochen wurde, auch zunehmender Sprachverlust beobachten- - soz. reziprok zur immer positiveren, nostalgischen Aufwertung des Deutschen als Familiensprache, vgl. Gila Friedmann: (3) (Interview Anne Betten mit Gila Friedmann, geb. Müller, *1942 in Tel Aviv-- ISZ-_E_00016-- Tel Aviv 2005) Ich glaube, Deutsch ist für mich so so die wärmste Sprache, wenn man das so sagen kann. Da fühl ich mich so so so am am, ich glaube am besten mit Deutsch, obwohl Iwrit ist meine Sprache, aber Deutsch ist so so, etwas, das ist die Heimat, das ist die die, das ist Oma, das ist Opa, das ist die ganze Familie. 13 Vgl. die Primärtexte in Betten/ Du-nour (Hg.) (2000, S.-3-153) sowie zur Ausprägung unterschiedlicher kultureller Identitäten Betten (2013a). 14 Siehe als Beispiel die ganz unterschiedliche Sprachkompetenz und den unterschiedlichen Einsatz von Code-Switching bei den drei Kindern von Joseph Walk (siehe Beispiel- 1) in Betten (2013a, S.-174-182). <?page no="177"?> EMIgRANTENDEUTSCH IN ISRAEL: DIE KORPORA IS, ISW UND ISZ IM AgD 177 Am ISZ-Korpus lassen sich jedoch nicht nur Sprachbewahrung bzw. Sprachabbau und -verlust in einer 2.- Migrantengeneration, Spracheinstellungsmuster, Interferenz, Code-Switching u. ä. m. studieren, sondern auch vielfältige Phänomene sprachlicher Interaktion, wie etwa der Einfluss unterschiedlicher Interviewer*innen auf den Kommunikationsablauf, die wechselseitige Herstellung von Verständigung und andere dialoglinguistische Fragen, die bislang v. a. an den Korpora zur 1.-Generation untersucht wurden. 2.2 Untersuchungen zur gesprächs- und Erzählanalyse 2.2.1 Textsorten und Interaktionstypen Die Bezeichnung ‚Interviews‘ für die Gesamtheit der in den drei Korpora gesammelten Gespräche beruht auf einigen für alle geltenden Parametern der Gesprächsleitung und Elizitierung bevorzugter Themen-- beide jedoch beim ungesteuerten Interview nur bedingt und zurückhaltend eingesetzt, da die Aufforderung zum eigenständigen freien Erzählen ja überwog. Wie in allen narrativen autobiographischen Interviews sind daher die Formen und Funktionen des Erzählens von besonderer Bedeutung. In Betten (2009) rückt das Zusammenspiel von Erzählen im engeren Sinn (szenisch-dramatisch-episodisch) mit beschreibenden und argumentativen Passagen ins Zentrum; am Beispiel der argumentativen Funktion vieler Erzählungen wird dafür plädiert, dass Vorkommen und Verteilung der einzelnen Textsorten zwar von individuellen Vorlieben, Nebenintentionen und situativen Faktoren bestimmt werden, aufgrund der Intention aller Interviewten, mit dem Erzählten soz. in didaktischer Absicht Zeugnis abzulegen, die argumentative Funktion jedoch allen im Einzelnen realisierten Textsorten übergeordnet sei. Besondere Beachtung fanden bisher die dramatischen Erzählungen, an denen alle Interviews reich sind, oft in Verbindung mit der in den vergangenen Jahren linguistisch stark ins Blickfeld gerückten Emotionsanalyse. Im Band von Leonardi/ Thüne/ Betten (Hg.) (2016) widmen sich die Beiträge von Schwitalla (2016a), Haßlauer (2016) und Behr (2016) den narrativen Formen und dem sprachlichen Ausdruck von Fluchterzählungen, Thüne (2016) dem ebenso dramatischen, aber meist verhaltener erzählten „Abschied von den Eltern“. Ein weiterer Beitrag Schwitallas (2016b) analysiert Formen und Funktionen von Redewiedergaben aus erinnerten Dialogen mit Nationalsozialisten, wobei die pragmatischen und prosodischen Elemente, die zur Charakterisierung der Sprechweise eingesetzt werden, besondere Berücksichtigung finden. 15 15 Schwitalla vergleicht den Befund mit entsprechenden Gesprächsschilderungen in Victor Klemperers Tagebüchern. Zu diesen und anderen Besonderheiten der Redewiedergabe im Israelkorpus siehe auch Betten (2007, S.-184-186). <?page no="178"?> ANNE BETTEN/ CAROLINA FLINZ/ SIMONA LEONARDI 178 Während die erzählenden Textsorten bevorzugt monologisch sind, werden bedingt durch die Makrostruktur ‚Interview‘ natürlich auch viele Teile der Gespräche dialogisch realisiert. Bereits zu Beginn fiel auf, dass die Interviews mit weiblichen Interviewten, ungeachtet von Berufserfahrungen und Bildungsstand, grundsätzlich dialogischer geprägt waren als die mit männlichen Interviewpartnern. 16 Zum Themenbereich der interaktionsrelevanten Faktoren können auch die Mehrfachinterviews mit unterschiedlichen Interviewer*innen in Zeitabständen bis zu 20 Jahren in allen drei Korpora noch viele (neue) Aspekte beisteuern, so z. B. zur Relevanz des Alters- und Statusunterschieds zwischen den Interviewpartnern 17 bzw. zum Einfluss-der interpersonellen Beziehung (siehe unten). 12 Aufnahmen (Interviews, Round Table-Diskussionen und spontane Gesprächsanlässe) liegen auch als Videoaufzeichnungen vor. Multimodale Analysen wurden jedoch bislang nur ansatzweise erprobt (siehe Koesters Gensini/ D’Alesio 2017). 2.2.2 Das Wechselspiel zwischen Erzählen und Erinnern: Strategien, Strukturen und Chronotopoi Als Erzählungen aus der eigenen Lebens- und Familiengeschichte eignen sich die Interviews für Untersuchungen zum Wechselspiel zwischen Erinnerungsprozess, aus dem Gedächtnis (re)konstruierten Inhalten und deren Verbalisierung (Chafe 1994; siehe Leonardi 2016). Indem die interviewten Personen aus ihren Lebensgeschichten erzählen, entsteht im narrativen Prozess eine narrative Identität (vgl. Ricœur 1991; Lucius-Hoene/ Deppermann 2004): Mehrfach wurden Strategien und Mittel der sprachlich geleisteten Identitätsarbeit untersucht, oft im Zusammenhang mit sprachbiographischen Zugängen, weil das Sprachenproblem von den Interviewten oft als ein zentrales Identitätsproblem angesehen wird (siehe oben; vgl. z. B. Betten 2013a, 2016a; Leonardi/ Thüne/ Betten (Hg.) 2016). Da in der Biographieforschung seit langem die Rolle metaphorischer Äußerungen im Prozess der Strukturierung und (Re-)Konstruktion der eigenen Lebensgeschichte seitens des 16 Vgl. mit ersten Überlegungen Betten (2000b, S.-254-260); der Gender-Aspekt wurde in Beispielanalysen u. a. zum Umgang mit Unterbrechungen (Betten 2000c) oder zur Beziehungsarbeit in Gesprächen weiter vertieft. 17 So sind z. B. in IS die Interviewerinnen Du-nour und Eylon etwa im gleichen Alter und aus dem gleichen sozialen Umfeld wie ihre Interviewpartner, Betten, Hecker, Schwitalla ca. eine Generation jünger, mit anderem sozio-kulturellem Hintergrund, aber einem gewissen Berufsprestige-- wie auch die bei ISW interviewenden Salzburger Dozent*innen, während die Mehrzahl der dort zu zweit (! ) interviewenden Student*innen eher im Alter der Enkel der Interviewten ist, was auch für die Interviewerin Metz in IS und ISW gilt. In ISZ hingegen ist Betten etwa gleich alt wie die Interviewten, Luppi jedoch ein bzw. eher zwei Generationen jünger, da die Interviewten inzwischen quasi eine Generation älter geworden sind. <?page no="179"?> EMIgRANTENDEUTSCH IN ISRAEL: DIE KORPORA IS, ISW UND ISZ IM AgD 179 Subjekts unterstrichen wird (vgl. Straub/ Sichler 1989), wurde wiederholt die Verwendung von Metaphern, u. a. als Mittel der Perspektivierung und Relevanzsetzungen untersucht (zu Metaphernketten (clusters) vgl. z. B. Leonardi 2019 und Thüne/ Leonardi 2011, auch zu metaphorischen Ko-Konstruktionen mit der jeweiligen Gesprächspartnerin). Die Mehrfachinterviews mit unterschiedlichen Interviewer*innen in den drei Korpora (siehe oben) erlauben es, im Laufe der Jahre geänderten Perspektivierungen auf die wiedergegebenen Ereignisse und Positionierungen (Deppermann 2013) sowie dem Wandel narrativer Identitätszuweisungen nachzugehen (siehe z. B. Betten 2016a/ b; Luppi 2022). 19 Wiederholungsinterviews wurden 2019 im Rahmen eines Projekts zu Wiedererzählungen (retellings) elizitiert (siehe Luppi 2022): Indem dieselben Episoden in neue Kommunikationssituationen eingebettet sind, werden sie-im neuen Gesprächskontext re-kontextualisiert und re-interpretiert. Leitend für das Forschungsprojekt waren Untersuchungen der lexiko-syntaktischen Parallelität, der entsprechenden prosodisch-phonetischen Gestaltung (siehe Barth-Weingarten/ Schumann/ Wohlfarth 2012) sowie die Orientierung am Modell von Wiedererzählungen (Dausendschön-Gay/ Gülich/ Krafft 2007). Die Narrative thematisieren oft einschneidende, meist mit antisemitischen Maßnahmen und Angriffen zusammenhängende Erlebnisse. An solchen Partien kann man die Beziehung zwischen Trauma, erinnerten und reaktivierten Emotionen sowie Sprache nachverfolgen, die von der Emotions- und Traumaforschung untersucht wird (Schwarz-Friesel 2013; Scheidt et al. (Hg.) 2015; Busch/ McNamara 2020; siehe dazu Leonardi/ Thüne/ Betten (Hg.) 2016; Häußinger 2020). In der neueren Forschung wird die Verschränkung der zeitlichen mit der räumlichen Dimension im Erzählen betont (z. B. Schiffrin 2009; Blommaert/ De Fina 2017; zum Israelkorpus siehe bereits Schwitalla 2012): Ermittlungen und Analysen der Orte im Korpus lassen sich mit narratologischen Forschungen im Zusammenhang mit Migration, Identitätszuweisungen und Exil verknüpfen (siehe Liebscher/ Dailey-O’Cain 2013; dazu u. a. Betten 2013b; Haßlauer 2016). Dies steht im Fokus des Projekts Orte und Erinnerung: Eine Kartographie des Israelkorpus (Leonardi et al. (Hg.) 2022, siehe https: / / kartografiedesisraelkorpus.wordpress.com). Betrachtet man die Wechselbeziehungen unter den raumzeitlichen Konfigurationen, d. h. Chronotopoi (Bachtin 2008; Blommaert/ De Fina 2017),- zeigen sich besonders deutlich die linguistischen Mittel, durch die die dialogische Dimension zwischen dem Prozess des Erzählens und den erzählten Ereignissen sowie Erlebnissen einerseits und die Interaktion zwischen Sprechenden und Hörenden andererseits ausgedrückt werden (siehe u. a. den Sammelband Leonardi et al. (Hg.) (2022) sowie z. B. Larrory-Wunder/ Schneider 2017). <?page no="180"?> ANNE BETTEN/ CAROLINA FLINZ/ SIMONA LEONARDI 180 Meist fügen die interviewten Personen die eigene Lebensgeschichte in eine generationsübergreifende Familiengeschichte ein, in der die eigene Migration(sroute) neben einer Vielfalt von Migrationsrouten früherer Generationen sowie von Geschwistern und Kindern erscheint (siehe Betten/ Leonardi im Dr.). Die Ermittlung und qualitative Analyse der Orte in den Interviews aus dem Israelkorpus sowie deren sprachliche Kodierung trägt also entscheidend zur Herstellung eines Atlas generationsübergreifender jüdischer Migrationsrouten bei. 2.3. Quantitativ-qualitative Ansätze In jüngster Zeit wurden quantitativ-qualitative Ansätze mit Hilfe korpuslinguistischer Tools an den Korpora erprobt. Im Fokus der Untersuchungen stehen zum einen Emotionsthematisierung und Emotionsausdruck (Emotionswortschatz, Intensitätspartikeln, emotionsdeklarative Formeln, vgl. Brambilla/ Flinz 2019; Flinz 2019; Flinz/ Moroni 2020; Flinz 2022) und zum anderen Ortsnennungen-- sowohl im Sinne von geographischen Bestimmungen als auch von ‚sozialen Räumen‘ und ‚Plätzen‘ einer Stadt. 2.3.1 Emotionsthematisierung und Emotionsausdruck Wie schon erwähnt, spielen Orte (nicht nur im Sinne von Ländern und Städten, sondern auch von sozialen Räumen) eine wichtige Rolle im Israelkorpus. Das zeigt sich an der häufigen Verschränkung mit Emotionen (siehe Leonardi 2016); somit werden sie thematisiert und ausgedrückt (Fiehler 1990, 2011). Ziel der quantitativ-qualitativen Analysen (vgl. Lemnitzer/ Zinsmeister 2015) ist, genau dieses Zusammenspiel zu untersuchen; erste Versuche wurden mit dem Korpus ISW gemacht. Dieses Korpus wurde als Untersuchungskorpus festgelegt, während weitere Korpora (u. a. das Korpus IS, das Korpus FOLK) als Kontrollkorpora dienten. Die Analyse hat sich in einer ersten Phase auf die Emotionen LIEBE und HASS konzentriert, da oft beide Emotionen in einer Art Zwiespalt thematisiert werden (Brambilla/ Flinz 2019, S.-175). In einer zweiten Phase wurde auf die Emotion ANGST (Flinz 2019) eingegangen, die als im Nationalsozialismus diskursbedingt eingestuft wird (Rothenhöfer 2015). Ausgangspunkt der Überlegungen war die Identifizierung der Emotionsbenennungen (einzelne Lexeme und Mehrwortverbindungen) des jeweiligen Wortfeldes (Dornseiff 2004) und ihre Untersuchung im Kontext mit Fokus auch auf die Emotionsbeschreibung. Als Tools wurden die DGD, die für formbestimmte Fragestellungen ideal ist (Deppermann/ Schmidt 2014), und Sketch Engine (Kilgarriff et al. 2014) verwendet. <?page no="181"?> EMIgRANTENDEUTSCH IN ISRAEL: DIE KORPORA IS, ISW UND ISZ IM AgD 181 Die Ergebnisse der ersten Untersuchung haben gezeigt, dass bestimmte Orte nur in Zusammenhang mit LIEBE (England), andere vorwiegend mit HASS (Deutschland oder Österreich) in Zusammenhang gebracht werden. Der Zwiespalt LIEBE/ HASS wird v. a. mit der Stadt Wien verbalisiert: Sie bedeutet für viele emigrierte Juden, die dort geboren oder aufgewachsen sind, schöne aber auch traurige Erinnerungen. Diese Ambivalenz wird nicht nur durch lexikalische Mittel deutlich, sondern kann auch auf der nonverbalen und paraverbalen Ebene wahrgenommen werden (z. B. durch Weinen oder Lachen oder durch weitere Phänomene, wie z. B. Pausen). Prototypische soziale Räume, wie das Theater oder spezifische Straßen, werden meistens mit positiven Erinnerungen und LIEBE in Verbindung gebracht, während andere, wie die Schule, die Straße im allgemeinen, wo antisemitische Ereignisse stattgefunden haben, eher mit HASS verbunden sind. Die Analyse von ANGST hat gezeigt, dass für ihre explizite Thematisierung bestimmte Lexeme bevorzugt werden (Angst, sich verstecken) und dass ihre Beschreibung oft im Kontext von automatisch identifizierten Keywords vorkommt (Saujud, Hakenkreuz, fürchterliche Sachen). Die Extrahierung von N-Gramms hat Schule und Straße als typische Orte für die Thematisierung der Emotion hervorgehoben. Zu den Patterns der Konstruktion Angst vor X DAT-NP konnte festgestellt werden, dass die Emotion meistens mit den Deutschen, dem neuen Land (Israel) und der neuen Sprache (Hebräisch) in Verbindung gebracht wird. Das inklusive wir wird als Personalpronomen bevorzugt (vgl. auch die qualitative Analyse von Betten 2007), insbesondere in Verbindung mit Ereignissen, die auf der Straße, in der Schule oder auf dem Weg zur Schule passiert sind. Emotionsthematisierung und -ausdruck sind nicht immer ko-präsent. In einigen Fällen werden Emotionen nur thematisiert, in anderen nur ausgedrückt; wenn sie gemeinsam vorkommen, kann es die gleiche Emotion, aber auch die entgegengesetzte Emotion sein (Flinz/ Moroni 2020). Die Emotionsthematisierung kann mit Hilfe von grammatikalischen Mitteln wie Intensitätspartikeln verstärkt werden. Eine Studie zu der IP ganz, die als IP adjektivischen Ursprungs klassifiziert wird (Breindl 2007) und die häufigste Partikel dieses Typs im Korpus ist, hat bestätigt, dass Emotionsadjektive oft als Bezugsobjekt von ganz vorzufinden sind: Es sind sowohl positive (FREUDE oder LIEBE) als auch negative Emotionen (wie ZORN oder FRUST), die thematisiert werden. Interessant ist jedoch auch, dass sich an vielen Stellen die Emotionen nicht eindeutig als negativ bzw. positiv einstufen lassen, da oft negative und positive Emotionen miteinander verschränkt sind. Die Intensivierung geht auch mit markierten Eigenschaften auf der Ausdrucksebene einher: In einem Drittel der Belege liegt eine markierte, und somit emphatische Akzentsetzung vor. Die Analyse hat auch eine methodologische Feststellung zur Folge gehabt, und zwar, dass sich die Rolle eines lexikalischen Elements als Teil des Emotionswortschatzes am besten durch eine Mehrebenenanalyse untersuchen <?page no="182"?> ANNE BETTEN/ CAROLINA FLINZ/ SIMONA LEONARDI 182 lässt, bei der Semantik, Syntax (u. a. Skopus-Verhältnisse), Prosodie (u. a. Akzentuierung) und weitere paraverbale Eigenschaften (Pausen, Abbrüche, Lachen etc.) im Zusammenhang mit dem thematischen Ablauf des narrativen Interviews berücksichtigt werden (Flinz/ Moroni 2020, S.-125). 2.3.2 Orte im Israelkorpus: Eine Pilotstudie Orte sind auch ein zentraler Schwerpunkt des o. g. Projektes „Orte und Erinnerung“. Als Pilotstudie für die Erstellung der angedachten Kartographie wurden Orte, die vor, während und nach der Emigration im Leben der Interviewten eine Rolle spielen, automatisch und manuell annotiert (vgl. Abb.-2). Zunächst wurden die Wörter, die in GermaNet in mindestens einer Bedeutung mit dem Bedeutungsfeld ‚Ort‘ assoziert werden, annotiert (Spalte GN), anschließend alle Wörter, die sich in der Geonames- Datenbank befinden, mit Übernahme der Koordinaten (Spalte GEO), danach mit Hilfe der Flair Named Entity Taggers alle Wörter mit den vier klassischen Kategorien von Eigennamen PER, LOC, ORG und MISC (und manuell ZEIT) (Spalte NER) und abschließend alle Wörter, deren Referenten einen Eintrag in Wikipedia haben (Spalte NEL). Die manuelle Annotation wurde von zwei Annotatoren getätigt (Spalte CUSTOM). 18 Abb.-2: Annotation (automatische und manuelle Annotation) Die Ergebnisse haben gezeigt, dass ein Zusammenspiel von automatischen und manuellen Verfahren unumgänglich ist, da mit der automatischen Annotation nur partiell Orte aufgefunden werden, Lexeme in Wortverbindungen fehlerhaft markiert und Bedeutungsfacetten nicht unterschieden werden (Flinz/ Ruppenhofer 2021). 18 Die Kappa-Werte für diese Transkripte sind zwischen 0,748 und 0,793. <?page no="183"?> EMIgRANTENDEUTSCH IN ISRAEL: DIE KORPORA IS, ISW UND ISZ IM AgD 183 Korpora IS (Emigrantendeutsch in Israel), DGD, Leibniz-Institut für Deutsche Sprache. PID- = http: / / hdl.handle.net/ 10932/ 00-0332-C3A7-393A-8A01-3 (Stand: 14.12.2022). ISW (Emigrantendeutsch in Israel: Wiener in Jerusalem), DGD, Leibniz-Institut für Deutsche Sprache. PID- = http: / / hdl.handle.net/ 10932/ 00-0332-C42A-423C-2401-D (Stand: 14.12.2022). ISZ (Zweite Generation deutschsprachiger Migranten in Israel), DGD, Leibniz-Institut für Deutsche Sprache. PID-= http: / / hdl.handle.net/ 10932/ 00-0332-C453-CEDC-B601-2 (Stand: 14.12.2022). Literatur Bachtin, Mikhail M. (2008): Chronotopos. (=-Suhrkamp Taschenbuch Wissenschaft). [1938 erschienen]. Frankfurt a. M.: Suhrkamp. Barth-Weingarten, Dagmar/ Schumann, Elke/ Wohlfarth, Rainer (2012): Da capo al fine? Beobachtungen zu Vorgeformtheit von Prosodie und Phonetik in retold stories. In: Gesprächsforschung-- Online Zeitschrift zur verbalen Interkation-13, S.-322-352. Behr, Irmtraud (2016): „Kontrolle. Gendarmen.“ Dramatische Situationen zurückhaltend erzählen. In: Leonardi/ Thüne/ Betten (Hg.), S.-231-259. Betten, Anne (Hg.) (1995): Sprachbewahrung nach der Emigration- - Das Deutsch der 20er Jahre in Israel. Teil- I: Transkripte und Tondokumente. (=- Phonai- 42). Tübingen: Niemeyer. Betten, Anne (2000a): „Vielleicht sind wir wirklich die einzigen Erben der Weimarer Kultur“. Einleitende Bemerkungen zur Forschungshypothese ‘Bildungsbürgerdeutsch in Israel’ und zu den Beiträgen dieses Bandes. In: Betten/ Du-nour (Hg.), S.-157-181. Betten, Anne (2000b): Satzkomplexität, Satzvollständigkeit und Normbewußtsein. Zu syntaktischen Besonderheiten des Israel-Corpus. In: Betten/ Du-nour (Hg.), S.-217-270. Betten, Anne (2000c): Männermonolog vs. Frauendialog oder der Umgang mit Unterbrechungen. Weiteres Material zu einer provokanten These. In: Schierholz, Stefan J. (Hg.): Die deutsche Sprache in der Gegenwart. Festschrift für Dieter Cherubim zum 60.-Geburtstag. Frankfurt a. M.: Lang, S.-291-301. Betten, Anne (2007): Zwischen Individualisierung und Generalisierung: Zur Konstruktion der Person in autobiographischen Emigranteninterviews. In: Behr, Irmtraud/ Larrory, Anne/ Samson, Gunhild (Hg.): Der Ausdruck der Person im Deutschen. Tübingen: Stauffenburg, S.-173-186. Betten, Anne (2009): Berichten- - Erzählen- - Argumentieren revisited: Wie multifunktional sind die Textsorten im autobiographischen Interview? In: Taterka, Thomas/ Lele- Rozentāle, Dzintra/ Pavīdis, Silvija (Hg.): Am Rande im Zentrum. Beiträge des VII.-Nordischen Germanistentreffens, Riga, 7.-11.-Juni 2006. Berlin: Saxa, S.-227-243. <?page no="184"?> ANNE BETTEN/ CAROLINA FLINZ/ SIMONA LEONARDI 184 Betten, Anne (2013a): Sprachbiographien deutscher Emigranten. Die ‘Jeckes’ in Israel zwischen Verlust und Rekonstruktion ihrer kulturellen Identität. In: Deppermann, Arnulf (Hg.): Das Deutsch der Migranten. (=-Jahrbuch des Instituts für Deutsche Sprache 2012). Berlin/ Boston: De Gruyter, S.-145-192. Betten, Anne (2013b): Die erste Reise zurück nach Deutschland: Thematische Fokussierung und Perspektivierung in Erzählungen jüdischer Emigranten. In: Deppermann, Arnulf/ Hartung, Martin (Hg.): Gesprochenes und Geschriebenes im Wandel der Zeit. Festschrift für Johannes Schwitalla. Mannheim: Verlag für Gesprächsforschung, S.-115-144. Betten, Anne (2016a): Zusammenhänge von Sprachkompetenz, Spracheinstellung und kultureller Identität-- am Beispiel der 2.-Generation deutschsprachiger Migranten in Israel. In: Leonardi/ Thüne/ Betten (Hg.), S.-353-381. Betten, Anne (2016b): Familiales Gedächtnis und individuelle Erinnerung. Zum Umgang mit traumatischen Erfahrungen in der 1. und 2.- Generation deutsch-jüdischer Migranten in Israel. In: Leonardi/ Thüne/ Betten (Hg.), S.-85-121. Betten, Anne (2017): Plädoyer für Themen- und Textsortenvariation in sprachbiographischen Interviews. Am Beispiel von Aufnahmen mit deutschsprachigen Emigranten in Israel. In: Schröder, Ingrid/ Jürgens, Carolin (Hg.): Sprachliche Variation in autobiographischen Interviews: Theoretische und methodische Zugänge. (=-Sprache in der Gesellschaft: Beiträge zur Sprach- und Medienwissenschaft-35). Frankfurt a. M.: Lang, S.-167-198. Betten, Anne/ Du-nour, Miryam (Hg.) (2000): Sprachbewahrung nach der Emigration- - Das Deutsch der 20er Jahre in Israel. Teil-II: Analysen und Dokumente. (=-Phonai-45). Tübingen: Niemeyer. Betten, Anne/ Farges, Patrick/ Leonardi, Simona (2018): Narratives of German-Jewish Immigrants to Palestine-Israel: A Source for Oral History and Discourse Analysis. In: Remembrance and Research- - The Journal of the Israel Oral History Association. ILOHA- 2, S.-11-68. Betten, Anne/ Leonardi, Simona (im Dr.): Das Interviewkorpus Sprachbewahrung nach der Emigration / Emigrantendeutsch in Israel: ein sprach- und kulturwissenschaftliches Archiv des deutschsprachigen Judentums im 20.-Jahrhundert. In: TSAFON, Revue d’études juives du Nord. Blommaert, Jan/ De Fina, Anna (2017): Chronotopic Identities. On the Timespace Organization of Who We Are. In: De Fina, Anna/ Ikizoglu, Didem/ Wegner, Jeremy (Hg.): Diversity and Super-Diversity: Sociocultural Linguistic Perspectives (=- Georgetown University Round Table on Languages and Linguistics Series). Washington, DC: Georgetown University Press, S.-1-15. Brambilla, Marina/ Flinz, Carolina (2019): Orte und entgegengesetzte Emotionen (LIEBE und HASS) in einem Korpus biographischer Interviews (Emigrantendeutsch in Israel-- Wiener in Jerusalem). In: Studi Germanici-15/ 16, S.-165-187. Breindl, Eva (2007): Intensitätspartikel. In: Hoffmann, Ludger (Hg.): Handbuch der deutschen Wortarten. (=-deGruyter Studienbuch). Berlin: De Gruyter, S.-397-422. <?page no="185"?> EMIgRANTENDEUTSCH IN ISRAEL: DIE KORPORA IS, ISW UND ISZ IM AgD 185 Busch, Brigitta/ McNamara, Tim (2020): Language and Trauma: An Introduction. In: Applied Linguistics-41,-3, S.-323-333. Chafe, Wallace L. (1994): Discourse, Consciousness, and Time: The Flow and Displacement of Conscious Experience in Speaking and Writing. Chicago: University of Chicago Press. Dausendschön-Gay, Ulrich/ Gülich, Elisabeth/ Krafft, Ulrich (2007): Vorgeformtheit als Ressource im konversationellen Formulierungs- und Verständigungsprozess. In: Hausendorf, Heiko (Hg.): Gespräch als Prozess. Linguistische Aspekte der Zeitlichkeit verbaler Interaktion. (=-Studien zur Deutschen Sprache-37). Tübingen: Narr, S.-181-219. Deppermann, Arnulf (2013): Editorial. Positioning in narrative interaction. In: Narrative Inquiry. A Forum for Theoretical, Empirical, and Methodological Work On Narrative 23, 1, S.-1-15. Deppermann, Arnulf/ Schmidt, Thomas (2014): Gesprächsdatenbanken als methodisches Instrument der Interaktionalen Linguistik-- Eine exemplarische Untersuchung auf Basis des Korpus FOLK in der Datenbank für Gesprochenes Deutsch (DGD2). In: Mitteilungen des Deutschen Germanistenverbandes 61, 1, S.-4-17. Dornseiff, Franz (2004): - Der deutsche Wortschatz nach Sachgruppen: Mit einer lexikographisch-historischen Einführung und einer ausführlichen Bibliographie zur Lexikographie und Onomasiologie. 8. Aufl. Berlin/ New York: De Gruyter. Du-nour, Miryam (2000): Sprachenmischung, Code-switching, Entlehnung und Sprachinterferenz. Einflüsse des Hebräischen und Englischen auf das Deutsch der fünften Alija. In: Betten/ Du-nour (Hg.), S.-445-477. Farges, Patrick (2020): Le Muscle et l’Esprit. Masculinités germano-juives dans la post-migration: Le cas des yekkes en Palestine/ Israël après 1933. Bruxelles u. a.: Lang. Farges, Patrick (2023): Das Israelkorpus als kulturhistorisches Archiv. In: Leonardi, Simona et al. (Hg.): Orte und Erinnerung. Eine Kartografie des Israelkorpus. Rom: IISG, S.-25-39. Fiehler, Reinhard (1990): Kommunikation und Emotion. Theoretische und empirische Untersuchungen zur Rolle von Emotionen in der verbalen Interaktion. (=-Grundlagen der Kommunikation und Kognition / Foundations of Communication and Cognition). Berlin/ New York: De Gruyter. Fiehler, Reinhard (2011): Wie kann man über Gefühle sprechen? Sprachliche Mittel zur Thematisierung von Erleben und Emotionen. In: Ebert, Lisanne/ Gruber, Carola/ Meisnitzer, Benjamin/ Rettinger, Sabine (Hg.): Emotionale Grenzgänge. Konzeptualisierungen von Liebe, Trauer und Angst in Sprache und Literatur. Würzburg: Königshausen-& Neumann, S.-17-33. Flinz, Carolina (2019): Multiword Units and N-Grams Naming FEAR in the Israel-Corpus. In: Corpas Pastor, Gloria/ Mitkov, Ruslan (Hg.): Computational and Corpus-Based Phraseology. Third International Conference, Europhras 2019 (Malaga, Spain, September 25-27, 2019 Proceedings). Cham: Springer Nature, S.-86-98. Flinz, Carolina (2022): Emotions and their Relation to Places of the Migration Trajectory. Experiential Declarative Formulas in the Corpus Emigrantendeutsch in Israel: Wiener in <?page no="186"?> ANNE BETTEN/ CAROLINA FLINZ/ SIMONA LEONARDI 186 Jerusalem (ISW). In: Ronan, Patricia/ Ziegler, Evelyn (Hg.): Language and Identity in Migration Contexts. Oxford: Lang, S.-361-364. Flinz, Carolina/ Moroni, Manuela Caterina (2020): Die Verwendung von ‘ganz’ bei der Thematisierung von Emotionen im Korpus „Emigrantendeutsch in Israel: Wiener in Jerusalem“. In: Ricognizioni. Rivista di lingue, letterature e culture moderne- 7,- 13, https: / / www.ojs. unito.it/ index.php/ ricognizioni/ article/ view/ 4472/ 4244 (Stand: 11.1.2023). Flinz, Carolina/ Ruppenhofer, Josef (2021): Auf dem Weg zu einer Kartographie: Automatische und manuelle Analysen am Beispiel des Korpus ISW. In: SPRACHREPORT- 1/ 2021, S.-44-50. Haßlauer, Steffen (2016): Fluchterlebnisse und ihr sprachlicher Ausdruck. Untersuchungen zu Agency, Emotionen und Perspektivierung in den Erzählungen zweier jüdischer Emigrantinnen In: Leonardi/ Thüne/ Betten (Hg.), S.-201-230. Häußinger, Barbara (2020): Vom Sprechen und Schweigen. Zur Darstellung lebensweltlicher Brüche und Verlusterfahrungen in den narrativen Interviews des Israelkorpus. In: Studi Germanici-- Quaderni dell’AIG-3, Sonderheft. Bosco, Lorella/ Magris, Marella, Il non detto-/ Das Ungesagte, S.-163-184. Kilgarriff, Adam/ Baisa, Vít/ Bušta, Jan/ Jakubíček, Miloš/ Kovár, Vojtěch/ Michelfeit, Jan/ Rychlý, Pavel/ Schomel, Vít (2014): The Sketch Engine: Ten years on. In: Lexicography-1, S.-7-36. Koesters Gensini, Sabine E./ D’Alesio, Veronica (2017): Tra il detto e il non detto: l’espressione delle emozioni nelle narrazioni di Dov Zuriel (17.12.1925-30.8.2014). In: Koesters Gensini, Sabine E./ Ponzi, Maria Francesca (Hg.): La lingua emigrata. Ebrei tedescofoni in Israele: studi linguistici e narratologici. (=-Studi e Ricerche-63). Roma: Sapienza Università Editrice, S.-109-140. Koesters Gensini, Sabine E./ Leonardi, Simona (im Ersch.): Orte und Erinnerungen: Breslau im- Israelkorpus. In: Buchen, Tim/ Luft, Maria (Hg.): Topographie der Shoah in Breslau/ Wrocław 1933-1949. Berlin: Neofelis. Larrory-Wunder, Anne/ Schneider, Ricarda (2017): „und auf meinem platz sitzt n ä: bursche mit nem hakenkreuz“. Lieux, espace et catégorisation dans les récits du Israel-Korpus. In: Cahiers de Narratologie, 31 Bis. http: / / narratologie.revues.org/ 7702 (Stand: 14.12.2022). Lemnitzer, Lothar/ Zinsmeister, Heike (2015): Korpuslinguistik. Eine Einführung. 3.- Aufl. (=-Narr Studienbücher). Tübingen: Narr. Leonardi, Simona (2016): Erinnerte Emotionen in autobiographischen Erzählungen. In: Leonardi/ Thüne/ Betten (Hg.), S.-1-45. Leonardi, Simona (2019): Metaphern und Identität in biographischen Interviews mit deutschjüdischen Migranten in Israel. In: metaphorik.de-29 (Schwerpunkt Metaphern und Migration-II), S.-77-108. Leonardi, Simona/ Thüne, Eva-Maria/ Betten, Anne (Hg.) (2016): Emotionsausdruck und Erzählstrategien in narrativen Interviews: Analysen zu Gesprächsaufnahmen mit jüdischen Emigranten. Würzburg: Königshausen-& Neumann. <?page no="187"?> EMIgRANTENDEUTSCH IN ISRAEL: DIE KORPORA IS, ISW UND ISZ IM AgD 187 Leonardi, Simona/ Costa, Marcella/ Koesters Gensini, Sabine E./ Schettino, Valentina (Hg.) (2022): Orte und Erinnerung: Eine Kartographie des Israelkorpus. Rom: Istituto Italiano di Studi Germanici. Liebscher, Grit/ Dailey-O’Cain, Jennifer (2013): Language, Space and Identity in Migration. Basingstoke: Palgrave Macmillan. Lucius-Hoene, Gabriele/ Deppermann, Arnulf (2004): Rekonstruktion narrativer Identität: Ein Arbeitsbuch zur Analyse narrativer Interviews. 2.-Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften. Luppi, Rita (2022): Recounting Central Biographical Experiences: An Analysis of Retellings in- Interviews with Second Generation German Speakers in Israel. In: Ronan, Patricia/ Ziegler, Evelyn (Hg.): Language and Identity in Migration Contexts. Oxford: Lang, S.-343-360. Mauser, Peter (2004): Dialekt im Exil. Österreichisch-jüdische Emigranten in Israel. In: Gaisbauer, Stephan/ Scheuringer, Hermann (Hg.): Linzerschnitten. Beiträge zur 8. Bayerischösterreichischen Dialektologentagung, zugleich 3.-Arbeitstagung zu Sprache und Dialekt in Oberösterreich. Linz: Adalbert-Stifter-Institut, S.-225-243. Ricœur, Paul (1991): L’identité narrative. Revue des sciences humaines-221, S.-35-47. Rothenhöfer, Andreas (2015): Gefühle zwischen Pragmatik, Grammatik und Idiomatik. Ein Beitrag zur Methodologie einer emotiven Diskursgrammatik. In: Kämper, Heidrun/ Warnke, Ingo H. (Hg.): Diskurs Interdisziplinär. Zugänge, Gegenstände, Perspektiven. (=-Diskursmuster / Discourse Patterns-6). Berlin/ New York: De Gruyter, S.-245-280. Scheidt, Carl Eduard/ Aurnhammer, Achim/ Stukenbrock, Anja/ Waller, Elisabeth (Hg.) (2015): Narrative Bewältigung von Trauma und Verlust. Stuttgart: Schattauer. Schiffrin, Deborah (2009): Crossing boundaries: The nexus of time, space, person, and place in narrative. In: Language in Society-38,-4, S.-421-445. Schwarz-Friesel, Monika (2013): Sprache und Emotion. 2.,-aktual. und erw. Aufl. (=-UTB-2939: Sprachwissenschaft). Tübingen: Francke. Schwitalla, Johannes (2012): Raumorganisation in Weg-Erzählungen. In: Schubert, Christoph/ Pham, Theresa (Hg.): RaumTexte-- TextRäume. Sprachwissenschaftliche Studien zur Verortung im Diskurs. Berlin: Frank-& Timme, S.-69-112. Schwitalla, Johannes (2016a): Narrative Formen von Fluchterzählungen deutschsprachiger emigrierter Juden in der Nazizeit. In: Leonardi/ Thüne/ Betten (Hg.), S.-171-199. Schwitalla, Johannes (2016b): Wie lassen aus Hitler-Deutschland geflohene Juden Nationalsozialisten sprechen? In: Leonardi/ Thüne/ Betten (Hg.), S.-261-299. Straub, Jürgen/ Sichler, Ralf (1989): Metaphorische Sprechweisen als Modi der interpretativen Repräsentation biographischer Erfahrungen. In: Alheit, Peter/ Hoerning, Erika M. (Hg.): Biographisches Wissen. Beiträge zu einer Theorie lebensgeschichtlicher Erfahrung. Frankfurt a. M.: Campus, S.-221-237. <?page no="188"?> ANNE BETTEN/ CAROLINA FLINZ/ SIMONA LEONARDI 188 Thüne, Eva-Maria (2016): Abschied von den Eltern. Auseinandersetzungen mit dem Tod der Eltern im Israelkorpus. In: Leonardi/ Thüne/ Betten (Hg.), S.-47-83. Thüne, Eva-Maria/ Leonardi, Simona (2011): Wurzeln, Schnitte, Webemuster. Textuelles Emotionspotential von Erzählmetaphern am Beispiel von Anne Bettens Interviewkorpus „Emigrantendeutsch in Israel“. In: Kohlross, Christian/ Mittelmann, Hanni (Hg.): Auf den Spuren der Schrift: Israelische Perspektiven einer internationalen Germanistik. (=-Conditio Judaica-80). Berlin/ Boston: De Gruyter, S.-229-246. <?page no="189"?> HANNA FISCHER/ BRIgITTE gANSWINDT/ gEORg OBERDORFER Die regionalsprachlichen Tonkorpora des Forschungszentrums Deutscher Sprachatlas Abstract Der Beitrag stellt die digital verfügbaren regionalsprachlichen Tonkorpora des Recherche- und Dokumentationszentrums des Forschungszentrums Deutscher Sprachatlas vor. Im Besonderen wird ein Überblick über die Sprachaufnahmen des Paralleltextes „Wenkersätze“ und über die Aufnahmen aus Atlas- und Wörterbuchkontexten gegeben. Des Weiteren wird mit dem Regionalsprachekorpus ein im Aufbau befindliches Tonkorpus freier Rede vorgestellt, das auf den im Projekt Regionalsprache.de erhobenen Freundesgesprächen basiert. Mit den vorgestellten Tonkorpora stehen der Forschungscommunity umfangreiche Ressourcen zur Erforschung der regionalen Sprachvariation zur Verfügung. Keywords: Dialekt, Regiolekt, Regionalsprache, Wenkersatz, Referenzkorpus, Korpora 1. Einleitung Mit seiner fast 150-jährigen Geschichte stellt das Forschungszentrum Deutscher Sprachatlas das älteste sprachwissenschaftliche Forschungsinstitut weltweit dar. Neben seinem Schwerpunkt in der Forschung versteht sich der Deutsche Sprachatlas seit jeher auch als Dokumentationszentrum für verschiedene Materialien und Datenbestände im Bereich der Dialektologie und Regionalsprachenforschung. Mit dem Recherche- und Dokumentationszentrum Regionalsprache steht im Forschungsbau Deutscher Sprachatlas ein zentrales Dienstleistungszentrum bereit, das umfangreiche Archivbestände wie weltweit einmaliges Sprachkarten- und Sprachatlantenmaterial, Nachlässe, historische Lehrmaterialien und Geräte, Fotosammlungen sowie eine systematisch erschlossene Forschungsbibliothek zur Verfügung stellt. Das Zentrum umfasst zudem ein Tonarchiv mit umfangreichen Beständen. Die Tondokumente reichen historisch bis in die Anfänge der Tonaufzeichnung zurück und sind auf verschiedenen Datenträgern archiviert (z. B. Schellackplatte, Tonband, Kassette). Die Bestände an regionalsprachlichen Sprachaufnahmen des Tonarchivs sind mittlerweile fast vollständig digitalisiert und stehen zu einem Großteil über das sprachgeographische Informationssystem REDE SprachGIS des Akademieprojekts Regionalsprache.de (REDE) online zur Verfügung. Die regionalsprachlichen Tonkorpora umfassen dabei unterschiedliche Typen von Sprachaufnahmen, von denen drei hier näher besprochen werden sollen: DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="190"?> HANNA FISCHER/ BRIgITTE gANSWINDT/ gEORg OBERDORFER 190 1) Sprachaufnahmen der Wenkersätze, 2) Sprachaufnahmen, die im Rahmen von sprachwissenschaftlichen Projekten (z.-B. Sprachatlanten) anhand von Fragebüchern oder anderen Abfragen erhoben wurden, 3) Sprachaufnahmen aus Erhebungssituationen freier Rede, die aktuell zu einem Referenzkorpus der Regionalsprache ausgebaut werden. Ziel dieses Beitrags ist es, einen Überblick über die digital verfügbaren Tonkorpora zu geben und zugleich die Spezifika der jeweiligen Sprachaufnahmen auszuweisen. 2. Sprachaufnahmen der Wenkersätze Ende des 19.- Jahrhunderts konzipierte Georg Wenker für die Erhebungsformulare seines „Sprachatlas des Deutschen Reichs“ (Wenker 1889-1923) 40 Sätze, mit denen die zentralen lautlichen und morphologischen Variationsphänomene der deutschen Dialekte erfasst werden sollten. Diese sogenannten ‚Wenkersätze‘ wurden nachfolgend wiederholt für schriftliche und mündliche Dialekterhebungen genutzt und bieten heute eine einmalig gute Grundlage für die Erforschung der regionalen Varietäten des Deutschen und ihrer Dynamik. Das Tonarchiv des Forschungszentrums Deutscher Sprachatlas umfasst zahlreiche Sprachaufnahmen der Wenkersätze, die aus verschiedenen Sammlungen stammen und einen Erhebungszeitraum von ca. 1950-2012 abdecken. Es setzt sich zusammen aus lokalen Beständen der Marburger Sprachwissenschaft, Korpora, die in Kooperation mit anderen Einrichtungen entstanden sind (wie etwa dem Deutschen Spracharchiv, heute: Archiv für Gesprochenes Deutsch (AGD) am Leibniz-Institut für Deutsche Sprache, z. B. Tonaufnahmen der Vertriebenenmundarten [TAVM], am AGD Deutsche Mundarten: ehemalige deutsche Ostgebiete (OS) genannt), sowie externen Beständen aus Übernahmen abgeschlossener oder aufgelöster (Wörterbuch-)Projekte (z. B. Preußisches Wörterbuch [PrWB]). Derzeit sind im REDE SprachGIS insgesamt circa 5000 Aufnahmen der Wenkersätze digital verfügbar. Tabelle- 1 listet die Bestände auf und gibt einen Überblick über die Erhebungsgebiete und Sprecher/ -innen-Auswahl. 1 In der Regel handelt es sich bei den Aufnahmen um Übersetzungen der standardsprachlichen Wenkersätze in den intendierten Ortsdialekt der Sprecherinnen und Sprecher. Je nach Dialektkompetenz der Informanten finden sich in den Aufnahmen auch regiolektale Aufnahmen (zum Begriff des Regiolekts vgl. z. B. 1 Um die tabellarische Übersicht nicht mit Literaturangaben zu überfrachten, sei an dieser Stelle auf die Webseite https: / / regionalsprache.de/ tonkorpora.aspx (Stand: 13.12.2022) verwiesen, auf der weitere Informationen sowie Literaturangaben zu den hier angeführten Korpora aufgeführt sind. Die Informationen auf der REDE-Webseite wurden von Christoph Purschke, Simon Kasper und Georg Oberdorfer zusammengestellt und für die Darstellungen in Tabelle-1 und 2 bearbeitet. <?page no="191"?> REgIONALSPRACHLICHE TONKORPORA DES DEUTSCHEN SPRACHATLAS 191 Schmidt/ Herrgen 2011, S.-66; Kehrein 2019). Die Vorgabesätze wurden je nach Projekt mündlich oder schriftlich präsentiert. Bei den Neuerhebungen im Rahmen des REDE-Projekts wurden die Wenkersätze ausschließlich mündlich präsentiert: Zum einen wurden die standardsprachlichen Wenkersätze den Sprechern 2 durch die Explorator/ -innen vorgelesen mit der Bitte, diese in den jeweiligen Ortsdialekt zu übersetzen. Zum anderen wurden den Sprechern Sprachaufnahmen dialektaler Wenkersätze vorgespielt. Die Aufgabe bestand dann darin, die dialektale Vorgabe in die Standardsprache zu übertragen. Die Erhebungen erfolgten mit drei Sprechergruppen: - Gruppe 1: männlich, ortsfest, ältere Generation (>65 Jahre), manuell berufstätig; - Gruppe 2: männlich, ortsfest, mittlere Generation (45-55 Jahre), Polizeibeamte, kommunikationsorientierter Berufsalltag; - Gruppe 3: männlich, ortsfest, jüngere Generation (17-25 Jahre), Abiturienten. Die Sprechergruppen unterscheiden sich nicht nur hinsichtlich ihres Alters, sondern auch in Bezug auf ihren Ausbildungs- und Berufshintergrund. So handelt es sich bei Gruppe-1 vorwiegend um manuell berufstätige Sprecher (NORMs), 3 wohingegen die Sprecher der Gruppe-2 als Polizeibeamte einen kommunikationsorientierten Beruf ausüben. Die Sprechergruppe- 3 umfasst Abiturienten (z. T. auch Studenten), die den höchsten Bildungsstand im Vergleich der Informantengruppen aufweisen. Die Wenkersatzaufnahmen zur intendierten Standardsprache bzw. zum intendierten Ortsdialekt dienen der Erfassung der individuellen Systemkompetenzen und ermöglichen den horizontalen, vertikalen, intergenerationellen und diachronen Vergleich der Dialekt- und Standardkompetenzen (vgl. Kehrein 2012). Mit den Sprachaufnahmen der Wenkersätze ergibt sich ein ganz besonderes Korpus, mit dem schriftliche Dialekterhebungen (sowohl Wenkersatzübersetzungen als auch Dialektgrammatiken) aus dem 19. und frühen 20.-Jahrhundert validiert werden können. Andererseits lässt sich mit ihnen die aktuelle Dynamik der Regionalsprachen direkt erforschen, da sie einen Vergleich der Daten aus über 70 Jahren ermöglichen, denen zudem mit dem „Sprachatlas des Deutschen Reichs“ ein historischer Referenzpunkt zur vergleichenden Analyse zur Verfügung steht (vgl. z. B. Schmidt et al. 2023). 2 Bei den Probanden der REDE-Neuerhebung handelt es sich durchwegs um männliche Sprecher. 3 Bei NORM/ Fs handelt es sich nach Chambers/ Trudgill (1998, S.-29) um Gewährspersonen, die durch die Eigenschaften non-mobile (ortsfest, ortsgebürtig), older (Rentner-/ Pensionistengeneration) rural (ländlich, manuell in der Landwirtschaft oder im Handwerk tätig) und male bzw. female zu beschreiben sind. In dialektologischen Studien dienen sie der Erhebung eines Sprachstands, der maximal dialektal ist. <?page no="192"?> HANNA FISCHER/ BRIgITTE gANSWINDT/ gEORg OBERDORFER 192 Bestand Erhebungsraum Erhebungszeit Sprecher/ -innen Inhalte Anzahl Aufnahmen auf der REDE- Plattform Aufnahmen aus den donauschwäbischen Siedlungsgebieten (ADSS) Donauschwäbische Siedlungsgebiete in Ungarn, Rumänien, Kroatien und Serbien 1970er- 1990er Jahre mittlere und ältere Generation, dialektkompetent Wenkersätze 243 Dialektatlas Mittleres Westdeutschland (DMW) Nordrhein- Westfalen und Teile von Niedersachsen und Rheinland-Pfalz, 120 Orte seit 2017 2 Sprechergruppen: Serie 1: NORM/ Fs; Serie 2: jüngere (30-45 Jahre), ortsgebürtige Sprecher/ -innen Wenkersätze 8, 14, 23, 30 142 Digitaler Hessischer Sprachatlas (DHSA) Bundesland Hessen (erhoben im Projekt Syntax Hessischer Dialekte [SyHD]) 2010-2016 ältere, ortsfeste Sprecher/ -innen Wenkersätze 135 MR Deutsche Dialekte (MRPhA I) Deutschland 1960er- 1990er Jahre vorrangig mittlere und alte Generation; überwiegend Dialektsprecher/ -innen Wenkersätze 240 MR Studioaufnahmen (MRPhA II) Deutschland 1960er- 1990er Jahre deutsche und z. T. fremdsprachige Sprecher/ -innen, teilweise dialektkompetent Wenkersätze 24 Niedersächsisches Dialektarchiv (NSD) v.-a. Niedersachsen, Bremen, Westfalen v. a. 1950- 1960er Jahre mittlere und ältere Generation; überwiegend Dialektsprecher/ -innen Wenkersätze 215 Ostdeutsche Dialektgeographie (ODG) (ehemalige) Siedlungsgebiete in Osteuropa und Sprachinseln 1954-1958 Vertriebene an ihren neuen Wohnorten in Deutschland; überwiegend Dialektsprecher/ -innen Wenkersätze 859 <?page no="193"?> REgIONALSPRACHLICHE TONKORPORA DES DEUTSCHEN SPRACHATLAS 193 Bestand Erhebungsraum Erhebungszeit Sprecher/ -innen Inhalte Anzahl Aufnahmen auf der REDE- Plattform Phonetischphonologischer Atlas von Deutschland (PAD) Deutschland (alte Bundesländer) 1960er- 1970er, 1990er Jahre ältere Dialektsprecher/ -innen Wenkersätze 142 Pommersches Wörterbuch (PoWB) ehemalige preußische Provinz Pommern, Insel Rügen 2006 dialektkompetente Sprecher/ -innen, mittlere und ältere Generation Wenkersätze 26 Preußisches Wörterbuch (PrWB) Ost- und Westpreußen, Mennoniten-Kolonien in Südamerika 1960er- 1990er Jahre überwiegend ältere Generation, dialektkompetent, größtenteils Aussiedler/ -innen Wenkersätze 107 Regionalsprache.de (REDE) Deutschland, 150 Erhebungsorte 2008-2012 3 Sprechergruppen (siehe oben) Wenkersätze im-intendierten Ortsdialekt und in intendierter Standardsprache 1287 Tonarchiv der osthessischen Mundarten (TOM) Osthessen (Stadt und Landkreis Fulda) 2003-2004 Sprecher/ -innen der mittleren und älteren Generation; überwiegend Dialektsprecher/ -innen Wenkersätze 179 Tonaufnahmen der hessischen Mundarten (TAHM) Bundesland Hessen 1982 Schüler/ -innen, Privatpersonen der mittleren und älteren Generation; überwiegend Regiolektsprecher/ -innen Wenkersätze 500 <?page no="194"?> HANNA FISCHER/ BRIgITTE gANSWINDT/ gEORg OBERDORFER 194 Bestand Erhebungsraum Erhebungszeit Sprecher/ -innen Inhalte Anzahl Aufnahmen auf der REDE- Plattform Tonaufnahmen der Vertriebenenmundarten (TAVM) ehemalige deutschsprachige Siedlungsgebiete in Ost- und Südosteuropa 1962-1965 Aussiedler/ -innen (aufgenommen an ihren neuen Wohnorten in Deutschland); überwiegend Dialektsprecher/ -innen Wenkersätze 715 Wörterbuch der deutschen Winzersprache (WDW) alle Weinbaugebiete in Deutschland 1993-2009 Winzer-/ innen der älteren Generation, Dialektsprecher/ -innen Wenkersätze 73 Zwirner-Korpus (ZW) Deutschland (alte Bundesländer) und angrenzenden Regionen, ca. 1000 Orte 1955-1970 3 Einheimische (junge, mittlere, ältere Generation) und soweit möglich 3 Aussiedler/ -innen pro Ort; überwiegend Dialektsprecher/ -innen Wenkersätze 139 Tab.-1: Sprachaufnahmen der Wenkersätze auf der REDE-Plattform 3. Sprachaufnahmen aus direkten Erhebungen Der zweite hier behandelte Typus an Tonkorpora umfasst Aufnahmen, die im Rahmen von Sprachatlasprojekten oder anderen sprachwissenschaftlichen Projekten entstanden sind. Zum Teil handelt es sich um Mitschnitte von direkten Erhebungen mittels Fragebuch, in denen die Fragen sukzessive präsentiert wurden. Die Erhebungssituationen variieren dabei je nach den konkreten Settings der Projekte. In den Fragebüchern werden in der Regel Bezeichnungen für lebensweltliche, handwerkliche und landwirtschaftliche Objekte und Tätigkeiten abgefragt. Zudem zielen die Fragebücher insbesondere auf die Kernbereiche der Phonologie und Morphologie sowie den Wortschatz ab. Für gewöhnlich wurden bei den Erhebungen für Sprachatlanten die elizitierten Daten der Gewährspersonen direkt im Fragebuch notiert. Diese unmittelbaren Transkriptionen können anhand der häufig zeitgleich angefertigten Sprachaufnahmen überprüft werden. Transkriptionen und Sprachaufnahmen dienen gemeinsam als Datengrundlage der jeweiligen Sprachatlanten. <?page no="195"?> REgIONALSPRACHLICHE TONKORPORA DES DEUTSCHEN SPRACHATLAS 195 Da die Erhebungsmaterialien der Sprachatlas-Projekte in der Regel auf Vorgängerbzw. Kooperationsprojekten aufbauen (vgl. etwa die einzelnen Teilprojekte des „Bayerischen Sprachatlas“) und diese jeweils nur regionsspezifisch leicht modifiziert werden, steht eine breite Datenbasis an direkt vergleichbaren Aufnahmen zur Verfügung. Einige Korpora wie etwa der „Norddeutsche Sprachatlas“ (NOSA) umfassen auch Aufnahmen von freiem Sprechen in Form von Erzählungen und Berichten, die Aufschluss über die sprachliche Variation der Sprecherinnen in natürlicher Sprachverwendung geben. Für die Präsentation im REDE SprachGIS wurden die Sprachaufnahmen entweder lemmaweise (nach Kartenthema) oder als zusammenhängender Beispielsatz geschnitten. Diese Snippets (Audio-Schnipsel) können sowohl einzeln als auch auf Basis der jeweils zugehörigen Karte eines Sprachatlasses angehört werden. Der direkte Vergleich von Kartenmaterial und Sprachbeispielen ermöglicht nicht nur Höreindrücke zum kartographisch präsentierten Material, sondern auch eine differenzierte eigene phonetische Analyse der Sprachaufnahmen im Vergleich zur Karte. Dieser Mehrwert der Kombination von Sprachkarte und Audiomaterial wird in der Forschungslandschaft augenscheinlich, wenn man die Vielzahl der jüngst entstandenen sprechenden Sprachatlanten betrachtet. Des Weiteren umfasst das SprachGIS Aufnahmen von Vorleseaussprache, die im Rahmen des Akademieprojekts Regionalsprache.de (REDE) erhoben wurden. Die Grundlage stellt die Aesop-Fabel „Nordwind und Sonne“ dar, ein kurzer Text, der von der International Phonetic Association als Paralleltext verwendet wird und bereits für zahlreiche Sprachen und Dialekte vorliegt. Mit der systematischen Erhebung der Vorleseaussprache im REDE-Projekt stehen vergleichbare Aufnahmen für die standardorientierte Aussprache von Sprechern dreier Generationen für 150 Orte in Deutschland zur Verfügung (vgl. Abschn.-2). Die Analyse von Vorleseaussprache ist für die regionalsprachliche Forschung von besonderem Interesse, da in dieser schriftspracheinduzierte Merkmale (z. B. Aussprache von <-ig> in z. B. wenig als [ik] auch bei Sprechern, die in freier Rede oder in Erhebungssituationen ohne schriftliche Vorlage <-ig> stets als [iç] realisieren) identifizierbar werden, die sich andernfalls nur schwerlich von genuin regionalsprachlichen Merkmalen abgrenzen lassen würden. Neben raum- und generationsvergleichenden Analysen erlauben diese Aufnahmen in Kombination mit den Sprachaufnahmen anderer Erhebungssettings (z.-B. Übertragung der Wenkersätze in den intendierten Ortsdialekt, Interview mit Explorator/ innen) die Analyse der regionalsprachlichen Variationsspektren und damit der Variation entlang der Dialekt-Standard-Achse (vgl. Kehrein 2012, 2019). <?page no="196"?> HANNA FISCHER/ BRIgITTE gANSWINDT/ gEORg OBERDORFER 196 Bestand Erhebungsraum Erhebungszeit Sprecher/ -innen Inhalte Anzahl Aufnahmen auf der REDE- Plattform Mittelrheinischer Sprachatlas (MRhSA) linksrheinische Teil von Rheinland-Pfalz und Saarland, 549 Erhebungsorte 1978-1988 2 Sprechergruppen: Serie 1: NORM/ Fs; Serie 2: jüngere (30-40 Jahre), manuell tätige Berufsnahpendler/ -innen Fragebuchabfrage 714 Norddeutscher Sprachatlas (NOSA) Niederdeutscher Dialektraum in Norddeutschland, 36 Erhebungsorte 2008-2010 Sprecherinnen (40-60 Jahre), zum Teil dialektkompetent Ausschnitte aus freier Rede aus leitfadengestützten Interviews und Tischgesprächen 443 Regionalsprache.de (REDE) Deutschland, 150 Erhebungsorte 2008-2012 3 Sprechergruppen (siehe oben) Vorlesetext „Nordwind & Sonne“ 735 (Sprechender) Sprachatlas Bayerischer Wald und Böhmerwald (SBuB) Landkreise Freyung-Grafenau und Regen sowie angrenzender Böhmerwald, 64 Erhebungsorte 1996-1998, 2005-2007 NORM/ Fs Fragebuchabfrage 64 Sprachatlas von Mittelfranken (SMF) Mittelfranken, 167 Erhebungsorte 1989-1998 NORM/ Fs Fragebuchabfrage 486 Sprachatlas von Unterfranken (SUF) 4 Unterfranken, 182 Erhebungsorte 1990-1996 NORM/ Fs Fragebuchabfrage 174 (Sprechender) Sprachatlas von Niederbayern (SNiB) Niederbayern, 221 Erhebungsorte 1991-1998 NORM/ Fs Fragebuchabfrage 207 Sprechender Sprachatlas von Bayerisch- Schwaben (SprSBS) Bayerisch- Schwaben und Oberbayern, 30 Erhebungsorte 2011 NORM/ Fs Fragebuchabfrage 5221 (Snippets der Abfragekontexte) 4 Verlangt zur Nutzung eine Registrierung. <?page no="197"?> REgIONALSPRACHLICHE TONKORPORA DES DEUTSCHEN SPRACHATLAS 197 Bestand Erhebungsraum Erhebungszeit Sprecher/ -innen Inhalte Anzahl Aufnahmen auf der REDE- Plattform Sprechender Sprachatlas von Bayern (SprBSA) Bundesland Bayern, 70 Erhebungsorte 2006 NORM/ Fs Fragebuchabfrage 9992 (Snippets der Abfragekontexte) Sprechender Sprachatlas von Unterfranken (SprSUF) Unterfranken, 30 Erhebungsorte 2016 NORM/ Fs Fragebuchabfrage 151 Tab.-2: Sprachaufnahmen zu Fragebüchern und Vorlesetexten auf der REDE-Plattform 4. Das Regionalsprachekorpus Derzeit wird am Forschungszentrum Deutscher Sprachatlas ein Regionalsprachekorpus aufgebaut, das auf Sprachaufnahmen aus freien Gesprächen, nämlich Freundesgesprächen, basiert, die im Rahmen des Akademieprojekts Regionalsprache.de (REDE) erhoben wurden. Das Korpus ergänzt die Datenlage zur regionalen Variation im Sprechen, wie sie auf der REDE-Plattform in interaktiver Weise zur Verfügung steht (vgl. Tab.-1 und 2 sowie Ganswindt/ Kehrein/ Lameli 2015), und soll in komplementärer Weise dazu dienen, die Regionalsprachen in Deutschland in noch breiterem Umfang zu erfassen. In seiner Konzeption handelt es sich bei diesem Korpus um ein Referenzkorpus der Regionalsprachen in Deutschland. Basierend auf stabilen soziolinguistischen Parametern seiner Probanden fasst es den bundesdeutschen Sprachraum zusammen, was folglich neben vielen anderen Fragestellungen auch das sprachliche Variationsspektrum in der Alltagssprache der Freundesgespräche abbilden und analysieren lässt. Andere Schwerpunktkorpora-- bspw. der Mundarten im Zwirner-Korpus (Zwirner 1956), der Aussprachevariation im Deutsch-Heute-Korpus (DH) oder auch der gesamtheitlichen Abbildung über die Repräsentation möglichst vieler Gattungen wie im FOLK (Schmidt 2016)-- setzen ihren Fokus jeweils in anderen Bereichen. Das Regionalsprachekorpus fokussiert dialektkompetente junge Sprecher in ihrer Alltagssprachlichkeit über ganze Gespräche hinweg. Das im Korpus repräsentierte Ortsnetz deckt die Dialektgebiete in Deutschland (berücksichtigt sind auch Übergangsgebiete als Grenz- und Ausgleichskontraste) möglichst gleichmäßig ab. Eine solche Orientierung in die Breite steht in der variationslinguistischen Tradition von Vergleichspotenzialen der horizontalen und vertikalen Perspektivierung der Sprachvariation. Langfristig ist geplant, bzgl. der vertikalen Dimensionierung des Sprachgebrauchs weitere Ergänzungen des Korpus in Form der anderen Informantengruppen der REDE-Neuerhebung vorzunehmen. <?page no="198"?> HANNA FISCHER/ BRIgITTE gANSWINDT/ gEORg OBERDORFER 198 Darüber hinaus bilden die Daten ein wertvolles Kontrastpotenzial eines jungen Sprachstands im doppelten Sinne, da die herangezogenen Aufnahmen aus den frühen 2010er Jahren stammen und auch die Sprecher jung waren. Mit Blick auf Kurzzeitdiachronie und mögliche darin getätigte Apparent-Time-Analysen bildet der Datensatz einen guten Vergleichspunkt für unterschiedliche linguistische Fragestellungen. Dabei ergänzt das Korpus auch die übrigen Erhebungsdaten aus dem REDE- Projekt, die überwiegend phonetisch-phonologische sowie vereinzelt morphologische Phänomenologie in kontrollierten Abfragesettings in den Blick nehmen. 5 Das Regionalsprachekorpus kann die dort verfolgten Phänomene um die informelle Alltagssprachlichkeit unter Freunden ergänzen sowie weitere, vorwiegend syntax- und diskursorientierte Fragestellungen erfüllen. Das in der Erstellung des Korpus herangezogene Ortsnetz besteht aus den 150 Aufnahmeorten der REDE-Neuerhebung, aus denen jeweils ein Freundesgespräch der jungen Generation erfasst wird. Die Gespräche umfassen je zwei Personen, wovon mindestens eine als Proband an mehreren Erhebungssettings der REDE-Neuerhebungen teilgenommen hat. Alle Probanden der Erhebung sind männlich und entstammen drei Sprechergruppen, einer jungen (Gruppe G3 im Alter von 17-25 Jahre, Abiturienten), einer mittleren (Gruppe G2 im Alter von 45-55 Jahre, Polizisten) und einer alten (Gruppe G1 im Alter von >65 Jahre; die klassischen NORMs) (vgl. Abschn.-2). Die zweite Person im Gespräch ist in allen Fällen immer eine Bezugsperson aus der gleichen Region, womit die soziale Beziehung zwischen Sprechern eines Freundesgesprächs sowie deren geteilte regionalsprachliche Prägung sichergestellt wird. Die Länge der Aufnahmen variiert zwischen 30 und 45 Minuten, in denen die Personen freie Gesprächsführung ohne äußeren Input betreiben. Folglich sind auftretende Themen hier Familie, Freunde, Beziehungen, Schule, Arbeit und Studium, Hobbys-- ein deutlicher Effekt geteilter Lebenswelt wird also sichtbar. Mit zwei auf die Teilnehmer ausgerichteten Richtmikrofonen wurden die Aufnahmen in der Regel in ruhigen Umgebungen (abgeschlossene Räume ohne weitere Personen) durchgeführt, was sehr klare und mit Blick auf das akustische Verstehen deutliche Aufnahmequalitäten zur Folge hat. 5 Dass die akustische Seite des Sprachgebrauchs wichtige Erkenntnisse in Bezug auf die diatopische Variation im Sprechen liefert, hat sich über die Jahrzehnte wiederholt bewahrheitet, wie das bspw. auch Zwirner/ Maack/ Bethge (1956, S.-30) in ihrer Vorstudie zur Erstellung des späteren Zwirner Korpus dargelegt hatten: „Es stellte sich heraus, daß bei allen untersuchten konstitutiven Faktoren wesentliche Unterschiede zwischen den Mundarten vorliegen, und zwar zeigte sich eine deutliche dialektgeographische Anordnung […]“. <?page no="199"?> REgIONALSPRACHLICHE TONKORPORA DES DEUTSCHEN SPRACHATLAS 199 4.1 Zur Aufbereitung der gesprächsdaten In einem ersten Schritt werden in der Korpuserstellung die Gesprächsdaten der jungen Probanden aufbereitet, damit der möglichst jüngste Sprachstand abgebildet und für Vergleiche mit früheren verwendet werden kann. Langfristig ist geplant, die Daten der jungen Generation mit jenen der mittleren und älteren Generation zu ergänzen, um auch hier direkt den Apparent-Time-Vergleich anstellen zu können. Transkribiert werden die Gespräche nach GAT2-Basistranskript (vgl. Selting et al. 2009) mit Adaptionen 6 in EXMARaLDA (vgl. Schmidt/ Wörner 2014). Beide Komponenten, Transkriptionskonvention und Software, haben sich in den letzten ein bis zwei Jahrzehnten als äußerst geeignete Wahl für die Aufarbeitung von Gesprächsdaten herausgestellt. Für EXMARaLDA spricht u. a. seine Kompatibilität mit unterschiedlichen Dateiformaten und Programmen, was nicht zuletzt die Zusammenführung verschiedener Datensätze (wie bspw. auch phonetische Analysen aus PRAAT) begünstigt. Wiederum für GAT2 gilt, dass auf allen Stufen seiner modularen Form Adaptionen vorgenommen werden können. Als „Gesprächsanalytisches Transkriptionssystem“ berücksichtigt es dabei die produktionsseitigen Besonderheiten des Sprechens, die ein Transkript zu einer verhältnismäßig lesbaren Version eines Gesprächs machen, was in der Tradition orthographischer Transkriptionen gerade nicht der Fall war und was auch phonetische Transkriptionen aufgrund ihres Detailgrads nicht vollumfänglich leisten können. Arbeitspraktische Anpassungen von GAT2 im Regionalsprachekorpus sind mitunter Ersetzungen von sonst zeitraubenden, aber durchschnittlich eher wenig ertragreichen Auszeichnungen wie dem Ein- und Ausatmen der Sprecher, 7 welche durch einfachere Umschreibung wie Pausen ersetzt werden und somit nach bester Möglichkeit Arbeitszeit eingespart wird, ohne zu viel Informationen zu verlieren, die später mühevoll nachgetragen werden müssten. Diese Informationen sind auch der Grund, warum beim Basistranskript angesetzt wird und wieso bspw. auch Stimmmodulationen (etwa besonders schnelles oder lautes Sprechen) mittranskribiert werden. Es handelt sich hier um Informationen, die das Lesen des Transkripts radikal ändern, was folglich in der-- vorwiegend explorativen-- Analyse vor False-positive-Ergebnissen schützen kann und umgekehrt aber auch das Auffinden ganz spezifischer Variablen erst möglich macht. Ein großer Vorteil der modernen Korpora 6 Neben eigenen sind das auch solche aus cGAT (vgl. Schmidt/ Schütte/ Winterscheid 2015), um die weitere Verarbeitung unproblematischer zu gestalten. 7 Bei der Aufnahme mit Richtmikrofonen vor den Sprechern kommt erschwerend hinzu, dass nahezu jegliches Atmen und nicht nur ein tiefes, evtl. interaktional bedeutsames Atmen wahrgenommen wird. <?page no="200"?> HANNA FISCHER/ BRIgITTE gANSWINDT/ gEORg OBERDORFER 200 gesprochener Sprache ist zwar, dass Transkripte in der Regel zeitaligniert zu ihren Aufnahmen wiedergegeben werden können. Für manche (bspw. informationsstrukturelle resp. stellungsbezogene oder auch salienzbezogene) Fragestellungen ist es aber evtl. nicht ausreichend, wenn durch ein zu informationsschwaches Transkript die Konstellationen einer Variable nicht regelhaft erforscht werden können (ohne dass mühevolle Ergänzungen getätigt werden müssen). Der geringfügige Mehraufwand der Transkription, der sich durch das gerade beschriebene Vorgehen ergibt, steht unseres Erachtens in keinem ausschlaggebenden Verhältnis zu der sonst verpassten Gelegenheit in der Datenaufbereitung. Eine geschulte Arbeitskraft braucht nur unwesentlich länger für das adaptierte Basistranskript im Vergleich zu einem Minimaltranskript. Von Vorteil sind hier allerdings auch die Aufnahmebedingungen der Gespräche, die meistens aus einer ruhigen Umgebung sowie der erwähnten direkten Ausrichtung zweier Mikrofone auf nur zwei Gesprächsteilnehmer bestanden haben. 8 4.2 Zur Darstellung der gesprächsdaten Mit dem Bestand eines Grundstocks an Transkripten hat zeitgleich zur weiteren Transkription die Annotation der Gespräche eingesetzt. Gegenwärtig sind zwei Annotationsschemata für das Regionalsprachekorpus vorgesehen, ein halbautomatisches POS-Tagging mit dem Tagset von Westpfahl (zur Wortartenerkennung in gesprochener Sprache; vgl. Westpfahl 2020) sowie eine Syntaxannotation, die eine möglichst genaue Definition der markierten Einheit zulässt. Mit der Integration des TreeTaggers in OrthoNormal 9 steht eine praktische grafische Oberfläche zur Verfügung, die manuelle Nachbearbeitungen deutlich vereinfacht (vgl. dazu auch ebda.). Der genaue Umfang der Syntaxannotation wird aktuell noch erprobt. Im Fokus steht allerdings die Berücksichtigung von Einheiten primär gesprochensprachlicher Syntax (freie Themen, Rechts- und Linksversetzungen) sowie sprachproduktionsseitiger Erscheinungen (Reparaturen, Wiederholungen) als Teil der Syntax. Das erstellte Korpus wird als eigene Anwendung auf der REDE-Plattform zur Verfügung gestellt werden. Die Suchmaske soll Optionen zur einfachen Suche und zur Expertensuche anbieten. Geplant ist die Suche über Regular Expressions (RegEx- Query) und eine Präsentation der Treffer über ein Wiedergabefeld, das aus einer 8 Die gezählte Arbeitszeit pendelt sich hier bei 60 Minuten pro transkribierter Minute ein, was nicht arbeitsintensiver ist als andere Transkriptionsvorhaben. So berichten bspw. die FOLK-Verantwortlichen, dass sich das Verhältnis von gesprochener Minute zu transkribierter Zeit aufgrund unterschiedlicher Rahmenbedingungen (Aufnahmequalität, Dialektalität, Transkribierende/ -r usw.) bei ihnen bis auf 1: 100 steigern kann (vgl. Schmidt 2016; Kupietz/ Schmidt 2015). 9 Ein Programm des EXMARaLDA-Softwarebündels, entwickelt im Kontext von FOLK (siehe https: / / exmaralda.org/ de/ orthonormal-de/ , Stand: 13.12.2022). <?page no="201"?> REgIONALSPRACHLICHE TONKORPORA DES DEUTSCHEN SPRACHATLAS 201 KWiC (Keyword in Context)-Darstellung und einem Oszillogramm samt Wiedergabeoptionen besteht. Die Query setzt vor allem auf Voreinstellungen, die globale RegEx-Operationen zusammenfassen wie Case Sensitivity, Gruppenbildung, Suchen im Kontext etc. Dadurch soll den Nutzern der Zugang zu den Daten vereinfacht sowie auch die Möglichkeiten einer gezielten Korpusabfrage nähergebracht werden. Daneben ist noch eine niedrigschwellige Suche über Kategoriebuttons geplant. Eine erste, sogenannte Alpha-Version ist für 2023/ 24 geplant und soll Interessierten auch einen Testnutzerzugang bieten. 5. Zusammenfassung Die verschiedenen Tonkorpora des Forschungszentrums Deutscher Sprachatlas, die weitgehend digitalisiert und online verfügbar sind, bieten der fachwissenschaftlichen Community umfangreiches Material zur Erforschung der Regionalsprachen des Deutschen. So können beispielsweise anhand des Paralleltextes „Wenkersätze“ auf breiter Datenbasis korpusbasierte Vergleichsanalysen etwa unter diachronen oder diatopischen Aspekten vorgenommen werden. Daneben dienen die Wenkersätze auch der Validierung schriftlicher Dialektdokumentationen. Die Kombination von Sprachkarten und Sprachaufnahmen etwa in Form von Sprechenden Sprachatlanten leistet wiederum nicht nur der Fachcommunity einen Mehrwert, sondern bietet auch für interessierte Laien eine multimediale Zugänglichkeit auf dialektologische und regionalsprachliche Forschungsergebnisse. Ziel des im Aufbau begriffenen Regionalsprachekorpus ist es, eine vollannotierte und aufbereitete Form regionaler Sprache zur Verfügung zu stellen. Neben seinem Vergleichspotenzial zu anderen regionalsprachlichen Daten und Analysen bietet es eine Grundlage für Fragestellungen auf allen linguistischen Sprachbeschreibungsebenen, die hier mit Bezug auf freie Rede und ohne den Hintergrund experimenteller Settings verfolgt werden können. Gebrauchslinguistische Studien profitieren hiervon insbesondere, aber auch andere Interessensgebiete finden einen wertvollen Datensatz vor. Literatur Chambers, Jack/ Trudgill, Peter (1998): Dialectology. (=- Cambridge textbooks in linguistics). Cambridge: Cambridge University Press. Ganswindt, Brigitte/ Kehrein, Roland/ Lameli, Alfred (2015): Regionalsprache.de (REDE). In: Kehrein, Roland/ Lameli, Alfred/ Rabanus, Stefan (Hg.): Regionale Variation des Deutschen-- Projekte und Perspektiven. Berlin/ Boston: De Gruyter, S.-425-458. Kehrein, Roland (2012): Regionalsprachliche Spektren im Raum. Zur linguistischen Struktur der Vertikale. (=-Zeitschrift für Dialektologie und Linguistik-152). Stuttgart: Steiner. <?page no="202"?> HANNA FISCHER/ BRIgITTE gANSWINDT/ gEORg OBERDORFER 202 Kehrein, Roland (2019): Areale Variation im Deutschen „vertikal“. In: Herrgen, Joachim/ Schmidt, Jürgen Erich (Hg.): Deutsch: Sprache und Raum. Ein internationales Handbuch der Sprachvariation. (=- Handbücher zur Sprach- und Kommunikationswissenschaft (HSK)-30.4). Berlin/ Boston: De Gruyter Mouton, S.-121-158. Kupietz, Marc/ Schmidt, Thomas (2015): Schriftliche und mündliche Korpora am IDS als Grundlage für die empirische Forschung. In: Eichinger, Ludwig M. (Hg.): Sprachwissenschaft im Fokus. Positionsbestimmungen und Perspektiven. (=-Jahrbuch des Instituts für Deutsche Sprache 2014). Berlin/ Boston: De Gruyter, S.-297-322. Schmidt, Jürgen Erich/ Herrgen, Joachim (2011): Sprachdynamik. Eine Einführung in die moderne Regionalsprachenforschung. (=-Grundlagen der Germanistik-49). Berlin: ESV. Schmidt, Jürgen Erich/ Beitel, Dennis/ Frank, Marina/ Gerstweiler, Luisa/ Lang, Vanessa (2023): Der digitale hessische Sprachatlas (DHSA). Erscheint in: Zeitschrift für Dialektologie und Linguistik-90,-1. Schmidt, Thomas (2016): Good practices in the compilation of FOLK, the research and teaching corpus of spoken German. In: Kirk, John M./ Andersen, Gisle (Hg.): Compilation, transcription, markup and annotation of spoken corpora. (=-International Journal of Corpus Linguistics-21,-3). Amsterdam/ Philadelphia: Benjamins, S.-396-418. Schmidt, Thomas/ Wörner, Kai (2014): EXMARaLDA In: Durand, Jacques/ Gut, Ulrike/ Kristoffersen, Gjert (Hg.): The Oxford handbook of corpus phonology. (=-Oxford handbooks in linguistics). Oxford: Oxford University Press, S.-402-419 (siehe auch exmaralda.org). Schmidt, Thomas/ Schütte, Wilfried/ Winterscheid, Jenny (2015): cGAT. Konventionen für das computergestützte Transkribieren in Anlehnung an das Gesprächsanalytische Transkriptionssystem-2 (GAT2). Mannheim. https: / / ids-pub.bsz-bw.de/ frontdoor/ index/ index/ docId/ 4616 (Stand: 9.1.2023). Selting, Margret/ Auer, Peter/ Barth-Weingarten, Dagmar/ Bergmann, Jörg/ Bergmann, Pia/ Birkner, Karin/ Couper-Kuhlen, Elizabeth/ Deppermann, Arnulf/ Gilles, Peter/ Günthner, Susanne/ Hartung, Martin/ Kern, Friederike/ Mertzlufft, Christine/ Meyer, Christian/ Morek, Miriam/ Oberzaucher, Frank/ Peters, Jörg/ Quasthoff, Uta/ Schütte, Wilfried/ Stukenbrock, Anja/ Uhmann, Susanne (2009): Gesprächsanalytisches Transkriptionssystem- 2 (GAT- 2). In: Gesprächsforschung- - Online-Zeitschrift zur verbalen Interaktion- 10, S.- 353-402. http: / / www.gespraechsforschung-ozs.de/ heft2009/ px-gat2.pdf (Stand: 16.5.2022). Wenker, Georg (1889-1923): Sprachatlas des Deutschen Reichs. Marburg: Handgezeichnet. Westpfahl, Swantje (2020): POS-Tagging für Transkripte gesprochener Sprache. Entwicklung einer automatisierten Wortarten-Annotation am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK). (=-Studien zur Deutschen Sprache-83). Tübingen: Narr. Zwirner, Eberhard (1956): Lautdenkmal der deutschen Sprache. In: Zeitschrift für Phonetik und Allgemeine Sprachwissenschaft-9,-1, S.-3-13. Zwirner, Eberhard/ Maack, Adalbert/ Bethge, Wolfgang (1956): Vergleichende Untersuchungen über konstitutive Faktoren deutscher Mundarten. In: Zeitschrift für Phonetik und Allgemeine Sprachwissenschaft-9,-1, S.-14-30. <?page no="203"?> ANNE KRUIJT/ STEFAN RABANUS/ MARTA TAgLIANI The VinKo Corpus Oral data from Romance and Germanic local varieties of Northern-Italy Abstract The VinKo corpus is a parallel corpus with audio recordings from German and Italian dialects and minority languages spoken in the Italian regions Trentino-South Tyrol and Veneto. The data has been crowdsourced via the online platform of the VinKo project and was produced in response to a pronunciation and translation task targeted at eliciting phonological and morpho-syntactic phenomena for language contact studies. The VinKo corpus V1.1 contains over 125.000 audio files from 11 language varieties. The project strives towards a ‘open science’ approach with an integral ‘citizen science’ component by active collaboration with local institutions and freely sharing the data with different stakeholders, e. g. speech communities, scientific community. All collected data can be accessed via the admin interface of the VinKo website or downloaded from the online repository, and a selection of the data is represented via an online map targeted at a non-specialist audience. Keywords: Crowdsourcing, Citizen science, German dialects, Italian dialects, minority languages, language contact 1. Framework The VinKo corpus is a result of an ongoing research activity on multilingualism and language contact in the Alps (VinKo is acronym of “Varieties in Contact”). Originally offspring of an EU-financed large-scale project on multilingualism in Europe (AThEME, cf. Cordin et al. 2018), the VinKo project lead to the creation of a technical and organizational infrastructure for crowdsourcing and storing linguistic data. In this article, the infrastructure is described with respect to the data collection conducted in the period of 2017-2022 by the VinKo project group (Rabanus et al. 2022). After the completion of the VinKo project in 2022, the VinKo infrastructure (platform and repository organization) will continue to be used by the subsequent Alpi- LinK project (“German-Romance Language Contact in the Italian Alps: documentation, explanation, participation“, starting 2022, financed by the Italian Research Ministry). To fit the goals of the new project, the linguistic questionnaires and other contents will be modified while the platform’s technical core features and the organizational workflow will be maintained as described here. Additionally, the VinKo infrastructure will host further corpora which are compatible and comparable with the VinKo corpus. The first one, to be inserted in the VinKo infrastructure in 2023, is the AThEME corpus (hdl.handle.net/ 20.500.12124/ 53, Tomaselli et al. 2022) which DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="204"?> ANNE KRUIJT/ STEFAN RABANUS/ MARTA TAgLIANI 204 was collected via traditional fieldwork on location in the period of 2014-2016 using questionnaires which were partly adopted by the VinKo project (for a comparison of both types of data cf. Kruijt/ Cordin/ Rabanus in press). 2. Corpus construction The data present in the VinKo corpus has been collected within the VinKo project. The VinKo project collects oral linguistic data of specific syntactical, morphological, and phonological phenomena for the non-standard varieties present in the regions of Trentino-South Tyrol and Veneto in northeastern Italy. The use of identical stimuli allows for cross-linguistic comparison. Data is collected via online crowdsourcing and recording of oral responses to linguistic questionnaires. 2.1 Data collection The data collection is being done via the VinKo website (www.vinko.it), which presents participants with an online questionnaire composed of different tasks. Participants record their responses to the tasks using the internal microphone of their device. On the webpage, participants register and supply some basic personal data: age, gender, linguistic variety, municipality of their linguistic variety, and selfassessed proficiency, frequency of usage and interaction partners (family, friends) for the chosen linguistic variety. Once registered, participants are presented with the linguistic questionnaire. The linguistic questionnaire is subdivided into three sections, which are labelled “Words”, “Sentences”, and “Tales”, and each section has its own tasks. All responses are taken in the form of audio recordings. Oral responses are better suited for the research than written ones as the latter can proof problematic when documenting non-standard varieties and dialects. Dialects, e. g. Tyrolean or Venetan, are primarily spoken, not written, varieties, and commonly have no conventionalized spelling systems. Even speakers of minority languages with developed orthographies, e. g. Cimbrian, might have trouble, as the proposed orthographies are not always wellknown or generally accepted within their own speech communities. The sections are organized as follows. i)-“Words” elicits selected phonological features (sibilants, rhotics, other obstruents) employing a word-pronunciation task with dialectalized stimuli. Dialectalized stimuli are used to avoid translation of standard words into presumed but non-existent dialect words and they are presented in the orthographies/ writing systems developed for the local speech varieties. As an example, to test for the variable ‘preconsonantal s-retraction’ in the Tyrolean questionnaire the item Stådl ‘hay stack’ is presented instead of the standard German Heuschober. This task requires a different questionnaire for every language variety. ii)- “Sentences” <?page no="205"?> THE VINKO CORPUS 205 uses a traditional translation task to elicit various syntactic structures ranging from pro-drop across complementizers to subject-verb agreement. Participants are asked to translate sentences presented in standard Italian (South Tyrol: standard German) into their own dialect or minority language. iii)-In “Tales”, two new collection methods are used. First, a picture-aided translation task in which the sentences are accompanied by pictures and together they constitute a story (inspired by the Grimm Brothers’ tales). Second, a guided free-speech production task: participants are asked to provide answers to questions, based on their knowledge of the narrative of the preceding story. The questions are presented in standard Italian (South Tyrol: standard German), and participants are instructed to translate the questions and answer them in their dialect or minority language. In “Tales” morphological and morphosyntactic data are elicited, with a focus on the article and personal pronoun paradigms, including pronoun clitics. Depending on the linguistic variety of the participant, the questionnaire elicits 30- 71 words in the section “Words”, 59-80 sentences in the section “Sentences”, and 42 sentences in the section “Tales”. This means that a completed questionnaire produces in the range of 152 to 181 audio recordings for a specific location and speaker. 2.2 Technical interface of the data collection platform VinKo can be used on any digital device, e. g. computer, tablet, or smartphone, though the visualization is best suited to laptops and desktops. It currently supports Windows, Linux and Android devices, not iOS. VinKo aims to provide an intuitive user interface that is easy to operate, requiring no more than the most basic IT skills, and clear instructions for each task (available in Italian and German). Participants are asked to record their responses using the internal microphones of their computer or phone, and are provided with instructions on how to enable the microphone and how to operate the recording function. The questionnaires are self-timed and participants are free to correct or improve upon their initial recording by recording a new response and deleting the faulty one. Allowing participants to listen to their own recordings straight away ensures that problems with the microphone can be caught and corrected right away. Once participants are satisfied with their response they move on to the next stimulus by clicking the ‛Next’ button. Stimuli that speakers are unsure about or prefer not to translate can be skipped by pressing ‛Skip’. The progress bar at the top of the page indicates how many stimuli are left within a particular section. Registration can be stopped at any point during the questionnaire and progress is saved. With the log-in credentials, participants can return at a later point and continue the questionnaire from the point where they left off. <?page no="206"?> ANNE KRUIJT/ STEFAN RABANUS/ MARTA TAgLIANI 206 2.3 Participant recruitment and profiles Participation is open to anyone who is proficient in a Trentino, Tyrolean, or Venetan dialect or who is a speaker of one of the minority languages of the area, i. e., Mòcheno, Cimbrian, Saurano, Sappadino, or any of the Ladin varieties. Participants were recruited through personal contacts, the university network, and cultural institutes, as well as through social media and local newspapers and broadcasts. Some forms of participant recruitment have proven more successful than others. During the earliest stages of the project, the outreach mainly took place in Trentino and South Tyrol through university networks, with the University of Trento and the Free University of Bozen/ Bolzano being responsible for the majority of Trentino and Tyrolean participants. Recruitment and dissemination activities were also carried out through contacts with several cultural institutes, which are committed to the preservation and the promotion of local language varieties (e. g., Bersntoler Kulturinstitut, Unions de Ladins), which has helped to engage the minority languages which are otherwise difficult to reach due to, e. g., geographical distance and/ or limited number of speakers. In addition, it has also been featured in local newspapers and broadcasts, and promoted via social networks, in particular Facebook and Instagram, by being shared on pages and groups for local communities’ members or concerned with the dissemination of the local language varieties. However, the recruitment did not yield the expected results in terms of new participants if we compare the number of people who interacted with the posts (i. e., by liking, sharing, and commenting the project) with those who actually took part in the linguistic survey. Thus, while social networks have proven to be useful for the outreach of the overall project, they have not been that effective for participant recruitment. The most successful recruitment has been achieved via the VinKiamo subproject (in collaboration with the Regional School Office for Veneto) which actively involves local schools in finding participants. In this subproject, students from secondary schools act as “research assistants” by going into their local communities, recruiting participants across different generations of speakers, and offering technical support to those who need it. The subproject encourages a bilateral transfer of knowledge between the advanced digital skills of younger generations and the rich cultural and linguistic knowledge of the elderly speakers of the local speech varieties spoken in the Veneto area (including Cimbrian and the Ladin varieties), and raising the awareness of the widespread multilingualism characterizing the area. Besides the positive effects of community engagement, VinKiamo has also very clear numerical advantages with respect to recruitment. In fact, the amount of available data for Venetan dialects has greatly increased after the beginning of the project, both in terms of sampled locations (from 44 to 245) and of collected questionnaires (from 88 to 1113). This recruiting approach has been extremely effective in providing a better coverage <?page no="207"?> THE VINKO CORPUS 207 of the Veneto area, and has also made the sample much more representative for the general speech population. In general, online data collection lends itself better to younger generations of speakers than older generations, a trend noted in other online linguistic projects, e. g. Atlas zur deutschen Alltagssprache and Dialäkt Äpp (cf. Leemann et al. 2015), due to the technical skills needed for participation. Apart from this overall effect of the online medium, the participant recruitment methods strongly influence the sociolinguistic profiles of the speakers. For example, the Tyrolean speakers have been almost exclusively recruited through the Faculty of Education of the Free University of Bozen/ Bolzano. As a result, the sociolinguistic profiles of the Tyrolean speakers reflect this very specific population, i. e. they are relatively young with an average age of 25 and predominantly identify as female (91%). For comparison, the Trentino and Venetan participants have been recruited via a variety of different channels. As a result, the sample for these varieties is more balanced with respect to gender, i. e. 47% of Trentino and 56% of Venetan participants identify as female. The average age of participants is also considerably higher, i. e. 39 years for Trentino and 49 years for Venetan participants. 2.4 Privacy and data protection During their registration on the VinKo platform, participants are asked to consent to the privacy and data-protection conditions of the license Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Italy (CC BY-NC-SA 3.0 IT). During registration participants create a personal profile by providing their email address. The email addresses are encrypted and not accessible to the research team ensuring that data collection is anonymous, and that participants and responses cannot be linked. The created profile enables participants to pause data collection and return to the questionnaires at a later point, and request deletion of their data should they wish to do so in the future (in compliance with the General Data Protection Regulation of the European Union). 3. Corpus data 3.1 Nature of the corpus Remove The VinKo Corpus V1.1 is composed of a total of 125.465 audio files. There are audio recordings available for all the language varieties investigated except for Sappadino (only added recently). More precisely, the dataset contains: 13.617 audio files for Trentino, 518 for Mòcheno, 743 for Cimbrian, 194 for Gardenese Ladin, 1.242 for Badiot Ladin, 499 for Fassan Ladin, 2.455 for Fodom Ladin, 1.680 for Anpezan Ladin, 305 for Saurano, 90.918 for Venetan, and 13.294 for Tyrolean. The quality and <?page no="208"?> ANNE KRUIJT/ STEFAN RABANUS/ MARTA TAgLIANI 208 validity of the crowdsourced data has been proven by comparing them with the data from the AThEME project (hdl.handle.net/ 20.500.12124/ 53, Tomaselli et al. 2022) which were collected in traditional field work (cf. Kruijt/ Cordin/ Rabanus in press). The dataset can be accessed through three distinct interfaces, which we briefly present in the following sections. 3.2 Admin/ Researcher account The admin/ researcher account provides access to the entire set of available data. This interface is suitable for comparative research as it allows the user to effectively navigate through the dataset and identify relevant data using filtering options. Access to this section of the VinKo platform is available to external researchers upon request and free of cost. The admin interface is composed of four main sections. i)-In “Summary”, the user can find quantitative information on the gathered data such as the total amount of collected questionnaires and the number of questionnaires for each language variety. ii)-“Questions” displays the stimuli organized along the same subdivision used in the linguistic questionnaire (i. e., “Words”, “Sentences”, and “Tales”). In each section, the stimuli are then filtered by language variety. Once the data has been filtered, the list of stimuli is displayed, with the realization in standard Italian (Tyrolean: standard German) and the dialectalized one (for “Words” section only). Each stimulus is associated with an ID enabling the users to identify data of possible interest for their research. Using the stimulus ID information retrieved from “Questions”, the user can navigate through iii)- the “Audio” section, and listen to specific audio recordings. The structure of this section, which includes the collected audio files, mirrors that of ii), that is, the audio files are first subdivided by level of linguistic analysis, and then filtered by language variety. Moreover, the research can be further refined by filtering the data per locality. Based on the applied filters (e. g., Tyrolean speakers from Meran realizing the item Stådl), the list of audio files realized by the different speakers is displayed. The user can then listen to the specific recordings and consult the speakers’ personal information which is disclosed along with each audio file. This information can also be consulted in iv)- the “Questionnaires” section, which includes a list of all the speakers who took part in the linguistic survey together with the personal data they supplied upon registration. Also in this section, the user can browse through the participants by filtering per language variety and, if needed, geographical location. 3.3 Repository To ensure the long-term preservation and the accessibility of the material outside of the platform, the gathered data has been reorganized and archived in an external database (handle: hdl.handle.net/ 20.500.12124/ 46, Rabanus et al. 2022). The dataset <?page no="209"?> THE VINKO CORPUS 209 can be freely accessed and downloaded from the repository of the Eurac Research CLARIN Centre (ERCC). The ERCC is a local disciplinary repository for linguistic data hosted by the Institute for Applied Linguistics (IAL) at Eurac Research, based in Bozen (South Tyrol). As part of the European CLARIN infrastructure, the centre adheres to well-defined international standards for (meta)data and procedures following the FAIR principles of the data (Findable, Accessible, Interoperable, and Reusable) in order to facilitate the transparency and the reproducibility of the research as well as the results’ distribution. The dataset has therefore been formatted and structured according to these standards to guarantee the interoperability with commonly used software and hardware with the aim of making the data findable and publicly accessible. The repository is organized in thirteen main folders. i)-The collected audio recordings are organized in 11 subfolders based on language variety and overall size (max 2GB): 6 folders for Veneto, 3 folders for Tyrolean, 1 folder for Trentino, and 1 cumulative folder for Ladin varieties, Cimbrian, Mòcheno and Saurano. The audio files are formatted in a loss-less enduring and interoperable format (i. e., flac); ii)-“Metadata” contains structured human readable metadata providing all relevant information for the interpretation of the audio recordings. The table “Users” includes information on the speakers’ language variety, geographic location, and their sociolinguistic profile, as well as the period of data collection and possible comments on questionnaire administration. Three tables named after the questionnaire sections include relevant information on the linguistic stimuli at each level of linguistic analysis. For each item, the table “Words” provides information on the phonological features investigated, the word context (e. g., initial word position) and the target phoneme or the specific context of realization. The table “Sentences” reports information about the syntactic topic and the target variable (e. g., pro-drop of the second person). Last, the table “Tales” includes information on the morphosyntactic features examined, the type of task, and the image paired as visual context. The whole set of images is collected in iii) the “Images” folder. The audio file label provides the information needed to retrieve the information about the linguistic stimulus and the speaker who made the recording from the corresponding metadata tables. For example, the audio file S0106_vec_U0306 provides the following information: the stimulus ID (S0106, where the first letter indicates the questionnaire section-- in this case “Sentences”), the language variety of the speaker (vec, i. e., Venetan), and the speaker ID (U0306). This labelling ensures a univocal correspondence between the audio file and stimulus and speaker information. As a result, VinKo data stored in the repository is remove please citable and can be linked to the corresponding audio recordings, enhancing the interpretation and the reuse of the data as well as the referencing in publications, as shown below in (1). <?page no="210"?> ANNE KRUIJT/ STEFAN RABANUS/ MARTA TAgLIANI 210 (1) Perché ride=lo Gianni ? why laugh.3 SG.PRS -3 SG.M Gianni ? ‘Why is Gianni laughing? ’ (Rabanus et al. 2022, S0106_vec_U0306) This data reorganization optimizes the accessibility and the reproducibility of the data by other researchers and projects, meeting the open and transparent research goals formulated by the European Union. Data from the corpus has already been used in publications like a Grammar of Central Trentino (Casalicchio/ Cordin 2020) and in students’ theses at the University of Verona. 3.4 Interactive map Free dissemination of research results is an important part of engaging the general public with scientific research, showcasing the work being done, and rendering research goals and outcomes visible, transparent, and tangible. The VinKo corpus opens its data to the general public via its public website. Since the data collection is entirely crowdsourced, the local speech communities are actively involved in the completion of the research project. The public website represents the project’s ‘giveand-take’ approach, which repays the efforts put into the data provision by freely providing access to research results and focusing on the recognition of dialects and minority languages as important cultural heritage. The website has the general aim of promoting the awareness of multilingualism in the area and showcasing the amount of linguistic variety present. The website can be accessed without credentials, and all pages are available in Italian and German, the standard languages of the local speech communities, and in English for a larger international audience. Fig.-1: “Listen & Explore”, available at www.vinko.it/ listen-explore.php? lang=en <?page no="211"?> THE VINKO CORPUS 211 The “Listen & Explore” section is the core of the data representation area and contains audio data mapped by location on an interactive map, GIS “Geographic Information System”. The map displays the audio recordings for selected sentences and words, which can be chosen from a drop-down menu and filtered for language variety or location. Stimuli have been selected for their cross-linguistic comparability to make the dataset as informative as possible to a non-specialist audience, who can use the map to learn more about the different varieties in their area and compare different language varieties. Those who participated in the questionnaires can find their own recordings on the map representing their local variety, rendering visible and validating their efforts. The community-directed website is not just a way to reward the efforts of the participants, but also serves to directly render the local languages more visible and include them as part of the digital domain, which can be a way of aiding the maintenance of local languages and raising prestige for the dialect varieties. An online presence and representation of minority and non-standard languages has been proven to have a positive effect on language prestige and language vitality, and it can provide new domains of use for local varieties and be a way of strengthening relations in dispersed communities (cf. Eisenlohr 2004; Graziano 2020). The knowledge of having an ‘own’ language and being able to actively contribute to its documentation can be a powerful way of increasing the prestige and perceived value of the local languages in the eyes of participants. It can serve to reinforce local use and using the new technologies can stimulate contact between older and younger generations of speakers (cf. Jones 2014), which is further encouraged by the subproject VinKiamo (cf. section-2.3). 4. Summary The VinKo corpus V1.1 gives access to more than 125.000 audio files from the investigated varieties, which allows for cross-linguistic analyses for a selection of phonological, morphological and syntactical phenomena. The corpus is accessible via three different interfaces; the admin/ researcher account of the VinKo platform (cf. 3.2), the ERCC repository (cf. 3.3), and the community-directed interactive map (cf. 3.4). In conclusion, the VinKo corpus provides access to a large-scale data set of interlingual geolinguistic audio files suited for empirical linguistic research, while also allowing for community engagement and promotion. References Casalicchio, Jan/ Cordin, Patrizia (2020): Grammar of central Trentino: A Romance dialect from north-east Italy. (=-Grammars and sketches of the world‘s languages. Romance languages-13). Leiden/ Boston: Brill. doi.org/ 10.1163/ 9789004430976. <?page no="212"?> ANNE KRUIJT/ STEFAN RABANUS/ MARTA TAgLIANI 212 Cordin, Patrizia/ Rabanus, Stefan/ Alber, Birgit/ Mattei, Antonio/ Casalicchio, Jan/ Tomaselli, Alessandra/ Bidese, Ermenegildo/ Padovan, Andrea (2018): VinKo. In: Krefeld, Thomas/ Bauer, Roland (eds.): Lo spazio comunicativo dell’Italia e delle varietà italiane. In: Korpus im Text. www.kit.gwi.uni-muenchen.de/ ? p=13739&v=2 (accessed: 13.12.2022). Eisenlohr, Patrick (2004): Language revitalization and new technologies: Cultures of electronic mediation and the refiguring of communities. In: Annual Revue of Anthropology-33, pp.-21-45. doi.org/ 10.1146/ annurev.anthro.33.070203.143900. Graziano, Teresa (2020): Minority language communities and the web in Italy. In: Brunn, Stanley D./ Kehrein, Roland (eds.): Handbook of the changing world language map. Vol.-6. (=- Springer Reference). Cham: Springer, pp.- 3683-3702. doi.org/ 10.1007/ 978-3-030- 02438-3_41. Jones, Mari C. (2014): Endangered languages and new technologies. Cambridge: Cambridge University Press. doi.org/ 10.1017/ CBO9781107279063. Kruijt, Anne/ Cordin, Patrizia/ Rabanus, Stefan (in press): On the validity of crowdsourced data. In: Pustka, Elissa/ Quijada Van den Berghe, Carmen/ Weiland, Verena (eds.): Corpus Dialectology: from methods to theory (French, Italian, Spanish). Amsterdam/ Philadelphia: Benjamins. Leemann, Adrian/ Kolly, Marie-José/ Britain, David/ Purves, Ross/ Glaser, Elvira (2015): Documenting sound change with smartphone apps. In: Journal of the Acoustical Society of America-137,-4, pp.-2304-2304. https: / / doi.org/ 10.1121/ 1.4920412. Rabanus, Stefan/ Kruijt, Anne/ Tagliani, Marta/ Tomaselli, Alessandra/ Padovan, Andrea/ Alber, Birgit/ Cordin, Patrizia/ Zamparelli, Roberto/ Vogt, Barbara Maria (2022): VinKo (Varieties in Contact) Corpus v.1.1. hdl.handle.net/ 20.500.12124/ 46 (accessed: 13.12.2022). Tomaselli, Alessandra/ Kruijt, Anne/ Alber, Birgit/ Bidese, Ermenegildo/ Casalicchio, Jan/ Cordin, Patrizia/ Kokkelmans, Joachim/ Padovan, Andrea/ Rabanus, Stefan/ Zuin, Francesco (2022): AThEME Verona-Trento Corpus. hdl.handle.net/ 20.500.12124/ 53. <?page no="213"?> SABINE HACHMEISTER/ SANDRA TIETJENS/ REBEKKA WANKA/ CHARLOTTE-STEHR/ MICHAEL BECKER-MROTZEK Forschungsdatenbank Lernertexte (FD-LEX) Abstract Die webbasierte Forschungsdatenbank Lernertexte (FD-LEX) ist eine stetig wachsende Datenbank, die Textprodukte samt ausgewählter Meta- und Testdaten der Probandinnen und Probanden aus verschiedenen Schreibforschungsprojekten zur wissenschaftlichen Nachnutzung bereitstellt. Die Korpora umfassen mehrere tausend Texte auf Deutsch. Weitere Texte in den Sprachen Türkisch, Russisch, Englisch und Französisch folgen in den Jahren 2022 und 2023. In unserem Beitrag wird der Aufbau der Forschungsdatenbank FD-LEX samt bereits vorhandener Korpora und Recherchemöglichkeiten vorgestellt sowie kurz auf einige Aufnahmekriterien für Daten aus weiteren Forschungsprojekte eingegangen. Außerdem erfolgt ein kurzer Einblick in ein Wortschatzprojekt, welches die in FD-LEX enthaltenen Daten für eigene Zwecke nutzt. Keywords: Schreibforschung, Forschungsdatenbank, Schülertexte, Lernertexte, FD-LEX, Schreibkompetenz 1. Von der Idee zur Datenbank In nahezu allen wissenschaftlichen Forschungsprojekten werden digitale Forschungsdaten erhoben. Da diese Daten innerhalb eines Projektes zumeist nur unter bestimmten Gesichtspunkten ausgewertet werden (nämlich im Hinblick auf die jeweiligen Forschungsfragen des Projektes) und darüber hinaus nur ausgewählte Aspekte beispielsweise in Promotionsarbeiten der teilnehmenden Mitarbeiterinnen und Mitarbeiter oder für wissenschaftliche Artikel weiter vertieft werden, bleibt das volle Potenzial der gesammelten Daten oft ungenutzt und liegt nach Projektende brach. In den seltenen Fällen, in denen die Daten nachträglich frei zugänglich für weitere Forschung gemacht werden, erfolgt dies überwiegend in nutzerunfreundlicher Art und Weise. Beispielsweise in Form von ausladenden Excel-Tabellen oder extrem umfangreichen Word- oder PDF-Dateien mit Texten oder sonstigen Daten. Eine Verknüpfung der bereitgestellten Daten oder gar eine Suchfunktion für die gegebenenfalls besonders interessanten Aspekte zur Nachnutzung existieren in den seltensten Fällen. Dieses ungenutzte Potenzial unzähliger Forschungsdaten wurde erkannt und wird von vielen Mittelgebern mittlerweile bei den Vorgaben zur Gestaltung von Forschungsanträgen berücksichtigt. Denn bereits bei der Beantragung von Forschungsprojekten ist es nun notwendig, detaillierte Daten-Managementpläne zu erstellen und Möglichkeiten der Datennachnutzung beziehungsweise -bereitstellung aufzu- DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="214"?> SABINE HACHMEISTER ET AL. 214 zeigen und sowohl zeitlich als auch finanziell mit einzukalkulieren, da dies ein maßgebliches Bewilligungskriterium der jeweiligen Anträge darstellt. Die DFG (2022) schreibt hierzu beispielsweise: Ein fachspezifisch adäquater Umgang mit Forschungsdaten […] ist ein wesentlicher Bestandteil qualitätsorientiert und anschlussfähiger Forschung. Deshalb muss der Umgang mit Forschungsdaten, sowie mit Objekten, die diesen zugrunde liegen, sorgfältig geplant, dokumentiert und beschrieben werden. Eine Nachnutzungsmöglichkeit der Forschungsdaten sowie evtl. der Objekte durch andere sollte, wann immer möglich, angestrebt werden. Die gewonnenen Daten sollen nach Auswertung im Projekt also möglichst niedrigschwellig, etwa in Form von Open-Source-Materialien oder in anderer, leicht zugänglicher Form, für eine breite Nachnutzung durch weitere Forscherinnen und Forscher zugänglich gemacht werden. Institutionen wie das DIPF Leibniz-Institut für Bildungsforschung und Bildungsinformation, das GESIS Leibniz-Institut für Sozialwissenschaften oder das Institut zur Qualitätsentwicklung im Bildungswesen (IQB) haben sich als Infrastruktureinrichtungen für die Archivierung und Bereitstellung von Umfragedaten, Daten aus Kompetenz- und Leistungsmessungen sowie qualitativen Daten wie Videoaufzeichnungen von Unterrichtsbeobachtungen etabliert. Bei der Suche nach Publikationsbzw. Bereitstellungsmöglichkeiten für die Forschungsdaten aus unserem Verbundprojekt „Unterrichtliche Förderung von Teilkomponenten der Schreibkompetenz“ (FdKz: 01GJ1208A/ B) stießen wir auf unterschiedliche Möglichkeiten der Archivierung und Bereitstellung von Texten samt zugehöriger Meta- und Testdaten der Schreiberinnen und Schreiber. Größtenteils handelte es sich dabei aber um Zeitungsarchive oder literarische Textkorpora. Eines der wenigen Projekte, in denen vergleichbare Texte aus einem deutschsprachigen Forschungsprojekt bereitgestellt wurden, ist das Textkorpus „Text-Sorten-Kompetenz“, das an der Universität zu Köln von Augst et al. (2007) bereitgestellt wurde. Es macht die im Forschungskontext entstandenen Texte in einem fortlaufenden Dokument in tabellarischer Form und einer zusätzlichen kurzen Projektbeschreibung sowie den Originalschreibaufträgen abrufbar. Für die Nutzung der Texte ist keine Registrierung erforderlich. Es besteht jedoch ebenso wenig die die Möglichkeit, weitere Informationen zu den Probandinnen und Probanden zu erhalten. Dies entsprach nicht unserer gewünschten Vorstellung der Datenbereitstellung. Für die Veröffentlichung oder Bereitstellung von geschriebenen Texten in Kombination mit weiteren Metadaten gab es somit keine Angebote, die für unsere Zwecke geeignet waren. Für Forschungsdaten, wie sie in unseren Studien zur Schreibforschung entstanden, bildete eine solche Archivierungs- und Bereitstellungsinfrastruktur noch ein Desiderat. Das ist umso mehr verwunderlich, als eine solche Dateninfrastruktur einen <?page no="215"?> FORSCHUNgSDATENBANK LERNERTEXTE (FD-LEX) 215 wichtigen Beitrag zu Forschungs- und Wissenstransfer leistet, indem die Möglichkeit generiert wird, Wissen zu teilen, zugänglich zu machen und weiterzuentwickeln. Unser Ziel war es daher, die im Projekt zu den jeweiligen Schreibaufgaben erhobenen Texte verknüpft mit den übrigen Forschungsdaten (ausgewählte Meta- und Testdaten zu den Probandinnen und Probanden) in Form einer Datenbank samt Recherchemöglichkeiten zur Verfügung zu stellen. Denn erst in Kombination mit Hintergrundinformationen zu den Schreiberinnen und Schreibern sowie den gestellten Schreibaufgaben und Projektdetails bilden die Texte unserer Meinung nach einen echten Mehrwert für die Nachnutzung. So entstand die Idee zur Entwicklung einer Datenbank, die genau auf unsere Bedürfnisse und Wünsche zugeschnitten war und für Forschende aus dem Bereich der sprachlichen Bildung (sowohl in Forschung als auch in der Lehre) sowie für Studierende eben diesen Mehrwert bilden kann. 1.1 Scriptoria und die Entwicklung von FD-LEX Nachdem das Ziel, die Entwicklung einer interaktiven, webbasierten Datenbank zur Recherche im Textkorpus aus Schülertexten des BMBF-Projekts „Unterrichtliche Förderung von Teilkomponenten der Schreibkompetenz“ (Scriptoria) definiert war, ging es um die Gewinnung von Projektpartnern für die finanzielle und technische Umsetzung. Die Datenbank entstand schließlich als ein gemeinsames Projekt des Mercator-Instituts für Sprachförderung und Deutsch als Zweitsprache der Universität zu Köln sowie unserem Projektpartner aus der Verbundarbeit, der Professur für Pädagogische Psychologie der Leibniz-Universität Hannover unter Mitarbeit des Regionalen Rechenzentrums der Universität zu Köln (RRZK). Finanziell wurde das Projekt von der Stiftung Mercator gefördert. Da die Forschungsdaten in Form von Scans der Originaltexte, Transkripten der Texte sowie Meta- und Testdaten bereits in digitaler Form vorlagen, bestand der nächste Schritt darin, die Daten erneut zu bereinigen. Unvollständige Datensätze wurden entfernt und festgelegt, welche weiteren Daten und Metadaten zur Nachnutzung bereitgestellt werden sollten. Anhand des so entstandenen Datensatzes begann die technische Umsetzung in Zusammenarbeit mit dem Regionalen Rechenzentrum der Universität zu Köln. Hauptbestandteil dieser technischen Umsetzung war zunächst die Generierung bzw. der Aufbau der Datenbank selbst und anschließend die Migration der Textdateien samt zugehöriger Metadaten und ausgewählter Testergebnisse sowie ihre Verknüpfung innerhalb der Datenbank. Anschließend musste ein Abfragealgorithmus für die Suchmaske konfiguriert und die Ausgabemöglichkeiten der Abfrageergebnisse für den Export erstellt werden. Zuletzt wurden noch Informations- und Beschreibungstexte zu den Projektdaten und Erhebungsverfahren generiert und eingespeist. Nach einem ersten internen Probeeinsatz und kleinerer Anpassungen konnten alle Daten <?page no="216"?> SABINE HACHMEISTER ET AL. 216 und Funktionen wie geplant in der Datenbank zur Verfügung gestellt werden. So konnte FD-LEX nach der Entwicklungsphase im Jahr 2017 zu Beginn des Jahres 2018 online geschaltet werden. Nach einmaliger Registrierung unter Angabe des Forschungsinteresses, der Institution und Angaben zur Person haben Forscherinnen und Forscher sowie Studierende nun niedrigschwellig die Möglichkeit auf die Datenbank zuzugreifen. Dieses Verfahren soll sicherstellen, dass die Korpora ausschließlich zur wissenschaftlichen Nachnutzung verwendet werden. Zu dieser Art der Nutzung verpflichten sich interessierte Nutzerinnen und Nutzer im Rahmen der Anmeldung verbindlich. Insgesamt umfasst das sogenannte Scriptoria-Textkorpus (Becker-Mrotzek/ Grabowski 2018) 5.628 Texte von 938 Schülerinnen und Schülern auf Deutsch. Von den Schülerinnen und Schülern der fünften und neunten Klassen an Gesamtschulen und Gymnasien in Hannover und Köln wurden im Rahmen des Forschungsprojekts zu drei Messzeitpunkten je zwei Texte geschrieben: ein argumentativer Text und ein Berichtstext. Zu allen Schülerinnen und Schülern liegen außerdem anonymisierte Metadaten zu Alter, Geschlecht, Sprachbiographie sowie der letzten Deutschnote auf dem Zeugnis vor. Zusätzlich sind Ergebnisse aus dem Alphabet Task, dem Salzburger Lesescreening und einem Wortschatztest (aus dem CFT 20-R Intelligenztest) sowie ein aggregiertes Globalurteil (Rating) zur Textqualität jedes einzelnen Schülertextes hinterlegt. Alle im Projektkontext entstandenen Lernertexte liegen in transkribierter Form im PDF-Format und als Scans der handschriftlichen Originale vor. Beide Versionen der Texte werden in der Datenbank bereitgestellt. Zusätzlich können die Daten anhand verschiedener Kriterien nach den eigenen Interessen gefiltert werden. Zu jeder Filtervariable sind dabei in der Datenbank kurze Erläuterungen hinterlegt. Die Filtermöglichkeiten für das Scriptoria-Korpus beinhalten: Geschlecht (m/ w), Sprachbiographie (nur Deutsch/ Deutsch plus Zweitsprache/ Deutsch als Zweitsprache), Klassenstufe (5- und 9), Klassenverband (Gym/ Ge und dortige Klassenverbände), Abb.-1: Suchmaske mit Filtervariablen für das Scriptoria-Korpus <?page no="217"?> FORSCHUNgSDATENBANK LERNERTEXTE (FD-LEX) 217 Gruppe (Kontrollgruppe/ Interventionsgruppe), Textsorte (Bericht/ Argumentation), Messzeitpunkt MZP (1-3), das Alter der Probandinnen und Probanden zum ersten Messzeitpunkt in Monaten, die letzte Deutschnote der SuS (abgefragt zum ersten Messzeitpunkt), die Anzahl der geschriebenen Wörter und die Möglichkeit die Ergebnisse nach Alter, Messzeitpunkt oder Note auf- oder absteigend zu sortieren. Einen Eindruck der Suchmaske vermittelt die Abbildung- 1: Die Variablen Alter, Deutschnote sowie die Anzahl der geschriebenen Wörter lassen sich hierbei als Spanne angeben. Die Rechercheergebnisse können anschließend als Excel- und Datentabelle ausgegeben werden, die transkribierten und die handschriftlichen Lernertexte als PDF- Dateien. Außerdem liegen in der Datenbank auf der jeweiligen Korpusseite zentral die Informationen zum jeweiligen Forschungsprojekt, dem Forschungsdesign sowie den dort verwendeten Schreibimpulsen vor. Diese Informationen befinden sich auf der jeweiligen Korpusseite unter den Reitern Metadaten und Weiteres (siehe Abb.-1 oben). Aktuell hat die Datenbank rund 1030 Nutzerinnen und Nutzer (Stand: Januar 2023). Überwiegend handelt es sich dabei um Forscherinnen und Forscher von Universitäten, Pädagogischen oder Fach- und Volkshochschulen, Stiftungen und Leibniz-Instituten aus Deutschland, Österreich und der Schweiz. Die Forschungsinteressen reichen dabei von Unterschieden im Wortschatzumfang zwischen Mehr- und Einsprachigen über die Entwicklung verbalsprachlicher und schriftsprachlicher Fähigkeiten im schulsprachlichen Register bis hin zu Orthografiedidaktik. Für Studierende dienen die bereitgestellten Daten oft als Grundlage für Hausarbeiten zu ähnlich vielfältigen Themen oder werden als authentische Beispiele für Textbewertungen herangezogen. Auch für größer angelegte, geförderte Forschungsprojekte wurden die Daten bereits angefragt, als während der Corona-Pandemie eigene Datenerhebungen an Schulen nicht umsetzbar waren. Je bekannter FD-LEX wurde, desto häufiger erreichten uns Anfragen, ob geplant sei die Datenbank für weitere Korpora zu öffnen. Da dies nur einmal mehr deutlich machte, dass diese neu geschaffene Dateninfrastruktur eine bestehende Lücke geschlossen hatte, waren wir gern bereit auch anderen Projekten dabei behilflich zu sein, ihre Daten zur Nachnutzung bereitzustellen. 2. Ausbau der Datenbank Mit Unterstützung des Verbunds Forschungsdaten Bildung (VerbundFDB) des DIPF Leibniz-Institut für Bildungsforschung und Bildungsinformation konnte somit Ende 2019 das Projekt zum Ausbau der Datenbank starten. Im VerbundFDB-arbeiten einschlägige, nationale Einrichtungen aus dem Bereich der Bildungsforschung gemein- <?page no="218"?> SABINE HACHMEISTER ET AL. 218 sam daran, ein attraktives und qualitativ hochwertiges Angebot an Forschungsdaten für die empirische Bildungsforschung bereitzustellen (vgl. VerbundFDB 2022). Andere Projektpartner sind zum Beispiel die Forschungsdatenzentren von IQB, GESIS oder auch des DZHW. Ziel des Ausbauprojekts war es, eine nachhaltige Infrastruktur für die Bereitstellung und weitere Nutzung von Lernertexten samt Metadaten zur Verfügung zu stellen, indem sukzessive Korpora aus weiteren Forschungsprojekten aufgenommen werden. Die operative Projektleitung lag dabei bei den Mitarbeiterinnen des Mercator-Instituts für Sprachförderung und Deutsch als Zweitsprache, die technische Umsetzung übernahm wieder das Regionale Rechenzentrum der Universität zu Köln. Die technische Herausforderung beim Ausbau und der Erweiterung lag vor allem darin, die ursprünglich nur auf das Scriptoria-Korpus ausgelegte Datenbankstruktur so anzupassen, dass auch weitere Korpora mit anderen Datenstrukturen ohne größere Komplikationen aufgenommen werden können. Im ersten Schritt wurde deshalb ein Textkorpus gesucht, das als Probekorpus fungieren konnte und anhand dessen die technischen Schwierigkeiten bei der Aufnahme anders strukturierter Daten eruiert werden konnten. Hierfür wurde uns von Prof. Thorsten Pohl und Kolleginnen und Kollegen das in den Jahren 2001 bis 2003 erhobene Korpus aus dem Projekt „Text-Sorten-Kompetenz“ zur Verfügung gestellt (vgl. Augst et al. 2007). Das sogenannte TSK-Korpus umfasst 585 Texte von 39 Schülerinnen und Schülern auf Deutsch. Das Projekt war als Longitudinalstudie ausgelegt, die die Entwicklung der Textkompetenz im Grundschulalter untersucht hat und an der Universität Siegen durchgeführt wurde. Es wurde anhand von zwei Klassen ermittelt, wie sich die Fähigkeit von Kindern in der 2., 3. und 4.-Klasse entwickelt, Texte im Rahmen verschiedener kommunikativer Anforderungen (Textsorten) zu schreiben: Erzählung, Bericht, Instruktion, Beschreibung, Argumentation. Die Daten wurden für die Aufnahme in FD-LEX zunächst auf die gleiche Art und Weise aufbereitet, wie die des Scriptoria-Korpus einige Jahre zuvor. Da hierbei allerdings die technisch sehr fehleranfällige Methode zum Einsatz gekommen war, Metadaten aus den Textdokumenten zu extrahieren, war schnell klar, dass zukünftig eine einfachere und weniger fehleranfällige Methode genutzt werden musste. Aus den bei der Aufnahme des TSK-Korpus gesammelten Erfahrungen entstand letztlich eine Leitlinie für Aufnahmekriterien von Textkorpora. Auf formaler Ebene beinhalten diese beispielsweise, dass nur vollständige Datensätze aufgenommen werden, zu denen auch Begleit- und Kontextmaterialien zur Verfügung stehen. Inhaltliche Kriterien betreffen zum Beispiel das Vorhandensein eines Kernsets an (Meta-)Daten wie der Bezeichnung der Textsorte oder auch der transkribierten <?page no="219"?> FORSCHUNgSDATENBANK LERNERTEXTE (FD-LEX) 219 Texte selbst. Auf technischer Ebene sind aus den bisherigen Erfahrungen zwei verschiedene Verfahren erwachsen, die sich für die Datenaufbereitung und -aufnahme anbieten. Während die Textdaten bei kleineren Korpora über eine Excel- Tabelle eingespeist werden, arbeitet das zweite Verfahren mit den Textdateien selbst und die Aufnahme läuft unter anderem über die Ordnerstruktur der Daten. Detailliertere Angaben zu den Aufnahmekriterien sind auf der Datenbankseite (FD-LEX 2018) selbst und der dazugehörigen Website des Mercator-Instituts 1 zu finden. FD-LEX wurde im Jahr 2021 in den Verbund Forschungsdaten Bildung integriert. Gemeinsam mit dem VerbundFDB arbeitet FD-LEX daran, die Datensätze an zentraler Stelle über das Portal forschungsdaten-bildung.de nachzuweisen. Zudem sollen Forschende in Zukunft eigene Daten über das Portal an FD-LEX melden können. Beides soll über eine gemeinsame Schnittstelle laufen, die sich aktuell noch in der Entwicklung befindet. Im Zuge dieser Kooperation wird auch an einem Metadaten- Kernset gearbeitet, das als Grundlage für alle Mitglieder des VerbundFDB gelten soll und somit einen qualitativen Minimalstandard in die noch sehr unterschiedlich ausgeprägte Landschaft der Forschungsmetadaten bringt. Die technische Umsetzung der Schnittstelle auf Seiten von FD-LEX übernimmt wiederum das Regionale Rechenzentrum der Universität zu Köln. Im Dezember 2021 fand der Relaunch der Datenbank-Website mit dem neu integrierten TSK-Korpus statt. Von nun an sollen stetig neue Textkorpora in FD-LEX aufgenommen werden. 2.1 Ausblick: Aufnahme weiterer Korpora Für das Jahr 2023 ist die Aufnahme von zwei weiteren Textkorpora geplant. Eines davon stammt aus dem Projekt „Schreiben im Fachunterricht der Sekundarstufe- I unter Einbeziehung des Türkischen“ (SchriFT) der Universität Duisburg-Essen und umfasst ca. 3.700 Texte von etwa 1.300 Schülerinnen und Schülern. Da Texte sowohl auf Deutsch als auch auf Türkisch enthalten sind und es sich um fachspezifische Textsorten der Fächer Deutsch (Instruktion), Türkisch (Instruktion), Geschichte (Historisches-Sachurteil), Physik (Versuchsprotokoll), Politik (Politisches-Urteil) und Technik (Technische-Analyse) handelt, ist das Korpus besonders divers. Das zweite Korpus entstammt dem Forschungsprojekt „Mehrsprachigkeitsentwicklung im Zeitverlauf “ (MEZ) der Universität Hamburg und umfasst in etwa 15.000 Texte in deutscher, türkischer, russischer, französischer und englischer Sprache. Die Aufnahme der umfangreichen Daten aus diesem Projekt wird dank der Kooperation 1 https: / / www.mercator-institut-sprachfoerderung.de/ de/ forschung-entwicklung/ forschungsbasiertedienstleistungen/ forschungsdatenbank-lernertexte/ (Stand: 2.1.2023). <?page no="220"?> SABINE HACHMEISTER ET AL. 220 von FD-LEX mit dem VerbundFDB verteilt ablaufen. So wird das Forschungsdatenzentrum am IQB unter anderem die quantitativen Daten der Sprachtests aufnehmen, das Forschungsdatenzentrum Bildung am DIPF Leibniz-Institut die Instrumente und FD-LEX die qualitativen Textdaten mit den benötigten Metadaten. Das Vorgehen der verteilten Archivierung stellt auch in Zukunft eine gute Möglichkeit dar, um umfangreiche Daten aus Projekten der Schreibforschung optimal für die Nachnutzung bereitzustellen. 3. Nachnutzung der Daten 3.1 Beispiel Wortschatzprojekt am Mercator-Institut für Sprachförderung und Deutsch als Zweitsprache Derzeit werden die frequentesten Wörter aus dem Scriptoria-Korpus in einem weiteren Projekt des Mercator-Instituts verwendet. In einem Team aus Sprachwissenschaftlerinnen und -wissenschaftlern sowie Fachdidaktikerinnen und -didaktikern findet seit dem Jahr 2019 die Entwicklung der webbasierten Datenbank „Referenzwortschatz für die Schule“ im Dialog mit Lehrkräften statt. Das Korpus des Referenzwortschatz, dem das digitale Lexikon zugrunde liegt, umfasst ca. 5.000 Wörter, die jeweils mit begrifflich vernetzten Informationen (wie Aussprache, thematischen Feldern, Grammatik, Herkunft, Orthografie und Häufigkeit) versehen werden. Eine systematische sprachwissenschaftlich und sprachdidaktisch begründete Zusammenstellung dieser schulbezogenen Wortschatz-Ressourcen in einer digitalen, webbasierten Anwendung macht eine passgenaue Abfrage von Wortschätzen basierend auf im schulischen Kontext relevante Korpora für unterschiedliche Fächer und Schulstufen (von der ersten bis zur zehnten Klasse) möglich. Alle relevanten Informationen zu einzelnen Wörtern des Korpus können mit Hilfe von ca. 120 Filteroptionen gefiltert eingesehen und heruntergeladen werden. Dabei orientieren sich die Filter am Verzeichnis grundlegender grammatischer Fachausdrücke der KMK. Nach einer niederschwelligen und kostenlosen Registrierung können über die Anwendung Wortlisten aus drei Teilkorpora (a.-Orthografiewortschätze der Länder, b.-wissenschaftlich fundierte Schreibwortschätze, c.-projekteigenes Schulbuchkorpus der Fächer Deutsch, Sachkunde, Physik und Geografie) abgefragt und heruntergeladen werden. Die häufigsten Wörter aus dem Scriptoria-Korpus werden im Teilkorpus „Schreibwortschatz“ des Referenzwortschatzes eingespeist. Der Referenzwortschatz kann zur individuellen Förderung von Schülerinnen und Schülern sowie zur Unterrichtsplanung und -entwicklung von Lehrkräften und Mitarbeitenden von Bildungseinrichtungen (z. B. Erwachsenenbildung, Hochschulen, Kindertageseinrichtungen) genutzt werden, zudem von Verlagen bei der Entwick- <?page no="221"?> FORSCHUNgSDATENBANK LERNERTEXTE (FD-LEX) 221 lung und Erstellung passender Unterrichtsmaterialien. Auch bietet sich das Tool für wissenschaftliche Forschungszwecke an, beispielsweise bei der Entwicklung und Evaluation von Methoden und Diagnoseinstrumenten. Die Veröffentlichung des Referenzwortschatzes für die Schule ist für das Jahr 2023 geplant. Weitergehende Informationen zum Projekt findet man auf der Projekthomepage. 2 Literatur Augst, Gerhard/ Disselhoff, Katrin/ Henrich, Alexandra/ Pohl, Thorsten/ Völzing, Paul-Ludwig (2007): http: / / www.uni-koeln.de/ phil-fak/ deutsch/ pohl/ tsk/ content/ korpus.htm (Stand: 12.12.2022). Becker-Mrotzek, Michael/ Grabowski, Joachim (2018). Textkorpus Scriptoria. In: Becker-Mrotzek, Michael/ Grabowski, Joachim (Hg.): FD-LEX (Forschungsdatenbank Lernertexte). Köln: Mercator-Institut für Sprachförderung und Deutsch als Zweitsprache. Verfügbar unter: https: / / fd-lex.uni-koeln.de. DOI: 10.198716/ FD-LEX/ 861 (Stand: 12.12.2022). DFG (2022): https: / / www.dfg.de/ foerderung/ grundlagen_rahmenbedingungen/ forschungs daten (Stand: 12.12.2022). FD-LEX (2018): Forschungsdatenbank Lernertexte. Herausgegeben von Michael Becker- Mrotzek und Joachim Grabowski. Köln: Mercator-Institut für Sprachförderung und Deutsch als Zweitsprache. Verfügbar unter: https: / / fd-lex.uni-koeln.de (Stand: 12.12.2022). VerbundFDB (2022): https: / / www.forschungsdaten-bildung.de/ ueber-uns (Stand: 12.12.2022). 2 https: / / www.mercator-institut-sprachfoerderung.de/ de/ forschung-entwicklung/ aktuelle-projekte/ referenzwortschatz-fuer-die-schule/ (Stand: 12.12.2022). <?page no="223"?> YUAN LI/ ZEKUN WU Chinesisches Deutschlerner-Korpus (CDLK) Ein umfangreiches Korpus mit Mehrebenen-Annotation und multidimensionalen-Metadaten Abstract Der Beitrag widmet sich der Darstellung des Chinesischen Deutschlerner-Korpus (CDLK). Bei diesem Korpus handelt es sich um eine erweiterte Ressource für ein Lernerkorpus des Deutschen als Fremdsprache, in dem die von chinesischen DaF-Schüler/ -innen sowie -Studierenden in aufeinanderfolgenden Lernphasen im Unterricht handschriftlich geschriebenen Texte zu verschiedenen Themen elektronisch archiviert sind. Diese Texte werden auf mehreren Ebenen annotiert und mit multidimensionalen Metadaten versehen. Das Korpus-Design und die Datenaufarbeitung werden hier erläutert. Und die ersten Untersuchungen, die anhand des Korpus durchgeführt wurden, veranschaulichen die vielseitige Nutzbarkeit des Korpus für Fragestellungen im Bereich L2-Erwerb. Keywords: Lernerkorpus, Chinesische Deutschlerner, Deutsch als Fremdsprache, Mehrebenen-Annotation, multidimensionale Metadaten 1. Motivation 1 Die deutsche Sprache erlebt in China seit der Jahrtausendwende einen Boom, egal ob an Schulen, Universitäten oder Sprachschulen. Laut den drei Berichten „Deutsch als Fremdsprache weltweit“ 2000, 2015 und 2020 (Abb.-1) ist die Zahl der Deutschlerner in China im internationalen Vergleich stetig gestiegen. Im Jahr 2020 gibt es sogar 20% mehr Deutschlerner als noch vor 5-Jahren, was stark mit der Veröffentlichung des ersten Bildungsstandards für DaF an Sekundarschulen im Jahr 2018 vom chinesischen Bildungsministerium zusammenhängt. Demnach wird Deutsch offiziell in Schulen und in die Hochschulaufnahmeprüfung eingeführt. Es ist vorauszusehen, dass die Nachfrage nach Deutschlernen in China in Zukunft weiter rapide ansteigen wird. 1 Der Beitrag präsentiert ein Teilergebnis des Forschungsprojekts „Aufbau eines chinesischen Deutschlernerkorpus und Erforschung der Schriftkompetenzentwicklung der Lernenden“ (20BYY103). DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="224"?> YUAN LI/ ZEKUN WU 224 Abb.-1: Zahl der Deutschlerner weltweit und in China 2 Die drastische Zunahme der Deutschlernenden in China hat es notwendig gemacht, die Merkmale sowie die dynamische Entwicklung der Sprachkompetenz, insbesondere der Schriftkompetenz dieser Gruppe empirisch zu untersuchen, um die Qualität des Deutschunterrichts zu verbessern. Dafür fehlt es jedoch an notwendiger Korpusunterstützung. Weltweit gesehen enthalten nur einige Lernerkorpora (Falko, AleSKo, Kobalt und KICG-Korpus) schriftliche Texte chinesischer Deutschlerner. Die ersten drei wurden in Deutschland erstellt, enthalten allerdings zum einen nur wenige Texte von Chinesen und zum anderen nur die von fortgeschrittenen Studierenden (39, 43 bzw. 20 Texte auf dem Niveau B2). Das KICG-Korpus aus China besteht aus Prüfungsaufsätzen chinesischer Deutschstudent/ -innen, ist aber nicht öffentlich zugänglich. Insgesamt ist zu erkennen, dass die aktuellen Korpora nur über relativ einseitige Genres und keine umfassenden Deutschniveaus sowie Lernstufen verfügen. Demzufolge sind empirische Untersuchungen zu den chinesischen Deutschlernern eingeschränkt vorhanden. Nur wenige stützten sich auf Korpora. So untersuchten Qi (2011), Chen (2014) und Liu (2014) in ihren Doktorarbeiten Kohäsion, Kohärenz und lexikalische Fehler der Prüfungstexte von chinesischen Germanistikstudierenden. Die anderen verfolgten eher einen qualitativen und induktiven Ansatz. Liu (1997) fasste die Fehler chinesischer Deutschlernender in der Grundstufe der Uni auf der Grundlage von Beobachtungs- und Prüfungsanalysen zusammen, was ein früher Versuch war, die Schriftkompetenz von Deutschlernenden in China zu untersuchen. Die weiteren Untersuchungen fokussierten sich überwiegend auf die Fehleranalyse, die Interpunktion, Wortschatz, Syntax u. a. umfasst, sowie auf Sprachtransfer, Tempus, Textstruktur usw. (Timmermann 2005; Skiba 2008; Shi 2009; Zhang 2013; Si 2014; Guan/ Ma 2014). Diese Studien zielen nur auf Studierende ab, selten auf Schüler/ -innen, die zwar zurzeit noch die kleinste Gruppe darstellen, aber das größte Potenzial aufweisen. 2 Vgl. Auswärtiges Amt: Deutsch als Fremdsprache weltweit. Datenerhebung 2000, 2015, 2020. <?page no="225"?> CHINESISCHES DEUTSCHLERNER-KORPUS (CDLK) 225 All dies hat dazu geführt, dass man sich bei der Erstellung von Curricula, der Entwicklung von Qualitätskriterien sowie Lehrmaterialien und bei der Lehrerqualifizierung stärker auf Erfahrungen und Eindrücke stützt, als auf empirische Belege. Angesichts der Konvergenz von Fremdsprachdidaktik und Korpus, auf die Leech (1997) hinweist, wird seit 2020 ein umfangreiches „Chinesisches Deutschlerner-Korpus“ (CDLK) unter der Leitung von Prof. Dr. Yuan Li an der Zhejiang Universität aufgebaut, mit der Perspektive, empirische Untersuchungen zu ermöglichen und auf deren Grundlage fundierte Erkenntnisse zur Verfügung zu stellen. 2. Korpus-Design Angesichts der Bedarfsanalyse zielt das CDLK darauf ab, den Schriftspracherwerb in jeder Lernstufe in Schule und im Studium umfassend aufzudecken. Im Korpus werden noch die Texte, die von denselben Lernenden in bestimmten zeitlichen Abständen geschrieben werden, aufgenommen. Dieses umfangreiche und stufenübergreifende Korpus ist noch mit Mehrebenen-Annotation und multidimensionalen Metadaten ausgestattet. 2.1 Zusammensetzung Im CDLK werden Texte mit unterschiedlichen Themen und verschiedenen Genres (Tab.-1) gesammelt, die von chinesischen Deutschlernern im Unterricht handschriftlich innerhalb von 30 Minuten ohne Hilfsmittel produziert werden. Die Erhebung findet jedes Jahr im Juni und Dezember statt, kurz vor Ende jedes Semesters. Thema 1 Thema 2 Thema 3 Thema 4 Thema 5 Thema 6 Schüler/ -innen Meine Familie Meine Hobbys Bildbeschreibung Handy im Unterricht oder nicht Ein besonderes Erlebnis Meine Neujahrswünsche Student/ -innen Arbeiten oder Weiterstudieren nach dem Abschluss deskriptiv deskriptiv argumentativ bildbeschreibend argumentativ erzählend deskriptiv Tab.-1: Themen und genres im Korpus CDLK Diese Themen sind eng mit dem Alltag chinesischer Deutschlerner verbunden und umfassen verschiedene Schreibaufgaben wie deskriptive, argumentative, erzählende und bildbeschreibende, um den schriftlichen Spracherwerb aus umfassenden Perspektiven zu erforschen. <?page no="226"?> YUAN LI/ ZEKUN WU 226 Alle im Korpus enthaltenen Themen bzw. Schreibaufgaben basieren zum einen auf den Vorschlägen von erfahrenen Deutschlehrenden und zum anderen auf den Lehrbüchern der Deutschlernenden und haben den Pretest bestanden. Alle Aufgaben und Themen sind auf Chinesisch gestellt (Abb.- 2). Die Lernenden werden ermutigt, möglichst viel und frei zu schreiben. Abb.-2: Aufgabe zum Thema 4 als ein Beispiel 3 2.2 Eigenschaften des Korpus 2.2.1 Umfang Die Texte im Korpus CDLK stammen aus verschiedenen Regionen Chinas. Insgesamt haben 23 Schulen und Universitäten verschiedener Typen teilgenommen. Das Korpus bildet mithin die Geographie und die Bildungslandschaft repräsentativ ab. Außerdem deckt das CDLK alle Niveaus bzw. Lernstufen ab. Es werden sowohl Deutschlerner, die seit Anfang der Unterstufe der Mittelschule Deutsch lernen, als auch solche, die erst in der Universität Deutsch lernen, erfasst. Neben der Texterhebung von Deutschlernern in verschiedenen Schulen und Universitäten sowie auf verschiedenen Lernstufen zum gleichen Zeitpunkt wählte das CDLK auch eine Klasse (insgesamt 30 Deutschlerner) in einer repräsentativen Schule aus, die seit Anfang der Unterstufe Deutsch lerne. Diese Gruppe wurde drei Jahre lang verfolgt und ihre Texte wurden alle sechs Monate regelmäßig gesammelt. Bisher beträgt der Umfang des Korpus CDLK insgesamt 5715 Texte, wovon 2475 Texte aus Unterstufen von Mittelschulen, 1390 Texte aus Oberstufen von Mittelschulen und 1850 Texte von Universitäten stammen. 3 Deutsche Übersetzung: Dürfen die Schüler/ -innen Handys mit in die Schule bringen? Bitte nehmen Sie Stellung. Schreiben Sie auf Deutsch und verwenden Sie möglichst viele und reichhaltige Sprachausdrücke. <?page no="227"?> CHINESISCHES DEUTSCHLERNER-KORPUS (CDLK) 227 2.2.2 Mehrebenen-Annotation Ein wichtiger Teil des CDLK ist die Mehrebenen-Annotation. Nach der Vorverarbeitung wie z. B. Tokenisierung und Satzspannen werden die Texte 4 mit Hilfe verschiedener Programme in Bezug auf Lexik, Syntax und Fehler annotiert. Zur Sicherung der Reliabilität werden die Texte in drei Runden annotiert. Die lexikalische Annotation umfasst Wortart und Lemma eines Wortes. Die syntaktische Annotation bezieht sich hauptsächlich auf die Dependenz-Annotation der syntaktischen Ebene, einschließlich der Annotation von Dependenzbeziehungen und -distanz zwischen Wörtern im Text. Die Fehlerkategorien wurden auf Basis von Fehlertaxonomie 5 im Rahmen des Dulko-Projektes (Universität Szeged und Institut für Deutsche Sprache Mannheim) leichter revidiert, differenziert und bereichert, um sich den Äußerungen chinesischer Deutschlerner kultursensibel und -spezifisch anzupassen. Die Abweichungen von den Originaläußerungen werden nicht nur auf der Normalisierungsebene (Orthografie, Morphosyntax, Morphologie, Syntax), sondern auch auf der Ebene der Lexik, Semantik, Logik, des Stils und Transfers annotiert. So gibt es unter syntaktischen Fehlern eine Valenzkategorie, dabei wie Verb-, Substantiv-, Adjektiv- und Adpositionsvalenz, und auch Reflexivpronomen in der Verbvalenz sowie Wechselpräpositionsvalenz. Dies sind zwei Arten von Fehlern, die chinesische Lerner häufiger machen. 2.2.3 Multidimensionale Metadaten Metadaten im CDLK werden multidimensional gesammelt, sowohl unter Deutschlernenden, als auch unter Deutschlehrenden, von persönlichen Informationen, z. B. Alter, Geschlecht, über Sprachlerninformation wie Deutschlerndauer, Erlernen anderer Sprachen und Sprachniveau bis Unterrichtsinformationen wie Lernmaterialien (Abb.-3). 4 Aus kapazitätengründen wurde z. Z. nur ein kleiner Teil der Texte annotiert. 5 Diese Fehlertaxonomie hat uns Dr. Hagen Hirschmann während seiner Gastdozentur an der Zhejiang Universität im September 2019 zur Verfügung gestellt. <?page no="228"?> YUAN LI/ ZEKUN WU 228 Abb.-3: Metadaten unter Deutschlernenden und Deutschlehrenden Zusammenfassend kann der Aufbau des Korpus durch Abbildung- 4 dargestellt werden: Abb.-4: Der Prozess des CDLK-Aufbaus 3. Arbeitsablauf bei der Aufarbeitung eines Textes in CDLK In diesem Teil wird vorgestellt, wie ein Text nach der Erhebung schrittweise aufgearbeitet wird. 3.1 Transkription Die Texte werden zunächst handschriftlich auf Papier gesammelt. Nach dem Scannen wird daraus ein PDF-Dokument. Dann erhält man einen Rohtext im txt-Format <?page no="229"?> CHINESISCHES DEUTSCHLERNER-KORPUS (CDLK) 229 nach der manuellen Transkription, wobei die Absatzumbrüche des Originaltextes beibehalten werden. Obwohl sich alle Verfasser/ -innen bei der Einreichung ihrer Texte bereit erklärt haben, ihre Texte für die Verwendung zu wissenschaftlichen Zwecken zur Verfügung zu stellen, sollten die Texte anonymisiert werden, um die Möglichkeit der Offenlegung der Identität dieser Deutschlerner auf ein Minimum zu beschränken. Jeder Text wird mit einem Code versehen, der von den verschiedenen Variablen des Lerners und den Aufgabentypen abhängt, zu denen beispielsweise die Anzahl der Semester, die Lernphase, das Thema, die Erhebungszeit, der Schul- oder Uniname usw. gehören. 3.2 Annotation Ein rohes Lernerkorpus ist zwar an sich schon eine äußerst nützliche Ressource, doch wäre es noch nützlicher, wenn es eine zusätzliche Informationsebene enthielte, die auch gezählt, sortiert und verglichen werden könnte (vgl. Granger 2004, S.-128). Das Korpus CDLK übernimmt das Annotationsmodell mit „Lexik + Syntax + Fehler“, um das Korpus auf mehreren Ebenen der deutschen Sprache zu annotieren. CDLK hält sich an drei Hauptprinzipien der Annotation, nämlich „Originaltreue“, „Konsistenz in Bezug auf dasselbe sprachliche Phänomen“ und „Verwendung eines gängigen Annotationssystems“. 3.2.1 Lexikalische und Fehler-Annotation Das CDLK-Korpus orientiert sich am FALKO-Korpus (Reznicek et al. 2012). Die Annotation wird mit EXMARaLDA (Schmidt/ Wörner 2014) (Dulko) 6 vorgenommen. Die lexikalische Annotation von Wortarten und Lemmata erfolgt automatisch in EXMARaLDA (Dulko), basierend auf TreeTagger für lexikalische Annotation im Deutschen (Schmid 1994) und dem STTS-Tagset (Schiller et al. 1999). Es gibt zwei Hauptschritte bei der Fehlerannotation. Zunächst korrigiert man einen Originaltext, um so die „Zielhypothese“ aufzustellen. Auf dieser Grundlage werden die Abweichungen (ZHDiff) zwischen der Zielhypothese und den Originaläußerungen automatisch von EXMARaLDA (Dulko) identifiziert. Dann wird jeder Fehler 6 EXMARaLDA (Dulko) ist ein Werkzeug auf Basis des EXMARaLDA Partitur-Editors mit Transformationsszenarien für die Annotation von Lernerdaten, die Tokenisierung, Part-of-Speech-Tagging, Lemmatisierung, Satzspannenberechnung, Bearbeitung von Zielhypothesen, Erkennung von Unterschieden zwischen Zielhypothesen und Lernertext, Fehleranalyse und Metadatenmanagement unterstützen (Hirschmann/ Nolda 2019; Nolda 2019). <?page no="230"?> YUAN LI/ ZEKUN WU 230 manuell lokalisiert und auf der jeweiligen Fehlerkategorie verschiedener Ebenen positioniert. Ein Beispiel dazu sieht wie im Folgenden aus. Abb.-5: Ein Beispiel für Annotation in EXMARaLDA (Dulko) Wenn ein bestimmter Fehler verschiedenen Fehlerkategorien zugeordnet werden könnte, folgt CDLK der „begrenzten Mehrfachannotation eines Fehlers“. Das heißt, wenn der Fehler als eine Art auf ein ähnliches Phänomen interpretiert werden kann, folgt der CDLK dem Prinzip „von der größte Fehlerkategorie zur kleinsten“, beispielsweise sollte ein falsches Wort erst nach Ausschluss anderer Ursachen, wie Grundform und Wortbildung, als Wortschreibungsfehler eingestuft werden. Wenn eine Stelle als Fehler mehrerer Typen klassifiziert wird, beispielsweise sowohl falsche Wortstellung als auch falsche Valenz, sowie auch orthographische Fehler, wird dieser Fehler auf allen drei entsprechenden Ebenen annotiert. 3.2.2 Syntaktische Annotation Auf syntaktischer Ebene wählt das Korpus CDLK das Modell der deutschen Dependenzgrammatik von Foth (2006) als Dependenz-Annotationsregel, da es relativ umfassend und einfach zu handhaben ist. Darüber hinaus ermöglicht es dem CDLK einen einfachen Vergleich mit anderen Dependenzbaumbanken, da die bestehenden Baumbanken für geschriebenes Deutsch der Lerner, wie CREG-109 und Falko- 100dep, ebenfalls Annotationsregeln von Foth (2006) verwenden. Als Annotationsprogramm wird ParZu (The Zurich Dependency Parser for German) (Sennrich et al. 2009; Sennrich/ Volk/ Schneider 2013) gewählt, das auf Foths (2006) Modell der deutschen Dependenzgrammatik basiert. Die Dependenz-Annotation wird auf der Grundlage des unveränderten Originaltextes der Lerner entwickelt. Nach der automatischen Verarbeitung durch ParZu ist eine weitere Überprüfung erforderlich (siehe 3.3). Es ist erwähnenswert, dass bei <?page no="231"?> CHINESISCHES DEUTSCHLERNER-KORPUS (CDLK) 231 einem lexikalischen Fehler das betroffene MorphMerkmal gelöscht wird; und bei einer falschen Wortstellung die Wortstellungsnummer des Regens, die von dem Wortstellungsfehler betroffen ist, gelöscht wird, da die falsche Wortordnung im Text die Dependenzdistanz beeinflusst. Schließlich könnten die Annotation auf verschiedenen Ebenen desselben Textes mit Hilfe von EXMARaLDA Add-In für MS Excel kombiniert werden (Abb.-6). Abb.-6: Ein Beispiel für Mehrebenen-Annotation 3.3 Überprüfung Aufgrund der Besonderheiten der Lernersprache und der den Programmen innewohnenden Ungenauigkeiten sowie der unvermeidlichen Subjektivität der manuellen Annotation sind die Annotationsergebnisse nach nur einer Runde weniger zuverlässig. Um eine hundertprozentige Übereinstimmung von verschiedenen Annotatoren zu erreichen und die Auswertungsobjektivität sowie Retest-Reliabilität zu sichern, werden die Texte im Korpus CDLK in drei Runden annotiert, derzeit hauptsächlich bzgl. Syntax und Fehler. Bei der syntaktischen Annotation wird mit der automatischen Annotation angefangen, gefolgt von der Back-to-Back-Überprüfung durch zwei Annotatoren. Bei der Fehler-Annotation gibt es keine automatische Annotation. Nach der Back-to-Back- Annotation gibt es anschließend noch eine Überprüfung durch eine(n) deutsche(n) Muttersprachler(in) oder erfahrene Deutschlehrende. 4. Verwendung von CDLK bei der L2-Erwerbsforschung Der schrittweise Aufbau dieses Korpus hat eine Reihe von korpusbasierten Untersuchungen querschnittlich oder längsschnittlich aus einer bestimmten Perspektive ermöglicht. Im Folgenden zeigen wir exemplarisch, wie das Korpus CDLK vielseitig genutzt werden kann. <?page no="232"?> YUAN LI/ ZEKUN WU 232 4.1 Beispielstudie 1 Eine Untersuchung zum Gebrauch des Verbs führt Li (2022) im Schriftdeutschen chinesischer Lernender durch. Die Studie zielt darauf ab, die Distribution und die Fehler der Verbvalenz bei chinesischen Deutschlernern sowohl aus einer allgemeinen als auch aus einer dynamischen entwickelnden Perspektive zu analysieren und zu interpretieren. Als theoretischer Rahmen wird hier die multidimensionale Valenztheorie eingesetzt und ein Modell zur Analyse der Valenzmerkmale deutscher Verben für Lerner auf der Grundlage einer Kombination mit der „herkömmlichen“ Valenztheorie konstruiert, was insbesondere in Bezug auf die Bestimmung und Klassifizierung von Verbvalenz innovativ ist. Anhand eines korpuslinguistischen Ansatzes werden drei Gruppen chinesischer Deutschlerner in Mittelschulen mit gleichem Einstiegsalter und unterschiedlicher Lerndauer untersucht. Nach einer Analyse auf syntaktischer und semantischer Ebene werden auch die Gründe der verbalen Valenzfehler der Lernenden aus linguistischer und pädagogischer Sicht erläutert und interpretiert. 4.2 Beispielstudie 2 Schreibentwicklungsvorgänge lassen sich immer auch als ein Vorgang des Aufbaus textueller Komplexität begreifen (vgl. Augst et al. 2007, S.-279). Wu/ Li (2022) analysieren die syntaktische Komplexität in Texten chinesischer DaF-Anfänger/ -innen aus einem Gymnasium und aus zwei Universitäten und setzen syntaktische Komplexität in Beziehung zur Lerndauer. Zunächst werden verschiedene Messmethoden zur Ermittlung syntaktischer Komplexität vorgestellt und verglichen, von der Phrasenstruktur über die Dependenzdistanz bis zur Profilanalyse. Nach der theoretischen Auseinandersetzung wird die Profilanalyse als ein angemessenes Komplexitätsmaß für DaF-Anfänger/ -innen gewählt. Zusammenfassend ist eine enge Verbindung zwischen der syntaktischen Komplexität und der Lerndauer des Deutschen zu erkennen, nämlich je länger Deutsch gelernt wird, desto größer ist die syntaktische Komplexität, unabhängig von Schule oder Universität. Die Lehr- und Lernumgebung gilt möglicherweise als ein Einflussfaktor für die syntaktische Komplexität. Konsequenzen sollen entsprechend für die Verbesserung der Lehre gezogen werden. 4.3 Beispielstudie 3 Darüber hinaus wird der Transfer erforscht, der bei dem Zweitspracherwerb und der Sprachdidaktik schon lange ein zentrales Thema ist. Zhang (2022) nimmt den negativen orthographischen und morphologischen Transfer beim Lernen der Dritt- <?page no="233"?> CHINESISCHES DEUTSCHLERNER-KORPUS (CDLK) 233 sprache (Chinesisch, Englisch und Deutsch) in den Blick. Im Rahmen der kontrastiven Analyse setzt sich diese Arbeit mit den Arten und der Entwicklungstendenz der spezifischen Transfers beim Schriftdeutschen chinesischer Schüler/ -innen auseinander. Den Forschungsgegenstand bilden 135 Lernertexte aus derselben Schule mit drei verschiedenen deutschen Lernstufen. Daraus ergibt sich die Schlussfolgerung, dass die Entwicklung der Transfers auf orthographischer sowie morphologischer Ebene beim Schriftdeutschen chinesischer Schüler/ -innen komplex ist. Während sich die Gesamtzahl der negativen orthographischen Transfers mit der zunehmenden Lerndauer der deutschen Sprache verringert, zeigen die negativen morphologischen Transfers hingegen eine Fluktuation auf. Jede Subkategorie dieser negativen Transfers folgt ganz verschiedenen Entwicklungsregelmäßigkeiten. Im Unterricht sollten die Lehrer/ -innen solchen negativen Transfers besondere Aufmerksamkeit widmen, um die ungünstigen L1- und L2- Auswirkungen auf die L3 der Lernenden zu verringern. 5. Fazit In diesem Beitrag haben wir die Konzeption des CDLK dargestellt, das schriftliche Texte chinesischer Deutschlerner im Unterricht stufenübergreifend von der ersten Unterstufe der Mittelschulen über die Oberstufen bis zum vierten Jahrgang der Universitäten enthält und für möglichst vielseitige Fragestellungen im Bereich L2-Erwerbsforschung nutzbar sein soll. Hinzugefügt werden in diesem umfangreichen Korpus zum einen lexikalische, syntaktische bzw. Fehler-Annotationsebenen auf Basis der rohen Texte, zum anderen multidimensionale Metadaten zu den jeweiligen Deutschlernenden und -lehrenden. Es wird systematisch vorgestellt, wie ein Text für das Korpus CDLK bearbeitet wird. Neben der ständigen Erweiterung und Aktualisierung gibt es für die Korpusarbeit noch weitere Aufgaben. Um über eine möglichst korrekte Annotationsbasis im CDLK zu verfügen, muss die lexikalische Annotation, d. h. die automatische Annotation der Wortarten und Lemmata manuell überprüft und korrigiert werden. Eine weitere Aufgabe besteht darin, das Korpus öffentlich zugänglich zu machen, um allen Interessierten die Möglichkeiten zur Forschung zu eröffnen. Literatur Augst, Gerhard/ Disselhoff, Katrin/ Henrich, Alexandra/ Pohl, Thorsten/ Völzing, Paul-Ludwig (2007): Text- - Sorten- - Kompetenz: Eine echte Longitudinalstudie zur Entwicklung der Textkompetenz im Grundschulalter. (=- Reihe Theorie und Vermittlung der Sprache- 48). Frankfurt a. M.: Lang. <?page no="234"?> YUAN LI/ ZEKUN WU 234 Chen, He (2014): Lexikalische Fehleranalyse in den Aufsätzen der chinesischen Deutschlerner - Eine korpus- und tertiarspracherwerbbasierte Untersuchung. Dissertation. Beijing: Beijing Foreign Studies University. [ 陈鹤 : 中国德语学习者篇章写作中的词汇错误分析 —— 一项基于语料库和三语习得的研究 . 北京外国语大学博士论文 .] https: / / kns.cnki.net/ kcms2/ article/ abstract? v=3uoqIhG8C447WN1SO36whHG-SvTYjkCc7dJWN_daf9c2-Ibms iYfKhYmiiKfAEXtAjSZkW1GZlxmAdyH8_8iwH_W4CUDAl51&uniplatform=NZKPT (Stand: 9.1.2023). Foth, Kilian A. (2006): Eine umfassende Constraint-Dependenz-Grammatik des Deutschen. https: / / edoc.sub.uni-hamburg.de/ informatik/ volltexte/ 2014/ 204/ pdf/ foth_eine_umfassende_. pdf (Stand: 20.4.2022). Granger, Sylviane (2004): Computer learner corpus research: Current status and future prospects. In: Language and Computers-52, S.-123-145. Guan, Qun/ Ma, Jing (2014): Acquisition and preference of tense-aspect in foreign languages-by Chinese students. In: Modern Foreign Languages-5, S.-679-690+731. [ 官群 , 马靖 : 中 国学生对外语时体的习得与使用倾向 . 现代外语 , 第 5 期 , 第 679-690+731 页 .] https: / / kns.cnki.net/ kcms/ detail/ detail.aspx? filename=XDWY201405010&dbname=cjfdtotal&‘ dbcode=CJFD&v=MjQzNTBkbUZpN2tVci9MUFNuY2Q3RzRIOVhNcW85RVpJUjZEZzgv emhZVTd6c09UM2lRclJjekZyQ1VSN21mWnU= (Stand: 9.1.2023). Hirschmann, Hagen/ Nolda, Andreas (2019): Dulko-- auf dem Weg zu einem deutsch-ungarischen Lernerkorpus. In: Eichinger, Ludwig M./ Plewnia, Albrecht (Hg.): Neues vom heutigen Deutsch: Empirisch-- methodisch-- theoretisch. (=- Jahrbuch des Instituts für Deutsche Sprache 2018). Berlin/ Boston: De Gruyter, S.-339-342. Leech, Geoffrey (1997): Teaching and Language Corpora: A Convergence. In: Wichmann, Anne/ Fligelstone, Steven/ McEnery, Tony/ Knowles, Gerry (Hg.): Teaching and language Corpora. (=-Applied linguistics and language study). London: Longman. Li, Xinchi (2022): Eine valenztheoriebasierte Untersuchung zu Distribution und Fehlern beim Gebrauch des Verbs im Schriftdeutschen chinesischer Lernenden. Unveröffentlichte Dissertation. Hangzhou: Zhejiang University. [ 李心驰 : 基于配价理论的中国德语学习者书 面语动词分布特征及偏误研究 . 浙江大学博士论文 .] Li, Yuan et al. (2021): Das Handbuch CDLK. Version 2.0. (Unveröffentlichtes Manuskript). Liu, Huilan (1997): Fehleranalyse von Deutschanfänger/ -innen. In: Journal of Tianjin Foreign Studies University- 3, S.- 25-28. [ 刘慧兰 : 初学德语学生的错误分析 . 天津外国语学院学 报 , 第 3 期 , 第 25-28 页 .] https: / / kns.cnki.net/ kcms2/ article/ abstract? v=3uoqIhG8C44YLTlO AiTRKjkpgKvIT9NkZNmQNo4kSVoKOHv2w_beiyw9khrFRtoiG6P-Hn1HlVhrXmIVJnqg UaCYSrJqzAh_&uniplatform=NZKPT (Stand: 9.1.2023). Liu, Lei (2014): Textkohäsion und Textkohärenz in den Aufsätzen von Germanistikstudenten in China- - Eine korpus- und LSAbasierte Untersuchung. Dissertation. Beijing: Beijing Foreign Studies University. [ 刘磊 : 中国德语专业大学生作文中的篇章衔接与连贯 —— 一项基于语料库与潜伏语义分析的研究 . 北京外国语大学博士论文 .] https: / / kns.cnki. net/ kcms2/ article/ abstract? v=3uoqIhG8C447WN1SO36whHG-SvTYjkCc7dJWN_daf9c2- <?page no="235"?> CHINESISCHES DEUTSCHLERNER-KORPUS (CDLK) 235 IbmsiYfKjSNZ2ca0_GW_jyVXS1adJ3xQAz42pybZKECjnW-lL0U&uniplatform=NZKPT (Stand: 9.1.2023). Lüdeling, Anke/ Kytö, Merja (Hg.) (2009): Corpus Linguistics. An International Handbook. Vol.-2. (=-Reihe Handbücher zur Sprach- und Kommunikationswissenschaft-29.2). Berlin/ Philadelphia: Mouton de Gruyter. Nolda, Andreas (2019): Annotation von Lernerdaten mit EXMARaLDA (Dulko). Berlin: Berlin-Brandenburgische Akademie der Wissenschaften. https: / / andreas.nolda.org/ publications/ nolda_2019_annotation_lernerdaten.pdf (Stand: 20.4.2022). Qi, Dongdong (2011): Kohärenzrelationen in argumentativen Texten chinesischer Germanistikstudenten-- Eine kontrastive korpusbasierte Untersuchung. Unveröffentlichte Dissertation. Beijing: Beijing Foreign Studies University. [ 齐冬冬 : 中国德语专业大学生论证型 篇章中的连贯关系 —— 一项基于语料库的对比研究 . 北京外国语大学博士论文 .] Reznicek, Marc/ Lüdeling, Anke/ Krummes, Cedric/ Schwantuschke, Franziska/ Walter, Maik/ Schmidt, Karin/ Hirschmann, Hagen/ Andreas, Torsten (2012): Das Falko-Handbuch. Korpusaufbau und Annotationen Version 2.01. https: / / www.linguistik.hu-berlin.de/ de/ institut/ professuren/ korpuslinguistik/ forschung/ falko/ FalkoHandbuchV2/ (Stand: 20.4.2022). Reznicek, Marc/ Lüdeling, Anke/ Hirschmann, Hagen (2013): Competing target hypotheses in the Falko corpus: A flexible multi-layer corpus architecture. In: Díaz-Negrillo, Ana/ Ballier, Nicolas/ Thompson, Paul (Hg.): Automatic Treatment and Analysis of Learner Corpus Data. (=-Studies in Corpus Linguistics-59). Amsterdam/ Philadelphia: Benjamins, S.-101-124. Schiller, Anne/ Teufel, Simone/ Stöckert, Christine/ Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS (kleines und großes Tagset). Stuttgart: Universität Stuttgart, Institut für maschinelle Sprachverarbeitung und Universität Tübingen, Seminar für Sprachwissenschaft. http: / / www.sfs.uni-tuebingen.de/ resources/ stts-1999. pdf (Stand: 20.4.2022). Schmid, Helmut (1994): Probabilistic Part-of-Speech Tagging Using Decision Trees. In: Proceedings of the International Conference on New Methods in Language Processing. Manchester, UK, S.-44-49. https: / / www.cis.uni-muenchen.de/ ~schmid/ tools/ TreeTagger/ data/ tree-tagger1.pdf (Stand: 9.1.2023). Schmidt, Thomas/ Wörner, Kai (2014): EXMARaLDA. In: Durand, Jacques/ Gut, Ulrike/ Kristoffersen, Gjert (Hg.): The Oxford Handbook on Corpus Phonology. (=-Oxford handbooks in linguistics). Oxford: Oxford University Press, S.-402-419. Sennrich, Rico/ Schneider, Gerold/ Volk, Martin/ Warin, Martin (2009): A New Hybrid Dependency Parser for German. In: Chiarcos, Christian/ de Castilho, Richard Eckart/ Stede, Manfred (Hg.): Von der Form zur Bedeutung: Texte automatisch verarbeiten. From Form to Meaning: Processing Texts Automatically. Proceedings of the Biennial GSCL Conference 2009. Tübingen: Narr, S.-115-124. Sennrich, Rico/ Volk, Martin/ Schneider, Gerold (2013): Exploiting Synergies Between Open Resources for German Dependency Parsing, POS-tagging, and Morphological Analysis. In: Angelova, Galia/ Bontcheva, Kalina/ Mitkov, Ruslan (Hg.): Proceedings of the Inter- <?page no="236"?> YUAN LI/ ZEKUN WU 236 national Conference Recent Advances in Natural Language Processing RANLP 2013. Hissar, Bulgaria: INCOMA Ltd. Shoumen, S.-601-609. https: / / aclanthology.org/ R13-1079.pdf (Stand: 9.1.2023). Shi, Yiping (2009): Fehleranalyse in schriftlichen Texten chinesischer Germanistikstudenten im Grundstudium. Masterarbeit. Hangzhou: Zhejiang University. [ 施益萍 : 中国德语专业 基础阶段学生作文错误分析 . 浙江大学硕士论文 .] http: / / kns-cnki-net-s.webvpn.zju. edu.cn: 8001/ kcms/ detail/ detail.aspx? db code=CMFD&dbname=CMFD2011&file name=2010076949.nh&uniplatform=NZKPT&v=kjrY-Rx4PNH1llCydlSfvcEvqs6u00E7M w8LyObRhWY13X56egEa79zamRcfN1M4 (Stand: 9.1.2023). Si, Yanan (2014): Auswirkungen von Interferenz auf die Schreibfähigkeit der chinesischen Deutschlernenden im Grundstudium. Masterarbeit. Shanghai: Shanghai International Studies University. [ 司亚楠 : 语言负迁移对德语写作的影响 — 本科德语专业低年级学 生作文的错误分析 . 上海外国语大学硕士论文 .] http: / / kns-cnki-net-s.webvpn.zju.edu. c n: 8 0 0 1/ kc m s / d e t ail/ d e t ail. a s px ? d b c o d e = CM F D&d b n a m e = CM F D 2 0 1 4 0 2&fil e name=1014241842.nh&uniplatform=NZKPT&v=jw8JjhAfkBXIKjIVWTxNJOGX388mv JMIFT-AYqtEutXTu5RVTZGcVypXEQuZg6k8 (Stand: 9.1.2023). Skiba, Dirk (2008): Schriftliches Argumentieren in der Fremdsprache: eine explorativ-interpretative Untersuchung von Interimstexten chinesischer Deutschlerner. (=-Tübinger Beiträge zur Linguistik-514). Tübingen: Narr. Timmermann, Waltraud (2005): Tempusverwendung in chinesisch-deutscher Lernersprache. Eine Analyse auf sprachenvergleichender Basis. (=-Reihe Mehrsprachigkeit-16). Münster: Waxmann. Wen, Qiufang/ Liang, Maocheng/ Yan, Xiaoqin (Hg.) (2008): Spoken and Written English Corpus of Chinese Learners. Version- 2.0. Beijing: Foreign Language Teaching and Research Press. [ 文秋芳 , 梁茂成 , 晏小琴编著 : 中国学生英语口笔语语料库 (2.0 版 ). 北京 : 外语教 学与研究出版社 .]. Wu, Zekun/ Li, Yuan (2022): Zur syntaktischen Komplexität des Schriftdeutschen chinesischer Deutschlerner(innen)- - Eine korpusbasierte Profilanalyse. In: Deutsch als Fremdsprache-4, S.-207-217. Zhang, Xinwen (2022): Negativer orthographischer und morphologischer Transfer im Schriftdeutschen chinesischer Schüler/ -innen. Eine korpusbasierte Querschnittstudie. In: Li, Yuan/ Liu, Fang/ Wang, Zhongxin (Hg.): Didactica, Cultura, Lingua- - Perspektiven des Deutschen. München: Iudicium, S.-352-364. Zhang, Li (2013): Cross-linguistic influence in L2 and L3 sentence processing among L1 Chinese students: evidence from RC attachment preference. Masterarbeit. Shanghai: Shanghai Jiao Tong University. [ 张莉 : 中国学生在英语和德语句子处理过程中的跨语言影响 —— 来自定语从句挂靠倾向的证据 . 上海交通大学硕士论文.] http: / / kns-cnki-net-s. webvpn.zju.edu.cn: 8001/ kcms/ detail/ detail.aspx? dbcode=CMFD&dbname=CMFD201501 &filename=1015028953.nh&uniplatform=NZKPT&v=AlWF4zxKZRim10c1D7PvphA6jI -jeN2REr56LYaTeUExrI1-EiGnSO62yYgcX4Zi (Stand: 9.1.2023). <?page no="237"?> REINER KONRAD/ JULIAN BLEICKEN/ CALVIN KHAN/ AMY ISARD/ gABRIELE-LANgER/ ANKE MÜLLER/ MARC SCHULDER Deutsche Gebärdensprache zugänglich und nutzbar-machen Das Öffentliche DGS-Korpus und das Digitale Wörterbuch der-Deutschen-Gebärdensprache Abstract Das DGS-Korpus-Projekt erstellt ein Referenzkorpus der Deutschen Gebärdensprache (DGS) und macht mit dem Öffentlichen DGS-Korpus und dem korpusbasierten Wörterbuch der DGS diese Sprache in ihrer Vielfalt öffentlich zugänglich. Um den verschiedenen Nutzungsaspekten gerecht zu werden, stehen die Daten des Öffentlichen Korpus in drei verschiedenen Portalen zur Verfügung. Inhalte des Wörterbuchs werden bereits als Vorabeinträge veröffentlicht. Der Artikel gibt einen Überblick über die Inhalte und Funktionen der drei Portale sowie des Wörterbuchs, die untereinander verlinkt sind. Keywords: Deutsche Gebärdensprache (DGS), Korpuserstellung, sprachliche Ressourcen, ANNIS, digitales Wörterbuch, Variation 1. Einführung Die DGS ist eine Minderheitensprache, die vergleichsweise wenig untersucht ist und für die bisher wenig Ressourcen zur Verfügung standen. Sie ist eine stark kontextbezogene, vorwiegend in direkten Gesprächszusammenhängen verwendete Sprache, d. h. von „struktureller Mündlichkeit“ (Fehrmann/ Linz 2009) geprägt. Bisher konnte sich kein Notationssystem als Gebrauchsschrift etablieren und eine Standardisierung der DGS hat nicht stattgefunden. Ihr Wortschatz weist u. a. deshalb eine hohe Variation auf. Die gebärdensprachlinguistische Forschung ist in vielen Fragen noch unentschieden, z. B. in Bezug auf angemessene grammatische Beschreibungskategorien wie z. B. Wortarten oder Satzgrenzen-- Fragen, die auch in der Erforschung der gesprochenen Sprache noch nicht geklärt sind (für gesprochenes Deutsch siehe Westpfahl 2020). Die genannten Strukturmerkmale und Umstände stellen Korpusannotation und Lexikografie vor besondere Herausforderungen. Beispielsweise ist die Bestimmung der Form von Gebärden (Types) angesichts der hohen Varianz im Gebrauch nicht trivial. Da es kein umfassendes Wörterbuch der DGS gibt, muss die Lemmatisierung parallel zum Aufbau einer lexikalischen Datenbank erfolgen. Die Identifikation und Fixierung der Gebärden mithilfe von Glossen muss manuell vorgenommen werden, da es noch keine automatische Gebärdenerkennung gibt. Die lexikogra- DOI 10.24053/ 9783823396024 CLIP 11 (2023) <?page no="238"?> REINER KONRAD ET AL. 238 fische Analyse kann nicht-- anders als bei Sprachen mit langer Grammatik- und Schrifttradition- - auf etablierte Beschreibungskategorien und Analysewerkzeuge zurückgreifen. Im Folgenden gehen wir kurz auf das DGS-Korpus-Projekt und die erhobenen Daten ein. Die genannten Veröffentlichungen geben weiterführende Informationen zu den verschiedenen Arbeitsbereichen. Im Vordergrund stehen die Produkte des Projekts, das Öffentliche DGS-Korpus und das Digitale Wörterbuch DGS-- Deutsch (DW-DGS). 2. Das DGS-Korpus-Projekt Das DGS-Korpus-Projekt ist ein Langzeitvorhaben der Akademie der Wissenschaften in Hamburg, 1 das am Institut für Deutsche Gebärdensprache und Kommunikation Gehörloser der Universität Hamburg durchgeführt wird (2009-2023). Ziel des Projekts ist eine möglichst umfangreiche Erhebung zur Dokumentation der DGS sowie die Aufbereitung der Daten in Form eines annotierten Referenzkorpus. Es soll dazu beitragen, das kulturelle Erbe der Sprachgemeinschaft sichtbar und zugänglich zu machen, und gleichzeitig als Datenbasis sowohl für die lexikografische Analyse als auch für die weitere linguistische Erforschung der DGS dienen. Das DGS-Korpus umfasst ca. 560 Stunden DGS, überwiegend Gespräche zwischen zwei Teilnehmenden. 376 Stunden wurden ins Deutsche übersetzt, davon ca. 113 Stunden Satz für Satz aligniert und ca. 92 Stunden lemmatisiert. Insgesamt enthält das Korpus über 668.000 Tokens (Stand: April 2022). Das Öffentliche DGS-Korpus enthält über 49 Stunden alignierter und lemmatisierter DGS-Videos mit über 374.800 Tokens. 2.1 Veröffentlichungen und Datenmanagement Die Veröffentlichungen des Projekts sind in erster Linie die bereits genannten Produkte, das Öffentliche DGS-Korpus und das DW-DGS, die auf der Grundlage des DGS-Korpus erstellt werden. Seit 2018 ist das Öffentliche DGS-Korpus über zwei Portale zugänglich ( Jahn et al. 2018), seit Release-2 (Sept. 2019) mit dem geplanten Umfang von ca. 50 Stunden Video. In Release-3 ( Juli 2020) kamen weitere Funktionen und Nutzungsmöglichkeiten hinzu (Hanke et al. 2020). Weitere Updates bis zum Abschluss des Projekts sind vorgesehen. Vorabeinträge des DW-DGS sind seit 2018 online verfügbar und werden sukzessive erweitert und überarbeitet. 1 Langzeitvorhaben DGS-Korpus https: / / www.awhamburg.de/ forschung/ langzeitvorhaben/ woerter buch-gebaerdensprache.html (Stand: 24.10.2022). <?page no="239"?> DEUTSCHE gEBäRDENSPRACHE ZUgäNgLICH UND NUTZBAR-MACHEN 239 Wissenschaftliche Veröffentlichungen zu den einzelnen Arbeitsbereichen und Ergebnissen des Projekts findet man auf der Projekt-Homepage, auf der auch zahlreiche Arbeitspapiere der Projektdokumentation öffentlich zugänglich sind. 2 Einen allgemeinen Überblick über die Daten und Metadaten des DGS-Korpus, ihre Erstellung, Aufbereitung und Publikation bietet das Data Statement (Schulder et al. 2021) mit umfassenden Literaturangaben. Beim Datenmanagement wurde auf die Einhaltung der FAIR-Prinzipien (Wilkinson et al. 2016) geachtet (Schulder/ Hanke 2022). Originalaufnahmen sind im Forschungsdaten-Repositorium der Universität Hamburg archiviert. Die veröffentlichten Daten haben für jedes Release sowohl als Ganzes als auch in Teilen (individuelle Transkripte und Type-Einträge) eindeutige und dauerhafte Identifikatoren in Form von DOIs (Digitale Objektbezeichner). Die Metadaten zu allen Transkripten sowie die Annotationskonventionen (Konrad et al. 2022) sind auf den Seiten des Öffentlichen DGS-Korpus verfügbar. Weiterhin besteht die Möglichkeit, im Rahmen einer Forschungskooperation auf den gesamten Bestand der Daten des DGS-Korpus zugreifen zu können. 2.2 Datenerhebung und Aufbereitung Für die Datenerhebung wurde Deutschland in 13 Erhebungsregionen unterteilt. Hierbei wurden die Bundesländergrenzen, die Einzugsbereiche von Gehörlosenschulen, aber auch praktische Erwägungen wie die Erreichbarkeit des Erhebungsortes berücksichtigt. Die Videoaufnahmen wurden von Januar 2010 bis März 2012 an zwölf Orten in einem mobilen Studio durchgeführt, pro Region mit mind. 16-Personen. 3 Die Teilnehmenden wurden von gehörlosen Kontaktpersonen aus der Region vorgeschlagen und anhand eines Fragebogens ausgewählt mit dem Ziel, eine Ausgewogenheit der Variablen Alter, Geschlecht und Region zu erreichen. Insgesamt nahmen 330 Personen teil, die die DGS als Hauptkommunikationsmittel im Alltag nutzen und aktive Mitglieder der Sprachgemeinschaft sind. Die Aufnahmen wurden immer paarweise durchgeführt. Die Teilnehmenden saßen sich gegenüber. Die Gespräche wurden moderiert von einer weiteren gehörlosen Person-- in der Regel der Kontaktperson--, die durch die insgesamt 23 verschiedenen Aufgaben führte. Dadurch gelang es, durchschnittlich fünf Stunden Aufnahmezeit abwechslungsreich zu gestalten. Die beiden Teilnehmenden wurden jeweils frontal und von oben aufgenommen, sowie die Gesamtsituation in der seitlichen Totalen (Hanke et al. 2010). 2 https: / / dgs-korpus.de (Stand: 24.10.2022). 3 Dies ergibt sich durch die Einteilung in vier Altersgruppen. Pro Altersgruppe und Geschlecht sollten mind. 2- Personen aufgenommen werden. Die absolute Zahl der Teilnehmenden pro Region richtete sich nach der Bevölkerungszahl, wobei größere Städte doppelt gewichtet wurden. <?page no="240"?> REINER KONRAD ET AL. 240 Ein Großteil der Aufnahmen wurde von professionellen Dolmetschern und Dolmetscherinnen ins Deutsche übersetzt. Die Annotation und Lemmatisierung wird in iLex (Hanke/ Storz 2008) vorgenommen, einer Kombination aus Annotationswerkzeug und lexikalischer Datenbank. Die Basisannotation leisten im Wesentlichen studentische Hilfskräfte mit guter DGS-Kenntnis. Sie beinhaltet die Alignierung der Übersetzungen sowie die Lemmatisierung der Einzelgebärden und die Annotation von Mundbild oder Mundgestik (siehe Konrad et al. 2022). Im Rahmen der Lemmarevision werden ausgehend von einem Eintrag (Type) in der lexikalischen Datenbank die Einzelgebärden (Tokens), die dieser Gebärde zugeordnet sind, überprüft. Dieser Bearbeitungsschritt, der bisher nur für einen Teil der Gebärden vorgenommen werden konnte, dient zum einen der Qualitätssicherung, zum anderen wird durch eine weitergehende Einteilung der Gebärden in Modifikationen und/ oder Varianten bereits die Detailannotation vorbereitet (Loos/ Konrad 2022). Vor der Veröffentlichung der Daten wurden noch zahlreiche weitere Prüfschritte durchgeführt (Konrad/ Salden 2015). 3. Das Öffentliche DGS-Korpus Neben der wissenschaftlichen Erforschung der DGS, für die das DGS-Korpus eine wichtige empirische Grundlage schafft, ist das Projekt auch der Sprachgemeinschaft verpflichtet, ohne deren Beteiligung das Projekt nicht durchgeführt werden könnte. Für das Öffentliche DGS-Korpus wurden insbesondere Gespräche ausgewählt, die die sprachliche und soziale Situation Gehörloser widerspiegeln und relevant sind für die Kultur dieser Sprachgemeinschaft (Salden/ Konrad 2014). Ein nicht unbeträchtlicher Aufwand musste für die Anonymisierung der Daten geleistet werden, u. a. um persönliche Daten der Teilnehmenden oder weiterer Personen zu schützen (Bleicken et al. 2016). Um die ca. 50 Stunden Videos und Annotationen einem möglichst breiten Personenkreis zur Verfügung zu stellen, bieten wir drei verschiedene, kostenfrei und offen zugängliche Online-Portale an: - MEINE DGS richtet sich an die Sprachgemeinschaft und die interessierte Öffentlichkeit. Die Videos werden mit optionalen deutschen Untertiteln gezeigt, verschiedene Filter ermöglichen eine genauere Auswahl und Suche. - MEINE DGS-- annotiert ist für Nutzerinnen und Nutzer mit einem sprachwissenschaftlichen Interesse an der DGS gedacht, in Deutsch und Englisch, mit Online- Transkripten und umfangreichen Download-Dateien. - MEINE DGS-- ANNIS integriert die annotierten Videos von MEINE DGS-- annotiert in das Korpusanalysetool ANNIS und ermöglicht somit die browserbasierte Ausführung komplexer Suchanfragen. <?page no="241"?> DEUTSCHE gEBäRDENSPRACHE ZUgäNgLICH UND NUTZBAR-MACHEN 241 3.1 MEINE DgS Die Startseite von MEINE DGS (https: / / meine-dgs.de, Stand: 24.10.2022) enthält fünf verschiedene Sammlungen, die sich in drei Kategorien einteilen lassen. Zum einen finden sich dort die Gespräche und Witze des Öffentlichen DGS-Korpus. Diese können anhand einer Deutschlandkarte nach Region gefiltert aufgerufen werden. Zum anderen zeigt die Sammlung „Specials“ themenbezogene Beiträge mit Hinweisen zu interessanten Gesprächen wie z. B. zum Mauerfall aus der Perspektive Gehörloser. Bei der Sammlung „Monatsgebärden“ handelt es sich um eine Auswertung der vielfältigen Variationen der Gebärden für Monatsnamen. 4 Die Videos des Öffentlichen DGS-Korpus können zusätzlich zur Region auch nach Altersgruppe, Gesprächsformat und Themen gefiltert werden. Zu den insgesamt 35 Themen gehören beispielsweise Arbeit und Beruf, Familie und Verwandte oder Politik. Ab Release- 4 gibt es für die Themen sowie 560 Schlagwörter eine Textsuche. Thema und Schlagwörter werden als Liste mit Timecode unterhalb des Videos angezeigt. Durch Klicken auf den Timecode kann man direkt zum Beginn dieser Sequenz springen (siehe Abb.-1). Abb.-1: Ausgewähltes gespräch aus MEINE DgS 4 Hierzu wurden neben den Korpusdaten auch Daten einer Online-Umfrage ausgewertet (Wähl/ Langer/ Müller 2018). <?page no="242"?> REINER KONRAD ET AL. 242 Mit Ausnahme der Witze, die weder übersetzt noch annotiert sind, enthält jedes Gespräch eine deutsche Übersetzung als Untertitel. Zu den Inhalten dieser Übersetzungen gibt es auch eine Textsuche. Die Ergebnisse werden unterhalb der Schlagwort-Liste angezeigt. Ein „FEHLER? “-Button dient dazu, dem Projekt technische oder inhaltliche Fehler zu melden. „VIDEO TEILEN“ listet eine Reihe von Möglichkeiten auf, dieses Video per Mail oder soziale Medien zu teilen. Auch die DOI des Gesprächs kann hierüber ermittelt werden. Weiterhin kann man das Gespräch im Forschungsportal MEINE DGS-- annotiert öffnen. MEINE DGS soll alle ansprechen, die an Gesprächen und Erzählungen in DGS interessiert sind. Die Website bietet einen niedrigschwelligen Zugriff auf die Videos und ist für Personen mit und ohne wissenschaftlichen Hintergrund geeignet. DGS-Dozentinnen und Dozenten können darin Unterrichtsmaterialien finden, fortgeschrittene Lernende der DGS ihr Sprachverständnis trainieren. Gehörlose können darin Interessantes zur Geschichte und Kultur ihrer Sprachgemeinschaft erfahren wie z. B. zu Deaf Events. 3.2 MEINE DgS-- annotiert Das Forschungsportal MEINE DGS- - annotiert (https: / / ling.meine-dgs.de, Stand: 24.10.2022) enthält zusätzlich zu den Videos in MEINE DGS weitere beispielhaft ausgewählte Videos aus den verschiedenen Aufgaben der Erhebung und zeigt somit das gesamte Material des Öffentlichen DGS-Korpus. Um die DGS-Daten auch der internationalen Gebärdensprachforschung zur Verfügung zu stellen, stehen bis auf die Mundbilder die Inhalte aller Seiten auch auf Englisch zur Verfügung. Die Startseite enthält Hintergrundinformationen sowie einen Verweis auf die Annotationskonventionen (Konrad et al. 2022). Die Transkripte sind nach Erhebungsort aufgelistet, können aber auch nach Altersgruppe oder Erhebungsformat sortiert werden. Zu jedem Transkript werden die Themen und Stichwörter verlinkt mit dem entsprechenden Eintrag im Sachindex, der einen Zugang zu den Transkripten über die Inhalte der Videos ermöglicht. Die Videos und Annotations-Dateien werden auch zum Download angeboten, sodass man sie für die eigene Forschung verwenden kann (siehe Abb.-2). 5 5 Neben den Videos der Teilnehmenden enthält dieses Portal auch die Perspektive der Totalen, die den Moderator in der Mitte zeigt, die Teilnehmenden von der Seite. Zu den Videos der Teilnehmenden gibt es auch die OpenPose-Daten sowie die Metadaten (CMDI-Format). Das SRT-Format ist für Programme geeignet, die Untertiteldateien verarbeiten können. Die Dateien enthalten neben den Übersetzungen alle weiteren Annotationen (Glossen, Mundbild/ Mundgestik). Die ELAN- und iLex-Dateien enthalten die vollständigen Annotationen inkl. der Metadaten. <?page no="243"?> DEUTSCHE gEBäRDENSPRACHE ZUgäNgLICH UND NUTZBAR-MACHEN 243 Abb.-2: Transkript-Liste mit Download-Dateien Der Transkriptname ist eine ID dieses Gesprächs und enthält einen Hyperlink zum Online-Transkript (siehe Abb.-3), das die beiden Teilnehmenden sowie die Annotationen zeigt und die Möglichkeit bietet, sich einen Überblick über die Inhalte zu verschaffen. Beim Abspielen des Videos werden die Zeilen der Annotation von unten nach oben passend gescrollt. Beim Klicken in die Timecode-Spalte springt der Film an diese Stelle. Die Timecodes enthalten wiederum einen Hyperlink, der zum Dokumentieren, Zitieren oder Teilen verwendet werden kann. Abb.-3: Online-Transkript Die Glossen sind mit dem entsprechenden Eintrag in der Types-Liste verbunden, die alle Tokens dieses Types in Form einer KWIC-Konkordanz mit max. drei linken und rechten Nachbarn zeigt (siehe Abb.-4). Zusätzlich wird zu jedem Token die Übersetzung sowie der Link zum Transkript (inklusive Erhebungsort, Altersgruppe und Geschlecht) angezeigt. <?page no="244"?> REINER KONRAD ET AL. 244 Abb.-4: Auszug aus der KWIC-Konkordanz der Tokens von EINFACH1 Ein Type-Eintrag beginnt mit einer Studioaufnahme der Zitatform sowie einer HamNoSys-Notation 6 (Hanke 2004) und, sofern bereits vorhanden, Verweisen auf den Vorabeintrag zu dieser Gebärde im DW-DGS sowie zu weiteren lexikalischen Ressourcen (siehe Abb.- 5). Die konventionellen Verwendungen dieser Gebärde- - eine grobe Vorsortierung nach Bedeutungen-- werden als weitere Glossen aufgelistet. 7 Durch Klicken auf die Glossenzeile wird die KWIC-Konkordanz der Tokens sichtbar bzw. unsichtbar gemacht. Abb.-5: Types-Eintrag gLATT1^ mit konventionellen Verwendungen (und ausgeblendeter Auflistung der Tokens) 6 Das Hamburger Notationssystem (HamNoSys) ist ein Zeichensystem zur phonetischen Notation von Gebärden, ähnlich wie eine Alphabetschrift. 7 Zu Type-Hierarchie und doppelter Glossierung siehe Konrad et al. (2022). <?page no="245"?> DEUTSCHE gEBäRDENSPRACHE ZUgäNgLICH UND NUTZBAR-MACHEN 245 MEINE DGS-- annotiert ist konzipiert als Forschungsportal und bietet mit den Online-Transkripten, dem Sachindex und der Types-Liste, die alle zur Lemmatisierung der gezeigten Videos verwendeten Gebärden enthält, die Möglichkeit, sich ein differenziertes Bild von den Daten zu machen. Für die weitere Arbeit mit den Daten stehen diese sowie die Metadaten und OpenPose-Daten (Schulder/ Hanke 2020) als Download-Dateien zur Verfügung. 3.3 MEINE DgS-- ANNIS Seit Juli 2022 wurden die lemmatisierten Videos des Öffentlichen DGS-Korpus in einem weiteren Portal für die sprachwissenschaftliche Erforschung der DGS freigeschaltet: MEINE DGS- - ANNIS (https: / / annis.meine-dgs.de, Stand: 24.10.2022). ANNIS (Krause/ Zeldes 2016) ist ein browserbasiertes Korpussuchwerkzeug, das komplexe Abfragen ermöglicht und bei zahlreichen Korpora bereits eingesetzt wird. Die Ergebnisse können mithilfe einer Frequenzanalyse ausgewertet und grafisch aufbereitet oder exportiert und weiterverarbeitet werden. Die Fundstellen sind immer mit der entsprechenden Videosequenz aligniert. Suchabfragen werden mit der ANNIS Query Language (AQL) 8 geschrieben, die Textsuche inklusive regulärer Ausdrücke erlaubt und verschiedene logische Operatoren anbietet. Damit können Tokens in ihrer zeitlichen Umgebung genauer bestimmt sowie hierarchische Beziehungen und Koreferenzen analysiert werden. Ebenso kann die Anzahl der Nachbar-Tokens, die in der Trefferliste mit angezeigt werden, variabel bestimmt werden. Da bei der Erhebung des DGS-Korpus-Projekts immer zwei Teilnehmende aufgenommen wurden, war es wichtig, zwischen den Annotationsspuren die Beziehung „Beteiligte Person“ („->ident“) zu ergänzen, damit bei zeitlichen Überschneidungen die Annotationen immer der entsprechenden Person zugeordnet werden. Im folgenden Beispiel werden Tokens gesucht, die einem Type zugeordnet sind, dessen Glossenname „KANN“ enthält, und bei denen gleichzeitig zur (manuellen) Gebärde ein Mundbild artikuliert wird, das „nicht“ enthält (siehe Abb.-6). 8 ANNIS User guide: http: / / korpling.github.io/ ANNIS/ 4.6/ user-guide/ aql/ index.html (Stand: 24.10.2022). <?page no="246"?> REINER KONRAD ET AL. 246 Abb.-6: ANNIS-Benutzeroberfläche mit Abfrage-Feld und aufgeklapptem Treffer der Ergebnisliste Die Frequenzanalyse listet die Kombination von Glossen und Mundbildern nach Häufigkeit auf. Dabei fällt auf, dass vor allem die Gebärde KANN1 häufig mit dem Mundbild „kann nicht“ artikuliert wird. Das Sternchen nach dem Glossennamen-- KANN1*- - gibt einen Hinweis darauf, dass in diesen Fällen die Form des Tokens nicht identisch ist mit der Grundform von KANN1 (siehe Abb.-7). Abb.-7: Frequenzanalyse der Ergebnisliste Abfragen und ihre Ergebnisse können auch als URL abgespeichert und geteilt werden. Um den Einstieg zu erleichtern, gibt es Beispiel-Abfragen, die als Vorlage für individuelle Suchabfragen verwendet werden können. Anhand von MEINE DGS- - ANNIS können Aussagen über die DGS überprüft und sprachliche Phänomene und Strukturen untersucht und entdeckt werden wie z. B. zur Negation oder zum metaphorischen Gebrauch von Gebärden (siehe Isard/ Konrad 2022). <?page no="247"?> DEUTSCHE gEBäRDENSPRACHE ZUgäNgLICH UND NUTZBAR-MACHEN 247 4. Das korpusbasierte Wörterbuch DGS-- Deutsch Erstmals in der noch jungen Geschichte der Erforschung der DGS steht mit dem DGS-Korpus ein auf natürlichsprachlichen Daten beruhendes Korpus für die Erstellung eines korpusbasierten Wörterbuchs der DGS zur Verfügung. Das Digitale Wörterbuch DGS-- Deutsch (DW-DGS) wird gerade erarbeitet und Ende 2023 abgeschlossen. Vorabeinträge und Zugriffsstrukturen sind bereits online zugänglich (https: / / dw-dgs.de, Stand: 24.10.2022) und werden nach und nach ergänzt und erweitert. Das Vorhanden- oder Nicht-Vorhanden-Sein von Gebärden im Korpus bestimmt ihre Auswahl und Bearbeitung für das Wörterbuch. Die Stärke des korpusbasierten Vorgehens liegt in der empirischen Verankerung der Angaben und ihrer Nachprüfbarkeit anhand der Korpusdaten. Bei der Lesartenanalyse werden Vorkommen der Gebärden im sprachlichen Kontext untersucht und ihre verschiedenen Bedeutungen und Eigenschaften zusammenfassend beschrieben (Langer/ Müller/ Wähl 2018a). Dabei bietet das Korpus die Möglichkeit, Kollokationen und semantische Präferenzen zu ermitteln (Langer/ Schulder 2020), die oft für bestimmte Lesarten spezifisch sind. 9 Einige dieser häufigen Verbindungen erweisen sich als idiomatische Mehrworteinheiten, die wir im DW-DGS als „Phrasen“ kennzeichnen und als separate Sublemmata darstellen. 10 Aufgrund der regional und altersstrukturell ausgewogenen Zusammensetzung der gefilmten Personen sind wir in der Lage, Angaben zur regionalen Verwendung bestimmter Gebärden 11 oder Lesarten 12 zu machen und in Verbreitungskarten sowohl für einzelne Gebärden als auch für Gruppen von lexikalischen Varianten 13 in der Übersicht darzustellen. Auch lassen sich Anzeichen für Sprachwandel entdecken, wenn in unterschiedlichen Altersgruppen für das gleiche Bedeutungsspektrum unterschiedliche Gebärden verwendet werden (Hanke et al. 2017). 14 Das Korpus ist auch Quelle für die Beispiele, die als Belege und Illustration der Lesarten dienen. Passende Sequenzen werden sorgfältig ausgewählt, direkt dem Korpusmaterial entnommen und für die Darstellung im DW-DGS zusätzlich mit einer Kontextbeschreibung und Übersetzung versehen (Langer et al. 2018b). 9 Siehe z. B. Eintrag 354. 10 Siehe z. B. Eintrag 440#10, 440#11. 11 Siehe z. B. Eintrag 492. 12 Siehe z. B. Eintrag 128#1 mit Verbreitungskarte. 13 Siehe z. B. die Übersichtskarte zum Konzept ‚Wasser‘, erreichbar über die Lesart 665#1. 14 Siehe z. B. Einträge 430 und 462 oder 614 und 616. <?page no="248"?> REINER KONRAD ET AL. 248 4.1 Wörterbuchkonzeption und Nutzergruppen Das DW-DGS legt den Schwerpunkt auf die Beschreibung der DGS und ist insofern monolingual konzipiert. Formen und Varianten von Gebärden, Hinweise zur Verwendung und zu grammatischem Verhalten, Lesartendifferenzierung mit Angabe von Synonymen, Antonymen und Kollokationen sowie zahlreiche Belegbeispiele bieten eine Fülle von Informationen zur DGS. Gleichzeitig ist das DW-DGS zumindest in Ansätzen zweisprachig angelegt-- so bietet es Übersetzungsäquivalente und Übersetzungen der Beispiele an sowie einen Zugriff über den Deutsch-Index, der aus den Übersetzungsäquivalenten in den DGS-Einträgen generiert wird. Die Deutschseite selbst ist nicht detailliert ausgearbeitet, da für das Deutsche bereits hochwertige Wörterbücher existieren. Das Wörterbuch wendet sich an eine große Bandbreite von Nutzergruppen- - von Menschen, die hauptsächlich in DGS als L1 kommunizieren, über fortgeschrittene DGS-Lernende bis hin zur interessierten deutschsprachigen Allgemeinheit. Für die DGS-Sprachgemeinschaft ist das DW-DGS eine Dokumentation ihrer Sprache, das die DGS auch nach außen sichtbar macht und ihren Status belegt. Es ist vor allem eine Einladung, sich darin umzusehen, intuitives Sprachwissen explizit formuliert zu sehen und auch Neues zu entdecken, insbesondere regionale Besonderheiten. Die bilingualen Aspekte des DW-DGS unterstützen vor allem (fortgeschrittene) Lernende der DGS sowohl bei der Produktion als auch Rezeption der DGS. 4.2 Aufbau des DW-DgS Da es für die DGS keine Gebrauchsschrift gibt, werden Gebärden am besten als Video repräsentiert. Dabei stellt sich die Frage nach der Lesbarkeit und zielgenauen Auffindbarkeit von Gebärden und Informationen im Wörterbuch. Dazu werden im DW-DGS Micons (moving icons) als kleine bewegte Abbildungen einzelner Gebärden verwendet, die mit einer Eintragsnummer versehen eindeutig identifizierbar sind und als Elemente der Ordnungsstruktur sowie als anklickbare Verweise auf die entsprechenden Einträge fungieren. Alle Gebärdendarstellungen sind auch als Videos in einem größeren Format abrufbar. Für Beschriftungen, Erläuterungen und Bedeutungserklärungen wird Deutsch als Beschreibungssprache verwendet. Die Gebärden können über ihre Formmerkmale Handform, Händigkeit (ein- oder zweihändig) und Lokation gefunden werden. Weitere Zugriffsmöglichkeiten bieten der Deutsch-Index, der Sachgruppen-Index und der Graph, der die Gesamtheit der Einträge mit ihren Verweisen visualisiert. <?page no="249"?> DEUTSCHE gEBäRDENSPRACHE ZUgäNgLICH UND NUTZBAR-MACHEN 249 Abb.-8: Mikrostruktur: Aufbau eines Eintrags in der Übersichtsansicht Die Wörterbucheinträge fassen die Ergebnisse der lexikografischen Analyse zusammen. Öffnet man einen Eintrag ausgehend vom Zugriff über DGS, findet man eine Übersicht der Lesarten mit stichwortartigen Zusammenfassungen vor (Abb.-8). Diese bietet eine Orientierung und ermöglicht eine gezielte Auswahl der „Bedeutung“ (Lesart), zu der man Genaueres wissen möchte. Am Ende des Eintrags finden sich Verweise auf weitere Einträge, die verwandt bzw. formähnlich sind und ebenfalls mittels Micons repräsentiert werden. Klickt man eine „Bedeutung“ an, so erscheinen weitergehende Angaben zu dieser Lesart (Abb.-9 auf der folgenden Seite). Die einzelnen Informationseinheiten sind auf verschiedene Weise hilfreich für unterschiedliche Nutzergruppen. Die Zusammenstellung der deutschen Übersetzungsäquivalente vermitteln Lernenden der DGS mit Deutsch als L1 eine schnelle Vorstellung der jeweiligen Bedeutung. Die Übersetzungsäquivalente sind größtenteils auch im Deutsch-Index aufgeführt und mit diesem verlinkt, was ein schnelles Springen zwischen diesen Wörterbuchteilen erleichtert. Im Deutsch-Index sind die Übersetzungsäquivalente mit Verweisen zum Digitalen Wörterbuch der Deutschen Sprache (https: / / dwds.de, Stand: 24.10.2022) angereichert. Dies bietet der Nutzergruppe mit DGS als L1 die Möglichkeit, ausgehend von DGS weitere Informationen zu den deutschen Äquivalenten zu erhalten, z. B. das grammatische Geschlecht von Substantiven. <?page no="250"?> REINER KONRAD ET AL. 250 Abb.-9: Eintrag 150 mit aufgeklappter Lesart „Bedeutung #2“ (ohne Filmbereich) Die aus dem Korpus stammenden Beispiele illustrieren die Lesart und zeigen gleichzeitig mögliche Kontexte auf, in denen eine Gebärde in dieser Lesart verwendet werden kann. Für eine Person mit DGS als L1 sind die Beispiele eine Möglichkeit der Rückversicherung, um welche Lesart es gerade geht. Zusätzliche Hinweise zur Lesart in DGS stellen die Synonym- und Antonym-Angaben dar, die als Elemente einer akkumulierenden Definition fungieren können (vgl. Svensén 2009, S.-214-217). Für Lernende der DGS sind die Beispiele vor allem als Vorbild für eine konkrete Verwendung der Gebärde im Kontext wertvoll; sie enthalten oft typische Modifikationsmöglichkeiten. Gleichzeitig dienen die Beispiele dazu, die Rezeption zu unterstützen und zu üben. Ein vorangestellter Kontext deutet an, worum es geht, und eine DGS-nahe, aber am Schriftdeutschen orientierte Übersetzung hilft beim Nachvollzug der DGS-Äußerung. DW-DGS und Öffentliches DGS-Korpus sind in mehrfacher Weise miteinander verlinkt (Müller et al. 2020). Unter dem Filmbereich eines Beispiels befinden sich zwei Schaltflächen, die auf ihre Fundstellen in den Portalen MEINE DGS und MEINE DGS-- annotiert führen. Wer neugierig auf Inhalte des Gesprächs und die sich unterhaltenden Personen ist, kann an den Anfang des Gesprächs im ersten Portal springen. Diese Möglichkeit dürfte vor allem für Mitglieder der Gehörlosengemeinschaft interessant sein. Lernende der DGS profitieren vom Link zum zweiten Portal, der sie zielgenau zur Stelle im Video und zur Annotation der Einzelgebärden führt. <?page no="251"?> DEUTSCHE gEBäRDENSPRACHE ZUgäNgLICH UND NUTZBAR-MACHEN 251 Über die Schaltfläche „Konkordanz im Öffentlichen Korpus“ unterhalb der Informationseinheiten (siehe Abb.-8) lassen sich alle zu diesem Eintrag gehörenden Vorkommen der Gebärde im Öffentlichen DGS-Korpus in der Konkordanz-Ansicht öffnen und so weitere Verwendungsbeispiele einsehen. 5. Ausblick Das Öffentliche DGS-Korpus ist eine wertvolle Ressource zur DGS und dokumentiert sowohl die Sprache als auch die Lebenswirklichkeit Gehörloser und die Kultur der Gebärdensprachgemeinschaft. Ein Ziel des Projekts ist es, dass die Daten möglichst vielfältig genutzt werden. Anregungen und Feedback der Nutzerinnen und Nutzer tragen dazu bei, sowohl die Konsistenz der Daten als auch die Zugriffsmöglichkeiten zu verbessern. Die Vorabeinträge des DW-DGS zeigen, wie viele Informationen in den Daten des DGS-Korpus stecken. Sie dienen dazu, sowohl gehörlose als auch hörende Personen mit der Struktur der Einträge vertraut zu machen und durch deren Reaktionen die Darstellung und den Zugriff auf die Informationen zu verbessern. Beide Produkte des DGS-Korpus werden bis zum Projektende (2023) in regelmäßigen Abständen aktualisiert und die Zahl der Wörterbucheinträge bis dahin kontinuierlich erweitert. Förderung Diese Publikation wurde im Rahmen der gemeinsamen Forschungsförderung von Bund und Ländern im Akademienprogramm mit Mitteln des Bundesministeriums für Bildung und Forschung und der Freien und Hansestadt Hamburg erarbeitet. Koordiniert wird das Akademienprogramm von der Union der deutschen Akademien der Wissenschaften. Literatur Bleicken, Julian/ Hanke, Thomas/ Salden, Uta/ Wagner, Sven (2016): Using a language technology infrastructure for German in order to anonymize German sign language corpus data. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Goggi, Sara/ Grobelnik, Marko/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the 10 th International Conference on Language Resources and Evaluation (LREC 2016), Portorož, Slovenia, May 23-28, 2016. Paris: ELRA, S.-3303- 3306. https: / / aclanthology.org/ L16-1526/ (Stand: 24.10.2022). Fehrmann, Gisela/ Linz, Erika (2009): Eine Medientheorie ohne Medien? Zur Unterscheidung von konzeptioneller und medialer Mündlichkeit und Schriftlichkeit. In: Birk, Elisabeth/ Schneider, Jan Georg (Hg.): Philosophie der Schrift. (=- Reihe germanistische Linguistik-285). Tübingen: Niemeyer, S.-123-143. <?page no="252"?> REINER KONRAD ET AL. 252 Hanke, Thomas (2004): HamNoSys-- Representing sign language data in language resources and language processing contexts. In: Streiter, O./ Vettori, Chiara (Hg.): Proceedings of the 1st workshop on the representation and processing of sign languages. Paris: ELRA, S.-1-6. https: / / www.sign-lang.uni-hamburg.de/ lrec/ pub/ 04001.html (Stand: 24.10.2022). Hanke, Thomas/ Storz, Jakob (2008): iLex-- A database tool for integrating sign language corpus linguistics and sign language lexicography. In: Crasborn, Onno/ Efthimiou, Eleni/ Hanke, Thomas/ Thoutenhoofd, Ernst D./ Zwitserlood, Inge (Hg.): Proceedings of the LREC2008 3rd workshop on the representation and processing of sign languages: Construction and exploitation of sign language corpora. Paris: ELRA, S.-64-67. https: / / www. sign-lang.uni-hamburg.de/ lrec/ pub/ 08011.html (Stand: 24.10.2022). Hanke, Thomas/ König, Lutz/ Wagner, Sven/ Matthes, Silke (2010): DGS Corpus & Dicta-Sign: The Hamburg Studio Setup. In: Dreuw, Philippe/ Efthimiou, Eleni/ Hanke, Thomas/ Johnston, Trevor/ Martìnez Ruiz, Gregorio/ Schembri, Adam (Hg.): Proceedings of the LREC2010 4 th workshop on the representation and processing of sign languages: Corpora and sign language technologies. 22-23-May, 2010. Valetta, Malta. Paris: ELRA, S.-106-109. https: / / www.sign-lang.uni-hamburg.de/ lrec/ pub/ 10047.html (Stand: 24.10.2022). Hanke, Thomas/ Konrad, Reiner/ Langer, Gabriele/ Müller, Anke/ Wähl, Sabrina (2017): Detecting Regional and Age Variation in a Growing Corpus of DGS. Poster in Workshop on Corpus-based approaches to sign language linguistics: Into the second decade, Birmingham, Vereinigtes Königreich, 24.7.2017. http: / / doi.org/ 10.25592/ uhhfdm.1901. Hanke, Thomas/ Konrad, Reiner/ Jahn, Elena/ Schulder, Marc (2020): Extending the Public DGS Corpus in Size and Depth. In: Efthimiou, Eleni/ Fotinea, Stavroula-Evita/ Hanke, Thomas/ Hochgesang, Julie A./ Kristoffersen, Jette/ Mesch, Johanna (Hg.): Proceedings of the LREC2020 9th Workshop on the representation and processing of sign languages: Sign- janguage resources in the service of the language community, technological challenges and application perspectives. European Language Resources Association (ELRA), Marseille, France, 16 May 2020, S.- 75-82. https: / / www.sign-lang.uni-hamburg.de/ lrec/ pub/ 20016.html (Stand: 24.10.2022). Isard, Amy/ Konrad, Reiner (2022): MY DGS-- ANNIS. ANNIS and the public DGS Corpus. In: Efthimiou, Eleni/ Fotinea, Stavroula-Evita/ Hanke, Thomas/ Hochgesang, Julie A./ Kristoffersen, Jette/ Mesch, Johanna/ Schulder, Marc (Hg.): Proceedings of the LREC2022 10 th -workshop on the representation and processing of sign languages: Multilingual sign language resources. European Language Resources Association (ELRA), Marseille, France, 25-June, 2022, S.-73-79. https: / / www.sign-lang.uni-hamburg.de/ lrec/ pub/ 22034.pdf (Stand: 24.10.2022). Jahn, Elena/ Konrad, Reiner/ Langer, Gabriele/ Wagner, Sven/ Hanke, Thomas (2018): Publishing DGS corpus data: Different Formats for Different Needs. In: Bono, Mayumi/ Efthimiou, Eleni/ Fotinea, Stavroula-Evita/ Hanke, Thomas/ Hochgesang, Julie/ Kristoffersen, Jette/ Mesch, Johanna/ Osugi, Yutaka (Hg.): Proceedings of the LREC2018 8th Workshop on the representation and processing of sign languages: Involving the lan- <?page no="253"?> DEUTSCHE gEBäRDENSPRACHE ZUgäNgLICH UND NUTZBAR-MACHEN 253 guage community. European Language Resources Association (ELRA), Miyazaki, Japan, 12 May 2018, S.-83-90. https: / / www.sign-lang.uni-hamburg.de/ lrec/ pub/ 18018.pdf (Stand: 24.10.2022). Konrad, Reiner/ Salden, Uta (2015): Formale und inhaltliche Prüfschritte zur Korpusveröffentlichung. Arbeitspapier AP05-2017-01 (Version-2). Hamburg: Universität Hamburg. http: / / doi.org/ 10.25592/ uhhfdm.839. Konrad, Reiner/ Hanke, Thomas/ Langer, Gabriele/ König, Susanne/ König, Lutz/ Nishio, Rie/ Regen, Anja. (2022, June- 14). Öffentliches DGS-Korpus: Annotationskonventionen (Version-4.1). http: / / doi.org/ 10.25592/ uhhfdm.10251. Krause, Thomas/ Zeldes, Amir (2016): ANNIS3: A new architecture for generic corpus query and visualization. In: Digital Scholarship in the Humanities-31,-1, S.-118-139. http: / / doi. org/ 10.1093/ llc/ fqu057. Langer, Gabriele/ Schulder, Marc (2020): Collocations in Sign Language Lexicography: Towards semantic abstractions for word sense discrimination. In: Efthimiou, Eleni/ Fotinea, Stavroula-Evita/ Hanke, Thomas/ Hochgesang, Julie A./ Kristoffersen, Jette/ Mesch, Johanna (Hg.): Proceedings of the LREC2020 9 th workshop on the representation and processing of sign languages: Sign language resources in the service of the language community, technological challenges and application perspectives, Marseille, France. Paris: ELRA, S.- 127-134. https: / / www.sign-lang.uni-hamburg.de/ lrec/ pub/ 20017.html (Stand: 27.10.2022). Langer, Gabriele/ Müller, Anke/ Wähl, Sabrina (2018a): Queries and views in iLex to support corpus-based lexicographic work on German Sign Language (DGS). In: Bono, Mayumi/ Efthimiou, Eleni/ Fotinea, Stavroula-Evita/ Hanke, Thomas/ Hochgesang, Julie/ Kristoffersen, Jette/ Mesch, Johanna/ Osugi, Yutaka (Hg.): Workshop proceedings. 8 th workshop on the representation and processing of sign languages: Involving the language community. Language Resources and Evaluation Conference (LREC), Miyazaki, Japan, 12-May 2018. Paris: ELRA, S.- 107-114. https: / / www.sign-lang.uni-hamburg.de/ lrec/ pub/ 18026.html (Stand: 27.10.2022). Langer, Gabriele/ Müller, Anke/ Wähl, Sabrina/ Bleicken, Julian (2018b): Authentic examples in- a corpus-based sign language dictionary- - Why and how. In: Čibej, Jaka/ Grojanc, Vojko/ Kosem, Iztok/ Krek, Simon (Hg.): Proceedings of the XVIII EURALEX International Congress. Ljubljana, Slovenia: Ljubljana University Press, S.- 483-497. https: / / e-knjige. ff.uni-lj.si/ znanstvena-zalozba/ catalog/ view/ 118/ 211/ 2933-1 (Stand: 27.10.2022). Loos, Cornelia/ Konrad, Reiner (2022, April-4): Detailed annotation and qualifiers (Version-1). http: / / doi.org/ 10.25592/ uhhfdm.10224. Müller, Anke/ Hanke, Thomas/ Konrad, Reiner/ Langer, Gabriele/ Wähl, Sabrina (2020): From dictionary to corpus and back again-- linking heterogeneous language resources for DGS. In: Efthimiou, Eleni/ Fotinea, Stavroula-Evita/ Hanke, Thomas/ Hochgesang, Julie A./ Kristoffersen, Jette/ Mesch, Johanna (Hg.): Proceedings of the LREC2020 9 th workshop on <?page no="254"?> REINER KONRAD ET AL. 254 the-representation and processing of sign languages: Sign language resources in the service of the language community, technological challenges and application perspectives, Marseille, France. Paris: ELRA, S.- 157-164. https: / / www.sign-lang.uni-hamburg.de/ lrec/ pub/ 20025.html (Stand: 27.10.2022). Salden, Uta/ Konrad, Reiner. (2014, July-7). Auswahl von Aufnahmen für das Teilkorpus. Arbeitspapier AP06-2013-01 (Version- 2). Hamburg: Universität Hamburg. http: / / doi.org/ 10.25592/ uhhfdm.841. Schulder, Marc/ Hanke, Thomas (2020, May- 11). OpenPose in the public DGS Corpus (Version-2). Hamburg: Universität Hamburg. http: / / doi.org/ 10.25592/ uhhfdm.1866. Schulder, Marc/ Hanke, Thomas (2022): How to be FAIR when you CARE: The DGS Corpus as a case study of open science resources for minority languages. In: Calzolari, Nicoletta/ Béchet, Frédéric/ Blache, Philippe/ Choukri, Khalid/ Cieri, Christopher/ Declerck, Thierry/ Goggi, Sara/ Isahara, Hitoshi/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the 13 th International Conference on Language Resources and Evaluation (LREC 20222), Marseille, France, 20-25-June, 2022. Paris: ELRA, S.- 164-173. https: / / www.sign-lang.uni-hamburg.de/ lrec/ pub/ 2022.lrec-1.18.html (Stand: 27.10.2022). Schulder, Marc/ Blanck, Dolly/ Hanke, Thomas/ Hofmann, Ilona/ Hong, Sung-Eun/ Jeziorski, Olga/ König, Lutz/ König, Susanne/ Konrad, Reiner/ Langer, Gabriele/ Nishio, Rie/ Rathmann, Christian (2021): Data statement for the public DGS Corpus. Arbeitspapier AP06-2020-01 (Version-2). Hamburg: Universität Hamburg. http: / / doi.org/ 10.25592/ uhhfdm.9700. Svensén, Bo (2009): A handbook of lexicography. The theory and practice of dictionary-making. Cambridge: Cambridge University Press. Wähl, Sabrina/ Langer, Gabriele/ Müller, Anke (2018): Hand in Hand-- Using sata from an online survey system to support lexicographic work. In: Bono, Mayumi/ Efthimiou, Eleni/ Fotinea, Stavroula-Evita/ Hanke, Thomas/ Hochgesang, Julie A./ Kristoffersen, Jette/ Mesch, Johanna/ Osugi, Yutaka (Hg.): Proceedings of the LREC2018 8 th workshop on the representation and processing of sign languages: Involving the language community, Miyazaki, Japan, 12- May, 2018. Paris: ELRA, S.- 199-206. https: / / www.sign-lang.unihamburg.de/ lrec/ pub/ 18025.pdf (Stand: 27.10.2022). Westpfahl, Swantje (2020): POS-Tagging für Transkripte gesprochener Sprache. Entwicklung einer automatisierten Wortarten-Annotation am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK). (=- Studien zur Deutschen Sprache- 83). Tübingen: Narr. Wilkinson, Mark D./ Dumontier, Michel/ Aalbersberg, IJsbrand Jan/ Appleton, Gabrielle/ Axton, Myles/ Baak, Arie/ Blomberg, Niklas/ Boiten, Jan-Willem/ da Silva Santos, Luiz Bonino/ Bourne, Philip E./ Bouwman, Jildau/ Brookes, Anthony J./ Clark, Tim/ Crosas, Mercè/ Dillo, Ingrid/ Dumon, Olivier/ Edmunds, Scott/ Evelo, Chris T./ Finkers, Richard/ Gonzalez- Beltran, Alejandra/ Gray, Alasdair J.- G./ Groth, Paul/ Goble, Carole/ Grethe, Jeffrey S./ Heringa, Jaap/ ’t Hoen, Peter A.- C/ Hooft, Rob/ Kuhn, Tobias/ Kok, Ruben/ Kok, Joost/ Lusher, <?page no="255"?> DEUTSCHE gEBäRDENSPRACHE ZUgäNgLICH UND NUTZBAR-MACHEN 255 Scott J./ Martone, Maryann E./ Mons, Albert/ Packer, Abel L./ Persson, Bengt/ Rocca-Serra, Philippe/ Roos, Marco/ van Schaik, Rene/ Sansone, Susanna-Assunta/ Schultes, Erik/ Sengstag, Thierry/ Slater, Ted/ Strawn, George/ Swertz, Morris A./ Thompson, Mark/ van der Lei, Johan/ van Mulligen, Erik/ Velterop, Jan/ Waagmeester, Andra/ Wittenburg, Peter/ Wolstencroft, Katherine/ Zhao, Jun/ Mons, Barend (2016): The FAIR Guiding Principles for scientific data management and stewardship. scientific data- 3, 160018. https: / / doi.org/ 10.1038/ sdata.2016.18. <?page no="257"?> Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache Corpus Linguistics and Interdisciplinary Perspectives on Language (CLIP) herausgegeben von / edited by Marc Kupietz, Harald Lüngen, Christian Mair Bisher sind erschienen / Already published: In der Reihe Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache (CLIP) erscheinen Arbeiten auf Deutsch und Englisch zu unterschiedlichen Objektsprachen, die auf der empirischen Grundlage von Sprachkorpora zur Deskription des Phänomens „Sprache“ oder zur korpuslinguistischen Grundlagenforschung beitragen. Eine übergreifende Ambition der Arbeiten ist dabei, Generalisierungen über empirische Befunde oder Methoden zu suchen und diese im Kontext einer empirisch verankerten Theoriebildung in der Linguistik zu diskutieren. Besonders willkommen sind auch interdisziplinäre Studien, die Korpus-Evidenzen durch andere sprachbezogene Datentypen ergänzen, z.B. aus Disziplinen wie Sprachdidaktik, Psychologie, Soziologie oder den Neurowissenschaften. Darüber hinaus möchte CLIP den wissenschaftlichen Dialog zwischen der Korpuslinguistik und den Digital Humanities fördern. Die Bände der Reihe werden einem Peer-Review-Verfahren unterzogen. Band/ Vol. 1 Marek Konopka / Jacqueline Kubczak / Christian Mair / František Štícha / Ulrich H. Waßner (Hgg.) Grammatik und Korpora 2009 Dritte Internationale Konferenz 2011, 604 Seiten/ pages €[D] 108,- ISBN 978-3-8233-6648-5 Band/ Vol. 2 Vera Marková Synonyme unter dem Mikroskop Eine korpuslinguistische Studie 2012, 269 Seiten/ pages €[D] 88,- ISBN 978-3-8233-6689-8 Band/ Vol. 3 Paul Bennett / Martin Durrell / Silke Scheible / Richard J. Whitt (eds.) New Methods in Historical Corpora 2013, 284 Seiten/ pages €[D] 88,- ISBN 978-3-8233-6760-4 Band/ Vol. 4 Noah Bubenhofer / Marek Konopka / Roman Schneider Präliminarien einer Korpusgrammatik 2013, 248 Seiten/ pages €[D] 88,- ISBN 978-3-8233-6701-7 Band/ Vol. 5 Jost Gippert / Ralf Gehrke (eds.) Historical Corpora Challenges and Perspectives 2015, 380 Seiten/ pages €[D] 98,- ISBN 978-3-8233-6922-6 Band/ Vol. 6 Max Möller Das Partizip II von Experiencer- Objekt-Verben Eine korpuslinguistische Untersuchung 2015, 394 Seiten/ pages €[D] 98,- ISBN 978-3-8233-6964-6 <?page no="258"?> Band/ Vol. 7 Sascha Wolfer Verstehen und Verständlichkeit juristisch-fachsprachlicher Texte 2017, 312 Seiten/ pages €[D] 98,- ISBN 978-3-8233-8152-5 Band/ Vol. 8 Roman Schneider Mehrfach annotierte Textkorpora Strukturierte Speicherung und Abfrage 2019, 315 Seiten/ pages €[D] 98,- ISBN 978-3-8233-8286-7 Band/ Vol. 9 Maximilian Murmann Inchoative Emotion Verbs in Finnish Argument Structures and Collexemes 2019, 224 Seiten/ pages €[D] 98,- ISBN 978-3-8233-8299-7 Band/ Vol. 10 Melanie Andresen Datengeleitete Sprachbeschreibung mit syntaktischen Annotationen Eine Korpusanalyse am Beispiel der germanistischen Wissenschaftssprachen 2022, 236 Seiten/ pages €[D] 88,- ISBN 978-3-8233-8514-1 Band/ Vol. 11 Marc Kupietz / Thomas Schmidt (Hrsg.) Neue Entwicklungen in der Korpuslandschaft der Germanistik Beiträge zur IDS-Methodenmesse 2022 2023, 256 Seiten/ pages €[D] 88,- ISBN 978-3-8233-8602-5 <?page no="259"?> Volume Corpus Linguistics and Interdisciplinary Perspectives on Language ISBN 978-3-8233-8602-5 Die in diesem Band versammelten Beiträge zur Methodenmesse der Jahrestagung 2022 des Leibniz-Instituts für Deutsche Sprache geben einen Überblick über die aktuelle Korpuslandschaft in der germanistischen Linguistik: von historischen Sammlungen authentischer Sprachdaten über aktuelle Zeitungs- und Social-Media-Korpora, Gesprächskorpora, Korpora aus Texten von Deutschlernenden bis hin zu einem Korpus mit Texten leichter Sprache und einem Gebärdensprachekorpus. Die Beiträge erläutern jeweils die Designkriterien sowie die Methodik der Datenerhebung und geben einen Einblick, wie die Daten sprachwissenschaftlich verwendet werden können. 11