eBooks

Korpusgestützte Sprachanalyse

Grundlagen, Anwendungen und Analysen

0925
2023
978-3-8233-9610-9
978-3-8233-8610-0
Gunter Narr Verlag 
Michael Beißwenger
Eva Gredel
Lothar Lemnitzer
Roman Schneider
10.24053/9783823396109

Die Arbeit mit digitalen Daten und empirischen Methoden hat die Möglichkeiten intersubjektiv nachprüfbarer Forschung und Theoriebildung in der Linguistik wie in kaum einer anderen geisteswissenschaftlichen Disziplin verändert. Der Linguistik steht heute eine beeindruckende Anzahl hochwertiger Korpusressourcen zur Verfügung, um Fragestellungen ausgehend vom tatsächlichen Sprachgebrauch in gesprochener und geschriebener Sprache zu bearbeiten und Hypothesen datengestützt zu überprüfen. Dabei ergeben sich vielfältige Vernetzungen zu den Nachbardisziplinen Computerlinguistik und Sprachtechnologie und zum Programm der Digital Humanities. Dieser Band bietet Einblicke in Grundlagenfragen, aktuelle Forschungsarbeiten und Entwicklungen im Bereich der korpusgestützten Sprachanalyse - von den theoretischen Grundlagen über die Beschreibung einzelner Korpora und Werkzeuge bis hin zu korpusgestützten Fallstudien und zum Einsatz von Korpora in Lehre und Unterricht. Die 25 Beiträge reflektieren den Stand der gegenwärtigen Forschung und sind nicht nur für Expertinnen und Experten, sondern auch für fortgeschrittene Studierende der Linguistik mit einschlägigem fachlichen Interesse verständlich.

<?page no="0"?> Michael Beißwenger / Eva Gredel / Lothar Lemnitzer / Roman Schneider (Hrsg.) Korpusgestützte Sprachanalyse Grundlagen, Anwendungen und Analysen STUDIEN ZUR DEUTSCHEN SPRACHE FORSCHUNGEN DES LEIBNIZ-INSTITUTS FÜR DEUTSCHE SPRACHE <?page no="1"?> STUDIEN ZUR DEUTSCHEN SPRACHE 88 <?page no="2"?> STUDIEN ZUR DEUTSCHEN SPRACHE FORSCHUNGEN DES LEIBNIZ-INSTITUTS FÜR DEUTSCHE SPRACHE Herausgegeben von Arnulf Deppermann, Stefan Engelberg, Andreas Witt und Angelika Wöllstein Band 88 <?page no="3"?> Grundlagen, Anwendungen und Analysen Korpusgestützte Sprachanalyse Michael Beißwenger, Eva Gredel, Lothar Lemnitzer, Roman Schneider (Hrsg.) <?page no="4"?> Die Publikationsreihe „Studien zur Deutschen Sprache“ folgt den Regelungen des Rats für deutsche Rechtschreibung. Etwaige Abweichungen davon - insbesondere hinsichtlich der geschlechtsspezifischen Kennzeichnung von Personen - erfolgen auf ausdrücklichen Wunsch des Autors bzw. der Autorin. DOI: https: / / doi.org/ 10.24053/ 9783823396109 © 2023 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor: innen oder Herausgeber: innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor: innen oder Herausgeber: innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich. Internet: www.narr.de eMail: info@narr.de Satz: Annett Patzschewitz CPI books GmbH, Leck ISSN 0949-409X ISBN 978-3-8233-8610-0 (Print) ISBN 978-3-8233-9610-9 (ePDF) Redaktion: Melanie Kraus Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. www.fsc.org MIX Papier aus verantwortungsvollen Quellen FSC ® C083411 ® <?page no="5"?> Angelika Storrer zum 65.-Geburtstag gewidmet <?page no="7"?> Einleitung 7 INHALT Michael Beißwenger/ Eva Gredel/ Lothar Lemnitzer/ Roman Schneider Einleitung ................................................................................................................................. 11 Empirie, Korpora und linguistische Theoriebildung Ludger Hoffmann Sprachwissenschaft-- Theorien und empirische Zugänge ........................................... 27 Ulrich Schmitz Infinity Corpus-- Linguistischer Größenwahn einmal durchgespielt ....................... 45 Erhebung und Aufbereitung von Sprachkorpora Marc Kupietz/ Harald Lüngen/ Andreas Witt DeReKo im Kontext deutschsprachiger Gegenwartskorpora: Perspektiven-- Ziele---Visionen ......................................................................................... 61 Henning Lobin Was bieten heutige Korpora? Über die Herausforderungen der Erfassung besonderer Textsorten bei der Erforschung gegenwärtigen Sprachgebrauchs ............................................................... 79 Aleksandra Pushkina/ Erhard Hinrichs The IVK-Ler Corpus of Adolescent Foreign-Language Learners of German ........... 87 Uta Quasthoff Natürlichkeit vs. Reichhaltigkeit vs. Vergleichbarkeit: Wie Widerstreitendes bei der Erhebung von Gesprächskorpora versöhnt werden-kann .......................................................................................................................... 105 Textkorpora: Untersuchungen und Anwendungen Ludwig M. Eichinger Anpassungsfähigkeit und Akzentuierung Von modernen Dingen und den vielfältigen Möglichkeiten adjektivischer Wortbildung .......................................................................................................................... 123 <?page no="8"?> 8 Inhalt Stefan Engelberg Argumentstrukturen in expressionistischer Lyrik ....................................................... 139 Thomas Gloning Wissensräume von Zeitschriften in Beiträgen, Heften und Heft-Serien. Textorganisation, Multimodalität, Wortgebrauch ........................................................ 155 Lothar Lemnitzer 20 Jahre Wortwarte Wie alles anfing (und endete) ........................................................................................... 171 Frank Michaelis/ Carolin Müller-Spitzer/ Jan-Oliver Rüdiger/ Sascha Wolfer Filtern, Explorieren, Vergleichen: Neue Zugriffsstrukturen und instruktive Potenziale von OWID plus ..................................................................................................... 181 Bernhard Schröder Induktiv oder intuitiv? Die Gewinnung von Frames aus mathematischen Beweistexten ......................................................................................................................... 197 Manfred Stede/ Anna-Janina Goecke/ Noël Simmel/ Birgit Schneider Der reine Klimawahnsinn! Zur Konzeption eines Diskursglossars von Klimakomposita .................................... 217 Gisela Zifonun Korpusbefunde und Grammatik am Beispiel des Genitivs im Deutschen .............. 231 Korpusgestützte Analyse gesprochener Sprache Arnulf Deppermann/ Silke Reineke Zur Verwendung von Metadaten in der interaktionsanalytischen Arbeit mit Korpora-- am Beispiel einer Untersuchung anhand des Korpus FOLK .................................................................................................................. 245 Rosemarie Tracy/ Dafydd Gibbon The Beat Goes On: A Case Study of Timing in Heritage German Prosody ............................................... 261 <?page no="9"?> 9 Inhalt Korpusgestützte Analyse internetbasierter Kommunikation Michael Beißwenger/ Sarah Steinsiek Interpunktion als interaktionale Ressource Eine korpusgestützte Untersuchung zur Funktion von Auslassungspunkten in-der-internetbasierten Kommunikation ....................................................................... 287 Leonie Bröcher/ Eva Gredel/ Laura Herzberg/ Maja Linthe/ Ziko van Dijk Linguistische Wikipedistik und Wikipedaktik Revisited (2018-2023) .......................................................................................................... 311 Wolfgang Imo „Ich glaub mein Schwein pfeifft“-- ein Fall für die Mobile Communication Datatabase. Oder: Das-Possessivpronomen mein aus korpusbasierter Perspektive ............................................................................................................................ 329 Konstanze Marx Die INSTAB-Formel Ein Vorschlag für die Erstellung von Instagram-Datensammlungen für studentische-Arbeiten ......................................................................................................... 341 Korpusgestützte Analyse und Förderung sprachlicher Kompetenzen Thomas Bartz/ Nadja Radtke Nutzung digitaler Textkorpora und Analysewerkzeuge beim materialgestützten-Schreiben im Deutschunterricht ................................................... 359 Eva Breindl Koordination-- (k)ein Lernproblem für DaF? ............................................................... 377 Carolina Flinz/ Ruth M. Mell/ Christine Möhrs/ Tassja-Weber Korpora für Deutsch als Fremdsprache-- Potenziale und Perspektiven ................. 393 Aivars Glaznieks/ Jennifer-Carmen Frey/ Andrea Abel Weil- Sätze bei Lernenden des Deutschen Vergleich zwischen immersiv und nicht immersiv Deutschlernenden- in-Südtirol .............................................................................................................................. 409 Christian Lang/ Roman Schneider/ Angelika Wöllstein Was ist, was soll sein-- und warum? Sprachanfragen aus empirischlinguistischer Perspektive .................................................................................................. 425 <?page no="11"?> Einleitung 11 MICHAEL BEISSWENGER/ EVA GREDEL/ LOTHAR LEMNITZER/ ROMAN SCHNEIDER EINLEITUNG Die Arbeit mit digitalen Forschungsdaten, Infrastrukturen und Methoden hat die Möglichkeiten empirischer Forschung und empiriegestützter Theoriebildung in der Linguistik wie in kaum einer anderen geisteswissenschaftlichen Disziplin verändert. In den zurückliegenden drei Jahrzehnten wurden für das Deutsche hochwertige Korpusressourcen aufgebaut. In den sich zeitgleich entwickelnden und ausdifferenzierenden Disziplinen Computerlinguistik und Sprachtechnologie wurden Verfahren erarbeitet, um Korpusdaten im großen Stil um Metadaten und linguistische Annotationen anzureichern. Die korpustechnologische Forschung hat mächtige Abfragewerkzeuge hervorgebracht, um annotierte Korpora qualitativ und quantitativ auszuwerten. Im Bereich der Texttechnologie wurden Standards für die Repräsentation linguistischer Datenstrukturen etabliert, um Korpusdaten einschließlich Annotationen und Metadaten plattformunabhängig und nachhaltig zu beschreiben. Unter diesen Rahmenbedingungen, die ohne das Internet und das Programm der Digital Humanities nicht vorstellbar gewesen wären, haben die Möglichkeiten der datengestützten Erkenntnisgewinnung und datengetriebenen Theoriebildung das Anforderungs- und Tätigkeitsprofil von Linguist: innen verändert. Moderne linguistische Forschung ist heutzutage auch (zu einem gewissen Grad) ‚Data Science‘, und digitalitätsbezogene Kompetenzen bilden für Studierende und Nachwuchswissenschaftler: innen der Linguistik einen unverzichtbaren Kompetenzbaustein, um auf dem Stand der wissenschaftlichen Praxis in die Arbeitsweisen und Methoden der Disziplin hineinzuwachsen. Der vorliegende Band gibt anhand von 25 Einzelbeiträgen einen Überblick über aktuelle Fragestellungen und Entwicklungen im Bereich der korpusgestützten Sprachanalyse- - von den theoretischen und korpustechnologischen Grundlagen der Arbeit mit digitalen Ressourcen und Werkzeugen über die Vorstellung einschlägiger Korpora bis hin zu Beispielen für korpusgestützte Untersuchungen zu konkreten linguistischen Fragestellungen und zum Einsatz von Sprachkorpora in Lehre und Unterricht. Mit dieser Publikation und den darin versammelten Beiträgen würdigen die Herausgeberin und die Herausgeber sowie die 49 Autor: innen die wissenschaftliche Leistung von Prof. Dr. Angelika Storrer, die in den zurückliegenden über drei Jahrzehnten vielfältig und innovativ zur Entwicklung der korpusgestützten Sprachanalyse als Teil linguistischer Forschungspraxis und zu ihrer Etablierung als Thema in Forschung und Lehre beigetragen hat. Ihre wissenschaftliche Vita führt in chronologischer Reihenfolge von der Entwicklung von Verfahren für die automatische Sprachanalyse am wissenschaftlichen Zentrum der IBM Deutschland (1990-91) und einer DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="12"?> Michael Beißwenger/ Eva Gredel/ Lothar Lemnitzer/ Roman Schneider 12 herausragenden Promotion zum Thema Verbvalenz (1991) über wissenschaftliche Mitarbeiterstellen zunächst im Bereich Computerlinguistik am Seminar für Sprachwissenschaft (SfS) der Universität Tübingen (1991-93) und daran anschließend in der Grammatikforschung am Leibniz-Institut für Deutsche Sprache (IDS) in Mannheim (1993-2002) bis zur Berufung als Universitätsprofessorin auf den Lehrstuhl für Linguistik der deutschen Sprache und Sprachdidaktik an der TU Dortmund (2002- 2014) und schließlich auf den Lehrstuhl für Germanistische Linguistik an der Universität Mannheim (2014 bis heute). Ihr Werdegang, ihre Publikationen und Projekte sowie ihre in lebhaften fachlichen Diskussionen bei Konferenzen, Projekt-Workshops und Arbeitstreffen dokumentierte scientific persona zeigen ein wissenschaftliches Profil, das als gleichsam modellhaft für die Kompetenzanforderungen der heutigen „jungen“ Linguist: innen-Generation gelten kann: enthusiastisch auf die wissenschaftliche Durchdringung von Sprache als Lebensform gerichtet, fachlich ausgewiesen über einschlägige theoretische und empirische Arbeiten auf verschiedenen linguistischen Feldern (Grammatik, Lexikologie, Text- und Hypertextlinguistik, internetbasierte Kommunikation), mit der zusätzlichen Befähigung zu avanciertem computational thinking bezogen auf Sprache (durch Expertise im Bereich der Computerlinguistik, Sprach- und Texttechnologie), das für die sprachdatengestützte Arbeit in Anwendungsfeldern der Linguistik (Lexikographie, Wikipedistik, Sprachdidaktik) sowie für den Aufbau und die Analyse von Korpora (Korpuslinguistik, digitale Methoden) fruchtbar gemacht wird. Abzüglich der Klammerangaben zu Forschungsfeldern, mit denen individuelle Schwerpunkte von Angelika Storrer benannt sind, könnte der vorangehende Satz die Blaupause für eine heute zeitgemäße linguistische Stellenbeschreibung bilden; nur dass Stellen dieser Art zu der Zeit, in der Angelika Storrer sich auf Stellen bewarb, noch kaum ausgeschrieben wurden. Die Autor: innen dieses Bandes sind Angelika Storrer aus den zurückliegenden drei Jahrzehnten und gegenwärtig in verschiedener Weise verbunden: als Kolleg: innen am Tübinger SfS, am IDS Mannheim, am Institut für deutsche Sprache und Literatur- der TU Dortmund und an der Universität Mannheim, als Kolleg: innen und Kooperationspartner: innen in wissenschaftlichen Netzwerken, Beiräten und Redaktionen sowie am Zentrum Sprache der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW), als Forschungspartner: innen und Mitarbeiter: innen in der DFG-Forschergruppe 437 „Texttechnologische Informationsmodellierung“, im BMBF- Projekt „Korpusbasierte linguistische Recherche und Analyse mit Hilfe von Data- Mining“ (KobRA), im CLARIN-D-Kurationsprojekt „ChatCorpus2CLARIN“, in den DFG-Netzwerken „Internetlexikografie“ und „Empirische Erforschung internetbasierter Kommunikation“, in den Stiftungs-geförderten Projekten „Schüler machen Wörterbücher- - Wörterbücher machen Schule“, „Wie misst man Sprachqualität im digitalen Zeitalter? “ und „Digitales Selbstlernsystem für grammatisches Grundwissen“ sowie im Verbundprojekt „Digitalisierung im Dialog“, das 2019-2022 vom Ministerium für Wissenschaft, Forschung und Kunst des Landes Baden-Württemberg gefördert wurde. An den Standorten ihres bisherigen Wirkens und in den verschiedenen <?page no="13"?> Einleitung 13 Projektzusammenhängen hat Angelika Storrer nicht nur kontinuierlich innovative Forschungsthemen etabliert und bearbeitet, sondern darüber hinaus Kolleg: innen mit ihrem Esprit, ihrem beständigen wissenschaftlichen Entdeckerdrang („Die Wahrheit liegt irgendwo da draußen“) und ihren zahlreichen Ideen inspiriert und auch Nachwuchswissenschaftler: innen nachhaltig für Linguistik begeistert, was sich in einer Reihe betreuter Karrierewege niedergeschlagen und Schüler: innen auf eigene Wissenschaftlerstellen und linguistische Professuren geführt hat. Die Beiträge des Bandes knüpfen in vielfältiger Weise an thematische Schwerpunkte des wissenschaftlichen Werks von Angelika Storrer mit Bezug zu Korpora an. „Links“ ergeben sich unter anderem über die folgenden Themencluster und Arbeiten: - Lexikographie: In den 1980er Jahren war die Universität Heidelberg, an der Angelika Storrer damals studierte, ein Zentrum der Metalexikographie und Wörterbuchforschung, geprägt unter anderem durch ihren Doktorvater Herbert Ernst Wiegand. Im von Andreas Blumenthal geleiteten Projekt COLEX (COmputerbasierte LEXikographie) wurden bereits früh die Möglichkeiten der Digitalisierung für lexikographische Prozesse und für den Aufbau lexikalischer Datenbanken bearbeitet. Daraus entstand u. a. die Publikation „Was ist eigentlich ein Verweis? “ (Blumenthal/ Lemnitzer/ Storrer 1988). Dieser Text, vor 35 Jahren entstanden, ist auch heute noch nicht veraltet, wie der Beitrag von Frank Michaelis, Carolin Müller-Spitzer, Jan-Oliver Rüdiger und Sascha Wolfer in diesem Band zeigt. Angelika Storrer ist diesem Gebiet auch später mit verschiedenen Arbeiten zur digitalen Lexikographie und Hypermedia treu geblieben (u. a. Storrer 1998, 2001a, 2013a). - Machine Translation: Aus den Arbeiten von Angelika Storrer am Wissenschaftlichen Zentrum der IBM in Heidelberg (WZH) ging eine Veröffentlichung gemeinsam mit drei Kolleginnen hervor, die sich mit der Varianz von Mehrwortausdrücken unter sprachkontrastiver Perspektive (deutsch-englisch) befasste (Brundage et al. 1992) und die den besonderen Schwierigkeiten der angemessenen Übersetzung phraseologischer Einheiten Rechnung trug. - Grammatik in Theorie und Praxis: In großer Ausführlichkeit beschäftigte sich Angelika Storrer mit der Verbvalenz im Deutschen. Die Ergebnisse dieser Forschungen hat sie in ihrer Dissertation (Storrer 1992) und in zwei Buchkapiteln (Storrer 1996a, 1996b) dargestellt. Gemeinsam mit Bruno Strecker, Roman Schneider, Eva Breindl und weiteren Mitstreiter: innen hat sie am Leibniz-Institut- für Deutsche Sprache (IDS) das digitale grammatische Informationssystem- grammis als wegweisendes Instrument für den hypermedialen Wissenschaftstransfer entwickelt (dazu Storrer 1997a), das bis heute weiterentwickelt und an zahlreichen Universitäten im In- und Ausland in der linguistischen Lehre eingesetzt wird. Als engagierte Hochschullehrerin war und ist es ein Anliegen von Angelika Storrer, grammatische Analysefähigkeiten nicht nur zu vermitteln, sondern Studierende mit kreativen didaktischen Ideen und innovativen Lehr- <?page no="14"?> Michael Beißwenger/ Eva Gredel/ Lothar Lemnitzer/ Roman Schneider 14 Lern-Settings für grammatische Fragen zu begeistern. Ein Beispiel dafür war das Projekt „Ruhrmeisterschaft Grammatik“ während des Sommersemesters 2003, in dem Studierende der Universitäten Dortmund, Bochum und Essen auf der Grundlage des didaktisierten Geschwisterkinds ProGr@mm des grammis-Projekts in einem digitalen Setting in der Lösung von Grammatikaufgaben gegeneinander antraten (dazu Beißwenger/ Lemnitzer/ Storrer 2003). - Empirische Erforschung internetbasierter Kommunikation: Dem grammatisch geschulten Zugang von Angelika Storrer zu System und Dynamik des Deutschen ist es auch zu verdanken, dass sie sich als eine der ersten Forscherinnen korpusgestützt mit den sprachlichen Besonderheiten in der internetbasierten Kommunikation unter der Frage ihrer Integration in grammatische Beschreibungsrahmen beschäftigt hat. Als Beispiele seien Storrer (2017a) zur Interjektion HM sowie Storrer (2019) zu den Konnektoren weil und sprich genannt. Eine wichtige Grundlage für diese und weitere Arbeiten bildeten einerseits das an ihrem Dortmunder Lehrstuhl in den Jahren 2002-2005 aufgebaute „Dortmunder Chat-Korpus“, das das erste und für lange Zeit einzige linguistische Korpus zur deutschen Sprache im Internet darstellte, und andererseits die Wikipedia-Korpora des IDS. Als eine der Pionierinnen bei der linguistischen Erforschung internetbasierter Kommunikation im deutschsprachigen Raum (vgl. Storrer 1997b und 1999 zu Hypertexten, Storrer 2000 und 2001b zu E-Mail, Usenet-Foren und Chats) hat sie mit dem Konzept des ‚interaktionsorientierten Schreibens‘ (Storrer 2013b, 2017b, 2018) einen Beschreibungsrahmen für die Spezifik der Sprachverwendung in der schriftlichen internetbasierten Kommunikation eingeführt, der dessen Besonderheiten als Anpassungsleistungen an Kommunikationsbedingungen der Interaktion und der Nähe auffasst, die sich in einer veränderten Schreibhaltung ausdrücken und deren Praktiken als emergenter Sprachwandel im Bereich der Schriftlichkeit beschreiben werden kann (Storrer 2014)-- ein Ansatz, der in der linguistischen Forschung breit und produktiv aufgegriffen wurde und der sich auch für die Deutschdidaktik als fruchtbar erwiesen hat. Zwei aktuelle Beispiele für korpusgestützte Untersuchungen, die das Konzept des interaktionsorientierten Schreibens als theoretischen Rahmen nutzen, sind Herzberg (2023) und Steinsiek (2023). Im Projekt „MIT.Qualität“ hat sie zuletzt gemeinsam mit Forschungspartner: innen des IDS Mannheim und des Instituts für Angewandte Sprachforschung am EURAC Research Center in Bozen ein Modell zur Bewertung von Textqualität entwickelt, das „traditionelle“ Ansätze zur Textbewertung mit Blick auf die Eigenschaften digitaler Kommunikation (Sozialität, Vernetztheit, Multimodalität, Algorithmisierung) erweitert (Storrer 2020). - Sprach- und texttechnologische Aufbereitung von Korpusdaten: Korpusdaten werden für die linguistische Recherche und Analyse erst wertvoll durch Metadaten und Annotationen sowie nachhaltig nutzbar durch die Repräsentation anhand texttechnologischer Standards. Aus dem von Angelika Storrer geleiteten DFG- <?page no="15"?> Einleitung 15 Projekt HyTex (Hypertextualisierung auf textgrammatischer Grundlage), einem Teilprojekt der bereits erwähnten Forschergruppe „Texttechnologische Informationsmodellierung“ (Mehler et al. (Hg.) 2011), an der mit Henning Lobin, Dafydd Gibbon, Andreas Witt, Harald Lüngen und Michael Beißwenger auch Autor: innen dieses Bandes beteiligt waren, sind Annotationsstandards und computerlinguistische Verfahren für u. a. die Repräsentation und lexikalische Strukturierung eines hypermedialen Fachtextkorpus hervorgegangen (Lenz/ Storrer 2002; Lenz/ Witt/ Storrer 2002; Lüngen et al. 2008). Im Rahmen einer CLARIN-D-Arbeitsgruppe zur Revision des Stuttgart-Tübingen-Tagsets (STTS) wurde ein Schema für die Part-of-speech-Annotation von Korpora internetbasierter Kommunikation (Bartz/ Beißwenger/ Storrer 2013), in Kooperation mit dem DWDS-Projekt der BBAW eine Kustomisierung des Encoding Frameworks der Text Encoding Initiative (TEI) für die XML-Repräsentation solcher Korpora erarbeitet (Beißwenger et al. 2012), dessen spätere Weiterentwicklungen u. a. in Korpusressourcen an der BBAW und am IDS genutzt werden (Lüngen et al. 2016). - Data Mining: Die Nutzbarmachung von Verfahren aus der Künstliche-Intelligenz- Forschung (Data Mining) für die linguistische Analyse großer Textdatensammlungen und die Entwicklung von Werkzeugen für die Data-Mining-basierte Korpusrecherche war Gegenstand des BMBF-Projekts KobRA, das Angelika Storrer gemeinsam mit der Informatikerin Katharina Morik leitete. Gemeinsam mit Projektpartnern aus der BBAW, dem IDS und dem SfS wurden in diesem Projekt Machine-Learning-Verfahren entwickelt und erprobt, die es ermöglichen, die Trefferlisten aus Korpusrecherchen zu bereinigen sowie außergewöhnliche Belege aufzuspüren und dadurch Linguist: innen bei der theoriegeleiteten Analyse großer Korpora zu unterstützen (Bartz et al. 2014, 2015). Die im Projekt entwickelten Werkzeuge stehen auf der Projekthomepage www.kobra.tu-dortmund.de/ (Stand: 30.5.2023) für Forschungs- und Lehrzwecke zur Verfügung. - Methoden korpusgestützter Sprachanalyse: Verschiedene Arbeiten von Angelika Storrer sind der Vermittlung von Methodenkompetenzen für das linguistische Forschen mit Korpora gewidmet. Dazu gehört nicht nur die Kenntnis einschlägiger Korpusressourcen (Storrer 2005; Engelberg/ Storrer 2016), sondern auch ein Bewusstsein für den Status von Korpusdaten im Forschungsprozess und für den Bezug von Korpusabfragen zu Forschungsfragen und -hypothesen sowie die Befähigung zum reflektierten Umgang mit Korpustreffern und -belegen (dazu u. a. Storrer 2011; Beißwenger/ Storrer 2011). - Anwendungsfelder korpusgestützter Sprachanalyse: Eine Reihe von Einzelstudien dokumentiert die Einsatzmöglichkeiten von Korpora für verschiedene linguistische und computerlinguistische Forschungsfelder- - etwa im Bereich der Grammatikforschung (Storrer 2006, 2007 zu Streckverbgefügen) und der Semantik (Pölitz et-al. 2015 zur Disambiguierung von Wortbedeutungen) sowie-bei der sprachen- und genrevergleichenden Erforschung internetbasierter Kommunikation (Gre- <?page no="16"?> Michael Beißwenger/ Eva Gredel/ Lothar Lemnitzer/ Roman Schneider 16 del/ Herzberg/ Storrer 2018; Herzberg/ Storrer 2019; Storrer/ Herzberg 2022). Der gemeinsam mit Roman Schneider und Alexander Mehler herausgegebene Band „Webkorpora in Computerlinguistik und Sprachforschung“ (Schneider/ Storrer/ Mehler (Hg.) 2013) dokumentiert weitere Beispiele und Anwendungen. An diese und weitere Arbeiten von Angelika Storrer knüpfen die Beiträge in diesem Band an, die wir in sechs thematischen Abschnitten angeordnet haben: a) Empirie, Korpora und Theoriebildung, b) Erhebung und Aufbereitung von Sprachkorpora, c)-Textkorpora: Untersuchungen und Anwendungen, d) Korpusgestützte Analyse gesprochener Sprache, e) Korpusgestützte Analyse internetbasierter Kommunikation, f) Korpusgestützte Analyse und Förderung sprachlicher Kompetenzen. Die einzelnen Beiträge reflektieren den Stand der linguistischen, korpuslinguistischen und korpustechnologischen Forschung und sind dabei-- so jedenfalls unsere Hoffnung-- nicht nur für Expert: innen der Domäne, sondern auch für fortgeschrittene Studierende der Linguistik mit einschlägigem fachlichen Interesse verständlich. a)-Empirie, Korpora und linguistische Theoriebildung Den ersten Abschnitt eröffnet ein Beitrag von Ludger Hoffmann zum Thema Sprachwissenschaft- - Theorien und empirische Zugänge. In seinem Zentrum steht der Zusammenhang zwischen Theorie und Gegenstand und dessen Verhältnis zur empirischen Basis, die zum Beispiel in Korpora dokumentiert ist. Ulrich Schmitzʼ Beitrag Infinity Corpus-- Linguistischer Größenwahn einmal durchgespielt reflektiert potenzielle Träume der Korpuslinguistik, auf der Basis einer unendlich großen Datenmenge die Sprache bzw. eine Sprache „umfassend“ beschreiben zu können. Selbst ein unendlich großes Korpus würde uns einem solchen Ziel keinen Schritt näher bringen, so lautet das Fazit. b)-Erhebung und Aufbereitung von Sprachkorpora Bodenständiger, gewissermaßen, fallen die Beiträge des zweiten Abschnitts aus, die sich mit der Kuratierung digitaler Korpusressourcen befassen. Marc Kupietz, Harald Lüngen und Andreas Witt stellen in ihrem Beitrag DeReKo im Kontext deutschsprachiger Gegenwartskorpora: Perspektiven-- Ziele-- Visionen neue Entwicklungen beim Auf- und Ausbau des Deutschen Referenzkorpus am Leibniz-Institut für Deutsche Sprache vor. Ergänzend dazu kann der Beitrag von Frank Michaelis et al. in Abschnitt c) gelesen werden. Der Beitrag von Henning Lobin, Was bieten heutige Korpora? Über die Herausforderungen der Erfassung besonderer Textsorten bei der Erforschung gegenwärtigen Sprachgebrauchs, beschreibt, wie die Verfügbarkeit digitaler Textkorpora den Wandel von einer systemorientierten hin zu einer gebrauchsorientierten Sprachforschung ermöglicht hat, und zeigt auf, wie durch die Integration von Textspenden in eine Ressourceninfrastruktur die Datenbasis gezielt um bislang vernachlässigte, weil schwer zu beschaffende Textsorten bereichert werden kann. Alexandra Pushkina und Erhard Hinrichs stellen in ihrem Beitrag The IVK-Ler Corpus of <?page no="17"?> Einleitung 17 Adolescent Foreign-Language Learners of German ein Exemplar der speziell für die empirisch fundierte Fremd-/ Zweitsprachendidaktik gewinnbringenden Gattung Lernerkorpus vor. Es handelt ich dabei um annotierte Arbeiten, die von Lernern internationaler Vorbereitungsklassen verfasst wurden. Uta Quasthoff diskutiert in ihrem Beitrag Natürlichkeit vs. Reichhaltigkeit vs. Vergleichbarkeit, wie widerstreitende Interessen bzw. Anforderungen beim Aufbau von Gesprächskorpora versöhnt bzw. miteinander in Einklang gebracht werden können. Als Beispiel einer solchen Ressource führt Quasthoff die chronologisch verschränkten Datenerhebungen der DASS- und OLDER-Studien zur längsschnittlichen Analyse von Diskurserwerbsprozessen bei Grundschulkindern an. c)-Textkorpora: Untersuchungen und Anwendungen In diesem Abschnitt sind Untersuchungen und Anwendungen versammelt, die sich auf unterschiedliche Korpora der geschriebenen Standardsprache beziehen. In seinem Beitrag Anpassungsfähigkeit und Akzentuierung. Von modernen Dingen und den vielfältigen Möglichkeiten adjektivischer Wortbildung untersucht Ludwig M. Eichinger eine Gruppe von Adjektiven mit dem Erstglied „gender-“ und zeigt auf, welche Möglichkeiten zur differenzierten sprachlichen Integration von neuen Diskurselementen die Wortbildung des Adjektivs, vor allem die zwischen den klassischen Typen Komposition und Derivation stehenden Verfahren, bietet. Stefan Engelberg widmet sich den Argumentstrukturen in expressionistischer Lyrik. Auf der Basis eines Korpus expressionistischer Gedichte präsentiert der Autor eine Übersicht über Auffälligkeiten im Stil expressionistischer Lyrik und schlägt damit eine Brücke zwischen Linguistik und Literaturwissenschaft, deren Ergebnisse eine methodisch innovative Grundlage für weiterführende Studien darstellen sollten. Thomas Gloning widmet sich in seinem Beitrag Wissensräume von Zeitschriften in Beiträgen, Heften und Heft-Serien. Textorganisation, Multimodalität, Wortgebrauch dem reichen Universum der Zeitschriften und den darin beobachtbaren Strategien von Textgestaltung und Wortwahl und entwickelt daraus Forschungsfragen für weitere, auf diese Textsorte bezogene Untersuchungen. Lothar Lemnitzer skizziert unter dem Titel 20 Jahre Wortwarte. Wie alles anfing (und endete) Anfang und Ende sowie erkenntnisfördernde methodische Aspekte einer auf tagesaktuellen Texten aus dem Web basierenden Sammlung von neuen Wörtern. Frank Michaelis, Carolin Müller-Spitzer, Jan-Oliver Rüdiger und Sascha Wolfer stellen in ihrem Beitrag Filtern, Explorieren, Vergleichen: Neue Zugriffsstrukturen und instruktive Potentiale von OWID plus Anwendungen für verschiedene Korpora am IDS vor, wobei ‚Anwendungen‘ hier im technischen Sinne als Online-Werkzeuge für die Analyse von Korpusdaten zu verstehen ist. Bernhard Schröder diskutiert in seinem Beitrag Induktiv oder intuitiv? Die Gewinnung von Frames aus mathematischen Beweistexten an Korpusbeispielen methodologische Fragen in Bezug auf die Auflösung semantischer Ambiguitäten und deren Abhängigkeit von den Kompetenzen, die die Autor: innen ihren Rezipient: innen unterstellen. Manfred Stede, Anna-Janina Goecke, Noël Simmel und Birgit Schneider stellen in ihrem Beitrag Der reine Klima- <?page no="18"?> Michael Beißwenger/ Eva Gredel/ Lothar Lemnitzer/ Roman Schneider 18 wahnsinn! Zur-Konzeption eines Diskursglossars von Klimakomposita ein Projekt vor, in dem korpusbasiert ein Glossar zu Diskursen rund um den Klimawandel erstellt wurde. Das Korpus ist für die spezifischen Zwecke dieses Projekts zusammengestellt und enthält Texte, in denen die Positionen verschiedener Diskursteilnehmer repräsentiert sind. Gisela Zifonun präsentiert Korpusbefunde und Grammatik am Beispiel des Genitivs im Deutschen und setzt sich dazu aus der Sicht einer Grammatikerin mit zwei am Leibniz-Institut für Deutsche Sprache durchgeführten korpuslinguistischen Arbeiten zum Genitiv im Deutschen auseinander: einer Studie zur Wahl des s-Markers in der starken Substantivflexion und einer Studie zu Sonderfällen des Genitivattributs. d)-Korpusgestützte Analyse gesprochener Sprache In diesen Abschnitt stehen Korpora gesprochener Sprache und darauf bezogene Untersuchungen im Fokus: Arnulf Deppermann und Silke Reineke zeigen in ihrem Beitrag unter dem Titel Zur Verwendung von Metadaten in der interaktionsanalytischen Arbeit mit Korpora-- am Beispiel einer Untersuchung anhand des Korpus FOLK, wie Metadaten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) im Rahmen einer interaktionslinguistischen Untersuchung verwendet werden können, um Regularitäten der Verwendung einer untersuchten Gesprächspraktik zu identifizieren und deren Zusammenhang mit den Eigenschaften von Aktivitäten und Sprecherrollen zu klären. Rosemarie Tracy und Dafydd Gibbon analysieren in ihrem Artikel The Beat Goes On: A Case Study of Timing in Heritage German Prosody den Beitrag von Sprechrhythmen zur narrativen Kohäsion anhand einer Fallstudie der Flüssigkeit und des Rhythmus in der Sprachproduktion einer bilingualen Sprecherin des Deutschen als Herkunfts- und Minoritätssprache im englischsprachigen Majoritätskontext in den USA. e)-Korpusgestützte Analyse internetbasierter Kommunikation Die empirische Erforschung internetbasierter Kommunikation ist spätestens seit der Jahrtausendwende in den Fokus linguistischer Untersuchungen zum Sprachwandel im Gegenwartsdeutschen gerückt. State-of-the-art-Korpussammlungen haben-- unter einschlägiger konzeptioneller Mitwirkung von Angelika Storrer-- ihren Datenbestand entsprechend um (Teil-)Korpora internetbasierter Kommunikation und zum Sprachgebrauch in Social-Media-Genres erweitert. Die Aufbereitung und die Auswertung von Korpusdaten diesen Typs stellen eine Herausforderung für etablierte Werkzeuge und Standards im Bereich der Korpusakquise und -aufbereitung dar, sie sind „Korpora der dritten Art“ (Storrer 2014). Der Abschnitt versammelt korpusgestützte Untersuchungen und behandelt Desiderate beim Aufbau solcher Korpora: Michael Beißwenger und Sarah Steinsiek werfen in ihrem Beitrag Interpunktion als interaktionale Ressource. Eine korpusgestützte Untersuchung zur Funktion von Auslassungspunkten in der internetbasierten Kommunikation einen empirischen Blick auf ein als typisch schriftsprachlich erachtetes Interpunktionszeichen und dessen Re- <?page no="19"?> Einleitung 19 pragmatisierung für die Zwecke sequenziell organisierter, schriftlicher Nähekommunikation. Leonie Bröcher, Eva Gredel, Laura Herzberg, Maja Linthe und Ziko van Dijk beschreiben unter dem Titel Linguistische Wikipedistik und Wikipedaktik. Revisited (2018-2023), mit dem sie an eine gemeinsame Publikation mit Angelika Storrer aus dem Jahr 2018 anknüpfen (Gredel/ Herzberg/ Storrer 2018), linguistische Potenziale der Arbeit mit den Wikipedia-Korpora des IDS für die Analyse digitaler Diskurse und im Bereich der Didaktik. Wolfgang Imo beschäftigt sich in seiner Fallstudie „Ich glaub mein Schwein pfeifft“-- ein Fall für die Mobile Communication Database. Oder: Das Possessivpronomen mein aus korpusbasierter Perspektive mit den Funktion(en) eines auf den ersten Blick eher unscheinbaren Pronomens im Rahmen schriftlicher, digitaler Interaktion. Konstanze Marx stellt in ihrem Beitrag Die INSTAB-Formel. Ein Vorschlag für die Erstellung von Instagram-Datensammlungen für studentische Arbeiten einen in der akademischen Lehre erprobten Ansatz vor, wie für eine der beliebtesten Social-Media-Plattformen Schritt für Schritt valide Datensammlungen für qualitativ ausgerichtete Forschungsarbeiten angelegt werden können, ohne dass Studierende über Programmierkenntnisse oder besondere technische Voraussetzungen verfügen müssen. Dabei steht insbesondere die angemessene Behandlung multimodaler Aspekte im Fokus. f)-Korpusgestützte Analyse und Förderung sprachlicher Kompetenzen Dieser Abschnitt schlägt die Brücke von der linguistischen Nutzung digitaler Sprachkorpora zu deren Einsatzmöglichkeiten in didaktischen Kontexten und in Bezug auf die Förderung sprachlicher Kompetenzen. Thomas Bartz und Nadja Radtke greifen unter dem Titel Nutzung digitaler Textkorpora und Analysewerkzeuge beim materialgestützten Schreiben im Deutschunterricht das in der Schule bislang noch wenig genutzte Potenzial einer Verknüpfung von Sprachreflexion mit der Recherche und Analyse authentischer Sprachdaten mithilfe digitaler Textkorpora auf und machen es für das materialgestützte Schreiben nutzbar. Dazu skizzieren sie didaktische Grundlagen und curriculare Vorgaben zum materialgestützten Schreiben und entwickeln einen Vorschlag zur Weiterentwicklung dieser Aufgabenart. Eva Breindl zeigt unter dem Titel Koordination- - (k)ein Lernproblem für DaF? an einer Auswertung von Lernerkorpora und didaktischen Materialien für den Unterricht Deutsch als Fremdsprache (DaF), dass Koordination als Lerngegenstand unterschätzt wird. In einer Pseudolongitudinalstudie am Lernerkorpus MERLIN legt sie die Entwicklungen koordinativer Strukturen vom Niveau B1 über B2 bis C1 dar. Im Vergleich mit L1-Texten wird dann deutlich, dass selbst Lerner auf C1-Niveau noch einen erheblichen Mindergebrauch komplexerer Koordinationsstrukturen aufweisen. In ihrem Überblicksartikel Korpora für Deutsch als Fremdsprache-- Potenziale und Perspektiven loten Carolina Flinz, Ruth Maria Mell, Christine Möhrs und Tassja Weber lohnende Anknüpfungspunkte für Forschung und Didaktik an öffentlich verfügbare Lernerkorpora aus, beispielsweise bei der Konzipierung bedarfsgerechter Lehr-/ Lernmaterialien. Dabei geben sie u. a. Hinweise zur empirisch fundierten Abdeckung von <?page no="20"?> Michael Beißwenger/ Eva Gredel/ Lothar Lemnitzer/ Roman Schneider 20 Fachwortschätzen oder auch zu sprachübergreifenden Kontexten und Fragestellungen. Aivars Glaznieks, Jennifer-Carmen Frey und Andrea Abel fokussieren unter dem Titel Weil-Sätze bei Lernenden des Deutschen. Vergleich zwischen immersiv und nicht immersiv Deutschlernenden in Südtirol die Verwendung von weil-Sätzen in Texten von Deutschlernenden in Südtirol. Die Studie, die auf Korpusdaten aus der mehrsprachigen italienischen Provinz Südtirol basiert, zeigt, dass weil-Sätze in beiden Lernsituationen ein Muster aufweisen, das sie von anderen durch Subjunktion eingeleiteten Nebensätzen unterscheidet. Abgerundet wird der Abschnitt von Christian Lang, Roman Schneider und Angelika Wöllstein, die in ihrem Beitrag Was ist, was soll sein-- und warum? Sprachanfragen aus empirisch-linguistischer Perspektive authentische Sprachberatungsfragen linguistischer Laien analysieren. Anhand einer empirisch-terminologischen Auswertung der umfangreichen Datenbasis werden das natürliche Spannungsfeld zwischen (angenommener) Sprachnorm und variationsreicher Sprachrealität sowie die Behandlung sprachlicher Unsicherheiten im grammatischen Online-Informationssystem grammis systematisch ausgeleuchtet. Die Beiträge dieses Bandes, verfasst von Weggefährt: innen, knüpfen an den oben erwähnten roten Faden im wissenschaftlichen Wirken von Angelika Storrer in vielfältiger Weise an. Bei aller sich daraus ergebender Heterogenität der Themen und Zugänge, die nicht zuletzt auch dem Facettenreichtum des Forschungs- und Entwicklungsfelds „Korpusgestützte Sprachanalyse“ geschuldet ist, kann dieses Buch dazu genutzt werden, um i)-Sprachressourcen für das Deutsche und ii)-Werkzeuge für deren Nutzung kennenzulernen, iii)- aktuelle Forschungsfelder und Forschungsfragen zu identifizieren sowie Wissenschaftler: innen bei der Beantwortung einschlägiger Forschungsfragen und Korpusentwickler: innen bei aktuellen Problemstellungen im Zusammenhang mit dem Aufbau und der Aufbereitung von Korpusressourcen zu folgen und iv)-den Umgang mit empirischen Korpusdaten sowie dessen theoretische und methodische Implikationen besser zu verstehen. In diesem Sinne soll der vorliegende Band nicht zuletzt auch als Anreiz für junge und angehende Wissenschaftler: innen verstanden werden, an diesen Stand der Dinge anzuknüpfen und die von Angelika Storrer ausgeworfenen Fäden weiterzuspinnen. Das, so sind wir überzeugt, ist ganz im Sinne der Jubilarin. Wir danken den Herausgeber: innen der Studien zur Deutschen Sprache für die Aufnahme des Bandes in die Reihe und der Publikationsstelle des IDS für die Druckaufbereitung der Manuskripte. Essen, Berlin und Mannheim, im August 2023 Michael Beißwenger Eva Gredel Lothar Lemnitzer Roman Schneider <?page no="21"?> Einleitung 21 Literatur Bartz, Thomas/ Beißwenger, Michael/ Storrer, Angelika (2013): Optimierung des Stuttgart-Tübingen-Tagset für die linguistische Annotation von Korpora zur internetbasierten Kommunikation: Phänomene, Herausforderungen, Erweiterungsvorschläge. In: Journal for Language Technology and Computational Linguistics-28,-1 (Themenheft: Das STTS-Tagset für Wortartentagging-- Stand und Perspektiven), S.-157-198. Bartz, Thomas/ Beißwenger, Michael/ Pölitz, Christian/ Radtke, Nadja/ Storrer, Angelika (2014): Neue Möglichkeiten der Arbeit mit strukturierten Sprachressourcen in den Digital Humanities mithilfe von Data-Mining. In: Digital humanities (Hg.): Conference abstracts EPFL- UNIL Lausanne, Switzerland, 8-12 July 2014. Berlin u. a.: Springer. Bartz, Thomas/ Pölitz, Christian/ Morik, Katharina/ Storrer, Angelika (2015): Using data mining and the CLARIN infrastructure to extend corpus-based linguistic research. In: Odijk, Jan (Hg.): Selected papers from the CLARIN 2014 conference, October 24-25, 2014, Soesterberg, The Netherlands. (=-NEALT Proceedings Series-28). Linköping: Linköping University Electronic Press, S.-1-13. Beißwenger, Michael/ Ermakova, Maria/ Geyken, Alexander/ Lemnitzer, Lothar/ Storrer, Angelika (2012): A TEI schema for the representation of computer-mediated communication. In: Journal of the Text Encoding Initiative-3, S.-1-31. Beißwenger, Michael/ Lemnitzer, Lothar/ Storrer, Angelika (2003): „Wer wird Junggrammatiker? “- - Chatbasierte Quizrunden als Motivationsfaktor im Rahmen des universitären Grammatikunterrichts. In: Sprache und Datenverarbeitung 27, 1/ 2 (Sonderheft: Computerlinguistik-- neue Wege in der Lehre), S.-161-184. Beißwenger, Michael/ Storrer, Angelika (2011): Digitale Sprachressourcen in Lehramtsstudiengängen: Kompetenzen-- Erfahrungen-- Desiderate. In: Journal for Language Technology and Computational Linguistics-26,-1, S.-119-139. Blumenthal, Andreas/ Lemnitzer, Lothar/ Storrer, Angelika (1988): Was ist eigentlich ein Verweis? Konzeptionelle Datenmodellierung als Voraussetzung computergestützter Verweisbehandlung. In: Harras, Gisela (Hg.): Das Wörterbuch: Artikel und Verweisstrukturen. (=-Jahrbuch des Instituts für Deutsche Sprache 1987/ Sprache der Gegenwart 74). Düsseldorf: Schwann-Bagel/ Bielefeld: Cornelsen-Velhagen u. Klasing, S.-351-373. Brundage, Jennifer/ Kresse, Maren/ Schwall, Ulrike/ Storrer, Angelika (1992): Multiword lexemes: a monolingual and contrastive typology for NLP and MT. (=- IWBS-Report- 232). Stuttgart: IBM Institute for Knowledge Based Systems. Engelberg, Stefan/ Storrer, Angelika (2016): Typologie von Internetwörterbüchern und -portalen. In: Klosa, Annette/ Müller-Spitzer, Carolin (Hg.): Internetlexikografie: Ein Kompendium. Berlin/ Boston: De Gruyter, S.-31-64. Gredel, Eva/ Herzberg, Laura/ Storrer, Angelika (2018): Linguistische Wikipedistik. In: Zeitschrift für germanistische Linguistik-46,-3, S.-480-493. Herzberg, Laura (2023): OKAY: Form, Position, Funktion und Verbreitung eines Internationalismus in der digitalen Welt. Diss. Mannheim: Universität Mannheim. Herzberg, Laura/ Storrer, Angelika (2019): Investigating OKAY across genres, modes and languages: a corpus-based study on German and French. In: Cahiers du Laboratoire de Recherche sur le Langage-8, S.-149-176. <?page no="22"?> Michael Beißwenger/ Eva Gredel/ Lothar Lemnitzer/ Roman Schneider 22 Lenz, Eva A./ Storrer, Angelika (2002): Converting a corpus into a hypertext: an approach using XML topic maps and XSLT. In: Gonzàles Rodríguez, Manuel/ Suarez Araujo, Carmen P./ Ocon Carreras, Antonio/ Jollanes Aguilar, Louis/ Municio, Angel (Hg.): Proceedings of LREC 2002. Third international conference on language resources and evaluation, 29- May-31- May 2002. Las Palmas: Universidad de Las Palmas de Gran Canaria, S.-432-436. Lenz, Eva A./ Witt, Andreas/ Storrer, Angelika (2002): Towards declarative descriptions of transformations: an approach based on topic maps. In: The Association for Literary and Linguistic Computing and the Association for Computers and the Humanities ALLC/ ACH (Hg.): New directions in humanities computing. Proceedings of the 14th joint international conference, 24-28 July 2002. Tübingen: Universität Tübingen, S.-60-62. Lüngen, Harald/ Beißwenger, Michael/ Herold, Axel/ Storrer, Angelika (2016): Integrating corpora of computer-mediated communication in CLARIN-D: results from the curation project ChatCorpus2CLARIN. In: Dipper, Stefanie/ Neubarth, Friedrich/ Zinsmeister, Heike (Hg.): Proceedings of the 13th conference on natural language processing (KONVENS 2016), September 19-21, 2016, Bochum, Germany. Bochum: Ruhr-Universität Bochum, S.-156-164. www.linguistics.rub.de/ konvens16/ pub/ 20_konvensproc.pdf (Stand: 30.5.2023). Lüngen, Harald/ Kunze, Claudia/ Storrer, Angelika/ Lemnitzer, Lothar (2008): Towards an integrated OWL model for domain-specific and general language wordnets. In: Tanács, Attila/ Csendes, Dóra/ Vincze, Veronika/ Fellbaum, Christiane/ Vossen, Piek (Hg.): GWC 2008: the fourth global WordNet conference, Szeged, Hungary, January 22-25, 2008: Proceedings. Szeged: University of Szeged, Department of Informatics, S.-281-296. Mehler, Alexander/ Kühnberger, Kai-Uwe/ Lobin, Henning/ Lüngen, Harald/ Storrer, Angelika/ Witt, Andreas (Hg.) (2011): Modeling, learning, and processing of text-technological data structures. (=-Studies in Computational Intelligence 370). Berlin/ Heidelberg: Springer. Pölitz, Christian/ Bartz, Thomas/ Morik, Katharina/ Storrer, Angelika (2015): Investigation of word senses over time using linguistic corpora. In: Král, Pavel/ Matoušek, Václav (Hg.): Text, speech, and dialogue: 18th international conference, TSD 2015, Pilsen, Czech Republic, September 14-17, 2015, Proceedings. (=- LNCS/ LNAI 9302). Berlin u. a.: Springer, S.-191-198. Schneider, Roman/ Storrer, Angelika/ Mehler, Alexander (Hg.) (2013): Webkorpora in Computerlinguistik und Sprachforschung. Sonderheft des Journal for Language Technology and Computational Linguistics-28,-2. https: / / jlcl.org/ issue/ view/ 22 (Stand: 30.5.2023). Steinsiek, Sarah (2023): Eine Interjektion im Spannungsfeld von Mündlichkeit und Schriftlichkeit: Zur formalen und funktionalen Spezifik von „HM“ in geschriebener Alltagskommunikation. In: von Elbwart, Katharina/ Fisseni, Bernhard/ Winter, Katja/ Wodtke, Eva (Hg.): Beackerte Felder: Kultur, Bildung, Erinnerung: Gaby Herchert zum 65. Geburtstag. (=-Perspektiven des Regionalen 1). Münster: Aschendorff, S.-317-340. https: / / doi.org/ 10.17438/ 978- 3-402-26428-7 (Stand: 30.5.2023). Storrer, Angelika (1992): Verbvalenz: Theoretische und methodische Grundlagen ihrer Beschreibung in Grammatikographie und Lexikographie. (=-Reihe Germanistische Linguistik-126). Tübingen: Niemeyer. Storrer, Angelika (1996a): Wie notwendig sind obligatorische Valenzstellen? -- Faktoren der Weglaßbarkeit von Valenzstellen im Text. In: Gréciano, Getrud/ Schumacher, Helmut <?page no="23"?> Einleitung 23 (Hg.): Lucien Tesnière-- Syntaxe structurale et opérations mentales. Akten des deutschfranzösischen Kolloquiums anläßlich der 100. Wiederkehr seines Geburtstages, Strasbourg 1993. (=-Linguistische Arbeiten-348). Tübingen: Niemeyer, S.-225-238. Storrer, Angelika (1996b): Verbbedeutung und Situationsperspektivierung. In: Grabowski, Joachim/ Harras, Gisela/ Herrmann, Theo (Hg.): Bedeutung- - Konzepte- - Bedeutungskonzepte. Theorie und Anwendung in Linguistik und Psychologie. (=- Psycholinguistische Studien). Opladen: Westdeutscher Verlag, S.-231-255. Storrer, Angelika (1997a): Grammatikographie mit Neuen Medien: Erfahrungen beim Aufbau eines grammatischen Informationssystems. In: Zeitschrift für Literaturwissenschaft und Linguistik-27,-2, S.-44-75. Storrer, Angelika (1997b): Vom Text zum Hypertext. Die Produktion von Hypertexten auf der Basis traditioneller wissenschaftlicher Texte. In: Knorr, Dagmar/ Jakobs, Eva-Maria (Hg.): Textproduktion in elektronischen Umgebungen. (=- Textproduktion und Medium- 2). Frankfurt a. M. u. a.: Lang, S.-121-139. Storrer, Angelika (1998): Hypermedia-Wörterbücher: Perspektiven für eine neue Generation elektronischer Wörterbücher. In: Wiegand, Herbert E. (Hg.): Wörterbücher in der Diskussion III. Vorträge aus dem Heidelberger Lexikographischen Kolloquium. (=-Lexicographica Series Maior 84). Tübingen: Niemeyer, S.-106-131. Storrer, Angelika (1999): Kohärenz in Text und Hypertext. In: Lobin, Henning (Hg.): Text im digitalen Medium: Linguistische Aspekte von Textdesign, Texttechnologie und Hypertext-Engineering. Opladen/ Wiesbaden: Westdeutscher Verlag, S.-33-66. Storrer, Angelika (2000): Schriftverkehr auf der Datenautobahn: Besonderheiten der schriftlichen Kommunikation im Internet. In: Voß, G. Günter/ Holly, Werner/ Boehnke, Klaus (Hg.): Neue Medien im Alltag: Begriffsbestimmungen eines interdisziplinären Forschungsfeldes. Opladen/ Wiesbaden: Leske + Budrich, S.-151-175. Storrer, Angelika (2001a): Digitale Wörterbücher als Hypertexte: Zur Nutzung des Hypertextkonzepts in der Lexikographie. In: Lemberg, Ingrid/ Schröder, Bernhard/ Storrer, Angelika (Hg.): Chancen und Perspektiven computergestützter Lexikographie. Hypertext, Internet und SGML/ XML für die Produktion und Publikation digitaler Wörterbücher. (=- Lexicographica Series Maior-107). Tübingen: Niemeyer, S.-53-69. Storrer, Angelika (2001b): Sprachliche Besonderheiten getippter Gespräche: Sprecherwechsel und sprachliches Zeigen in der Chat-Kommunikation. In: Beißwenger, Michael (Hg.): Chat-Kommunikation: Sprache, Interaktion, Sozialität & Identität in synchroner computervermittelter Kommunikation. Perspektiven auf ein interdisziplinäres Forschungsfeld. Stuttgart: ibidem, S.-3-24. Storrer, Angelika (2005): Online-Corpora zur linguistischen Analyse der deutschen Gegenwartssprache. In: Zeitschrift für germanistische Linguistik-33,-1, S.-145-150. Storrer, Angelika (2006): Funktionen von Nominalisierungsverbgefügen im Text. In: Proost, Kristel/ Winkler, Edeltraud (Hg.): Von Intentionalität zur Bedeutung konventionalisierter Zeichen. Festschrift für Gisela Harras zum 65. Geburtstag. (=-Studien zur Deutschen Sprache-35). Tübingen: Narr, S.-147-179. Storrer, Angelika (2007): Corpus-based investigations on German support verb constructions. In: Fellbaum, Christiane (Hg.): Idioms and collocations: corpus-based linguistic and lexicographic studies. London u. a.: Continuum, S.-164-187. <?page no="24"?> Michael Beißwenger/ Eva Gredel/ Lothar Lemnitzer/ Roman Schneider 24 Storrer, Angelika (2011): Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In: Knapp, Karlfried (Hg.): Angewandte Linguistik: ein Lehrbuch. 3., vollst. überarb. und erw. Aufl. (=-UTB 8275). Tübingen/ Basel: Francke, S.-216-239. Storrer, Angelika (2013a): Representing (computational) dictionaries in hypertextual form. In: - Gouws, Rufus H./ Heid, Ulrich/ Schweickard, Wolfgang/ Wiegand, Herbert E. (Hg.): Dictionaries: an international encyclopedia of lexicography. Supplementary volume: recent developments with focus on electronic and computational lexicography (=-Handbücher zur Sprach- und Kommunikationswissenschaft [HSK]- 5.4). Berlin/ Boston: De Gruyter, S.-1244-1253. Storrer, Angelika (2013b): Sprachstil und Sprachvariation in sozialen Netzwerken. In: Frank- Job, Barbara/ Mehler, Alexander/ Sutter, Tilmann (Hg.): Die Dynamik sozialer und sprachlicher Netzwerke. Konzepte, Methoden und empirische Untersuchungen an Beispielen des WWW. Wiesbaden: Springer VS, S.-331-366. Storrer, Angelika (2014): Sprachverfall durch internetbasierte Kommunikation? Linguistische Erklärungsansätze- - empirische Befunde. In: Plewnia, Albrecht/ Witt, Andreas (Hg.): Sprachverfall? Dynamik- - Wandel- - Variation. (=- Jahrbuch des Instituts für Deutsche Sprache 2013). Berlin/ Boston: De Gruyter, S.-171-196. Storrer, Angelika (2017a): Interaktive Einheiten in der internetbasierten Kommunikation. In: Ekinci, Yüksel/ Montanari, Elke/ Selmani, Lirim (Hg.): Grammatik und Variation. Festschrift für Ludger Hoffmann zum 65. Geburtstag. Heidelberg: Synchron, S.-119-132. Storrer, Angelika (2017b). Internetbasierte Kommunikation. In: Deutsche Akademie für Sprache und Dichtung/ Union der deutschen Akademien der Wissenschaften (Hg.): Vielfalt und Einheit der deutschen Sprache. Zweiter Bericht zur Lage der deutschen Sprache. Tübingen: Stauffenburg, S.-247-282. Storrer, Angelika (2018): Interaktionsorientiertes Schreiben im Internet. In: Deppermann, Arnulf/ Reineke, Silke (Hg.): Sprache im kommunikativen, interaktiven und kulturellen Kontext. (=- Germanistische Sprachwissenschaft um 2020- 3). Berlin/ Boston: De Gruyter, S.-219-244. Storrer, Angelika (2019): Text und Interaktion im Internet. In: Eichinger, Ludwig M./ Plewnia, Albrecht (Hg.): Neues vom heutigen Deutsch: empirisch- - methodisch- - theoretisch. (=- Jahrbuch des Instituts für Deutsche Sprache 2018). Berlin/ Boston: De Gruyter, S.-221-244. Storrer, Angelika (2020): Textqualität digital: Ein Modell zur Qualitätsbewertung digitaler Texte. In: Deutsche Sprache-48 (Themenheft: Textqualität im digitalen Zeitalter. Herausgegeben von Andrea Abel, Aivars Glaznieks, Maja Linthe, Sascha Wolfer), S.-101-125. Storrer, Angelika/ Herzberg, Laura (2022): Alles okay! Korpusgestützte Untersuchungen zum Internationalismus OKAY. In: Beißwenger, Michael/ Lemnitzer, Lothar/ Müller-Spitzer, Carolin (Hg.): Forschen in der Linguistik: eine Methodeneinführung für das Germanistik- Studium. (=-UTB 5711). Paderborn: Brill | Fink, S.-37-59. <?page no="25"?> EMPIRIE, KORPORA UND LINGUISTISCHE THEORIEBILDUNG <?page no="27"?> LUDGER HOFFMANN SPRACHWISSENSCHAFT-- THEORIEN UND EMPIRISCHE ZUGÄNGE Abstracts : Die Sprachwissenschaft zerfällt in Richtungen, die durch unterschiedliche Erklärungsmodelle und Daten gekennzeichnet sind. In diesem Beitrag sollen wichtige Differenzen dargestellt und erklärt werden. Im Zentrum steht der Zusammenhang zwischen Theorie und Gegenstand und ihrem Verhältnis zur empirischen Basis, die zum Beispiel in Korpora dokumentiert ist. Linguistics breaks down into directions characterized by different explanatory models, subjects under consideration and empirical data. In this paper, important differences will be presented and explained. The focus is on the relationship between theory and subject and their relationship to the empirical basis. Keywords: Wissenschaft, Gegenstand der Sprachwissenschaft, Empirie, Theorie, Methodologie, Paradigma, Funktionale Pragmatik, generative Ansätze, Funktional-typologische Sprachwissenschaft 1. Wissenschaft und Wissensgewinnung Zweck der Wissenschaft in ihren Disziplinen und unterschiedlichen Ausrichtungen ist die Gewinnung immer neuen und gesellschaftlich relevanten, wirklichkeitsbezogenen, geformten und gestalteten Wissens. Dieses Wissen wird weitergegeben, ‚sozial vererbt‘. Neues Wissen muss zum vorhandenen passen, damit verträglich, in die Bestände integrierbar sein, und sich im aktuellen Forschungsstand verankern lassen (Anschlussfähigkeit). Nicht länger integrierbares altes Wissen wird ausgesondert (Obsoleszenz von Wissen). Die Wissensgewinnung unterliegt wissenschaftlichen Methoden und Standards für die Disziplinen und Ausrichtungen und ist von Kritik begleitet. Kooperation und kompetitive Auseinandersetzung sind Konstituenten des Wissenschaftsprozesses. Zentral ist die Kritik an Begründungen, Wissenslücken, Widersprüchen, methodischen Fehlern (Einhaltung von Standards), Ad-hoc-Annahmen etc. In der Konkurrenz geht es auch um Schnelligkeit, Durchsetzung von Zielen und Positionen. Und öfter auch um Fragen wie: Welches Gewicht hat eine Publikation, welchen Rang erhalten Mitbewerber(innen)? Wie kommt man an die Mittel und Daten, um an kostspieligen Wettbewerben (etwa um einen Impfstoff) oder an sehr datenintensiven Projekten teilzunehmen? Wissenschaftliches Wissen ist das beste gesellschaftlich verfügbare, geteilte und bestätigte Wissen über thematische Bereiche der Wirklichkeit. Das Gewusste gliedert sich in DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="28"?> Ludger Hoffmann 28 a) den Gegenstand des jeweiligen Wissens, der entworfen und mit guten Gründen bestätigt werden muss; das heißt nicht, dass die Art der Gegenstandskonstitution für alles gelten muss, was wissenschaftlich beschrieben wird-- so lässt sich nach Heisenbergs Unschärferelation für das Teilchen kein präziser Ort angeben und auch die Bewegung ist nicht genau zu fassen, die Quantenphysik wirkt sich auch auf den Gral der Physik, die Kausalität, aus; b) zugeordnete Prädikate, die Eigenschaften oder Eigenschaftsmengen zum Ausdruck bringen, die für den Gegenstand im Unterschied zu anderen einen Unterschied beinhalten und für ihn charakteristisch sind. Den Rahmen für die Bearbeitung von Wissen bildet die Gemeinschaft der Wissenden (scientific community), die in Disziplinen und Fachausrichtungen institutionell organisiert ist. Auf ihre Rolle muss man vertrauen (Brandom 2021). Der Gegenstand einer Wissenschaft als prágma im Sinne von Aristoteles oder obiectum mit zeitlicher Kontinuität und räumlicher Anordnung ergibt sich nicht von selbst, auf eine natürliche Weise, vortheoretisch. Es bedarf einer theoretisch angeleiteten Perspektive, um ihn zu erfassen und festzulegen, welchen ontologischen Status er hat (ob es sich z. B. um eine mentale oder perzeptive Größe handelt). Ob der Gegenstand in Relation zur erkennenden Person gefasst werden muss oder nicht, ob er seinem Begriff im Hegelschen Sinne entsprechen muss, ist umstritten. Vom Gegenstand an sich oder vom reinen Gegenstand der Phänomenologie wird man wohl kaum noch ausgehen. Er ist als das Bestimmte entworfen, an dem als Konstante Prädikationen festgemacht werden können, unter die er fällt. Er hat eine Verbindung zu externen Objekten, zu Dingen in der Welt, über die in der wissenschaftlichen Disziplin etwas zu sagen ist. Erfassen kann man ihn nur, wenn er in der Wirklichkeit vorfindbar oder wenigstens durch Messungen oder Berechnungen erschließbar ist, anders als viereckige Kreise, Einhörner oder der Kyklop Polyphem etc. Und auch wenn man den Gegenstand sorgsam erfasst, bestimmt und klar definiert, in Abgrenzung von ähnlichen, kann er sich als veränderlich zeigen, kann es notwendig sein, die Bestimmung zu verändern und an die wissenschaftliche Praxis anzupassen. Oft geschehen solche Anpassungen beinahe unmerklich in der Wissenschaftspraxis (etwa in der Geschichte des Genbegriffs). Neue Theorien oder Sichtweisen verändern nicht selten den Gegenstand. Um zureichende Erklärungen zu ermöglichen, bedarf es mitunter eines umfassenderen Gegenstandsverständnisses, das disziplinäre Grenzen verschieben oder sie überschreiten kann. Umgekehrt kann es notwendig erscheinen, den Gegenstand stärker einzugrenzen, ein engeres Verständnis zu formulieren, um präzise, methodisch sauber zu sein und Ambiguitäten auszuschließen. Ein Grund kann auch sein, die eigene Disziplin deutlicher zu profilieren. Jede Veränderung kann man nur im Blick auf die Empirie vornehmen, an der letztlich der wissenschaftliche Zugang zu messen ist. <?page no="29"?> Sprachwissenschaft-- Theorien und empirische Zugänge 29 Postulate, Fiktionen und Hypostasierungen sind für eine ernst zu nehmende Wissenschaft ein Problem, zumal wenn eine andere Modellierung zu anderen Rechenergebnissen führt. 2. Der Gegenstand der Sprachwissenschaft Der Gegenstand der Sprachwissenschaft ist die menschliche Sprache, die in vielen Einzelsprachen in Gegenwart und Geschichte (synchron und diachron) erscheint und in ihrem Gebrauch Systeme sprachlichen Handelns bildet. Sprache ist darstellbar als differenziell markiertes Formensystem aus bedeutungstragenden Einzelausdrücken und Konstruktionen; die Formen sind für zweckhaftes Handeln unter Menschen, mit ihren produktiven und rezeptiven Möglichkeiten als Grenze, ausgebildet und werden für die menschliche Verständigung im Rahmen kommunikativer Welten genutzt. Sprache bestimmt das Sagbare, indem sie (bzw. die Gemeinschaft der Sprechenden) Formen bereitstellt, die sich in einer gesellschaftlichen Praxis bewährt haben und ihre Reproduktion in stets neuer Adaption erlauben. Die verfügbare Form determiniert-- anders als im Fall von Signalsystemen-- aber nicht vollständig, was gesagt werden kann, sondern ist aufgrund von Variabilität und Kombinatorik, durch Metaphorik und Neubildung an veränderte Bedürfnisse anzupassen. Sie zeigt eine Dynamik in der Zeit, die von der Forschung noch nicht hinreichend bearbeitet ist. Sprechen als Meinen und Verstehen, als gemeinsames Handeln, ist Bewegungsmoment der gattungsgeschichtlichen Entwicklung an der Schnittstelle natürlicher und kultureller Evolution; Sprache ist ein Natur-Kultur-Phänomen, was die einschlägigen Bestimmungen schwierig macht. Sprache nutzt gegebene Körperorgane wie den Zungenmuskel, der sekundär zum zentralen Organ der Stimmgebung wird, aber auch ein Netz von Neuronen und Synapsen im Gehirn, dem dessen Plastizität und spezifische cerebrale Entwicklungen wie die Evolution der präfrontalen Hirnregion eine entscheidende Basis gegeben haben (Hoffmann 2011). Sprache ist zugleich an Kooperation in gesellschaftlichen Praxisfeldern, an Lebens- und Gesellschaftsformen gebunden. Den Hintergrund sprachlichen Handelns und Verstehens bilden kommunikative Welten als geteiltes, transindividuelles Wissen, die interaktiv im Medium der Sprache generiert, stabilisiert und fortentwickelt werden. Dies ist ein Wissen, das kommunikativ als gemeinsam Geltendes abrufbar ist und den Hintergrund sprachlichen Handelns bildet. Wahr sein heißt: Teil des in einer kommunikativen Welt Gewussten zu sein. Gelten heißt: in einer kommunikativen Welt als Norm, als Bewertungsmaßstab für Normalität, akzeptiert zu sein. Viele Theorien machen keine Angaben zu Sprachzwecken wie Verständigung, Kategorisierung, Erkenntnis, manche ignorieren sie bewusst. Sprachen verfügen über - ein Lautsystem und eine Intonation, - meist ein Schriftsystem, - einen Aufbau aus bedeutungstragenden Einheiten, verbunden mit holistischen Bedeutungen, <?page no="30"?> Ludger Hoffmann 30 - eine geregelte Abfolge, die für Gewichtung und Verarbeitung relevant ist, - einen dynamischen, nach Regeln erweiterbaren Wortschatz, - eine Syntax mit funktional-hierarchischem Aufbau, - eine historische und eine areale Dimension. Sie sind auf mentale Verarbeitungsprozesse, Erkenntnis und Wissenstransfer in kategorialem Rahmen hin angelegt. Damit dienen sie als Wissensspeicher, Mittel kategorialer Erkenntnis und Formen der Bearbeitung von Wissen, sofern Sprachwissen geteilt wird. Mit der Entbindung aus aktuellem Austausch durch Texte, die unabhängig von der Entstehungskonstellation geteilt und verstanden werden können, wird die Weitergabe von Tradition und Kultur ermöglicht. 3. Dimensionen der Sprachwissenschaft Der Gegenstand der Sprachwissenschaft ist nicht einfach zugänglich oder natürlich gegeben; ursprünglich ist ein solcher Gegenstand fallbezogen (etwa auf den Fall, dass eine Äußerung nicht verstehbar ist)- - wie das, was der Arzt in Einzelfällen seiner Praxis erfährt oder der Strafrichter entscheiden muss. Der Gegenstand muss an der Schnittstelle zur Wirklichkeit systematisch aufgerufen und in Daten transformiert werden. Ziel ist es, praxisentlastet zu generellen Aussagen in einem konsistenten Rahmen wenigstens mittlerer Reichweite zu kommen- - zu einer Theorie. 1 In diesem Rahmen sind die Erkenntnisse über den Gegenstand festzumachen. Was als Datum für die Theorie gilt, entscheiden die Grundannahmen dieser Theorie. Daten lassen zwischen dem entscheiden, was als fundiertes Wissen der Wissenschaft gilt, und dem, was als bloßes Alltagswissen, Vorurteile oder Ideologie erscheint. Ohne Zugang zur Wirklichkeit hat die Theorie keine Basis in der Empirie (griech. empeiría). Dieser Zugang ist aber vermittelt durch eine Methodologie. Gute Daten sind methodisch sauber (gemäß dem Stand der Kunst) und intersubjektiv im Prinzip nachvollziehbar gewonnen, so dass sich Sätze einer Theorie generalisierend auf sie stützen können. Chat GPT allerdings arbeitet mit Data Mining auf der Basis unzugänglicher, sehr umfangreicher Korpora. Damit ist eine methodische Überprüfung durch die Wissenschaft nicht möglich. Der Raum, den Wissenschaftler für die Entscheidung über ihre Annahmen betreten, weil hier Entscheidungskriterien zu finden sind, ist das Feld. In der Sprachwissenschaft sind es etwa die alltäglichen wie institutionellen, mündlichen, schriftlichen und medialen Kommunikationen und deren sprachliche Konstituenten, Handlungskonstellationen und zugrundeliegendes Wis- 1 Zum Theoriebegriff der Antike (Theoría: ‚(Fest)gesandtschaft‘, ‚Schau‘, ‚Erkenntnis‘) vgl. Rehbein (1994, S.-33 f.); Theorie gilt auch als „Schau der Weltordnung“ (Anaxagoras). Aristoteles spricht von der epistéme theoretiké, ‚theoretische Wissenschaft‘, ‚Wissenschaft der Erkenntnis‘-- es geht um das Erkennen der Wirklichkeit auf der Grundlage von Welt-Erklärungen. Dazu ferner Ritter/ Gründer (1998, S.-1128 f.). <?page no="31"?> Sprachwissenschaft-- Theorien und empirische Zugänge 31 sen. Sie sind zu erheben und in Daten einer Theorie zu überführen. Neben dem Feld können in den Wissenschaften auch Daten aus Experimenten im Labor erhoben werden, die repräsentativ darstellen, wie sich Personen unter kontrollierten Bedingungen und spezifischen Eingriffen verhalten und was sich daraus folgern lässt. In der Psycholinguistik beispielsweise werden Online-Messungen durchgeführt: Geeignete Reize führen zu standardisierten Reaktionen, deren Einsetzen nach dem Stimulus oder deren Andauern gemessen wird. Oder es wird ein visuelles, statisches oder dynamisches Objekt kürzer oder länger präsentiert und man misst die Augenbewegungen der Versuchsperson. Solche Empirie erfordert sorgfältige Vorbereitung und Durchführung, vor allem aber eine angemessene Interpretation und Diskussion der Resultate. Die Ergebnisse erfordern selbstverständlich einen passenden theoretischen Rahmen, sonst sind sie wertlos. Gegenstandsentwurf Empirische Basis Theorie Methodologie Abb.-1: Dimensionen der Sprachwissenschaft als Wissenschaft 4. Sprachtheorien und Paradigmen Im Folgenden ist von Sprachtheorien i. w. S.-die Rede. Streng genommen handelt es sich nicht um Theorien, sondern um Theoriekomplexe, in denen ein bestimmtes Verhältnis <Gegenstandsentwurf-- Methodologie-- Theorie> herrscht und der Zugang zur empirischen Basis genau bestimmt ist. Seit Thomas S.- Kuhn (1996) spricht man in einer historischen Wende zur Wissenschaftsgeschichte von einem „Paradigma“, das sich in der Gemeinschaft der Wissenschaftler(innen) durchgesetzt habe und die Art und Weise, wie geforscht werde, bestimme. Alles, was einem Paradigma entspreche, sei „normale Wissenschaft“. Erst wenn ein geltendes Modell komplett durch eine neues ersetzt werden könne, sei ein „Paradigmenwechsel“ oder eine „wissenschaftliche Revolution“ möglich, bei der allerdings der Widerstand der dem alten Paradigma Verhafteten erst noch überwunden oder ausgesessen werden müsse. Griechisch parádeigma (‚neben + zeigen‘, ‚Beispiel, Muster‘) hat verschiedene Bedeutungen. In der Wissenschaftstheorie charakterisiert es eine herrschende Denkweise, ein Hintergrundwissen, an dem sich eine Mehrheit orientiert und vor dem sie alles einordnet, was neu erscheint. Dazu gehören Theorien und ihre Grundannah- <?page no="32"?> Ludger Hoffmann 32 men, die Festlegung, was als Gegenstand gelten kann, welche Methoden für dessen Erforschung einzusetzen sind und wie der Zugriff auf die vorfindliche Wirklichkeit stattfindet. Ein solches Erklärungsmodell ist in die Geschichte eingebettet und unterscheidet zwischen Phasen vor einem Paradigma(wechsel) von solchen paradigmatischer (sog. ‚normaler‘) Wissenschaft. Zu einem Paradigma gehören auch sprachliche Fundamente wie etwa Begriffsnetze und Termini, und nach einem Paradigmenwechsel kann es schwierig sein, diese richtig zu verwenden oder zu verstehen; gleichwohl bleiben auch Begriffe erhalten und der Umschwung vollzieht sich in spezifischen Bereichen der Inkommensurabilität: Wer die Aristotelische Physik verstehen wolle, könne dies laut Kuhn nur, wenn er von Aristoteles’ Verständnis von Bewegung und Materie ausgehe, das sich vom Verständnis späterer Zeiten fundamental unterscheide. Man braucht somit einen historischen und einen hermeneutischen Verstehenshorizont. Die wissenschaftliche Verständigung über Grundlagen, Methoden und Relevanzen ist erschwert, wenn und solange ein Paradigma fehlt: Man ist gewissermaßen nicht in die Wissenschaftsgeschichte eingetreten. Das Paradigma hat Probleme, mit neuartigen Daten bzw. Beobachtungen umzugehen, die den theoretischen Rahmen zu sprengen drohen, und blendet sie vorzugsweise aus, solange es geht. Paradigmen haben ein Beharrungsvermögen gegenüber innovativen Ansätzen-- was sie-- so auch Popper-- dogmatisch erscheinen lässt; das Neue muss sich erst als durchgehend und umfassend besser erweisen, Vertreter des Alten müssen aussterben oder ihre Anhängerschaft verlieren. Auf gänzlich neuartige Daten ist die Wissenschaft im Normalprogramm nicht eingestellt, und man muss erst prüfen, ob der neue Fall nicht doch bei begrifflicher Revision aufgenommen werden kann (ein weißer Rabe kann ein neues Datum oder der Anlass sein, den Begriff des Raben zu erweitern). Forschung im Rahmen eines Paradigmas löst primär die Rätsel, die das Paradigma stellt, oder führt an dessen Grenzen. Paradigmen sind aus guten Gründen konservativ, können aber den Fortschritt hemmen. Wer in der Karriere schneller vorankommen will, folgt dem Mainstream und bestätigt die Tradition; das muss niemand begründen. Ein Paradigma ist sprachlich speziell fundiert, so dass man es oft kaum mit einem konkurrierenden vergleichen kann, weil die Sprachbarriere nicht zu überwinden ist. Die Sprachbewusstheit, der Einbezug des erkennenden Subjekts und die historische Fundierung unterscheiden die Paradigmentheorie Kuhns vom Falsifikationismus Poppers. Ihr zufolge lassen sich Paradigmen nicht widerlegen, nur ersetzen. Andererseits kann die Paradigmentheorie auch kritisch gewendet werden: Dann muss sie Erweiterungen jenseits eines Puzzlesteins erlauben und sich (partiell) in Frage stellen lassen. 4.1 Der Hauptstrom der Tradition Die Sprachwissenschaft gehört zu den alten Wissenschaften. Sie geht auf das 4./ 5.- Jahrhundert v.- Chr. zurück, als Pâṇini die erste Grammatik, die wir kennen, verfasste-- eine Grammatik des Sanskrit, die bis zu den Begründern des Struktura- <?page no="33"?> Sprachwissenschaft-- Theorien und empirische Zugänge 33 lismus im 20.-Jahrhundert hin einflussreich war (Böhtlingk 1839-1840/ 2011). Sprache erschien als Oberfläche komplex zusammengesetzter Ausdrücke, deren Bestandteile bedeutungstragend waren. Ein lexikalischer Stamm wurde durch die Kombination mit Affixen um grammatische Bedeutungen erweitert und phonetisch für den Gebrauch in Äußerungen präpariert. Die Grammatik repräsentierte in zahlreichen Regeln die reiche Morphologie und die Wortstruktur des Sanskrit, der ältesten indoeuropäischen Sprache, die bis heute in Indien, vornehmlich zu sakralen Zwecken, in Gebrauch ist. Am Anfang der Sprachbetrachtung stehen also die Wortstruktur in ihrer Regelhaftigkeit und der Strukturaufbau einer indoeuropäischen Sprache als Muster. Pâṇini unterschreitet schon die Wortebene und zeigt bereits morphematische Strukturen auf. Die Darstellung in Flexionsparadigmen, Formenreihen der Deklination, Konjugation etc. nahm hier ihren Ausgangspunkt. Dahinter standen didaktische Intentionen, aber es fehlten Antworten auf die Frage, wie das denn sinnvoll in Lernprozesse einmünden könnte. Sprache zerfällt in Wortformen, deren Aufbau zu beschreiben ist. Die Beschreibungen der Regeln lassen sich problemlos in die neueren Terminologien übersetzen. Dieses herausragende Pionierwerk bildete den Anfang der (bekannten) Grammatikographie. Das heißt nicht, dass es keine Vorläufertexte gab; wir kennen sie nur nicht. Zweifellos hatte ein Grammatiker wie Pâṇini auch Kenntnisse anderer Sprachen, u. a. des frühen Griechisch. Bereits hier zeigt sich Mehrsprachigkeit als Voraussetzung der Grammatikographie. Die empirische Basis verkörperten vedische Texte, deren Strukturen ein Muster bildeten und die ein Ideal verkörperten, nicht etwa der mündliche bzw. alltägliche Sprachgebrauch. Griechische Philosophen erweiterten die streng morphologische Sichtweise durch einen ersten Blick auf das Sprachverhalten, wie es in menschlicher Rede und vor allem in der Philosophie erscheint. Es geht um das, worüber man spricht-- um das, was darüber gesagt wird, und um das, was damit zu erreichen ist. Erklärungsbedürftig war die Erkenntnisfunktion von Sprache, aber auch, wie sich Menschen im Gemeinwesen, in der stark sprach- und diskusfundierten Polis oder vor Gericht sprachlich in Szene setzen und mit ihren Anliegen erfolgreich sein konnten. Im „Theaítetos“ schafft Platon die Grundlage einer Satzsemantik: Im Satz verbindet sich stets Ungleichartiges, etwa ein Name und ein Zeitwort. In der funktionalen Syntax ist von „Synthese“ (Hoffmann 2021, S.- 87 f.) die Rede. Platon macht auch auf die semantischen Beschränkungen für eine derartige Synthese aufmerksam. Die empirische Rückbindung wurde über schriftliche Texte hergestellt, die es zu verstehen galt-- etwa die Klassiker wie Homer, dessen altertümliches Griechisch für die Nachfahren immer schwerer zu verstehen war. Dionysios Thrax schuf die erste Systematik der Redeteile für das Griechische, die dann sehr lange als zureichende grammatische Darstellung galt. Was heute unter Wortarten verstanden wird, ist eine viel spätere Entwicklung, die auf das 17.- Jahr- <?page no="34"?> Ludger Hoffmann 34 hundert zurückgeht, aber dann rückübertragen wurde auf die älteren Redeteile, etwa die partes orationis der Lateingrammatik (vgl. Ehlich 2007b, S.-54). In der Antike sind nicht sakrale Funktionen leitend, um mit ihrer Hilfe die Sprache als Instrument zu analysieren. Es geht schon früh um die Erkenntnisfunktion und den Sprachaufbau als Zugang zur Welt. Die antike Tradition wurde in der Lateingrammatik seit Donatus zu einem didaktischen System transformiert, das angab, was man von der Sprache wissen musste, um ihre Beherrschung zu ermöglichen. Dabei blieb der Schritt eines Transfers in die Sprachfähigkeit allerdings analytisch ausgespart. Man kann von einem Fehlschluss vom Wissen auf das Können sprechen, der in der Geschichte der Sprachwissenschaft immer wieder unterlaufen ist. Die Antike sieht Sprache als Menge von Wortformen mit formalen Eigenschaften und schafft mit der Rhetorik einen eigenen Theoriekomplex, deren Beitrag zur Sprachwissenschaft im Aufweis rhetorischer Figuren und ihrer Effekte für die menschliche Rede bestand. Sie wurde aber getrennt von der Grammatik entwickelt. Aristoteles macht in seiner „Rhetorik“ klar, dass Ausdrucksformen charakteristisch sind für Redegattungen wie auch für die Kennzeichnung mündlicher wie schriftlicher Rede. Dass das Sprechen ins menschliche Handeln eingelagert ist und wie praktische Handlungen spezifische Zwecke aufweist, spielt in der Antike in Platons „Kratylos“ eine wichtige Rolle: Wörter sind durch und für die Aufgabe geformte Werkzeuge. An die Organon-Idee schließt Bühler in seiner Sprachtheorie (1934) an. Aristoteles geht in „De interpretatione“ auf Äußerungsmodi wie Frage und Aussage, Bitte und Befehl ein: Aussagen mit Wahrheitsanspruch, in denen es um Wahrheit oder Falschheit eines gegenwärtigen oder vergangenen Sachverhalts geht, unterscheiden sich grundlegend von anderen Modi. Aristoteles befasst sich auch mit den begrifflichen Grundlagen der Erkenntnis und ihren basalen Kategorien; er beleuchtet die sprachlichen Mittel kritisch: Wörter darf man nicht mit den bezeichneten Gegenständen gleichsetzen, zu einer Sprachtheorie gehören immer die Gegenstände. In der Antike haben wir als Hauptpositionen: - Sprache ist ein Mittel der Erkenntnis, ein Werkzeug und sie ist kritisch auf ihre Leistung hin zu untersuchen. - Was gesagt wird, hängt von der Kategorisierung im Rahmen der Redeteile ab. - Wahrheitsfunktional sind Ausdrücke nur im Aussagemodus. Über die Zukunft sind wahre Aussagen nicht möglich. Mit Platon, Aristoteles und der Stoa wird eine eigene Tradition der Sprachphilosophie begründet, die bis in die Gegenwart reicht und Erkenntnistheorie mit ihrem sprachlichen Fundament, einer logischen Konzeption der Wahrheit (‚wie muss die Welt sein, in der Satz S wahr ist‘) und entsprechenden Kategorien thematisiert. Sprachliches Handeln kommt eher intuitiv ins Spiel, bis es in der analytischen Philosophie des 20.- Jahrhunderts machtvoll zur Erscheinung gelangt, mit Frege, Wittgenstein, Austin und Searle. <?page no="35"?> Sprachwissenschaft-- Theorien und empirische Zugänge 35 Der empirische Zugang dieser Richtungen stützt sich vorwiegend auf Intuition, gewonnen aus der Betrachtung von Muster-Texten, die zum Kanon gehörten oder doch Vorbilder sein konnten, später auch auf Texte von nativen Sprechern, die als wohlgeformt galten. Die Korpuslinguistik als Arbeit mit einem speziell für eine Sprache oder einen relevanten Ausschnitt komponierten Korpus von Sprachdaten erreichte einen ersten Höhepunkt im Distributionalismus (Typ des Strukturalismus) in den USA der 1940er und 1950er Jahre (vor allem in den Arbeiten von Zellig S.-Harris, der später Lehrer von Chomsky war, Hockett, Nida, Wells). Dieser Ansatz ging letztlich auf Leonard Bloomfied zurück und spielt modifiziert heute noch eine Rolle. Er arbeitete mit spezifischen Entdeckungsprozeduren auf der Basis eines repräsentativen, aus der Mündlichkeit stammenden, synchronischen Korpus, das auch Daten einer unbekannten Sprache (etwa nativer Amerikaner) enthalten konnte: - Segmentieren (Zerlegung der Ausdrücke einer Sprache L, Umgebungsanalyse); - Klassifizieren (Zusammenfassen aufgrund gemeinsamer Distribution zu den sprachlichen Einheiten der Sprache L). Dabei konnten Daten einem Informanten (etwa aus einer nativen Sprache) zur Entscheidung vorgelegt werden. Es sollte aber eigentlich nicht auf Intuition und Bedeutung zurückgegriffen werden. Dieses strenge methodische Postulat ließ sich schwer durchhalten. Noch heute sind in den Grammatikbeschreibungen sowie in der Didaktik operationale Verfahren wie die Ersatzprobe oder die Verschiebeprobe geläufig; allerdings haben alle ihre Probleme und blinden Flecke; ganz ohne Vorwissen sind viele Testergebnisse nicht zu interpretieren (Hoffmann 2021, S.- 661-665), stattdessen bedürfen sie reflektierter Anwendung. Wenn man nicht genau weiß, wie die Daten erhoben wurden, wer sie produziert hat und wofür sie stehen können, ist die Grundgesamtheit eines Korpus unklar. So ist es bei Chat GPT. 4.2 Funktional-typologische Sprachwissenschaft Für die funktional-typologische Sprachwissenschaft ist Sprache die Gesamtheit der Sprachen in der Welt und das, was sie gemeinsam haben. Ob Besonderheiten einzelner Sprachen nicht zur Menge der Eigenschaften von Sprache gehören, ist diskussionswürdig-- das lässt sich auch anders sehen. Aber die Leitidee im Paradigma ist, dass man gemeinsame Universalien ansetzt. Man könnte aber auch als formales Universale für alle Sprachen einen gemeinsamen Variationsraum annehmen, in dem ihre Formen (etwa ihre phonetischen Systeme) sich bewegen (vgl. Hoffmann 2005). Blickt man auf die Funktionen, so sind Symbolfunktion, Zeigfunktion, Malfunktion, operativ-sprachverarbeitende und expeditive Funktion (Ehlich 2007a) universell, aber auch Handlungsmuster wie Assertion und Frage. Wie sie im Einzelnen ausgeprägt sind und welchen mentalen Hintergrund sie haben, ist auch auf <?page no="36"?> Ludger Hoffmann 36 der funktionalen Seite sprachspezifisch. Selbstverständlich sollten diese Prinzipien sein: (P1) Wer sich auf eine Sprache wie Englisch oder Mandarin stützt, kann keine Aussagen über die Sprache machen, sondern nur über Englisch bzw. Mandarin. (P2) Allgemeine Aussagen über die Sprache erfordern ein repräsentatives Sample. Am Anfang steht, schon wegen der erwartbaren Komplexität, der Paarvergleich: - Man vergleicht zwei Sprachen einer typologischen Gruppe, die synchron gesprochen werden und schaut auf die Ausdifferenzierung bei struktureller Nähe. - Der Vergleich wird über die Gruppengrenzen ausgedehnt. - Es werden Sprachen aus einem Bündel typologischer Gruppen verglichen; man betrachtet Sprachen einer Familie oder eines Sprachbundes. - Systematisch einbezogen werden Mündlichkeit in ihren Facetten (Alltagsgespräche (homilëisch und institutionell)) und Schriftlichkeit (einerseits Pressesprache, andererseits Mediensprache sowie poetische Sprache). Die Kreise werden dann immer weiter gezogen. Wichtig ist, ein theoretisch konsistentes Konzept zu haben, so dass analytische Zugänge mit klaren Vergleichskriterien möglich sind. Besonderes Augenmerk liegt auf dem funktionalen Vergleichskriterium (gibt es Differenzen auch bei funktionaler Feindifferenzierung und in der zugehörigen mentalen Verarbeitung? ) und dem jeweiligen kulturellen Hintergrund: Inwieweit sind sprachliche Unterschiede mit Handlungspraktiken und Wissenstraditionen in der Sprechergruppe verknüpft? Die Herausforderung, ein relevantes und ausgewogenes Korpus aus den Vergleichssprachen zu konstituieren und für Studien zu realisieren, ist gigantisch, zumal wenn es in bestimmter Hinsicht repräsentativ sein und auch verschiedene Gebrauchsebenen enthalten soll. Mit Daten aus der einschlägigen Literatur allein kommt man nicht sehr weit-- obwohl manche Arbeit darauf basiert ist. Also hilft nur, die Strukturen und Funktionen in den Grundtypen der Sprachen (damit die relevanten Sprachtypen) breit und sorgfältig zu untersuchen und (funktional zentrale Ausschnitte wie z. B. die Gegenstandskonstitution oder die Gewichtung) zu vergleichen. Dabei ist aber auf mögliche Besonderheiten zu achten. Parallel bedarf es einzelsprachlicher, typologisch reflektierter Studien mit möglichst allgemeinen Kategorien, die für Vergleiche offen genug sind. Relevante Arbeiten in dieser Richtung sind Greenberg (1990); Givón (2001); Croft (2003). <?page no="37"?> Sprachwissenschaft-- Theorien und empirische Zugänge 37 4.3 Generative Ansätze In der Chomsky-Linguistik erfolgte ein konzeptueller Übergang in der Gegenstandskonstitution: von der Sprache als System von Formen und Funktionen zur menschlichen Sprachfähigkeit. Grundannahme: Was nur dem Menschen eigen ist, schnell und unproblematisch erwerben werden kann, beruht auf einer humanspezifischen Grundlage, die vor allem im Genom fundiert ist. So galt FOXP2, das für die Artikulationssteuerung relevant ist, längere Zeit als „Sprachgen“. Eine genetische Basis kann so gedeutet werden, dass alle Sprachen sich in der Grundstruktur entsprechen, formale Universalien aufweisen, die genetisch weitergegeben werden. So sind sie schnell und leicht zu erwerben. Seit Chomsky/ Hauser/ Fitch (2003) allerdings ist (nach breiter kritischer Diskussion) das einzige verbliebene Universale, das für alle Sprachen angenommen wird, die Rekursivität als iterative Wiederkehr einer Strukturgröße; bestritten wird sie für das Pirah- aber von Everett (2005), der dafür sehr hart (bis hin zum Rassismusvorwurf) attackiert wurde. Überhaupt gab es von Anfang an scharfe Auseinandersetzungen um mögliche Revisionen der Theorie, die als „linguistics wars“ (Harris 2021) bezeichnet wurden und eine Orthodoxie, Dissidenten, Theorievarianten und unterschiedliche Notationen hervorbrachte, wo doch Kritik Grundprinzip der Wissenschaft sein sollte. Es gilt aber: Eine Theorie über einen Gegenstand, der sich allein im menschlichen Wissen findet, kann nicht überprüft oder widerlegt werden. Sie beinhaltet schon eine Immunisierungsstrategie gegen Kritik. Wenn jemand als Sprecher einer Sprache mit seiner sprachlichen Intuition argumentiert-- wer will dann sagen „Du hast diese Intuition nicht“? Wäre die Theorie formalisiert (wie in der ersten Phase, etwa Chomsky 1959 (auch ders. 1957 ließe sich formalisieren)), könnte man ableiten, was aus ihr folgt und ob sie konsistent ist. Der Gegenstand ist in Chomskys früher Phase eine (endliche) Menge von Sätzen (in einer Sprache), denen eine Strukturbeschreibung zugeordnet werden kann. Aber wie entscheidet man, welche Sätze als deutsche, englische etc. zu dieser Menge gehören? Das wiederum entscheiden Sprecher- Intuitionen. Nach der frühen Phase kam rasch die kognitive Wende der Theorie, die (mit der Skinner-Rezension) die damals stark behavoristische Psychologie sehr beeinflusste. Nunmehr war der Theoriegegenstand das Sprachwissen, die innere Sprache. Natives hatten ein unwiderlegbares Beurteilungsinstrument für die grammatische Wohlgeformtheit von Sätzen zur Verfügung: ihre Sprachkenntnis. Dann aber konnten sich zwei Positionen bzw. zwei Natives gegenüberstehen: - A: In meiner Version der Sprache L ist dieser Satz okay. - B: In meiner Version der Sprache L ist dieser Satz nicht okay. Damit ist die empirische Basis unklar. Gibt es so viele Sprachen wie Natives? Ein Korpus hat als nicht-repräsentative Sammlung von Sprachbelegen eigentlich keinen Sinn, wenn nicht die Korpussätze als Daten betrachtet werden und die Intuition <?page no="38"?> Ludger Hoffmann 38 überspielen. Wenn rekonstruiert werden soll, was ein „native speaker“ über seine Sprache L weiß und ihn in die Lage setzt zu entscheiden, ob ein Satz S zur Sprache L gehört bzw. darin wohlgeformt ist, so ist dies nicht zu überprüfen, weder durch faktisch vorkommende Sätze (mit identischer Struktur) aus einem Korpus noch durch eine Umfrage. Ein Korpus kann hier also nicht einmal gut als Korrektiv genutzt werden, seine Sätze bilden aber nicht den Beschreibungsgegenstand oder das Urteilskorrektiv, sie sind nicht modellhaft ausschlaggebend. Die empirische Basis ist nicht das Sprachverhalten im umfassenden Sinne, als Repräsentant von Sprache. Sie wird gebildet durch eine Rekonstruktion von Äußerungen, die aus der Intuition geschöpft ist und damit zunächst individuell bleibt. Andererseits besteht eine Schnittmenge bei gleichen Spracherfahrungen und Gegebensein dessen, was hier öfter „Homogenität“ heißt. Immerhin muss niemand ins Feld, um Daten zu sammeln. Die Sprachfähigkeit ist aber unter den Bedingungen mehrsprachiger Gesellschaften, in denen etwa die Hälfte eine andere Erstsprache, andere Varietät oder ein anders aufgebautes Sprachwissen hat, nicht pur zu haben. In den neueren Versionen des Paradigmas ist das Konzept Sprache vollends aufgegeben zugunsten von Grammatik. Grammatik spielt eine Rolle in der menschlichen Kognition, grammatisches Wissen ist eine anthropologische Konstante und unterscheidet den Menschen vom Tier. Kommunikation ist für die grundlegende Sprachstruktur irrelevant und beeinflusst die Sprachstruktur nicht. Am Rande liegt, was gelernt werden muss, etwa der Wortschatz (soweit er nicht durch begriffliche Universalien gestützt wird) und die Irregularitäten (etwa in der Flexion, in der Genuszuweisung etc.). 4.4 Funktionale Pragmatik Sprache ist ein an die gesellschaftlich geprägten Bedürfnisse angepasstes, im Gebrauch entwickeltes und auf kommunikative wie kognitive Zwecke zugeschnittenes Verständigungsmittel, das der Bearbeitung des Wissens von Hörer(innen) und Leser(innen) dient und der Erkenntnis Kategorien bereitstellt (Ehlich 2007a). Die Zwecke werden im Rahmen sprachlicher Handlungsmuster als Lösungen wiederkehrender Probleme erreicht. Die Formen, in denen gehandelt wird, müssen nicht immer lokal neu konstituiert werden, in ihnen bewegt man sich auf festem Grund und auch flexibel, solange das Verstehen gesichert ist. Sprache fundiert die kommunikative Welt menschlicher Gruppen und liefert Ressourcen des Wissens, des Bewertens und normativer Einordnung. Aus dieser Perspektive ist Sprache kein Code, der unabhängig gegebene Gegenstände und Sachverhalte verschlüsselt und in der Rezeption dekodierbar macht; Sprache und Wirklichkeit sind eng verbunden. Die Funktionale Pragmatik betrachtet sprachliche Formen als Handlungen, von kleinsten Einheiten (Prozeduren des Handelns) bis zu Diskursmustern. <?page no="39"?> Sprachwissenschaft-- Theorien und empirische Zugänge 39 Grammatik ist die Systematik des Handelns, in der alle sprachlichen Elemente ihren Stellenwert haben (Hoffmann 2021). Mit der konsequenten Einbindung aller sprachlichen Mittel in die funktionalen Bestimmungen und einem sprachgeleiteten Zugang zu Wissenstypen und mentalen Prozeduren rundet sich das pragmatische Paradigma. Der Standpunkt der (funktionalen) Pragmatik gründet sich auf Überlegungen von Aristoteles und den Organon-Gedanken sowie auf Arbeiten von v. Humboldt, Wegener, Wittgenstein, Bühler. Wenn der funktional-pragmatische Ansatz auf die Wirklichkeit zielt, in der Sprache im Verständigungshandeln ihre Funktionalität hat, muss ein empirischer Zugang zu eben dieser Wirklichkeit angelegt werden. Die Daten, auf die die pragmatische Methode zugreift, müssen authentisch sein: Konstellationen der Wirklichkeit, Hörerhandeln, Sprecherwechsel, Akzent und Intonation- - alle Erscheinungsformen der Mündlichkeit müssen auf der Ebene der Mittel repräsentiert werden können. Möglich ist dies nur mit einem sorgfältig transkribierten und Tonspuren enthaltenden Korpus, in dem die zu untersuchenden Zweckbereiche hinreichend dargestellt sind, seien es Lehr-/ Lerndiskurse, Strafverhandlungen, Parlamentsdebatten oder Gespräche in der Arztpraxis. Abbildung-2 bildet die wichtigsten Gegenstandsbereiche ab. Die Notwendigkeit der Korpusarbeit verbindet die Funktionale Pragmatik mit Strömungen der Gesprächsforschung wie der Konversationsanalyse (Sacks, Schegloff) und der Interaktionalen Linguistik, die lokale Konstitution (ohne vorausliegende Muster) im phänomenologischen Sinn zur Basis machen (radikal bei Schegloff, später modifiziert durch den Einbezug von epistemischen Elementen). Abb.-2: Schichtungen funktional-pragmatischer Sprachanalyse <?page no="40"?> Ludger Hoffmann 40 Einzelforschungen müssen sich auf ein einzelnes empirisches Feld beschränken und erst die Gesamtheit der Forschungen einer Richtung eröffnet die Chance auf ein Gesamtbild. 5. Fazit Die dargestellten Paradigmen bilden einen Ausschnitt aus einer langen Wissenschaftsgeschichte. Sprache kann als Gegenstand in recht unterschiedlicher Weise gesehen werden und das bedingt unterschiedliche Arten der Empirie. a) In semiotisch abstrakter Sicht als Verkettung von Elementen, dargestellt als Laute oder bedeutungstragende Einheiten unterschiedlicher Größe mit wiederkehrenden Elementen, die als Form eines hier allenfalls pauschal charakterisierten Verständigungsmittels erscheint, wird Sprache an der Oberfläche der phonetischen und morphologischen Form untersucht. Als Korpus dienen die vorhandenen Texte der Literatur. Im amerikanischen Strukturalismus bilden Korpora Interviews, Narrationen, Gespräche. Es werden Mündlichkeit und Authentizität ins Zentrum gestellt und die Daten phonologisch und morphosyntaktisch bearbeitet, während die Semantik ausgeblendet wird oder eher implizit ins Spiel kommt. b) Sprache umfasst alle Sprachen der Welt. Erfasst werden sie im Vergleich ähnlicher Mittel und Verfahren. Der Vergleich setzt aber einen funktionalen Maßstab voraus und Funktionsgleichheit ist eine Annahme, die belegt werden muss; statt auf ein Korpus (was schwierig wäre) stützt man sich selektiv auf Beispiele aus vorhandenen Untersuchungen, die auf kleinen Korpora der jeweiligen Sprachen, denen Daten aus großen Korpora des Englischen oder Deutschen gegenübergestellt werden können. c) Unter anthropologisch-kognitiver Perspektive des Generativismus wird Sprache ersetzt durch das Wissen, das Personen das Produzieren unterschiedlicher, ähnlicher oder gleicher Elemente und ein Verstehen, das in praktische oder wiederum sprachliche Folgen mündet, erlaubt-- der Weg von der „inneren Sprache („internal language“ (Chomsky) zum Output ist allerdings weit und läuft über Module und Schnittstellen, die nicht alle voll analysiert sind. Die funktionale Seite bleibt sehr vage: Dient Sprache Denken und Erkenntnis und wie genau? Muss Intentionalität als unwichtig gelten (Chomsky)? Ist Sprechen Handeln? Korpusarbeit wird allgemein abgelehnt, aber Einzeldaten zur Überprüfung der Intuition oder von Beobachtungen aus der Literatur werden genutzt. d) Die Funktionale Pragmatik sieht Sprache im Ensemble menschlicher Handlungen, sprachlicher, praktischer, mentaler. Sie kann die Strukturanalysen der Tradition fruchtbar machen und ist erstmalig auf der funktionalen Seite besonders elaboriert: von den zeigenden, charakterisierenden, operativen, expeditiven und <?page no="41"?> Sprachwissenschaft-- Theorien und empirische Zugänge 41 malenden Prozeduren über Akte und Sprechhandlungen zu Handlungs- und Diskursmustern. Das geht weit über Handlungsintentionen oder Illokutionen i. S. v. Searle hinaus. Formen und Funktionen bilden einen dialektischen Zusammenhang. Formen sind für Funktionen da, Funktionen sind an Formen gebunden. Die Analyse hat stets einen Doppelfokus: Form und Funktion. Das gilt auch für grammatische Analysen des Systems von Einzelsprachen. Der Korpusbezug ist obligatorisch und holt die Wirklichkeit des Sprechens so nah wie möglich heran. Die Transkriptionen gehen in die Tiefe, parallel wird mit Audiodaten und phonetischen Analyseprogrammen gearbeitet. Für die Korpuslinguistik besteht großer Bedarf an weiteren mündlichen, mehrsprachigen, homlilëischen, erwerbsbezogenen Korpora. Mentale Zugänge, die über sprachliche Mittel ins Spiel kommen, erzeugen die notwendige Breite des Ansatzes. e) Allgemein müssen Annotationen in Korpora einen klaren theoretischen Hintergrund haben, nicht den kleinsten gemeinsamen Nenner (etwa mit Wortarten unter traditionellem Konzept). Sie müssen die Variationsbreite und Diversität in einer Sprache erfassen oder dies zumindest anstreben. Für Diskurse ist die Repräsentation nonverbaler und parasprachlicher Phänomene, etwa der Intonation von besonderer Relevanz-- und hier liegen nach wie vor größere Defizite. Zum einen also verbinden sich die Erklärungsmodelle mit recht unterschiedlich entworfenen Gegenständen und sind methodologisch oft nicht offen, was eine interdisziplinäre Linguistik erschwert. Eine untheoretische Empirie, eine Psycholinguistik wie eine Korpuslinguistik ohne Theorie werden nicht funktionieren oder uninteressante Ergebnisse liefern. Zugleich bedarf es einer veränderten, reflektierten Lehre, die die neuen Datenzugänge und ihr Verhältnis zu den Theorien einschließt. Nun kann man Sprache oder sprachliche Formen oder gar Funktionen nicht unmittelbar wahrnehmen. Wir stellen nur fest, dass von Personen Geräusche produziert werden, die sich-- bei längerer Beobachtung oder gründlicher Aufzeichnung-- wiederholen oder doch sehr ähnlich sind. Es liegt nahe, für die Geräusche eine Notation auf einem dauerhaften Träger anzufertigen, die eine Wiedererkennung gewährleistet und einen ersten analytischen Blick gestattet. Und je größer die Datenmenge, desto zuverlässiger die Aussagen, um so eher lassen sich Hypothesen testen. Wenn man durch Wahl der inneren Sprache/ Sprachfähigkeit einen Gegenstand konstruiert, der externer Empirie nicht zugänglich ist, versperrt man den Weg zu wirklicher Prüfung an Korpora. Tatsächlich könnten alle von der Korpusarbeit stark profitieren. <?page no="42"?> Ludger Hoffmann 42 Abb.-3: Struktur linguistischer Untersuchungen 2 Literatur Böhtlingk, Otto (Hg.) (1839-1840/ 2001): Pâṇini’s Grammatik. Dehi: Motilal Banarsidass. [Reprint]. Brandom, Robert B. (2021): Im Geiste des Vertrauens. Lektüre der Phänomenologie des Geistes. Berlin: Suhrkamp. Bühler, Karl (1934): Sprachtheorie. Jena: Gustav Fischer. Chomsky, Noam (1957): Strukturen der Syntax. Den Haag/ Paris: Mouton. Chomsky, Noam (1959): On certain formal properties of grammars. In: Information and Control-2, S.-137-167. Chomsky, Noam (1977): Reflexionen über die Sprache. (=-Suhrkamp-Taschenbücher Wissenschaft-185). Frankfurt a. M.: Suhrkamp. 2 Die Vielfalt der Korpustechnologie, Annotationstechnik und semantischen Modellierung zeigt u. a. der Band von Mehler et al. (2012). <?page no="43"?> Sprachwissenschaft-- Theorien und empirische Zugänge 43 Chomsky, Noam (2016): Was für Lebewesen sind wir? Berlin: Suhrkamp. Chomsky, Noam/ Hauser, Marc D./ Fitch, W. Tecumseh (2003): The faculty of language: What is it, who has it, and how did it evolve? In: Science-298,-5598, S.-1569-1579. Croft, William (2003): Typology and universals. 2.-Aufl. (=-Cambridge Textbooks in Linguistics). Cambridge: Cambridge University Press. Denning, Keith (1990): On language. Selected writings of Joseph H. Greenberg Stanford, CA: University Press. Ehlich, Konrad (2007a): Sprache und sprachliches Handel. Bd.-1: Pragmatik und Sprachtheorie. Berlin/ New York: De Gruyter. Ehlich, Konrad (2007b): Sprache und sprachliches Handel. Bd.-2: Prozeduren des sprachlichen Handelns. Berlin/ New York: De Gruyter. Everett, Daniel C. (2005): Cultural constraints on grammar and cognition in Pirah-. Another look at the design features of human language In: Current Anthropology- 46,- 4, S.-621-646. Givón, Talmy S.- (2001): Syntax. Bd.- 1: A functional-typological introduction. Amsterdam: Benjamins. Givón, Talmy S.-(2001): Syntax. Bd.-2: An introduction. Amsterdam: Benjamins. Harris, Randy A. (2021): The linguistics wars: Chomsky, Lakoff, and the battle over deep structure. 2.-Aufl. Oxford: Oxford University Press. Hoffmann, Ludger (2005) Universalgrammatik. In: OBST 69: Paradigms Lost, S.-101-131. Hoffmann, Ludger (2011): Kommunikative Welten. Das Potential menschlicher Sprache. In: Hoffmann, Ludger/ Leimbrink, Kerstin/ Quasthoff, Uta (Hg.): Die Matrix der Menschlichen Entwicklung. (=-Linguistik-- Impulse & Tendenzen-43). Berlin/ Boston: De Gruyter, S.-165-209. Hoffmann, Ludger (Hg.) (2019): Sprachwissenschaft. Ein Reader. 4.,-aktual. u. erw. Aufl. Berlin/ Boston: De Gruyter. Hoffmann, Ludger (2021): Deutsche Grammatik. Grundlagen für Lehrerausbildung, Schule, Deutsch als Zweitsprache und Deutsch als Fremdsprache. 4.,-neu bearb. u. erw. Aufl. Berlin: ESV. Kuhn, Thomas S.-(1996): Die Struktur wissenschaftlicher Revolutionen. 2. Aufl. (=-Suhrkamp- Taschenbuch Wissenschaft-25). Frankfurt a. M.: Suhrkamp. Martens, Ekkehard (Hg.) (2020): Platon. Theätet. Griechisch/ Deutsch. Stuttgart: Reclam. Mehler, Alexander/ Kühnberger, Kai-Uwe/ Lobin, Henning/ Lüngen, Harald/ Storrer, Angelika/ Witt, Andreas (Hg.) (2012): Modeling, learning, and processing of text-technological data structures. Berlin/ Heidelberg: Springer. Rehbein, Jochen (1994): Theorien, sprachwissenschaftlich betrachtet. In: Brünner, Gisela/ Graefen, Gabriele (Hg.): Texte und Diskurse. Opladen: Westdeutscher Verlag, S.-25-67. Ritter, Joachim/ Gründer, Karlfried/ Gabriel, Gottfried (1998): Historisches Wörterbuch der Philosophie. Bd.-10: St-T. Darmstadt: Wissenschaftliche Buchgesellschaft. Schönberger, Axel (2008): Die Ars minor des Aelius Donatus: Lateinischer Text und kommentierte deutsche Übersetzung einer antiken Elementargrammatik aus dem 4.- Jahrhundert nach Christus. (=-Bibliotheca Romanica et Latina-6). Frankfurt a. M.: Valentia. <?page no="44"?> Ludger Hoffmann 44 Swiggers, Pierre/ Wouters, Alfons (1998): De Tekhnē grammatikē van Dionysius Thrax. De oudste spraakkunst in het westen. (=-Orbis Linguarum-2). Leuven u. a.: Peeters. Wittgenstein, Ludwig (2001): Philosophische Untersuchungen. Kritisch-genetische Edition. Frankfurt a. M.: Suhrkamp. <?page no="45"?> ULRICH SCHMITZ INFINITY CORPUS-- LINGUISTISCHER GRÖSSENWAHN EINMAL DURCHGESPIELT Abstracts : Könnte ein unendlich großes Korpus helfen, die wichtigsten Probleme der Sprachwissenschaft, mindestens aber der Korpuslinguistik zu lösen? Zwar ist eine solche phantastische Strategie unrealistisch, weltfremd, überflüssig, ineffizient, also dumm. Doch das Nachdenken darüber erweist sich als intellektuell anregend und hilfreich für zukünftige korpuslinguistische Forschungen. Could an infinitely large corpus help to solve the most important problems in linguistics, or at least in corpus linguistics? Admittedly, such a fantastic strategy is unrealistic, unworldly, superfluous, and inefficient, hence stupid. But thinking about it turns out to be intellectually stimulating and helpful for future corpus linguistic research. Keywords : Design der Forschungsfrage, Korpusmethodologie, Muster, normale Wissenschaft, Rhizom, Tag- und Nachtwissenschaft, unendlich große Datenmengen, verkleinertes Modell 1. Intro 1 „Aufräumtätigkeiten sind das, was die meisten Wissenschaftler während ihrer gesamten Laufbahn beschäftigt“ (Kuhn 1967[1962], S.-45). Oh, ist solch kalte Wissenschaft nicht langweilig? Gibt es nicht etwas Heißeres? Ein gewaltiges Korpus, das alles Bisherige in den Schatten stellt? 2. Korpuslinguistik „Die Invasion digitaler Techniken in alle Wissenschaftsdisziplinen hat bisherige Selbstverständnisse von Fächern und eingespielte Forschungsstile im Mark erschüttert.“ (Tanner 2019, S.-92). So auch die Sprachwissenschaft ab den 1960er Jahren. Rechenmaschinen eröffneten die Möglichkeit, nicht mehr (nur) die stets beschränkte und subjektive Intuition und Kompetenz einzelner Forscherinnen und Forscher als empirische Quelle zu nutzen, sondern große Mengen (Korpora) tatsächlicher materieller Sprachdaten. Außerdem konnten auf dieser Grundlage Sprachtechnologien entwickelt werden. 2 Allmählich wurde Korpuslinguistik normal. 1 Diesen Beitrag widme ich nicht nur Angelika Storrer, sondern auch dem Seminar „Vergessene Klassiker der Sprachwissenschaft? “ (Hoffmann et al. (Hg.) 2022), dem ich viele Anregungen zwischen den Zeilen verdanke. 2 „Die Verfügbarkeit großer Mengen von qualitativ hochwertigen lexikalischen Daten ist die Voraussetzung für die Entwicklung leistungsfähiger sprachverarbeitender Sy[s]teme.“ (Storrer/ Feldweg/ Hinrichs 1993, S.-59). DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="46"?> Ulrich Schmitz 46 3. Normale Wissenschaft Normale Wissenschaft folgt mehr oder weniger routiniert einem bestimmten Paradigma (Kuhn 1967[1962], S.- 28 f.), das von einer „Gruppe von Fachleuten“ (ebd., S.- 28) als einem „Denkkollektiv“ (Fleck 1980[1935], S.- 52 f., 129 f.) anerkannt wird und in dessen Rahmen „alle möglichen Probleme“ (Kuhn 1967[1962], S.-28) nach und nach wissenschaftlich gelöst werden. Der Erfolg eines Paradigmas-- in unserem Fall die Art und Weise, aus großen Mengen sprachlicher Daten wissenschaftliche und technologische Erkenntnis zu gewinnen-- ist Kuhn (ebd., S.-45) zufolge „am Anfang weitgehend eine Verheißung von Erfolg, die in ausgesuchten und noch unvollkommenen Beispielen liegt. Die normale Wissenschaft besteht in der Verwirklichung jener Verheißung“. Korpuslinguistik im heutigen Sinne 3 gibt es seit den 1960er Jahren. Wegweisend waren Kučera/ Francis (1967); ihr Brown Corpus umfasste damals rund eine Million Wörter. Seitdem arbeiten zahlreiche SprachwissenschaftlerInnen daran, die damit implizit geweckte Verheißung zu erfüllen. 4 Dazu gehört nicht nur der Wunsch, Sprachgebräuche zu vermessen und große Teile der Sprachwissenschaft, insbesondere auch die Lexikografie, auf eine reichhaltigere empirische Basis zu stellen, sondern etwa auch die Möglichkeit, herrschende Grammatiktheorien grundlegend kritisieren zu können, weil deren Datenbasis „fast ausnahmslos minimal“ sei (Paprotté 2002, S.- 219). Computer wurden immer leistungsfähiger, Korpora immer größer. „Aus Mangel wurde Überfluß“ (Heid 2002, S.- 128). Ist das ein Problem oder eine Chance? Anlässlich des 60. Geburtstags von Winfried Lenders, einem der ersten Korpuslinguisten in Deutschland, erschien im Januar 2003 eine Festschrift mit dem Titel „Computerlinguistik-- Was geht, was kommt? “ (Willée/ Schröder/ Schmitz (Hg.) 2002). 5 Laut Vorwort (ebd., S.-10) wurden Personen, „die die Gegenwart und Zukunft dieser Disziplin prägen, um kritische Resümees und Bestandsaufnahmen, Perspektiven und Visionen gebeten“. Darin ist ein weites Feld aufgespannt. Von den 53 Beiträgen widmen sich neun „Computerlexikografie, Ontologien, Korpuslinguistik“ (ebd., S.-11). Heute gibt es wenig computerlinguistische Anwendungen, die nicht auch mit Korpora arbeiten. Schmitz (2002) prognostizierte, dass in wenigen Jahrzehnten Computer- und damit auch Korpuslinguistik die gesamte Sprachwissenschaft in ei- 3 Je nach Definition gibt es Vorläufer lange vor Computern, etwa Kaeding (Hg.) (1898) mit knapp elf Millionen Wörtern. Vgl. auch Meyer (2008). 4 Als knappe Einführung in die korpusgestützte Sprachanalyse eignet sich Storrer (2011). Ausführlicher etwa Draxler (2008); Gessinger/ Redder/ Schmitz (Hg.) (2018); Hirschmann (2019); Lemnitzer/ Zinsmeister (2015); Kallmeyer/ Zifonun (Hg.) (2007); Lüdeling/ Kytö (Hg.) (2008/ 2009); McEnery/ Hardie (2012); Perkuhn/ Keibel/ Kupietz (2012); Scherer (2014). 5 Vgl. dazu die lesenswerte Rezension von Carstensen (2003). <?page no="47"?> Infinity Corpus-- Linguistischer Größenwahn einmal durchgespielt 47 ner Weise umgewälzt haben werde und zugleich in ihr aufgegangen sei, dass sie als eigenständige Disziplin verschwunden sein werde: 6 „Der Computer hört auf, Paradigmengeber zu sein“ (ebd., S.-253). 4. Nachtwissenschaft Das wäre die Zeit für Abenteurer und Piraten in der Wissenschaft. Dem Zellbiologen und Nobelpreisträger François Jacob zufolge hat Forschung zwei Gesichter, nämlich Tag- und Nachtwissenschaft. Tagwissenschaft wäre -- in den oben verwendeten Worten-- die normale, kalte (und ebenfalls unbedingt notwendige) zielstrebige Wissenschaft. Nachtwissenschaft hingegen „ist blindes Irren […], eine Werkstatt des Möglichen, in der das künftige Material der Wissenschaft ausgearbeitet wird“ ( Jacob 1998, S.-164). Sind unendlich große Korpora (oder wenigstens das Nachdenken darüber) möglich, sinnvoll, nützlich? Das ist hier die nächtliche Frage. 5. Versinnfälligung Egal ob normaler Tag oder abenteuerliche Nacht: Der modernen Wissenschaft geht es (in den Worten von Rheinberger 2021, S.-17) stets darum, „Strukturen und Prozesse vor Augen zu führen, allgemeiner gesagt, den Sinnen zugänglich, sinnfällig zu machen […], die sich der unvermittelten Beobachtung nicht erschließen“. Und weiter: „Eine Versinnfälligung dieser Art ist notwendigerweise von ganz unterschiedlichen Formen des Eingreifens und der Manipulation, also letztlich von einer instrumentell vermittelten Störung abhängig.“ (ebd., S.-17 f.). 7 Im Falle der Korpuslinguistik beginnen solche Störungen 1)- mit der eingrenzenden Auswahl des möglichen Datenbereichs und 2)- der konservierenden Aufnahme zeitlinearer Daten, setzen sich fort 3)- durch Zerteilung in kleine statische Einheiten (z. B. Wörter)- - und im Falle mündlicher Daten auch durch Verschriftung-- sowie ggf. 4)-durch Meta-Informationen und Annotationen vielfältiger Art und werden weitergeführt 5)- in der algorithmischen Auswertung durch Programme, in die sämtlich und notwendigerweise theoretische Vorannahmen eingebaut sind. In Korpora werden Sprachgebräuche stillgestellt und eingefroren, damit sie zerlegt, also analysiert werden können. 6 Eine etwas andere Bilanz zieht Mair (2018, S.-24): „Am Ende einer beeindruckenden Erfolgsgeschichte ist die Korpuslinguistik somit dabei, sich aufzulösen und in die Digital Humanities-Bewegung zu integrieren.“ 7 Einen vergleichbaren Zusammenhang von Gewalt und Erkenntnis sieht Foucault auch bei jeder Interpretation: „In der Tat erhellt die Interpretation keine interpretationsbedürftige Materie, die sich ihr passiv darböte, vielmehr vermag sie sich nur gewaltsam einer bereits vorhandenen Interpretation zu bemächtigen, die sie dann wendet und mit Hammerschlägen zertrümmert.“ Foucault (2001[1967], S.-734). Bekanntlich kommt auch Korpuslinguistik nicht ohne Interpretation aus (vgl. z. B. Bubenhofer 2018, S.-23-25). <?page no="48"?> Ulrich Schmitz 48 6. Verwenigern Korpuslinguistik kann 1)-rein deskriptiv-statistisch vorgehen und-- für welche Zwecke auch immer-- auszählen, welche Elemente wie oft vorkommen. Häufigkeitsverteilungen können aufschlussreich sein für bestimmte Fragestellungen und zur Bildung mancher Hypothesen. Sowohl besonders häufige als auch sehr seltene Fälle können Spuren dafür legen. Korpuslinguistik kann darüber hinaus 2)- auch anspruchsvoller analytisch vorgehen. Sie sucht dann nach Regelmäßigkeiten, Schemata oder Muster im Sprachgebrauch, 8 seien es vorgefertigte Konstruktionen, seien es emergente Strukturen, die immer wieder vorkommen (z. B. Kookkurrenzen, Kollokationen oder andere Koinzidenzen). So kann man die Fülle der Daten (mit dem treffenden Ausdruck eines siebenjährigen Jungen) ‚verwenigern‘, sich besser orientieren und verstehende Theorien bilden. Verwenigern heißt, Fülle auf Entscheidendes (je nach Fragestellung auf das Gesuchte) zu reduzieren. Das Ziel analytischer Korpuslinguistik bestünde dann darin, eine Datenmenge in ein stark verkleinertes Modell zu überführen, das intellektuelle Erkenntnis über ein Gesamtes ermöglicht, im Falle eines Infinity Corpus also über die Totalität des gesamten menschlichen Sprachgebrauchs. 7. Fülle Wenn man nun wie die bisherige Korpuslinguistik erfolgreiche Verfahren zur Untersuchung begrenzter Korpora ausgebildet hat, spräche eigentlich nichts dagegen, die untersuchte Fülle unendlich groß werden zu lassen. Diese Vorstellung ist verführerisch: Je mehr Daten, desto mehr Erkenntnis. Außerdem entfiele die von vornherein schon realitätsverzerrende Auswahl des möglichen Datenbereichs (Störung Nr.- 1). Möchte man als Linguist nicht gern den gesamten Sprachgebrauch überblicken? 9 Und, bescheidener, wenn schon nicht das, so würde man doch gern statistisch valide Aussagen über Sprache oder Sprachgebrauch überhaupt treffen. Um dafür aber repräsentative Stichproben ziehen zu können, braucht man eine Grundgesamtheit, nämlich die Menge aller sprachlichen Äußerungen (oder auch nur aller sprachlichen oder vielleicht auch nur schriftlichen Äußerungen in einer bestimmten Region). Eine solche Grundgesamtheit existiert aber nicht oder ist nicht zu erfassen (dazu Rieger 1979), nicht nur aus technischen und rechtlichen Gründen, sondern allein auch schon deshalb, weil sie in jeder noch so kleinen Zeiteinheit durch weiteren Sprachgebrauch größer wird. Außerdem ist ein Großteil der sprachlichen Produktion flüchtig und kann nicht erfasst und konserviert werden. 8 Dazu Bubenhofer (2009) und Stein/ Stumpf (2019). 9 Man denke an Fausts Begründung, warum er sich der Magie ergibt: „Daß ich nicht mehr, mit sauerm Schweiß, / Zu sagen brauche, was ich nicht weiß; -/ Daß ich erkenne, was die Welt / Im Innersten zusammenhält“-(Goethe 1986[1808], S.-545-= Z.-380-383). <?page no="49"?> Infinity Corpus-- Linguistischer Größenwahn einmal durchgespielt 49 Vielleicht könnte man diesen methodischen Mangel aber wenigstens einigermaßen ausgleichen, wenn man nicht Stichproben zieht, sondern dann doch von vornherein eine möglichst umfassende Datenmenge (ggf. eingeschränkt auf einen bestimmten Zeitraum und/ oder auf eine bestimmte Sprache etc.) als Korpus zugrunde legte? Das hätte außerdem den Vorteil, dass dann auch sehr seltene oder flüchtige Erscheinungen (z. B. Wörter oder ‚Fehler‘) zum Vorschein kämen, die in weniger umfangreichen Korpora nicht enthalten sind. Gerade im Unscheinbaren zeigt sich oft das Bedenkenswerte. Schon sämtliche (sogar auch nur deutschsprachigen) Texte des World Wide Web, geschweige denn aller Internet-Dienste, übersteigen die Datenmenge aller bisherigen korpuslinguistisch untersuchten Texte (von multimodalen Korpora zu schweigen) um ein Unermesslichfaches. 10 Möglicherweise reichten schon dafür (also ohne alle anderen Sprachdaten) die derzeit verfügbaren Rechenleistungen nicht aus. 11 Das wird sich aber fortschreitend ändern. Spätestens durch Entwicklung zuverlässiger und bezahlbarer Quantencomputer in wenigen Jahrzehnten sollte es keine Beschränkung für die Menge des untersuchten sprachlichen (bzw. multimodalen) Materials mehr geben. Technisch sollte es also möglich sein, restlos alles digital und analog verfügbare (und ständig wachsende) schriftliche, mündliche und multimodale Material auf bestimmte Fragestellungen hin korpuslinguistisch zu untersuchen. So wie etwa die Teilchenbeschleuniger am CERN mit immer mehr kinetischer Energie, größeren Speicherringen, mehr Magneten und besseren Detektoren arbeiten, um möglichst kleine physikalische Teilchen zu finden, so könnte auch die Korpuslinguistik an immer größeren Mengen von Sprachdaten mit zunehmend verfeinerter Methodik die inneren Geheimnisse menschlichen Sprachgebrauchs aufdecken-- oder? 8. Diagramm Wäre das hilfreich? Denken wir an die Kartografie. Ihre Aufgabe besteht darin, ein nach bestimmten Kriterien und Normen verkleinertes Modell der Erdoberfläche (oder eines Teils davon) zu erstellen, damit man sich besser darauf orientieren kann. Für diesen Zweck könnte man versuchen, das komplette Material zu sammeln und 10 Das Deutsche Referenzkorpus (DeReKo) umfasst 2021 gut 50 Milliarden Wörter (www.ids-mannheim. de/ digspra/ kl/ projekte/ korpora/ , Stand: 3.4.2023). Die Textmenge im WWW lässt sich kaum berechnen. Ein Blog vom 6.3.2019 nennt ohne Quellenangabe Schätzungen der weltweiten Datenmenge auf „aktuell 33.000 Exabytes“ (https: / / blog.wiwo.de/ look-at-it/ 2019/ 03/ 06/ die-groesse-des-globalen-datenbestands-von-33-000-exabytes-anschaulich-umgerechnet/ , Stand: 3.4.2023). Die Zahl der von Google Books gescannten Bücher gibt Tanner (2019, S.-96) mit damals ca. 20 Millionen an (von etwa 130 Millionen weltweit verfasster Bücher). Diese 20 Millionen Bücher umfassen ja nur einen kleinen Teil aller im WWW verfügbaren Texte. 11 Schon bei ungleich kleineren Datenmengen hatte man immer wieder mal mit Kapazitätsgrenzen zu kämpfen (z. B. Bubenhofer 2009, S.-197). <?page no="50"?> Ulrich Schmitz 50 zu kopieren (wie KorpuslinguistInnen es für ihren Bereich mit Sprachmaterial machen). Im Falle der Kartografie liefe das auf eine möglichst identische Kopie der Wirklichkeit hinaus, im Falle etwa der Gesprächslinguistik auf eine Sammlung möglichst authentischer Videoaufnahmen aller zugänglichen Gesprächssituationen jeweils mit mehreren Kameras aus verschiedenen Blickwinkeln (künftig im Virtual- Reality-Format). Der Kartograf, der bekanntlich an räumlichen Verhältnissen interessiert ist, wäre kein bisschen weiter (die Kopie soll ja der Vorlage möglichst nahe kommen). Seine Aufgabe besteht schließlich darin, eine dreidimensionale Realität zumindest auf eine zweidimensionale Fläche zu projizieren, besser noch ein schematisches Diagramm ausgewählter Eigenschaften und Proportionen der Vorlage zu erzeugen. Und die an zeitlichen Verläufen interessierte Gesprächslinguistin? Auch sie, die eigentlich nach Mustern und Strukturen sucht (also komplexe zeitliche Abläufe auf lineare Muster reduzieren muss), hätte keinen Schritt auf dem Weg zu irgendeiner Erkenntnis getan, sondern lediglich eine bereits vergangene Realität in situationsfern stets wiederholbare Abbilder umgewandelt. Dem Kartografen ist das Ziel seiner Arbeit verloren gegangen, der Gesprächslinguistin die ursprüngliche Einheit ihres Gegenstandes. Diese Mängel werden durch unendliche Vermehrung der Daten nicht etwa ausgeglichen, sondern vielmehr hoffnungslos vervielfacht. Auch Quantencomputer schaffen da keine Abhilfe. Nun sollte jeder Kartograf und jede Gesprächslinguistin schon zu Beginn der Arbeit eine gewisse, vielleicht sogar möglichst klare Vorstellung davon haben, was an bisher nicht Bekanntem überhaupt sichtbar gemacht werden soll oder könnte, und zwar bevor überhaupt Daten gesammelt werden, mit denen man dann-- in Bubenhofers (2018, S.-25 f.) Worten-- diagrammatisch operieren kann. So geschieht das ja auch tatsächlich in der-- mit Kuhns Begrifflichkeit-- „normalen“ Korpuslinguistik, jedenfalls sofern sie auf sprachwissenschaftlicher Grundlage arbeitet. 12 9. Verkleinertes Modell Dabei geht es darum, ein möglichst gutes verkleinertes Modell der Wirklichkeit zu schaffen. Lévi-Strauss betrachtet Kunstwerke als verkleinerte Modelle. Indem sie „auf bestimmte Dimensionen des Objekts“ verzichten, „erscheint die Totalität des Objekts weniger furchterregend; aufgrund der Tatsache, daß sie quantitativ vermindert ist, erscheint sie uns qualitativ vereinfacht“ (Lévi-Strauss 1968[1962], S.-37). Vor allem aber: „die innere Kraft des verkleinerten Modells besteht darin, daß sie den Verzicht auf sinnliche Dimensionen durch den Gewinn intellektueller Dimensionen ausgleicht.“ (ebd., S.-38). Das sollte ähnlich auch in der Wissenschaft glücken. 13 12 Zum Konflikt und Zusammenspiel linguistischer und „alinguistischer Methoden“ siehe Bubenhofer/ Dreesen (2018, S.-70 f.). 13 „Sprache und Wissenschaft sind Abkürzungen der Wirklichkeit; Kunst ist Intensivierung von Wirklichkeit.“ (Cassirer 1990[1944], S.-221). <?page no="51"?> Infinity Corpus-- Linguistischer Größenwahn einmal durchgespielt 51 Ein Kartograf fertigt beispielsweise für einen bestimmten Zweck nur ein zweidimensionales Diagramm der Höhenunterschiede einer dreidimensionalen Landschaft an. Oder er zeichnet (wie auf Straßenkarten üblich) die Länge von Straßen in einem anderen Maßstab als deren Breite. Für sein Modell verzichtet er auf denkbare Erkenntnis, um (pragmatische relevante) tatsächliche Erkenntnis zu veranschaulichen. Die dafür erforderliche Datenart und -menge hängt ausschließlich vom jeweiligen Ziel ab. Zum Beispiel sind Eigenschaften des Objekts wie etwa Temperatur, chemische Zusammensetzung oder Gewicht ebenso wie Abweichungen im Zentimeter- oder gar Nanometer-Bereich in den meisten Fällen völlig unerheblich. 10. Frage und Umfang In ähnlicher Weise hängt auch die Art und Menge erforderlicher Daten in der Korpuslinguistik davon ab, was zu welchem Zweck jeweils modelliert werden soll. Ähnlich wie Naturforschung nach Kant (1956[1781], S.- 23- = B- XIII) „die Natur nötigen müsse, auf ihre Fragen zu antworten“, muss auch Korpuslinguistik erst Fragen stellen, um Erkenntnis zu gewinnen. 14 Geeignete Art und sinnvoller Umfang des Korpus hängen von der gestellten Frage ab. 15 Wenn es zum Beispiel darum geht, ob in E- Mails mehr Rechtschreibfehler oder kürzere Sätze (oder Neologismen, Anglizismen etc.) vorkommen als in einer bestimmten anderen Kommunikationsform, genügt (weil nur nach Häufigkeiten gefragt wird) schon ein recht kleines Korpus, besser zur Kontrolle noch ein zweites oder auch drittes vergleichbares Korpus. Auch um syntaktische Regeln nachzuweisen, reicht ein zweckmäßig erhobenes kleines Korpus aus. 16 Wenn man aber etwa wissen möchte, wie sich der Kasusgebrauch nach bestimmten Präpositionen im Deutschen innerhalb eines Jahrhunderts verändert hat, braucht man (weil die Frage komplexer ist) eine größere, aber keine unendlich riesige, sondern eine passende Datenmenge. Sie ist dann passend, wenn man durch Vergrößerung des Korpus (oder durch gleichartige Analyse eines vergleichbaren anderen Korpus zur Gegenprobe) keine anderen oder neuen Erkenntnisse gewinnt. Zunächst entscheidet darüber die Urteilskraft der beteiligten Forscherinnen und Forscher. Durch Veröffentlichung stehen die Ergebnisse dann-- wie stets in der Wissenschaft---zur Diskussion. Wenn andere Personen andere Ergebnisse finden, wäre das ein glücklicher Fortschritt in der normalen Wissenschaft. 14 So etwa auch Bubenhofer (2009, S.-99): „Da ich davon ausgehe, dass sich Sprachgebrauch in musterhaften Strukturen niederschlägt, muss das Korpus derart befragt werden, dass sich diese Strukturen zeigen.“ 15 „Indeed, textual CMC data are available in large numbers and are simple to archive; however, the data for a CMC corpus should be acquired depending on the purposes that the corpus should serve“ (Beißwenger/ Storrer 2008, S.-297). 16 „Um sich kundzutun, wartet die Syntax nicht, bis eine theoretisch unbegrenzte Reihe von Ereignissen gezählt werden konnte“ (Lévi-Strauss 1971[1964], S.-20). <?page no="52"?> Ulrich Schmitz 52 Es scheint also einen Zusammenhang zu geben zwischen der Komplexität der Forschungsfrage(n) und dem erforderlichen Umfang des untersuchten Korpus. In vielen Fällen gilt: Je anspruchsvoller die Frage(n), desto tendenziell größer sollte das Korpus sein. Wenn man herausfinden will, welches die fünf häufigsten Wörter in der deutschen Schriftsprache des 20.- Jahrhunderts sind, reicht ein solides Korpus- von einigen Zehntausend (vermutlich sogar nur einigen Tausend) Wörtern. Wenn ich hingegen auf nicht-intuitiver, möglichst empirie-gesättigter linguistischer Grundlage zeigen möchte, wie sich der rechtsradikale Diskurs in den letzten fünfzig Jahren verändert hat, benötige ich nicht nur klare Begrifflichkeiten und anspruchsvolle Methoden, sondern auch ein sehr, sehr großes und vielfältiges, aber eben nicht unendliches Korpus. 11. Infinity Corpus Auf den ersten Blick scheint der Gedanke sehr attraktiv zu sein, ein unendlich großes Korpus zu Verfügung zu haben, das sämtliche sprachlichen Äußerungen der gesamten Menschheit enthält. Oder- - da das offensichtlich nicht geht, weil wir mündliche Aufzeichnungen erst seit drei oder vier Generationen zur Verfügung haben und schriftliche nicht vollständig archiviert wurden-- wenigstens doch ein Infinity Corpus zum Beispiel des 20. und/ oder des 21. Jahrhunderts? Oder, wenn irgendwelche Umstände uns zu noch größerer Bescheidenheit zwingen: wenigstens ein kleines Infinity Corpus bestimmter Bereiche wie etwa ein Korpus aller sprachlichen Äußerungen in Deutschland etwa am 14. Oktober 2023-- Hauptsache Infinity! Würde ein Infinity Corpus uns dann nicht erlauben, alle linguistisch sinnvollen Fragen zu beantworten, und mögen sie noch so kompliziert sein? Auf den zweiten Blick aber stellt sich, wie gezeigt, eine solch phantastische Strategie als gleichermaßen unrealistisch, weltfremd, überflüssig, ineffizient und dumm heraus. Unrealistisch, weil jedes noch so große Korpus noch größere Teile des tatsächlichen Sprachgebrauchs gar nicht berücksichtigen kann, sei es wegen mangelnder technischer Archivierbarkeit sämtlicher dafür erforderlicher historischer Daten, sei es, weil in jeder Sekunde zahllose neue Sprachereignisse erzeugt werden. Weltfremd, weil selbst bei einem vergleichsweise bescheidenen kleinen Infinity Corpus möglicherweise zwar hinreichend Rechenleistung zur Verfügung stünde, nicht aber genügend menschliche Arbeitskraft sowohl für sinnvolles Design der notwendigen Algorithmen als auch für produktive Auswertung der Ergebnisse-- sei es, weil sich kein hinreichend finanzstarker Geldgeber findet, sei es weil es nicht genügend WissenschaftlerInnen gibt, die in einem solchen Projekt arbeiten möchten. Überflüssig, weil alle linguistisch sinnvollen Fragen mit kleineren (möglicherweise durchaus auch sehr großen, aber eben nicht unendlich großen) Korpora erfolgreich und besser bearbeitet werden können. Ineffizient, weil Rechenleistung und Arbeitskraft in keinerlei vernünftigem Verhältnis selbst zum erhofften Ergebnis stehen. Dumm, weil die Hoffnung auf ein fruchtbares Ergebnis voraussehbar enttäuscht werden wird. <?page no="53"?> Infinity Corpus-- Linguistischer Größenwahn einmal durchgespielt 53 Kurz: Infinity Copora sind zum Scheitern verurteilt. Dennoch ist es sinnvoll, vorher darüber nachzudenken, um nicht erst im wissenschaftlichen Vollzug enttäuscht zu werden. 17 12. Rhizom Nachdenken über utopische Infinity Corpora wirft freilich auch ein Licht auf charakteristische Probleme normaler (derzeit gängiger) Korpuslinguistik. Alle bisher entwickelten korpuslinguistischen Methoden fragmentieren Sprachgebrauch, sei es in Buchstaben, Wörter, Konstruktionen, Sätze oder andere N-Gramme. Damit wird Sprache für die Untersuchung still gestellt oder-- wie Humboldt (1963[1836], S.-419) sagen würde- - „Zerschlagen“. Auch Naturwissenschaften gehen in ihren Experimenten in gewisser Weise gewalttätig vor. 18 Doch der Gegenstand der Sprachwissenschaft ist nicht natürlich, sondern sozial in einem ganz bestimmten Sinne: Sprache existiert nur kraft Anerkennung, also allein indem (dadurch dass und solange wie) Sprachbenutzer die gerade geltenden Regeln anerkennen. Es gibt keine extern regelnde Instanz, Sprache hat kein Zentrum und ist dauernd in Bewegung. 19 Sprache, so Humboldt (ebd., S.-418), „ist etwas beständig und in jedem Augenblicke Vorübergehendes“. 20 Es gibt „keinerlei ⟨festen⟩ Ausgangspunkt oder Orientierungspunkt in der Sprache“ (Saussure 2003, S.-101). Sie ist ein „Geflecht [>plexus<] ewig negativer Differenzen“ (Saussure 1997, S.-156) oder-- mit einem moderneren Wort-- ein Rhizom, „einzig und allein durch die Zirkulation der Zustände definiert“ (Deleuze/ Guattari 1977[1976], S.-35). 21 Rhizome wachsen und wuchern nicht nur und sterben in Teilen ab, sondern auch ihre Strukturen verändern sich mit der Zeit. Als Beobachter kann man zwar Elemente herausschneiden und fixieren, 22 Ähnlichkeiten und Wiederholungen beschreiben, aber niemals das gesamte flüchtige „Spiel der Zeichen“ (Saussure 2003, S.-96) überblicken-- übrigens auch deshalb nicht, weil man als Zeuge selbst Mitspieler in diesem Spiel der Zeichen ist. 17 Zum Scheitern in der Wissenschaft vgl. auch Jungert/ Schuol (Hg.) (2022). 18 Spalten und Zusammenfügen kennzeichnen Rheinberger (2021) zufolge die naturwissenschaftliche Praxis. Man beachte auch sein „Lob des Fragments“ (ebd., S.-237-251). 19 Vgl. Derrida (1972[1967], S.-424): „Die Abwesenheit eines transzendentalen Signifikats erweitert das Feld und das Spiel des Bezeichnens ins Unendliche.“ 20 Humboldt (1963[1836], S.-418) meint, „dass die eigentliche Sprache in dem Acte ihres wirklichen Hervorbringens liegt“. Ein Dreivierteljahrhundert später notiert Saussure (2003, S.-92): „Ihre Existenz besteht in der Identität der Aufführungen.“ 21 Deleuze/ Guattari (1977[1976], S.-11 ̶ 24) nennen als Merkmale des Rhizoms Konnexion, Heterogenität, Vielheit, asignifikanten Bruch (Weiterwucherung trotz Zerstörung), Kartografie (nicht Kopie) und Dekalkomanie (Gestalten mit dem Zufall). 22 Deleuze/ Guattari (1977[1976], S.-23) zufolge hat Linguistik immer nur „die Sprache kopiert und fotografiert, mit all den Verfälschungen, die damit einhergehen“. <?page no="54"?> Ulrich Schmitz 54 Ein Infinity Corpus ist also ein schöner, weil utopischer Gedanke, lässt sich jedoch nicht verwirklichen. Das Rhizom wuchert immer weiter, solange Menschen leben. Doch unser Hybris-Alter-Ego beharrt: Kann dann nicht wenigstens die Frage unendlich groß sein? Die Antwort lautet: Nein. Eine unendlich große Frage ist keine Frage. Oder anders: Grenzenlose Fragen erhalten keine Antworten. Fragen sind ja gerade dazu da, den Bereich interessanten Wissens abzustecken. Je kleiner, spezieller, gezielter die Frage, desto klarer und ergiebiger wird die Antwort ausfallen. Sodann kommt es darauf an, den empirischen Untersuchungsbereich, hier also das Korpus, angemessen einzurichten: Passende Daten zu passenden Fragen. Genau an dieser Stelle ist die Urteilskraft 23 der Forscherinnen und Forscher gefragt. 13. Heiße Wissenschaft Das Abenteuer liegt dann doch nicht in der unendlichen Masse an Daten, sondern a)-im möglichst erfolgreichen Spielen mit gut ausgewählten Daten, um bisher unbekannte Muster zu entdecken, und b)-in der Entwicklung der richtigen (aussichtsreichen) Fragen. Beides geht Hand in Hand mit immer besseren Mutmaßungen oder-- mit Peirce-- der abduktiven Vermutung. 24 Solche heißen Fragen könnten beispielsweise lauten: - Wie kann man den sehr langfristigen Abbau des Flexionssystems im Deutschen (und in anderen Sprachen) korpuslinguistisch dokumentieren? - Wie breiten sich Neubildungen (Neologismen, Genderstern, …) und neue Gebrauchsweisen (z. B. „Kollege“ oder „so“ in jugendsprachlichen Kontexten) aus? - Auf welche Weise altern und verschwinden Wörter, Konstruktionen und Phraseologismen? - Lassen sich Entwicklungen im Sprachgebrauch voraussagen (analog meteorologischen und seismologischen Prognosen)? - Sind Konstruktionsgrammatiken erklärungsstärker als generative Grammatiken? - Könnte man Curricula in der Deutsch- und Fremdsprachendidaktik mit korpuslinguistischen Mitteln weiter professionalisieren? - Kann man Foucaults Diskurskonzept korpuslinguistisch unterlegen? 23 „Urteilskraft überhaupt ist das Vermögen, das Besondere als enthalten unter dem Allgemeinen zu denken.“ (Kant 1957[1790], S.-251-= B-XXV). 24 „Die Abduktion ist der erste Schritt im gesamten Prozeß des Schließens. Ihre Konklusion wird zu einer Prämisse für die Deduktion, die, indem sie diese mit vorgängig akzeptierten Propositionen logisch verbindet, Quasi-Voraussagen über den Verlauf der zukünftigen Erfahrung produziert.“ (Peirce 1983[i. O. 1903], S.-96). <?page no="55"?> Infinity Corpus-- Linguistischer Größenwahn einmal durchgespielt 55 Linguistische Tag- und Nachtwissenschaft mögen sich an solchen Fragen abarbeiten und ihre sinnfälligen Erkenntnisse verbreiten, damit wir alle mit Sprache noch reflektierter umgehen können. Literatur Beißwenger, Michael/ Storrer, Angelika (2008): Corpora of computer-mediated communication. In: Lüdeling/ Kytö (Hg.), Bd.-1, S.-292-309. Bubenhofer, Noah (2009): -Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse.-(=-Sprache und Wissen-4). Berlin/ New York: De Gruyter. Bubenhofer, Noah (2018): Wenn „Linguistik“ in „Korpuslinguistik“ bedeutungslos wird. Vier Thesen zur Zukunft der Korpuslinguistik. In: Gessinger, Joachim/ Redder, Angelika/ Schmitz, Ulrich (Hg.): Korpuslinguistik. (=- Osnabrücker Beiträge zur Sprachtheorie (OBST)-92). Duisburg: Universitätsverlag Rhein-Ruhr, S.-17-29. Bubenhofer, Noah/ Dreesen, Philipp (2018): Linguistik als antifragile Disziplin? Optionen in der digitalen Transformation. In: Digital Classics Online-4,-1, S.-63-75. Carstensen, Kai-Uwe (2003): Rezension zu: Willée, Gerd/ Schröder, Bernhard/ Schmitz, Hans- Christian (Hg.) (2002): Computerlinguistik. Was geht, was kommt? Sankt Augustin. (=-Sprachwissenschaft, Computerlinguistik und Neue Medien-4). In: Linguistik Online 17, 5, S.-155-161. https: / / doi.org/ 10.13092/ lo.17.791. Cassirer, Ernst (1990[engl. 1944]): Versuch über den Menschen. Einführung in eine Philosophie der Kultur. Frankfurt a. M.: Fischer. Deleuze, Gilles/ Guattari, Félix (1977[frz. 1976]): Rhizom. (=-Internationale marxistische Diskussion-67). Berlin: Merve. Derrida, Jacques (1972[frz. 1967]): Die Schrift und die Differenz. Frankfurt a. M.: Suhrkamp. Draxler, Christoph (2008): Korpusbasierte Sprachverarbeitung. Eine Einführung. (=-Narr Studienbücher). Tübingen: Narr. Fleck, Ludwik (1980[1935]): Entstehung und Entwicklung einer wissenschaftlichen Tatsache. Einführung in die Lehre vom Denkstil und Denkkollektiv. Frankfurt a. M.: Suhrkamp. Foucault, Michel (2001[frz. 1967]): Nietzsche, Freud, Marx. In: Foucault, Michel: Schriften in vier Bänden. Bd.- I: Dits et Ecrits (1954-1969). Hrsg. von Daniel Defert. Frankfurt a. M.: Suhrkamp, S.-727-743. Gessinger, Joachim/ Redder, Angelika/ Schmitz, Ulrich (Hg.) (2018): Korpuslinguistik. (=-Osnabrücker Beiträge zur Sprachtheorie (OBST)- 92). Duisburg: Universitätsverlag Rhein- Ruhr. Goethe, Johann W. (1986[1808]): Faust. Eine Tragödie. In: Goethe, Johann W.: Sämtliche Werke nach Epochen seines Schaffens. Münchner Ausgabe. Bd.-6.1: Weimarer Klassik. Hrsg. von Karl Richter in Zusammenarbeit mit Herbert G. Göpfert, Norbert Miller und Gerhard Sauder. München: Carl Hanser, S.-535-673. Heid, Ulrich (2002): Computerlinguistische Hilfsmittel für die Wörterbucherstellung. In: Willée/ Schröder/ Schmitz (Hg.), S.-128-132. Hirschmann, Hagen (2019): Korpuslinguistik. Eine Einführung. Stuttgart: Metzler. <?page no="56"?> Ulrich Schmitz 56 Hoffmann, Lea/ Fladung, Ilka/ Bau, Matthias/ Eisenberg, Benjamin/ Ender, Sven/ Fehse, Beatrix/ Kania, Thomas M./ Schmitz, Ulrich (Hg.) (2022): Vergessene Klassiker der Sprachwissenschaft? Zur Einführung und Erinnerung. Weilerswist: Velbrück Wissenschaft. Humboldt, Wilhelm von (1963[1836]): Über die Verschiedenheit des menschlichen Sprachbaues und ihren Einfluss auf die geistige Entwicklung des Menschengeschlechts. In: Humboldt, Wilhelm von: Werke in fünf Bänden. Bd. III: Schriften zur Sprachphilosophie. Hrsg. von Andreas Flitner und Klaus Giel. Darmstadt: Wissenschaftliche Buchgesellschaft, S.-368-756. Jacob, François (1998[frz. 2010]): Die Maus, die Fliege und der Mensch. Über die moderne Genforschung. Aus dem Franz. von Gustav Roßler. Mit einem Nachw. von Hans-Jörg Rheinberger. Berlin: Berlin-Verlag. Jungert, Michael/ Schuol, Sebastian (Hg.) (2022): Scheitern in den Wissenschaften. Perspektiven der Wissenschaftsforschung. Paderborn: Brill mentis. Kaeding, Friedrich W. (Hg.) (1898): Häufigkeitswörterbuch der deutschen Sprache. Festgestellt durch einen Arbeitsausschuß der Deutschen Stenographiesysteme. Steglitz bei Berlin: Selbstverlag. Kallmeyer, Werner/ Zifonun, Gisela (Hg.) (2007): - Sprachkorpora- - Datenmengen und Erkenntnisfortschritt.- (=- Jahrbuch- des Instituts für Deutsche Sprache 2006). Berlin/ New York: De Gruyter. Kant, Immanuel (1956[1781]): Werke in sechs Bänden. Bd.-II: Kritik der reinen Vernunft. Hrsg. von Wilhelm Weischedel. Wiesbaden: Insel. Kant, Immanuel (1957[1790]): Werke in sechs Bänden. Bd.- V: Kritik der Urteilskraft und-Schriften zur Naturphilosophie. Hrsg. von Wilhelm Weischedel. Wiesbaden: Insel, S.-233-620. Kučera, Henry/ Francis, W. Nelson (1967): Computational analysis of Present Day American English. Providence: Brown University Press. Kuhn, Thomas S.-(1967[amerik. 1962]): Die Struktur wissenschaftlicher Revolutionen. (=-suhrkamp taschenbuch wissenschaft 25). Frankfurt a. M.: Suhrkamp. Lemnitzer, Lothar/ Zinsmeister, Heike (2015): -Korpuslinguistik. Eine Einführung. 3.,-überarb. und erw. Aufl. (=-Narr Studienbücher). Tübingen: Narr. Lévi-Strauss, Claude (1968[frz. 1962]): Das wilde Denken. Frankfurt a. M.: Suhrkamp. Lévi-Strauss, Claude (1971[frz. 1964]): Mythologica. Teil- 1: Das Rohe und das Gekochte. Frankfurt a. M.: Suhrkamp. Lüdeling, Anke/ Kytö, Merja (Hg.) (2008/ 2009): - Corpus Linguistics. An international handbook. 2-Bde. (=-Handbücher zur Sprach- und Kommunikationswissenschaft (HSK)-29).-Berlin/ New York: De Gruyter. Mair, Christian (2018): Erfolgsgeschichte Korpuslinguistik? In: Kupietz, Marc/ Schmidt, Thomas (Hg.): Korpuslinguistik. (=- Germanistische Sprachwissenschaft um 2020- 5). Berlin/ Boston: De Gruyter, S.-5-25. McEnery, Tony/ Hardie, Andrew (2012): Corpus Linguistics. Method, theory and practice. (=-Cambridge Textbooks in Linguistics). Cambridge: Cambridge University Press. Meyer, Charles F. (2008): Pre-electronic corpora. In: Lüdeling/ Kytö (Hg.), Bd.-1, S.-1-14. <?page no="57"?> Infinity Corpus-- Linguistischer Größenwahn einmal durchgespielt 57 Paprotté, Wolf (2002): Perspektiven der Computerlinguistik: Prognose oder Karikatur. In: Willée/ Schröder/ Schmitz (Hg.), S.-218-222. Peirce, Charles S.-(1983[i. O. 1903]): Phänomen und Logik der Zeichen. Hrsg. und übers. von Helmut Pape. (=-suhrkamp taschenbuch wissenschaft-425). Frankfurt a. M.: Suhrkamp. Perkuhn, Rainer/ Keibel, Holger/ Kupietz, Marc (2012): Korpuslinguistik. (=-LIBAC- 3433). Paderborn: Fink. Rheinberger, Hans-Jörg (2021): Spalt und Fuge. Eine Phänomenologie des Experiments. (=-suhrkamp taschenbuch wissenschaft-2343). Frankfurt a. M.: Suhrkamp. Rieger, Burghard (1979): Repräsentativität: von der Unangemessenheit eines Begriffs zur Kennzeichnung eines Problems linguistischer Korpusbildung.-In: Bergenholtz, Henning/ Schaeder, Burkhard (Hg.): - Empirische Textwissenschaft. Aufbau und Auswertung von Text-Corpora. (=-Monographien Linguistik und Kommunikationswissenschaft-39). Königstein: Scriptor, S.-52-70. Saussure, Ferdinand de (1997): Linguistik und Semiologie. Notizen aus dem Nachlaß. Texte, Briefe und Dokumente. Gesammelt, übersetzt und eingeleitet von Johannes Fehr. Frankfurt a. M.: Suhrkamp. Saussure, Ferdinand de (2003): Wissenschaft der Sprache. Neue Texte aus dem Nachlaß. Hrsg. und mit einer Einl. vers. von Ludwig Jäger. Übers. und textkritisch bearb. von Elisabeth Birk und Mareike Buss. Frankfurt a. M.: Suhrkamp. Scherer, Carmen (2014): Korpuslinguistik. 2.,-aktual. Aufl. (=-Kurze Einführungen in die germanistische Linguistik-2). Heidelberg: Winter. Schmitz, Ulrich (2002): Die nächsten 50- Jahre: Computerlinguistik aufheben. In: Willée/ Schröder/ Schmitz (Hg.), S.-251 ̶ 253. Stein, Stephan/ Stumpf, Sören (2019): Muster in Sprache und Kommunikation. Eine Einführung in Konzepte sprachlicher Vorgeformtheit. (=-Grundlagen der Germanistik-63). Berlin: ESV. Storrer, Angelika (2011): Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In: Knapp, Karlfried/ Antos, Gerd/ Becker-Mrotzek, Michael/ Deppermann, Arnulf/ Göpferich, Susanne/ Grabowski, Joachim/ Klemm, Michael/ Villiger, Claudia (Hg.): Angewandte Linguistik. Ein Lehrbuch. 3.,-vollst. überarb. und erw. Aufl. (=-UTB 8275). Tübingen u. a.: Franke, S.-216-239. Storrer, Angelika/ Feldweg, Helmut/ Hinrichs, Erhard (1993): Korpusunterstützte Entwicklung lexikalischer Wissensbasen. In: Sprache und Datenverarbeitung (SDV)-17, 1/ 2, S.-59-72. Tanner, Jakob (2019): Binäre Codes und komplexes Denken. Digital Humanities und Geschichtswissenschaft. In: Schröter, Juliane/ Tienken, Susanne/ Ilg, Yvonne/ Scharloth, Joachim/ Bubenhofer, Noah (Hg.): Linguistische Kulturanalyse. (=-Reihe Germanistische Linguistik-314). Berlin/ Boston: De Gruyter, S.-91-110. Willée, Gerd/ Schröder, Bernhard/ Schmitz, Hans-Christian (Hg.) (2002): Computerlinguistik-- Was geht, was kommt? Computational Linguistics- - Achievements and Perspectives. Festschrift für Winfried Lenders. (=- Sprachwissenschaft, Computerlinguistik und Neue Medien-4). Sankt Augustin: Gardez. <?page no="59"?> ERHEBUNG UND AUFBEREITUNG VON SPRACHKORPORA <?page no="61"?> MARC KUPIETZ/ HARALD LÜNGEN/ ANDREAS WITT DeReKo IM KONTEXT DEUTSCHSPRACHIGER GEGENWARTSKORPORA: PERSPEKTIVEN-- ZIELE---VISIONEN Abstracts : Der Beitrag betrachtet das Deutsche Referenzkorpus DeReKo in Bezug auf Strategien für seinen Ausbau, den Zugriff über die Korpusanalyseplattform KorAP und seine Einbettung in Forschungsinfrastrukturen und in die deutschsprachige und europäische Korpuslandschaft. Ausgehend von dieser Bestandsaufnahme werden Perspektiven zu seiner Weiterentwicklung aufgezeigt. Zu den Zukunftsvisionen gehören die Verteilung von Korpussressourcen und die Konstruktion multilingualer vergleichbarer Korpora anhand der Bestände der National- und Referenzkorpora, eine Plattform zur Abgabe und Aufbereitung von Sprachspenden als eine Anwendung von Citizen Science sowie eine Komponente zur automatischen Identifikation von übersetzten bzw. maschinenverfassten Texten. This contribution considers the German Reference Corpus DeReKo with respect to current strategies for its extension, access via the corpus analysis platform KorAP, and its integration in research infrastructures and with other German language and European reference corpora. Starting from this, we point out perspectives for DeReKo’s future development. Visions for DeReKo and corpus technology in general include the construction of virtual corpora from distributed corpus resources, in particular of multilingual comparable corpora from the holdings of national and reference corpora, a platform where citizens can donate text data and apply certain processing steps, as well as components for the identification of translated text and machine-authored text. Keywords : Deutsches Referenzkorpus, Korpuslinguistik, Korpustechnologie, Internetbasierte Kommunikation, corpus linguistics, corpus technology, computer-mediated communication 1. Einleitung Wir wollen in unserem Beitrag auf Visionen zur Weiterentwicklung vom Deutschen Referenzkorpus DeReKo, der angrenzenden Korpuslandschaft und der korpuslinguistisch-empirischen Basis der germanistischen Linguistik eingehen, die wir bisher-- sofern sie noch nicht in Erfüllung gegangen sind-- nur in internen Strategiepapieren wie DeReKo 2012-2020 oder DeReKo 2020-2030 festgehalten hatten und dabei die Hindernisse, die z. B. in Kupietz/ Lüngen/ Diewald (2023) detailliert thematisiert sind, ein wenig außen vor lassen. Bevor wir im dritten Abschnitt zu den Perspektiven und Visionen kommen, werden wir im folgenden Abschnitt zunächst mit einer Bestandsaufnahme zu DeReKo, seiner Entwicklung und Nutzungsmöglichkeiten im Kontext anderer deutschsprachiger und anderer europäischer Korpora beginnen. DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="62"?> Marc Kupietz/ Harald Lüngen/ Andreas Witt 62 2. Deutschsprachige Gegenwartskorpora 2.1 DeReKo Heute Das Deutsche Referenzkorpus DeReKo wurde und wird am Leibniz-Institut für Deutsche Sprache (IDS) aufgebaut, um als eine empirische Grundlage für die sprachwissenschaftliche Forschung sowie als wichtiger Bestandteil der Dokumentation der deutschen Gegenwartssprache zu dienen. Die Voraussetzung für den Korpusaufbau ist die Akquisition von Verlagsrechten zur digitalen Nutzung urheberrechtlich geschützter Texte für wissenschaftliche Zwecke. Die primäre Zielgruppe von DeReKo umfasst neben vielen Projekten im IDS letztlich die gesamte, empirisch arbeitende, synchrone germanistische Sprachwissenschaft im In- und Ausland. DeReKo enthält viele verschiedene Textgenres wie Zeitungen und Zeitschriften, Fachtexte, Belletristik, Plenarprotokolle, Online-Diskussionen oder Chats. Die Eigenschaften von DeReKo, die z. B. im Hinblick auf Akquisition, Aufbereitung, Annotierung und Lizenzgestaltung jeweils Ergebnisse einer Kosten/ Nutzen-Abwägung sind, werden mit starker Priorität zugunsten dieser primären Zielgruppe optimiert (vgl. Kupietz/ Lüngen/ Diewald 2023). 1) Die Steigerung von Größe und Diversität sind grundsätzliche Ziele, um den Status von DeReKo als Urstichprobe der schriftlichen Gegenwartssprache fortlaufend zu konsolidieren. 2) Insbesondere ist dabei auch die Kontinuität und Aktualität hervorzuheben, um (zeitnah) Sprachwandelprozesse erfassen zu können. 3) Zur Gewährleistung der Kontinuität ist die Wahrung des Renommees des IDS als verlässlicher Partner für Text- und Lizenzspender notwendig. 4) Außerdem spielen langfristige Strategien und Prognosen (z. B. über die Ubiquität von Digitalisierung oder die Entwicklung der Presselandschaft) eine Rolle. 5) Besonders bzgl. der Diversitätsverbesserung wird auf die Nachfrage und den Bedarf von IDS-internen und gegebenenfalls externen Forschungsprojekten eingegangen. 6) Die Akquisition ist grundsätzlich abhängig vom tatsächlichen Angebot- - es kann nur akquiriert werden, was auf der Seite von Textgebern und Rechteinhabern (wie Zeitungs- und Buchverlagen, Datenbankprovidern, Portalbetreibern) sowie Forschungseinrichtungen oder Einzelpersonen, die selbst Korpora aufbauen, angeboten wird. 7) Die Datenakquisition wird auch priorisiert anhand der anfallenden Kosten für Verhandlungsaufwand und Lizenzgebühren sowie für die anschließende Erschließung (Aufwand an Analyse, Konvertierung und Aufbereitung zur Integration in DeReKo) und Wartung. <?page no="63"?> DEREKO im Kontext deutschsprachiger Gegenwartskorpora 63 DeReKo wird zweimal im Jahr aktualisiert und in Form eines sogenannten DeReKo- Releases veröffentlicht, das daraufhin in die Korpusrecherchesysteme COSMAS- II (b. a. w.) (Bodmer Mory 1996) und KorAP (Bański et al. 2012; Diewald et al. 2016) eingepflegt wird. Abb.-1: DeReKo-Wachstum Das zum Zeitpunkt der Abfassung dieses Beitrags aktuelle Release DeReKo-2023-I umfasst mehr als 55 Milliarden laufende Wörter. Seit 2012 hat sich DeReKo’s Umfang annähernd verzehnfacht (Abb.- 1). Das enorme Wachstum ist neben den seit langem bestehenden Vereinbarungen mit einzelnen Verlagen einerseits auf die seit 2013 eingegangene Kooperation mit einem kommerziellen Pressearchiv zurückzuführen. Aus dieser Quelle erhält DeReKo fortlaufend die Daten von über 200 überregionalen und regionalen deutschsprachigen Tages- und Wochenzeitungen sowie ca. 80 Publikums- und Fachzeitschriften. Andererseits werden mehr Texte, die unter offenen Lizenzen im Internet verfügbar sind, aufgenommen. So sind in den vergangenen zwanzig Jahren aufgebaute Korpora im Bereich internetbasierter Kommunikation (IBK) hinzugekommen. Insbesondere werden seit 2005 und seit 2011 alle zwei Jahre neue Konvertierungen der deutschsprachigen Wikipedia (Artikel und Diskussionsseiten) für DeReKo aufbereitet; der Umfang der 2019er Konvertierung betrug beispielsweise 1,39 Milliarden Tokens. Weitere sehr große IBK-Korpora in DeReKo sind das Usenet-News-Korpus (92,5 Millionen Tokens, Daten aus 2013-2016), das Twitter21-Sample-Korpus (49 Millionen Tokens, Daten aus 2021) und das Nott- DeuYTSch Korpus deutscher YouTube-Kommentare (33,8 Millionen Tokens, Daten aus 2008-2018/ Cotgrove 2022). Korpora Internetbasierter Kommunikation (IBK) wurden von Angelika Storrer als Korpora der dritten Art (Storrer 2014) charakterisiert, da sie im Vergleich zu mündlichen Korpora (siehe z. B. Schmidt 2022) und Schriftkorpora andere linguistische Merkmale aufweisen und anderen korpustechnologischen Bedingungen und rechtlichen Anforderungen unterliegen. Sie spielen <?page no="64"?> Marc Kupietz/ Harald Lüngen/ Andreas Witt 64 eine große Rolle z. B. für die Untersuchung von Neologismen und gesellschaftlichen Diskursen. 2.2 Zugriff auf DeReKo Der Zugriff auf DeReKo erfolgt für die meisten Nutzer über eine der beiden Online- Korpusrechercheschnittstellen des IDS.- Das ist zum einen COSMAS- II (Corpus Search Management and Analysis System), welches seit 2004 verfügbar ist und bereits seit 1994 konzipiert wurde. COSMAS-II hat mehr als 40.000 registrierte Benutzerinnen und Benutzer und bietet vielfältige Suchoptionen, darunter auch eine Methode zur Definition virtueller Teilkorpora und die Integration quantitativer Analysen. Zum anderen handelt es sich um das System KorAP (Korpusanalyseplattform der nächsten Generation), das designierte Nachfolgesystem von COSMAS- II. KorAP kann mit beliebig großen Korpora umgehen und bietet an weitergehenden Features u. a. Visualisierungs- und Abfragemöglichkeiten von mehrfach annotierten Korpora, die Definition von virtuellen Korpora über praktisch das gesamte Metadatenset sowie diverse Programmier-APIs (vgl. Kupietz et al. 2020) (Abb.-2). Abb.-2: KorAP-GUI Die Gestaltung des Zugriffs auf DeReKo über KorAP nimmt dabei Alan Kays’ Prinzip „Make simple things simple, and complex things possible“ sehr ernst (siehe Diewald/ Barbu Mititelu/ Kupietz 2019). Auf der Benutzeroberfläche fängt es damit an, dass man bei Aufruf der KorAP-Webseite eine Suchmaske erhält, die so einfach gehalten ist wie die einer Websuchmaschine. Ebenso ist die KWIC-Darstellung minimalistisch. Erst durch Anklicken von bestimmten Icons oder Inhaltselementen eröffnen sich sukzessive komplexere Darstellungen und Abfragemöglichkeiten. So wird z. B. durch Anklicken des orangefarbenen Balkens unter dem Cursor in der Suchmaske ein Popup-Menü aufgerufen, das bei der Formulierung von Suchanfragen über Annotationen hilft. Durch Anklicken der KWICs wird der jeweilige Kon- <?page no="65"?> DeReKo im Kontext deutschsprachiger Gegenwartskorpora 65 text erweitert und es erscheinen weitere Optionen, etwa zur Anzeige von Annotationen und Metadaten. Die Vorteile dieses Information-on-Demand-Ansatzes müssen allerdings durch gewisse Nachteile erkauft werden. Funktionalitäten sind nicht permanent sichtbar und behindern dadurch nicht die Konzentration auf das Wesentliche, aber sie müssen daher im Extremfall, fast wie sogenannte Easter Eggs, 1 gefunden werden, was besonders schwierig ist, wenn man nicht ahnt, dass es sie gibt. Um dieser Problematik ein wenig vorzubeugen, bietet KorAP eine geführte Tour durch alle Funktionalitäten. Dadurch, dass diese Bestandteil des Quellcodes ist, ist auch sichergestellt, dass die Funktionalitäten und ihre Dokumentation konsistent bleiben. Die Verfolgung von Alan Kays’ Prinzip endet bei KorAP und DeReKo nicht bei der Benutzeroberfläche. Sie reicht über mehrere Stufen bis hin zu den TEI-kodierten Primärdaten. So sind Nutzer*innen eingeladen, auch über Programmier-APIs bzw. entsprechend Bibliotheken für R und Python, über Schnittstellen-Plugins und mittels eigener Code-Beiträge und selbst entwickelter Funktionalitäten über KorAP auf DeReKo und andere Korpora zuzugreifen (Kupietz/ Diewald/ Margaretha 2022). 2.3 Korpuslinguistik und Korpustechnologie Die Etablierung korpuslinguistischer Ansätze in sprachwissenschaftlichen Disziplinen und Forschungsfeldern und die wachsende Anzahl und Größe benötigter und verwendeter Korpora hat eine Reihe technologischer Herausforderungen mit sich gebracht. Dies betrifft etwa die Konvertierung und Aufbereitung von Rohdaten zu Korpusdaten, ihre langfristige Speicherung und ihre Nutzbarmachung durch geeignete Forschungswerkzeuge. Wichtige Voraussetzungen, um diese Herausforderungen zu meistern, hat vor allem die pan-europäische Gemeinsame Sprachdaten- und Technologie-Infrastruktur CLARIN geschaffen. Im CLARIN-Kontext wurde durch die Etablierung und Weiterentwicklung von Standards zur Erfassung und Kodierung von primären Korpusdaten und Metadaten in Kooperation mit anderen und sich teilweise überschneidenden Communities wie der Text Encoding Initiative (TEI) und den zuständigen ISO-Komitees die notwendige Grundlage geschaffen, um aufwändig aufgebaute Korpora über ihre primären Zwecke hinaus nachnutzbar zu machen. Dabei wurden unter anderem auch erstmals TEI-Customisierungen für die Kodierung von IBK-Korpora entwickelt (Beißwenger et al. 2012). Ebenso wichtig in diesem Zusammenhang war die Etablierung von CLARIN-Zentren, die sich für die Nachnutzbarkeit der Daten verantwortlich fühlen und etwa befristete Projekte beim Aufbau von Korpora beraten und nach Ende ihrer Laufzeit die Daten aufnehmen, um sie in die Langzeitarchivierung aufzunehmen und sie zudem- idealerweise auch möglichst direkt nutzbar zu halten. Bezüglich der Erhal- 1 Als Easter Eggs werden versteckte Programmfeatures bezeichnet, die nichts oder wenig mit der eigentlichen Aufgabe der Software zu tun haben, wie z. B. in Tabellenkalkulationssoftware versteckte und undokumentierte Spiele. <?page no="66"?> Marc Kupietz/ Harald Lüngen/ Andreas Witt 66 tung dieser direkten Nutzbarkeit der Forschungsdaten hat sich die in CLARIN-D mit dem Ziel einer möglichst forschungscommunity-nahen Datenhaltung etablierte dezentrale Zentrenstruktur als sehr gut geeignet herausgestellt. So wurden z. B. das Dortmunder Chat-Korpus (Beißwenger/ Storrer 2012), ein Plenardebattenkorpus (Blätte/ Blessing 2018), ein Fußball-Newsticker-Korpus (Meier-Vieracker 2023), das NottDeuYTSch-Korpus (Cotgrove 2022, 2023), Gingko (Schirrmeister et al. 2021) und viele andere IDS-extern entwickelte Korpora zur nachhaltigen Kuration in DeReKo aufgenommen und über die Analysewerkzeuge des IDS der wissenschaftlichen Öffentlichkeit verfügbar gemacht. 2.4 Deutschsprachige Korpusarchive Das neben DeReKo zweite große sprachwissenschaftliche Korpusarchiv für geschriebenes Deutsch in Deutschland sind die Korpora des Digitalen Wörterbuchs der Deutschen Sprache (DWDS-Korpora) mit Texten seit 1900, welche ursprünglich zu lexikographischen Zwecken im Rahmen des DWDS aufgebaut wurden und darüber hinaus auch der wissenschaftlichen Öffentlichkeit für korpuslinguistische Analysen über die Online-Schnittstelle DDC (Nieländer/ Jurish 2021) bereitgestellt werden. In diese Korpora gehen auch historische Korpora des DTA (Deutsches Textarchiv) (Haaf/ Thomas 2016) und das Regional-Zeitungskorpus (Nolda/ Barbaresi/ Geyken 2023) des aktuellen Projekts ZDL (Zentrum für digitale Lexikographie der deutschen Sprache) ein. Die DWDS-Korpora enthalten auch IBK- und Webkorpora und beinhalten insgesamt (Stand: September 2022) 46 Milliarden Tokens. Ursprünglich waren sie als historische Korpora konzipiert und damit quasi komplementär zu DeReKo angelegt. Das Austrian Media Corpus (amc) ist ein großes, umfassendes Pressekorpus, welches fast alle österreichischen Zeitungen seit den 1980er Jahren umfasst und über eine NoSketch Engine-basierte Rechercheschnittstelle zu sprachwissenschaftlichen Forschungszwecken verwendet werden kann (Dorn et al. 2023). Es wurde im Rahmen einer Kooperation der Österreichischen Akademie der Wissenschaften mit APA (Austria Presse Agentur) aufgebaut und umfasst (Stand: September 2022) 11,6 Milliarden Tokens. Das größte Archiv mündlicher Korpora ist ebenfalls am Mannheimer IDS angesiedelt: Das AGD (Archiv für Gesprochenes Deutsch) (Schmidt 2018). Neben diesen großen zentralen Korpusarchiven, die von langfristig geförderten außeruniversitären Forschungsinstitutionen betrieben werden, werden zahlreiche Korpora an Universitäten in Forschungsprojekten oder Dissertationsprojekten aufgebaut. Viele dieser landen, soweit es die vorliegenden Nutzungsrechte zulassen, nach Projektabschluss auch in einem der großen Korpusarchive oder Repositorien, nicht zuletzt dank der Vorgaben zur Langzeitarchivierung der DFG (DFG 2014). (Im <?page no="67"?> DeReKo im Kontext deutschsprachiger Gegenwartskorpora 67 Abschn.- 2.1 in diesem Beitrag wurden einige Beispiele in DeReko aufgeführt.) In einigen Projekten werden Korpora anhand der TDM-Schranke des deutschen Urheberrechts aufgebaut, wonach legal verfügbare Inhalte (z. B. aus Bibliotheksbeständen oder aus dem Web) als Korpus aggregiert und nur mit einer begrenzten Gruppe an Wissenschaftlern geteilt werden dürfen, auch ohne eine entsprechende Vereinbarung mit den Rechteinhabern abzuschließen (siehe Abschn.- 3.1; Kamocki et al. 2018). Solche Korpora können nicht ohne Weiteres in die großen Korpusarchive aufgenommen werden. 2.5 Europäische Korpusarchive Aufgrund einiger Probleme mit der kontrastiv-linguistischen Nutzung von parallelen Übersetzungskorpora, wie z. B. dem Durchscheinen der Originalsprache (Teich 2003), geht der Trend bzgl. multi-lingualer Korpora in den letzten Jahren in Richtung Aufbau und Nutzung sogenannter vergleichbarer Korpora (McEnery/ Xiao 2007). DeReKo ist an zwei komplementären Initiativen dieser Art beteiligt: dem International Comparable Corpus ICC (Kirk/ Čermáková 2017; Čermáková et al. 2021) und dem European Reference Corpus EuReCo (Kupietz et al. 2017, 2020). Beide Initiativen haben gemein, dass sie auf bestehende National- und Referenzkorpora aufsetzen und den kostspieligen Aufbau neuer Korpora so weit wie möglich vermeiden. Während beim ICC relative kleine Korpora mit einer fest definierten, an die des International Corpus of English (ICE) (Greenbaum 1991) angelehnten Zusammensetzung fest definiert werden, besteht die wesentliche EuReCo-Idee (Kupietz et. al 2020) darin, vorhandene National- und Referenzkorpora durch die Verwendung von gemeinsamen Forschungswerkzeugen nur virtuell zu einem Netzwerk von dynamisch während der Nutzung definierbaren vergleichbaren Korpora zusammenzuschließen. Die erhofften Synergien gehen dabei im besten Falle über die offensichtlichen hinaus. Zunächst können so, ohne neue Korpora aufbauen zu müssen oder durch die Bewegung von Daten in urheberrechtliche Probleme zu geraten, kontrastive Studien auf vielen Paaren von vergleichbaren Korpora ermöglicht werden. Darüber hinaus ist aber auch die Bündelung von Kräften bei der Weiterentwicklung von linguistischen Forschungswerkzeugen zu erwarten. Diese zielt dabei nicht auf die Konzentration auf ein bestimmtes Werkzeug ab. Es liegt auf der Hand, dass die Anwendungsanforderungen in der Linguistik zu breit gestreut sind, als dass sie durch ein einziges Werkzeug abgedeckt werden könnten. Andererseits sind die Ressourcen aber natürlich begrenzt und die Erfahrungen etwa mit einer föderierten Inhaltssuche in CLARIN haben auch gezeigt, dass es sehr kostspielig ist, eine gemeinsame Schnittstelle für viele verschiedene Tools zu entwickeln und dauerhaft zu warten, die über eine reine Inhaltssuche hinausgeht und den Anforderungen auch nur weniger, z. B. korpuslinguistisch kontrastiver Anwendungen gerecht wird. <?page no="68"?> Marc Kupietz/ Harald Lüngen/ Andreas Witt 68 3. Perspektiven und Visionen 3.1 Mögliche Alternativen Gäbe es (praktikable und preisgünstige) Alternativen zu DeReKo? Sehr große sprachspezifische Korpora und Textarchive, unter anderem für das Deutsche, werden auch in Web-as-corpus-Projekten oder in großen Digitalisierungs-Projekten z. B. von Google oder der Deutschen Nationalbibliothek (DNB) vorgehalten. Die großen Web-as-corpus-Initiativen WacKy (Baroni et al. 2009) und COW (Schäfer/ Barbaresi/ Bildhauer 2013), die sehr große Webkorpora für verschiedene Sprachen, darunter Deutsch (deWac mit 1,7 Milliarden Tokens und DECOW14A mit 20 Milliarden Tokens), anboten, hatten allerdings ihre Hochzeit in den 2000er und 2010er Jahren und werden nicht mehr fortgeführt, da die Projekte, in denen sie entstanden, nicht mehr verlängert wurden bzw. die beteiligten Wissenschaftler sich anderen Schwerpunkten- widmeten. Weiter entwickelt, wenn auch kommerziell, wird die TenTen- Webkorpusfamilie ( Jakubíček et al. 2013) für ca. 40 Sprachen, die im Rahmen der Sketch Engine angeboten wird. Die zugehörige letzte Version des deutschsprachigen Webkorpus deTenTen von 2020 umfasst 17,5 Milliarden Tokens. Auch die BBAW bietet im Rahmen der DWDS-Korpora ein Webkorpus mit derzeit 8,5 Milliarden Tokens an (Barbaresi 2016; Barbaresi/ Geyken 2020). Webkorpora weisen grundsätzlich das Problem auf, dass es schwierig ist, zuverlässige und konsistente Metadaten für Online-Texte zu ermitteln, nicht einmal solch grundlegende wie Autorenschaft, Entstehungszeit oder -ort, geschweige denn die Muttersprache des Autors. Dadurch ist es auch schwierig zu bestimmen, für welchen Sprachausschnitt ein Webkorpus oder ein Teilkorpus aus ihm stehen soll. Webkorpora können somit unserer Ansicht nach nicht kuratierte Korpora wie DeReKo ersetzen, allerdings können sie eine sinnvolle Ergänzung darstellen. Aufgrund des seit 2018 gültigen deutschen Urheberrechts mit seiner neuen Text- und Datamining- Schranke (§60d UrhWissG) ist es nunmehr erlaubt, dass Inhalte auch ohne eine explizite Erlaubnis von Rechteinhabern für nicht-kommerzielle Zwecke reproduziert, strukturiert und kategorisiert werden dürfen, um ein Korpus aufzubauen, das dann mit einer Gruppe von Forschern geteilt und genutzt werden darf. Voraussetzung ist, dass ein legaler Zugang zu solchen Inhalten besteht (etwa über eine Bibliothek oder eben das Internet) (Kupietz/ Diewald/ Fankhauser 2018). Somit könnten Webkorpora auch im Rahmen von DeReKo, wenn auch nur für einen begrenzten Nutzerkreis, angeboten werden Um dies für Massendaten zu bewältigen (z. B. für das gesamte deutschsprachige Web), könnte eine Kooperation mit einem Web-Archivierungsprojekt gesucht werden. Es könnte auch angeführt werden, dass Digitalisierungsinitiativen (von Verlagen, Bibliotheken, der EU oder Google) mittelfristig die sprachwissenschaftlichen Korpusarchive überflüssig machen. 2011 wurde immerhin eine Schnittstelle für die <?page no="69"?> DeReKo im Kontext deutschsprachiger Gegenwartskorpora 69 sprachwissenschaftliche Nutzung der Google N-Grams (Davies 2011) vorgestellt. Diese sind aber linguistisch kaum brauchbar (Koplenig 2015) und es hat seither praktisch keine Vorstöße seitens Google in die DH-Community gegeben. Als empirische Grundlage für die linguistische Forschung zur deutschen Gegenwartssprache wird DeReKo demnach in den kommenden zehn Jahren und darüber hinaus seine Alleinstellung behalten. 3.2 Vision Ein wichtiger Aspekt der Entwicklung eines künftigen deutschsprachigen Referenzkorpus besteht in der Möglichkeit der Verteilung von Korpusressourcen. Verteilung in diesem Sinne betrifft die örtliche Verteilung auf mehrere Standorte, die gemeinsam ausgewählte Ressourcen dem Referenzkorpus hinzufügen. Dies könnte beispielsweise bedeuten, dass große Bibliotheken an ihren Standorten Textressourcen einbringen und Forschungsinstitute ihre annotierten Korpora ebenfalls. Das entstehende virtuelle Korpus ist für Korpusanalysen nutzbar, sodass es mehr als die Summe seiner Teile ist. Die einzelnen Einrichtungen können sicherstellen, die rechtlichen Voraussetzungen für die Einbringung der Teilkorpora zu erfüllen. Ein derartiger Weg bietet Perspektiven, die derzeit nicht umgesetzt werden. Hierzu gehören deutschsprachige Korpora aus verschiedenen Ländern (z. B. Österreich, Deutschland, Italien) oder solche, die direkt an der Deutschen Nationalbibliothek oder beim Deutschen Textarchiv gehostet sind, bis hin zur Aufnahme von kleinen privat gehosteten Spezialkorpora von einzelnen Wissenschaftler*innen, z. B. Bürgerwissenschaftler*innen, sowie auch die verteilten Korpora verschiedener Sprachen (siehe EuReCo oben). Die Vision für multilinguale vergleichbare Korpora wie EuReCo oder das ICC sieht so aus, dass größere Zentren, die National- und Referenzkorpora beheimaten, diese über einige wenige verschiedene Werkzeuge der wissenschaftlichen Öffentlichkeit zur Verfügung stellen, sodass zum einen die speziellen Interessen der jeweiligen Nutzungscommunity gedeckt sind und andererseits auch für eine vernetzte Verwendung mit anderen Korpora und die notwendige Bündelung von Ressourcen für die notwendige Weiterentwicklung und Wartung gesorgt ist. Ein bereits heute verwirklichter Teil der Vision ist, dass natürlich auch einzelne Forschende ihre selbst aufgebauten Korpora innerhalb dieses Netzwerkes nutzen können, z. B. indem sie ihre Korpusdaten in KorAP importieren, diese mit einem aus DeReKo definierten virtuellen Hintergrundkorpus vergleichen, die Sprachverwendung mit einem aus dem Referenzkorpus der rumänischen Gegenwartssprache CoRoLa (Tufiș et al. 2016) definierten rumänischen Vergleichskorpus kontrastieren und die Korpusdaten am Ende des Projektes zur Weiterverwendung durch die Community und zur langfristigen Kuration in DeReKo integrieren. <?page no="70"?> Marc Kupietz/ Harald Lüngen/ Andreas Witt 70 Eine weitere wichtige Grundlage für die Realisierung solcher Visionen könnten Standardkomponenten für Lizenzvereinbarungen zwischen Autor*innen und Verwertern wie klassischen Verlagen oder Online-Diensten legen, die eine für die linguistische Verwendung kennzeichnende nicht-konsumtive Nutzung (Kamocki 2018) von Texten für nicht-kommerzielle akademische Zwecke erlauben. Besonders wünschenswert in diesem Zusammenhang wäre z. B. ein entsprechender (optionaler) Passus in den Standard-Autorenverträgen des Börsenvereins des Deutschen Buchhandels. Ebenfalls hilfreich wären Standard-Überlassungsvereinbarungen und -prozesse für die Übertragung von Nutzungsrechten zwischen wissenschaftlichen Einrichtungen, sodass befristete Projekte zum Ende ihrer Laufzeit die in ihnen aufgebauten Korpora einschließlich aller Nutzungsrechte leichter an Dauerprojekte wie DeReKo übergeben können, um die Daten weiterhin und dauerhaft verfügbar zu machen. Um die Nachnutzbarkeit von Korpora über rein akademische Anwendungen hinaus zu verbessern und den Ertrag der investierten Arbeit im Sinne aller Beteiligten zu erhöhen, wären außerdem Standard-Prozesse zur nachträglichen kommerziellen Re-Lizenzierung von Korpustexten gegen eine angemessene Vergütung für Urheber und Rechteinhaber sehr hilfreich. Standardkomponenten kombiniert mit Citizen Science könnten auch eine weitere Vision für ein Referenzkorpus der Zukunft ermöglichen, indem unveröffentlichte, schriftliche Daten aus alltagssprachlichen Umfeldern einbezogen werden können, wie private Texte, Notizen, Korrespondenz oder auch Texte, die für Schule und Studium verfasst wurden, sowohl in digitaler wie auch analoger Form, was bisher rechtlich und technisch schwierig zu bewerkstelligen ist. Umgesetzt werden könnte dies durch den Aufbau einer digitalen Plattform, die eine systematische Rekrutierung erlaubt, finanzielle Transaktionen oder andere Anreizsysteme ermöglicht und einen rechtlich gültigen Abschluss von Nutzungsvereinbarungen bereitstellt (z. B. ähnlich der Zustimmung zu AGBs von Online-Diensten). Die Hauptfunktion einer solchen Plattform wäre es, durch einen Prozess zur Bereitstellung eigener Daten zu führen, der z. B. OCR, Formatierung und weitere Datenaufbereitung, die Erhebung von Metadaten oder auch die Anonymisierung oder Pseudonymisierung von Texten beinhaltet. Ansätze dazu gibt in dem Korpusprojekt Mobile Communication Database (MoCoDa2), wo über eine Datenspende-Plattform private Chatdaten erhoben werden (Beißwenger et al. 2020). Eine Umsetzung von Teilfunktionen dieser Vision ist auch im Rahmen des Bereichs Sprache Spenden und Dokumentieren des zukünftigen Forums Deutsche Sprache 2 vorgesehen. Eine weitere Herausforderung, mit der sich die Korpuslinguistik in den nächsten Jahren beschäftigen muss, sind Veränderungen in der empirischen Basis. Das deutsche Referenzkorpus soll deskriptiv den Sprachgebrauch widerspiegeln. Hierfür wurden Texte, die in Zeitungen und Büchern veröffentlicht wurden oder in der in- 2 https: / / www.forumdeutschesprache.de/ . <?page no="71"?> DeReKo im Kontext deutschsprachiger Gegenwartskorpora 71 ternetbasierten Kommunikation, sei es in Foren, Chatgruppen oder auch über Messengerdienste ausgetauscht wurden, gesammelt, aufbereitet und in Korpora bereitgestellt. Konnte die Korpuslinguistik lange davon ausgehen, dass Texte von Menschen geschrieben werden, so war dies schon vor Systemen, die in der breiteren Öffentlichkeit viel diskutiert wurden, wie z. B. ChatGPT, oft nicht der Fall: Man denke nur an automatische Übersetzungen, automatisch generierte Wetterberichte, automatisch aus Datenbanken generierte Texte oder (halb-)automatische Sportberichterstattung (Meier-Vieracker 2020). Zukünftig werden jedoch in zunehmendem Maße die Texte nicht mehr per se auf diese klassische Weise erstellt. Vielmehr werden Zeitungsmeldungen, Sportreportagen, Wetterberichte immer häufiger durch automatische Textgenerierungsprogramme erstellt, an Chats beteiligen sich Bots und Übersetzungen werden automatisch erstellt. Zudem nutzen immer mehr Menschen automatische Diktierfunktionen, z. B. bei der Benutzung von Messengerdiensten. Für die linguistische Forschung ist es überaus relevant zu wissen, ob die Texte von Menschen oder zumindest teilweise von Maschinen erstellt worden sind. Da es jedoch häufig kein Wissen über den Erstellungsprozess der Texte nach ihrer Veröffentlichung bzw. nach ihrem Auftreten im Internet oder in den Chat-Kommunikationssituationen gibt, müssen gegebenenfalls automatische Verfahren zur Feststellung der Autorenschaft (Mensch oder Maschine) entwickelt oder genutzt werden. Bis dies zuverlässig möglich sein wird, sollten die Metadaten der Texte in den Korpora möglichst gesicherte Angaben darüber enthalten, dass die Texte von Menschen erstellt wurden. 4. Schlussfolgerungen Mit unserem Beitrag haben wir versucht, ausgehend von den aktuellen Strategien des DeReKo-Ausbaus Perspektiven, Potenziale und Visionen der Weiterentwicklung des Deutschen Referenzkorpus in den kommenden Jahrzehnten aufzuzeigen. Zunächst betrachteten wir in einer Bestandsaufnahme, wie korpustechnologische Herausforderungen für DeReKo aktuell angegangen werden: einerseits durch neue Zugriffsmöglichkeiten durch KorAP, die Korpusanalyseplattform der nächsten Generation, andererseits durch die Einbettung in Forschungsinfrastrukturen wie CLA- RIN-D mit seiner dezentralen Zentrenstruktur. Wir betrachteten außerdem DeReKo im Zusammenspiel mit anderen deutschsprachigen Korpusarchiven, die sich jeweils komplementären Sprachausschnitten (Fokus auf mündlicher oder historischer Sprache oder österreichischer Varietät) widmen, sowie seine Einbettung in die europäischen Korpusinitiativen wie EuReKo und ICC. Im Rahmen der Perspektiven für DeReKo betrachteten wir zunächst mögliche Alternativen: Machen die Verfügbarkeit von immer größeren Webkorpora und die ubiquitäre Digitalisierung DeReKo Konkurrenz? Unsere Einschätzung ist, dass die bloße Verfügbarkeit enormer Mengen an Textdaten und ihre basale Durchsuchbarkeit nicht die Anforderungen der Linguistik erfüllen können, die weiterhin auf kuratier- <?page no="72"?> Marc Kupietz/ Harald Lüngen/ Andreas Witt 72 te Korpora, umfangreiche Metadaten und linguistisch motivierte Suchoptionen angewiesen sein wird, um aussagekräftige und wissenschaftlich begründete Ergebnisse zu erzielen. Eine realistische Vision für DeReKo ist die Möglichkeit der Bildung virtueller Korpora aus verteilten Korpusressourcen, die aus rechtlichen Gründen und aus Gründen der Speicherkapazität an verschiedenen Orten vorgehalten werden. Eine weitere Vision betrifft die Konstruktion großer multilingualer vergleichbarer Korpora anhand der Bestände der Referenz- und Nationalkorpora in Fortführung der EuReCo- und ICC-Ansätze. In der dritten Vision haben wir den Aufbau einer Plattform skizziert, in der Bürger eigene Alltagstexte beisteuern, die erforderlichen rechtlichen Zustimmungen abgeben sowie bestimmte Aufbereitungsschritte wie Anonymisierung selbst anstoßen können. Als eine weitere Vision haben wir eine Komponente als wünschenswert charakterisiert, die automatisch übersetzte Texte von Texten, die von Muttersprachlern verfasst wurden und vor allem Texte, die maschinell kreiert wurden, von solchen, die durch Menschen verfasst wurden, unterscheiden kann. Das Erscheinen der Dialogsoftware ChatGPT im November 2022 zeugt davon, dass es einen immer größeren Bedarf geben wird, dieses Erkennungsproblem zu lösen. Langfristige Prognosen und Visionen können durch unvorhergesehene technische, wirtschaftliche oder politische Entwicklungen durchkreuzt werden. Wir glauben jedoch, dass die von uns aufgezeigten Felder mit einiger Sicherheit die Themen der Zukunft sein werden. Unsere Überlegungen und Visionen fließen in die langfristigen Arbeitsplanungen des IDS und in Zukunftsprojekte wie das Forum der deutschen Sprache ein. Literatur Bański, Piotr/ Fischer, Peter M./ Frick, Elena/ Ketzan, Erik/ Kupietz, Marc/ Schnober, Carsten/ Schonefeld, Oliver/ Witt, Andreas (2012): The new IDS corpus analysis platform: challenges and prospects. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Doğan, Mehmet U./ Maegaard, Bente/ Mariani, Joseph/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the 8th international conference on language resources and evaluation (LREC’ 2012), May 2012, Istanbul, Turkey. Paris: European Language Resources Association (ELRA), S.-2905-2911. Barbaresi, Adrien (2016): Efficient construction of metadata-enhanced web corpora. In: Cook, Paul/ Evert, Stefan/ Schäfer, Roland/ Stemle, Egon (Hg.): Proceedings of the 10th Web as Corpus workshop, August 2016, Berlin. Stroudsburg: Association for Computational Linguistics (ACL), S.-7-16. Barbaresi, Adrien/ Geyken, Alexander (2020): Die Webkorpora im DWDS- - Strategien des Korpusaufbaus und Nutzungsmöglichkeiten. In: Marx/ Lobin/ Schmidt (Hg.), S.-345-348. Baroni, Marco/ Bernardini, Silvia/ Ferraresi, Adriano/ Zanchetta, Eros (2009): The WaCky Wide Web: a collection of very large linguistically processed web-crawled corpora. In: Language Resources and Evaluation-43,-3, S.-209-226. <?page no="73"?> DeReKo im Kontext deutschsprachiger Gegenwartskorpora 73 Beißwenger, Michael/ Storrer, Angelika (2012): Interaktionsorientiertes Schreiben und interaktive Lesespiele in der Chat-Kommunikation. In: Zeitschrift für Literaturwissenschaft und Linguistik-168/ 42, (Themenschwerpunkt: „Dinge und Maschinen in der Kommunikation“), S.-92-124. Beißwenger, Michael/ Fladrich, Marcel/ Imo, Wolfgang/ Ziegler, Evelyn (2020): Die Mobile Communication Database 2 (MoCoDa 2). In: Marx/ Lobin/ Schmidt (Hg.), S.-349-352. Beißwenger, Michael/ Ermakova, Maria/ Geyken, Alexander/ Lemnitzer, Lothar/ Storrer, Angelika (2012): A TEI schema for the representation of computer-mediated communication. In: Journal of the Text Encoding Initiative (jTEI) 3/ November 2012. https: / / doi.org/ 10.4000/ jtei.476. Blätte, Andreas/ Blessing, Andre (2018): The GermaParl corpus of parliamentary protocols. In: Calzolari, Nicoletta/ Choukri, Khalid/ Cieri, Christopher/ Declerck, Thierry/ Goggi, Sara/ Hasida, Koiti/ Isahara, Hitoshi/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios/ Tokunaga, Takenobu (Hg.): Proceedings of the 11th international conference on language resources and evaluation (LREC’ 2018), May 2018, Miyazaki, Japan. Paris: European Language Resources Association (ELRA). www.aclweb. org/ anthology/ L18-1130 (Stand: 5.5.2023). Bodmer Mory, Franck (1996): Aspekte Der Abfragekompononente von COSMAS-II. In: LDV-INFO. Informationsschrift der Arbeitsstelle Linguistische Datenverarbeitung- 8, S.-112-122. Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Goggi, Sara/ Grobelnik, Marko/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg.) (2016): Proceedings of the 10th international conference on language resources and evaluation (LREC’16), May 2016, Portorož, Slovenia. Paris: European Language Resources Association (ELRA). Čermáková, Anna/ Jantunen, Jarmo/ Jauhiainen, Tommi/ Kirk, John/ Křen, Michal/ Kupietz, Marc/ Uí Dhonnchadha, Elaine (2021): The International Comparable Corpus: Challenges in building multilingual spoken and written comparable corpora. In: Research in Corpus Linguistics-9, 1 (Special issue „Challenges of combining structured and unstructured data in corpus development“. Murcia: Spanish Association for Corpus Linguistics), S.-89-103. Cotgrove, Louis A. (2022): #GlockeAktiv: a corpus linguistic investigation of German online youth language. PhD Thesis. Nottingham: University of Nottingham. Cotgrove, Louis A. (2023): New opportunities for researching digital youth language: The NottDeuYTSch corpus. In: Kupietz/ Schmidt (Hg.), S.-101-114. Davies, Mark (2011): Google Books Corpus (Based on Google Books n-grams). www.englishcorpora.org/ googlebooks/ (Stand: 5.5.2023). Deppermann, Arnulf/ Fandrych, Christian/ Kupietz, Marc/ Schmidt, Thomas (Hg.) (2023): Korpora in der germanistischen Sprachwissenschaft- - mündlich, schriftlich, multimedial. (=-Jahrbuch des Instituts für Deutsche 2022). Berlin/ Boston: De Gruyter. DFG (2014): Empfehlungen des DFG-Fachkollegiums 104 „Sprachwissenschaften“. Stand: 31.- Oktober 2019. Handreichung: Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora. Bonn: Deutsche Forschungsgemeinschaft. www.dfg.de/ download/ pdf/ foerderung/ grundlagen_dfg_foerderung/ informationen_ fachwissenschaften/ geisteswissenschaften/ standards_sprachkorpora.pdf (Stand: 5.5.2023). <?page no="74"?> Marc Kupietz/ Harald Lüngen/ Andreas Witt 74 Diewald, Nils/ Barbu Mititelu, Verginica/ Kupietz, Marc (2019): The KorAP user interface. Accessing CoRoLa via KorAP. In: Revue Roumaine de Linguistique. On design, creation and use of the Reference Corpus of Contemporary Romanian and its analysis tools. CoRoLa, KorAP, DRuKoLA and EuReCo 64, 3, S.-265-277. Diewald, Nils/ Hanl, Michael/ Margaretha, Eliza/ Bingel, Joachim/ Kupietz, Marc/ Bański, Piotr/ Witt, Andreas (2016): KorAP architecture - Diving in the deep sea of corpus data. In: Calzolari/ Choukri/ Declerck/ Goggi/ Grobelnik/ Maegaard/ Mariani/ Mazo/ Moreno/ Odijk/ Piperidis (Hg.), S.-3586-3591. www.aclweb.org/ anthology/ L16-1569 (Stand: 12.5.2023). Dorn, Amelie/ Höll, Jan/ Ziegler, Theresa/ Koppensteiner, Wolfgang/ Pirker, Hannes (2023): Die österreichische Presselandschaft digital: Das Austrian Media Corpus (amc) und sein Potenzial für die Linguistik. In: Kupietz/ Schmidt (Hg.), S.-43-56. Greenbaum, Sidney (1991): ICE: the international corpus of English. In: English Today- 7,- 4, S.-3-7. Haaf, Susanne/ Thomas, Christian (2016): Die historischen Korpora des Deutschen Textarchivs als Grundlage für sprachgeschichtliche Forschungen. In: Runow, Holger/ Harm, Volker/ Schiwek, Leevke (Hg.): Sprachgeschichte des Deutschen: Positionierungen in Forschung, Studium, Schule. Stuttgart: Salomon Hirzel, S.-217-234. Jakubíček, Miloš/ Kilgarriff, Adam/ Kovář, Voitěch/ Rychlý, Pavel/ Suchomel, Vit (2013): The TenTen corpus family. In: Hardie, Andrew/ Love, Robbie (Hg.): 7th international Corpus Linguistics conference (CL 2013), 23rd-26th July 2013, Lancaster University, UK. Lancaster: UCREL, S.-125-127. Kamocki, Paweł (2018): The argument for “non-consumptive use” in the EU: how copyright could be redefined to allow text and data mining. In: Pistorius, Tana (Hg.): Intellectual property perspectives on the regulation of new technologies. (=-ATRIP Intellectual Property Series). Cheltenham, UK/ Northampton, MA: Edward Elgar Publishing, S.-237-258. Kamocki, Pawel/ Ketzan, Erik/ Wildgans, Julia/ Witt, Andreas (2018): New exceptions for text- and data mining and their possible impact on the CLARIN infrastructure. In: Skadina, Inguna/ Eskevich, Maria (Hg.): CLARIN annual conference 2018, Proceedings. 8-10- October 2018, Pisa, Italy. Utrecht: CLARIN, S.- 39-42. https: / / nbn-resolving.org/ urn: nbn: de: bsz: mh39-81888 (Stand: 9.5.2023). Kirk, John/ Čermáková, Anna (2017): From ICE to ICC: The new International Comparable Corpus. In: Bański, Piotr/ Kupietz, Marc/ Lüngen, Harald/ Rayson, Paul/ Biber, Hanno/ Breiteneder, Evelyn/ Clematide, Simon/ Mariani, John/ Stevenson, Mark/ Sick, Theresa (Hg.): Proceedings of the Workshop on Challenges in the Management of Large Corpora and Big Data and Natural Language Processing (CMLC-5+BigNLP) 2017, including the papers from the Web-as-Corpus (WAC-XI) guest section. Birmingham, 24 July 2017. Mannheim: Institut für Deutsche Sprache, S.-7-12. Koplenig, Alexander (2015): The impact of lacking metadata for the measurement of cultural and linguistic change using the Google Ngram data sets—Reconstructing the composition of the German corpus in times of WWII. In: Digital Scholarship in the Humanities-32,-1, S.-169-188. Kupietz, Marc/ Schmidt, Thomas (Hg.) (2023): Neue Entwicklungen in der Korpuslandschaft der Germanistik: Beiträge zur IDS-Methodenmesse 2022. (=- Korpuslinguistik und Interdisziplinäre Perspektiven auf Sprache-11). Tübingen: Narr. <?page no="75"?> DeReKo im Kontext deutschsprachiger Gegenwartskorpora 75 Kupietz, Marc/ Diewald, Nils/ Fankhauser, Peter (2018): How to get the computation near the data: improving data accessibility to, and reusability of analysis functions in corpus query platforms. In: Bański, Piotr/ Kupietz, Marc/ Barbaresi, Adrien/ Biber, Hanno/ Breiteneder, Evelyn/ Clematide, Simon/ Witt, Andreas (Hg.): Proceedings of the LREC 2018 workshop “Challenges in the management of large corpora (CMLC-6)”, 7-12 May 2018, Miyazaki, Japan. Paris: European language resources association (ELRA), S.-20-25. Kupietz, Marc/ Diewald, Nils/ Margaretha, Eliza (2020): RKorAPClient: an R package for accessing the German Reference Corpus DeReKo via KorAP. In: Calzolari, Nicoletta/ Béchet, Frédéric/ Blache, Philippe/ Choukri, Khalid/ Cieri, Christopher/ Declerck, Thierry/ Goggi, Sara/ Isahara, Hitoshi/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg.): Proceedings of the 12th international conference on language resources and evaluation (LREC’ 2020), May 2020, Marseille/ Paris. Paris: European Language Resources Association (ELRA), S.-7015-7021. Kupietz, Marc/ Diewald, Nils/ Margaretha, Eliza (2022): Building paths to corpus data: a multilevel least effort and maximum return approach. In: Fišer, Darja/ Witt, Andreas (Hg.): CLARIN. The infrastructure for language resources. (=-Digital Linguistics-1). Berlin/ Boston: De Gruyter, S.-163-189. Kupietz, Marc/ Lüngen, Harald/ Diewald, Nils (2023): Das Gesamtkonzept des Deutschen Referenzkorpus DeReKo: Vom Design bis zur Verwendung und darüber hinaus. In: -Deppermann/ Fandrych/ Kupietz/ Schmidt (Hg.), S.-1-28. Kupietz, Marc/ Witt, Andreas/ Bański, Piotr/ Tufiş, Dan/ Cristea, Dan/ Váradi, Tamás (2017): EuReCo-- Joining forces for a European Reference Corpus as a sustainable base for crosslinguistic research. In: Bański, Piotr/ Kupietz, Marc/ Lüngen, Harald/ Rayson, Paul/ Biber, Hanno/ Breiteneder, Evelyn/ Clematide, Simon/ Mariani, John/ Stevenson, Mark/ Sick, Theresa (Hrg.): Proceedings of the workshop on challenges in the management of large corpora and big data and natural language processing (CMLC-5+BigNLP) 2017 including the papers from the Web-as-Corpus (WAC-XI) guest section, 24 July 2017, Birmingham. Mannheim: Institut für Deutsche Sprache, S.-15-19. Kupietz, Marc/ Diewald, Nils/ Trawiński, Beata/ Cosma, Ruxandra/ Cristea, Dan/ Tufiş, Dan/ Váradi, Tamás/ Wöllstein, Angelika (2020): Recent developments in the European Reference Corpus EuReCo. In: Granger, Sylviane/ Lefer, Marie-Aude (Hg.): Translating and comparing languages: corpus-based insights. (=- Corpora and Language in Use, Proceedings-6). Louvain-la-Neuve: Presses universitaires de Louvain, S.-257-273. Laney, Douglas (2001): 3D data management: controlling data volume, velocity, and variety. In: -Application Delivery Strategies 949. [META Group]. www.bibsonomy.org/ bibtex/ 7428 11cb00b303261f79a98e9b80bf49 (Stand: 5.5.2023). Leibniz-Institut für Deutsche Sprache (2020): Satzung des Leibniz‐Instituts für Deutsche Sprache (IDS). Fassung vom 18.05.2020. www.ids-mannheim.de/ fileadmin/ org/ pdf/ IDS_ Satzung_2020-05-18.pdf (Stand: 5.5.2023). Liu, Jianzheng/ Li, Jie/ Li, Weifeng/ Wu, Jiansheng (2016): Rethinking big data: a review on the data quality and usage issues. In: - ISPRS Journal of Photogrammetry and Remote Sensing-115, S.-134-142. https: / / doi.org/ 10.1016/ j.isprsjprs.2015.11.006. Lüngen, Harald/ Kupietz, Marc (2020): IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache. In: Marx/ Lobin/ Schmidt (Hg.), S.-319-344. <?page no="76"?> Marc Kupietz/ Harald Lüngen/ Andreas Witt 76 Lüngen, Harald/ Sperberg-McQueen, C. Michael (2012): A TEI P5 document grammar for the IDS text model. In: Journal of the Text Encoding Initiative 3/ November 2012. https: / / journals.openedition.org/ jtei/ pdf/ 508 (Stand: 5.5.2023). Lüngen, Harald/ Beißwenger, Michael/ Ehrhardt, Eric/ Herold, Axel/ Storrer, Angelika (2016): Integrating corpora of computer-mediated communication in CLARIN-D: results from the curation project ChatCorpus2CLARIN. In: Dipper, Stefanie/ Neubarth, Friedrich/ Zinsmeister, Heike (Hg.): Proceedings of the 13th conference on natural language processing (KONVENS 2016), September 19-21 2016, Bochum, Germany. (=-Bochumer Linguistische Arbeitsberichte (BLA)-16). Bochum: Ruhr-Universität, S.-156-164. Marx, Konstanze/ Lobin, Henning/ Schmidt, Axel (Hg.) (2020): Deutsch in Sozialen Medien. Interaktiv-- multimodal-- vielfältig. (=-Jahrbuch des Instituts für Deutsche Sprache 2019). Berlin/ Boston: De Gruyter. McEnery, Anthony/ Xiao, Richard (2007): Parallel and comparable corpora: what is happening? In: Anderman, Gunilla/ Rogers, Margaret (Hg): Incorporating corpora: the linguist and the translator. (=-Translating Europe). Clevedon: Multilingual Matters, S.-18-32. Meier-Vieracker, Simon (2020): Die Verdatung des Fußballs: Spuren von Algorithmen in der Fußballberichterstattung. In: Muttersprache- 130,- 4 (Themenschwerpunkt: Fußballsprache), S.-304-318. Meier-Vieracker, Simon (2023): Korpora zur Fußballlinguistik. Eine multilinguale Forschungsressource zur Sprache der Fußballberichterstattung. In: Kupietz/ Schmidt (Hg.), S.-33-42. Nieländer, Maret/ Jurish, Bryan (2021): D* für Anfänger: innen: Ein Tutorial. Einfache und komplexe Suchanfragen, Frequenzanalysen und diachrone Kollokationsanalysen in der D*-Korpusmanagement-Umgebung. urn: nbn: de: 0220-2021-0088. Nolda, Andreas/ Barbaresi, Adrien/ Geyken, Alexander (2023): Korpora für die lexikographische Beschreibung diatopischer Variation in der deutschen Standardsprache. Das ZDL-Regionalkorpus und das Webmonitor-Korpus. In: Deppermann/ Fandrych/ Kupietz/ Schmidt (Hg.), S.-29-52. Schäfer, Roland/ Barbaresi, Adrien/ Bildhauer, Felix (2013): The good, the bad, and the hazy: design decisions in web corpus construction. In: Evert, Stefan/ Stemle, Egon/ Rayson, Paul (Hg.): Proceedings of the 8th Web as Corpus workshop (WAC-8). Stroudsburg: Association for Computational Linguistics (ACL), S.-7-15. Schirrmeister, Lars/ Rummel, Marlene/ Heine, Antje/ Suppus, Nina/ Mendoza Sánchez, Bárbara (2021): Gingko- - ein Korpus der ingenieurwissenschaftlichen Sprache. In: Deutsch als Fremdsprache 4/ 2021, S.-214-224. doi.org/ 10.37307/ j.2198-2430.2021.04.04. Schmidt, Thomas (2018): Gesprächskorpora. In: Kupietz, Marc/ Schmidt, Thomas (Hg.): Korpuslinguistik. (=-Germanistische Sprachwissenschaft um 2020 5). Berlin/ Boston: De Gruyter, S.-209-230. Schmidt, Thomas (2022): Korpora gesprochener Sprache. In: Beißwenger, Michael/ Lemnitzer, Lothar/ Müller-Spitzer, Carolin (Hg.): Forschen in der Linguistik. Eine Methodeneinführung für das Germanistik-Studium. (=-UTB-5711). Paderborn: Brill | Fink, S.-421-430. Storrer, Angelika (2014): Sprachverfall durch internetbasierte Kommunikation? Linguistische Erklärungsansätze- - empirische Befunde. In: Plewnia, Albrecht/ Witt, Andreas (Hg.): Sprachverfall? Dynamik- - Wandel- - Variation. (=- Jahrbuch des Instituts für Deutsche Sprache 2013). Berlin/ Boston: De Gruyter, S.-171−196. <?page no="77"?> DeReKo im Kontext deutschsprachiger Gegenwartskorpora 77 Teich, Elke (2003): Cross-Linguistic Variation in System and Text: A Methodology for the Investigation of Translations and Comparable Texts. Berlin: Mouton de Gruyter. Tufiș, Dan/ Barbu Mititelu, Verginica/ Irimia, Elena/ Dumitrescu, Ștefan D./ Boroș, Tiberiu (2016): The IPR-cleared corpus of contemporary written and spoken Romanian language. In: Calzolari/ Choukri/ Declerck/ Goggi/ Grobelnik/ Maegaard/ Mariani/ Mazo/ Moreno/ Odijk/ Piperidis (Hg.), S.-2516-2521. <?page no="79"?> HENNING LOBIN WAS BIETEN HEUTIGE KORPORA? Über die Herausforderungen der Erfassung besonderer Textsorten bei der Erforschung gegenwärtigen Sprachgebrauchs Abstracts : Der vorliegende Beitrag beschreibt, wie die Verfügbarkeit digitaler Textkorpora den Wandel von einer systemorientierten hin zu einer gebrauchsorientierten Sprachforschung ermöglicht hat. Doch die korpusbasierte Beschreibung des Sprachgebrauchs kann nur so realistisch sein wie die Korpora, mit denen sie arbeitet. Deshalb ist es von großer Bedeutung, auch besondere Textsorten zu berücksichtigen und Herangehensweisen zu entwickeln, das dafür nötige Vertrauen bei den Datenspendern zu erzeugen. Im Zentrum des Beitrags steht deshalb die Diskussion von einigen derartigen Textsorten und den Herausforderungen, die sich mit ihnen in Hinsicht auf den Korpusaufbau verbinden. Der Beitrag endet mit einem Ausblick auf das Forum Deutsche Sprache, das einen solchen Ort des Vertrauens für Spracherhebungen bieten möchte. This paper describes how the availability of digital text corpora has enabled the shift from system-oriented to usage-oriented language research. However, corpus-based description of language use can only be as realistic as the corpora it works with. Therefore, it is of great importance to also take special text types into account and to develop approaches to generate the necessary trust among data donors. The focus of the paper is therefore on a discussion of some such text types and the challenges they pose in terms of corpus construction. The article ends with an outlook on the Forum Deutsche Sprache, which aims to provide such a place of trust for language surveys. Keywords : Korpora, Korpuslinguistik, Textsorten, Social Media, literarische Texte, Sachtexte 1. Einleitung Die Linguistik hat im 20.-Jahrhundert mehrere radikale Umbrüche erlebt. Schon zu Beginn des Jahrhunderts hatte Ferdinand de Saussure einen Wechsel von der bis dahin dominierenden historischen Sprachwissenschaft hin zu einer synchronen Betrachtungsweise von Sprache eingeleitet, was in der Programmatik des Strukturalismus für die nächsten Jahrzehnte eine hochproduktive Entwicklung auslösen sollte. Nach dem Zweiten Weltkrieg konnte Noam Chomsky mit seinen Arbeiten den Blick auf die Grammatik als das propagierte Kerngebiet der Linguistik lenken, indem er in dem Projekt einer Generativen Grammatik formale Methoden aus der frühen Informatik mit einem kognitivistischen Blick auf die menschliche Sprachkompetenz verband. 1 Sowohl der Saussuresche als auch der Chomskysche Umbruch in der Linguistik setzten, auf jeweils unterschiedliche Weise, das Sprachsystem ins Zentrum der wis- 1 Für eine ausführlichere Darstellung dieser historischen Entwicklung vgl. Lobin (2018), besonders Kapitel-3 und 5. DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="80"?> Henning Lobin 80 senschaftlichen Betrachtung- - Saussure als geordnete Struktur sprachlicher Zeichen, Chomsky als mentale Struktur. Der Sprachgebrauch wurde jeweils als etwas Sekundäres verstanden. Dies änderte sich nach und nach erst durch die Verfügbarkeit digitaler Sprachkorpora ab etwa Anfang der 1970er Jahre. Zwar war schon Chomsky von den frühen Arbeiten zur Maschinellen Übersetzung mit ihrer algorithmischen Modellierung sprachverarbeitender Prozesse beeinflusst worden, doch waren in dieser Zeit die Speicherungsprobleme großer Datenmengen noch nicht lösbar. Mit dem Aufbau digitaler Sprachkorpora ging die Entwicklung der Korpuslinguistik einher, ein dritter Umbruch, bei dem erstmals der Sprachgebrauch und nicht das Sprachsystem im Mittelpunkt stand. Nicht die Idealisierung von Sprache in Regelgestalt war der Gegenstand, sondern ihre empirische Erscheinungsweise in realen Kommunikationszusammenhängen. War noch von Chomsky ein Satz in einem Text als eine ephemere Hervorbringung einer grammatischen „Maschine“ betrachtet worden, wurde dieser nun zu einem wissenschaftlichen Objekt, aus dem überhaupt erst grammatische (und andere) Strukturen ableitbar waren. Die so lange im Zentrum der Sprachwissenschaft gesetzte Grammatikforschung trat in der Folge einen Schritt zurück, denn Grammatik wurde zunehmend als eine Beschreibung von Mustern des Sprachgebrauchs verstanden. 2. Korpora und besondere Textsorten Textsammlungen bilden Korpora, und Korpora beschreiben den Sprachgebrauch. Welche Texte sind aber zur Beschreibung des Sprachgebrauchs auszuwählen? Lange wurde diese Frage von der Verfügbarkeit der Texte bestimmt. Tageszeitungen boten und bieten einen aktuellen Ausschnitt des Sprachgebrauchs, thematisch nach Ressorts sortiert und in einheitlicher und gleichbleibender Form verfügbar gemacht. Zeitungstexte bilden den Kernbestand des Deutschen Referenzkorpus DeReKo, das am Leibniz-Institut für Deutsche Sprache bereits seit den 1960er Jahren aufgebaut wird (vgl. Lüngen 2017). Zeitungstexte sind geprägt durch die Professionalität ihrer Schreiberinnen und Schreiber und ihrer Sachorientiertheit. Man kann davon ausgehen, dass viele aktuelle sprachliche Entwicklungen gut in Zeitungskorpora erfasst werden, insofern sie für einen öffentlichen Sprachgebrauch kennzeichnend sind. Zeitungstexte bilden auch in inhaltlicher Hinsicht gut ab, was in einer Sprachgemeinschaft in einem bestimmten Zeitraum von Bedeutung ist, weshalb auch ihre inhaltliche Auswertung Schlussfolgerungen über gesellschaftliche Entwicklungen zu ziehen erlaubt. Einschränkungen unterliegen Zeitungskorpora aber dort, wo es gerade um das nicht-professionelle, nicht auf Tagesaktualität ausgerichtete Schreiben geht: das teilweise und vollständig private Schreiben, das nicht redigierte oder auch das literarische Schreiben, das Schreiben im Beruf, in der Verwaltung, in Recht, Wirtschaft, <?page no="81"?> Was bieten heutige Korpora? 81 Wissenschaft und Schule. Einige dieser Bereiche sind bereits zunehmend in den großen Korpora vertreten, bei anderen gibt es grundsätzlichere Probleme ihrer Erfassung und Speicherung. Sehen wir uns einige dieser „neuen“ Textkategorien genauer an: 2.1 Social-Media-Texte Social-Media-Daten gelten als Inbegriff einer redaktionell nicht überarbeiteten, nicht-professionellen Textsorte, insbesondere dann, wenn die Daten aus Messengerdiensten für die private Nutzung stammen. Texte dieser Arten zeichnen sich durch Spontansprachlichkeit und einen geringen Grad von Orientierung an der Norm aus, ohne dass dies zwangsläufig Rückschlüsse auf die Normbeherrschung zu ziehen erlaubt. Insbesondere der Wegfall und die kreative Nutzung von Interpunktion stellt in solchen Texten den in der Linguistik ohnehin kontrovers diskutierten Satzbegriff auf den Prüfstand stellt und führt auch zu nicht unerheblichen Problemen für die maschinelle Verarbeitung. Social-Media-Daten weisen ein hohes Maß an Interaktionsbezug auf, selbst dann, wenn sie wie etwa auf Twitter zumindest potenziell für eine größere Öffentlichkeit verfasst sind (vgl. Beißwenger/ Lüngen 2022). Problematisch sind Social-Media-Daten aufgrund rechtlicher Rahmenbedingungen: Sie in Korpora zu verwenden, erfordert das Einverständnis der Verfasser/ -innen (vgl. Lüngen/ Kupietz 2020). Dieses wird jedoch nur gegeben, wenn ein hohes Maß an Vertrauen in die Nutzung besteht und diese Nutzung nicht gegen Persönlichkeitsrechte verstößt. Eine solche Voraussetzung kann in einer persönlichen Beziehung geschaffen werden, nicht aber in einem automatisierten Verfahren, das auf die dauerhafte, regelmäßige Herstellung großer Korpora abzielt. Zudem ist gerade bei diesen Daten auch der Interaktionszusammenhang, in dem sie entstanden sind, von größter Bedeutung-- das Problem, das Einverständnis für die Nutzung der Daten zu erhalten, vervielfacht sich also. 2.2 Literarische Texte So naheliegend es zu sein scheint: Ein Korpus aktueller literarischer Texte, das über ein internetbasiertes Zugangssystem genutzt werden kann, existiert bislang nicht. 2 Dies hat verschiedene Gründe: Literarische Werke unterliegen einer scharfen Nutzungskontrolle, da Verlage und Autoren/ -innen anders als bei Zeitungstexten längerfristig Umsätze mit diesen Texten generieren können und wollen. Sie sind somit ein kulturelles Handelsgut, eine Verwendung in Korpora widerspricht ihrer Natur also in einem grundsätzlichen Sinne. Anders, als es auch bei wissenschaftlichen Tex- 2 Eine Ausnahme bildet das Songkorpus von Roman Schneider, siehe https: / / songkorpus.de (Stand: 14.4.2023). <?page no="82"?> Henning Lobin 82 ten der Fall ist, geht es literarischen Autorinnen und Autoren nicht darum, überhaupt ein Publikum für ihre Texte zu gewinnen, sondern ein zahlendes. Lizenzierungsfragen für ein wissenschaftliches Korpus zeitgenössischer literarischer Texte stellen also ein zentrales Problem dar. Literarische Texte handeln nicht von den gleichen Gegenständen, wie sie in Zeitungs- oder Zeitschriftentexten vorkommen. Sie sind nicht tagesaktuell, behandeln die unterschiedlichsten Themen und sind dabei oftmals auf einen alltagsweltlichen Bereich bezogen, subjektiv und dialogisch. Literarische Korpora repräsentieren dadurch einen ganz anderen Ausschnitt sprachlichen Handelns, der sie prädestiniert dafür sein lässt, die Sprachverwendung in einem lebensweltlichen Umfeld abzubilden. Fiktionale Dialoge gründen auf realen Kommunikationserfahrungen der Autorinnen und Autoren. Literarische Texte zeichnen sich zudem, zumindest tendenziell, dadurch aus, auf floskelhafte Formulierungen zu verzichten und Wahrnehmungen und Sachverhalte auf eine besonders präzise Weise sprachlich zu erfassen. 2.3 Sachtexte In der Kategorie Sachtexte können eine ganze Reihe unterschiedlicher Textsorten und -genres zusammengefasst werden. Beim „klassischen“ Sachtext handelt es sich um einen nicht-fiktionalen, gegenstandsorientierten Text, der keiner Tagesaktualität unterliegt, aber doch einen Wissens- oder Erkenntnisstand zu einem bestimmten Zeitpunkt wiedergibt. Derartige Texte sind etwa Sachbücher oder Artikel in Fachmagazinen. Auch enzyklopädische Texte können dieser Textkategorie zugeordnet werden, allen voran die Online-Enzyklopädie Wikipedia (vgl. Gredel/ Herzberg/ Storrer 2018). Damit bilden Sachtextkorpora eine sehr wichtige Quelle für sachbezogene sprachliche Darstellungen und die Nutzung von Vokabularien und sprachlichen Konstruktionen, die sowohl auf Verständlichkeit als auch auf eine differenzierte Argumentation oder Erörterung angelegt sind. Die Erfassung derartiger Texte ist im Bereich von Sachbüchern mit den gleichen Problemen konfrontiert wie bei literarischen Texten. Die lizenzrechtliche Erfassung von Magazintexten und erst recht von unter einer weitreichenden Open-Access-Lizenz publizierten Wikipedia-Artikel ist hingegen weitaus einfach zu erreichen. Als eine interessante Untergruppe von Sachtexten, die in Korpora bislang nur in einem geringeren Ausmaß vertreten sind, können fachsprachliche Texte verstanden werden. Diese wenden sich nicht an ein allgemeines Lesepublikum, sondern für einen Gebrauch vorwiegend in Anwendungszusammenhängen. Technische Dokumentationen, Betriebsanleitungen, Handbücher oder Richtlinien gehören dazu ebenso wie Texte aus dem Verwaltungs- und dem rechtlichen Bereich. Da es sich bei solchen Inhalten oftmals um Texte handelt, die nicht für die Außenkommunikation vorgesehen sind, sondern für einen internen Gebrauch, ist ihre Zugänglichkeit auch eingeschränkt. Besonders deutlich ist dies etwa bei Vertragstexten, die sich bislang <?page no="83"?> Was bieten heutige Korpora? 83 so gut wie nie in Korpora wiederfinden. Verwaltungstexte, die sich an alle Bürgerinnen und Bürger richten, stellen eine interessante Ausnahme dar und werden deshalb bereits in einem höheren Maße in Korpora berücksichtigt. Es ist evident, dass Texte dieser Art eine besonders interessante Quelle für die „sprachliche Wirklichkeit“ darstellen, da in ihnen etablierte Konventionen zur Textgestaltung auf aktuellere Entwicklungstendenzen treffen, die wie etwa die Verwendung gendergerechter Sprache noch keinen festen Konventionen unterliegen. 2.4 Weitere besondere Textarten Neben den vier zuvor dargestellten Kategorien von Texten, die in Korpora berücksichtigt werden müssen, gibt es weitere Arten von Texten, die Auskunft über den Sprachgebrauch geben. Ich möchte hier beispielhaft nur auf zwei Gruppen eingehen. Es handelt sich zum einen um Texte „besonderer“ Schreibender. Hierzu gehören Sprachlernende, deren Texte eine wichtige Erkenntnisquelle bezüglich der Wirksamkeit fremdsprachendidaktischer Konzepte darstellen. Eine weitere Gruppe bilden Texte von Menschen in unterschiedlichen Lebensaltern. Die textuellen Produktionen von Kindern gehören ebenso in dieser Gruppe wie die von älteren Menschen oder auch von Kindern und Jugendlichen, die sich auf einer bestimmten Bildungsstufe befinden. Je nach Gruppenzugehörigkeit lassen sich Schlussfolgerungen über Wortschatz und Grammatik ziehen. Von besonderem, sehr konkretem Interesse sind dabei auch Erkenntnisse zur Normeinhaltung und -abweichung im Bereich von Rechtschreibung und Zeichensetzung, dem einzigen offiziell normierten Bereich der deutschen Sprache. Inwieweit diese Norm und Änderungen, die in ihr vorgenommen werden, sich im Schreibverhalten niederschlägt, ist ein wichtiger Indikator für die Akzeptanz solcher Änderungen im konkreten Schreibverhalten in der Sprachgemeinschaft. Einen zweiten exemplarischen Bereich stellt die schriftliche Alltagskommunikation dar. Damit sind Notizen, Zettel, digitale Vermerke aller Art gemeint, die sich bislang weitgehend unterhalb der Wahrnehmungsschwelle der Korpuslinguistik bewegen. Wie interessant derartige Materialien sein können in der sprachlichen Beschreibung der Lebenswelt zu einem bestimmten Zeitpunkt, zeigen die im Deutschen Literaturarchiv in Marbach gesammelten Vor- und Nachlässe, in denen oftmals derartige Texte in großer Zahl enthalten sind. Einen Sonderfall, auch hinsichtlich ihrer Bedeutung, bilden dabei Tagebücher, die eine umfassende sprachliche Selbstverortung einer Person umfassen. Besonders eindrucksvoll hat Walter Kempowski die Ergiebigkeit von Tagebüchern als Quelle einer Zeitschilderung in seinem „Echolot“-Projekt demonstriert, in dem anhand von Tagebüchern hunderter unterschiedlicher Menschen neben den Einstellungen und Wahrnehmungen auch der private Sprachgebrauch in Deutschland in der Zeit des Nationalsozialismus dokumentiert ist. <?page no="84"?> Henning Lobin 84 3. Korpuserhebung Besondere Textsorten, wie sie im vorangegangenen Abschnitt vorgestellt wurden, führen auch zu besonderen Herausforderungen, will man sie in wissenschaftlich nutzbaren Korpora abbilden. Fast alle genannten Textsorten weisen einen persönlichen oder vertraulichen Charakter auf: Social-Media-Texte sind oft nur an Gruppen oder bestimmte einzelne Personen gerichtet; viele Sachtexte aus dem inneren Verwaltungsbereich von Behörden oder Firmen dürfen gar nicht allgemein zugänglich gemacht werden, was ganz besonders etwa auf Vertragstexte zutrifft. Auch Alltagstexte verschiedener Altersstufen und Texte von Sprachlernenden gehören zum persönlichen Bereich eines Menschen und dürfen ohne dessen ausdrückliche Zustimmung nicht, auch nicht für wissenschaftliche Zwecke, verwendet werden. Lediglich bei literarischen Texten besteht eine etwas andere Situation. Ein Korpus zeitgenössischer literarischer Texte bedarf individueller Vereinbarungen mit Verlagen über die Nutzung dieser Texte, sofern sie zuvor als Verlagspublikation auf den Buchmarkt gekommen waren. Von besonderer Bedeutung ist es dabei, Sicherungen gegen den Download größerer Texteinheiten vorzusehen, was auch schon bei Zeitungs- und Zeitschriftenkorpora bisher eine wichtige Anforderung darstellte. Trotzdem sind Literaturverlage weiterhin sehr zurückhaltend darin, Kooperation etwa mit dem IDS zum Aufbau eines Referenzkorpus für zeitgenössische deutschsprachige Literatur einzugehen. Die übrigen Textsorten benötigen ein besonderes Vertrauensverhältnis zwischen den Datengebern und der aufnehmenden Institution. Das Leibniz-Institut für Deutsche Sprache (IDS) genießt in der wissenschaftlichen Gemeinschaft dieses Vertrauen, was durch die vielen Einzelkorpora belegt werden kann, die ihm für die Integration in das Deutsche Referenzkorpus DeReKo zur Verfügung gestellt werden. 3 Jedoch kann dieses Vertrauen nicht ohne Weiteres übertragen werden auf das Verhältnis zu den einzelnen Mitgliedern der Sprachgemeinschaft, deren Texte für die Aufnahme in Gegenwartskorpora von Interesse wären, etwa in Gestalt von Tagebüchern, Briefen oder anderen Arten von Alltagstexten. Auch hier spielt Vertrauen eine große Rolle, und dieses Vertrauen muss in einer persönlichen Beziehung hergestellt werden. Aus diesem Grund wird am IDS gegenwärtig eine Einrichtung aufgebaut, in der die Übergabe und Erhebung von Sprachdaten kombiniert wird mit einem Ausstellungs-, Erlebnis- und Informationsangebot: das Forum Deutsche Sprache. 4 Im Forum Deutsche Sprache soll in einem eigens dafür errichteten Neubau am Neckarufer in Mannheim eine attraktive Ausstellung zur deutschen Sprache angeboten werden, deren Exponate auf korpuslinguistischen Sprachanalysen basieren. Auch diesen Analysen zugrundeliegende Methoden und 3 Vgl. www.ids-mannheim.de/ digspra/ kl/ projekte/ korpora/ textgeber/ (Stand: 14.4.2023). 4 Siehe www.forumdeutschesprache.de (Stand: 14.4.2023). <?page no="85"?> Was bieten heutige Korpora? 85 Forschungsinstrumente, die Sprachkorpora, sollen in einer Weise dargestellt werden, die die Besucherinnen und Besucher des Forums zur Mitwirkung animiert und die Bereitschaft entstehen lässt, selbst mit persönlichen Sprachdaten an der Erforschung von Sprache mitzuwirken. Damit soll sich das Forum Deutsche Sprache als ein Ort des Vertrauens etablieren, an dem Sprachdaten nach solchen Kriterien erhoben werden, dass hier auch persönliche und vertrauliche Texte der Forschung zur Verfügung gestellt werden. 4. Schlussbemerkung Sprachsammlungen bieten die Möglichkeit, ein realistisches Bild von der Sprachverwendung in einer Gemeinschaft zu zeichnen. Das Instrument dafür sind linguistische Korpora, die auch weniger leicht erhältliche Textsorten umfassen sollten. Der vorliegende Beitrag beschreibt die systematischen Lücken, die dabei noch bestehen, und zeigt auf, wie diese mit einer auf die bürgerwissenschaftliche Beteiligung ausgerichtete Einrichtung wie dem Forum Deutsche Sprache in Mannheim gefüllt werden können. Es ist zu hoffen, dass in den nächsten Jahren und Jahrzehnten immer größere Bereiche der Sprachverwendung einer Sprachgemeinschaft in einer wissenschaftlich zugänglichen Art und Weise ausgeleuchtet werden. Literatur Beißwenger, Michael/ Lüngen, Harald (2022): Korpora internetbasierter Kommunikation. In: Beißwenger, Michael/ Lemnitzer, Lothar/ Müller-Spitzer, Carolin (Hg.): Forschen in der Linguistik. Eine Methodeneinführung für das Germanistik-Studium. (=-UTB-5711). Paderborn: Brill | Fink, S.-431-448. Gredel, Eva/ Herzberg, Laura/ Storrer Angelika (2018): Linguistische Wikipedistik. In: Zeitschrift für Germanistische Linguistik (ZGL)-46, 3, S.-480-493. Lobin, Henning (2018): Digital und vernetzt. Das neue Bild der Sprache. Stuttgart: Metzler. Lüngen, Harald (2017): DeReKo- - Das Deutsche Referenzkorpus. Schriftkorpora der deutschen Gegenwartssprache am Institut für Deutsche Sprache in Mannheim. In: Zeitschrift für Germanistische Linguistik (ZGL)-45,-1, S.-161-170. Lüngen, Harald/ Kupietz, Marc (2020): IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache. In: Marx, Konstanze/ Lobin, Henning/ Schmidt, Axel (Hg.): Deutsch in sozialen Medien: Interaktiv-- multimodal-- vielfältig. (=-Jahrbuch des Instituts für Deutsche Sprache 2019). Berlin/ Boston: De Gruyter, S.-319-342. <?page no="87"?> ALEKSANDRA PUSHKINA/ ERHARD HINRICHS THE IVK-LER CORPUS OF ADOLESCENT FOREIGN- LANGUAGE LEARNERS OF GERMAN Abstracts: This paper presents the IVK-Ler corpus, a longitudinal, annotated learner corpus of weekly writings produced by a group of 18 adolescents in a preparatory class. The corpus consists of 117 student texts collected between 2020 and 2021 and has a structure layered by student and text number. It includes metadata that enables researchers to analyze and track individual student progress in terms of syntactic competence and literacy. The annotation schema, manual and automatic annotation processes, and corpus representation are described in detail. The corpus currently includes target hypotheses and gold standard part-of-speech tags. Future work could include additional annotation layers for topological fields and dependency relations, as well as semantic and discourse annotations to make the corpus usable for tasks beyond syntactic evaluations. Dieser Artikel präsentiert das IVK-Ler Korpus, ein longitudinal annotiertes Lernkorpus von wöchentlichen Aufsätzen, produziert von einer Gruppe von 18-Jugendlichen in einer Vorbereitungsklasse. Das Korpus besteht aus 117 Schülertexten, die zwischen 2020 und 2021 gesammelt wurden und hat eine Struktur, die nach Schüler und Textnummer geordnet ist. Es enthält Metadaten, die Forscher ermöglichen, den individuellen Fortschritt der Schüler hinsichtlich syntaktischer Kompetenz und Literacy zu analysieren und zu verfolgen. Das Annotation-Schema, die manuellen und automatischen Annotation-Prozesse sowie die Korpus-Darstellung werden detailliert beschrieben. Das Korpus enthält derzeit Zielhypothesen und Goldstandard-POS-Tags. Zukünftige Erweiterungen könnten zusätzliche Annotation-Schichten für topologische Felder und Abhängigkeitsbeziehungen sowie semantische und Diskurs-Annotationen beinhalten, um das Korpus für Aufgaben jenseits syntaktischer Bewertungen nutzbar zu machen. Keywords: IVK-Ler corpus of German, learner corpus of adolescents, longitudinal study, syntactic competence, annotation schema, metadata analysis 1. Introduction Linguistic corpora have been used for a variety of purposes. One of these applications is research in language acquisition, dating back to Preyer (1889), Stern (1924), Stern/ Stern (1928), Leopold (1939-1949). According to Diessel (2009), the first systematic longitudinal studies started appearing in the 1960s. Gass/ Mackey/ Pica (1998, pp.- 299 f.) suggest that already by the time the second language acquisition field developed in the 1960s and 1970s, authentic data representing learners’ interlanguage 1 were in use. Since then, corpora have become an important resource for empirical recording and description of L1 and L2 learner language. Of equal importance is the role of digital corpora for the purposes of foreign language teaching. 1 According to Larry Selinker (1972), interlingual refers to a linguistic system which occurs when a learner of a second language, while retaining some features of his first language, tries to express meaning in the target language. DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="88"?> Aleksandra Pushkina/ Erhard Hinrichs 88 The present contribution will focus on resources that document L2 learner language. More specifically, an international preparatory class learner corpus (N-=-117 texts), in short IVK-Ler, will be presented. 2 IVK-Ler is a longitudinal, annotated L2 learner corpus of weekly writings produced between February 2020 and July 2021 by a group of adolescents (N-=-18) in a classroom setting. 3 We will use the term “learner corpora” to refer to language data produced by L2 learners, that is, by second or foreign-language learners. Thus, we adopt the distinction between learners who acquire a second language in addition to their native language without formal instruction and learners who learn a foreign language by formal instruction in a classroom setting. Corpus linguistics began to deal with such corpora in the late 1980s, thus building a bridge between corpus linguistics and foreign and second language acquisition research (Granger 2002). However, the idea of collecting and studying authentic language material from foreign language learners arose earlier. For example, collections of foreign language learner data were compiled especially in the 1960s and 1970s in order to examine them, particularly for errors (Gass/ Mackey/ Pica 1998). But then, compared to learner corpora, these collections were considered only as a source of information about errors, while the collection of the texts themselves was disregarded after the errors were extracted from them (Nesselhauf 2004, p.- 128). Moreover, these data collections were relatively small because the compilation and study of language data was labor-intensive and time-consuming before the development of specialized preprocessing software (Granger 2002). A prototypical learner corpus contains texts which ideally have been produced in the context of free production tasks (Granger 2008). Historically, English learner corpora have been collected for different purposes (see, inter alia, Preyer 1889; Stern 1924; Fries/ Traver 1940; Lorge 1949; Fries 1952). Corpora dealing with languages other than English are rare and usually small (Nesselhauf 2004, p.-129). The Learner corpora around the world 4 website, which was created in 2019 and is a work in progress, currently lists 199 learner corpora, of which 113 have English as target language. In contrast, there exist far fewer resources for other languages, e. g., only 19 2 IVK is an acronym for “Internationale Vorbereitungsklasse” or in English international preparatory class. Preparatory classes are classes for children and young people without any knowledge of German, who are to be prepared for the transition to a regular class through intensive German lessons. 3 This article defines a longitudinal corpus as a collection of linguistic data obtained from a single group of individuals over a prolonged duration. This type of corpus facilitates the examination of language use and variation over time, in addition to exploring the interplay between language and various factors such as age, social context, and cognitive development. 4 Centre for English Corpus Linguistics: Learner Corpora around the World. Louvain-la-Neuve: Université catholique de Louvain. https: / / uclouvain.be/ en/ research-institutes/ ilc/ cecl/ learner-corporaaround-the-world.html (Stand: 25.4.2023). See also Carolina Flinz et al. (in this volume). <?page no="89"?> The IVK-Ler Corpus of Adolescent Foreign-Language Learners of German 89 learner corpora that have German as their target language in the previously mentioned list. 2. Overview of Learner corpora for German as a foreign and second language Lüdeling et al. (2021) state that the number and quality of written and spoken German learner corpora is steadily growing. According to the overview in Laarmann-Quante et al. (2019) there are currently several corpora available for the German language investigating language development in primary school children (Abel et al. 2014; Berkling 2016, 2018; Laarmann-Quante et al. 2016, 2017, 2019; Thelen 1999, 2010). These corpora investigate changes in the language system of children who are exposed to written language and literary texts in a second language. The learner corpus Fehlerannotiertes Lernerkorpus-- Falko-- is among the most influential German as a Foreign Language corpora and has been used in many NLP analyses. It has been under development since 2004 in cooperation between the Department of German as a Foreign Language at the Free University of Berlin and the Corpus Linguistics Department at the Humboldt University of Berlin, as well as with the participation of Georgetown University, Washington DC. It includes written texts of advanced learners of German and the texts of native German speakers (Schmidt 2011, p.-562). The texts are argumentative essays on one of four given topics selected from the total set of essay topics (crime, pay, youth, and study) used in the International Corpus of Learner English (ICLE) (Granger 1993). The learner texts come from non-native speakers, partly collected at summer language courses at the Free University of Berlin and the Humboldt University of Berlin, and some at foreign universities and Goethe Institute branches. Corpus data from falkoEssayL1v2.3, falkoEssayL2v2.4, FalkoGeorgetownL2v1, FalkoSummaryL1v1, FalkoSummaryL2v1.2 include 598 learner texts by native speakers of English, Polish, Russian, French. In total, the corpus comprises around 355,000 tokens 5 . The learner corpus Kobalt-DaF by Zinsmeister et al. (2012) basically follows the same structure. The crucial difference is that the learner cohorts in Kobalt-DaF are organized homogeneously: the corpus contains texts of Chinese, Swedish and Belarusian learners of German in comparable proportions, as well as an L1 comparison corpus. The Kobalt data were originally collected with the aim of creating a homogeneous group of learners, which is why only learners with onDaF 6 score between 115 and 129 points were included. Beyond this, however, additional data above and 5 All metadata information about FALKO Corpus family here and below was extracted from https: / / korpling.german.hu-berlin.de/ falko-suche/ #_c=a29iYWx0TDF2MS40 (Stand: 25.4.2023). 6 onDaF is the online placement test of German as a foreign language. For more information: https: / / shop.deutsch-uni.com/ gast/ ondaf/ info/ teilnehmer-faq.jsp (Stand: 25.4.2023). <?page no="90"?> Aleksandra Pushkina/ Erhard Hinrichs 90 below this limit were collected. Thus, a total of 51 (kobaltL2v1.4) texts from learners are available, as well as additional 20 L1 comparison texts (kobaltL1v1.4). In total, the corpus comprises around 46,000 tokens. 7 WHiG (What’s Hard in German? ) is a German-English research project on the analysis of learner language German with an English L1 background that ended in 2012. The WHiG corpus can thus be understood as a supplement to Falko with a homogeneous L1 background. The goal of this project was to locate and investigate those linguistic structures in German that pose particular difficulties in the acquisition of-German as a foreign language. Such difficulties are usually identified by examining errors (Borin/ Prütz 2004; Axelsson/ Hahn 2001). Like Falko, the WHiG corpus contains 196 argumentative essays of advanced DaF 8 learners (on the same topics as the Falko corpus), but here with a linguistically homogeneous L1 background (English). Kansas Developmental Learner Corpus (KanDeL) is a freely available learner corpus on DaF. It was collected by Nina Vyatkina at the University of Kansas, USA and contains, in contrast to the Falko corpus, written data from beginning learners of German who participated in a language program on German as a Foreign Language (collection period: 2008-2011); moreover, these data have been processed longitudinally. The essay database includes metadata for 688 texts, totaling over 121.878 tokens 9 . The Annotated Learner Language Corpus (ALeSKo) is a cooperation of Margit Breckle and Heike Zinsmeister for the analysis of learner language that has been under construction since 2009. The project developed a small learner corpus composed of sub-corpora with L2 texts of Chinese learners of German in the course of study German as a Business Language and Tourism Management at the University of Applied Sciences Konstanz (CEFR-level: approx. B2) and L1 texts of German native speakers as well as metadata and detailed annotation guidelines. The goal of the corpus was to investigate coherence in learner texts. The corpus texts were annotated at syntactic, referential, and discourse levels. According to Zinsmeister/ Breckle (2010), it contains 43 L2 texts with approx. 13.500 tokens and 39 L1 FALKO Essays with 34.155 tokens. Apart from L2 text corpora, several learner corpora of spoken German have been collected. The Hamburg Center for Speech Corpora hosts multilingual language acquisition, language erosion and sociolinguistic corpora of various designs and language combinations, especially from the holdings of the SFB 538 Multilingualism. Its-digital repository serves the archiving, maintenance, distribution and indexing of 7 Information retrieved in February 2023 from ANNIS page, available at the URL given in footnote-5. 8 DaF stands in German for Deutsch als Fremdsprache which translates as German as a foreign language. 9 Information retrieved from ANNIS page in February 2023. <?page no="91"?> The IVK-Ler Corpus of Adolescent Foreign-Language Learners of German 91 linguistic resources, with a focus on speech corpora. The Hamburg Maptask Corpus or HAMATAC was created between 2009 and 2010. 24- German language learners of- varying proficiency levels participated in the Map Tasks. The native languages of- the speakers varied widely, from Romance languages to Slavic and Iranian languages as well as non-Indo-European languages. A German L1 speaker was used for the- 25th recording, which served as a reference recording. For each speaker, a short interview on language acquisition biography was also conducted. Additional L2 speech corpora in the Repository of the Hamburg Center for Speech Corpora include the Hamburg Modern Times Corpus (HaMoTiC) and the Commented Learner Corpus Academic Writing (KoLas). The Archive for Spoken German at the Leibniz Institute for the German Language (IDS) and the Language Archive (TLA) of the Max Planck Institute for Psycholinguistics in Nijmegen both contain important L2 speech corpora. The IDS resources include the corpus Gesprochene Wissenschaftssprache Kontrastiv (GeWiss) 10 and Mehrsprachige Kinder im Vorschulalter (MEKI) corpus. The TLA archive makes available the Second Language Acquisition of Adult Immigrants, a speech corpus of longitudinal data collected in the 1980s from learners with six source languages (Punjabi, Italian, Turkish, Arabic, Spanish, Finnish) and five different target languages (English, German, Dutch, French, Swedish) (Perdue/ Klein 1992; Klein/ Perdue 1997). Additional speech corpora in the TLA include The Augsburg DaZ, the Dimroth corpus, Barbsch-L2 data, DaZ-AF, Finiteness and Scope, Julka corpus, and P-MoLL. In summary, it can be stated that although digitalized, annotated learner corpora with German as its target language do not have a long tradition and can be regarded as a relatively recent development, there are already enough various corpora in the field of German as a second language with data from both adult speakers and children. These corpora are accessible for analysis purposes via different repositories and archives. However, a big number of learner corpora are still generally not publicly accessible. From the corpora presented in this section it can be concluded that most of them either concentrate on data of primary school children (almost all L1 Corpora) or on data from adults. We are currently not aware of the availability of a corpus for German in the L2 context for adolescents learning German in school. The IVK-Ler corpus aims to fill this gap. The corpus is designed to enable studies of the acquisition of the German language and accompanying writing skills by L2 learners at middle and high school ages. It was set up to identify and demonstrate difficulties but also chances of student language learning at different levels, and thus to ensure quicker and more effective progress in the L2 acquisition process. 10 In the core version of the GeWiss corpus, it includes German-language recordings of L2 speakers in British and Polish academic contexts, as well as Polishand English-language L1 data collected in the same context (Tschirner et al. 2009). <?page no="92"?> Aleksandra Pushkina/ Erhard Hinrichs 92 3. The IVK-Ler Corpus This section describes data collection, transcription process and annotation methods applied. The preparation of the handwritten texts required a number of processing steps, which are described in detail in section- 3.1. According to Granger (2002), certain design criteria should be considered when creating learner corpora, so that the data can be used for analysis purposes: the source languages, the task type, the genre (or more generally the type of text), the learner context (controlled vs. uncontrolled) and the language level. Such metadata were also collected for this corpus and are presented in section- 3.2. Corpora that have been annotated with linguistic data offer a particularly valuable source for research on language acquisition and let users identify and quantify learner language characteristics. For this reason, a target hypothesis, i. e. a grammatically correct conterpart of an incorrect learner utterance, was added to the corpus. According to Reznicek/ Lüdeling/ Hirschmann (2013), the same utterance can have a variety of target hypotheses. The-linguistic level and the study’s objectives may both affect the target hypothesis. For instance, a target hypothesis in Laarmann-Quante et al. (2017) specifies that only orthographic errors should be corrected in order to distinguish them from errors in grammar or semantics. Other learner corpora such as the International Corpus of Learner English (Version- 2) by Granger et al. (eds.) (2009) offer a partial target hypothesis for the error annotated tokens. The corpus presented in this paper includes target hypotheses corrected for morphosyntax, orthography and grammar mistakes. According to Lüdeling/ Hirschmann (2015) and Reznicek/ Lüdeling/ Hirschmann (2013), it is crucial to make clear the annotators’ assumption or interpretation of what the learner intended to write. This can be achieved by stating a target hypothesis for each error. It is essential to create a manual outlining all guidelines and controversial use cases prior to annotation, in order to prevent competing target hypotheses annotations. Self-developed and extensively piloted guidelines for target hypothesis are presented in section-3.3. After transcription, automatic annotations for part of speech (POS), lemmas, and sentence spans were added to the transcripts, and these were partially manually and partially automatically corrected. The tools that were used for the automatic annotation are presented in section-3.4. 3.1 Data selection and preparation All data was collected in an IVK class, an international preparation class of a community school 11 (common school for all levels) in the federal state of Baden-Württemberg. International preparatory classes are classes for students from abroad who 11 In German Gemeinschaftsschule. <?page no="93"?> The IVK-Ler Corpus of Adolescent Foreign-Language Learners of German 93 are attending school in Germany for the first time and whose German language skills are not sufficient to attend regular classes. The purpose of the IVK is to prepare students from other cultures and nationalities with little or no language skills for a transition to a regular class appropriate to their age and to facilitate intensive learning of the German language. Some students join the class at the beginning of a school year, while others join later in the year. The learning level of the students varies greatly. While some already possess basic language knowledge, others start learning German from scratch. Teaching materials range from A0 (literacy with primary school books) through levels A1 to A2 were used. Essays from a total of 18 children, aged 11 to 17 and coming from 5 different countries, were collected from February 2020 to July 2021. The setting was adopted from a study by Frieg (2014). It was chosen from a methodological point of view: Using similar material and the same procedure to collect texts ensured that, during testing, children faced the same task, the same instructions and a collection of comic stories of the same difficulty. All stories consisted of six pictures and depicted the same main characters. This procedure minimizes possible confusion and ensures consistent results. The texts were based on short picture stories from Schroff (2000), featuring a girl, Lea, a boy, Lars, and a dog, Dodo. An additional step was added to the text collection procedure where the students were given a list of unfamiliar words related to the objects depicted in the pictures. After a ten-minute oral discussion of the stories, moderated by the teacher, the students were required to translate the words from the provided list into their native language. The translation was given either following an explanation by the teacher, or the object was simply demonstrated in the picture. In every writing session the names “Lea”, “Lars” and “Dodo” were written on the blackboard as in Frieg (2014). Then, the children had 20 minutes to write a story about what happened in the sequence of pictures. The first part of the experiment was carried out during February and early March 2020, but was forced to stop due to the COVID-19 pandemic. The second part of the experiment began at the end of November 2020 and was also forced to stop prematurely due to a strict lockdown. The third part of the experiment started at the end of May 2021 and continued till the end of the school year, July 2021. Thus, the collection of texts is not completely balanced, since not all children were present at every writing session, and most of them left the class after the school year 2019/ 20 for further education in regular classes. Over the course of 12 collection times, the class was given a series of distinct picture stories from Schroff (2000) and asked to provide their own interpretation of the depicted actions in writing. From this collection of stories, one in particular was designated as the target story. It was written three times by each student, namely at the 2nd, 7th and 12th collection time, in order to check language progress. <?page no="94"?> Aleksandra Pushkina/ Erhard Hinrichs 94 3.2 Metadata The corpus consists of 116 documents with a total 929 sentences and 9,404 tokens. Table-1 presents the corpus statistics in more depth. µ(±SD) M Min Max Word Level 81.06 (±35.66) 72.5 19 222 Sentence Level  8 (±4.45)  7  1  21 Table-1: --Story length in words and sentences in IVK-Ler (µ±SD-= mean-± standard deviation; M-= median; Min-= minimal; Max-= maximal) Metadata for each text was collected in a database, in addition to the texts written by the students and their grammatically correct version. Metadata (see Tab.- 2) includes: information about the circumstances under which the texts were gathered (school type and place of writing); information on the student’s background such as age, gender, home languages (L1), when they arrived in Germany and so on; language level (before each writing period, students took the DaZ placement test by Klett-Verlag). ID L1 L2 Date Age f/ m Class Lang. level W1  1 it en 01.20 07.06 F IVK A 1.1 no  2 it en 01.20 12.08 F IVK A 1.1 no  3 ar de 06.18 10.05 F IVK A 1.2 yes  4 gr de 09.19 10.07 M IVK A 1.2 yes  5 ar en 11.18 03.05 M IVK A 1.2 yes  8 per de 01.19 02.07 M IVK A 1.2 yes 10 bul en 09.19 09.04 F IVK A 1.2 yes 13 mk en 12.19 07.08 M IVK A 1.2 yes Table-2: --Corpus metadata: author ID, native language (ar=arabic, bul=bulgarian, gr=greek, it=italian, mk=macedonian, per=persish), learned language (de=german, eng= english), date of arrival in Germany, birth month and year, gender, class (first phase), language level (first phase), language level and week (yes=the student wrote the text, no=the student did not write the text) Metadata searches can retrieve students who wrote each story; students filtered by gender and language for each story; where each story was written; and the type of class. It enables search for contextual relationships between language proficiency and error types, as well as individual factors such as the situation in which the survey was conducted or the student’s personal experience (e. g., age, migratory background, bilingualism). <?page no="95"?> The IVK-Ler Corpus of Adolescent Foreign-Language Learners of German 95 The corpus is unbalanced: 1)-The number of stories by each collecting period is not equal, with the maximum number of writers in story-2 (N-=-17) and the minimum in story- 5 (N- =- 5); 2)- A significant percentage of students have Arabic as their first language; 3)- There are more female than male students: at collection time- 5, the authors of the stories were all female. 3.3 Transcription The hand-written L2 learner texts were digitized and transcribed manually. Handwritten peculiarities were also manually annotated, as was the anonymization of personal information, which was subsequently also redacted in the original handwritten texts. Each student story was digitized by creating one file that contains the original sentences, including all errors (ORIG), followed by the target text, which is the correct text that the student intended to write (ZIELHYP) with all types of mistakes removed. As stated by Laarmann-Quante et al. (2019), it is extremely important that the transcriptions reflect as accurately as possible what the children have written. That is why the corpus includes not only general linguistic annotation layers, but also annotations specific to learner corpora, namely target hypotheses. As mentioned above, the target hypothesis contains a corrected version of the original text that attempts to reflect what the learner had intended to write and serves as the anchor for all further annotations. Therefore, a set of target hypothesis transcription guidelines was created in order to maximize inter-annotator agreement. Sentence (1) demonstrates formulating the target hypothesis as closely as possible to the original text. (1) ORIG: Lea etwas realisieren and etwas vergessen. Lea something realize and something forget. ZIELHYP: Lea realisiert etwas und vergisst etwas. Lea realizes something and forgets something. Although the sentences sound odd in standard German, they were only changed to the extent that they were grammatically correct. In sentence (1) the sentence should have been constructed as follows: Lea realisiert, dass sie etwas vergessen hat, but in order not to turn a simple sentence into a complex one, it was decided only to change the position and conjugation of the verb. The next rule was that the syntactic structure was only changed if necessary to produce a grammatically correct sentence. (2) ORIG: Dodo bleibt über das eis. Dodo remains over the ice cream. ZIELHYP: Dodo bleibt über das Eis gebeugt. Dodo remains over the ice cream bent. Dodo remains bent over the ice cream. <?page no="96"?> Aleksandra Pushkina/ Erhard Hinrichs 96 (3) ORIG: Dodo bleibt eis essen. Dodo remains ice cream eat. ZIELHYP: Dodo bleibt, um das Eis zu essen. Dodo stays, to the ice cream to eat. Dodo stays to eat the ice cream. Sentence (2) contains only the copula bleiben, which according to Krämer (2004) can be described informally as maintaining the state indicated in the predicative in which the subject-referent finds itself. In other words, the copula scopus must also include a predicate that carries the semantic meaning of the sentence. Since the predicate was missing in the original sentence, the only hint that was left by the student is the preposition über. Referring to the picture, and in order to create a semantically and grammatically correct sentence, the annotation choice fell on the participle gebeugt. Sentence (3) also contains copula bleiben and the predicate is in its place, namely Eis essen, but the sentence is still ungrammatical. Krämer (2004) and Steinitz (2000) explain this by saying that the inference of a change is always linked to contexts in which very specific conditions must be met: on the one hand, the predicative must be realized by the infinitive of a positional verb. On the other hand, a preceding movement of the subject-referential must have the same pose specification as the positional verb. Neither the first condition-- essen is not a positional verb-- nor the second one-- there is no context with a preceding movement-- is fulfilled in sentence (3). That is why, in order to correct the grammatical inconsistency, the simple sentence was turned into a final sentence using a grammatical construction with the infinitive group. Spelling (e. g., sentence (4)) and punctuation errors (e. g., sentence (5)) were corrected as well, including direct speech utterances with quotation marks. Unnecessary punctuation was removed (e. g., sentence (6)). (4) ORIG: die Mitschülen unstauen vor lars und unterstützen. The classmates inexpressible Lars and support ZIELHYP: Die Mitschüler starren Lars an und unterstützen ihn. The classmates stare Lars at and support him. The classmates stare at Lars and support him. (5) ORIG: lea: geht es dir gut. lea: are you okay. ZIELHYP: Lea: „Geht es dir gut? “ Lea: “Are you okay? ” <?page no="97"?> The IVK-Ler Corpus of Adolescent Foreign-Language Learners of German 97 (6) ORIG: Komm mit mir, und spielt Fahrrad. Come with me and play bike. Come with me and play with the bike. ZIELHYP: Komm mit mir und spiel mit dem Fahrrad. Come with me and play with the bike. The tense that the student most likely intended to use was also used in the target hypothesis. If participle II was used without an auxiliary verb, the tense was changed to perfect (e. g., sentence (7)), whereas when a present verb was used, present tense was kept, despite the sequence of tenses (e. g., sentence (8)). (7) ORIG: Lars sich erschrroken. Lars reflexive pronoun scared. Lars got scared. ZIELHYP: Lars hat sich erschrocken. Lars got reflexive pronoun scared. Lars got scared. (8) ORIG: Wan Lea etwas realisieren haben der Bus abfahren. When Lea something realized has, the bus leaves. When Lea has realized something, the bus leaves. ZIELHYP: Als Lea etwas realisiert hat, fährt der Bus ab. When Lea something realized has, leaves the bus verb particle. When Lea has realized something, the bus leaves. All the missing subjects, objects, verbs, etc. were added according to the context (for a better understanding of the context; it was often referred to the content of comic pictures): (9) ORIG: Dodo schleicht und an bellen. Dodo sneaks up and at bark. Dodo sneaks up and barks at [missing direct object]. ZIELHYP: Dodo schleicht und bellt den Vogel an. Dodo sneaks up and barks the bird at. Dodo sneaks up and barks at the bird. Ambiguous sentences were handled in exactly the same way. For instance, in the original sentence (10) it is not clear whether Lea und Lars buy just one scoop of ice cream; in this case an indefinite article would be missing. If they, however, buy two scoops, then the plural form should have been used. The picture shows several scoops of ice cream, therefore the singular form Eiskugel was transformed to the plural form Eiskugeln. <?page no="98"?> Aleksandra Pushkina/ Erhard Hinrichs 98 (10) ORIG: Lea und Lars kaufen Eiskugel. Lea and Lars buy scoop of ice cream. ZIELHYP: Lea und Lars kaufen Eiskugeln. Lea and Lars buy scoops of ice cream. Sometimes it was not obvious which word was meant to be used. For example, in sentence (11), the child used the copula sein and, at the same time, the infinitive of the semantic verb freuen. In this case, a possible annotation would be to remove the infinitive of the semantic verb freuen and replace it with the adverb froh. Alternatively, one could ignore the copula and say that the semantic verb remains, to which the reflexive particle of the verb is added, since the verb sounds like sich freuen in- the infinitive. In such cases, we referred to the list of words that the children received before writing each story. The word list included the verb sich freuen and the-absence of the adverb froh. For this reason, it was decided to remove the copula and leave the semantic verb in ZIELHYP, adding sich to it. (11) ORIG: Sie ist freuen She is rejoice. She is happy. ZIELHYP: Sie freut sich. She is happy reflexive pronoun. When a sentence was not legible at all, the target hypothesis was set to inexpressible: (12) ORIG: #Sie traurig freunen bleiben #She sad be happy remain. ZIELHYP: #inexpressible In this case, the sentence could not be used for the downstream annotation tasks. All lexically misused words and foreign words were replaced with their correct German equivalent. Sometimes the names used in the text did not match the image in the picture. Despite this, the names were not changed, even if they did not fit the context, such as in sentence (13). (13) ORIG: Dodo mitbringt Dodo Dodo brings Dodo. ZIELHYP: Lea bringt Dodo mit. Lea brings Dodo with. Lea brings Dodo with her. <?page no="99"?> The IVK-Ler Corpus of Adolescent Foreign-Language Learners of German 99 A very common mistake made by DaZ-students was to confuse the personal pronouns they and we. According to teaching guidelines 12 , pronouns that are necessary to form simple sentences are learned first. So this confusion may be due to that fact that students understand pronouns more clearly if they first learn how to speak about themselves. (14) ORIG: Wir kaufen zwei Kugel mit Eis We buy two scoops with ice cream ZIELHYP: Sie kaufen zwei Eiskugeln. They buy two scoops of ice cream. All foreign words have been replaced by their German equivalents (e. g., sentence (15)). (15) ORIG: Sie winken und also der Mann She waves and also eng the man. She waves and so does the man. ZIELHYP: Sie winkt und der Mann auch. She waves and the man too. She waves and so does the man. 3.4 Annotation In order to prepare the corpus for the detection and evaluation of syntactic and grammatical difficulties of different L2 learners, the texts were part-of-speech (POS) tagged. POS annotations constitute the basic word form information that is needed as a prerequisite for all syntactic labeling tasks. The POS annotation of the corpus followed a computer-assisted error analysis approach. Hence, it was done in two steps. The first step was an automatic annotation carried out with the help of the SpaCy 13 framework. The annotation layer was added for both the original texts and the target hypotheses. The original sentences posed a particular challenge for the sequence labels because they contain a multitude of orthographic and grammatical errors. Even while many sequence labeling tasks can now be completed automatically and with great accuracy for correct texts, it is unclear to what extent this also holds true for texts that contain errors. For this reason, 12 Wertebildung- - 10. Leitfaden DaZ, available at https: / / li.hamburg.de/ contentblob/ 5172894/ b51c5bd f07f27077689e402322ac66d2/ data/ pdf-wertebildung-10-leitfaden-daz.pdf (Stand: 25.4.2023). 13 SpaCy is an open-source natural language processing Python library, first released in 2015. It has gained a certain popularity in the industry, which is likely due to its suitability in software development for production usage. <?page no="100"?> Aleksandra Pushkina/ Erhard Hinrichs 100 as a second step, human annotation was performed on top of the automatic labeling. To accelerate the time-consuming manual annotation, this step was framed as a correction of the automatic results. 4. Conclusion and Future Work This paper presents IVK-Ler, a longitudinal corpus of German texts written by students from an international preparation class. The corpus was designed to address a range of practical and research challenges, such as helping textbook authors and teachers tailor their work better to the needs of L2 learners and help children to learn German faster. It can also advance automatic analysis of German language in second language learning settings. An understanding of written L2 language proficiency is a prerequisite for diagnostics and assistive tools. The need for such resources is motivated by the underrepresentation of immigrant children in Gymnasien in Germany. 14 This is to large extent due to the fact that the development of their language skills often slows down their overall academic performance. Despite the small corpus size (N-=-117 files, N-=-9,404 tokens), the resource addresses and fills several gaps in literature: firstly, we are not aware of the existence of a similar corpus. Secondly, it can be used to examine the progress of language proficiency in L2 learners. It is important to analyze as many different learner data as possible in terms of complexity, accuracy, and fluency (Skehan 1996, 1998) since various factors can influence a learner’s language: the institutional background, native language, age, gender, etc. The corpus has a structure organized by student and text number, so it will be easy to analyze for further research. Due to the included metadata, it is possible to analyze and track the progress of each individual student, comparing the progress of the development of syntactic competence and also literacy in general. At present, the annotation schema contains target hypotheses (corrected texts) and a gold standard for part-of-speech tags. In future work, automatic annotations for topological fields (for this purpose sticker 15 can be applied) and universal dependency relations (both SpaCy and sticker can be applied for this) can be added as extra layers to the corpus. Topological field annotation would greatly facilitate error analysis of word order. Dependency annotation would enable analyses of function-argument structure at the syntax semantics interface. Finally, semantic and discourse annotations could also be added to the corpus to make it usable for tasks that exceed syntactic evaluations. 14 Gymnasien refers to the German term for secondary schools with an academic focus that prepares pupils for a university education. 15 Sticker is an open-source library written in Rust and less comprehensive than SpaCy, since focusing entirely on sequence labeling. <?page no="101"?> The IVK-Ler Corpus of Adolescent Foreign-Language Learners of German 101 Corpus collection was negatively effected by big breaks between collection periods because of lockdowns; students leaving the class; different ages of learners; different levels of language proficiency. The collection of such a corpus can and should be improved. For example, collection periods should be strictly defined and if possible, should not be paused. Despite these limitations, it will be interesting to analyze such factors as educational backgrounds of students (whether they attended school before), different family backgrounds; the difference in ages (whether younger children pick up language quicker than older learners); knowledge of another foreign language, for instance English. Such a more fine-grained analysis is possible to a rich set of metadata that document the background of each learner. Currently, the corpus can be accessed by contacting the authors of this paper. Acknowledgments The authors would like to express their gratitude to the students in the International Preparatory Class at the Französische Gemeinschaftsschule Tübingen for their support and patience with this project. The first author would also like to thank Detmar Meurers for the idea of the project and for his guidance throughout as well as Zarah Weiss for many helpful ideas and comments during the execution of the project. References Abel, Andrea/ Glaznieks, Aivars/ Nicolas, Lionel/ Stemle, Egon (2014): KoKo: an L1 learner corpus for German. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Loftsson, Hrafn/ Maegaard, Bente/ Mariani, Joseph/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (eds.): Proceedings of the ninth international conference on language resources and evaluation (LREC’14), May 2014, Reykjavik, Iceland. European Language Resources Association (ELRA). Axelsson, Margareta W./ Hahn, Angela (2001): The use of the progressive in Swedish and German advanced learner English: a corpus-based study. In: ICAME journal-25, pp.-5-30. Berkling, Kay (2016): Corpus for children’s writing with enhanced output for specific spelling patterns (2nd and 3rd grade). In: - Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Goggi, Sara/ Grobelnik, Marko/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Helene/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios (Hg): Proceedings of the tenth international conference on language resources and evaluation (LREC’16), May 2016, Portorož, Slovenia. European Language Resources Association (ELRA), pp.-3200-3206. Berkling, Kay (2018): A 2nd longitudinal corpus for children’s writing with enhanced output for specific spelling patterns. In: Calzolari, Nicoletta/ Choukri, Khalid/ Cieri, Christopher/ Declerck, Thierry/ Goggi, Sara/ Hasida, Koiti/ Isahara, Hitoshi/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Moreno, Asuncion/ Odijk, Jan/ Piperidis, Stelios/ Tokunaga, Takenobu (eds.): Proceedings of the eleventh international conference on language resources and evaluation (LREC 2018), May 2018, Miyazaki, Japan. European Language Resources Association (ELRA). Borin, Lars/ Prütz, Klas (2004): New wine in old skins? A corpus investigation of L1 syntactic transfer in learner language. In: Corpora and language learners-17, pp.-67-87. <?page no="102"?> Aleksandra Pushkina/ Erhard Hinrichs 102 Diessel, Holger (2009): Corpus linguistics and first language acquisition. In: -Lüdeling, Anke/ Kytö, Merja (eds.): -Corpus Linguistics: an international handbook. Bd.-2. (=-Handbücher zur Sprach- und Kommunikationswissenschaft [HSK]-29.2). Berlin/ New York: De Gruyter, pp.-1197-1212. Frieg, Hendrike (2014): - Sprachförderung im Regelunterricht der Grundschule: Eine Evaluation der Generativen Textproduktion. Doktorarbeit. Bochum: Ruhr-Universität Bochum. Fries, Charles C. (1952): The structure of English. An introduction to the construction of English sentences. New York: Harcourt & Brace. Fries, Charles C./ Traver, Alice A. (1940): English word lists. A study of their adaptability for instruction. Washington, DC: American Council on Education. Gass, Susan M./ Mackey, Alison / Pica, Teresa (1998): The role of input and interaction in second language acquisition: introduction to the special issue.- In: - Modern Language Journal-82,-3 (Special issue: The role of input and interaction in second language acquisition (Autumn 1998), pp.-299-307. Granger, Sylviane (1993): The international corpus of learner English.- In: - Aarts, Jan M./ de Haan, Pieter/ Oostdijk, Nelleke (eds.): - English language corpora: design, analysis and exploitation: papers from the thirteenth international conference on English language research on computerized corpora, Nijmegen 1992.-(=-Language and computers: Studies in practical linguistics-10). Amsterdam/ Atlanta: Brill Rodopi, pp.-57-71. Granger, Sylviane (2002): A bird’s-eye view of learner corpus research.-In: -Granger, Sylviane/ Hung, Joseph/ Petch-Tyson, Stephanie (eds.): Computer learner corpora, second language acquisition and foreign language teaching. (=- Language Learning & Language Teaching-6). Amsterdam/ Philadelphia: Benjamins, pp.-3-33. Granger, Sylviane (2008): Learner corpora in foreign language education.- In: - Hornberger, Nancy H. (Hg): Encyclopedia of language and education. Bd.-4: Second and foreign language education. 2.-Aufl. Boston, MA: Springer, pp.-1427-1441. Granger, Sylviane/ Dagneaux, Estelle/ Meunier, Fanny/ Paquot, Magali (eds.) (2009): International corpus of learner English. Bd.- 2. Louvain-la-Neuve: Presses universitaires de Louvain. Klein, Wolfgang/ Perdue, Clive (1997): The basic variety (or: Couldn’t natural languages be much simpler? ). In: -Second Language Research-13,-4, pp.-301-347. Krämer, Sabine (2004): Bleiben bleibt bleiben.- In: -Zeitschrift für Sprachwissenschaft- 23,- 2, pp.-245-274. Laarmann-Quante, Ronja/ Knichel, Lukas/ Dipper, Stefanie/ Betken, Carina (2016): Annotating spelling errors in German texts produced by primary school children. In: Friedrich, Annemarie/ Tomanek, Katrin (eds.): Proceedings of the 10th linguistic annotation workshop held in conjunction with ACL 2016 (LAW-X 2016), August 2016, Berlin, Germany. Association for Computational Linguistics, pp.-32-42. Laarmann-Quante, Ronja/ Ortmann, Katrin/ Ehlert, Anna/ Vogel, Maurice/ Dipper, Stefanie-(2017): Annotating orthographic target hypotheses in a German L1 learner corpus. In: Tetreault, Joel/ Burstein, Jill/ Leacock, Claudia/ Yannakoudakis, Helen (eds.): Proceedings of the 12th workshop on innovative use of NLP for building educational Applications, September 2017, Copenhagen, Denmark. Association for Computational Linguistics, pp.-444-456. <?page no="103"?> The IVK-Ler Corpus of Adolescent Foreign-Language Learners of German 103 Laarmann-Quante, Ronja/ Ortmann, Katrin/ Ehlert, Anna/ Masloch, Simon/ Scholz, Dooren/ Belke, Eva/ Dipper, Stefanie (2019): The Litkey Corpus: a richly annotated longitudinal corpus of German texts written by primary school children.-In: -Behavior Research Methods-51,-4, pp.-1889-1918. Leopold, Werner F. (1939-1949): Speech development of a bilingual child. A linguist’s record. Bd.- 1-4. (=- Northwestern University: Northwestern University studies in the humanities-6). Evanston: Northwestern University. [Reprint 1970: New York: AMS Press]. Lorge, Irving (1949): The semantic count of the 570 commonest words. New York: Columbia University. Lüdeling, Anke/ Hirschmann, Hagen (2015): Error annotation systems.-In: Granger, Sylviane/ Gilquin, Gaëtanelle/ Meunier, Fanny (eds.): - The Cambridge handbook of learner corpus research. (=- Cambridge handbooks in language and linguistics). Cambridge: Cambridge University Press, pp.-135-157. Lüdeling, Anke/ Hirschmann, Hagen/ Shadrova, Anna/ Wan, Shujun (2021): Tiefe Analyse von Lernerkorpora. In: -Lobin, Henning/ Witt, Andreas/ Wöllstein, Angelika (eds.): Deutsch in Europa: Sprachpolitisch, grammatisch, methodisch. (=-Jahrbuch des Instituts für Deutsche Sprache 2020). Berlin/ Boston: De Gruyter, pp.-235-283. Nesselhauf, Nadja (2004): Learner corpora: learner corpora and their potential for language teaching. In: -Sinclair, John McH. (eds.): How to use corpora in language teaching. (=-Studies in Corpus Linguistics-12). Amsterdam/ Philadelphia: Benjamins, pp.-125-152. Perdue, Clive/ Klein, Wolfgang (1992): Why does the production of some learners not grammaticalize? In: Studies in Second Language Acquisition-14,-3, pp.-259-272. Preyer, William T. (1889): -The mind of the child: the development of the intellect.-(=-International education-7). New York: Appleton. Reznicek, Marc/ Lüdeling, Anke/ Hirschmann, Hagen (2013): Competing target hypotheses in the Falko corpus: a flexible multi-layer corpus architecture.- In: -Díaz-Negrillo, Ana/ Ballier, Nicolas/ Thompson, Paul (eds.): Automatic treatment and analysis of learner corpus data.-(=-Studies in Corpus Linguistics-59). Amsterdam/ Philadelphia: Benjamins, pp.-101-123. Schmidt, Karin (2011): Lernerkorpora: Ressourcen für die Deutsch-als-Fremdsprache- Forschung. In: Eğit, Yadigar (eds.): Globalisierte Germanistik: Sprache, Literatur, Kultur. Tagungsbeiträge. XI.-Türkischer Internationaler Germanistik Kongress, 20.-22.-Mai 2009. Tagungsbeiträge. Izmir: Ege Üniversitesi Matbaası, pp.-555-573. Schroff, Corinne (2000): Lea, Lars- & Dodo. (=- Lernen fürs Leben). Schaffhausen: Schubi Lernmedien. Selinker, Larry (1972): Interlanguage. In: International Review of Applied Linguistics-10,-1-4, pp.-209-241. Skehan, Peter (1996): A framework for the implementation of task-based instruction. In: Applied linguistics 17, 1, pp.-38-62. Skehan, Peter (1998): A cognitive approach to language learning. (=-Oxford Applied Linguistics). Oxford i. a.: Oxford University Press. Steinitz, Renate (2000): Deutsch werden, bleiben; Schwedisch bli, förbli-- viele Daten, einige Beobachtungen, ein oder zwei Ideen. In: Bayer, Josef/ Römer, Christine (eds.): Von der <?page no="104"?> Aleksandra Pushkina/ Erhard Hinrichs 104 Philologie zur Grammatik: Peter Suchsland zum- 65.- Geburtstag. Tübingen: Niemeyer, pp.-315-341. Stern, Adolf (1924): On the counter-transference in psychoanalysis.- In: - Psychoanalytic Review-11,-2, pp.-166-174. Stern, Clara/ Stern, William (1928): Die Kindersprache. Eine psychologische und sprachtheoretische Untersuchung. (=-Monographien über die seelische Entwicklung des Kindes- 1). 4.,-neubearb. Aufl. Leipzig: Barth. [Reprint 1965, unveränd. reprograf. Nachdr. der 4.,-neubearb. Aufl.. Darmstadt: Wissenschaftliche Buchgesellschaft]. Thelen, Tobias (1999): Osnabrücker Bildergeschichtenkorpus: Version-1.0.0. Thelen, Tobias (2010): Automatische Analyse orthographischer Leistungen von Schreibanfängern. Unveröffentlichte Doktorarbeit. Osnabrück: Universität Osnabrück. Tschirner, Erwin/ Meissner, Cordula/ Fandrych, Christian/ Rahn, Stefan/ Slavcheva, Adriana (2009): Gesprochene Wissenschaftssprache kontrastiv: Deutsch im Vergleich zum Englischen und Polnischen. Vorstellung eines gemeinsamen Forschungsvorhabens. In: Studia Linguistica-28, pp.-7-30. Zinsmeister, Heike/ Breckle, Margit (2010): ALeSKo-an annotated learner corpus. Poster presented at the poster session of the 32.- Jahrestagung der Deutschen Gesellschaft für Sprachwissenschaft (DGfS). Berlin: Humboldt-Universität zu Berlin. www.linguistik. hu-berlin.de/ de/ institut/ professuren/ korpuslinguistik/ mitarbeiter-innen/ amir/ Posters/ Zinsmeister_Breckle.pdf (Stand: 25.4.2023). Zinsmeister, Heike/ Reznicek, Mark/ Ricart Brede, Julia/ Rosén, Christina/ Skiba, Dirk (2012): Das Wissenschaftliche Netzwerk „Kobalt-DaF“. Korpusbasierte Analyse von Lernertexten- für Deutsch als Fremdsprache. In: Zeitschrift für Germanistische Linguistik- 40,- 3, pp.-457-458. <?page no="105"?> UTA QUASTHOFF NATÜRLICHKEIT VS. REICHHALTIGKEIT VS. VERGLEICHBARKEIT: Wie Widerstreitendes bei der Erhebung von Gesprächskorpora versöhnt werden-kann Abstracts : Der Artikel argumentiert, dass das konversationsanalytische Prinzip der ‚natürlichen‘ Daten nicht vereinbar ist mit Forschungsfragen, die über die deskriptive Rekonstruktion der Ordnung verdeckter Alltagsinteraktion hinaus gehen. In forschungspraktischer Perspektive diskutiert der Beitrag, wie Natürlichkeit mit Reichhaltigkeit und Vergleichbarkeit unter den Bedingungen der grundsätzlichen Kontextualisierung aller Interaktion versöhnt werden kann. Abschließend erörtert er die Aspekte einer korpustechnologischen Aufbereitung. The article argues that naturalness of data, as claimed by Conversation Analysis, does not always agree with research questions beyond the descriptive reconstruction of the hidden orderliness of mundane interaction. In view of practical data collection, this paper discusses how naturalness can be reconciled with richness and comparability based on the basal contextualization of all interaction. In closing, aspects of processing interactive video data in large computer-based corpora are sketched. Keywords: Analysemethoden, Datenerhebung, Gesprächskorpora, Interaktionale Diskursanalyse,-Interaktivität, Kontextualität, Konversationsanalyse, Natürlichkeit, Reichhaltigkeit, Vergleichbarkeit 1. Einleitung: Widerstreitende Anforderungen an Gesprächskorpora „Naturalistic observation is the engine of discovery that has propelled Conversation Analysis (CA) for over four decades, generating countless insights into the organization of language, action, and interaction“ (Kendrick 2017, S.-1). Auch eine Charakteristik von Gesprächskorpora aus korpuslinguistischer Sicht schließt diese konversationsanalytische Forderung der Natürlichkeit als Merkmal ein: Gespräche sind „authentische (natürliche) Interaktionen in dem Sinne, dass sie nicht eigens vom Forscher veranlasst wurden […]“ (Schmidt 2018, S.- 210, ähnlich in Schmidt 2022, S.-422). Im Zuge der Erfolgsgeschichte, die konversationsanalytische Verfahren der Rekonstruktion sprachlichen Handelns in seiner unhintergehbaren Interaktivität (Goodwin 2018), Prozessualität (Hausendorf 2007), Sequenzialität (Birkner et al. 2020, Kap.- 4) und Kontextualität (Auer 1996) in den letzten Jahr(zehnt)en zu verzeichnen hatte, erfolgte jedoch fast zwangsläufig eine Ausweitung der mit diesen Analysen ursprünglich verfolgten rein deskriptiv-rekonstruktiven Fragestellungen. Im Rahmen dieser Erweiterungen in Richtung auf angewandte oder interdisziplinäre Forschungsziele entstanden Anforderungen an die Datenerhebung, die mit dem konversationsanalytischen Credo der Natürlichkeit nicht mehr ohne Weiteres ver- DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="106"?> Uta Quasthoff 106 einbar sind (Speer 2002): Interaktionsdaten, die ohne jedes Zutun des Forschungsprozesses und unter keinerlei Beteiligung seitens der Forschenden zustande gekommen sind, konnten Forschungsfragen wie die nach Kompetenzen, deren Verteilung und deren Vermittlung oder nach Häufigkeiten in bestimmten sozialen Milieus nicht mehr allein beantworten. Entsprechend werden methodologische Diskussionen geführt u. a. zur Verwendung konversationsanalytischer Verfahren für anwendungsorientierte Fragestellungen (Kasper/ Wagner 2014) sowie zur Vereinbarkeit mit quantitativen (Stivers 2015) und experimentellen Methoden (Kendrick 2017; de Ruiter/ Albert 2017). Vor dem Hintergrund derartiger Diskussionen stellt sich der vorliegende Beitrag eine eher forschungspraktische Frage: Wie können die widerstreitenden Anforderungen an die Erhebung konkreter Datensammlungen versöhnt werden, die konversationsanalytischen Grundprinzipien folgen und trotzdem die Bearbeitung solcher Fragestellungen erlauben, die über die Entdeckung und Beschreibung der zugrundeliegenden interaktiven Ordnung sozialen Handelns hinaus gehen? Ich werde dabei zunächst die Grundausrichtung und -fragestellungen der Interaktionalen Diskursanalyse (IDA) als theoretischen Rahmen skizzieren, innerhalb dessen die Datenerhebungen situiert sind (Abschn.- 2), und daraus die Anforderungen an die Analyse der Korpora ableiten (Abschn.-3). In Abschnitt-4 beschreibe ich ein konkretes Beispiel für die tatsächliche Erhebung entsprechender Daten, bevor ich abschließend im Abschnitt-5 in einem Ausblick die Möglichkeiten und Grenzen-einer projektübergreifenden, korpustechnologischen Aufbereitung und Nutzung entsprechend zugeschnittener Korpora diskutiere. Mein Beitrag zum Thema ‚Korpusgestützte Sprachanalyse‘ bezieht sich also in einem praktisch-methodischen Sinn primär auf einen Zusammenhang zwischen Fragestellungen, Theoriekontext und projektbezogener Datenerhebung, für die sich eine übergreifende korpustechnologische Aufbereitung zunächst nicht anbietet. Er mag damit aber Impulse geben zur Weiterentwicklung der Verfahren entsprechender technologischer Aufbereitung und Nutzung von komplex-- nicht nur ‚natürlich‘-- kontextualisierten videografierten Gesprächsdaten. 2. Grundkonzepte und Fragestellungen der Interaktionalen Diskursanalyse zu Erwerb und Vermittlung Im Folgenden werden konversationsanalytische Grundannahmen, spezifische analytische Vorgehensweisen, Fragestellungen und untersuchte Phänomene der IDA umrissen, um aus diesen exemplarisch die Anforderungen an die zu erhebenden Daten abzuleiten. <?page no="107"?> Natürlichkeit vs. Reichhaltigkeit vs. Vergleichbarkeit 107 Sobald es nicht mehr nur um die Offenlegung der verdeckten Regelhaftigkeit von Praktiken (Hanks 1987) (sprachlichen) Interagierens geht, sondern auch z. B. um die individuellen Kompetenzen sprachlich Handelnder, werden die Grenzen klassischer konversationsanalytischer Vorgehensweisen überschritten: Praktiken sind für die Beteiligten und in der Aufzeichnung für die Forschenden in ihrer interaktiven Verflechtung audible and visible (Garfinkel 1967). Kompetenzen hingegen werden hier in interdisziplinärer Anlehnung an Weinert (2001) als Dispositionen des Individuums zur Bewältigung spezifischer Aufgaben gefasst (vgl. auch Klieme/ Maag-Merki/ Hartig 2007). Sie sind damit nicht direkt beobachtbar (Bergmann/ Quasthoff 2010), wodurch sie sich dem rekonstruktiven Zugriff konversationsanalytischer Methoden zunächst entziehen. Wenn man i. d. S. an einem Konzept individuell zuschreibbarer Kompetenzen und Erwerbsprozesse festhält und ‚Kompetenz‘ nicht auf etwas lokal interaktiv Hergestelltes reduziert (Mondada/ Pekarek Doehler 2004, S.-502 f.), bedarf es also spezieller Verfahren zur Herauslösung der Verantwortlichkeiten einzelner Beteiligter für ihre jeweiligen Beiträge im Rahmen der grundsätzlich von allen Beteiligten ko-konstruierten Sequenz von Äußerungen. Mit GLOBE (Hausendorf/ Quasthoff 2005; Quasthoff/ Heller/ Morek 2017) hat die IDA ein derartiges Verfahren entwickelt und breit empirisch fundiert. GLOBE liefert mit seiner Unterscheidung zwischen den Jobs, den kommunikativen Aufgaben für das gesamte Interaktionsteam, den Mitteln zur anteiligen Erledigung der Jobs durch die einzelnen Beteiligten und den Formen zur sprachlichen sowie multimodalen Realisierung und Anzeige der Mittel die analytische Grundlage, auf der die ‚Leistungen‘ des/ der Einzelnen sichtbar werden. Das analytische Verfahren zerstört dabei nicht die grundsätzlich gemeinsame Herstellung von Sinn und die Steuerung von Nachfolgeäußerungen durch die jeweils vorangehende(n) Äußerung(en) in der sequenziellen Verkettung, die prinzipiell für jede Art der Interaktion, ‚natürlich‘ oder nicht, gelten. Auf diese Weise liefert GLOBE die analytische Grundlage, auf der trotz konversationsanalytischer Grundorientierung an der Interaktivität und Sequenzialität in der ‚Vollzugswirklichkeit‘ sprachlicher Prozesse Beobachtungen am Einzelnen gemacht werden können. Neben der eben diskutierten Interaktivität und Sequenzialität liegt die Kontextualität aller Interaktionen den rekonstruktiven Verfahren der CA zugrunde. Der Kontext wird dabei nicht i. S.-bspw. variationslinguistischer Ansätze als umgebende ‚Situation‘ modelliert, die von den sprachlichen Prozessen unabhängig erfasst und mit diesen korreliert werden kann (Durrell 2008, S.-196, vgl. auch die Diskussion zur Typisierung von Gesprächen in Schmidt 2018, S.- 219 f.). Vielmehr wird der soziale und unmittelbare sprachliche Kontext (Morek/ Quasthoff 2017) von den Interaktionsbeteiligten durch die jeweils spezielle Art ihres abgestimmten sprachlichen Handelns lokal immer neu hergestellt. Die sprachlichen Praktiken des lokalen Handelns greifen dabei zurück auf für die Sprachgemeinschaft abrufbare Wissensbestände, die bestimmte Verfahren zu Lösung wiederkehrender kommunikativer Pro- <?page no="108"?> Uta Quasthoff 108 bleme vorsehen (Luckmann 1989). Die IDA konzentriert sich dabei auf diskursive Praktiken wie Erzählen, Erklären oder Argumentieren, die typischerweise äußerungsübergreifend organisiert sind. Jeder konkrete sprachliche Akt steht also vor der Aufgabe, die verwendete Praktik erkennbar zu machen und mit ihr und durch sie einen spezifischen Kontext dynamisch zu gestalten. Die jeweiligen ‚Formen‘ in ihrer hör- und sichtbaren Gestalt erfüllen dabei eine Indizierungsfunktion, könnten also in ihrer Funktionalität nicht umstandslos durch automatische Suchverfahren erfasst werden. So erkennen die Beteiligten bei einer Äußerung wie ich WEISS no; wie wir einmal nicht den MÜLL runtergebracht ham; ne, wer_ich NIE vergessen (Daten aus Kotthoff 2020, S.-420), dass der/ die Sprechende sich anschickt zu erzählen. Im Zuge der ko-konstruktiven Herstellung von Kontext liefert der Gesprächspartner seinen konstitutiven Anteil, wenn es zum Vollzug einer Erzählung kommen soll: Der nachfolgende Zug im Gespräch kann in Form von Schweigen oder einer Ratifizierung den Erzähldiskurs etablieren oder durch Verweigerung einer Ratifizierung verhindern, dass er sich weiter entwickelt (Kotthoff 2020). Die IDA interessiert sich über Fragen der interaktiven Organisation von Einbettung und narrativem Vollzug der Diskurseinheiten hinaus für den Erwerb von diskursiven Kompetenzen durch Kinder und Jugendliche, für Aspekte der Verteilung dieser Kompetenzen und Erwerbsverläufe über Alters- und soziale Gruppen hinweg sowie für mehr oder weniger förderliche Erwerbskontexte. Weil die dahinterstehende Erwerbstheorie strikt interaktionsbasiert ist, also in der musterhaften Interaktion des Kindes mit Erwachsenen oder auch Peers einen wesentlichen Erklärungsmechanismus für Entwicklung erkennt, kommt der Rekonstruktion habitueller sequenzieller Muster des talk-in-interaction mit kindlichen Beteiligten eine wesentliche empirische Rolle zu. Nur durch sie kann die verborgene Regelhaftigkeit unterschiedlicher Typen der Verständigung mit Kindern und ihre mögliche erwerbsunterstützende Funktion überhaupt erst offengelegt werden. Fragen einer interaktionsbasierten Erwerbstheorie wie die nach der ontogenetischen Wirksamkeit unterschiedlicher Muster der Erwachsenen-Kind-Interaktion, ihrer Verteilung über unterschiedliche sozialisatorische Milieus hinweg oder ihre Wirksamkeit in expliziten Lehr-Lern-Kontexten erfordern aber eine je besondere Konstellation von Daten, die entsprechend nicht mehr unbedingt ohne Zutun des/ der Forschenden erhoben werden können. Die IDA nutzt entsprechend interaktiv und sequenziell unterschiedlich kontextualisierte Daten, die die jeweiligen Praktiken sehr unterschiedlicher Beteiligter visuell und auditiv dokumentieren. Sie nutzt GLOBE zur kontrollierten Zuschreibung von Kompetenzniveaus und -profilen so- <?page no="109"?> Natürlichkeit vs. Reichhaltigkeit vs. Vergleichbarkeit 109 wie zu deren systematischen Vergleich (vgl. bes. Quasthoff et al. 2019). Welche Auswirkungen diese unterschiedlichen Anforderungen an Daten auf das Natürlichkeitsprinzip haben, wird im nächsten Abschnitt diskutiert. 3. Natürlichkeit vs. Reichhaltigkeit vs. Vergleichbarkeit als Anforderungen an die Datenerhebung Die Forderung der klassischen CA nach ausschließlicher Nutzung von naturally occuring data spiegelt nicht nur das methodische Bestreben z. B. auch der Soziolinguistik (Labov 1972), eine Verzerrung der untersuchten sprachlichen Formen und Prozesse durch die Beobachtung und Aufzeichnung möglichst zu verhindern. Vielmehr ist dieses Prinzip tief in den ethno-methodologischen Grundpfeilern der CA verankert, denen gemäß Gesellschaftsmitglieder ihre soziale Wirklichkeit im geordneten, ‚methodischen‘ Vollzug ihrer kontextualisierten und kontextualisierenden Interaktionen herstellen. Dabei ist es Aufgabe der analytischen Rekonstruktion, diese Ordnung offenzulegen, die den handelnden Beteiligten selbst nicht zugänglich ist und über die sie mithin nicht Auskunft geben können. Andererseits erfordert ein Untersuchungsinteresse an (förderlichen oder hinderlichen Bedingungen von) interaktionsbasierten Erwerbsprozessen eine Konstellation von Stichproben, die systematische Vergleiche ermöglicht, etwa zwischen verschiedenen Altersgruppen, Erwerbskontexten oder (Kompetenzprofilen bzw. sozialen Merkmalen von) Kindern. Die notwendige Vergleichbarkeit zieht jedoch Eingriffe hinsichtlich der Art aufgezeichneter Interaktionen nach sich, so dass sofort ein Spannungsverhältnis zur geforderten Natürlichkeit der Daten entsteht. Das erwähnte Freilegen der versteckten orderliness allen interaktiven Handelns ist wiederum nur möglich, indem die Interaktionen ihrer Flüchtigkeit enthoben, also aufgezeichnet und transkribiert werden. Inwieweit die offene Aufzeichnung die Natürlichkeit bereits beeinflusst (observer’s paradox, Labov 1972), wurde vielfach diskutiert (Hazel 2016). Durch die im Rahmen der Vergleichbarkeit notwendige Elizitierung von Daten besteht auf den ersten Blick jedoch eine weitere-- größere-- Gefahr der Zerstörung just jener geordneten Vollzugswirklichkeit, die Gegenstand konversationsanalytischer Rekonstruktion sein sollte. Eine entsprechende Instruktion der Forschenden führt, so wäre zu befürchten, zur Vorgabe eines Kontextes, der mithin von außen gesetzt und nicht interaktiv gestaltet zu sein scheint. Dazu kommt das Forschungsinteresse an bestimmten Phänomenbereichen, die in den zu nutzenden Daten auffindbar sein sollten. Im Fall der IDA sind dies Praktiken, die an Gattungen (Günthner 1995) orientiert äußerungsübergreifend organisiert sind, etwa Erzählungen, Erklärungen oder Argumentationen. Während die frühen-Gegenstände konversationsanalytischer Arbeiten wie Sprecherwechsel (Sacks/ Schegloff/ Jefferson 1974), Eröffnungen und Schließungen von Gesprächen (Scheg- <?page no="110"?> Uta Quasthoff 110 loff/ Sacks 1973), Nebensequenzen ( Jefferson 1972) oder auch personale Referenzen (Schegloff/ Sacks 1978) in Alltagsgesprächen fast durchgängig zu finden sind, gilt das für Erzählen, Erklären oder Argumentieren nicht in gleicher Weise. Es muss also auch aus Gründen der analytischen Ökonomie sichergestellt werden, dass das interessierende Phänomen in den Daten in hinreichender Häufigkeit vorkommt. Angesichts der ebenso zentralen Vergleichbarkeit ist dies nicht nur durch die Auswahl- (bei- Interesse an Erzählungen etwa Familienfeste, Günthner 2000) oder den Umfang der aufzuzeichnenden Daten zu bewerkstelligen. Vielmehr müssen sich die sozialen Kontexte des Auftretens ähneln, damit Reichhaltigkeit und Vergleichbarkeit gleichzeitig erfüllt sind. Beide Prinzipien führen notgedrungen zur forschungsseitigen Initiierung entsprechender Interaktionen, d. h. zur Verletzung des Prinzips der Natürlichkeit und damit zunächst mal zum befürchteten Eingriff in die Vollzugswirklichkeit. Es stellt sich allerdings die Frage, um welche Vollzugswirklichkeit es geht. In Quasthoff (2021) diskutiere ich an verschiedenen Beispielen Möglichkeiten der Versöhnung der widerstreitenden Prinzipien bei der Datenerhebung. Wesentlich ist dabei das konversationsanalytische Konzept der Ressourcen. Zentral ist die Frage, auf welche Verfahren Beteiligte jeweils zurückgreifen, wenn sie in den vorliegenden Kontexten rekonstruierbar jeweils etwas Bestimmtes ‚tun‘ und was genau diese Verfahren tun. Mein Kernargument ist, dass elizitierte, vergleichbare und reichhaltige Interaktionsdaten sicher als gesamtes interaktives encounter nicht ‚natürlich‘ sind, wohl aber verlässlich in der Rekontextualisierung spezifischer konversationeller Ressourcen, mit deren Hilfe Interaktanten die jeweils gesetzten Kontexte auf ihre Weise gestalten. Das analytische Interesse gilt dabei sowohl der Explizierung der genutzten Verfahren als auch-- je nach Fragestellung-- dem, was Interaktanten jeweils damit kontextualisiert ‚tun‘. In der Rechtfertigung sog. formaler Analysen zur sequenziellen Organisation von Phänomenen wie Sprecherwechsel, Nebensequenzen oder Reparaturen äußert sich Schegloff in einem Interview zu seinem Konzept von Ressourcen: However understandable as a narrative line, I think this is a deeply flawed understanding of the place of formal and systematic analysis in the larger enterprise of studies of talk-in-interaction- - whether the formal analysis is of turn-taking, of sequence organization, of repair, or of any other organizational domain of practices of talk-in-interaction. In my view, such formal resources are like a reservoir of tools, materials and know-how from which particular academic analytic undertakings can draw in inquiry, because practicing interactants draw on them in concertedly constructing what transpires in interaction. (Cmejrková/ Prevignano 2017, S.-34; Hervorhebung im Original) Ohne die Kenntnis und Berücksichtigung der Funktionsweise dieses „Werkzeugkastens“ sprachlich Handelnder kann nicht rekonstruiert werden „what transpires in interaction“, was immer das im Einzelnen ist. <?page no="111"?> Natürlichkeit vs. Reichhaltigkeit vs. Vergleichbarkeit 111 Jefferson gibt ein Beispiel: In interactional terms, an occurrence such as ‘ . . . thuhuhofficer’ may be an elaborate act, serving as a resource for such interactional business as the proferring of identity of self and situation. So, for example, ‘. . . thuhuhofficer’ can convey not merely that someone happened to be on the verge of saying ‘cop’ and replaced it with ‘officer’, but that this is the sort of person who habitually uses the term ‘cop’ and replaced it with ‘officer’ out of deference to the courtroom surround; someone who is to be recognized as operating in unfamiliar territory, e. g. a regular guy talking to a Judge in a courtroom. ( Jefferson 1974, S.-192) Jefferson zeigt, wie die Form uh in entsprechender prosodischer Umgebung als Werkzeug zur Markierung von beinah gemachten Fehlern gleichzeitig zur Kontextualisierung des Selbst eingesetzt werden kann. In diesem Sinne ist bei der Erhebung von Korpora zur Bearbeitung von übergeordneten Forschungsfragen gleichzeitig die ‚kontextfreie‘ Maschinerie und das zu erfassen, was Handelnde darüber hinaus tun. Indem sie etwa unter Nutzung ihrer explanativen Ressourcen ein Spiel erklären, stellen sie sich als Experten dar (Kern 2003), stillen sie den Informationsbedarf einer Erwachsenen, folgen einer Aufgabenstellung im Gespräch oder geben Einblick in ihre häusliche Alltagskultur. Im nächsten Abschnitt werfen wir einen exemplarischen Blick auf die Erhebung dieser Daten zwischen Natürlichkeit und Standardisierung. 4. Beispiel für die Versöhnung der widerstreitenden Merkmale bei projektspezifischen Korpora Wenn soziale Realität grundsätzlich lokal interaktiv reproduziert wird, gilt das auch für die spezielle Art der Vollzugswirklichkeit, die Interaktanten in der Folge eines standardisiert durch Forschende gesetzten Stimulus herstellen. Wichtig ist, dass die jeweilige Vollzugswirklichkeit in der Analyse rekonstruiert und nicht vorschnell mit nicht-elizitierten Alltagsgesprächen gleichgesetzt wird: Es interessieren nur solche Daten, bei denen die sprachliche Interaktion nicht eigens für den Forschungsanlass inszeniert wurde (wie z. B. bei einem Interview) und bei denen die Teilnehmer*innen weitestgehend so agieren, wie sie es auch ohne den Anlass der Gesprächsaufzeichnung tun würden. (Schmidt 2022, S.- 422, Hervorhebung UQ) Genau hierin liegt der Trugschluss: Der/ die Analysierende weiß eben nicht, wie die „Teilnehmer*innen ohne Anlass der Gesprächsaufzeichnung agieren“. Es kann nur rekonstruiert werden, wie sie den Kontext der Erhebung gestalten. Die rekonstruktive Analyse einer Vielzahl von Korpora, die nach den Prinzipien von Reichhaltigkeit, Vergleichbarkeit und ‚Natürlichkeit‘ der interessierenden Verfahren (nicht der Interaktionsanlässe) zu unterschiedlichen Forschungsfragen erhoben wurden, zeigen, in welchem Ausmaß und mit welchen (systematischen) Unterschieden Beteiligte im gemeinsamen Prozess ihre je eigene soziale Wirklichkeit konstituieren. <?page no="112"?> Uta Quasthoff 112 Als Beispiel eines komplexen Korpus seien hier die chronologisch verschränkten Datenerhebungen der DASS- und OLDER-Studien 1 zur längsschnittlichen Analyse von Diskurserwerbsprozessen bei Grundschulkindern kurz beschrieben. Der Untertitel der Monografie, die die Ergebnisse der Studien vorlegt (Quasthoff et al. 2019), nimmt explizit Bezug auf den eingangs angesprochenen kontrollierten Analyseweg von interaktiven „Praktiken“ über die Herausdestillierung von individuellen „Fähigkeiten“ und interaktiven wie individuellen „Ressourcen“ zur Nachzeichnung von „Erwerb“. Die Studie setzt sich zum Ziel, die der unmittelbaren Beobachtung nicht zugänglichen Aneignungsverfahren von diskursiven Kompetenzen in ihrer Unterschiedlichkeit zu rekonstruieren: Erwerbstheoretisch argumentiert können wir Entwicklung nicht erklären ohne die Rekonstruktion der Verfahren, mit Hilfe derer Kinder die entsprechenden Kompetenzen aufbauen, die Bestimmung der Teilfähigkeiten, aus denen sich die jeweilige Kompetenz zusammensetzt, die Identifikation der äußeren Bedingungen, die wesentlich sind für das Gelingen des Erwerbsprozesses, sowie der jeweils vorhandenen internen Ressourcen, auf die der Erwerbsprozess zurückgreift. (Quasthoff et al. 2019, S.-37) Diese Fragestellungen erfordern einen multiperspektivischen Blick auf die kindbezogenen Daten derart, dass unterschiedliche Fenster in die Praktiken des Kindes Rückschlüsse auf Erwerbsressourcen und Facetten von Kompetenzen zulassen. Erwerbsverläufe sind bspw. nur durch längsschnittliche Erhebungen rekonstruierbar. Also musste die Erhebung die Kinder über einen erwerbstheoretisch relevanten Zeitraum begleiten. Das Interesse an einem Modell der Diskurskompetenz-- und didaktischen Anwendungsdimensionen- - schloss sehr wesentlich die Frage ein, ob Kompetenzen und Erwerbsverläufe jeweils gleichförmig über verschiedene Gattungen hinweg zu konzeptualisieren sind oder ob narrative und etwa explanative Fähigkeiten sich in der Aneignung unterschiedlich verhalten. Im gleichen Zusammenhang interessierte die Frage, ob und wie mündliche Diskurs- und schriftliche Textkompetenzen zusammenhängen. Also mussten die Praktiken eines jeden Kindes in hinreichender Reichhaltigkeit narrative und explanative Verfahren in mündlicher und schriftlicher Ausprägung enthalten. Erwerbsmechanismen in ihrer Verschiedenheit wurden auf der Basis umfangreicher empirischer Vorarbeiten theoretisch als ein je spezifisches Zusammenspiel von externen, vom Kontext bereitgestellten, und internen, abrufbaren sprachlichen und kognitiven Ressourcen des Kindes konzeptualisiert. Also mussten die beobachteten 1 DASS: Diskursfähigkeiten als sprachliche Sozialisation: Individuelle Unterschiede in den Diskursstrukturen von Schulanfängern unter ontogenetischen, interaktiven und institutionellen Aspekten (DFG, 2000-2003); http: / / home.edo.tu-dortmund.de/ ~quasthoff/ Drittmittelprojekte.html. OLDER: Orale und literale Diskursfähigkeiten: Erwerbsmechanismen und Ressourcen (DFG, 2002- 2005); http: / / home.edo.tu-dortmund.de/ ~quasthoff/ Drittmittelprojekte.html. <?page no="113"?> Natürlichkeit vs. Reichhaltigkeit vs. Vergleichbarkeit 113 narrativen und explanativen Verfahren in einem Maße vergleichbar sein, das die kontextuellen Zuhöreraktivitäten (externen Ressourcen) und die jeweiligen kindlichen Lösungen der kontextuell vergleichbaren Aufgabe (interne Ressourcen) vergleichend zu rekonstruieren erlaubte. Um einen breiteren Einblick in die Rolle der ‚äußeren Bedingungen‘ für das Gelingen des Erwerbsprozesses in ihrer Vielfältigkeit zu gewinnen, sollten verschiedene Kontexte (elizitierte Erwachsenen-Kind- Interaktionen, natürliche Familien- und Unterrichtsinteraktionen) erhoben werden. Das Interesse an systematischen Unterschieden in Praktiken, Kompetenzen und Erwerbsprozessen verlangt im Übrigen eine hinreichend große Anzahl an Beteiligten, so dass Fallstudien keine Option waren. Die folgende Grafik zeigt die entlang diesen Fragestellungen und Forschungsinteressen verschachtelten Korpora der DASS-/ OLDER-Studien im Überblick (siehe dazu Quasthoff et al. 2019, bes. Kap.-3 und 5; zu den Unterrichtsdaten Leßmann 2020; zu den Familiendaten Morek 2012): Familieninterak�onen bei ausgewählten Fokuskindern (41 Aufzeichnungen von 6 Kindern) Schreibprozesse und Unterrichtsinterak�onen (insgesamt 20) Abb.-1: Die Konstellation der DASS-/ OLDER-Daten (nach Quasthoff et al. 2019, S.-58) Die Grafik zeigt, dass eine wesentliche Bedingung für die Bearbeitbarkeit der Fragestellungen in der Erhebung und Verschränkung einzelner Teilkorpora liegt. Die Korpora sind längsschnittlich organisiert, enthalten verschiedene Gattungen sowie die Medialitäten ‚mündlich‘ und ‚schriftlich‘ und stammen aus verschiedenen sozialen Kontexten: Videografierte elizitierte Gespräche zu zwei Erzählgattungen und einer Anleitung mit einem fremden Erwachsenen sowie nicht gesteuerte videografierte Unterrichts- und audiografierte Familieninteraktionen. Die Erzählungen und Erklä- <?page no="114"?> Uta Quasthoff 114 rungen beziehen ihre Vergleichbarkeit und Reichhaltigkeit aus standardisierten Settings. Dabei wurde jeweils zwei Kindern zur Elizitierung der Erlebniserzählungen vom Erwachsenen jeweils eine (Tier-)Geschichte vorgelesen und danach im Gesprächsverlauf die Frage gestellt, ob ihnen auch schon mal Ähnliches passiert sei. Die Anleitungen wurden in Form einer von den Kindern erbetenen Erklärung eines Spiels elizitiert, das der/ die Erwachsene vorgeblich auf einem Kindergeburtstag spielen sollte, aber nicht kannte. Die Kinder hatten zwar die Freiheit, den Impuls aufzugreifen oder nichts zu erzählen bzw. zu erklären, das Setting insgesamt ist jedoch alles andere als natürlich. Die mikrostrukturelle Freilegung der narrativen bzw. explanativen Verfahren zeigte aber im Vergleich der Teilkorpora und bezogen auf aus der Literatur bekannte Befunde sehr deutlich, dass die Kinder auf ihnen verfügbare Praktiken des Erzählens und Erklärens zurückgriffen, die sie entsprechend kontextualisierten. So konnten z. B. narrative Kontextualisierungsverfahren rekonstruiert werden, die nur über den von uns gesetzten Impuls zu entdecken waren (vgl. Quasthoff et al. 2019, Kap.-6.1.1 und 6.1.2). Eine Analyse, die grundsätzlich davon ausgeht, dass Praktiken generell nur in kontextualisierter Form vorfindbar sind und ihre Rekonstruktion mit GLOBE entsprechend stützen kann, ist also in der Lage, etwa die narrativen/ explanativen und die Kontextualisierungsverfahren jeweils zu destillieren. Dies wird ermöglicht durch den systematischen Kontextvergleich, den die Datenkonstellation bereitstellt. (Für eine Analyse der DASS-/ OLDER-Daten, die in besonderer Weise die Herstellung der extern etablierten Kontexte erfassen, vgl. Ohlhus 2014). Wir können also aus dem Beispiel der DASS-/ OLDER-Daten das Fazit ziehen, dass alle Praktiken in der Dynamik der Interaktion jeweils von den Beteiligten lokal kontextualisiert werden, auch diejenigen, die sich im Anschluss an einen standardisierten Impuls entwickeln. Die jeweils lokal hergestellten Kontexte müssen in der Erhebung zugelassen und in der Rekonstruktion einbezogen werden. Weitere Beispiele für die gleichzeitige Umsetzung der Prinzipien Natürlichkeit, Reichhaltigkeit und Vergleichbarkeit werden in Quasthoff (2021) diskutiert. 5. Fazit und Ausblick auf Möglichkeiten der projektübergreifenden korpustechnologischen Nutzung Da Datenaufnahmen soziale Konstrukte sind, besteht für Forschende methodologisch und theoretisch ein Unterschied zwischen der Analyse selbst erhobener gegenüber der Arbeit mit fremden Daten. (Stukenbrock 2022, S.-308) Der im letzten Abschnitt skizzierte Datenpool aus den DASS- und OLDER-Studien steht für weitere, für die die Verbindung zwischen Standardisierung (Vergleichbarkeit), Elizitierung (Reichhaltigkeit des untersuchten Phänomens) und Zulassung der je eigenen kontextuellen Dynamik charakteristisch sind (vgl. Quasthoff-2021). Diese <?page no="115"?> Natürlichkeit vs. Reichhaltigkeit vs. Vergleichbarkeit 115 Daten teilen Merkmale, die entscheidend sind für die Möglichkeiten und Grenzen ihrer Nutzung als Korpora außerhalb des ursprünglichen Projektzusammenhangs: Diese Datensammlungen sind - sehr spezifisch auf die Projektfragestellungen und Theorieformate zugeschnitten, also nicht mit dem Ziel einer breiteren Nutzung erhoben, - in Umfang und v. a. in ihrer Konstellation außerordentlich komplex, - i. a. audiovisuell aufgezeichnet, - in ihrer kontextuellen Einbettung vielschichtig und z. T. abweichend von authentischen, ‚natürlichen‘ Daten. Während die ersten beiden Bestimmungen einer projektübergreifenden Nutzung nicht prinzipiell entgegenstehen dürften, stellen die audiovisuelle Aufzeichnung mit der unmittelbaren Möglichkeit der Identifizierung der Beteiligten und die speziellen kontextuellen Bedingungen besondere Herausforderungen ethischer, rechtlicher und methodischer Art. Sie führen dazu, dass trotz der gegenwärtigen Praxis der Wissenschaftsförderung zugunsten der Mehrfachnutzung von Korpora die „Erwartung, dass sie als empirische Datengrundlage über den eigenen Projektzusammenhang hinaus verwendet werden können oder sogar sollen“ für die Forschenden durchaus nicht „selbstverständlich“ (Schmidt 2018, S.-216) sein muss. Die Datenerhebung in einigen Kontexten meiner Projekte ist durchaus intrusiv, insofern etwa Familieninteraktionen (Quasthoff/ Kern 2007; Morek 2012; Quasthoff/ Kluger 2021) oder über einen längeren Zeitraum Unterrichtsinteraktionen (Leßmann 2020) beobachtet und aufgezeichnet wurden. Die rechtlich bindende Zustimmung der Beteiligten dafür ließ sich nur auf der Grundlage eines aufgebauten Vertrauensverhältnisses zu uns Forschenden sowie unter der Zusicherung erhalten, dass die Daten nicht weitergegeben werden. Auch ein neueres Muster einer Einverständniserklärung für die Erhebung von Videodaten enthält die Bestimmung: Zugang zu diesen Daten haben ausschließlich die Projektmitarbeiter. Die aufgezeichneten Daten werden für wissenschaftliche Forschungszwecke verwendet und nicht an Dritte zu anderen Zwecken weitergegeben. (Stukenbrock 2022, S.-322) Hätten wir insbesondere die Videodaten von Beginn an mit dem rechtlich abgesicherten Ziel einer Mehrfachnutzung erhoben, hätten wir einen Großteil in der vorliegenden Form gar nicht erheben können. Dazu kommt die ethisch relevante und nicht oft gewürdigte Tatsache, dass die Beteiligten in unseren Daten wesentlich Kinder sind, über deren Zustimmung zur Teilnahme an der Forschung jeweils Erwachsene entscheiden. Gäben wir die audiovisuell aufgezeichneten Daten aus der Hand, könnten sich prinzipiell Jahre später die nunmehr Erwachsenen selbst identifizieren und konfrontiert sehen mit Aufzeichnungen, denen sie in ihrem jetzigen rechtlichen Status möglicherweise nicht zugestimmt hätten. <?page no="116"?> Uta Quasthoff 116 Nun ließe sich argumentieren, dass man dann ja wenigstens die Transkripte-- oder verpixelte Aufnahmen-- zur weiteren Nutzung bereitstellen könnte. Die Nutzung von Transkripten oder unkenntlich gemachten Aufnahmen sind jedoch mit entscheidenden Verlusten an Information über den tatsächlichen Verständigungsprozess verbunden. Gleichzeitig zeigt sich, dass auch die reinen Inhalte des Gesprochenen häufig eine Wiedererkennung ermöglichen. Angesichts der Tatsache, dass generell die korpustechnologische Verarbeitung gesprochener Sprache immer noch auf Schwierigkeiten stößt (Mair 2018, S.- 15), stellt sich die Frage des Verhältnisses von Aufwand und Nutzen. Aus diesen erhebungsmethodischen, rechtlichen und ethischen Gründen haben wir uns seinerzeit entschieden, die Gesprächskorpora der DASS-/ OLDERsowie der FUnDuS- (Quasthoff/ Kluger 2021) und der InterPass-Studie (ebd., 2017) nicht für die Aufbereitung zur Weiternutzung zur Verfügung zu stellen. Diese skizzierten Erwägungen betreffen primär die Anbieterseite des projektübergreifenden Datenmanagements. Aus der Perspektive der potenziellen Nutzer*innen ist die Kosten-Nutzen-Frage radikaler zu stellen: Könnten die (Teil-)Korpora in ihrer sehr auf die spezielle Fragestellung zugeschnittenen und kontextuell verschachtelten Form zwischen externer interaktiver Aufgabenstellung und je spezifischer Dynamik überhaupt für Nachnutzungen in Frage kommen? Stukenbrock spricht nicht umsonst von einer „deutliche[n] Präferenz für selbst erhobene Daten“ unter vielen Forschenden (Stukenbrock 2022, S.-309). Wenn unterstellt wird, dass Nachnutzungen prinzipiell auf das Auffinden dekontextualisierter Konkordanzen gerichtet sind, ist zwischen der Art der neuen Fragestellungen und den verwendeten methodischen Verfahren zu unterscheiden. Natürlich könnten prinzipiell morphosyntaktische oder lexikalische Phänomene in den unterschiedlichen Erwachsenen-Kind-Interaktionen meiner Projektkorpora nach entsprechender Aufbereitung automatisch erfasst werden. Für die analytische Desambiguierung und Einordnung dieser Phänomene dürften dann allerdings letztlich wieder aufwendige Schritte oder mikrokontextuelle Analysen notwendig werden (vgl. z. B. die Vorgehensweise bei der Analyse von okay in verschiedenen Korpora in Storrer/ Herzberg 2022). Das gilt besonders etwa angesichts der ko-konstruktiven Bedingungen bei auftauchenden kindlichen Formen in der Erwachsenen-Kind-Interaktion, die sich-- wie oben beschrieben-- einer dekontextualisierten Betrachtung systematisch entziehen. Frequenzanalysen dekontextualisierter Phänomene sind aus der Sicht der IDA und mit den in ihrem Rahmen erhobenen Korpora jedoch durchaus möglich (Quasthoff et al. 2021): Sie folgen allerdings in einem methodisch kontrollierten Prozess den rekonstruktiv-kontextualisierten GLOBE-Analysen, indem sie aus diesen kodierbare Vorkommensmuster ableiten. Diese wären dann auch mit komplexen Suchautomatismen auffindbar. <?page no="117"?> Natürlichkeit vs. Reichhaltigkeit vs. Vergleichbarkeit 117 Aber: Sind derartige Nutzungsinteressen außerhalb des ursprünglichen theoretischen und empirischen Projektzusammenhangs erwartbar und in ihrem technologischen Aufwand vertretbar? Literatur Auer, Peter (1996): Kontextualisierung. In: Studium Linguistik-19, S.-22-48. Beißwenger, Michael/ Lemnitzer, Lothar/ Müller-Spitzer, Carolin (Hg.) (2022): Forschen in der Linguistik. Eine Methodeneinführung für das Germanistik-Studium. Paderborn: Brill | Fink. Bergmann, Jörg/ Quasthoff, Uta M. (2010): Interaktive Verfahren der Wissensgenerierung- - Methodische Problemfelder. In: Dausendschön-Gay, Ulrich/ Domke, Christine/ Ohlhus, Sören (Hg.): Wissen in (Inter)Aktion. Verfahren der Wissensgenerierung in unterschiedlichen Praxisfeldern. (=-Linguistik-- Impulse-& Tendenzen-39). Berlin/ New York: De Gruyter, S.-21-34. Birkner, Karin/ Auer, Peter/ Bauer, Angelika/ Kotthoff, Helga (2020): Einführung in die Konversationsanalyse. Berlin/ Boston: De Gruyter. https: / / doi.org/ 10.1515/ 9783110689082. Cmejrková, Svetla/ Prevignano, Carlo (2017): A discussion with Emanuel A. Schegloff. In: Raymond, Geoffrey/ Lerner, Gene H./ Heritage, John (Hg.): Enabling human conduct: Studies- of talk-in-interaction in honor of Emanuel A. Schegloff. Amsterdam: Benjamins, S.-xxii-lxi. de Ruiter, Jan P./ Albert, Saul (2017): An appeal for a methodological fusion of conversation analysis and experimental psychology. In: Research on Language and Social Interaction-50,-1, S.-90-107. Durrell, Martin (2008): Linguistic Variable-- Linguistic Variant. In: Ammon, Ulrich/ Dittmar, Norbert/ Mattheier, Klaus J./ Trudgill, Peter (Hg.): Sociolinguistics: An International Handbook of the Science of Language and Society/ Soziolinguistik: Ein internationales- Handbuch zur Wissenschaft von Sprache und Gesellschaft. (=- Handbücher zur Sprach- und Kommunikationswissenschaft/ Handbooks of Linguistics and Communication Science [HSK]-3.1). Berlin/ New York: De Gruyter Mouton, S.-195-199. https: / / doi. org/ 10.1515/ 9783110141894.1. Goodwin, Charles (2018): Co-operative action. (=- Learning in Doing: Social, Cognitive and Computational Perspectives). Cambridge u. a.: Cambridge University Press. Günthner, Susanne (1995): Gattungen in der sozialen Praxis. Die Analyse „kommunikativer- Gattungen“ als Textsorten mündlicher Kommunikation. In: Deutsche Sprache- 23, S.-193-218. Günthner, Susanne (2000): Vorwurfsaktivitäten in der Alltagsinteraktion. Grammatische, prosodische, rhetorisch-stilistische und interaktive Verfahren bei der Konstitution kommunikativer Muster und Gattungen. (=- Reihe Germanistische Linguistik- 221). Tübingen: Niemeyer. Hanks, William F. (1987): Discourse genres in a theory of practice. In: American Ethnologist-14,-4, S.-668-692. Hausendorf, Heiko (Hg.) (2007): Gespräch als Prozess. Linguistische Aspekte der Zeitlichkeit verbaler Interaktion. (=-Studien zur Deutschen Sprache-37). Tübingen: Narr. <?page no="118"?> Uta Quasthoff 118 Hausendorf, Heiko/ Quasthoff, Uta M. (2005): Konversations-/ Diskursanalyse: (Sprach-)Entwicklung durch Interaktion. In: Mey, Günter (Hg.): Qualitative Forschung in der Entwicklungspsychologie. Köln: Kölner Studien Verlag, S.-585-618. Hazel, Spencer (2016): The paradox from within: research participants doing-being-observed. In: Qualitative Research August-16,-4, S.-446-467. Jefferson, Gail (1972): Side sequences. In: Sudnow, David N. (Hg.): Studies in social interaction. New York u. a.: Free Press, S.-294-333. Jefferson, Gail (1974): Error correction as an interactional resource. In: Language in Society-3,-2, S.-181-199. DOI: 10.1017/ S0047404500004334. Kasper, Gabriele/ Wagner, Johannes (2014): Conversation analysis in applied linguistics. In: Annual Review of Applied Linguistics-34, S.-171-212. DOI: 10.1017/ S0267190514000014. Kendrick, Kobin H. (2017): Using conversation analysis in the lab. In: Research on Language and Social Interaction-50,-1, S.-1-11, DOI: 10.1080/ 08351813.2017.1267911. Kern, Friederike (2003): Die Inszenierung von Kompetenz in Spielerklärungen von Kindern. In: Fix, Ulla/ Habscheid Stephan (Hg.): Gruppenstile. Zur sprachlichen Inszenierung sozialer Zugehörigkeit. (=-Forum Angewandte Linguistik-42). Frankfurt a. M.: Lang, S.-33-49. Klieme, Eckhard/ Maag-Merki, Katharina/ Hartig, Johannes (2007): Kompetenzbegriff und Bedeutung von Kompetenzen im Bildungswesen. In: Hartig, Johannes/ Klieme, Eckhard (Hg.): Möglichkeiten und Voraussetzungen technologiebasierter Kompetenzdiagnostik. Eine Expertise. Bonn u. a.: BMBF, S.-5-15. Kotthoff, Helga (2020): Erzählen in Gesprächen. In: Birkner, Karin/ Auer, Peter/ Bauer, Angelika/ Kotthoff, Helga (Hg.): Einführung in die Konversationsanalyse. Berlin/ Boston: De Gruyter, S.-415-467. https: / / doi.org/ 10.1515/ 9783110689082. Labov, William (1972): Some principles of linguistic methodology. In: Language in Society-1,-1, S.-97-120. Leßmann, Ann-Christin (2020): Unterrichtsinteraktion in der Grundschule- - sequenzielle Analysen zur Ko-Konstruktion von Angemessenheit zwischen Lehrenden und Lernenden. (=-Stauffenburg Linguistik-115). Tübingen: Stauffenburg. Luckmann, Thomas (1989): Kultur und Kommunikation. In: Haller, Max/ Zapf, Wolfgang/ Hoffmann-Nowotny, Hans-Joachim (Hg.): Kultur und Gesellschaft. Verhandlungen des 24.-Deutschen Soziologentags, des 11. Österreichischen Soziologentags und des 8.-Kongresses der Schweizerischen Gesellschaft für Soziologie in Zürich 1988. (=- Deutscher Soziologentag: Verhandlungen des Deutschen Soziologentages-24). Frankfurt: Campus, S.-33-45. Mair, Christian (2018): Erfolgsgeschichte Korpuslinguistik? In: Kupietz, Marc/ Schmidt, Thomas (Hg): Korpuslinguistik. (=- Germanistische Sprachwissenschaft um 2020- 5). Berlin/ Boston: De Gruyter, S.-5-26. Morek, Miriam (2012): Kinder erklären. Interaktionen in Familie und Unterricht im Vergleich. (=-Stauffenburg Linguistik-60). Tübingen: Stauffenburg. Morek, Miriam/ Quasthoff, Uta M. (2017): Sprachliche und diskursive Praktiken unter Kindern. In: Neuland, Eva/ Schlobinski, Peter (Hg): Handbuch Sprache in sozialen Gruppen. (=-Handbücher Sprachwissen-9). Berlin/ Boston: De Gruyter, S.-255-275. <?page no="119"?> Natürlichkeit vs. Reichhaltigkeit vs. Vergleichbarkeit 119 Mondada, Lorenza/ Pekarek Doehler, Simona (2004): Second language acquisition as situated practice: Task accomplishment in the French second language classroom. In: The Modern Language Journal-88,-4, S.-501-518. Ohlhus, Sören (2014): Erzählen als Prozess. Interaktive Organisation und narrative Verfahren in mündlichen Erzählungen von Grundschulkindern. (=-Stauffenburg Linguistik-79). Tübingen: Stauffenburg. Quasthoff, Uta M. (2021): Methodische Überlegungen zur Datenbasis in der Interaktionalen- Diskursanalyse. In: Quasthoff/ Heller/ Morek (Hg.), S.- 43-78. www.degruyter.com/ document/ doi/ 10.1515/ 9783110707168/ html. Quasthoff, Uta M./ Kern, Friederike (2007): Familiale Interaktionsmuster und kindliche Diskursfähigkeit: Mögliche Auswirkungen interaktiver Stile auf diskursive Praktiken und Kompetenzen bei Schulkindern. In: Hausendorf (Hg.), S.-277-306. Quasthoff, Uta M./ Kluger, Christian (2021): Familiale Interaktionsmuster als Erwerbsressource im längsschnittlichen Verlauf. In: Quasthoff/ Heller/ Morek (Hg.), S.- 107-156. www.degruyter.com/ document/ doi/ 10.1515/ 9783110707168/ html. Quasthoff, Uta M./ Prediger, Susanne (2017): Fachbezogene Unterrichtsdiskurse zu Beginn der weiterführenden Schule. Interdisziplinäre Untersuchungen zur Unterstützung von sprachlichem und fachlichem Lernen. In: Thielmann, Winfried/ Trautmann, Caroline/ Krause, Arne/ Lehmann, Gesa (Hg.): Form und Funktion. Festschrift für Angelika Redder. (=-Stauffenburg Festschriften). Tübingen: Stauffenburg, S.-625-644. Quasthoff, Uta M./ Heller, Vivien/ Morek, Miriam (2017): On the sequential organization and genre-orientation of discourse units in interaction: An analytic framework. In: Discourse Studies-19,-1, S.-84-110. Quasthoff, Uta/ Kern, Friederike/ Ohlhus, Sören/ Stude, Juliane (2019): Diskurse und Texte von Kindern: Praktiken-- Fähigkeiten-- Ressourcen: Erwerb. Tübingen: Stauffenburg. http: / / dx.doi.org/ 10.17877/ DE290R-20360. Quasthoff, Uta M./ Wild, Elke/ Domenech, Madeleine/ Hollmann, Jelena/ Kluger, Christian/ Krah, Antje/ Otterpohl, Nantje (2021): Familiale Ressourcen für den Erwerb von Argumentationskompetenz. In: Quasthoff/ Heller/ Morek (Hg.), S.-79-106. www.degruyter.com/ document/ doi/ 10.1515/ 9783110707168/ html. Quasthoff, Uta/ Heller, Vivien/ Morek, Miriam (Hg) (2021): Diskurserwerb in Familie, Peergroup und Unterricht. Passungen und Teilhabechancen. (=-Reihe Germanistische Linguistik-324). Berlin/ Boston: De Gruyter. Sacks, Harvey/ Schegloff, Emanuel A./ Jefferson, Gail (1974): A simplest systematics for the organization of turn-taking for conversation. In: Language-50,-4, S.-696-735. Schegloff, Emanuel A./ Sacks, Harvey (1973): Opening up closings. In: Semiotica-8,-4, S.-289- 327. https: / / doi.org/ 10.1515/ semi.1973.8.4.289. Schegloff, Emanuel A./ Sacks, Harvey (1978): Zwei Präferenzen in der Organisation personaler Referenz in der Konversation und ihre Wechselwirkung. In: Quasthoff, Uta M. (Hg.): Sprachstruktur- - Sozialstruktur. Zur linguistischen Theorienbildung. Königstein: Scriptor, S.-150-157. <?page no="120"?> Uta Quasthoff 120 Schmidt, Thomas (2018): Gesprächskorpora. Aktuelle Herausforderungen für einen besonderen Korpustyp. In: Kupietz, Marc/ Schmidt, Thomas (Hg.): Korpuslinguistik. (=-Germanistische Sprachwissenschaft um 2020-5). Berlin/ Boston: De Gruyter, S.-209-230. Schmidt, Thomas (2022): Korpora gesprochener Sprache. In: Beißwenger/ Lemnitzer/ Müller- Spitzer (Hg.), S.-421-430. Speer, Susan A. (2002): “Natural” and “contrived” data: A sustainable distinction? In: Discourse Studies-4,-4, S.-511-525. Stivers, Tanya (2015): Coding social interaction: A heretical approach in conversation analysis? In: Research on Language and Social Interaction- 48,- 1, S.- 1-19. DOI: 10.1080/ 08351813.2015.993837 Storrer, Angelika/ Herzberg, Laura (2022): Alles okay! Korpusgestützte Untersuchungen zum Internationalismus OKAY. In: Beißwenger/ Lemnitzer/ Müller-Spitzer (Hg.), S.-37-59. Stukenbrock, Anja (2022): Audio- und Videografie. In: Beißwenger/ Lemnitzer/ Müller-Spitzer (Hg), S.-307-321. Weinert, Franz E. (2001): Vergleichende Leistungsmessung in Schulen- - eine umstrittene Selbstverständlichkeit. In: Weinert, Frank (Hg.): Leistungsmessungen in Schulen. Weinheim/ Basel: Beltz, S.-17-32. <?page no="121"?> TEXTKORPORA: UNTERSUCHUNGEN UND ANWENDUNGEN <?page no="123"?> LUDWIG M. EICHINGER ANPASSUNGSFÄHIGKEIT UND AKZENTUIERUNG Von modernen Dingen und den vielfältigen Möglichkeiten adjektivischer Wortbildung Abstracts : Anhand einer korpusgestützten Untersuchung komplexer Adjektive mit dem Erstelement {gender-} mit DeReKoVecs wird gezeigt, welche Möglichkeiten zur differenzierten sprachlichen Integration von neuen Diskurselementen die Wortbildung des Adjektivs bietet. Gerade die zwischen den klassischen Typen Komposition und Derivation stehenden Techniken bieten hier eine erhebliche Bandbreite an Möglichkeiten. Based on a corpuslinguistic study of complex adjectives with the first element {gender-} this article shows how new discourse elements are linguistically integrated by means of word formation. Especially techniques between the classical types of composition and derivation offer a wide range of possibilities. Keywords: Wortbildung, Adjektiv, Inkorporation, Affixoid, Rektionskompositum, Gender, -gerecht 1. Wortbildung als Adaptation an gewandelte Diskurse: Der Gender-Diskurs Aktuelle Diskurse brauchen aktuelle Wörter. Das gilt auch für das mit Sexus, Genus, Geschlecht, Gender umrissene Feld des Sprechens von geschlechtsbezogenen Verhältnissen. Das neueste dieser Wörter ist Gender, ein aus dem amerikanischen Englisch entlehntes Lexem, das die Wiedergabe der Kategorie ‚soziales Geschlecht‘ erlaubt. Im Neologismenwörterbuch des IDS (www.owid.de/ artikel/ 407550, Stand: 28.4.2023) wird es als Neologismus der 1990er Jahre eingeführt, in den frühen Belegen häufig durch Anführungszeichen, den Bezug auf das englische sex, und durch Kleinschreibung als „Fremdwort“ oder im Textbezug als etwas zu Erläuterndes gekennzeichnet, so z. B. in dem folgenden Beleg. (1) Der Begriff sex bezeichnet den Geschlechtsunterschied in biologischer Hinsicht, der Begriff gender hingegen in kultureller, sofern die Geschlechterrollen nicht einfach Natur sind, sondern sozial konstruiert werden. (Frankfurter Allgemeine Zeitung, November 1993) Seit den 2010er Jahren wird seine Verwendung gängiger, damit wächst der Grad an formaler Integration. Im Folgenden geht es um die Integration in die Muster der adjektivischen Wortbildung. Warum ist das ein interessanter Punkt? Zum ersten sind Adjektive stark wortbildungsabhängig. Es gibt sehr wenige Simplizia, so dass die Frage, welche Mittel hier wozu genutzt werden, bei der sprachlichen Einbettung neuer Lexeme auf jeden Fall eine Rolle spielt. Zum zweiten kann mithilfe der Wort- DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="124"?> Ludwig M. Eichinger 124 bildung die Beziehung zwischen der Basis des Adjektivs und seinem Bezugswort variabel ausdifferenziert werden, und zum dritten ist die Adjektivwortbildung durch Ambivalenzen gekennzeichnet-- etwa beim Partizip oder den sogenannten Halbaffixen- - wo man die Wirkung analogischer Übergänge beobachten kann. 1 Anhand von Daten aus den DeReKo-Korpora 2 soll dem Verhalten des Elements {gender} in Texten nachgegangen werden, die sich in standardnaher geschriebener Form an eine größere unbestimmte Öffentlichkeit wenden. 3 Wenn man die Verwendung des Wortes Gender betrachtet, wie sie sich in einer Analyse nach DeReKoVecs darstellt, 4 zeigt sich einerseits seine Nähe zu weiteren Konzepten, die auf die Öffnung gesellschaftlicher Vorstellungen zielen, und das nicht nur im geschlechtsbezogenen Bereich (z. B. Antirassismus oder Klassismus). Andererseits steht es im Umfeld entsprechender Entlehnungen aus dem Englischen. Beides gemeinsam spiegelt sich z. B. darin, dass zu den unmittelbarsten Kookkurenzpartnern die Wörter Diversity und Diversität gehören. 2. genderals Wortbildungselement Wenn man nach der Verwendung von {gender-} als Erstelement sucht, findet man etwa hundert Typen, 5 darunter sind die folgenden fünfundzwanzig am häufigsten belegt: (2) gendergerecht (1631 Belege), -neutral (524), -spezifisch (214), -fluid (164), -politisch (159), -mäßig (134), -queer (76), -kritisch (60), -theoretisch (59), -bewusst (48), -sensibel (48), -konform (41), -technisch (39), -korrekt (28), -frei (21), -übergreifend (20), -geschichtlich (19), -less (15), -los (12), -freundlich (12), -typisch (11), -basiert (11), -bedingt (11), -befreit (11), -bewegt (11) Andererseits kommt eine erhebliche Zahl Bildungen nur einmal vor, z. B. die folgenden, manche sind recht unauffällig, manche erscheinen den Schreibenden offenbar als so auffällig, dass sie durch Bindestrichschreibung markiert werden: 6 1 Auch aus Umfangsgründen beschränkt sich der vorliegende Beitrag auf den Gebrauch komplexer Wörter mit dem Erstelement {gender-} und ihren systematischen Ort. 2 „W-Korpus mit Neuerscheinungen“ (incl. 2021) des DeReKo-Korpus. https: / / cosmas2.ids-mannheim. de/ cosmas2-web/ faces/ investigation/ archive.xhtml (Stand: 29.3.2023). 3 Zu den Bedingungen bei anderen Text- und Medientypen siehe Storrer (2014, S.-172); zur Frage des Bias von Korpora im Hinblick auf den Untersuchungszweck siehe z. B. Müller-Spitzer/ Lobin (2022). 4 http: / / corpora.ids-mannheim.de/ openlab/ derekovecs/ ? word=Gender&cutoff=500000&n=100&N=200 0&sort=0), (Stand: 29.3.2023). 5 Fälle, bei denen nach https: / / cosmas2.ids-mannheim.de/ cosmas2-web/ faces/ investigation/ archive. xhtml# eine statistisch spezifische Kookkurrenzbeziehung besteht; Belege seit 2013, um ein Bias durch Daten aus den Wikipedia-Diskussionsseiten 2011/ 2012 zu vermeiden. 6 Neben diesen häufigeren Fällen werden an passender Stelle weitere Beispiele herangezogen. <?page no="125"?> Anpassungsfähigkeit und Akzentuierung 125 (3) genderbar, genderisch; genderbarbarisch, -beflissen, -destabilisiert, genderegalitär, 7 -expansiv, gender-experimentell, -feministisch, -fest, -fortschrittlich, -gebenedeit, -getrübt, -indifferent, gender-klamaukig, -lastig, -multipel. 3. Wortbildungsarten 3.1 Reihenbildung: Komposition und Rektion Wenn man die Liste der belegten Adjektive insgesamt betrachtet, sieht man, dass auch Komposita vielfach mit ohnehin reihenbildenden Elementen realisiert werden. Das ist bei den Adjektiven nicht überraschend, dienen die Zweitelemente doch immer einer junktionalen Einordnung zwischen der Basis und einem Bezugselement, in der sich jeweils relevante Klassifikationen spiegeln. Bei Determinativkomposita sollten sie recht generelle Beziehungen ausdrücken. Die folgenden Elemente können als rechte Kompositionsglieder betrachtet werden. Wenn man die Relation zwischen diesen Determinata zum Determinans Gender zu erfassen sucht, sind sie wenig spezifisch, häufig wäre eine Paraphrase wie ‚mit Bezug auf ‘; in einer Reihe von Fällen (z. B. genderkritisch, gendersensibel) liegt eine Art Objektsbezug nahe (‚kritisch gegenüber‘; ‚sensibel für‘). (4) genderfluid, -konform, -korrekt, -kritisch, -neutral, -queer, -sensibel Es gibt einen fließenden Übergang hin zu den häufiger so genannten (partizipialen und adjektivischen) Rektionskomposita (siehe Eichinger 2000, S.- 214; Fandrych 2011, S.- 140 f.; Donalies 2021, S.- 213-219). Von den Adjektiven, die klar zu diesem rektionalen Typ gehören, kommt in unseren Daten häufiger nur die Bildung genderübergreifend vor. (5) Spezifisch für „Community“-übergreifende Arbeit sind solche Konflikte allerdings nicht. Man denke nur an genderübergreifende linke Bündnisse […]. (taz, 27.2.2021, S.-11) Es täuscht allerdings, wenn man in diesen Fällen lediglich auf die Zahl der Belege blickt. Denn wenn Komposita im Prinzip je einzelne Bildungen auf der Basis von bestimmten Mustern darstellen, geht es bei diesem Typ um eine kontextspezifische Junktion zwischen der Basis (hier: gender) und dem jeweiligen Bezugswort (etwa: dem attribuierten Substantiv). Getragen wird sie von den Schemata, die mit den verbalen Kernen (der Partizipien) verbunden sind. So werden bei diesem inkorporierenden Typ spezifische (meist) verbale junktionale Elemente in der Form von Parti- 7 Bindestrichschreibungen sind in ganzer Form beibehalten. <?page no="126"?> Ludwig M. Eichinger 126 zipien (und relationalen Adjektiven) aufgerufen. 8 Die sich so ergebenden Differenzierungsmöglichkeiten sieht man schon in dem folgenden Zitat, in dem sich drei entsprechende Bildungen finden, neben genderübergreifend entsprechende Bildungen mit -(un)abhängig. Sie erscheinen offenbar-- Bindestrichschreibung bei -abhängig, aber nicht bei -unabhängig- - als unterschiedlich gängig, erlauben aber neben der offenbar häufigeren ‚Bedingtheit‘ die Opposition von ‚Abhängigkeit von‘ vs. ‚Unabhängigkeit von‘ zu formulieren. (6) Dabei zeigt sich eine offenbar gender-abhängige Bewegungslust. Der Wunsch, musikalischen Impuls und rhythmischen Akzent körperlich zu vermitteln, scheint bei Frauen viel stärker ausgeprägt zu sein […]. Rudernde Arme, Handfächer und expressionistrisches [sic/ L. E.] Soufflieren für den Chor sind dagegen genderübergreifend. Darüber hinaus gibt es genderunabhängige Differenzen, wie sie auch sonst zwischen Dirigenten herrschen. (SZ, 29.1.2019, S.-10) Man sieht auch, dass die Partizipialkomposita zwar den formalen Kern dieses Bildungstyps darstellen, dass aber z. B. in Fällen wie -(un)abhängig andere relational adjektivische Bildungen eintreten können (siehe dazu Pümpel-Mader/ Gassner- Koch/ Wellmann 1992). Diese prädikatsnahe Realisierung erlaubt eine weitgehende Differenzierung im Hinblick auf das jeweilige Bezugselement, sie kann sich an die Üblichkeiten der Kookkurrenzen anpassen und der Beziehung eine spezifische Richtung geben. Tatsächlich findet sich in dem von uns untersuchten Material, wenn man die unter zehn Mal belegten Bildungen dazu nimmt, eine ganz erhebliche Menge von Adjektiven dieses Bildungstyps, etwa die folgenden. 9 (7) genderbasiert, -bedingt, -befreit, -codiert, -destabilisiert, -gemainstreamt, -geschult, -gespiegelt, -gestreamt, -getrennt, -getrieben, -getrübt, -neutralisiert, -orientiert, -passend, -relevant, -sensibilisiert, -überschreitend, -verändernd, -verdreht, -verweigernd, -verwirrt. Dabei ließe sich in mancher Hinsicht weiter differenzieren, etwa was den partizipialen bzw. adjektivischen Charakter der junktionalen Elemente angeht. So werden z. B. die Partizip-I-Formen durchweg als (verbale) Partizipialformen verstanden und können entsprechend paraphrasiert werden, während das bei Partizip-II-Formen 8 Zur Zusammenfassung syntaxnaher Wortbildungskonstruktionen unter dem Terminus Inkorporation vgl. Eichinger (2007, S.- 215-220; 2018, S.- 117-122) und im Anschluss an Eichinger (2007, S.- 119) die Diskussion als „lexematische Junktionsbildungen“ in Fandrych (2011, S.-152). 9 Sie gehören alle zu den reihenbildend-produktiven „referentiellen Partizipialkomposita“ (Smirnova 2021, S.-402 f.), die erst im 20. Jahrhundert in der Sach- und Wissenschaftsprosa aufkommen; der ornative Typ (staubbedeckt) ist älter und weniger textsortenspezifisch; zum Stilwert siehe auch Eichinger (2018, S.-120 f.). <?page no="127"?> Anpassungsfähigkeit und Akzentuierung 127 wechselt, wenig verbbezogen etwa in Belegen und bei Adjektiven wie genderverdreht oder gender-gespiegelt; in beiden Fällen mit einer Bereichsrelation ‚im Hinblick auf ‘. Insgesamt ist im Einzelnen die Abgrenzung zum klassischen Kompositum fließend. (8) Franck hat nur die Nähe zu Émilie im Kopf, diese hat als Organisatorin des Treffens den Kopf aber anderswo. Es entsteht eine gender-gespiegelte Liebeskiste, von der Autorin jedoch feinsinnig als Gegenklischee aufgebaut. (SZ, 19.10.2021, S.-28) Dagegen lassen sich Bildungen wie genderbefreit oder gendergeschult, als Konversen einer verbalen Basis verstehen: ‚(ist) befreit durch‘, ‚(ist) geschult in‘- - bzw. auch entsprechend reflexiv, z. B. genderorientiert ((ist) orientiert an). (9) […] von weitem betrachtet war das Universum der Familie Bem ein kleines, buntes, genderbefreites Utopia. Aber kann eine genderbefreite Erziehung überhaupt funktionieren? (NZZ Folio, 2.5.2017) (10) Es scheinen einigen Vertretern der genderorientierten Sprache allmählich die von hinten aufgezäumten Pferde durchzugehen. (Nordkurier, 14.3.2018, S.-19) Wenn man die semantische Art der Junktion betrachtet, dann sieht man, dass klassische Relationen bedient werden, wie in genderbasiert verschiedene im weiteren Sinn kausale (und finale) Beziehungen. (11) Außerdem bestehe »kein Zusammenhang zwischen Drogenbesitz und genderbasierter Gewalt«. (SPON, 17.3.2021) Die eher konditionale Variante -bedingt ist offenbar ein außerordentlich produktiv genutztes Muster, es gibt ganz viele solche Bildungen von alkoholbedingt, über berufsbedingt und logischerweise unheimlich häufig coronabedingt (und pandemiebedingt, covidbedingt, lockdownbedingt, quarantänebedingt usw.) bis zu verletzungsbedingt. (12) […] Polizeibeamt*innen begeben sich berufsbedingt öfter in Gefahrensituationen, wo sie eventuell von ihrem Notwehrrecht Gebrauch machen müssen. (taz, 6.10.2021, S.-25) (13) Für die coronabedingt um ein Jahr verschobene Biennale in Venedig wird Maria Eichhorn den Deutschen Pavillon gestalten. (Berliner Morgenpost, 30.12.2021, S.-9) <?page no="128"?> Ludwig M. Eichinger 128 Offenbar erlaubt dieses Muster, sich ausgehend von einer gewissen Anzahl lexikalisierter Fälle, auf jeweils aktuelle Bedingungsverhältnisse, so auch auf die mit Gender angesprochenen zu beziehen. 10 (14) Sie spitzt die Technikfeindlichkeit mancher ihrer liebsten Philosophen zu, erlaubt sich bissige, genderbedingte Seitenhiebe. (Die Presse, 8.2.2020, S.-23) Dass sich der in (14) zitierte Text konkret mit der Haltung zu Männern und Frauen beschäftigt, gibt einen Hinweis darauf, dass die Gebrauchsbreite von {gender} (noch) nicht immer so klar ist: So sind im folgenden Text (15) die referenzidentischen Benennungen Gender-Pay-Gap und geschlechtsbedingte Lohnlücke gleichermaßen in die schon lange laufende entsprechende binäre Diskussion eingebaut. (15) […] dann würden wir die geschlechtsbedingte Lohnlücke schneller schließen. […] Jede von uns müsste sich fragen: »Was ist mein Anteil am Gender-Pay- Gap? « (Zeit, 12.3.2020, S.-13) Ähnliche Verhältnisse und allmähliche Gebrauchsverschiebungen ließen sich auch für andere Bildungen und Relationen zeigen. Als Symptom dafür mag die unterschiedliche Beleglage für die Bildungen gendergetrennt und viel häufigeres geschlechtergetrennt gelten. Der zentrale Punkt bei diesen inkorporierenden Bildungen ist, dass sie eine sprachsystematisch angepasste Option junktionaler Differenzierung auf einer mittleren kategorialen Ebene liefern. 3.2 Zwischen Komposition und Derivation Für bestimmte häufiger in Frage stehende generelle Relationen gibt es dann Reihen von Konstruktionen, die zwischen den klassischen Kategorien der Komposition und der Derivation stehen (vgl. Duden 2016, S.- 760; Eichinger 2000, S.- 98; auch Duden 2022, S.-785/ 786). (16) genderaffin, -beflissen, -fähig, -fair, -fest, -frei, -freundlich, -gemäß, -gerecht, -getreu, -lastig, -los, -mäßig, -offen, -ophob, -typisch,-variant, -wütig 11 Viele komplexe Adjektive dieses Bildungstyps besetzen klassische Rollen für Bildungen in diesem Übergangsfeld zwischen Komposition und Derivation, zum Beispiel in den folgenden Fällen (siehe Eichinger 2011, S.-170-177). 10 Genderbedingt ist in den Korpora 16 mal (seit 2006) belegt, geschlechterbedingt 51 mal (seit 1996) und geschlechtsbedingt 238 mal (seit 1961). 11 Siehe insgesamt Kühnhold/ Putzer/ Wellmann (1978, S.-130-144, 489); Fandrych (1993, S.-96, 149) und Reckenthäler 2020, S.-23-35) [zu -frei und -los]. <?page no="129"?> Anpassungsfähigkeit und Akzentuierung 129 (17) Potenzialität: Wir müssen uns bitter und hart die Karten legen, dass unser parlamentarisches System, wie es heute ist, nicht genderfähig, nicht divers, nicht offen ist für parteiübergreifende Diskussionen. (SZ, 8.6.2019, S.-24) (18) ‚gern/ gut‘: Die neue linksliberale Regierung strebt weg von Kohls Europa der Vaterländer hin zu einer migrationsund- genderfreundlichen, deutsch geprägten, zentralistischen Politik aus Brüssel. (SPON, 8.12.2021; Zitat Victor Orbán) (19) ‚Enthaltensein‘: Es geht darum, Menschen eine Option zu eröffnen, zu sagen, was würde es machen, wenn ich eine Situation genderfrei formulieren würde. (BLZ, 28.1.2021, S.-14) (20) ‚in übertriebener Weise‘ Dieser Tage habe ich die Elster - ich bleib hier mal allen genderwütigen Menschen zum Trotz bei der weiblichen Form, also beim die-- nun sogar als Netzwerkerin erlebt. (Nordkurier, 12.2.2021, S.-11) In diese Gruppe gehört auch die in unserem Korpusausschnitt bei weitem am häufigsten belegte Bildung, nämlich gendergerecht. Diese Bildung folgt einem gut ausgebauten Muster und nutzt es in spezifischer Weise. Von ihr wird unten ausführlicher die Rede sein. Dazu kommt eine Reihe von Bildungen, die sich (v. a. bei fremdbzw. fachwörtlichen Basen wie genderlinguistisch; siehe Eichinger 2000, S.-27-29) als Bildungen mit Suffixaustausch (z. B. auch genderhistorisch, gendersprachlich, gendertheoretisch) bzw. als Derivate von den entsprechenden Eigenschaftssubstantiven verstehen lassen (z. B. genderwahnsinnig). Nicht immer ist die Grenze zur eigenständigen Komposition klar (z. B. genderbarbarisch, genderfeministisch, genderparitätisch, genderproblematisch), das wäre im Einzelnen zu diskutieren: (21) Sie achtet sehr auf die genderlinguistische Etikette. (taz, 23.4.2015, S.-5) (22) Mit solchen Dekreten folgt man […] identitätspolitischen Pressure Groups, die dekretieren wollen, wer dazugehört […], und wer als genderbarbarisch, transfeindlich usw. zu gelten hat. (Tages-Anzeiger, 19.11.2021, S.-30) (23) Zudem sei der Schritt hin zu einer „gerechteren gender-paritätischen Besetzung unserer Gremien ein wichtiges Signal“. (MOPO, 5.6.2021) Welchen Wortbildungstypen solche Wörter zuzuordnen sind, ist eher eine Entscheidung über die Dominanz im Gebrauch der verschiedenen Formen. So scheint z. B. eine Bindestrichschreibung wie in (23) eine Lesart als Kompositum zu indizieren, während z. B. {genderlinguist-} als eine feste lexematische Basis erscheint, um durch {-isch}, {-ik} (am häufigsten belegt) oder ohne weitere Formveränderung oder durch Movierung mit {-in} jeweils kategorial fixiert zu werden. <?page no="130"?> Ludwig M. Eichinger 130 3.3 Zwischen Komposition und Suffigierung Nur ganz marginal-- und stilistisch auffällig-- sind einfache Suffixderivationen. In den untersuchten Jahren ist nur genderisch einmal belegt, zudem einmal genderbar als passivisch-modale Ableitung zu gängigem gendern mit seiner Bedeutung ‚sich sprachlich gendergerecht ausdrücken‘. (24) Die genderische Redeweise unterscheidet jedoch gerade nicht zwischen leiblichem Geschlecht und gesellschaftlicher Stellung, sondern vermischt beide. (BLZ, 6.5.2021, S.-25) Allerdings sieht man eine mehr oder minder starke suffixartige Verfestigung bei -los (vgl. Fandrych 1993, S.- 96) und -less, ggf. auch bei -frei (siehe Fandrych 1993, S.-149/ 150). Dabei sind Bildungen mit -los nur im Kontext von Mode belegt, und auch bei -less war das länger so, der Gebrauch verallgemeinert sich aber etwas: (25) Unter dem Namen Diesel Library bieten wir eine breite Palette genderloser, essenzieller und langlebiger Denim-Artikel an. (SZ, 17.5.2021, S.-16) (26) Gutes Design ist genderless und so nachhaltig wie möglich Stern. (30.9.2021, S.-84) (27) Aber wollen alle Menschen genderfrei angesprochen werden? (SZ, 11.3.2021, S.-11) Strukturell (als jedenfalls suffixnahe Fälle) lassen sich klassische Adverbialitätselemente wie -mäßig (mit 134 Belegen häufig), -gemäß (eher selten- - 10 Belege seit 2013) oder -like (2 Belege) hier anschließen. Vor allem -mäßig und -like haben stark suffixalen Charakter (siehe Rixen 2021, S.-418 f., 438 f.): (28) Aber das darf nicht sein, weil man dann gendermäßig weniger Rechtfertigung hätte. (taz, 30.4.2021, S.-37) (29) Was sich vor zehn Jahren wie bizarre Übertreibung angefühlt hätte- - Shitstorm, Cancel Culture, gendergemäße Wortwahl, Überprüfung literarischer Texte auf Anstößiges-- ist heute Alltag. (NN, 27.12.2021, S.-29) (30) Spätestens wenn alle Menschen genderlike reden, hat sich die Triftigkeit der Gender-Studies erwiesen: […]. (NZZ, 4.4.2017, S.-39) Die erst allmählich ins Deutsche integrierte Form wie Gender ist daher in ihrem Gebrauch noch nicht so eindeutig gefestigt, und man sieht Spuren dieses Prozesses. Zudem unterliegt dieses Lexem aufgrund von Verschiebungen im zugehörigen Diskurs auch einem Gebrauchs- und Bedeutungswandel. <?page no="131"?> Anpassungsfähigkeit und Akzentuierung 131 3.4 Variabilität und graduierende Übergänge Das System der deutschen Wortbildung bietet ein reiches Inventar, um neue Elemente wie {gender} in integrative Strukturen einzupassen. Gerade die adjektivische Wortbildung erlaubt die Abstufung von Relationen mit graduierenden Übergängen, die sich durch die analogische Ausweitung vorhandener Muster ausbilden. Die klassische Suffixderivation spielt bei dem substantivischen Lexem {gender} 12 nur eine marginale Rolle; weder als Kategorie noch als Basis für stereotype Vorstellungen scheint es derzeit so akzentuiert zu sein, dass es systematisch als Basis solcher Derivate genutzt würde. Einen Teil der zwischen Komposition und Derivation changierenden Bildungen kann man jedoch den Suffixen zurechnen. Die modifizierende Technik der Determinativkomposition am anderen Ende ist bei den Adjektiven ohnehin weniger ausgebaut. Bedeutsamer als die Modifikation vorhandener Adjektive ist die Möglichkeit, eine mehr oder minder allgemeine bzw. spezifische Beziehung zwischen der Basis {gender} und seinem syntaktischen Bezugswort zu signalisieren. Ihren spezifischsten Ausdruck findet diese Relation durch Partizipien (und relationale Adjektive) im Rahmen der Inkorporation. Dabei wird ein zu beiden verbundenen Elementen passendes verbales (+adjektivisches) Schema aufgerufen-- das kommunikativ einleuchtend sein muss, um erfolgversprechend zu sein. So funktionieren auch schon Bildungen mit den sogenannten Halbaffixen, die etwas „semantischere“ Kategorien realisieren, aber eigentlich eine erweiterte Abart der Suffigierung darstellen und in einen der angedeuteten Übergangsbereiche führen. Eher in formaler Weise ambivalent sind die nicht zuletzt fremdwörtlichen Bildungen, bei denen Struktur und Motiviertheit spezifischen komplexeren Regeln folgen. 4. Diskursprägende Lexeme 4.1 Neologismen Von den vielen Bildungen mit {gender-} als Erstelement werden im Neologismenwörterbuch des IDS nur gendergerecht und genderfluid aufgeführt. Das ist sicherlich im Fall von genderfluid-- in unserem Korpusausschnitt seit 2015 und mit deutlicher Steigerung seit 2018 insgesamt etwa 170-mal belegt-- nicht überraschend, handelt es sich doch um die Kombination von zwei neuen diskursrelevanten Elementen; Fluidität spielt auch sonst außerhalb eines traditionellen fachsprachlichen Gebrauchs verstärkt eine Rolle, und wird dann entsprechend im Rahmen geschlechtlicher Nicht-Determiniertheit im Gender-Diskurs genutzt. 13 In frühen 12 Dessen Ambivalenzen im Grammatischen (Genus, Numerus) sind im Neologismenwörterbuch (www. owid.de/ artikel/ 407550, Stand: 28.4.2023) aufgeführt. 13 www.owid.de/ artikel/ 406447 (Stand: 29.3.2023). <?page no="132"?> Ludwig M. Eichinger 132 Belegen (seit 2016) zeigt sich, dass zu Beginn zum Teil die entsprechende englische Wendung auch orthografisch übernommen wurde. (31) Chase Johnsey ist zwar männlich qua Geburt und Ausweis, fühlt sich aber gender fluid und pendelt munter zwischen den Geschlechtern hin und her. (SZ, 1.9.2018, S.-16) Länger auch noch lassen sich Hinweise zur Zitatform u. ä. finden, die davon zeugen, dass die Schreibenden das Bewusstsein haben, mit einer noch nicht (voll) formal adaptierten Form umzugehen. (32) Zayn Malik […] provoziert […] mit Supermodel-Freundin Gigi Hadid auf dem Cover der US-Vogue unter dem Schlagwort „gender fluid“. (Weltwoche, 10.8.2017) Natürlich betrifft die Integration ins Deutsche auch die Festlegung und Festigung der Bedeutung. Wie die relativ aktuelle Definition in (33) zeigt, sind die Verwendungsbedingungen noch nicht sehr deutlich fixiert. (33) (genderfluid), als zwischen den Identitäten wechselnd (bigender) oder als undefiniert. (Zeit, 15.4.2021, S.-29) Daneben ist das Adjektiv queer verzeichnet, nicht allerdings das seit 2018 häufiger belegte genderqueer. Der Bedeutungswandel „von queer von ‚nicht heterosexuell‘ zu ‚nicht heteronormativ‘“ (www.owid.de/ artikel/ 408482, Stand: 28.4.2023) betrifft- auch genderqueer, wenn man z. B. den Gebrauch von Gender und genderin (34) betrachtet. (34) [Ein Verein/ L. E.] bringt Familien zusammen, in denen Kinder trans sind, genderqueer, nonbinär oder questioning also ihr Gender noch erkunden. (taz, 24.9.2021, S.-19)- Auch hier zeigt sich, dass anfangs z. B. zitatmäßige Übernahmen in der englischen Form mehr oder minder als solche markiert oder mit Erläuterungen auftauchen: (35) Es gibt Anna, die in Berlin rumhängt, sich gegen die „gender queer punk“- Ecke […] entscheidet. (Spiegel, 25.3.2016, S.-147)- 4.2 Gendergerecht im Rahmen des Musters {-gerecht} Das Wort gendergerecht ist in unserem Material bei weitem am reichhaltigsten belegt (fast 1700 Belege seit 2013). Sein Bildungstyp-- mit {-gerecht}-- gilt insgesamt als nicht sehr differenziert (siehe Kühnhold/ Putzer/ Wellmann 1978, S.-143; Duden 2016, S.-259; Brdar Szabó 1990, S.-150 f.). Gerade der Blick auf gendergerecht und sein Umfeld kann aber zeigen, dass er in einen Rahmen weiterer Konstruktionen gehört, die <?page no="133"?> Anpassungsfähigkeit und Akzentuierung 133 Optionen für analogische Ausweitungen des Musters bieten. Man kann vom Adjektiv gendergerecht aus zwei morphologisch-lexikalische Spuren ziehen: die eine führt zu dem Adjektiv gerecht, dessen Hochwortbedeutung im Substantiv Gerechtigkeit vielleicht noch eindeutiger gefasst ist. Bestimmte eher kompositionelle Verwendungen von geschlechtergerecht z. B. lassen sich so lesen: (36) Grünen-Fraktionschefin Renate Künast stellt in Berlin einen Gesetzentwurf zur geschlechtergerechten Besetzung von Aufsichtsräten vor. (Braunschw. Zeitung, 11.10.2010) Entsprechend ist in unserem Material auch nur die (häufige) Nominalisierung Geschlechtergerechtigkeit realisiert-- und ? Geschlechtergerechtheit kommt nicht vor. 14 Die andere Spur führt zu Bildungen, in denen {-gerecht} als ‚passend (zu etwas anderem)‘ gelesen wird. Typisch dafür sind lexikalisierte Bildungen mit einem „Halbaffix“ {-gerecht} wie rollengerecht: (37) „Der Junge ist soweit“, entschied mein Vater eines Tages, während meine Mutter rollengerecht skeptisch guckte. (Berliner Morgenpost, 26.4.2021, S.-16) Diese Bedeutung, dass etwas ‚passt‘ und in gewissem Maße ‚angemessen‘ ist, ist nicht erst in der Wortbildung enthalten, es gibt ein entsprechendes syntagmatischparadigmatisches Schema ‚einem Y gerecht werden‘. (38) Ihrem Ruf, klare Worte zu wählen, wird die Schwedin […] gerecht: (SZ, 3.8.2021, S.-6) Schon bei der syntaktischen Fügung gibt es Füllungen des nominalen Elements, die auf den (implizit) deontisch-fordernden Charakter des Musters verweisen. Gerecht wird man z. B. Anforderungen, Ansprüchen, einem Bedarf, Erfordernissen, Erwartungen usw. Eine ganze Reihe der Wortbildungen mit -gerecht entspricht direkt diesem Muster (siehe Brdar Szabó 1990, S.-88). Bei anderen Bezugsnomina allerdings taucht aber doch bei der Passung die Option der ‚Gerechtigkeit‘, damit ein ethischer Aspekt auf. Er ist an die gesellschaftliche Relevanz des im Nomen angesprochenen Bereichs gebunden bzw. auch ein Appell, sie zu sehen. So nimmt zwischen Bildungen wie bedarfsgerecht in seiner Allgemeinheit und gendergerecht in seiner inhaltlichen Spezifik der Aspekt zu, dass Passungsdifferenz als auszugleichende Ungerechtigkeit erscheint. Mit „kindgerechte Erziehung“ ist damit durchaus der deontische Aspekt verbunden, dass da etwas passieren müsse. Und eine „leistungs- 14 Im Internet finden sich einzelne Belege: „eine vollständige Geschlechtergerechtheit im gesamten Betriebsablauf zu erreichen“. (www.fruchthandel.de/ newsnet/ aktuelle-news/ einzelmeldung-newsnet/ chiquita-mit-globaler-female-empowerment-mission-frauen-auf-der-ganzen-welt-staerken/ , Stand: 29.3.2023) <?page no="134"?> Ludwig M. Eichinger 134 gerechte Bezahlung“ fordert von Seiten der Arbeitgeber gesehen die Leistung und von Seiten der Arbeitnehmer die Bezahlung, wobei die jeweils andere Seite als gerecht geregelt gelten soll, eine Einschätzung, die konkret vermutlich zu differierenden Erwartungen führt. Eine größere Menge von Bildungen rekurriert auf prozedurale Kategorien einer abstrakteren Metaebene; oft sind sie verwaltungssprachlich. Zu den etwa fünfundzwanzig belegten Basen dieses Typs gehören: anlass-, bedarfs-, entwicklungs-, funktions-, leistungs-, praxis-, sach-, system-, ziel-. Den in ihnen benannten Ansprüchen sollen Lösungen gerecht werden. Recht häufig sind daher in diesem Bereich auch substantivische Abstrakta, die diesem „Gerechtheits“-Aspekt entsprechen. 15 (39) Mir geht es um sachgerechte Lösungen (Spiegel, 9.1.2021, S.-68) (40) Im Vordergrund stand ein Quervergleich in punkto Wirtschaftlichkeit und Sachgerechtheit bei der […] Bewirtschaftung des gesamten Fuhrparks (Mannheimer Morgen, 18.8.2000) Auf einer nächsten Stufe werden in den Basen konkretere Bereiche benannt, in denen sich ein Bedarf für einen Interessenausgleich ergibt. Ein Beispiel dafür sind Bildungen mit Basen aus dem Feld der Medien: u. a. medien-, bühnen-, film-, hochglanz-, netz-, werkgerecht; (41) Es müssen also Konzepte her, wie man mediengerecht, aber auch qualitätssichernd den Unterricht digital ergänzen kann. (SZ, 10.3.2021, S.-16) Auch wenn sie hier insgesamt selten sind, finden sich Abstrakta, die den Aspekt der reinen Passung betonen: (42) An so viel weiblicher Medien-Gerechtheit kann […] natürlich auch die Politik nicht vorbeigehen, […]. (Salzburger Nachrichten, 29.9.1995) Schon anders ist das bei den Bildungen zu Personengruppen wie alters-, jugend-, behinderten-, generationen-, kunden-, touristengerecht. Viele der Bildungen klassifizieren zwar ebenfalls nach Passung, auch (selten) mit substantivischer Entsprechung: (43) In der Regel treiben mich -altersgerecht- Jay-Z oder Eminem zum Sprint an. (taz, 9.1. 2021, S.-11) (44) Bei Bauten soll Einfluss auf Altersgerechtheit und Barrierefreiheit genommen werden. (Nordkurier, 25.11.2010) 15 Viele der Bildungen auf -gerechtheit bleiben deutlich im verwaltungssprachlichen Kontext. <?page no="135"?> Anpassungsfähigkeit und Akzentuierung 135 Allerdings ist bei manchen Bildungen, deutlich z. B. bei generationengerecht, schon eindeutig die Lesart als gesellschaftliche Herausforderung dominant. Es gibt zwar ausdrücklich die Passung thematisierende Belege: (45) […] dazu können […] Experten für alters- und generationengerechtes Wohnen […] direkt angesprochen und befragt werden (RZ, 3.5.2021, S.-11) Häufiger sind sie aber ambivalent oder gehen eindeutig in Richtung ‚Gerechtigkeit‘: (46) Diese Dinge müssen allen Menschen global, generationengerecht und ohne Einschränkungen als Daseinsvorsorge zur Verfügung stehen (taz, 16.6.2021, S.-21) Dazu passt, dass es im Korpus in diesem Umfeld ausschließlich (viele) Belege mit {-gerechtigkeit} gibt: (47) In seinem Roman „Der brennende See“ geht es um die Klimakrise und Generationengerechtigkeit. (Mannheimer Morgen, 9.1.2020, S.-28) Noch klarer ist das bei einer Gruppe, in der mit Abstrakta als Basen Geltungsansprüche innerhalb moderner gesellschaftlicher Diskurse benannt werden: im Korpus belegt sind diversitätsgerecht, gendergerecht, klimagerecht, umweltgerecht: (48) Borde beschäftigt sich als Professorin […] mit der Problematik der diversitätsgerechten Gesundheitsversorgung. (taz, 6.3.2021, S.-24)- (49) […] mir liegt gendergerechte Sprache am Herzen. (taz, 11.2.2021, S.-14) (50) Dass es dabei nun nicht nur um gesellschaftliche Gruppen geht, zeigte zuletzt die Initiative für klimagerechte Sprache, die an das Konzept des „Framing“ anknüpft. (taz, 6.2.2021, S.-31) (51) [wie] der Biologe Stefano Mancuso das Reich der Pflanzen als Vorbild für uns sieht: kooperativ, nicht hierarchisch, umweltgerecht. (taz, 13.3.2021, S.-13) Daher gibt es in der Regel nur entsprechende substantivische Abstrakta mit {-gerechtigkeit}-- formal zunächst wohl ein Kompositum mit diesem Zweitelement: (52) Vor allem Liberale wie Hillary Clinton haben einer marktförmigen Diversitygerechtigkeit das Wort geredet. (taz, 16.1.2021, S.-15) (53) Auch für die Personalarbeit liegen viele Chancen im systematischen Aufbau von Gendergerechtigkeit. (SZ, 25.6.2018, S.-18) (54) Mädchen für Klimagerechtigkeit. (Stern Gesund leben, 5.1.2021, S.-36) <?page no="136"?> Ludwig M. Eichinger 136 Neben Umweltgerechtigkeit existiert in unseren Daten auch die Umweltgerechtheit: (55) Ein System des Forschungsinstituts FAW Ulm unterstützt Konstrukteure während des Entwicklungsprozesses hinsichtlich der Umweltgerechtheit. (Computer Zeitung, 30.7.1998, S.-28) Manchmal sind aber auch sonst die beiden Dinge vielleicht nicht so fern voneinander, ein Bindeglied mag die phrasematische Konstruktion Gerechtigkeit widerfahren lassen sein, wo die Gerechtigkeit auch fast etwas Formales hat. (56) Im nächsten Schritt müssen aber auch Schritte unternommen werden, um alle [! / L. E.] Berlinerinnen und Berliner Umweltgerechtigkeit widerfahren zu lassen. (www.bund-berlin.de/ , Stand: 28.4.2023) Wie weit damit gerade im Bereich solcher Hochwertwörter eine gendergerechte Sprache eine ist, die der Kategorie Gender gerecht wird, indem sie ihr „Gerechtigkeit widerfahren lässt“, mag dem Kontext und der Diskurswelt überlassen bleiben. 5. Schluss Die Wege der Integration des vor nicht allzu langer Zeit in die deutsche Sprache gekommenen Elements {gender} lassen sich auf verschiedenen Ebenen betrachten. Die Adjektivwortbildung, die mit transponierenden Techniken gut ausgestattet ist, ist dafür deswegen ein gut geeigneter Bereich, weil sich hier im Zwischenraum zwischen der (modifizierenden) Komposition und der formal restringierten Suffix-Derivation ein breites Feld der Optionen einer differenzierten Modellierung eröffnet. Vor allem die Techniken der Inkorporation werden vielfältig genutzt. Die Vielfalt bringt es andererseits mit sich, dass die einzelnen Bildungen selbst nicht zu häufig vorkommen. Ein ähnliches Bild ergibt sich bei den dem Gebrauch als Suffix zuneigenden sogenannten Affixoiden. Zwei neuere Komposita lassen erkennen, wie die Integration von der englischen Entlehnung her verläuft. Letztlich lässt sich an der am häufigsten belegten Bildung gendergerecht zeigen, im Kontext welcher Konstruktionen solch eine Bildung ihre Gebrauchsweise entwickelt und wie sich dadurch Muster tendenziell verändern. Literatur Brdar Szabo, Rita (1990): Die Wortbildung des Adjektivs in der deutschen Gegenwartssprache mit besonderer Berücksichtigung der Übergangszone zwischen Derivation und Komposition. (=-Budapester Beiträge zur Germanistik-21). Diss. Budapest: ELTE. COSMAS-II-= Leibniz-Institut für Deutsche Sprache (2003-2023): COSMAS-II-- Corpus search, management and analysis system- - IDS Mannheim. https: / / cosmas2.ids-mannheim.de/ cosmas2-web/ (Stand: 29.3.2023). <?page no="137"?> Anpassungsfähigkeit und Akzentuierung 137 DeReKoVecs- = Leibniz-Institut für Deutsche Sprache (2023): DeReKoVecs. dereko-2023-i: IDS word vector analysis. http: / / corpora.ids-mannheim.de/ openlab/ derekovecs/ (Stand: 29.3.2023). Donalies, Elke (2021): Wortbildung-- Prinzipien und Problematik. Ein Handbuch. Heidelberg: Winter. Duden (2016): Die Grammatik. Unentbehrlich für richtiges Deutsch. (=- Der Duden in zwölf Bänden, Bd.-4). 9.,-vollst. überarb. u. aktual. Aufl. Berlin: Dudenverlag. Duden (2022): Die Grammatik. Unentbehrlich für richtiges Deutsch. (=- Der Duden in zwölf Bänden, Bd.-4). 10.,-völlig neu verf. Aufl. Berlin: Dudenverlag. Eichinger, Ludwig M. (2000): Deutsche Wortbildung. (=-Narr Studienbücher). Tübingen: Narr. Eichinger, Ludwig M. (2007): Adjektivische Wortbildung im Deutschen. In: Di Meola, Claudio (Hg.): Perspektiven Zwei. Akten der 2.- Tagung Deutsche Sprachwissenschaft in Italien (Rom, 9.-11.-Februar 2006). (=-Italienische Studien zur deutschen Sprache-3). Rom: Istituto Italiano di Studii Germanici, S.-113-128. Eichinger, Ludwig M. (2011): Aktuelle Tendenzen in der Wortbildung des Deutschen. In: Moraldo, Sandro (Hg.): Deutsch aktuell. Bd.- 2: Einführung in die Tendenzen der deutschen Gegenwartssprache. Roma: Carocci, S.-151-193. Eichinger, Ludwig M. (2018): Mancherlei Adjektive braucht das Land-- Was man aus neuen Adjektiven über die Wortart (im Deutschen) lernen kann. In: Baumann, Carolin/ Dabóczi, Viktória/ Hartlmaier, Sarah (Hg.): Adjektive. Grammatik, Pragmatik, Erwerb. (=- Reihe Germanistische Linguistik-313). Berlin/ Boston: De Gruyter, S.-107-128. Fandrych, Christian (1993): Wortart, Wortbildungsart und kommunikative Funktion. (=-Reihe Germanistische Linguistik-137). Tübingen: Niemeyer. Fandrych, Christian (2011): Wie geht es eigentlich den „Halbsuffixen“? In: Deutsche Sprache-39 (Themenheft: Zur Grammatik des Adjektivs. Herausgegeben von Gisela Zifonun), S.-137-153. Ganslmayer, Christine/ Schwarz, Christian (Hg.) (2021): Historische Wortbildung. Theorie- - Methoden- - Perspektiven. (=- Germanistische Linguistik- 252-254). Hildesheim: Olms, S.-383-416. Kühnhold, Ingeborg/ Putzer, Oskar/ Wellmann, Hans (1978): Deutsche Wortbildung. Typen und Tendenzen in der Gegenwartssprache. Dritter Hauptteil: Das Adjektiv. (=-Sprache der Gegenwart-43). Düsseldorf: Schwann. Müller-Spitzer, Carolin/ Lobin, Henning (2022): Leben, lieben, leiden: Geschlechterstereotype in Wörterbüchern, Einfluss der Korpusgrundlage und Abbild der sprachlichen ‚Wirklichkeit‘. In: Diewald, Gabriele/ Nübling, Damaris (Hg.): Genus- - Sexus- - Gender. (=- Linguistik-- Impulse-& Tendenzen-95). Berlin/ Boston: De Gruyter, S.-35-64. Pümpel-Mader, Maria/ Gassner-Koch, Elsbeth/ Wellmann, Hans (1992): Deutsche Wortbildung. Typen und Tendenzen in der Gegenwartssprache. Fünfter Hauptteil: Adjektivkomposita und Partizipialbildungen. (=- Sprache der Gegenwart- 80). Berlin/ New York: De Gruyter. Reckenthäler, Stefanie (2020): Wortbildung korpuslinguistisch betrachtet. Eine empirische Untersuchung possessiver und privativer komplexer Adjektive. (=- amades- 57). Mannheim: IDS-Verlag. <?page no="138"?> Ludwig M. Eichinger 138 Rixen, Judith (2021): Affixoide? Bildungen mit über- und -mäßig/ -mässig im Deutschen und Schwedischen. In: Ganslmayer/ Schwarz (Hg.), S.-417-444. Smirnova, Elena (2021): Deutsche Partizipialkomposita aus diachroner Perspektive. In: Ganslmayer/ Schwarz (Hg.), S.-383-416. Storrer, Angelika (2014): Sprachverfall durch internetbasierte Kommunikation? Linguistische Erklärungsansätze- - empirische Befunde. In: Plewnia, Albrecht/ Witt, Andreas (Hg.): Sprachverfall? Dynamik- - Wandel- - Variation. (=- Jahrbuch des Instituts für Deutsche Sprache 2013). Berlin/ Boston: De Gruyter, S.-171-196. <?page no="139"?> STEFAN ENGELBERG ARGUMENTSTRUKTUREN IN EXPRESSIONISTISCHER LYRIK Abstracts : Die sprachlichen Auffälligkeiten, die in Gedichten zu beobachten sind, haben immer wieder Anlass zu verschiedenen Versionen der Abweichungstheorie gegeben, derzufolge die in Gedichten verwendete Sprache von nicht-lyrischer Sprache abweicht. Expressionistische Lyrik ist insbesondere für ihre argumentstrukturellen Innovationen bekannt. Auf der Basis eines Korpus expressionistischer Gedichte wird eine Übersicht über diese Auffälligkeiten gegeben, die die Grundlage für weitere Studien darstellen soll, in denen zu zeigen sein wird, inwieweit unter bestimmten grammatiktheoretischen Annahmen die Abweichungstheorie zurückgewiesen werden kann. The linguistic peculiarities observable in poems have repeatedly given rise to various versions of the theory of deviation, according to which the language used in poems deviates from non-lyrical language. Expressionist poetry is particularly noted for its argument-structural innovations. On the basis of a corpus of expressionist poems, an overview of these conspicuous features will be given, which will form the basis for further studies that aim to show to what extent the deviation theory can be rejected under certain assumptions of grammatical theory. Keywords : Abweichungstheorie, Argumentstruktur, Dativ, Direktionalphrase, Expressionismus, Lyrik, Neologismus, Resultativkonstruktion, Transitivität, Valenz 1. Einleitung 1.1 Abweichungstheorie Die lyrische Abweichungstheorie besagt, dass die in Gedichten verwendete Sprache von der außerhalb der Lyrik gebräuchlichen Sprache abweicht. Die Abweichungstheorie lässt sich auf sehr verschiedene Weisen formulieren. Sie kann verstanden und überprüft werden hinsichtlich i)- qualitativer Abweichungen von den Gebrauchsnormen der Standardsprache (Fricke 1995), ii)- statistischer Abweichungen von einer gesetzten Vergleichsvarietät (Levin 1963), iii)-Abweichungen von bekannten phonologischen, morphologischen, syntaktischen, semantischen und pragmatischen Regularitäten der jeweiligen Sprache (Engelberg 2022) oder iv)- Abweichungen von universellen Eigenschaften von Sprachen (Bade/ Beck 2017). Die Abweichungstheorie soll in diesem Beitrag im Sinne der Formulierung unter (iii) betrachtet werden, wobei ungewöhnliche und hinsichtlich ihres argumentstrukturellen Zusammenhangs schwer zu interpretierende Strukturen wie in (1) Anlass geben, die Abweichungstheorie für den Bereich der Valenz und Argumentstruktur zu überprüfen und gegebenenfalls in linguistisch interessanter Weise zu falsifizieren. (1a) Saugen brünstet um Zerfallen (August Stramm: „Schlachtfeld“; Bode 1978, S.-194). DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="140"?> Stefan Engelberg 140 (1b) Harnisch röhren Blutkragen Kraterglut (Franz Richard Behrens: „Campendonk“; Bode 1978, S.-197). Für Beispiele wie in (1) stellt sich etwa die Frage, inwieweit die Äußerungen eigentlich den lexikalischen Valenzen der beteiligten Verben oder den generalisierenden Eigenschaften von Argumentstrukturkonstruktionen entsprechen. Der Versuch einer Falsifikation der Abweichungstheorie sollte damit auch Aufschluss über die Adäquatheit gängiger Grammatiktheorien geben. Valenz bzw. Argumentstruktur ist ein Phänomen, das sich oft als kritisch erwiesen hat bei der Entwicklung von Grammatiktheorien. Man denke etwa an den lexikalischen Wandel in der frühen generativen Grammatik, die Entwicklung von Unifikationsgrammatiken und das Aufkommen der Konstruktionsgrammatik. Auch in der germanistischen Linguistik sind seit den 1960er Jahren unterschiedliche valenzbezogene Ansätze diskutiert worden, strikt lexikalisch-lexikografisch basierte Modelle (z. B. Helbig/ Schenkel 1969), solche, die auf Satzbaupläne fokussieren, die rückblickend Ähnlichkeiten zu Argumentstrukturkonstruktionen aufweisen (vgl. Ágel/ Höllein 2021), Modelle mit stark pragmatischer Komponente (Storrer 1992) und hybride Theorien, die zwischen Valenztheorie und Konstruktionsgrammatik vermitteln (vgl. etwa Engelberg 2019 und die Literatur darin). Die folgende Untersuchung ist Valenzauffälligkeiten in deutschsprachigen Gedichten des Expressionismus gewidmet. Ziel dieses kurzen Beitrags ist es lediglich, solche Valenzauffälligkeiten zu typisieren. Dies soll die Grundlage bilden für weiterführende Studien, die zeigen, unter welchen grammatiktheoretischen Annahmen die angeführten Phänomene erklärt werden können, und damit auch, bis zu welchem Grade die Abweichungstheorie zurückgewiesen werden kann. 1 1.2 Datensammlung Die der Untersuchung zugrundeliegende Datensammlung basiert auf den Gedichten in Bodes (1978) Anthologie expressionistischer Lyrik und auf Gedichten eines in Entstehung befindlichen kleinen Gedichtkorpus; entnommen wurden diesem Korpus alle Gedichte, die dem Expressionismus zuzuordnen sind und die in der zweiten Dekade des 20.-Jahrhunderts entstanden sind. Die Gedichte dieses Korpus entstammen verschiedenen deutschen Gedichtanthologien (Conrady 2008; Lindemann 1984; Paefgen/ Geist 2010). Insgesamt wurden etwa 320 Gedichte für die Untersuchung berücksichtigt, in denen ca. 450 Valenzauffälligkeiten annotiert wurden. 2 Dabei 1 Vielen Dank an Irene Rapp für Diskussionen und Ruben Köhler für die Hilfe bei der Korpusannotation. 2 Es handelt sich hier nicht um eine quantitative Untersuchung. Da die Zuordnung von Autoren und Gedichten zum Expressionismus naturgemäß uneindeutig ist und auch die Einordnung eines Phänomens als Valenzauffälligkeit aufgrund syntaktischer Ambiguitäten oder Zuordnung zu außerlyri- <?page no="141"?> Argumentstrukturen in expressionistischer Lyrik 141 werden nur Auffälligkeiten im Bereich der Formvalenz gesammelt. Bloße Verletzungen von Selektionsrestriktionen, wie sie in der Lyrik als wichtige Basis für figuratives Sprechen fast durchgehend auftreten (vgl. etwa Rapp 2020), werden nicht behandelt. Vertreten sind in der Gedichtsammlung Autoren oder Autorinnen, die mit ihren Schriften üblicherweise dem Expressionismus zugerechnet werden: Kurd Adler, Johannes R. Becher, Franz Richard Behrens, Gottfried Benn, Ernst Blass, Paul Boldt, Kasimir Edschmid, Albert Ehrenstein, Carl Einstein, Friedrich Eisenlohr, Yvan Goll, Martin Gumpert, Victor Hadwiger, Ferdinand Hardekopf, Jakob Haringer, Walter Hasenclever, Max Herrmann-Neiße, Georg Heym, Kurt Heynicke, Jabob van Hoddis, Hermann Kasack, Wilhelm Klemm, Gottfried Kölwel, Else Lasker-Schüler, Heinrich Lautensack, Rudolf Leonhard, Alfred Lichtenstein, Ernst Wilhelm Lotz, Karl Otten, Franz Pfempfert, Ludwig Rubiner, Wilhelm Runge, René Schickele, Anton Schnack, Ernst Stadler, August Stramm, Ernst Toller, Georg Trakl, Armin Theophil Wegner, Franz Werfel, Hellmuth Wetzel, Alfred Wolfenstein und Paul Zech. Enthalten sind auch Lyrikerinnen und Lyriker, die im frühen 20.- Jahrhundert dem Vor- oder Umfeld des Expressionismus zugeordnet werden können (Maria Benemann, Bertolt Brecht, Georg Britting, Theodor Däubler, Richard Dehmel, Gerrit Engelke, Adolf von Hatzfeld, Klabund, Oskar Loerke, Alfred Mombert, Carl Zuckmayer), ebenso wie Vertreter des nachfolgenden Dadaismus (Hans Arp, Hugo Ball, Richard Huelsenbeck, Kurt Schwitters). 2. Valenzauffälligkeiten 2.1 Neologismen und Archaismen Es geht in diesem Aufsatz vorrangig um ungewöhnliche Valenzen bei ansonsten bekannten und verbreiteten Verben. Die Abhängigkeit der Valenz vom Verb führt allerdings dazu, dass die Entschlüsselung der valenzbedingten Informationen per se mehr oder weniger anspruchsvoll ist, wenn das Verb selbst unbekannt ist, etwa weil es einen Neologismus konstituiert, selten verwendet wird, fachsprachlich markiert ist oder einen Archaismus darstellt. 3 schen, archaischen, dialektalen oder peripheren fachsprachlichen Sprechweisen manchmal unklar ist, beschränke ich mich hier auf ungefähre Zahlenangaben, die lediglich einen ersten Eindruck vom Umfang der Phänomene vermitteln sollen. 3 Die Einstufung von Verben oder Valenzen als neologisch basiert im Wesentlichen darauf, dass sie nicht im DWDS (www.dwds.de/ , Stand: 19.4.2023) und im DWB (https: / / woerterbuchnetz.de/ #6, Stand: 19.4.2023) vorkommen; archaische Verben oder Valenzen sind im DWB, aber nicht im DWDS gebucht. Das gilt hier nur als Orientierungshilfe; zum Teil wurden auch andere Wörterbücher herangezogen. <?page no="142"?> Stefan Engelberg 142 In der Belegsammlung finden sich etwa 70 neologische Partikelverben. Die Bildungen sind meist transparent und orientieren sich in ihrer Valenz gewöhnlich an korrespondierenden lexikalisierten Partikelverben. Hinsichtlich ihrer Valenz sind sie daher meist unauffällig: Das Partikelverb festkitten (2a) wird transitiv konstruiert wie andere Bildungen mit fest (festmachen, festschrauben), hineinflirren (2b) orientiert sich hinsichtlich der Direktionalphrase an anderen hinein-Verben (hineinleuchten, hineinsehen) und das intransitive aufwellen (2c) gestaltet sich analog zu anderen Verben mit der Partikel auf (aufkochen, aufbrüllen, aufwallen). (2a) Schweiß kittet die bröckelnden Fugen fest (Paul Zech: „Fabrikstädte an der Wupper-- Die andere Stadt“; Bode 1978, S.-58). (2b) Und in den dunklen Raum-- mir ins Gesicht-- | Flirrt das hinein , entsetzlich! nach der Reihe! ( Jakob van Hoddis: „Kinematograph“; Paefgen/ Geist 2010, S.-525). (2c) Wir zerren an den Decken | Und rufen Schlaf. Ein Strom von Blut wellt auf . (Ernst Wilhelm Lotz: „Meine Nächte sind heiser zerschrieen […]“; Bode 1978, S.-53). Vereinzelte Besonderheiten bei neologischen Partikelverben wie der Pertinenzdativ in (3a) und die unpersönliche Konstruktion in (3b) folgen produktiven Prozessen. (3a) Weiß nicht, wie sich Mütter die Augen aussticken (Franz Werfel: „Ich bin ja noch ein Kind“; Bode 1978, S.-34). (3b) in langen Herden, in Truppen und Zügen | zwischen langen schwarzen Schatten | schurrt: rutscht: tappt es herab (Alfred Mombert: „Langsam dämmert es in dieser langen Nacht […]“; Bode 1978, S.-19). Neologische Präfixverben finden sich seltener als Partikelverben. Semantisch transparente Präfixe wie ent- (4a), um- (4b) oder zer- (4c) werden hier bevorzugt. (4a) und ein Frommsein enteitert dem greisen Gebrest (Paul Zech: „Fabrikstädte an der Wupper-- Die andere Stadt“; Bode 1978, S.-87). (4b) Rot umblüht euer Blut | meinen Schächterarm (Alfred Ehrenstein: „Der Kriegsgott“; Bode 1978, S.-167). (4c) In jedes Feuer würf ‘ ich mich, | Schmerzlicher zu zerglühn ! (Franz Werfel: „Trinklied“; Bode 1978, S.-41). Auch hier orientieren sich die Valenzen meist an lexikalisierten Vorbildern: enteitern (4a) mit Dativ-NP wie entkommen, entfahren; transitives umblühen (4b) wie umfahren, umgeben; intransitives zerglühen (4c) wie zerbrechen, zerfallen. Neologische N-zu-V-Konversionen finden sich verschiedentlich, insbesondere in den kurzzeiligen Gedichten von August Stramm (5a) und Dichtern wie Franz Richard Behrens (5b), Kurt Schwitters (5c) und Wilhelm Runge (5d), die in seiner <?page no="143"?> Argumentstrukturen in expressionistischer Lyrik 143 Nachfolge zeitweise einen ähnlichen Stil pflegten. Konversionen erlauben eine Vielzahl von Valenzmustern (Duden 2016, S.-718), wobei die mit solchen Mustern typischerweise verbundenen Bedeutungen auch die Interpretation der konvertierten Verben stützen. So suggeriert das Direktional in (5a) eine (metaphorische) Bewegungslesart des Verbs, das direkte Objekt in (5b-c) Ereignisse, in denen das Objektargument affiziert oder effiziert 4 wird, und die intransitive Verwendung des Verbs in (5d) eine Prozesslesart des Verbs. (5a) Lichte dirnen aus den Fenstern (August Stramm: „Freudenhaus“; Bode 1978, S.-193). (5b) Augen dolchen Zungen (Franz Richard Behrens: „Campendonk“; Bode 1978, S.-197). (5c) Grüne Tropfen sanften Lied (Kurt Schwitters: „Frühe rundet Regen blau“; Conrady 2008, S.-615). (5d) Gebrochen sinkt der Sonne strahle Blume | blau plundert niedrig (Wilhelm Runge: „Auf springt der Tod und zügelt starr die Augen […]“; Bode 1978, S.-196). Die Lyrik ist nicht nur durch vielfältige Neuerungen gekennzeichnet, sondern pflegt oft auch einen gehobenen Stil durch die Verwendung archaisierender Sprachelemente. Das augenfälligste Beispiel bieten wohl pränominale Genitiv-NPs, die in der allgemeinen Sprachverwendung schon seit dem Frühneuhochdeutschen zunehmend ungebräuchlich werden (Ebert 1999, S.-92), in Gedichten aber bis in die jüngste Zeit präsent bleiben. 5 Im Zusammenhang mit Valenzphänomenen im Expressionismus fällt die relative hohe Anzahl von etwa 40 archaischen Verben auf, die dabei meist ihre früher übliche Valenz mitbringen (6). 6 (6a) Und über die verfallnen Wege spreiten | Sie hölzern ihre langen Finger-Hände. (Georg Heym: „Umbra vitae“; Conrady 2008, S.-595 f.). (6b) Ach, alle Wolken brocken Dämmerung! (Paul Boldt: „Herbstgefühl“; Bode 1978, S.-74). (6c) Vergebens in den Kohleschächten | Wollten die Gleichheit wir errechten (Yvan Goll: „Für die Gefallenen von Europa“; Conrady 2008, S.-610). (6d) Die Steine feinden (August Stramm: „Patrouille“; Bode 1978, S.-195). 4 Unter affizierten Objekten seien hier solche verstanden, deren Referent durch das Ereignis in einer bestimmten Hinsicht verändert wird, unter effizierten Objekten solche, die durch das Ereignis erschaffen werden. 5 Die folgenden pränominalen Genitive aus allerneuesten Gedichten stammen aus dem Jahrbuch der Lyrik 2023 (Kniep/ vom Brocke 2023, S.-26, 206, 213): nicht nur der Möwen zuckende Schreie (Norbert Lange), wo der Mond vor allerleute Augen verschwand (Philipp Beißel), bis an des Atemstockens Rand (Thomas Rosenlöcher). 6 Es bleibt beim gegenwärtigen Stand der Untersuchung noch unberücksichtigt, dass manche der hier als archaisch eingestuften Verben dem Sprachgebrauch des frühen 20.-Jahrhunderts noch näherstanden als dem Sprachstand des DWDS. <?page no="144"?> Stefan Engelberg 144 Zu manchen der archaischen Simplizia gibt es gebräuchliche Präfixverben, die über genau die Valenz verfügen, die hier mit den Simplizia verbunden ist: gilben/ vergilben (7a), kränzen/ bekränzen (7b), sänftigen/ besänftigen (7c). In Bezug auf Trakls Werk wurden solche ungewöhnlichen Simplexverben daher auch als Ergebnis von Präfixtilgungen interpretiert (vgl. Sauermann 1985, S.-335 f.). (7a) Es gilbt das Schiff im toten See (Ferdinand Hardekopf: „Spät“; Conrady 2008, S.-618). (7b) Er aber füllte seine Haare aus | Mit kleinem Aas und kränzte sich mit Schleichen (Franz Werfel: „Jesus und der Äser-Weg“; Bode 1978, S.-39). (7c) Du Hingesenktes, Schlummertiefes! Horch, dein Atem sänftigt meines Herzens Schlag! (Ernst Stadler: „Meer“; Bode 1978, S.-50). Neben archaischen Verben fallen auch archaische Valenzen bei ansonsten synchron gebräuchlichen Verben auf, so die Genitiv-NP bei denken (8a), der transitive Gebrauch von fliehen (8b) und die kausativierend-resultative Verwendung von schwellen (8c). (8a) Ich denke lächelnd der Begeisterung | der Morgenblätter, die wir nicht mehr lesen (Kurd Adler: „Betrachten“; Lindemann 1984, S.-139). (8b) Was flieht ihr mich? (Georg Heym: „Die Irren“; Lindemann 1984, S.-85 ff.). (8c) Wir suchen immer Wind, der uns zu Flammen schwellt (Ernst Wilhelm Lotz: „Hart stoßen sich die Wände in den Straßen […]“; Bode 1978, S.-52). 2.2 Resultativ- und Direktionalkonstruktionen In Resultativ- und den strukturell verwandten Direktionalkonstruktionen drückt eine PP oder eine AP bzw. AdvP aus, in welchem Zustand oder an welchem Ort sich einer der Argumentreferenten nach dem Ereignis befindet. Dieser Argumentreferent wird in intransitiven Konstruktionen durch das Subjekt (es brach in Stücke) ausgedrückt und in transitiven durch das direkte Objekt (sie mahlte es zu Mehl). Transitive Resultativkonstruktionen können auch mit ursprünglich einstelligen Verben gebildet werden (sie lief ihre Schuhe kaputt) oder mit zweistelligen Verben, bei denen die Realisierung des internen Arguments nicht obligatorisch ist (sie aß den Teller leer). In diesen Fällen wird die semantische Rolle des Objekts nicht durch das Verb zugewiesen, sondern durch die Resultativphrase. Im Korpus lassen sich gut 60 Belege neologischen Direktional- oder Resultativbildungen zuzuordnen. In Resultativkonstruktionen treten verschiedene adjektivische Resultativprädikate auf (9a-b), ebenso wie die für Resultativkonstruktionen typischen PPs mit zu (9c, 9e) oder in (9d). Transitive Konstruktionen wie in (9a-d), darunter auch solche mit reflexiviertem Objekt (9b), finden sich ebenso wie intransitive (9e). <?page no="145"?> Argumentstrukturen in expressionistischer Lyrik 145 (9a) Wenn sie der Lenker mit dem Stachel stach, | Die Elefanten brüllen allzuhauf | Und stampfen wilden Wütens alles brach (Georg Heym: „Marathon“; Lindemann 1984, S.-114 f.). (9b) indes sich in den qualmigen Kantinen | die tolle Jugend fuselselig lärmt . (Paul Zech: „Im Dämmer“; Lindemann 1984, S.-92). (9c) Sie hungern ihn zu Tod (Walter Hasenclever: „Die Mörder sitzen in der Oper! “; Lindemann 1984, S.-170 ff.). (9d) Zornig du in tausend Stücke das verbrechererische Gewehr zerschmeißt ( Johannes R. Becher: „Der Mensch stehe auf! “; Bode 1978, S.-99). (9e) Die Gräser erstarren zu grünem Metall (Wilhelm Klemm: „Schlacht an der Marne“; Lindemann 1984, S.-132). Direktionale Ergänzungen können bei intransitiven Verben auftreten, die keine Bewegungsverben sind und insofern ein Direktional lexikalisch nicht lizenzieren. Die Bewegung des Subjektreferenten ist dann oft metaphorisch oder metonymisch zu interpretieren (10). (10a) Und immer weher winken Bank und Lauben; | Bis durch die tropfenden Akazientrauben | Mit blöder Wucht der gelbe Vollmond friert (Paul Zech: „Sommerabend im Park“; Lindemann 1984, S.-88). (10b) Winde schnellen prellen schwellen | Tücher reißen | Falter schrickt in tiefe Nacht (August Stramm: „Traum“; Conrady 2008, S.- 597). (10c) Aus den Revuen knistern blaue Lust-Zungen (Ferdinand Hardekopf: „Ode vom seligen Morgen“; Lindemann 1984, S.-141 f.). Nicht valenzgebundene Direktionale in transitiven Konstruktionen können mit einem in der Verbvalenz angelegten Akkusativobjekt vorkommen (11a) oder, ähnlich wie bei Resultativkonstruktionen, sich auf ein neu eingeführtes direktes Objekt beziehen, dem das Verb selbst keine semantische Rolle zuweist (11b-c). Während die ausgedrückte Bewegung in (10) vom Subjektreferenten ausgeführt wird, betrifft sie in (11) den Objektreferenten, wobei auch hier die Bewegung meist metaphorisch zu verstehen ist. (11a) Du atmest Freiheit aus dem Krater, | Der furchtbar sich zusammenengt (Theodor Däubler: „Die Apokalypse“; Bode 1978, S.-30 f.). (11b) Und eine Weide weint | Das Laub auf sie und ihre stumme Qual (Georg Heym: „Ophelia“; Paefgen/ Geist 2010, S.-538 ff.). (11c) Ferne Wege schluchze ich durch die Wüste (Albert Ehrenstein: „Auf der hartherzigen Erde“; Bode 1978, S.-165). <?page no="146"?> Stefan Engelberg 146 2.3 Weglassungen Traditionell werden Ergänzungen eines Verbs im Lexikon als notwendig oder nichtnotwendig spezifiziert, wobei auch üblicherweise notwendige Ergänzungen bei manchen Verben in bestimmten Kontexten weggelassen werden können, z. B. unter Kontrastbetonung (er isst nicht, er verschlingt), bei Habitualität (wir bestellen nur montags) oder Generizität (Elefanten vergessen nicht) und zur Hervorhebung einer Fähigkeit (sie kann wieder sehen) (vgl. Duden 2016, S.-780 f.). Bei der nicht seltenen Auslassung eigentlich valenzgeforderter direkter Objekte in der Gedichtsammlung lizenzieren auch andere Kontexte die Weglassung. In (12a) wird durch die Objektweglassung der Fokus von den getöteten Gegnern weg auf den Prozess des Tötens gelenkt. Auch in (12b) werden durch Objektweglassung die Vorgänge selbst in den Vordergrund gerückt, wobei hier der Objektreferent kontextuell gegeben ist. Bei Verben mit propositionalen Objektkomplementen wie wissen (12c) oder zuflüstern (12d) kann das leere Nachfeld auch als Satzabbruch gedeutet werden, in dem je nach Kontextdeutung die ausgelassene Objektproposition vom Leser erschlossen werden kann. (12a) Er schlachtet mit dem Schwerte in den Horden (Georg Heym: „Marathon“; Lindemann 1984, S.-114 ff.). (12b) Deine Finger perlen | Und | Kollern Stoßen Necken Schmeicheln | Quälen Sinnen Schläfern Beben | Wogen um mich (August Stramm: „Spiel“; Paefgen/ Geist 2010, S.-548). (12c) Es wird still. Sie sehn sich um. Und keiner weiß (Georg Heym: „Der Krieg“; Lindemann 1984, S.-131). (12d) Die Wärter flüstern verboten den Gefangenen zu (Ludwig Rubiner: „Der Denker“; Bode 1978, S.-94). Viele transitive und intransitive Bewegungsverben fordern üblicherweise ein Direktional, das in einer Anzahl von Belegen in der Gedichtsammlung ausgelassen wird (13). (13a) Man tränkte die Gäule, man schüttete Hafer (Anton Schnack: „Der Train“; Lindemann 1984, S.-153). (13b) Mich rufen die schnurrenden Räder, | mich zerrt ein zertrümmerter Lärm (Oskar Loerke: „Fahrt zur Höhe und Tiefe“; Bode 1978, S.-191). (13c) Nebel streichen (August Stramm: „Wache“; Conrady 2008, S.-597). Gelegentlich finden sich zudem Auslassungen valenzgeforderter Lokalphrasen, sowohl von präpositionsunspezifischen (14a) als auch solchen mit valenzgebundener Präposition (auf; 14b). <?page no="147"?> Argumentstrukturen in expressionistischer Lyrik 147 (14a) Wiege der Götter bist du. Das Paradies thront (Wilhelm Klemm: „Asia“; Bode 1978, S.-124). (14b) Das Schweigen tappet schwer herab | Und lastet ! (August Stramm; „Vorfrühling“; Bode 1978, S.-195). Etwa 15 Belege sind durch ein ausgelassenes, aber an sich verbgefordertes Reflexivum gekennzeichnet (15); in (15d) wird dazu auf eine veraltete intransitive Valenzvariante zurückgegriffen. (15a) […] Wo durch Dämme zwingt | Der weiße Strom (Georg Heym: „Ophelia“; Bode 1978, S.-58). (15b) Durch die Büsche winden Sterne | Augen tauchen blaken sinken | Flüstern plätschert | Blüte gehren (August Stramm: „Traum“; Conrady 2008, S.-597). (15c) Die Stürme flattern, die wie Geier schauen | Von seinem Haupthaar, das im Zorne sträubt (Georg Heym: „Der Gott der Stadt“; Bode 1978, S.-62). (15d) Er schaut voll Wut, wo fern in Einsamkeit | Die letzten Häuser in das Land verirrn (Georg Heym: „Der Gott der Stadt“; Paefgen/ Geist 2010, S.-540 f.). Häufig wird auch Gebrauch gemacht von unpersönlichen Konstruktionen, in denen in Subjektposition statt einer lexikalischen NP ein nicht-pronominales, expletives es auftritt. Solche Konstruktionen-- soweit sie nicht lexikalisch gefordert sind wie bei manchen Witterungsverben (es regnet) und Geräuschverben (es klingelt)- - können produktiv auch auf andere Verben angewendet werden, insbesondere auf solche, die Natur- und Geräuschphänomene bezeichnen (16a-b). Unpersönliche Konstruktionen bei Verben, die Bewegungen von Lebewesen ausdrücken, sind dagegen schon innovativer (16c-d). Wie bei unpersönlichen Konstruktionen häufiger zu beobachten, werden Indizien zur Rekonstruktion der nicht-realisierten lexikalischen Subjekt NP durch PPs (in langen Herden, in Truppen und Zügen; 16c) oder Nachträge (Hemden, Jacken, Socken; 16d) gegeben. Stilistisch auffällig ist die Defokussierung des Agens in (16e), durch die hier das Unheimliche des Vorgangs betont wird. Neologisch ist auch die Verbindung der unpersönlichen Konstruktion mit der Transitivierung eines an sich einstelligen Verbs in (16f). (16a) Da fuhr ein greller Strahl durch sein Gehirn. | Es gellte . Möwenschwärme schreckten auf ( Johannes R. Becher: „Der Idiot“; Conrady 2008, S.-694). (16b) Als rollten heran Wogen der Berghöhen: | ungeheuer wogt , wälzt und rasselt es (Alfred Mombert: „Langsam dämmert es in dieser langen Nacht […]“; Bode 1978, S.-19). (16c) in langen Herden, in Truppen und Zügen | zwischen langen schwarzen Schatten | schurrt : rutscht : tappt es herab (Alfred Mombert: „Langsam dämmert es in dieser langen Nacht […]“; Bode 1978, S.-19). <?page no="148"?> Stefan Engelberg 148 (16d) […] An Leinen zappelt s: Hemden, Jacken, | Socken ( Johannes R. Becher: „Die Hafenstadt“; Bode 1978, S.-104). (16e) Tiefher langt ‘s nach mir (Oskar Loerke: „Fahrt zur Höhe und Tiefe“; Bode 1978, S.-191). (16f) Die niederen Dächer an seine Seiten geduckt, | Schwindsüchtige Wände, auf die es die plumpe Schulter zuckt (Armin T. Wegner: „Das Warenhaus“; Bode 1978, S.-179). 2.4 Stelligkeitserhöhungen Die Datensammlung zeigt häufiger unerwartete präpositionale Konstituenten, die in der traditionellen Satzgliedanalyse unter Hinweis auf die vermeintliche Desemantisierung der Präposition teilweise als Präpositionalobjekte eingeordnet wurden. Neuere Studien zeigen, dass viele dieser Präpositionen über die Verteilung auf verschiedene Verben hinweg einen gemeinsamen semantischen Kern haben (vgl. z. B. Rostila 2018). In den Gedichten der Sammlung werden solche PPs mit einschlägigen Präpositionen (an, mit, nach, von, vor, um, zu) häufig in innovativer Weise mit Verben verknüpft. Die nach-PP zum Ausdruck von etwas, das erreicht oder erlangt werden soll (nach etwas suchen) (Proost 2015), findet sich in den Gedichten etwa mit Verben wie zischen (17a), entfalten (17b) oder-- ein Akkusativobjekt ersetzend-- bei fangen (17c). (17a) Die Bogenlampe zischt zum Schluss nach Licht ( Jakob van Hoddis: „Schluss: Kinematograph“; Paefgen/ Geist 2010, S.-525). (17b) Komm reiner Geist du, schöpferisch, | Nach dem wir ewig uns entfalten (Franz Werfel: „Veni Creator Spiritus“; Conrady 2008, S.-607). (17c) Und mit den Augen, die stets voll kaltem Verlangen | Nach den eilenden Menschen der Straße fangen (Armin T. Wegner: „Das Warenhaus“; Bode 1978, S.-181). Auch die Bildung von Applikativkonstruktionen unter Verwendung von mit-PPs erfolgt in expressionistischer Lyrik unter Einbindung teils ungewöhnlicher Verben (18). (18a) Mit den silbernen Achsen der Scheiben nur ist unser Zimmer besternt (Kasimir Edschmid: „Stehe von Lichtern gestreichelt“; Bode 1978, S.-163). (18b) Und in grenzenlosem Michverschenken | Will mich Leben mit Erfüllung tränken (Ernst Stadler: „Form ist Wollust“; Paefgen/ Geist 2010, S.-547). (18c) Wo reiche ich hin? Wer hat mich mit Süße und Graun so begnadet ? (Oskar Loerke: „Dionysische Überwachtheit“; Bode 1978, S.-190). <?page no="149"?> Argumentstrukturen in expressionistischer Lyrik 149 Unter den Dativen mit relativ fester semantischer Funktion finden sich in der Belegsammlung benefaktive Dative wie in (19a), malefaktive wie in (19b) oder Pertinenzdative wie in (19c) und-- analog zu anderen Empfindungsverben (mir schmerzt der Fuß)-- auch in (19d). Dem Beleg (19e) scheint eine analogisch motivierte Mikrokonstruktion zugrundezuliegen, die den Dativ bei Verben zum Ausdruck von Unterwerfung oder Unterordnung spezifiziert (unterwerfen, beugen, gehorchen) und hier die Verben kriechen und krümmen entsprechend koerziert. Eine komplexere Dativinnovation tritt in (19f) auf. Statt des subjektbezogenen Akkusativreflexivums (sich ausruhen) tritt ein dativisches Pronomen auf, das sich auf die angesprochene Person bezieht und hier suggeriert, dass der positive Effekt des Ausruhens nicht wie lexikalisch angelegt dem Subjekt-, sondern dem Objektreferenten zugute kommt. (19a) Von Birken umweht, | vom Winde umschattet, | entschlaf ‘ ich zum Klange der Harfe | Anderer, | denen sie freudig trieft (Albert Ehrenstein: „Der Dichter und der Krieg“; Bode 1978, S.-168). (19b) Mütter leben, daß sie uns entschwinden. | Und das Haus ist, daß es uns zerfalle . | Selige Blicke, daß sie uns entfliehen (Franz Werfel; „Fremde sind wir auf der Erde alle“; Lindemann 1984, S.-136). (19c) Vom Abend glänzt der rote Bauch dem Baal, | Die großen Städte knien um ihn her (Georg Heym: „Der Gott der Stadt“; Paefgen/ Geist 2010, S.-540 f.). (19d) Die Seele braust mir, mit Geistern des Weins und der Liebe beladen (Oskar Loerke: „Dionysische Überwachtheit“; Bode 1978, S.-189). (19e) Krieche der Erde. | Krümm dich der Wolke (Carl Einstein: „Heimkehr“; Bode 1978, S.-122). (19f) Doch von der Pappel, | Die ragt im Ewigen Blauen, | Fällt schon ein braunes Blatt, | Ruht auf dem Nacken dir aus (Georg Heym: „Deine Wimpern, die langen […]“; Bode 1978, S.-64). Für eine Transitivierung eigentlich intransitiver Verben finden sich in der Sammlung etwa 30 Belege. Anders als bei moderat produktiven Konstruktionen wie etwa Resultativkonstruktionen oder Valenzmodifikationen durch Präfigierung oder Partikelverbbildung bietet die Unterscheidung von einstellig intransitiven und zweistellig transitiven Verben eigentlich ein Kernargument für lexikalische Valenzgebundenheit. Offenbar erlaubt die Lyrik hier aber eine größere Varianz, als man bei strikter Valenzgebundenheit von Akkusativobjekten erwarten würde. Gerade für die expressionistische Lyrik ist das gelegentlich beobachtet worden (Sauermann 1985; Petersen 2006, S.-111, 118). In einer Vielzahl der beobachteten Fälle führen die Objekte Rollen ein, wie sie auch sonst bei Akkusativobjekten zu beobachten sind. So finden sich Kausativierungen des Typs Das Eis schmilzt / Die Sonne schmilzt das Eis, bei der ein Repräsentant des Verursachungsereignisses (hier die Sonne) als Subjekt realisiert wird und das ursprüngliche Subjektargument der intransitiven Variante <?page no="150"?> Stefan Engelberg 150 als Akkusativobjekt der transitiven Variante auftritt wie in (20a-b) oder in unpersönlicher Konstruktion wie in (20c). 7 (20a) Entrücke Dich dem Stein! Zerbirst | die Höhle, die dich knechtet! Rausche | doch in die Flut! […] (Gottfried Benn: „Karyatide“; Bode 1978, S.-82). (20b) Daß er mit dem Brande weit die Nacht verdorr‘ (Georg Heym: „Der Krieg“; Lindemann 1984, S.-131). (20c) Salzwinde wehn dich an. Auf Viadukten | Schwebt s dich hinab ins eingekaite Meer ( Johannes R. Becher: „Die Hafenstadt“; Bode 1978, S.-103). Eine andere typische Rollenkonstellation transitiver Verben konfiguriert das direkte Objekt als effiziertes Argument, das als Resultat des bezeichneten Ereignisses entsteht (21)-- in (21c) mit Ersetzung des formalen Subjekts durch eine lexikalische NP. (21a) […] den harten Klang | der Stürme die der Vulkan ausbrach (Richard Huelsenbeck: „Schalaben-- schalabai-- schalamezomai“; Bode 1978, S.-201). (21b) Die alten Zimmer duften blaue Güte ( Jakob Haringer: „Tränen“; Bode 1978, S.-130). 8 (21c) […] Kupfertrossen, dunkel angeklopft, | gewittern Wälderklang aus unterirdischen Gebirgen (Paul Zech: „Vesperpause“; Bode 1978, S.-88). Typische transitive Konstruktionen finden sich auch bei Kommunikationsverben. Hier wird der Kommunikationsinhalt üblicherweise als direktes Objekt realisiert. In der Belegsammlung treten Akkusativ-NPs in solchen Konstellationen auch zu Verben, die eigentlich satzwertige Objekte bevorzugen (22a) oder das Objekt implizit lassen (22b). Darüber hinaus können Verben anderer Klassen zu Kommunikationsverben koerziert werden (22c-d). Auch bei üblicherweise intransitiven Kognitionsverben wie denken finden sich Belege, in denen der Kognitionsinhalt als Akkusativ- NP realisiert wird (22e). 9 (22a) Aus frischen Leibesbrüchen schreien Halme Ströme (August Stramm: „Vorfrühling“; Bode 1978, S.-195). (22b) Berge Sträucher blättern raschlig | Gellen | Tod (August Stramm: „Patrouille“; Bode 1978, S.-195). (22c) Fenster grinst Verrat (August Stramm: „Patrouille“; Bode 1978, S.-195). (22d) Leider bin ich verdammt, aus diesem schmutzigen Licht Angst | zu pulsen (Ferdinand Hardekopf: „Notiz“; Bode 1978, S.-76). 7 Historisch liegt dem hier als Kausativierung reinterpretierten Prozess wohl eher ein Muster antikausativer Intransitivierung zugrunde, wie Harm (2016) am Beispiel der Verben brechen, brennen, backen und braten zeigt. 8 Will man blaue Güte hier nicht als effiziertes Objekt lesen, kann man sie auch als emittierte Substanz deuten, analog zu Akkusativ-NPs bei Emissionsverben (blauen Duft ausstoßen/ emittieren). 9 Zu transitiven Verwendungen von denken bei Trakl vgl. Sauermann (1985, S.-345 f.). <?page no="151"?> Argumentstrukturen in expressionistischer Lyrik 151 (22e) Doch immer rührt der schwarze Flug der Vögel | Den Schauenden, das Heilige blauer Blumen, | Denkt die nahe Stille Vergessenes, erloschenen Engel (Georg Trakl: „Ruh und Schweigen“; Bode 1978, S.-140). Während die obigen Innovationen alle auf verbreiteten Transitivmustern basieren, die jeweils durch bestimmte Rollenkonfigurationen gekennzeichnet sind, können die abschließenden Beispiele nicht eindeutig auf solche Muster zurückgeführt werden (23). Nicht zufällig finden sich viele solcher Belege in Gedichten von August Stramm und Dichtern wie Runge und Behrens, die einen ähnlichen Stil pflegten. Die rudimentäre Syntax mit „Einzelwort-Emphase“ (Eibl 2010, S.-423 f.) bei sehr unkonventioneller Argumentstellenbesetzung, die letztlich zu einem- - wie es Petersen (2006, S.-113) nennt-- „Sinnpointillismus“ führt, macht es hier deutlich schwieriger, die Rollenkonfigurationen und beabsichtigte Koerzionen zu erklären. (23a) Frauenseelen schämen grelle Lache! (August Stramm: „Freudenhaus“; Bode 1978, S.-193). (23b) Mordesmorde | Blinzen | Kinderblicke (August Stramm: „Schlachtfeld“; Bode 1978, S.-195). (23c) Erde bröckelt Blut (Wilhelm Runge: „Auf springt der Tod und zügelt starr die Augen […]“; Bode 1978, S.-196). (32d) Sonnenbretter violen grüne Granaten, (Franz Richard Behrens: „Campendonk“; Bode 1978, S.-197). (23e) Rauch zucken Hände (Wilhelm Runge; „Auf springt der Tod und zügelt starr die Augen […]“; Bode 1978, S.-196). (23f) Harnisch röhren Blutkragen Kraterglut (Franz Richard Behrens: „Campendonk“; Bode 1978, S.-197). 3. Fazit und Ausblick Die in Abschnitt- 2 vorgestellten Valenzauffälligkeiten wurden zu Fällen gruppiert, die häufiger in der Belegsammlung auftraten. Darüber hinaus finden sich aber auch weitere seltenere Phänomene, z. B. analogische Verbneologismen wie millionenfältigen in (24a), lexikalische Regionalismen wie blaken in (24b), dialektale Valenzen wie der Berliner Dativ in (24c), 10 unkonventionelle Reflexiv- und Reziprokkonstruktionen wie in (24d-e), nicht usualisierte Depiktive 11 wie in (24f), Dekausativierungen 10 Schuster (2017, S.- 311 f.) sieht hier mehr als nur eine dialektale Anspielung, sondern argumentiert, dass die Kasussemantik den Dativ (im Gegensatz zum Akkusativ) besonders zum Ausdruck einer Zuwendungsrelation geeignet macht. 11 Im Gegensatz zu resultativen Prädikativen, die eine Eigenschaft eines Partizipanten als Resultat des ausgedrückten Ereignisses beschreiben (z. B. sie streicht die Wand türkis), bezeichnen depiktive Prädikative eine mit dem Ereignis verbundene, aber nicht notwendigerweise aus ihm resultierende Eigenschaft eines Partizipanten (z. B. sie streicht die Wand fröhlich). <?page no="152"?> Stefan Engelberg 152 wie in (24g) und auch immer wieder Konfiguration, die wie (24h) hinsichtlich der Wortbildung, Flexionsmorphologie und semantischen Rollenkonstellation Fragen nach ihrer Herleitung und Interpretation aufwerfen. (24a) Was gilt Westen, Süden, Nähe, Weitsein, | Wenn Euch eine weltentkreiste Seele millionenfältigt ! (Gerrit Engelke: „Mensch zu Mensch“; Bode 1978, S.-119). (24b) Durch die Büsche winden Sterne | Augen tauchen blaken sinken | Flüstern plätschert | Blüte gehren (August Stramm: „Traum“; Conrady 2008, S.-597). (24c) O du, Geliebte meiner siebenundzwanzig Sinne, ich liebe dir! (Kurt Schwitters: „An Anna Blume“; Bode 1978, S.-197). (24d) O, Nacht, o leih mir Stirn und Haar, | Verfließ Dich um das Tag=verblühte! (Gottfried Benn: „O, Nacht-: “; Lindemann 1984, S.-151). (24e) Gib mir die Hand, | Wir wollen einander verwachsen , | Einem Wind Beute, | Einsamer Vögel Flug (Georg Heym: „Deine Wimpern, die langen […]“; Paefgen/ Geist 2010, S.-541 f.). (24f) Die Birken-Nerven ästeln weh (Ferdinand Hardekopf: „Spät“; Conrady 2008, S.-618). (24g) Die Auen glätten sich in flache Zeit. (Carl Zuckmayer: „Auf beiden Ufern ist die Not geringer“; Lindemann 1984, S.-164). (24h) Koboldblau kometen Zügeln (Franz Richard Behrens: „Campendonk“; Bode 1978, S.-197). Die Übersicht über Valenzauffälligkeiten in der Lyrik des Expressionismus hat Phänomene zu Tage gefördert, die Fragen nach ihrer Grammatikalität und damit nach der Gültigkeit der Abweichungstheorie aufwerfen, die wiederum nur auf der Basis grammatischer Grundannahmen beantwortet werden können. Traditionelle, eher statische valenztheoretische Ansätze dürften Lösungen finden für die Konstituierung der Valenz neologischer Partikel- und Präfixverben oder für Valenzerweiterungen durch funktionale Dative. Darüber hinaus finden sich aber Prozesse, die eher in muster- oder konstruktionsbasierten als in valenztheoretischen Ansätzen erklärbar sind, etwa der produktive und koerzierende Einfluss verschiedener transitiver und präpositionaler Argumentstrukturmuster. Die Abweichungstheorie dürfte auf der Grundlage muster- und konstruktionsbasierter Ansätze jedenfalls einen deutlich schwereren Stand haben als aus einer traditionell valenztheoretischen Perspektive. Aber auch wenn man Argumentstrukturmustern eine weitgehende Produktivität einräumt, werfen etliche der in (23) und (24) angeführten Valenzformationen doch erhebliche zusätzliche Probleme bei der Zurückweisung der Abweichungstheorie auf. Diese Fragen werden allerdings im Rahmen von Folgestudien mehr Raum benötigen. Wie sich manche ungewöhnliche Argumentstrukturen in expressionistischer Lyrik als Amalgamierungen verschiedener Argumentstrukturmuster erklären lassen, wird in Engelberg (2023) erörtert. <?page no="153"?> Argumentstrukturen in expressionistischer Lyrik 153 Literatur Ágel, Vilmos/ Höllein, Dagobert (2021): Satzbaupläne als Zeichen: Die semantischen Rollen des Deutschen in Theorie und Praxis. In: Binanzer, Anja/ Gamper, Jana/ Wecker, Verena (Hg.): Prototypen-- Schemata-- Konstruktionen. (=-Reihe Germanistische Linguistik-325). Berlin/ Boston: De Gruyter, S.-125-251. Bade, Nadine/ Beck, Sigrid (2017): Lyrical texts as a data source for linguistics. In: Linguistische Berichte-251, S.-317-356. Bode, Dietrich (1978): Gedichte des Expressionismus. Stuttgart: Reclam. Conrady, Karl O. (Hg.) (2008): Der große Conrady. Das Buch deutscher Gedichte von den Anfängen bis zur Gegenwart. Düsseldorf: Artemis & Winkler. [Erw. Neuausgabe]. Duden (2016): Grammatik. Unentbehrlich für richtiges Deutsch. (=-Der Duden in zwölf Bänden, Bd.-4). 9.,-vollst. überarb. u. aktual. Aufl. Berlin: Dudenverlag. Ebert, Robert P. (1999): Historische Syntax des Deutschen. Bd.-2: 1300-1750. 2., überarb. Aufl. (=-Germanistische Lehrbuchsammlung). Berlin: Weidler. Eibl, Karl (2010): Expressionismus. In: Hinderer, Walter (Hg.): Geschichte der deutschen Lyrik- vom Mittelalter bis zur Gegenwart. 3.- Aufl. Würzburg: Königshausen & Neumann, S.-420-438. Engelberg, Stefan (2019): Argumentstrukturmuster. Ein elektronisches Handbuch zu verbalen Argumentstrukturen im Deutschen. In: Czicza, Dániel/ Dekalo, Volodymyr/ Diewald, Gabriele (Hg.): Konstruktionsgrammatik- VI. Varianz in der konstruktionalen Schematizität. (=-Stauffenburg Linguistik 109). Tübingen: Stauffenburg, S.-13-38. Engelberg, Stefan (2022): Wir sind, wir sind zur Stelle-- Die Syntax, Semantik und Pragmatik rhetorischer Wiederholungsfiguren: Anadiplose und Geminatio in Gedichten. (=- IDSopen-4). Mannheim: IDS-Verlag. https: / / idsopen.de/ article/ view/ 7/ 6 (Stand: 17.4.2023). Engelberg, Stefan (ersch. 2023): Trakls Tönen-- Die systematische linguistische Rekonstruktion literaturwissenschaftlicher Interpretationen der Verses Der Flug der Vögel tönt von alten Sagen. In: Zeitschrift für Literaturwissenschaft und Linguistik-53. Fricke, Harald (1995): Norm und Abweichung. Gesetz und Freiheit. Probleme der Verallgemeinerbarkeit in Poetik und Ästhetik. In: Birus, Hendrik (Hg.): Germanistik und Komparatistik. (=-Germanistische-Symposien-Berichtsbände-16/ DFG-Symposion 1993). Stuttgart u. a.: Metzler, S.-506-527. Harm, Volker (2016): Brechen, brennen, braten. Zur Entwicklung antikausativer Verben im Deutschen. In: Greule, Albrecht/ Korhonen, Jarmo (Hg.): Historisch syntaktisches Verbwörterbuch. Valenz- und konstruktionsgrammatische Beiträge. (=-Finnische Beiträge zur Germanistik-34). Frankfurt a. M. u. a.: Lang, S.-225-236. Helbig, Gerhard/ Schenkel, Wolfgang (1969): Wörterbuch zur Valenz und Distribution deutscher Verben. Leipzig: Bibliographisches Institut. Kniep, Matthias/ vom Brocke, Sonja (Hg.) (2023): Jahrbuch der Lyrik 2023. Frankfurt a. M.: Schöffling & Co. Levin, Samuel R. (1963): Deviation-- Statistical and determinate-- in poetic language. In: Lingua-12, S.-276-290. Lindemann, Gisela (Hg.) (1984): Epochen der deutschen Lyrik. Bd.-9: 1900-1960. 2., durchges. Aufl. (=-Epochen der deutschen Lyrik-9). München: dtv. <?page no="154"?> Stefan Engelberg 154 Paefgen, Elisabeth K./ Geist, Peter (Hg.) (2010): Echtermeyer. Deutsche Gedichte. Von den Anfängen bis zur Gegenwart. Auswahl für Schulen. 20.-Aufl. Berlin: Cornelsen. Petersen, Jürgen H. (2006): Absolute Lyrik. Die Entwicklung poetischer Sprachautonomie im deutschen Gedicht vom 18.-Jahrhundert bis zur Gegenwart. Berlin: ESV. Proost, Kristel (2015): Die SUCH-Konstruktion als eine Familie von Argumentstrukturmustern. In: Proost, Kristel/ Winkler, Edeltraud (Hg.): Familienähnlichkeiten deutscher Argumentstrukturmuster. (=-OPAL- 2015/ 1). Mannheim: Institut für Deutsche Sprache, S.-33-78. Rapp, Irene (2020): Ein Kinderwagen schreit- - Uminterpretationen zwischen Semantik und Pragmatik. In: Linguistische Berichte 264, S.-383-415. Rostila, Jouni (2018): Argument structure constructions among German prepositional objects. In: Boas, Hans C./ Ziem, Alexander (Hg.): Constructional approaches to syntactic structures in German. (=- Trends in Linguistics. Studies and Monographs (TiLSM)- 322). Berlin/ Boston: De Gruyter, S.-406-446. Sauermann, Eberhard (1985): Zu Valenzverstößen in poetischer Sprache. Befremdende Transitivierungen bei Georg Trakl. In: Koller, Erwin/ Moser, Hans (Hg.): Studien zur deutschen Grammatik. Johannes Erben zum 60. Geburtstag. (=-Innsbrucker Beiträge zur Kulturwissenschaft/ Germanistische Reihe-25). Innsbruck: Universität Innsbruck, S.-335-356. Schuster, Britt-Marie (2017): Abweichen als Prinzip. In: Betten, Anne/ Fix, Ulla/ Wanning, Berbeli (Hg.): Handbuch Sprache in der Literatur. (=-Handbücher Sprachwissen- 17). Berlin/ Boston: De Gruyter, S.-310-329. Storrer, Angelika (1992): Verbvalenz. Theoretische und methodische Grundlagen ihrer Beschreibung in Grammatikographie und Lexikographie. (=-Reihe Germanistische Linguistik-126). Tübingen: Niemeyer. <?page no="155"?> THOMAS GLONING WISSENSRÄUME VON ZEITSCHRIFTEN IN BEITRÄGEN, HEFTEN UND HEFT-SERIEN. TEXTORGANISATION, MULTIMODALITÄT, WORTGEBRAUCH Abstracts : Gegenstand dieses Beitrags ist der Zusammenhang von sprachlich-textueller Organisation mit Fragen der Wissensorganisation bzw. der Wissensvermittlung in und mit Zeitschriftenbeiträgen, Zeitschriftenheften und Serien von Heften. Die Aspekte der sprachlichen Gestaltung umfassen: Textorganisation, Text/ Bild-Koordination, Multimodalität und Wortgebrauch. Ich formuliere erste Befunde, erläutere ausgewählte Beispiele und umreiße einige Zukunftsaufgaben. Am Rande werden auch Fragen einer Theorie von Texttypen/ multimodalen Angeboten diskutiert. This paper examines the connection between linguistic-textual organization and questions of knowledge organization or knowledge transmission within and through journal articles, journal issues, and series of issues. Aspects of linguistic organization include: Text organization, text/ image coordination, multimodality, and lexic profile. I shall formulate initial findings, explain selected examples, and outline emerging desiderata. In addition, I will discuss some questions of a theory of text types and multimodal arrangements. Keywords : Zeitschriften, Wissensmedien, Wissensorganisation, Textlinguistik, Text/ Bild-Koordination, Multimodalität, Wortgebrauch 1. Einleitung: thematisch orientierte Wissensangebote in der Zeitschriftenlandschaft Wer heute das Zeitschriftenangebot in einer Bahnhofsbuch- und -medienhandlung sichtet, wird fast erschlagen von der schieren Anzahl verschiedener Zeitschriften und der breiten Streuung des Angebots. Neben thematisch fokussierten Heften zu klassischen Wissensfeldern wie Wirtschaft, Philosophie, Politik, Ernährung, Gesundheit, Kunst, Musik usw. finden sich spezielle Angebote zu verschiedenen Hobbys, Sportarten, Alltagsthemen und Formen der Freizeitgestaltung. Wieder andere Zeitschriften sind für bestimmte Zielgruppen angelegt. Klatschzeitschriften bekommt man teilweise für den Preis von unter einem Euro, hochwertige Lifestyle- Zeitschriften oder sehr spezielle Themenhefte können 20 oder über 30 Euro kosten. Zeitschriften kann man abonnieren, man kann sie fallweise, z. B. für eine Zugfahrt, kaufen, manche liegen in Hotels, in Frisiersalons oder in Wartezimmern zur Lektüre aus, wieder andere werden zum Mitnehmen bereitgelegt oder können auf einer Zugfahrt in digitaler Form kostenlos heruntergeladen werden. Die Bedeutung von Zeitschriften als einem wichtigen Sektor des aktuellen Medienangebots wird durch den Aspekt ihrer seriellen Erscheinungsweise noch erhöht. Manche Zeitschriften erscheinen wöchentlich, andere zweiwöchentlich, wieder andere im monatlichen oder zweimonatigen, viertel- oder halbjährlichen Rhythmus. DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="156"?> Thomas Gloning 156 Man muss sich also vor Augen halten, dass das komplexe und umfangreiche Zeitschriftenangebot in regelmäßigen Abständen komplett ausgetauscht wird. Damit ist die Erzeugung von immer neuem „Content“ eine zentrale Aufgabe, auch vor dem Hintergrund der Geschichte, der seriellen Erscheinungsweise und nicht zuletzt auch der ökonomischen Verankerung der einzelnen Zeitschriften. Neben der thematischen Vielfalt ist auch die historische Tiefe einzelner Zeitschriften und die Entwicklung der sprachlich-textuellen Machart eine wichtige Untersuchungsperspektive. Neben die Printangebote sind in den letzten Jahren parallel verfügbare Online-Angebote getreten, sei es als Eins-zu-eins-Version der gedruckten Zeitschrift im PDF- Format, sei es als Übernahme von Inhalten in ein Web-Angebot. Diese digitalen Zeitschriften gibt es im Abo oder in einschlägigen Internet-Zeitschriftenkiosken. Daneben gibt es Zeitschriften, die nur digital, als Web-Angebot verfügbar sind. Viele Zeitschriften sind in digitalen Archiven auch über die Zeit ihres aktuellen Erscheinens hinaus verfügbar. Ein wichtiger Sektor der Zeitschriftenlandschaft, um den es in diesem Beitrag gehen soll, sind Angebote, die thematisch fokussiert sind und einen Schwerpunkt im Bereich der Wissensvermittlung haben. Beispiele für solche Zeitschriften sind GEO und seine Ableger (z. B. Geolino, Geo Epoche, Geo Wissen), die deutschsprachige National Geographic, das Philosophiemagazin Hohe Luft, deutschsprachige Zeitschriften wie z. B. Architectural Digest, Akkordeon, Art, Bergsteiger, Chefkoch, Deine Gesundheit, Energiesparhäuser, Fisch & Fang, Gehirn & Geist, Hochzeitsplaner, Iss dich gesund, Jazz thing, Kanu, Linux Magazin, Merian, neue energie, OnTour, der pilger, Runner’s World, Sterne und Weltraum, Tuning, Unternehmermagazin, Vögel, Weltkunst, Yoga Journal, Zeit Wissen und sehr viele andere. 1 Neben einem allgemeiner orientierten Angebot, wie man es in den Zeitschriftenläden vorfindet, gibt es zum Teil auch recht spezialisierte Angebote wie z. B. Der Bauhof, eine Fachzeitschrift, die sich in erster Linie der Organisation des Maschinenparks von Städten und der Organisation städtischer Aufgaben in Bereichen wie Schneeräumung und Müllabfuhr widmet. Die Bedeutung wissenschaftlicher Zeitschriften kann hier ebenfalls erwähnt werden, auch wenn sie natürlich nicht zum Spektrum der Publikumszeitschriften gehören und normalerweise nicht im Bahnhofskiosk erworben werden können. Viele Zeitschriften sind heute auch über Internet-Angebote entweder frei oder kostenpflichtig nutzbar. Die Themen- und Wissensorientierung kann freilich überlagert oder ergänzt werden durch weitere Prinzipien, z. B. Ziele im Bereich der Unterhaltsamkeit, der kreativen sprachlichen Gestaltung, der Werbung oder der Orientierung an Maximen der Aktualität. Eine Zeitschrift wie Sound & Recording, die sich neueren Entwicklungen der Unterhaltungselektronik und der Audiotechnik widmet, muss aktuellen Ent- 1 Wikipedia bietet einen Übersichtsartikel mit einer recht umfangreichen Liste deutschsprachiger Zeitschriften, in der aber auch viele Zeitschriften nicht aufgeführt sind: https: / / de.wikipedia.org/ wiki/ Liste_deutschsprachiger_Zeitschriften (Stand: 24.3.2023). <?page no="157"?> Wissensräume von Zeitschriften in Beiträgen, Heften und Heft-Serien 157 wicklungen auf dem Fuße folgen, das ist ihr spezifischer Wert für Leserinnen und Leser, während historisch orientierte Wissenszeitschriften wie Geo Epoche Themenhefte z. B. zur Seidenstraße relativ unabhängig von aktuellen Entwicklungen vorbereiten und publizieren können. In krassem Gegensatz zum Stellenwert von themen- und wissensorientierten Publikumszeitschriften in der medialen Landschaft steht ihre weitgehende Untererforschtheit in der Sprachwissenschaft. Was Daniel Pfurtscheller (2017) über den Forschungsstand zu politischen Magazinen diagnostiziert hat, gilt für die Zeitschriftenlandschaft generell und auch für die hier behandelten thematisch fokussierten Wissensangebote in ihrer thematischen Vielfalt und ihrer historischen Entwicklungsdimension. Im vorliegenden Beitrag soll es darum gehen, erste Befunde, Perspektiven und Aufgaben für die sprachwissenschaftliche Erforschung von themenorientierten „Wissenszeitschriften“ zu formulieren und anhand von Beispielen zu illustrieren. Dabei können folgende Dimensionen des Forschungsgegenstands verfolgt werden: Darstellungsformen und Texttypen, Formen der Text/ Bild-Koordination, Aspekte der Multimodalität, Strategien der Wissensvermittlung, Facetten des Wortgebrauchs und die Themenspezifik von Formen der Wissensorganisation. Diese Aspekte lassen sich auf drei Ebenen anwenden: im Hinblick auf einzelne Beiträge, auf Zeitschriftenhefte und auch auf Zeitschriftenprofile im historisch-seriellen Längsschnitt. Ich veranschauliche diese Aspekte anhand von unterschiedlichen Zeitschriften aus den letzten Jahren, ggf. auch mit einzelnen historischen Rückblicken. 2. Themenorientierte Zeitschriften erzeugen strukturierte Wissensräume Zahlreiche Arten von Texten und multimodalen Kommunikationsangeboten sind Konstitutionsformen unterschiedlicher Arten von „Wissen“ bzw. von sich dynamisch entwickelnden und teilweise auch umstrittenen Wissensständen (vgl. Antos 1997; Fritz 2017; Gloning 2020). So unterschiedlich ein Kochrezept, ein Lehrbuchkapitel über den Aufbau von Zellen, ein Zeitschriftenbeitrag über den Wettlauf zum Südpol zwischen Amundsen und Scott oder ein YouTube-Tutorial auf den ersten Blick sind, haben sie doch Gemeinsamkeiten in ihrer funktionalen Ausrichtung und dem Ziel, bestimmte Arten des (praktischen, kognitiven) Wissens zu organisieren und zu vermitteln. Im Hinblick auf öffentlich diskutierte, umstrittene Themen können Zeitschriften mit dazu beitragen, Sichtweisen auf diese Gegenstände zu konstituieren, sie können damit Bestandteil medial komplexer Diskursformationen werden. Für einen größeren Teil der thematisch fokussierten Zeitschriften etwa zum Angeln oder zum Akkordeon-Spielen steht diese diskursive Dimension allerdings nicht im Vordergrund, in anderen Fällen, etwa in Automobil-Zeitschriften, werden solche Bezüge ausgespart oder nur zurückhaltend angesprochen. <?page no="158"?> Thomas Gloning 158 Ein wichtiger Schlüssel zu Fragen der Wissensorganisation und -konstitution sind die Themen und die thematische Struktur von einzelnen Beiträgen, Heften und Heft-Serien. Denn Themen hängen auf das Engste mit den Gegenständen des Wissens zusammen. Die Wissensstruktur eines Gegenstandsbereichs (z. B. Biologie) schlägt sich in der Themenstruktur der Texte nieder, die den Gegenstandsbereich behandeln. Das gilt für Lehrbücher und für die thematischen Facetten von Wissenszeitschriften gleichermaßen. Die drei Ebenen Beitrag, Heft und Heft-Serie lassen sich im Hinblick auf themenbzw. wissensorientierte Zeitschriften mit folgenden Leitfragen ansprechen: 1) Welche Beitrags- und Darstellungsformen (Texttypen, Arten von multimodalen Angeboten) werden in einem Heft (typischerweise) genutzt? Welche sprachlichen Mittel werden im Rahmen der Darstellungsformen für unterschiedliche thematische und funktionale Aufgaben eingesetzt? Wie sind Aspekte der Textorganisation und der sprachlich-multimodalen Gestaltung auf die Ziele der Wissensvermittlung bezogen? 2) Wie ist ein vorliegendes Heft aufgebaut? Welche Komponenten enthält es? Welche Zielsetzungen sind aufgrund des Aufbaus zu erkennen? Welcher „Wissensraum“ wird damit abgedeckt und wie lässt sich die entsprechende thematische Struktur des Heftes und der darauf bezogene Beitrag einzelner Bausteine beschreiben? 3) Wie lässt sich das thematisch-funktionale Profil einer Zeitschrift in der seriellen Abfolge ihrer Hefte rekonstruieren? Wie hat sich das Repertoire der Darstellungsformen und der sprachlichen Mittel in der Geschichte einer Zeitschrift, also in der historisch-seriellen Abfolge ihrer Hefte, entwickelt, was hat sich verändert, was ist gleich geblieben? In den folgenden Abschnitten bespreche ich zunächst Aspekte der multimodalen Machart von Beiträgen in ihrem Zusammenhang mit Fragen der Wissensorganisation und der Wissensvermittlung (Abschn.-3), ich gehe dann auf thematische Strukturen und Wissensprofile von Zeitschriftenheften und Heft-Serien ein (Abschn.- 4) und beleuchte danach Aspekte des Wortgebrauchs in Zeitschriften (Abschn.-5). Abschließend fasse ich die Ergebnisse zusammen und umreiße künftige Aufgaben der linguistischen Erforschung von Zeitschriften (Abschn.-6). 3. Darstellungsformen, Text/ Bild-Koordination und Multimodalität Das Repertoire von Texttypen bzw. multimodalen Darstellungsformen in thematisch fokussierten, wissensorientierten Zeitschriften und die Gestaltung einzelner Beiträge folgt zum einen thematischen Vorgaben, zum anderen kann man beobachten, dass es ein Kontinuum zwischen stärker verfestigten und eher kreativen Lösun- <?page no="159"?> Wissensräume von Zeitschriften in Beiträgen, Heften und Heft-Serien 159 gen für anstehende Darstellungsaufgaben gibt. Beispiele für stärker schematisierte und verfestigte Darstellungsformen finden wir etwa in Zeitschriften, in denen Produktvorstellungen und -beurteilungen eine Rolle spielen, z. B. zu so unterschiedlichen Bereichen wie Angeln, Soundtechnik oder Fahrradfahren. In diesen und weiteren Bereichen gehört es zum aktuellen Service der jeweiligen Zeitschrift, über neue Produkte zu informieren und insbesondere ihr Leistungspotenzial zu charakterisieren und sie ggf. in der Landschaft vergleichbarer Produkte zu verorten. Ein kürzeres Textbeispiel für einen solchen Beitrag stammt aus Sound & Recording (2022-04, S.-10): Abb.-1: Aus Sound & Recording (2022-04, S.-10) Im Hinblick auf die Wissenskonstellation ist hier erkennbar, dass bei der Beschreibung von Neuerungen in der Version 9 von SpectraLayers das Wissen darüber, wofür diese Software, ein leistungsfähiger Audio-Editor, eingesetzt werden kann, vorausgesetzt wird. Im Text werden wesentliche neue Features beschrieben, die auch im lexikalischen Bestand als solche gekennzeichnet sind (Neuerungen; nun kann man; verfügt jetzt). Die Rolle der Text/ Bild-Koordination ist ohne Fachkenntnis schwer zu beurteilen. Man kann aufgrund des Gebrauchs von „editieren“ im Text und aufgrund der Platzierung in einer Zeitschrift für Soundtechnik schließen, dass das Produkt ein Audio-Editor ist, der auf dem Foto in der Anwendung mit seiner Oberfläche gezeigt wird. Nicht ohne Weiteres beurteilbar ist die Frage, ob von den erwähnten Neuerungen etwas visualisiert wurde. Neben solchen Kurz-Charakteristiken neuer Angebote gibt es sehr viel längere und thematisch reichhaltigere Produktvorstellungen. Ein Beispiel aus demselben Heft von Sound & Recording (2022- 04) stellt auf fünf bebilderten Seiten den Nachbau eines legendären Equalizers aus <?page no="160"?> Thomas Gloning 160 den Motown Recording Studios der 1960er und 1970er Jahre vor. Neben der historischen Einbettung und der Beschreibung des Aufbaus und der verbauten Teile finden sich auch differenzierte Beurteilungen des Leistungsspektrums. Die funktionale Grundstruktur solcher Produktvorstellungen findet sich in unterschiedlich komplexen Ausbaustufen auch in Zeitschriften anderer Themenfelder und Handlungsbereiche, in denen bestimmte Produkte eine wichtige Rolle spielen, z. B. Wanderstiefel, Angelruten, Außenbordmotoren und dergleichen. Die Darstellungsform „Produktvorstellung“ kann auch mit mehr oder weniger ausführlichen Testberichten verbunden sein. In der Zeitschrift Bergsteiger (2022-04, S.- 102-111) zum Beispiel findet sich eine komplexe multimodal arrangierte Einheit zu Wanderrucksäcken: Nachdem zunächst Anforderungsdimensionen für solche Rucksäcke eingeführt werden, wird das vergleichende Testverfahren beschrieben, im Vordergrund steht dann die vergleichende Charakterisierung und Bewertung unterschiedlicher Modelle in einem tabellenartigen Arrangement mit Informationen und Beurteilungen zu einzelnen Charakterisierungsdimensionen (z. B. „Tragekomfort“, „Bedienkomfort“, „Robustheit“). In der Zeitschrift Bergsteiger gibt es für die Vorstellung und Beurteilung von Produkten zwei Rubriken: Die Einheit zu den Wanderrucksäcken steht in der Rubrik „Service/ Kaufberatung“. Daneben gibt es noch eine Rubrik „Härtetest/ Produkte“: „Was aktuelle Outdoor-Produkte wirklich können, zeigen sie meist erst im Praxistest. Hier berichtet die Redaktion, was sie im Einsatz hatte und wie zufrieden sie damit war“ (Bergsteiger 2022-04, S.-113). Aktualität und Service-Orientierung für Leserinnen und Leser sind demzufolge wichtige Prinzipien der Zeitschriftengestaltung in diesen und verwandten Sektoren. Im folgenden Beispiel aus der Rubrik „Härtetest/ Produkte“ (Abb.-2 auf der nächsten Seite) wird dies auf einer Doppelseite, in der fünf unterschiedliche Produkte in einem strukturierten multimodalen Arrangement vorgestellt und beurteilt werden. Die Betrachtung der Produktvorstellungen und -beurteilungen eröffnet mehrere Befunde von allgemeinerer Tragweite, die sich in ähnlicher Weise auch auf andere Darstellungsformen, z. B. Personenporträts, Tourenbeschreibungen, Charakterisierungen von Reisezielen oder Besprechungen von Werken der Architektur übertragen lassen. 1)- Produktvorstellungen und -beurteilungen weisen einen thematischfunktionalen Kern auf, der aber im Hinblick auf die Komplexität des Ausbaus und die (Nicht-)Nutzung multimodaler Ressourcen zahlreiche Spielarten, Realisierungsformen und Ausbaustufen zeigen kann. 2 2)- Im Lichte einer Lehre von Texttypen kann man viele Darstellungsformen in Zeitschriften nicht als „klassische“ Texttypen/ Textsorten ansehen. Man tut wohl besser daran, die textuelle und multimodale Gestaltung als Resultat von Problemlösehandeln aufzufassen, bei dem die Gestaltenden verfestigte Schemata und/ oder kreative neue Lösungen nutzen können. 3)-For- 2 Vgl. hierzu in Bezug auf andere Arten von Angeboten Schröder (2003); Gloning (2008); Kaltwasser (2019); vgl. zu Fragen der Kohärenz in clusterartigen oder hypertextuellen Angeboten Fritz (2022). <?page no="161"?> Wissensräume von Zeitschriften in Beiträgen, Heften und Heft-Serien 161 men der Verfestigung und der Schematisierung gibt es aber gleichwohl innerhalb der Heft-Tradition einer bestimmten Zeitschrift. So folgen, wenn ich recht sehe, die Beiträge der Rubrik „Kaufberatung“ in der Zeitschrift Bergsteiger einem ähnlichen Schema, auch wenn es variabel genutzt werden kann. So umfasst z. B. ein anderer Kaufberatungsbeitrag zum Thema „Leichtsteigeisen“ nicht ganz dieselben thematischen Komponenten bei der Einführung des Gegenstands, aber die Tabelle mit der vergleichenden Beurteilung unterschiedlicher Modelle ist auch hier das wesentliche Element. 4)-Welche Darstellungsformen zum Einsatz kommen, ist nicht nur durch thematische Erfordernisse bzw. Möglichkeiten bedingt, sondern offenbar auch von strategischen Erwägungen. So könnte man sich z. B. durchaus vorstellen, dass auch eine Zeitschrift wie Akkordeon Vorstellungen und Beurteilungen neuer Instrumentenmodelle aufweist. Aber dem ist, soweit ich sehe, nicht so. 3 3 Ich habe die Hefte 2022-09, 2022-05, 2022-01, 2021-12 und 2021-09 gesichtet. Im Heft Akkordeon (2021-12, S.-52 f.) gibt es einen technischen Beitrag zum Thema „Abnahmemöglichkeiten“, aber hier werden nicht einzelne Produkte thematisiert. Deshalb ist die Bezugnahme generisch: „Schwanenhalsmikrofone. Mikrofone dieser Art …“, „Einbaumikrofone sind …“, „… bieten sich Kondensatormikrofone an“. Im Heft-80, 2021-09 findet sich ein Text über die „Rückkehr einer Legende“, in dem auf einer Seite eine lange erwartete und verbesserte Neuauflage eines MIDI-GM-Moduls für Akkordeons vorgestellt wird. Aber Beiträge dieser Art sind in Akkordeon offenbar nicht regulär vorgesehen. Abb.-2: Multimodale Produktbeurteilung; Bergsteiger (2022-04, S.-112 f.) <?page no="162"?> Thomas Gloning 162 Den zweiten Aspekt mit einer doch vitalen Konsequenz für die klassische Theorie der Textsorten bzw. Texttypen („Todesstoß“) möchte ich nun mit einem weiteren Beispiel aus der Zeitschrift Häuser (2021-05, S.- 18 f.) veranschaulichen. In dieser Zeitschrift zu vielfältigen Themen aus den Bereichen Architektur und Design finden wir folgende Doppelseite: Abb.-3: Doppelseite aus der Zeitschrift Häuser (2021-05, S.-18 f.) Diese Doppelseite stellt eine abgeschlossene, modular aufgebaute Einheit dar. Beim Versuch, der traditionellen Anweisung nachzugehen, der zufolge sich jedes Textexemplar einer Textsorte zuordnen lässt, geraten wir in Schwierigkeiten. Auf den ersten Blick sehen wir keine Indikatoren, die auf einen bekannten Texttyp hinweisen. Die Überschrift „Freier Radikaler“ ist eine kreative Modifikation und Übertragung eines Terminus aus der Chemie auf einen Architekten. Die Unterüberschrift gibt dann Hinweise auf zwei zentrale Gegenstände: auf eine Ausstellung und auf einen bedeutenden Architekten, dem die Ausstellung gewidmet ist. Aufbau und modulare Machart der rechten Seite erschließen sich nicht unmittelbar, lassen sich dann aber nachvollziehen. Die sechs Abbildungen auf der rechten Seite sind in den Bildlegenden erläutert: Sie zeigen die Person Lewerentz (2), einige seiner bedeutenden Werke (3, 4, 5, 6) sowie den vorderen Umschlag des Katalogs zu einer aktuellen Ausstellung (1). Auf der rechten Seite links unten stehen die beiden Textblöcke, die erst den Schlüssel zur Kohärenz des Angebots bieten. In einem Kurzporträt wird der Architekt Lewerentz mit einigen zentralen Lebensstationen und mit wichtigen Werken vorgestellt, dabei wird seine Bedeutung für die Architektur des 20.-Jahrhunderts herausgestellt. Damit wird auch die Ausstellung motiviert, die auf der linken Seite in <?page no="163"?> Wissensräume von Zeitschriften in Beiträgen, Heften und Heft-Serien 163 der Unterüberschrift erwähnt wird und zu der es auf der rechten Seite ganz unten weitere Informationen gibt. Für die Text/ Bild-Koordination zwischen dem Kurzporträt und den Abbildungen werden keine expliziten Verknüpfungsverfahren verwendet, vielmehr müssen Leserinnen und Leser aufgrund der Wortwahl im Porträt und in den Bildlegenden diese Zusammenhänge selbst rekonstruieren. So steht z. B. im Porträt „St. Markus in Björkhagen“, im Bildlegendenblock lesen wir: „3|-Die Markuskirche mit Backsteingewölbe im Stockholmer Vorort Björkhagen baute der Architekt ab 1960“, die „3|“ verweist auf die entsprechend nummerierte Abbildung aus dem Innenraum der Kirche, die rechts oben auf der rechten Seite platziert ist. 4 Was ist das nun? Ein Personenporträt? Das Gesamtangebot auf der Doppelseite enthält wohl auf der rechten Seite ein komprimiertes Personenporträt, aber das Gesamtangebot ist kein Porträt. Es ist auch keine Ausstellungsbesprechung, dafür erfahren wir viel zu wenig über die Ausstellung. Das Gesamtangebot ist auch keine Ankündigung eines neuen Buches, obwohl diese Information mit einem Bild und einer Bildlegende Bestandteil des Angebotes ist („1|- Das Buch zur Ausstellung ist schon jetzt ein Standardwerk: Sigurd Lewerentz, ‚Architect of Death and Life‘, Park Books, 712- Seiten, 120- Euro“). Für einen reinen Ausstellungshinweis wiederum ist das Angebot zu reichhaltig, obwohl man sowohl das kurze Personenporträt, den Hinweis auf den Ausstellungskatalog und auch die Abbildungen funktional auf die Information über die Ausstellung beziehen kann. Wir „sehen“ also funktionale und thematische Zusammenhänge zwischen Textteilen und Abbildungen, aber wir haben kein textuell-multimodales Muster, kein Schema, das den Bauplan für dieses Angebot bereitstellt. Im Hinblick auf die Wissensorganisation können wir drei Gegenstände unterscheiden: Den Architekten Lewerentz mit den thematischen Facetten Leben, Werk, Bedeutung, sodann die Ausstellung und den Ausstellungskatalog. Je nach Vorwissen können informative Bestandteile neu oder auch schon bekannt sein. Für eine Lewerentz-Kennerin ist vielleicht nur der Hinweis auf Ausstellung und Katalog neu. Jemand, der wie ich Lewerentz nicht kannte und das Heft zu einem Zeitpunkt nach dem Ende der Ausstellung las, bekommt mit diesem Beitrag eine komprimierte Einführung in Leben und Wirken dieses Architekten und darüber hinaus einen wichtigen Literaturhinweis. Diese wenigen Beispiele stützen die Auffassung, dass eine traditionelle, gusseiserne Konzeption von Textsorten wohl aufgegeben werden muss zugunsten einer flexibleren Problemlöse-Konzeption zu Produktion und Analyse der Machart von Texten, Textclustern und besonders von multimodalen Angeboten. Stark verfestigte und schematisierte Angebote, die es natürlich gibt, haben in einer solchen Konzeption nach wie vor ihren Platz: Mustern folgen ist eine Art von Problemlösung. Es wird 4 Vgl. zu einer Konzeption des multimodalen Verstehens als Interaktion zwischen NutzerIn und dem Kommunikationsangebot Bucher (2010, Abschn.-3 und 2017). <?page no="164"?> Thomas Gloning 164 aber nicht angenommen, dass alle Angebote in gleicher Weise auf verfestigten Mustern für Texttypen beruhen. Hinzu kommt: Muster kann man auch auf den unteren Ebenen der textuell-multimodalen Gestaltung, z. B. im Bereich funktionaler Textbausteine, nutzen, auch wenn die Organisation des Gesamtangebots kreativ-strategischen Prinzipien folgt. Neben dieser sprachtheoretischen Konsequenz ergibt sich darüber hinaus die zeitschriftenspezifische Aufgabe, die Vielfalt der multimodalen Darstellungsformen in thematisch fokussierten Zeitschriften im Zusammenhang mit Aufgaben der Wissensorganisation und der Wissenskonstitution auf breiterer Grundlage und in größerem Detail zu untersuchen. 4. Thematische Profile und Wissensprofile von Zeitschriftenheften und Heft-Serien Dass einzelne Zeitschriften-Beiträge auf bestimmte Wissensziele gerichtet sein können, ist offenkundig. Beiträge können Werkzeuge der Wissensorganisation und der Wissensvermittlung sein. Wir haben im Abschnitt-3 gesehen, dass bei ihrer Gestaltung nicht nur mehr oder weniger verfestigte Muster, sondern auch strategische, kreative Lösungen zugrunde liegen können. Nun stellt sich die Frage, ob sich eine solche Perspektive auch auf ganze Zeitschriftenhefte und auf Serien von Heften in ihrer historischen Abfolge übertragen lässt. Hierzu lassen sich zwei Leitfragen formulieren: 1)- Welcher thematische Raum und welcher Wissensraum werden durch ein Zeitschriftenheft organisiert bzw. konstituiert? Gibt es hierfür jeweils eigene Konstitutionsprinzipien? 2)-Welche thematischen Räume und welche Wissensräume werden durch Serien von Zeitschriftenheften im historischen Längsschnitt erzeugt? Lassen sich auch hier eigene Konstitutionsprinzipien ausmachen? Betrachtet man z. B. ein Merian-Heft, dann könnte man als übergeordnetes Ziel die facettenreiche Charakterisierung einer Stadt, eines Landes oder einer Gegend nennen, die Teilthemen wie Geschichte, Kultur, Bewohner, Lebensformen, Architektur, touristische Möglichkeiten und auch praktische Reisetipps mit umfasst. 5 Dabei hängt die Ausgestaltung des Themenspektrums auch von der Art des Gegenstandes ab, eine Landschaft wie die Schwäbische Alb eröffnet ein anderes thematisches Profil als eine Stadt wie Paris, Hefte zu Reiseformen wie Safaris oder „City-Trips in Deutschland“ wiederum andere. Dieser Befund wird für die Charakterisierung von Zeitschriften als einer seriellen Abfolge von Heften bedeutsam werden. Das Spektrum der Themen eines Merian-Heftes wird, wie auch bei anderen Zeitschriften üblich, bereits im Inhaltsverzeichnis erschlossen und unterstützend visualisiert: 5 Siehe zum Vergleich die Untersuchung von Ermakova (2015) zu multimodalen Städte- und Länderporträts in Zeitungen und ihren Online-Gegenstücken. <?page no="165"?> Wissensräume von Zeitschriften in Beiträgen, Heften und Heft-Serien 165 Abb.-4: Merian, Heft 2019-12, Marrakesch Zur Umsetzung der thematisch-informationellen Ziele zählt darüber hinaus eine attraktive Gestaltung, die bei der Lektüre auch zum Vergnügen beitragen soll. Solche Zeitschriftenangebote sind allerdings nicht mit der thematischen Geschlossenheit eines Lehrbuchs zu vergleichen, sondern für sehr unterschiedliche Nutzungsweisen ausgelegt, bei denen dann doch wieder die einzelnen Beiträge im Vordergrund stehen. Man muss im Hinblick auf Hefte deshalb auf der Ebene der Angebotsstruktur bleiben, tatsächliche Nutzungen kann man nur empirisch, z. B. mit Hilfe von Eyetracking-Verfahren oder Methoden des Lauten Denkens, erforschen. Im Hinblick auf die Angebotsstruktur ist das thematische Repertoire von Heften ein wichtiger Schlüssel. Ein zweiter wichtiger Zugang ist die Frage, welche Darstellungsformen, welche Formen der Text/ Bild-Koordination und der multimodalen Organisation in einem Zeitschriftenheft für welche Zwecke genutzt werden. In dieser Perspektive kann man zur Beschreibung des Profils eines Zeitschriftenheftes dadurch beitragen, dass man zeigt, welche wiederkehrenden thematischen Bausteine vorkommen und welche Darstellungsformen dafür genutzt werden (z. B. ein- oder zweiseitige Beiträge zu touristischen Destinationen in der Zeitschrift Reise aktuell), indem man das Repertoire der Visualisierungsformen und der Text/ Bild-Koordination systematisiert, indem man fragt, ob es mehr oder weniger stabile oder variable Formen der Heft- Sequenzierung gibt; darüber hinaus spielt auch die Frage eine wichtige Rolle, ob Maximen der Aktualität, der Service-Orientierung, der Unterhaltsamkeit und ggf. <?page no="166"?> Thomas Gloning 166 weitere für die Gestaltung einzelner Hefte handlungsleitend sind. Diese erste Übersicht über mögliche Konfigurationsparameter zur Charakterisierung von einzelnen Zeitschriftenheften ist sicherlich erweiterbar und auch diskussionswürdig. Die zentrale Frage ist dabei, ob die Angebotseinheit „Zeitschriftenheft“ überhaupt eine eigene Beschreibungsaufgabe im Rahmen von Textlinguistik, Medienlinguistik und Multimodalitätsforschung sein sollte. Ich meine: ja. Die Gründe muss ich später entfalten. Zeitschriften können auch in einer Längsschnittperspektive betrachtet werden, hier geht es um Serien von regelmäßig erscheinenden bzw. erschienenen Heften. Die Zeitschrift Brigitte z. B. ist mit ihren Vorläufern inzwischen über 100 Jahre alt, die Zeitschrift Merian ist in den späten 1940er Jahren nach dem zweiten Weltkrieg erstmals erschienen, die Geschichte des Jazz Podium reicht ebenfalls bis in die späten 1940er Jahre zurück, die Zeitschrift Akkordeon ist inzwischen bei Nummer-85 angelangt. Die gerade erwähnte Frage zu einzelnen Zeitschriftenheften als Gegenständen linguistischer Analyse verschärft sich, wenn man die serielle Tradition von Zeitschriften berücksichtigt. Da stellen sich die Fragen nach dem Themenspektrum und den Gestaltungsweisen von Heften einer Zeitschrift auch in ihrer historischen Dynamik. Die Einheit der Zeitschrift als Serie von Heften im historischen Längsschnitt im Sinne der oben formulierten Leitfrage- 2) ist bisher kein etablierter Gegenstand der Sprachwissenschaft und der Medienlinguistik, auch wenn es vereinzelte Längsschnittstudien gibt. 6 Gleichwohl kann eine solche Perspektive nicht nur im Hinblick auf das Repertoire der Beschreibungsgegenstände der Sprachwissenschaft jenseits der Sätze und der Texte, sondern auch im Hinblick auf die linguistische Zeitschriftenforschung von Bedeutung sein. 5. Profile des Wortgebrauchs in Zeitschriften Das Profil einzelner Zeitschriften und ihrer Beiträge schlägt sich auch im Wortgebrauch nieder. Dies betrifft zunächst die Rolle des Wortgebrauchs für spezifische thematische und funktionale Aufgaben. In der Zeitschrift Fisch & Fang (2021-05) zum Beispiel findet man (erwartungsgemäß) reich ausgebaute Wortschatzsektoren zur Bezeichnung von Arten von Fischen (Aal, Hecht, Rotauge, Bachforelle, Speisefisch), von Geräte(teile)n bzw. Ausrüstungsgegenständen (Naturköder, Kunstköder, Rute, Matchrute, Wurfgewicht) und ihren Werkstoffen (Kohlefaser), Bezeichnungen für Anglertypen (Spinnfischer, Fliegenfischer, Uferangler), Aspekte der Angelpraxis (Hechtschonzeit, den Anhieb setzen) und der Topografie (Ufer, Gewässer), aber auch im Zusammenhang mit Fragen natürlicher Lebensräume (Gewässerökologie, Fischpopulation) und der rechtlichen Regelung der Fischerei (Fangfenster, Schutzgebiet). Man sieht schon an diesen wenigen Beispielen, dass sich Themen- und Wissens- 6 Vgl. z. B. Pflaeging (2017) zur Tradition der Nutzung von Bild+Caption-Einheiten in der langen Tradition der englischen Ausgabe von National Geographic. <?page no="167"?> Wissensräume von Zeitschriften in Beiträgen, Heften und Heft-Serien 167 strukturen in Wortschatzsektoren abbilden lassen. Zeitschriften sind deshalb neben Lehrbüchern gute Quellen zur Ermittlung (der inneren Struktur) des Wortschatzes der entsprechenden Themenfelder. An Wörtern wie Topköder, Top-Gewässer oder dem Adjektiv kapital (kapitaler Hecht) ist erkennbar, dass neben dem Informieren auch Formen der Bewertung und der Beurteilung an lexikalische Mittel gebunden sein können. Zum anderen können aber auch traditionelle Aspekte der Wortschatzuntersuchung lohnend sein, z. B. die Fragen, welche Rolle Wortbildungen, die verschiedenen Wortarten oder fremdsprachige Elemente in unterschiedlichen Zeitschriften spielen. In Zeitschriften zur Audiotechnik etwa sind Fremdwörter sehr häufig. Im Hinblick auf die Bedeutung von Vorwissen für das Verstehen von thematischem Vokabular kann man Passagen erkennen, in denen die Kenntnis entsprechender Wörter bzw. Verwendungsweisen vorausgesetzt wird. Gleichwohl erlauben regelmäßige Lektüre oder Hinweise aus der textuellen Umgebung auch in solchen Fällen, den einschlägigen Gebrauch zu rekonstruieren. Daneben finden wir in Fisch-& Fang auch Passagen, die der Einführung neuen Wissens und damit verbunden des entsprechenden Vokabulars dienen, im Heft 2021-05 z. B. in der Rubrik „Praxis kompakt“ über Arten von Angelhaken. Ein zweites Beispiel kann verdeutlichen, dass thematisch fokussierte Zeitschriften auch Wörter und Wendungen dichter und spezifischer belegen können als in allgemeinsprachlichen Korpora. In einem Heft des Unternehmermagazin (2019-5/ 6) finden sich z. B. mehrere Belege für Disruption und disruptiv (auch in Verbindungen wie disruptiv agieren, disruptive Technologie, disruptiver Ansatz): „Unternehmen, die disruptiv agieren, werden sehr viel mehr wert sein, so dass sich das Kapital verschiebt.“ (S.-19). Dabei wird erkennbar, dass Disruption sich auf Ereignisse beziehen kann, auf die man ökonomisch reagieren muss, dass damit aber auch ein unternehmerischer Ansatz, eine Art zu denken und zu entscheiden gemeint sein kann. Wörter mit einem ähnlichen Stellenwert sind etwa agil und Agilität. Zeitschriften können deshalb auch eine wertvolle Quelle für die Lexikographie sein. 6. Ausblicke und Aufgaben In diesem Beitrag habe ich Aspekte des Zusammenhangs von sprachlich-textueller Organisation mit Fragen der Wissensorganisation und der Wissensvermittlung in und mit Zeitschriften beleuchtet. Dabei standen (in unterschiedlicher Ausführlichkeit) drei Ebenen im Vordergrund: Zeitschriftenbeiträge, Zeitschriftenhefte und Serien von Heften im historischen Längsschnitt. Die Aspekte der sprachlichen Gestaltung umfassten: Textorganisation, Text/ Bild-Koordination, Multimodalität und Wortgebrauch. Die Zusammenhänge konnte ich in diesem Rahmen nur exemplarisch besprechen und anhand weniger Beispiele veranschaulichen. Zu den zukünftigen Aufgaben gehören insbesondere: 1)-die Vertiefung von Aspekten des Zusam- <?page no="168"?> Thomas Gloning 168 menhangs von sprachlicher Gestalt und Wissensorganisation, 2)- die differenzierte Analyse und Beschreibung der multimodalen Darstellungsformen in Abhängigkeit von Wissensgegenständen und Themenfeldern und 3)- umfassende Analysen des Wortschatzprofils ausgewählter Zeitschriften bzw. Zeitschriftenhefte. Danksagung Für hilfreiche Hinweise und für Unterstützung danke ich sehr herzlich: Christiane Benetz, Gerd Fritz, Dennis Kaltwasser und Lothar Lemnitzer.- - Angelika Storrer danke ich sehr herzlich für die freundschaftliche Zusammenarbeit und die Inspiration vieler Jahre! Literatur Antos, Gerd (1997): Texte als Konstitutionsformen von Wissen. Thesen zu einer evolutionstheoretischen Begründung der Textlinguistik. In: Antos, Gerd/ Tietz, Heike (Hg.): Die Zukunft der Textlinguistik. Traditionen, Transformationen, Trends. (=-Germanistische Linguistik-188). Tübingen: Niemeyer, S.-43-63. Bucher, Hans-Jürgen (2010): Multimodalität-- eine Universalie des Medienwandels: Problemstellungen und Theorien der Multimodalitätsforschung. In: Bucher, Hans-Jürgen/ Gloning, Thomas/ Lehnen, Katrin (Hg.): Neue Medien-- neue Formate. Ausdifferenzierung und Konvergenz in der Medienkommunikation. (=- Interaktiva, Schriftenreihe des Zentrums für Medien und Interaktivität, Gießen-10). Frankfurt a. M./ New York: Campus, S.-41-79. Bucher, Hans-Jürgen (2017): Understanding multimodal meaning making: theories of multimodality in the light of reception studies. In: Seizov, Ognyan/ Wildfeuer, Janina (Hg.): New studies in multimodality. Conceptual and methodological elaborations. London u. a.: Bloomsbury, S.-91-123. Ermakova, Vera (2015): Städte-, Länder- und Landschaftsporträts in gedruckten Zeitungen und Online-Angeboten. Grundlagen und empirische Untersuchungen zu Konstruktionsprinzipien einer multimodalen Kommunikationsform. (=- Linguistische Untersuchungen- 7). Gießen: Gießener Elektronische Bibliothek. http: / / dx.doi.org/ 10.22029/ jlupub-3040. Fritz, Gerd (2017): Dynamische Texttheorie. 2.-Aufl. (=-Linguistische Untersuchungen-5). Gießen: Gießener Elektronische Bibliothek. http: / / geb.uni-giessen.de/ geb/ volltexte/ 2017/ 12601/ (Stand: 10.7.2023). Fritz, Gerd (2022): Coherence in Discourse. A Study in Dynamic Text Theory. Gießen: Giessen University Library Publications 2022. http: / / dx.doi.org/ 10.22029/ jlupub-791. Gloning, Thomas (2008): „Man schlürft Schauspielkunst-…“. Spielarten der Theaterkritik. In: Hagestedt, Lutz (Hg.): Literatur als Lust. Begegnungen zwischen Poesie und Wissenschaft. Festschrift für Thomas Anz zum 60.-Geburtstag. (=-Reihe Theorie und Praxis der Interpretation-6). München: belleville, S.-59-86. Gloning, Thomas (2020): Epistemic genres. In: Leßmöllmann, Annette/ Dascal, Marcelo/ Gloning, Thomas (Hg.): Science communication. (=- Handbooks of Communication Science 17). Boston/ Berlin: De Gruyter, S.-209-233. <?page no="169"?> Wissensräume von Zeitschriften in Beiträgen, Heften und Heft-Serien 169 Kaltwasser, Dennis (2019): Forenkommunikation in Onlinezeitungen. Pressekommunikation-im medialen Wandel. (=-Linguistische Untersuchungen-13). Gießen: Giessen University Library Publications. http: / / geb.uni-giessen.de/ geb/ volltexte/ 2019/ 14812/ (Stand: 10.7.2023). Pflaeging, Jana (2017): Tracing the narrativity of National Geographic feature articles in the light of evolving media landscapes. In: Discourse, Context & Media-20, S.-248-261. Pfurtscheller, Daniel (2017): Visuelle Zeitschriftengestaltung. Nachrichtenmagazine als multimodale Kommunikationsformen. (=- Innsbrucker Beiträge zur Kulturwissenschaft. Germanistische Reihe-86). Innsbruck: Innsbruck University Press. Schröder, Thomas (2003): Die Handlungsstruktur von Texten. Ein integrativer Beitrag zur Texttheorie. Tübingen: Narr. Wikipedia: Liste deutschsprachiger Zeitschriften. https: / / de.wikipedia.org/ wiki/ Liste_ deutschsprachiger_Zeitschriften (Stand: 24.3.2023). <?page no="171"?> LOTHAR LEMNITZER 20 JAHRE WORTWARTE Wie alles anfing (und endete) Abstracts : Vor nun 23 Jahren, im September 2000, starteten Tylman Ule und ich ein kleines Projekt zur Ermittlung neuer Wörter auf der Basis von Texten im World Wide Web. So konnte letztendlich die Wortschatzentwicklung der ersten zwanzig Jahre des neuen Jahrtausends aufgezeichnet werden. In diesem Aufsatz beschreibe ich noch einmal unser Vorgehen und ziehe eine quantitative und qualitative Bilanz des Projekts. Ein Fazit nach 20 Jahren ist, dass das Konzept „Neologismus“ nach wie vor nur vage zu umreißen ist. In the year 2000, now 23 years ago, my colleague Tylman Ule and I launched a project with the objective to retrieve new words from data that have been crawled on a daily basis from the World Wide Web. As a result, the 20-year-lasting efforts led to a collection that depicts the development of German vocabulary during the first twenty years of the new millenium. In this paper I summarize the results of this project, quantitatively as well as qualitatively. One conclusion to be drawn is that the concept of “neologism” can still not be defined precisely. Keywords : Wortwarte, Neologismus, Wortschatzentwicklung, Monitorkorpus 1. Einleitung Im August 2000 starteten Tylman Ule und ich ein kleines Projekt als Testfall für das von Tylman Ule und weiteren Kolleginnen und Kollegen aufgebaute Referenzkorpus DeReKo. 1 Der von Tylman Ule entwickelte Prototyp für das Auffinden „neuer Wörter“ erwies sich als so vielversprechend, dass wir daraus im September 2000 ein Dauervorhaben machten, das aus unterschiedlichen Gründen 20-Jahre später, Ende des Jahres 2020, abgebrochen wurde. In diesem Artikel möchte ich eine Bilanz dieses Vorhabens ziehen, wobei lexikografische Aspekte im Vordergrund stehen werden. 2. Wie alles anfing Im August 2000 entwickelten Tylman Ule und ich einen Anwendungsfall, um den Nutzen eines Referenzkorpus zu demonstrieren. Die Wortliste eines damals verfügbaren Referenzkorpus sollte dabei als Hintergrundressource für einen Filter dienen, der aus einer bestimmten Menge aktueller Textdaten die Zeichenketten herausfil- 1 In dem Ende des letzten Jahrhunderts begonnenen Projekt, einer Kooperation der Universitäten Tübingen und Stuttgart sowie des Instituts für Deutsche Sprache in Mannheim (weitere Details unter www.sfs.uni-tuebingen.de/ dereko/ , Stand: 20.3.2023), entstand ein Vorläufer des noch heute unter diesem Namen am Leibniz-Institut für Deutsche Sprache abfragbaren „Deutschen Referenzkorpus“. An der Universität Tübingen waren unter anderen Tylman Ule und ich für die Definition von Anwendungsfällen für ein solches Korpus zuständig. DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="172"?> Lothar Lemnitzer 172 tert, die in der Wortliste des Referenzkorpus nicht gelistet sind. Von diesen Zeichenketten wird zunächst angenommen, dass sie a)-Wörter und b)-neu sind. Die für die Auswahl verwendeten Daten wurden täglich aus ca. 10 Tageszeitungen, Wochenzeitungen und sonstigen Webangeboten gecrawlt 2 und mit einem sprachtechnologischen Werkzeug tokenisiert, gleiche Wortformen (Tokens) wurden zu Worttypes 3 zusammengefasst. Dies ergab täglich eine Liste von meist mehreren Hundert Wörtern, die ich im Anschluss nach interessanten Kandidaten für Neuwörter durchforstete. Diese Wörter, meist war es eine kleine zweistellige Zahl, wurden im Anschluss in einer Liste zusammengestellt, die das Datum des Recherchetages trägt. Die Wörter wurden von mir auf die Grundform zurückgeführt (lemmatisiert 4 ), mit minimalen grammatischen Angaben versehen und durch einen Beleg aus der Datenbasis, dem Korpus des Tages, illustriert. Eine Seite mit den „Wörtern des Tages“ wird auf der Webseite www.wortwarte.de (Stand: 20.3.2023) präsentiert wie in Abbildung-1 dargestellt. Abb.-1: Die Tagesliste der Wortwarte vom 16.- September 2000 (https: / / wortwarte.de/ Archiv/ Datum/ d000916.html, Stand: 20.3.2023) In der ersten Phase des Projektes habe ich darüber hinaus die meisten Wörter mit einer Sachbereichsangabe versehen, so dass für die Frühzeit der Wortwarte nach Sachbereich sortierte Wortlisten verfügbar sind (Abb.-2). 2 Näheres zur Auswahl der Quellen unter https: / / wortwarte.de/ Projekt/ index.html (Stand: 20.3.2023). 3 Zur Unterscheidung von Wortform (Token) und Type und zu gängigen Verfahren der Tokenisierung vgl. Lemnitzer/ Würzner (2015). 4 Dem Problem, dass in einer späteren Liste eine weitere Form im Paradigma einer bereits registrierten lexikalischen Einheit auftaucht und dort fälschlicherweise als „neu“ eingestuft wird, wurde mit einem weiteren Filter begegnet. Alle „Grundformen des Tages“ wurden mit dem gesamten bisherigen Bestand an Grundformen abgeglichen; Dubletten wurden entfernt. <?page no="173"?> 20 Jahre Wortwarte 173 Abb. 2: Liste der Wörter, die dem Sachbereich Technik zugeordnet sind (https: / / www. der-postillon.com/ 2023/ 06/ frontex.html? m=1, Stand 23.6.2023) Darüber hinaus gibt es eine alphabetische sortierte Wortliste. Damit ergeben sich drei Zugriffsmöglichkeiten auf die Daten, also die einzelnen Wortartikel: - Über das Datum kann auf die Liste der Wörter eines Tages zugegriffen werden. - Über die thematische Liste kann auf den Teil der Stichwörter zugegriffen werden, die dem entsprechenden Sachgebiet zugeordnet sind. - Über die alphabetische Liste kann ein bestimmtes Wort gesucht werden. Die Wortwarte stellt damit eine Ressource für den neuen Wortschatz der Jahre 2000 bis 2020 dar, eine lexikalische Ressource mit einem gewissen Grad der Aufbereitung der Stichwörter. Sie sollte allerdings nicht als Wörterbuch sui generis aufgefasst und nach den Maßstäben bewertet werden, die an ein Wörterbuch mit Recht angelegt werden. 5 Das Ziel eines Wörterbuchs sollte es meiner Auffassung nach sein, diejenige Lexik einer Sprache, einer Varietät, eines Sprachstadiums etc. zu verzeichnen und zu dokumentieren, die in dem Sinne stabil ist, dass die Verwendung der beschriebenen Einheiten in der Sprachgemeinschaft etabliert ist. Dies ist bei der Wortwarte nicht der Fall. Die Wortwarte registriert Wörter „in statu nascendi“, d. h. zum Zeitpunkt der ersten dokumentierbaren Verwendung. Aus ebendiesem Grund befinden sich in der Datensammlung viele sog. Okkasionalismen, d. h. Gelegenheitsbildungen, die über ihre Verwendung in einem sehr engen Kontext bzw. Zeitfenster hinaus gar nicht oder sehr selten verwendet werden. Dies trifft tatsächlich für die Mehrheit der in die Wortwarte aufgenommenen Wörter zu. 5 Vgl. hierzu die Thesen in Lemnitzer (2019). <?page no="174"?> Lothar Lemnitzer 174 Unter anderem der Sammelgegenstand also unterscheidet die Wortwarte von explizit lexikografischen Projekten wie dem Neologismenwörterbuch am Leibniz-Institut für Deutsche Sprache. 6 Den Gegenstand dieses Wörterbuches bilden lexikalische Einheiten, die zwar im Darstellungszeitraum erstmals registriert werden konnten, sich seitdem jedoch etabliert haben, was sich an der Häufigkeit der Verwendung und der Distribution über verschiedene Quellen nachweisen lässt. Man kann deshalb bei den Projekten am IDS von retrospektiver Neologie sprechen. 7 3. Warum der Name „Wortwarte“? Bei der Namenssuche in der Gründungsphase dieses Vorhabens spielte Angelika Storrer eine wichtige Rolle. Sie riet von jedem Namen ab, in dem der Ausdruck „Neologismus“ verwendet wird (im Gespräch war „Neologismenserver“). Dies hat sich rückblickend als eine sehr sinnvolle Entscheidung erwiesen. Der Terminus bzw. das dadurch benannte Konzept ist so wenig genau zu fassen, dass unklar war, ob es sich bei den zu präsentierenden Daten wirklich um Neologismen handelt. 8 Noch heute, 20-Jahre später, ist nicht wirklich klar, in welcher Weise der Ausdruck terminologisch präzise zu verwenden ist. 9 In einer Publikation aus dem Jahr 2022 stellt Hilke Elsen einem aus ihrer Sicht zu engen Neologismus-Begriff 10 in der Lexikografie einen weitergefassten lexikologischen Neologimus-Begriff gegenüber. 11 Auf diesem baut dann der Rest ihres Buches auf. Um das Projekt nicht von Anfang an mit dieser durchaus berechtigten terminologischen Diskussion zu befrachten, kam es zur Wahl des Titels „Wortwarte“ und des Untertitels „Wörter für heute und morgen“. 12 Der Titel wurde in Analogie zur Bezeichnung anderer Arten von „-warte“ gewählt, als Modell einer Analogie diente besonders die „Wetterwarte“. Eine Wetterwarte ist im Wesentlichen eine Institution, an der Daten zu meteorologischen Ereignissen an bestimmten Orten zu bestimmten Zeiten gesammelt werden. Erst die Aggregation der Daten verschiedener Wetterwarten über eine längere Zeit lässt etwas erkennen, das man als (lokales oder gar globales) Klima bzw. (in der zeitlichen Dimension) Klimawandel bezeichnen kann. Analog liefert(e) die Wortwarte sprachliche Beobachtungen, deren Aggregation Erkenntnisse zur Sprache, besonders der Lexik, und deren Wandel ermöglichen soll. 6 - Neologismenwörterbuch im OWID-Wörterbuchportal am Leibniz-Institut für Deutsche Sprache, www.owid.de/ docs/ neo/ start.jsp (Stand: 20.3.2023). 7 Kritisch dazu äußert sich Hilke Elsen (in Elsen 2021). 8 Vgl. hierzu bereits Kinne (1996). 9 Vgl. hierzu Elsen (2021, 2022). 10 Elsen (2022, S.-49), Informationskasten. 11 Elsen (2022, S.-34), Informationskasten. 12 In den Umtexten wird der Begriff dann allerdings thematisiert, vgl. wortwarte.de/ Projekt/ index.html (Stand: 20.3.2023). <?page no="175"?> 20 Jahre Wortwarte 175 Als Beispiele für Untersuchungen, die sich ausdrücklich auf die Daten der Wortwarte beziehen, seien hier Dargiewicz (2013) und Dubiec-Stach (2018) genannt. Im Untertitel klingt die Hoffnung an, dass mindestens ein Teil der gesammelten Wörter sich fest im Inventar des Wortschatzes etablieren kann. Tatsächlich habe ich mehrfach den Versuch unternommen, auf der Basis der im Projekt gesammelten Wortlisten die Karrieren der aufgenommenen Wörter in Form von Frequenzprofilen zu erfassen und darzustellen. Die Daten konnten aber leider nie in das Webangebot integriert werden, was auch ein Problem ihrer Darstellbarkeit war. Umso mehr freut es mich, dass in dem Beitrag von Frank Michaelis et al. (in diesem Band), Abschnitt-4, ein „Wortschatzwandel im Spiegel“ genanntes Projekt vorgestellt wird. Das Projekt ist ein hervorragendes Beispiel für eine explorative Herangehensweise in der Korpuslinguistik und wartet mit einer ansprechenden Visualisierung der Daten auf. Im folgenden Abschnitt werde ich aufgrund aktuellerer Daten zeigen, inwiefern doch, aus retrospektiver Sicht, gezeigt werden kann, welche der in statu nascendi beschriebenen Wörter sich in der Folge etablieren konnten. 13 Hier sei noch erwähnt, dass auch Okkasionalismen ihren Wert für die lexikologische Forschung haben, wie Tomášiková (2008) gezeigt hat. 14 Die einzelnen verzeichneten Wörter lassen sich zum Beispiel an Präfix oder Endung aggregieren. So lassen sich interessante Entwicklungen von Wortfamilien zeigen, z. B. nach dem Präfix Cyber- oder dem (Pseudo-)Suffix -gate. Untersuchungen solcher Art sind unabhängig davon, wie oft das einzelne Wort im Korpus vertreten ist. 15 4. Wie es endete Im Laufe von 20 Jahren wurden die für die Datenerhebung, -aufbereitung und -präsentation verwendeten Skripte immer komplexer, und die zum großen Teil in der Programmiersprache PERL geschriebene Software war zuletzt kaum noch wartbar. Hinzu kamen schwer zu harmonisierende Differenzen in der Zeichenkodierung der gecrawlten Webseiten. In der „Laufzeit“ der Wortwarte setzte sich ein internationaler Standard namens Unicode für die Kodierung der Zeichen durch. Diese erfreuliche Entwicklung hatte allerdings den Preis, dass mehrere Kodierungsformen nebeneinander existierten und die jeweils verwendete Kodierung nicht immer aus den Metadaten erschließbar war. Die Abbildung auf eine Art der Zeichenkodierung erforderte erhebliche Anbauten in einer eh schon komplexen Software. 13 In der Lexikologie spricht man „Lexikalisierung“. 14 In dieser Hinsicht folgt die Wortwarte tatsächlich eher dem von Elsen (2022, S.-34) vorgeschlagenen Fassung des Neologismus-Begriffs. 15 Zu morphologischen, lexikologischen und lexikografischen Anwendungsmöglichkeiten im Allgemeinen und einigen Beispielen im Besonderen vgl. Lemnitzer (2010, 2011, 2012). <?page no="176"?> Lothar Lemnitzer 176 Zwei Umzüge der Software auf andere Server und die damit verbundenen Probleme, das System wieder ans Laufen zu bringen, 16 rissen große zeitliche Löcher in die Daten, die z. B. eine homogene Zeitreihenanalyse erschweren. Auch die Art der Datensammlung ist aus heutiger Sicht antiquiert. So baut z. B. Adrien Barbaresi am Zentrum für digitale Lexikografie an der Berlin-Brandenburgischen Akademie der Wissenschaften 17 seit 2021 ein Webmonitor-Korpus aus tagesaktuell gecrawlten Quellen 18 auf, deren Nutzungsrechte soweit geklärt sind, dass die Daten für lexikologische Forschung und lexikografische Arbeiten verwendet werden können. Dadurch wurde die Arbeitsweise der Wortwarte obsolet. All dies sprach dafür, das Projekt als reine Datensammlung aufzugeben. Mittlerweile habe ich unter wortwarte.org (Stand: 20.3.2023) ein Nachfolgeprojekt gestartet, und zwar in Form eines Weblogs. In diesem Blog kombiniere ich kurze Wortlisten-- neue Wörter des Monats-- mit Glossen zu einzelnen Wörtern, die dafür interessant genug sind, aber nicht unbedingt ganz neu sein müssen. Damit folge ich dem Ansatz des Logoscope, einem Projekt an der Universität Strasbourg, das wiederum von der ursprünglichen Wortwarte inspiriert wurde (https: / / logoscope.unistra.fr/ , Stand: 20.3.2023, vgl. Gérard et al. 2017). 5. Neue Wörter aus zwei Dekaden-- eine nachträgliche Auswertung Die Ausgangsdaten der Wortsammlung, d. h. die täglich gecrawlten Korpora, habe ich stets nach Auswertung der Daten gelöscht, da rechtliche Fragen zur längerfristigen Speicherung nicht mit der notwendigen Sicherheit zu klären waren. Eine Ausnahme davon bilden natürlich die Textausschnitte, die sich in jedem Wortartikel finden und die Verwendung dieses Wortes belegen und illustrieren. Es existieren zudem Listen, die den jeweiligen Worttype und dessen Häufigkeit in den Daten eines Tages enthalten. Es bot sich deshalb an, Frequenzprofile für alle Stichwörter der Wortwarte auf der Basis der Korpora des Digitalen Wörterbuchs der deutschen Sprache (DWDS) zu erstellen. Auf die Korpora habe ich als Lexikograf beim DWDS Zugriff. Die Werkzeuge für die Ableitung von Frequenzprofilen aus diesen Daten wurden mir zu diesem Zweck freundlicherweise zur Verfügung gestellt. 19 Es wurden Frequenzda- 16 Der Universität Tübingen und der Berlin-Brandenburgischen Akademie der Wissenschaften bin ich dennoch sehr dankbar dafür, dass mir der notwendige Speicherplatz und die benötigte Rechenzeit zur Verfügung gestellt wurden. 17 https: / / zdl.org (Stand: 20.3.2023). 18 Siehe dazu www.dwds.de/ d/ korpora/ webmonitor (Stand: 20.3.2023). 19 Es geht nicht nur um die einfache stringbasierte Abfrage, sondern auch um eine vorherige Expansion der Grundform in alle möglichen flektierten Formen, so dass die Suchausdrücke jeweils Mengen von Suchwörtern umfassten. Für die automatische Abfrage und Bereitstellung der Ergebnisse möchte ich besonders Axel Herold und Frank Wiegand danken. <?page no="177"?> 20 Jahre Wortwarte 177 ten-aus zwei Korpora-- einem Zeitungskorpus und einem Webkorpus-- erhoben und in einer Tabelle zusammengestellt. 20 Im Folgenden ein paar Zahlen zum Wortbestand der Wortwarte, die aufgrund der o. g. Tabelle ermittelt werden konnten. Das Archiv der Wortwarte (wortwarte.de, Stand: 20.3.2023) umfasst 3.772 Tageslieferungen mit insgesamt 59.944 Stichwörtern. Das sind im Durchschnitt knapp 16- Stichwörter pro Tageslieferung. Das erste Stichwort war „altersoffen“ (16.- September 2000), das letzte Stichwort „Weltrampenlicht“ (22.-Dezember 2020). Die Vorkommenshäufigkeiten in den o. g. Korpora lassen bestimmte Trends erkennen. Die „Top Ten“ der seit ihrem ersten Aufkommen am häufigsten belegten Wörter sind: Im Zeitungskorpus: Smartphone, Migrationshintergrund, Cineplex, twittern, Elektromobilität, Blogger, Homeoffice, Zeitfenster, Strommarkt und Ein-Euro-Job. Das Smartphone findet sich in den Zeitungskorpora knapp 300.000-mal, der Ein-Euro-Job immerhin noch über 25.000-mal. In den Webkorpora: Smartphone, Blogger, verlinken, Permalink, bloggen, googeln/ googlen, Firmware, twittern, Kontaktformular, Megapixel. Man sieht, dass wir uns mit dem Webkorpus in der Blogosphäre befinden, die während der Laufzeit der Wortwarte zu voller Blüte kam. Einige der Wörter sind Bestandteil von Templates, also von Textbausteinen, die in sehr vielen Webseiten schematisch wiederholt werden. Das erklärt ihre sonst als ungewöhnlich zu bewertende Häufung (und zeigt zugleich ein weiteres Problem bei der großflächigen Erfassung von Webseiten auf). Neben den Top Ten in absoluten Zahlen sind diejenigen Wörter interessant, die a) im Zeitungskorpus im Verhältnis zum Webkorpus überproportional häufig vorkommen, oder b) im Webkorpus im Verhältnis zum Zeitungskorpus überproportional häufig vorkommen. Da die beiden Korpora unterschiedlich groß sind, also eine unterschiedliche große Anzahl laufender Wörter umfassen, habe ich zunächst die absoluten Häufigkeiten auf die relativen Häufigkeiten abgebildet. Aus diesen Werten habe ich durch einfache Division (relFreq(Zeitungen)/ relFreq(Webtexte) und umgekehrt) den Proportionalwert gebildet. Hier nun im Ergebnis wieder die-jeweiligen Top Ten: a) Wörter, die nur im Zeitungskorpus vorkommen, und nicht (0 Belege) im Webkorpus: Benchmarkbond, Eventualhaushalt, Nettolohnformel, Bierkasten-Curling, Blutplama-Expander, Handicap-Schwimmen, Crimesoap, Embryonutzung, Mobilfunkkataster, Bienenbündnis. 20 Die Tabelle kann zu Forschungszwecken auf Anfrage zur Verfügung gestellt werden. <?page no="178"?> Lothar Lemnitzer 178 b) Wörter, die in beiden Korpora vorkommen, aber überproportional häufig im Zeitungskorpus: Bürgersolardach, Night-Skaten, Ortskultur, Vollsplitting, Rentenmakler, Migrationserstberatung, Müllmakler, Straßenlastenausgleich, Kernteuerung, Speedwaystadion; c) Wörter, die nur im Webkorpus vorkommen, und nicht (0 Belege) im Zeitungskorpus: Affiliateprogramm, Taskkiller, Schutzrechtsverwarnung, Outfit-Post, Keywordkombination, Hostingagentur, Anmelde-Cookie, Nofollow-Attribut, Recommend-Button, Enterprise-Umfeld; d) Wörter, die in beiden Korpora vorkommen, aber überproportional häufig im Webkorpus: Permalink, Opt-out-Cookie, Kennwort-Manager, Soft-Reset, Printmarketing, Frontcam, Blogroll, Webanalysedienst, Chipcount, Linktausch. In der Zeitungswelt gibt es danach mehr Makler, im Web gibt es mehr Kekse. 6. Fazit Die Wortwarte war insofern eine Pionierleistung, als es eine ausdrücklich auf Tagesaktualität gerichtete, bestimmten Prinzipien folgende, zugegebenermaßen aber auch subjektiv geprägte, Erfassung neuer Wörter nicht gab. Das ist heute nicht mehr so. Ein größerer Quellenreichtum (Stichwort: Webkorpora) und die Zugänglichkeit tagesaktueller Daten, wie er auch in dem Beitrag von Frank Michaelis et al. (in diesem Band) thematisiert wird, erlauben heute ganz andere Möglichkeiten der linguistisch motivierten Datenerhebung sowie ihrer Auswertung. Neue Verfahren der Visualisierung können Wortschatzentwicklungen veranschaulichen. Aber dies bezieht sich auf die Sprache von heute. Den gestrigen „Wortschatz für heute und morgen“, stellt, für einen signifikanten Zeitabschnitt von 20 Jahren, das Archiv der Wortwarte allen daran Interessierten zur Verfügung. Literatur Dargiewicz, Anna (2013): Zur Spezifik der adjektivischen Neologismen. Einige Bemerkungen anhand des „Wortwarte“-Korpus. In: Prace Językoznawcze 15, 1, S.-7-19. Dubiec-Stach, Joanna (2018): Beobachtungen zu den Neologismen der Politik-- demonstriert am Projekt „Wortwarte“. In: Studia Germanica Posnaniensia 38, S.- 49-61. https: / / doi. org/ 10.14746/ sgp.2017.38.05. Elsen, Hilke (2021): Neologismen im Gegenwartsdeutschen-- Probleme in Theorie und Praxis. In: Lublin Studies in Modern Languages and Literature- 45,- 1, S.- 113-125. https: / / epub. ub.uni-muenchen.de/ 75462/ (Stand: 20.3.2023). Elsen, Hilke (2022): Neologismen. Ein Studienbuch. (=-Narr Studienbücher). Tübingen: Narr Francke Attempo. Gérard, Christophe/ Bruneau, Lauren/ Falk, Ingrid/ Bernhard, Delphine/ Rosio, Ann-Lise (2017): Le Logoscope: observatoire des innovations lexicales en français contemporain. In: García <?page no="179"?> 20 Jahre Wortwarte 179 Palacios, Joaquín/ de Sterck, Goedele/ Linder, Daniel/ Torre del Rey, Jesús/ Sánchez Ibanez, Miguel/ Maroto García, Nava (Hg.): La neología en las lenguas románicas: recursos, estrategias y nuevas orientaciones. Frankfurt u. a.: Lang. https: / / hal.archives-ouvertes.fr/ hal- 01388255/ (Stand: 20.3.2023). Kinne, Michael (1996): Neologismus und Neologismenlexikographie im Deutschen. Zur Forschungsgeschichte und zur Terminologie, über Vorbilder und Aufgaben. In: Deutsche Sprache 24, S.-327-358. Lemnitzer, Lothar (2010): Neologismenlexikographie und Internet. In: Lexicographica 26, S.-65-78. Lemnitzer, Lothar (2011): Making sense of nonce words. In: Heidemann Andersen, Margrethe/ Nörby Jensen, Jörgen (Hg.): Nye ord. (=- Sprognaevets Konferenceserie 1). Kopenhagen: Dansk Sprognævn, S.-7-18. Lemnitzer, Lothar (2012): Mots nouveaux et nouvelles significations-- Que nous apprennent les mots composés? In: Cahiers de lexicologie 100,-1 (Néologie semantique et analyse de corpus), S.-105-116. Lemnitzer, Lothar (2019): Neue Wörter aus der Nähe betrachtet-- die Wortwarte. Abstract für den Workshop „Neologismen. Korpuslinguistische Ermittlung und lexikographische Bearbeitung“. Mannheim: Leibniz-Institut für Deutsche Sprache, 3.-4.- Juni-2019. www.idsmannheim.de/ fileadmin/ kl/ neo-workshop/ Abstract_IDS_2019_Lemnitzer.pdf (Stand: 20.3.2023). [OWID] = Neologismenwörterbuch im OWID-Wörterbuchportal am Leibniz-Institut für Deutsche Sprache, Mannheim. www.owid.de/ docs/ neo/ start.jsp (Stand: 20.3.2023). Tomášiková, Slavomíra (2008): Okkasionalismen in den deutschen Medien. In: Bočák, Michal/ Rusnák, Juraj (Hg.): Média a text II. Prešove: Universität Prešove, S.-246-256. [Wortwarte] = Lemnitzer, Lothar (2000-2010): Die Wortwarte. Wörter für heute und morgen. Eine Sammlung von Neologismen. Tübingen/ Berlin, 2000-2020. www.wortwarte.de, (Stand: 20.3.2023). <?page no="181"?> FRANK MICHAELIS/ CAROLIN MÜLLER-SPITZER/ JAN-OLIVER RÜDIGER/ SASCHA WOLFER FILTERN, EXPLORIEREN, VERGLEICHEN: NEUE ZUGRIFFSSTRUKTUREN UND INSTRUKTIVE POTENZIALE VON OWID PLUS Abstracts : OWID plus , das Zusatzangebot zur Wörterbuchplattform OWID, vereint verschiedenste lexikalische Datenbanken, Korpustools und visuell aufbereitete Analysen, die mithilfe von Textsuche und Kategorienfiltern so sortiert werden können, dass Benutzer*innen leicht die für sie interessanten Projekte entdecken können. Eine tiefergehende Beschäftigung mit den Einzelprojekten zeigt, wie bei aller oberflächlicher Ähnlichkeit oder gemeinsamen Themenbereichen ganz unterschiedliche methodische Zugänge zu sprachlichen Daten gewählt worden sind und wie Methodik und Forschungsfrage stets aufeinander abgestimmt werden müssen. Die Vielzahl potenzieller Forschungsfragen führt so unweigerlich zu einer Diversität von Projekten und somit einer Heterogenität, die, so hoffen die Autor*innen, in OWID plus greifbar wird. OWID plus , part of the online dictionary platform OWID, offers a wide variety of lexical databases, corpus tools, and visual presented analyses. The resources can be sorted by text and category filters in a way that users can easily find projects that might interest them. Despite the apparent visual similarity or common topics between the individual resources, closer examination reveals the different methodological approaches to linguistic data that have been taken, and how research questions and methodologies mutually depend on each other. The multitude of potential research questions inevitably leads to a heterogenous landscape of resources, and it is our hope that OWID plus becomes an inspiring place to experience this diversity of linguistic research. Keywords : Lexikalische Ressourcen, Korpusexploration, Visualisierung, Wortschatzwandel 1. Einleitung: Von 1988 zu 2022 Zu einer Zeit, als mit Apples HyperCard 1 eines der ersten Hypermedia-Systeme auf den Markt kam, der erste Mobilfunkstandard etabliert wurde 2 und in der Schweiz erste „Schoßrechner“ (die Vorläufer der Laptops) verkauft wurden, 3 schrieb Angelika Storrer mit ihren Kollegen Andreas Blumenthal und Lothar Lemnitzer einen Artikel namens „Was ist eigentlich ein Verweis? “ (Blumenthal/ Lemnitzer/ Storrer 1988). In diesem Artikel skizzierten die Autor*innen die Idee einer „multifunctional lexical database“ zur Vernetzung sprachlicher Einheiten im Rahmen einer lexikalischsemantischen Vernetzung des Wortschatzes (Blumenthal/ Lemnitzer/ Storrer 1988, S.-353) und wie man für solche multifunktionale Datenbasen Verweise modellieren könnte. Zu dieser Zeit eine geradezu visionäre Idee, die heute-- gut 30 Jahre später-- 1 (1987) https: / / en.wikipedia.org/ wiki/ HyperCard (Stand: 12.4.2023). 2 Vgl. www.computerhistory.org/ timeline/ 1987 (Stand: 12.4.2023). 3 Vgl. www.computerworld.ch/ technik/ hardware/ trend-1988-jahr-schossrechner-1662720.html (Stand: 12.4.2023). DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="182"?> Frank Michaelis/ Carolin Müller-Spitzer/ Jan-Oliver Rüdiger/ Sascha Wolfer 182 aber alltägliche Realität geworden ist. Es ist für viele von uns selbstverständlich, eine automatische Übersetzungsplattform wie DeepL 4 zu nutzen, in der zusätzlich zu Übersetzungsvorschlägen auch Wörterbucheinträge zur Vertiefung präsentiert werden, oder Plattformen wie das Digitale Wörterbuch der deutschen Sprache 5 zu verwenden, in denen Wörterbücher mit Textkorpora verbunden sind. Die Vielzahl der verfügbaren Ressourcen ist jedoch unübersichtlicher geworden, sodass es nicht nur darum geht, die Verbindungen der Ressourcen untereinander als Verweise sichtbar zu machen, sondern auch verschiedene relevante Ressourcen nach bestimmten Kriterien wie auf einer Karte in übersichtlicher Weise zu gruppieren, damit sie einfach zu finden sind und gut zwischen ihnen navigiert werden kann. Wir möchten in unserem Beitrag eine Plattform mit unterschiedlichen lexikalischen Ressourcen vorstellen und zunächst wie in einem Blick in die Werkstatt Einblicke darin geben, wie wir versucht haben, die unterschiedlichen Ressourcen besser auffindbar zu machen (Abschn.-2) sowie zwei Ressourcen auf der Plattform näher vorstellen und skizzieren, wie sie z. B. in der universitären Lehre eingesetzt werden können. 2. Ressourcensammlungen OWID plus ist ein „Spin-Off “ des IDS-Wörterbuchportals OWID (zu Wörterbuchportalen allgemein vgl. Engelberg/ Müller-Spitzer 2013, Engelberg/ Storrer 2016 und Gouws 2018; zu OWID vgl. Müller-Spitzer 2014 sowie Engelberg/ Klosa-Kückelhaus/ Müller-Spitzer 2020). In OWID präsentiert das IDS seine digitalen, lexikografischen Arbeiten unter einer gemeinsamen Oberfläche im Internet. Die gleiche Gestaltung und durchgehende Benutzerführung beruht dabei auf einer weitgehend gleichen Datenmodellierung, und soll Benutzenden einen leicht zu erlernenden Zugriff auf die verschiedenen Wörterbuchressourcen ermöglichen. Beim Ausbau dieser Plattform zeigte sich jedoch, dass die unterschiedlichen Gegenstandsbereiche und lexikografischen Konzeptionen immer häufiger maßgeschneiderte Datenmodellierungen erforderten. Sollen die genuinen Charakteristika einer Ressource dann auch schnell und möglichst intuitiv auf der Oberfläche von den Benutzenden erfassbar sein, dann sind auch immer weitergehende Abweichungen in Navigation und Gestaltung von der ursprünglichen Konzeption notwendig. Die strikten Vorgaben der OWID-Oberfläche erwiesen sich immer häufiger als Grenze und Beschränkung gerade für neuere Projekte, die sich weniger einem klassischen Wörterbuchmodell verpflichtet fühlen. Lexikografische Informationen werden nicht mehr einem einzelnen Wort zugeordnet, sondern in größeren Zusammenhängen beschrieben; z.-B. in Diskuswörterbüchern, Paradigmen von Kommunikationsverben oder dem Paronymwörterbuch. Es zeigte sich, dass diese Heterogenität in den lexikografischen Konzepten, die wir zunächst als Ausnahme wahrgenommen haben, eher die Regel 4 www.deepl.com/ translator (Stand: 12.4.2023). 5 www.dwds.de (Stand: 12.4.2023). <?page no="183"?> Neue Zugriffsstrukturen und instruktive Potenziale von OWID plus 183 ist, und wir benötigten einen Ort, an dem wir unabhängig von den Designbeschränkungen OWIDs solche Projekte realisieren und unter einer Oberfläche sammeln konnten. OWID plus ist dieser neue Ort, an dem wir sämtliche wortschatzbezogenen Projekte sammeln, die sich, wenn überhaupt, nur mit großen Einschränkungen in OWID hätten unterbringen lassen. Das müssen nicht notwendigerweise wörterbuchartige Ressourcen sein, sondern OWID plus ist offen für lexikalische Datenbanken, Korpustools, Prototypen, und Analysewerkzeuge, die z.- B. als Teil einer Studie entwickelt worden sind. Ohne eine solche Sammlung wären die Ressourcen unter je eigenen URLs im Netz verstreut, oder inaktiv in einem Repository archiviert, oder im schlimmsten Fall gar nicht mehr erreichbar. Unsere Hoffnung ist es, mit OWID plus dieser Art von Ressourcen mehr Sichtbarkeit zu geben. Im Vordergrund steht also nicht, die Ressourcen untereinander stärker zu vernetzen oder sie interoperabel zu machen (vgl. z. B. McCrae et al. 2019), sondern sie auf einem gut auffindbaren Platz zu versammeln. Zu Beginn ( Juni 2016) war OWID plus kaum mehr als eine kuratierte Linkliste, wie diese in den 1990er Jahren im Internet noch üblich waren. Das Design folgte den gerade aufkommenden Trends zum responsiven Design und Googles Vorgaben für Android-Smartphones und -Tablets. 6 Jede Ressource wird auf einer eigenen Kachel (Card) präsentiert; jeweils mit einem Bild, einer Überschrift, einer optionalen Unterüberschrift, einem kurzen (Teaser-)Text sowie einem Link auf die eigentliche Ressource. Ein kleines, nützliches Feature war die Möglichkeit, je Kachel zwischen verschiedenen Sprachversionen (meist Deutsch/ Englisch) zu wechseln. Die Zugriffsstruktur beschränkte sich aufs „Browsen“; also dem bloßen Sichten der angebotenen Liste in der Kachel-Übersicht. Solange wir noch sehr wenige Ressourcen in OWID plus präsentierten, erschien uns das als angemessen. Die Inhalte können von den Benutzenden noch schnell überflogen und „gescannt“ werden. Die Zugriffsstruktur ist einfach und erfordert kein Vorwissen oder gar eine Auseinandersetzung mit einem komplexeren Userinterface. Schon zu Beginn war jedoch klar, dass mit immer mehr gelisteten Ressourcen der Wunsch unserer Benutzer*innen nach mehr Möglichkeiten, die Liste zu sortieren, oder die Anzahl der gelisteten Einträge wieder auf ein handhabbares Maß zu filtern, lauter werden würde. Für die Überarbeitung von OWID plus , die wir 2021 begonnen haben, war unser Ziel deshalb ein elaborierteres Interface, ohne dabei die Einfachheit und Unkompliziertheit des Vorgängers ganz aufzugeben. Eine Google-Suche ist heute sicher der Standardweg der meisten Benutzer*innen, um etwas im Internet zu finden. Trotzdem gibt es ungezählte, spezialisierte und kuratierte Ressourcensammlungen im Netz, an denen wir uns orientieren konnten. 6 Material Design: https: / / material.io/ design (Stand: 12.4.2023). <?page no="184"?> Frank Michaelis/ Carolin Müller-Spitzer/ Jan-Oliver Rüdiger/ Sascha Wolfer 184 Als Beispiel werden hier nur zwei beliebige Vertreter erwähnt: „Font Squirrel“ 7 für eine Sammlung von Ressourcen immer gleichen Typs mit gleichen Attributen (Schriftarten); oder „Designers Lobby“ 8 für eine Sammlung thematisch verwandter (Webdesign), aber ansonsten diverser Werkzeuge. Natürlich ist es möglich, z. B. Schriftarten auch über eine Google-Suche zu finden. Aber Suchen direkt in diesen Sammlungen versprechen eine bessere Präzision, da die Suchmenge schon im Vorfeld auf die für die Benutzenden interessanten Ressourcen beschränkt ist. Anders als eine Google-Suche, können solche Sammlungen auch eine spezialisierte Benutzerführung anbieten, z. B. über eine Auswahl bzw. das Filtern von gemeinsamen Eigenschaften oder Attributen der Ressourcen, Themen etc. Auf einer abstrakteren, konzeptionellen Ebene erschienen uns die folgenden Merkmale am wichtigsten: - Übersichtslisten zum Browsen - Volltextsuche - Tagbzw. Kategorien-basiertes Auswahl-/ Filtersystem Abb.-1: OWID plus Startseite mit expandiertem Filterpanel Das Ziel dieser Ressourcensammlungen ist nicht notwendigerweise den einen, „richtigen“ Treffer zu liefern. Es geht vielmehr darum, aus der Menge der erfassten Ressourcen, und mögen es zehntausend sein, wieder eine „browsebare“, also eine 7 www.fontsquirrel.com (Stand: 12.4.2023). 8 www.designerslobby.com (Stand: 12.4.2023). <?page no="185"?> Neue Zugriffsstrukturen und instruktive Potenziale von OWID plus 185 von einem Menschen erfassbare Übersicht, zu generieren, die nach zuvor bestimmten Kriterien sortiert und gefiltert ist. Es ist geradezu gewünscht, dass diese Liste mehrere Einträge enthält, sei es um zu inspirieren (bei der Auswahl von Schriftarten), oder um gerade die Vielfalt der Herangehensweisen und Alternativen sichtbar zu machen. Diesen Ansatz haben wir versucht, für OWID plus fruchtbar zu machen. Abbildung-1 zeigt, wie die neuen Features in die neue OWID plus -Oberfläche eingearbeitet worden sind. So wurde das grundlegende Kachel-Design zwar beibehalten (siehe oben), jede Kachel enthält jetzt jedoch einen zusätzlichen Abschnitt mit den Tags/ Kategorien, die der Ressource zugeordnet sind. Diese Tags sind Schaltflächen mit zwei Zuständen („ausgewählt“, „nicht ausgewählt“) und lösen bei Interaktion eine Kategorien-Filterung aller Ressourcen aus. Dieser Vorgang ist animiert, so dass die Benutzer*innen sehen und intuitiv erfassen können, welche Konsequenz ein Klick auf einen Tag hat. Diese Art der Interaktion realisiert dabei ein „Mehr- Desselben“-Szenario: Ausgehend von einer Ressourcen-Kachel, die das Interesse der Benutzer*innen geweckt hat, können sie sich über die Anwahl weiterer Tags auf der Kachel sehr einfach weitere Ressourcen anzeigen lassen, die unter die gleichen Kategorien fallen. Die zweite Art, mit den Filter- und Suchfunktionen der Seite zu arbeiten, finden die Benutzer*innen unter der „Filtern“-Navigation im Seitenkopf. Hier wird ein expandierendes Panel auf der rechten Seite geöffnet; je nach zur Verfügung stehendem Darstellungsraum als Overlay oder feststehender Bereich. Dieses Panel bietet ein Suchfeld für eine Volltextsuche und das globale (also unabhängig von einer konkreten Ressourcen-Kachel) Set von Tags zur Auswahl. Die Textsuche durchsucht sämtliche Kacheltexte, auch diejenigen Sprachversionen, die gerade nicht angezeigt werden. Um den Benutzer*innen anzuzeigen, dass ein Texttreffer in einem nicht angezeigten Bereich liegt, pulsiert die Sprachwahl-Anzeige oben in der Kachel, und signalisiert die notwendige Interaktion, um den Treffer sehen zu können. Diese „verborgenen“ Treffer entstehen vor allem immer dann, wenn eine Ressourcen- Kachel als Standard-Sprache „Englisch“ gesetzt hat, und nach deutschen Begriffen gesucht wird, bzw. umgekehrt. Bei weitem nicht alle auf OWID plus verfügbaren Ressourcen sind dazu gedacht, Korpora zu durchsuchen bzw. zu analysieren. In den folgenden Abschnitten möchten wir uns aber auf zwei Tools konzentrieren, die genau das zum Ziel haben. Sowohl „OWID plus LIVE“ als auch „Wortschatzwandel im Spiegel“ liegen Korpora mit deutscher (Online-)Pressesprache zugrunde, und beide sind dafür gedacht, ohne viel Vorwissen zu Datenverarbeitung oder statischen Methoden diese Korpora zu durchsuchen, Ergebnisse numerisch aufzubereiten und zu visualisieren. Die Tools haben also eine relativ niedrige Einstiegshürde, zudem sind sie so dokumentiert, dass Anwender*innen relativ schnell in die Lage versetzt werden, „echte“ Sprachdaten zu durchsuchen. Dies macht sie u. E. auch attraktiv für den Einsatz in der universitären Lehre. Wir möchten diese beiden Tools genau deswegen gegenüberstellen, weil sie <?page no="186"?> Frank Michaelis/ Carolin Müller-Spitzer/ Jan-Oliver Rüdiger/ Sascha Wolfer 186 grundlegend unterschiedliche Zugangswege in die Korpusdaten liefern. In ihrer Gegenüberstellung sind sie daher auch geeignet, die Data Literacy (auch) von Studierenden zu vertiefen, da sie zeigen, wie eine ähnliche Datengrundlage auf unterschiedliche Arten nutzbar gemacht werden kann. 3. Tagesaktuelle Korpusexploration in Online- Pressetexten: OWID plus LIVE Bereits Anfang 2020 war absehbar, dass ‚Corona‘ als Diskursereignis eine erhebliche Relevanz zuzuweisen ist. Absehbar war hingegen nicht, von welcher Dauer und mit welcher Tragweite sich dieses Ereignis in den öffentlichen Diskurs einzuschreiben vermochte. Das Projekt „cOWID plus Viewer“ 9 begann bereits Anfang 2020 mit der begleitenden Erhebung eines Korpus (periodische Aktualisierung ca. alle 7-14 Tage) basierend auf RSS-Nachrichtenfeeds von 13 ausgewählten überregionalen Zeitungen. Sowohl dieser Prototyp als auch das Korpus und eine Übersichtsanalyse 10 sind über OWID plus publiziert (vgl. Wolfer et al. 2020 und Müller-Spitzer et al. 2021). Jedoch war Corona kein kurzfristiges, Wochen oder wenige Monate umspannendes Ereignis, das einen abgegrenzten Bereich und eine begrenzte Personenanzahl betraf, sondern eine globale Pandemie, die Jahre zur Bewältigung bedurfte. Dementsprechend war ab einem bestimmten Zeitpunkt der Prototyp „cOWID plus Viewer“ nicht mehr ausreichend für die Breite an Material, Themen und Korpusmengen. Die Neuentwicklung „OWID plus LIVE“ 11 , die weiterhin das erhobene Korpus nutzt und zusätzliche Funktionen bietet, wurde thematisch unabhängig vom Ursprungsthema ‚Corona‘ aufgestellt. Im Vordergrund steht die tagesaktuelle Analyse (täglich mit den Daten des Vortags aktualisiert) von Token, Bi- und Tri-Grammen (Sammelbezeichnung: Suchfenstergröße 1-3). Die Suche kann über exakte Wortformen, Lemmata und Part-of-Speech-Informationen erfolgen. Es stehen unterschiedliche Visualisierungen zur Verfügung. Im Folgenden soll das Tool kurz vorgestellt werden. Zur exemplarischen Analyse wurden die folgenden Lemmata ausgewählt: Klimawandel, Klimakatastrophe, Umweltkatastrophe und Umweltverschmutzung. Die Abfrage erfolgt nacheinander über eine nutzerfreundliche Oberfläche: 12 9 www.owid.de/ plus/ cowidplusviewer2020 (Stand: 12.4.2023). 10 www.owid.de/ plus/ cowidplus2020 (Stand: 12.4.2023). 11 www.owid.de/ plus/ live-2021 (Stand: 12.4.2023). 12 Für einen umfassenden Einstieg in alle Funktionen sei auf das Video-Tutorial verweisen, das gleich zum Anwendungsstart angezeigt wird. <?page no="187"?> Neue Zugriffsstrukturen und instruktive Potenziale von OWID plus 187 Abb.-2: (1)-Auswahl der Suchfenstergröße [hier N=1 > Einzelnes Token]; (2)-Auswahl Layer [hier: Lemma]; (3)- Eingabe des zu suchenden Tokens [hier: Umweltkatastrophe]; (4)-Ein Klick auf den Button startet die Suche Die Abfrage aller vier Suchbegriffe zeigt, dass Klimawandel das hochfrequenteste Lemma im Korpus ist. Abb.-3: Informationen zu ausgewählten Ereignissen manuell hervorgehoben (1-4) Zu ausgewählten (1) bis (4) Ereignissen wurden die Hintergründe recherchiert. Besonders hochfrequent wird im Korpus ( Juni 2021) über Klimawandel (1) anlässlich des EU-USA-Gipfels berichtet. Hauptthemen des Gipfels: die Corona-Pandemie, der Klimawandel und der Handelsstreit (EU/ USA). Im Zusammenhang mit dem sogenannten Abgasskandal wird (September 2020) in der Presse mehrfach auf die Einhaltung der Abgasgrenzwerte zur Begrenzung des Klimawandels (2) verwiesen. Die Publikation des Klimazustandsberichts (3) führt zu einem kurzzeitigen Anstieg. Der Ausschlag bei (4) zu Umweltkatastrophe steht im zeitlichen Zusammenhang mit dem Rücktritt von Anna Spiegel 13 (Bundesfamilienministerin, zuvor Umweltministerin in Rheinland-Pfalz). 13 Kern des Skandals, der zum Rücktritt von Anna Spiegel führte, war ihr (Fehl-)Verhalten als Umweltministerin (Rheinland-Pfalz) während der Flutkatastrophe. <?page no="188"?> Frank Michaelis/ Carolin Müller-Spitzer/ Jan-Oliver Rüdiger/ Sascha Wolfer 188 Abb.-4: Erweiterte Abfrage ‚Flutkatastrophe‘ mit manuellen Ereignismarkern Ein Blick auf den Frequenzverlauf von Flutkatastrophe zeigt (1) die Berichterstattung über das Ereignis, sowie einen zweiten Peek (2) zum Zeitpunkt des Rücktritts von Anna Spiegel. Während die Darstellung der Frequenzverläufe Abfragen separat darstellt, erlaubt die Kalender-Visualisierung eine aggregierte Darstellung aller Abfragen. Abb.-5: Kalenderdarstellung von „OWID plus LIVE“ mit manuellen Ergeignismarkern Ausgewertet werden hier: Klimawandel, Klimakatastrophe, Umweltkatastrophe und Umweltverschmutzung- - es stechen zwei besonders hochfrequente Zeitabschnitte hervor: (1) die Vorgespräche zur Weltklimakonferenz 2021-- insbesondere zwischen EU/ USA und (2) der Zeitabschnitt zur Weltklimakonferenz 2021 selbst. Die gezeigten Visualisierungen eignen sich auch zur Auswertung von Token und N-Grammen. Speziell für die Analyse von Varianzen innerhalb von komplexen N-Grammen wurde eine dritte Visualisierung (Sankey-Darstellung; vgl. Abb.-6) in „OWID plus LIVE“ integriert. Es wurde nach dem folgenden Tri-Gramm gesucht: VV* (Vollverb) + APPR (Präposition) + Lemma (Klimawandel, Klimakatastrophe, Umweltkatastrophe oder Umweltverschmutzung). <?page no="189"?> Neue Zugriffsstrukturen und instruktive Potenziale von OWID plus 189 Abb.-6: Sankey-Darstellung von Tri-Grammen Die daraus resultierenden Tri-Gramme lauten z. B. leiden unter Klimawandel, kämpfen gegen Umweltverschmutzung oder warnt vor Klimakatastrophe. In der Visualisierung sind vier Positionen erkennbar. Die erste Position dient lediglich als Ankerpunkt und markiert den Anfang des Tri-Grams. Es folgen die Positionen des Tri-Gramms. Je häufiger ein Token an der jeweiligen Position ist, desto größer wird der entsprechende Balken dargestellt. Die grauen Verbindungslinien zeigen, welche Verknüpfungen wie häufig sind. Am häufigsten ist ‚spottet über Klimawandel‘ im Korpus zu finden. Aber auch Konstruktionen wie ‚leiden unter- …‘ oder ‚warnen vor-…‘ stechen hervor. Aus der obigen Vorstellung von „OWID plus LIVE“ sollte unter anderem deutlich geworden sein, wie hier auf die zugrundeliegenden Korpusdaten zugegriffen wird. In gewisser Weise kann dies als ein „klassischer“ Zugriff bezeichnet werden, denn Ausgangspunkt ist stets die Abfrage einer Menge bestimmter Formen (Uni-, Bi- oder Trigramm) über verschiedene linguistische Ebenen (Wortform, Lemma und/ oder Wortart). Zu einer bestimmten Abfrage findet das Tool eine bestimmte Anzahl an Treffern, und diese Treffermenge wird dann über Frequenzlisten und verschiedene Visualisierungen aufbereitet und explorierbar. Das nächste Tool, das wir vorstellen möchten, stellt diese klassische Abfragelogik (verkürzt könnten wir sie als „von der Form zu den Maßen“ bezeichnen) auf den Kopf. 4. Von Häufigkeiten zu Treffern: Wortschatzwandel im-Spiegel Mit unserem Tool „Wortschatzwandel im Spiegel“, das ebenfalls über OWID plus verfügbar ist, 14 drehen wir, wie eben ausgeführt, die Perspektive um und wählen einen etwas unkonventionellen Zugang zu Korpusdaten und -abfragen. Statt nach bestimmten Wörtern oder Wortsequenzen zu suchen, ist hier die Grundidee, dass 14 www.owid.de/ plus/ wwspiegel2018 (Stand: 12.4.2023). <?page no="190"?> Frank Michaelis/ Carolin Müller-Spitzer/ Jan-Oliver Rüdiger/ Sascha Wolfer 190 zunächst bestimmte Frequenzparameter angegeben werden, die dann zu einer Ergebnismenge im zugrundeliegenden Korpus führen (die Zugriffslogik wäre also als „von den Maßen zur Form“ zu bezeichnen). Auf diese Weise wollen wir Sprach(gebrauchs)wandel entdeckbar machen. Dem Tool „Wortschatzwandel im Spiegel“ liegt das komplette (lemmatisierte) Korpus des Magazins „Der Spiegel“ von 1947 bis 2016 zugrunde. Abb.-7: Startseite der OWID plus -App „Wortschatzwandel im Spiegel“ Das Tool ist in zwei „Modi“ unterteilt: den Entdeckungsmodus (gleichzeitig die Startseite, siehe Abb.-7) und den Analysemodus. Im Entdeckungsmodus, dem eigentlichen Kern der Applikation, können auf der linken Seite bestimmte Frequenzparameter gesetzt werden. Die entsprechende Ergebnismenge wird auf der rechten Seite in Form eines Säulendiagramms visualisiert (absteigend sortiert nach der Gesamtfrequenz des jeweiligen Lemmas im kompletten Korpus). Die einstellbaren Parameter sind die folgenden: - Zu suchende Wortarten: Anhand des vereinfachten Universal-Dependencies- Part-of-Speech-Sets (Nivre et al. 2016) kann ausgewählt werden, nach welchen Wortarten überhaupt gesucht wird. - Ausgangsjahr: Das Jahr, in dem nach Wörtern gesucht wird. - Mindestfrequenz im Ausgangsjahr: Wie oft muss ein Wort im Ausgangsjahr belegt sein, damit es in die Treffermenge aufgenommen wird? - Lookback-Weite: Wie viele Jahre wird vom Ausgangsjahr aus in die Vergangenheit geschaut? <?page no="191"?> Neue Zugriffsstrukturen und instruktive Potenziale von OWID plus 191 - Lookback: max./ min. Frequenz: Wie häufig darf/ muss ein Wort in der Lookback- Weite vorgekommen sein, damit es in die Treffermenge aufgenommen wird? Wird ein Maximalwert gesetzt, wird eher nach Wörtern gesucht, die in ihrer Verwendung ab dem Ausgangsjahr zugenommen haben. Wird ein Minimalwert gesetzt, wird eher nach weniger verwendeten Wörtern gesucht. - Lookback akkumulieren: Gilt die zuvor eingegebene Grenze für jedes einzelne Jahr im Lookback oder für die gesamte Spanne insgesamt? - Lookahead-Weite, Lookahead: max./ min. Frequenz und Lookahead akkumulieren gelten entsprechend für Jahre, die vom Ausgangsjahr in der Zukunft liegen. Die Werte, die beim Starten der Applikation voreingestellt sind, zeigen Wörter, die ab dem Jahr 1997 tendenziell häufiger im Spiegel verwendet wurden als zuvor. Stellen wir den Regler für das Ausgangsjahr auf 1997, finden wir die Adjektive neuronal (sowie das Nomen Neuron) und postkommunistisch, aber auch das Verb outen. Einige Nomina spiegeln die politischen Diskussionen dieser Zeit wider (u. a. Bahnreform, Bürgerkriegsflüchtling, Politikverdrossenheit und Solidaritätszuschlag). Über der grafischen Ergebnisvisualisierung wird die Abfrage in einer natürlichsprachlichen Form wiederholt. Auf der rechten Seite lassen sich sowohl die Frequenzdaten der Ergebnismenge als auch eine Textdatei mit den eingestellten Parametern herunterladen. Die Ergebniswörter unter der Überschrift „KWIC-Links“ sind Hyperlinks auf eine KorAP-Abfrage, die alle Treffer im Spiegel für das jeweilige Wort im eingestellten Jahresbereich anzeigen. 15 Durch den Lookahead wird sichergestellt, dass es sich hier um Wörter handelt, die nicht sofort wieder verschwanden, denn sie müssen in den 19-Jahren nach 1992 insgesamt noch mindestens 115-mal aufgetreten sein. Wechseln wir in den Analysemodus (siehe Abb.- 8), können wir die Frequenzentwicklung der eben genannten Wörter nachvollziehen. Hier kann man bspw. sehen, dass das Verb outen in der Tat Anfang der 1990er Jahre erstmals in nennenswerter Zahl verwendet wurde und danach auch nicht wieder verschwand (ähnlich bei Neuron und neuronal sowie Politikverdrossenheit). Das Adjektiv postkommunistisch hingegen verschwindet zwar nicht ganz, wird aber doch über die Zeit hinweg deutlich seltener im Spiegel verwendet. 15 Hierfür müssen Sie in KorAP eingeloggt sein. Ansonsten erhalten Sie dort keine Treffer. <?page no="192"?> Frank Michaelis/ Carolin Müller-Spitzer/ Jan-Oliver Rüdiger/ Sascha Wolfer 192 Abb.-8: Analysemodus des Tools „Wortschatzwandel im Spiegel“ für acht ausgewählte Wörter (v. li. oben n. re. unten: Bahnreform, Bürgerkriegsflüchtling, Neuron, neuronal, outen, Politikverdrossenheit, postkommunistisch, Solidaritätszuschlag) aus der vorgestellten Treffermenge Auch mit diesem Tool lassen sich sprachliche Spuren des Klimawandels finden, und zwar in der vom Spiegel versprachlichten Historie. Suchen wir bspw. nach allen Wörtern (außer Eigennamen, PROPN) im Spiegel, die - im Jahr 1986 mindestens 10-mal vorkamen und - in den 20 Jahren zuvor insgesamt höchstens 10-mal und - in den folgenden 30 Jahren mindestens einmal pro Jahr verwendet wurden, erhalten wir eine Ergebnisliste von nur fünf Wörtern: Betriebssystem, Treibhauseffekt, parteiübergreifend, Klimakatastrophe und Frauenministerin. Wenden wir dieselben Parameter auf das Jahr 1970 an, finden sich Umweltschutz und Umweltverschmutzung in der Treffermenge. Im Jahr 2004 (der Lookahead muss hier auf zwölf Jahre verkleinert werden, da das Korpus bis 2016 reicht) finden wir u. a. Emissionshandel und Verschmutzungsrecht. Bewegen wir uns näher an das Jetzt, finden wir im Jahr 2007 (der Lookahead beträgt hier noch neun Jahre) bspw. Weltklimarat, Energieeffizienz und klimafreundlich. So lässt sich über weite Teile der deutschen Nachkriegszeit nachzeichnen, welche Wörter neu in den Nachrichtendiskurs zum Themenkomplex „Umwelt und Klima“ eingetreten sind. Wir haben das Tool absichtlich so gestaltet, dass man keine einzelnen Wörter selektieren oder ausschließen kann, denn nur so wird beobachtbar, dass immer andere Diskussionen gleichzeitig geführt werden. In der o. g. Treffermenge <?page no="193"?> Neue Zugriffsstrukturen und instruktive Potenziale von OWID plus 193 aus dem Jahr 2007 sind bspw. auch Betreuungsgeld, das Verb googeln und Videoportal enthalten. 1970 hingegen sind es z. B. Datenbank, das Adjektiv machbar, Randgruppe und Flugzeugentführung. 16 Diese Funktionsweise führt auch dazu, dass es keine Treffermenge in diesem Tool geben kann, die bspw. zugleich Klimakatastrophe und Emissionshandel enthält. Der Grund hierfür ist einfach, dass diese beiden Lemmata zu ganz unterschiedlichen Zeitpunkten erstmals im zugrundeliegenden Korpus beobachtet werden konnten. 5. Fazit Die beiden vorgestellten Ressourcen teilen sich in OWID plus eine ganze Reihe von Tags (Exploration, Häufigkeit, Korpustool, Presse, Visualisierung und Zeitverlauf), was potenzielle Benutzer*innen bereits darauf hinweisen könnte, dass der zugrundeliegende Einsatzbereich der beiden Tools recht ähnlich ist. Die zugehörigen Beschreibungen und Dokumentationen (wie bspw. das Tutorial-Video für „OWID plus LIVE“) zeigen dann die Unterschiede auf, wie mit diesen Tools auf Korpusdaten zugegriffen werden kann. Während „OWID plus LIVE“ die Abfrage über bestimmte sprachliche Formen fokussiert, müssen in „Wortschatzwandel im Spiegel“ Frequenzparameter angegeben werden, zu denen dann eine Ergebnismenge zurückgegeben wird. Von diesen unterschiedlichen Zugriffswegen versprechen wir uns (unter anderem), dass die Anwender*innen implizit lernen, dass es nicht nur die eine „richtige“ Herangehensweise an sprachliche Daten gibt. Je nach wissenschaftlicher Fragestellung muss ein geeigneter Zugang zu einer Datenmenge gefunden werden-- und die Ergebnisse einer wie auch immer gearteten Abfrage müssen kritisch und nach sprachwissenschaftlichen Kriterien bewertet werden. Das ist eine Kompetenz, die u. E. während des Studiums einer so empirisch ausgerichteten Disziplin wie der Linguistik zwingend vermittelt werden muss. Da OWID plus eine Vielzahl sehr diverser lexikologisch-lexigrafischer Ressourcen 17 unter einem gemeinsamen Dach vereint, ist es umso wichtiger, diese Ressourcen auch effizient auffindbar und durchsuchbar zu machen. Als Angelika Storrer und Kollegen bereits 1988 schrieben, dass „der Computer zwar in bestimmten Situationen ein sehr nützliches Hilfsmittel sein kann, dass aber viele Probleme durch die fortschreitende Computerisierung […] überhaupt erst geschaffen werden“ (Blumenthal/ Lemnitzer/ Storrer 1988, S.-371), hatten sie vielleicht nicht primär die Auf- 16 Wenn man den Listen zu Flugzeugentführungen in der englischen (https: / / en.wikipedia.org/ wiki/ List_of_aircraft_hijackings, Stand: 12.4.2023) und deutschen (https: / / de.wikipedia.org/ wiki/ Liste_ von_Flugzeugentführungen, Stand: 12.4.2023) Wikipedia trauen kann, sind (insbesondere politisch motivierte) Flugzeugentführungen in der Tat ein Phänomen, das erst Ende der 1960er Jahre in nennenswerter Zahl auftrat. 17 Zum Zeitpunkt des Verfassens dieses Artikels enthält OWID plus 19 Ressourcen. <?page no="194"?> Frank Michaelis/ Carolin Müller-Spitzer/ Jan-Oliver Rüdiger/ Sascha Wolfer 194 findbarkeit und das instruktive Potenzial computer-gestützter Tools im Sinn. Heute sind diese Dimensionen aber bei der wachsenden Anzahl unterschiedlicher Tools unbedingt mit zu bedenken. Literatur Blumenthal, Andreas/ Lemnitzer, Lothar/ Storrer, Angelika (1988): Was ist eigentlich ein Verweis? Konzeptionelle Datenmodellierung als Voraussetzung computergestützter Verweisbehandlung. In: Harras, Gisela (Hg.): Das Wörterbuch: Artikel und Verweisstrukturen. (=-Jahrbuch des Instituts für Deutsche Sprache 1987/ Sprache der Gegenwart-74). Düsseldorf: Schwann, S.-351-373. Engelberg, Stefan/ Müller-Spitzer, Carolin (2013): Dictionary portals. In: Gouws, Rufus H./ Heid, Ulrich/ Schweickard, Wolfgang/ Wiegand, Herbert E. (Hg.): Wörterbücher: Ein internationales Handbuch zur Lexikographie./ Dictionaries: An international encyclopedia of lexicography./ Dictionnaires: Encyclopédie international de lexicographie. (=-Handbücher zur Sprach- und Kommunikationswissenschaft/ Handbooks of Linguistics and Communication Science (HSK)-5.4). Berlin/ Boston: De Gruyter, S.-1023-1035. Engelberg, Stefan/ Storrer, Angelika (2016): Typologie von Internetwörterbüchern und -portalen. In: Klosa, Annette/ Müller-Spitzer, Carolin (Hg.): Internetlexikografie. Ein Kompendium. Berlin/ Boston: De Gruyter, S.-31-63. Engelberg, Stefan/ Klosa-Kückelhaus, Annette/ Müller-Spitzer, Carolin (2020): Internet lexicography at the Leibniz-Institute for the German Language. In: K Lexical News- 28, S.-54-77. Gouws, Rufus H. (2018): Internet lexicography in the 21st century. In: Engelberg, Stefan/ Kämper, Heidrun/ Storjohann, Petra (Hg.): Wortschatz: Theorie, Empirie, Dokumentation. (=- Germanistische Sprachwissenschaft um 2020- 2). Berlin/ Boston: De Gruyter, S.-215-236. McCrae, John P./ Tiberius, Carole/ Khan, Anas F./ Kernerman, Ilan J./ Declerck, Thierry/ Krek, Simon/ Monachini, Monica/ Ahmadi, Sina (2019): The ELEXIS interface for interoperable lexical resources. In: Kosem, Iztok/ Kuhn, Tanara Zingano/ Correia, Margarita/ Ferreira, José P./ Jansen, Maarten/ Pereira, Isabel/ Kallas, Jelena/ Jakubíček, Miloš/ Krek, Simon/ Tiberius, Carole (Hg.): Electronic lexicography in the 21st Century: Smart lexicography. Proceedings of eLex 2019 conference. Sintra, Portugal, 1-3-October 2019. Brno: Lexical Computing CZ, S.-642-659. Müller-Spitzer, Carolin (2014): Das Online-Wortschatz-Informationssystem Deutsch-- OWID. In: Institut für Deutsche Sprache (Hg.): Ansichten und Einsichten. 50 Jahre Institut für Deutsche Sprache. Mannheim: Institut für Deutsche Sprache, S.-347-359. Müller-Spitzer, Carolin/ Koplenig, Alexander/ Michaelis, Frank/ Wolfer, Sascha (2021): Wochenaktuelle lexikalische Spuren der Corona-Krise in deutschen Online-Nachrichtenmeldungen. In: Deutsche Sprache-49, S.-1-23. Nivre, Joakim/ de Marneffe, Marie-Catherine/ Ginter, Filip/ Goldberg, Yoav/ Hajič, Jan/ Manning, Christopher D./ McDonald, Ryan/ Petrov, Slav/ Pyysalo, Sampo/ Silveira, Natalia/ Tsarfaty, Reut/ Zeman, Daniel (2016): Universal dependencies v1: A multilingual treebank collection. In: Calzolari, Nicoletta/ Choukri, Khalid/ Declerck, Thierry/ Goggi, Sara/ Grobelnik, Marko/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Helene/ Moreno, Asuncion/ Odijk, <?page no="195"?> Neue Zugriffsstrukturen und instruktive Potenziale von OWID plus 195 Jan/ Piperidis, Stelios (Hg.): Proceedings of the tenth international conference on language resources and evaluation (LREC’16), S.-1659-1666. Portorož: European Language Resources Association (ELRA). https: / / aclanthology.org/ L16-1262 (Stand: 12.4.2023). Wolfer, Sascha/ Koplenig, Alexander/ Michaelis, Frank/ Müller-Spitzer, Carolin (2020): Tracking and analyzing recent developments in German-language online press in the face of the coronavirus crisis: COWID plus Analysis and cOWID plus Viewer. In: International Journal of Corpus Linguistics-25,-3, S.-347-359. <?page no="197"?> BERNHARD SCHRÖDER INDUKTIV ODER INTUITIV? DIE GEWINNUNG VON FRAMES AUS MATHEMATISCHEN BEWEISTEXTEN Abstracts : Mathematische Beweistexte weisen Beweisstrategie-spezifische Strukturierungsschemata auf, die sich mithilfe von Frames modellieren lassen. Diese Frames lassen sich teilweise empirisch-induktiv aus Textdaten gewinnen. Da die Frames aber zahlreiche Subtypen aufweisen und in Beweistexten für kompetentere Rezipienten nur elliptisch realisiert werden, müssen neben die empirisch-induktiven Verfahren (corpus-driven approach) auch intuitiv-hypothesenbildende (corpus-based approach) treten. Mathematical proof-texts show schemas of structuring which are specific for certain proof strategies. These schemas of structuring can be modelled by frames. The frames can partially be obtained from text-data in an empirical-inductive way. But mathematical frames have numerous subtypes, which are realized in texts for more competent recipients only elliptically. Therefore, empiricalinductive methods (corpus-driven approach) must be complemented by intuitive hypothesis-forming methods (corpus-based approach). Keywords : Korpuslinguistik, Mathematik, Frames 1. Einleitung Der folgende Beitrag beleuchtet das Verhältnis empirisch-induktiven und ‚intuitiven‘ Vorgehens auf der Grundlage von Korpus- und Textdaten an einem Beispiel aus einem Projekt zu mathematischen Texten. Als Gegenstand der methodologischen Betrachtungen wird die Rekonstruktion mathematischer Frames aus Beweistexten herangezogen. Dabei gehen die Betrachtungen von den Annahmen aus, dass Frames sich nicht grundsätzlich von anderen komplexen theoretischen Begriffsbildungen in der Linguistik wie z. B. Konstruktionen im Sinne der Konstruktionsgrammatik oder textlinguistischen Texttypologien unterscheiden und dass die mathematische Sprache sich hinsichtlich dieser theoretischen Begriffe nicht grundsätzlich anders verhält als die Alltagssprache, wir nur mit der Mathematik über eine Domäne verfügen, bei der wir klarere Kriterien haben, um festzustellen, was die intendierte Interpretation eines Textes ist. Diesen Überlegungen liegen zwanzig in unterschiedlicher Tiefe und Granularität, aber immer im Hinblick auf grundlegende Framestrukturen analysierte und annotierte Beweistexte ab Mitte des 20.- Jahrhunderts zugrunde. Die Beweistexte stammen aus verschiedenen mathematischen Bereichen und aus Publikationen, die für Adressat: innen mit unterschiedlichen Kompetenzniveaus konzipiert sind (Lehrbücher für Mathematik- und Informatik-Studierende bis hin zu Forschungsliteratur). Darüber hinaus gibt es einige kontrastive Betrachtungen aus historischen Einzelstudien zu Euklids Elementen und Beweistexten des 19. und frühen 20.-Jahrhunderts. Die Überlegungen im Folgenden dienen der Vorbereitung eines umfassenderen Kor- DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="198"?> Bernhard Schröder 198 pus, an dem generelle mathematische Frame-Strukturen und der Frame-Erwerb im Rahmen des Projekts Naproche-FRAME (Naproche 2021) studiert werden sollen. Im Projekt Naproche (Natural (Language) Proof Checker) wurde in den 2000er Jahren eine maschinell interpretierbare, kontrollierte natürliche Sprache (Controlled Natural Language, CNL) auf der Basis des Englischen entworfen (Cramer et al. 2010; Cramer 2013). In dieser Sprache formulierte Texte können maschinell in eine an der Diskurrepräsentationstheorie (DRT) (Kamp/ Reyle 1993) orientierte semantische Repräsentation, die einige Besonderheiten der mathematischen Sprache berücksichtigt, die Proof Representation Structures (PRSs), überführt werden. Die PRSs wiederum können in Ausdrücke der Prädikatenlogik erster Stufe kompiliert werden, die von Theorembeweisern wie EProver überprüft werden. Auf diese Weise lässt sich die Richtigkeit von Beweisen in der Naproche-CNL zeigen. Der Naproche-Ansatz nimmt eine Zwischenstellung ein zwischen Bemühungen, Beweise, wie sie in der mathematischen Fachliteratur veröffentlicht werden, direkt maschinell zu interpretieren, und Beweisassistenten wie Mizar, Isabelle, COQ und HOL, bei denen Beweise in einer für diesen Zweck entworfenen Formalsprache eingegeben werden müssen. Auch Projekte, die auf der funktionalen Programmiersprache Lean beruhen, gehören in diesen Bereich der formalen Beweisspezifikation. Im Naproche-Projekt wurde früh sichtbar, dass ein wesentlicher struktureller Unterschied zwischen formalisierten Beweisen zur maschinellen Beweisüberprüfung und Beweisen für menschliche Rezipienten 1 darin besteht, dass mit fortschreitendem Kompetenzniveau bei menschlichen Rezipienten ein erhebliches schematisches Wissen über bestimmte Beweistechniken und Domänen vorausgesetzt wird. Die Modellierung dieses schematischen Wissens geschieht im Naproche-Projekt durch den Rückgriff auf Frames. Fisseni et al. (2019) und Carl et al. (2021) verstehen Frames im Sinne Minskys (1974) als Repräsentationen, die ein schematisches oder stereotypes Wissen über bestimmte Objekt- oder wiederkehrende Ereignistypen widerspiegeln. Frames in diesem Sinne beschreiben beispielsweise, wie ein typischer Restaurantbesuch abläuft oder welche Beteiligten es bei einem Akt des Schenkens gibt (eine schenkende Person, eine beschenkte Person und ein Geschenk) und welche weiteren Angaben sinnvoll sind (eine Zeitangabe, evtl. ein Anlass, evtl. eine Ortsangabe usw.). In der Anwendung auf mathematische Beweise werden strukturelle Frames, die Erwartungen an die Textstruktur, und ontologische Frames, die Erwartungen, die durch bestimmte Objektdomänen geweckt werden, modellieren, unterschieden. 1 Die kommunikativen Rollen emittierender bzw. rezipierender Personen werden durch Emittentin bzw. Rezipient bezeichnet. Dabei sind selbstverständlich jeweils Personen jeglicher Geschlechtsidentität gemeint. <?page no="199"?> Die Gewinnung von Frames aus mathematischen Beweistexten 199 2. Beweistexte und formale Mathematik Zwischen formalen, maschinell überprüfbaren Beweisen, wie sie in der ‚formalen Mathematik‘ angestrebt werden, und den Beweisen in der mathematischen Fachliteratur liegt ein schwer überbrückbarer Graben, der allerdings ein Stück weit verkleinert werden kann. Der Graben wird dadurch aufgerissen, dass maschinelle Beweisprogramme bestimmte Lücken leichter schließen können als Menschen, aber auch an für Menschen evidenten, aber im Text nicht vollständig ausgeführten Beweisschritten scheitern können. Ein anderes Problem liegt darin, dass formale Beweise eine Explizitheit und Eindeutigkeit hinsichtlich der ontologischen Verhältnisse und der Grundlagentheorien fordern, die außerhalb der Logik und der Mengentheorie selten anzutreffen sind. Werden Zahlen kardinal oder ordinal verstanden? Sind sie Basisentitäten oder selbst Mengen? In einem Beweis kann der Verfasser, ohne dass es sonderlich auffiele, zwischen diesen Perspektiven wechseln, die aus formaler Sicht fundamentale ontologische Unterschiede darstellen. Blendet man die grundlagentheoretischen Probleme aus, so bleiben die Lückenhaftigkeit vieler logischer Ableitungen-- jedenfalls unter dem Aspekt der Nachvollziehbarkeit durch automatische Theorembeweiser- -, uneindeutige Referenzen, die üblichen syntaktischen und semantischen Mehrdeutigkeiten von Texten und stark elliptische Textstrukturen. 3. Mehrdeutigkeiten in mathematischen Texten Grundsätzlich finden sich alle Arten syntaktischer und semantischer Mehrdeutigkeit auch in Beweistexten. Das einzige Phänomen, das eine Übersetzung in einen Formalismus der Prädikatenlogik erster Stufe erschwert, das aber in den Kernbereichen mathematischer Beweise fehlt, ist Vagheit. Mit dem Kernbereich von Beweisen sind hier die Aussagen gemeint, die als Voraussetzungen oder Folgerungen von deduktiven Argumenten aufzufassen sind, im Gegensatz zu kommentierenden Bemerkungen, die z. B. zur Relevanz oder zur Schwierigkeit einzelner Beweisschritte Stellung nehmen. Elliptische Beweise werden z. B. oftmals mit der Bemerkung versehen, dass etwas „leicht“ zu sehen/ zu zeigen/ zu verallgemeinern sei. Referenzielle Ambiguitäten werden zwar in der Sprache der Mathematik durch den Gebrauch mathematischer Notation, insbesondere von Variablen, geringgehalten, vgl. z. B. den Gebrauch von p und q in Abbildung- 1. Wegen der Vielzahl gleichartiger, nur schwer zu differenzierender Entitäten (wie z. B. Zahlen, Punkte, Flächen u. ä.) hat die Mathematik sehr früh den Gebrauch von Variablen und auf ihnen beruhender komplexer Notationen herausgebildet, wie bereits Euklids Elemente zeigen. <?page no="200"?> Bernhard Schröder 200 Abb. 1: Dritter Beweis für die Unendlichkeit der Primzahlen in (Aigner/ Ziegler 2018, S.-4) Koreferenzen werden aber keineswegs nur über Variablen hergestellt, sondern auch in der modernen Beweissprache finden sich noch definite Nominalphrasen und Pronomen in anaphorischer Funktion, z. B. „Diese Gruppe“ in Abbildung-1, Zeile-6, die prinzipiell, wenn auch in der Praxis selten, zu anaphorischen Ambiguitäten führen können. Ein Beispiel für eine pronominale Anapher findet sich in (1). (1) Since K r - ⊈ - G each of the sets V i is independent, and they partition V(G). (Diestel 2006, Hervorhebung von BS) Auch ist die mathematische Notation keineswegs eindeutig, denn (2) y (m---n) kann „y multipliziert mit m---n bedeuten“, aber auch die Funktion „y angewandt auf-m---n“. Weitere Lesarten von (2) finden sich z. B. in der Domäne der Booleschen Algebra. Oder nehmen wir das Zeichen 0: Es kann u. a. eine Zahl, einen Nullvektor oder das Nullelement eines Rings bezeichnen. Die Disambiguierung solcher Ausdrücke gelingt i. A. durch verschiedene Kontextmerkmale, wie den Gebrauch bestimmter Notationen in bestimmten Domänen und evtl. Typzugehörigkeiten (z. B. y als Funktion oder Zahl). Die mathematische Formelsprache ist weitgehend darauf angelegt, syntaktische Mehrdeutigkeiten zu vermeiden. Explizite Klammerungen und graphisch gliedernde Notationen wie Brüche, Hoch- und Tiefstellungen sowie klare Präzedenzregeln (wie z. B. „Punkt vor Strich“) sorgen für eine syntaktisch weitgehend eindeutige Analysierbarkeit. Allerdings gibt es auch Fälle, in denen die mathematische Notation die Wahl zwischen mehreren äquivalenten Analysen bewusst offenlässt. So wird in Fällen zweistelliger Operatoren, für die das Assoziativgesetz gilt, z. B. (3) (a-+-b)-+-c-=-a-+-(b-+-c), i. d. R. eine Notation (4) a-+-b-+-c <?page no="201"?> Die Gewinnung von Frames aus mathematischen Beweistexten 201 gewählt, die die syntaktische Entscheidung zwischen den beiden semantisch äquivalenten Varianten nicht trifft und somit eine implizite Anwendung des Assoziativgesetzes bei Termumformungen ermöglicht. Anders die natürlichsprachlichen Teile mathematischer Texte: Hier sind syntaktische Ambiguitäten ähnlich häufig wie in anderen Domänen. Zwar hat die mathematische Fachsprache für die heiklen Fälle der Disambiguierung semantischer Skopen besondere Konstruktionen herausgebildet, die die skopuserzeugenden Phrasen (Quantoren, Bedingungen) ausgliedern, z. B. durch Voranstellung oder durch eine Verschiebung ins Nachfeld eines Satzes: (5) Für alle Gruppen G gilt: … (6) … für alle Gruppen G. Nichtsdestotrotz bleibt auch in diesen Konstruktionen, wenn sie ihrerseits komplex werden, Raum für syntaktische Mehrdeutigkeiten. Nehmen wir (7) als Beispiel: (7) Für beliebige(s) A und B mit C und D gilt: … A, B, C und D stellen hier mathematische Formeln dar, die jeweils geeignet sind, eine Variable allquantifiziert zu binden. In einer Lesart stellen C und D hier Bedingungen an die in B eingeführte Variable dar; in einer anderen Lesart ist dies nur für C der Fall, während D eine neue Variable einführt. Eine mögliche Instantiierung von (7) stellt (8) dar: (8) Für beliebige v- ≠ -0 und k- > -0 mit f- k -(v)-=-0 und f- k---1 -(v)- ≠ -0 sind die Vektoren (v,-f-(v),-…-f- k---1 -(v)) linear unabhängig. In (8) ist die zweite Lesart von (7) anzunehmen, weil die Variablen v und k bereits eingeführt sind und die Bedingung f- k -(v)-=-0 zeigt, dass auch die Funktion f bereits bekannt ist, also in f- k - (v)- =- 0 keine neue Variable vorkommt. Disambiguierungen dieser Art schließen also Plausibilitätsüberlegungen unterschiedlicher Komplexität und ein Management der vorkommenden Diskursreferenzen ein. Auch semantische Mehrdeutigkeiten i. e. S., also Mehrdeutigkeiten, die nicht auf unterschiedliche syntaktische Analysen oder unterschiedliche lexikalische Lesarten zurückzuführen sind, sind in der mathematischen Sprache anzutreffen. Dazu gehören klassische Skopusambiguitäten, aber besonders auch Mehrdeutigkeiten, die sich aus Plurallesarten ergeben. Als Pluralnominalphrasen werden hier-- ähnlich wie in Cramer/ Schröder (2012)- - alle Nominalphrasen verstanden, die sich auf mehr als einen Referenten beziehen, also z. B. Pluralformen im morphologischen Sinne als auch Aufzählungen von Referenzen. Viele Pluralnominalphrasen in der mathematischen Sprache sind distributiv zu lesen. All- oder existenzquantifiziert eingeführten Objekten werden Eigenschaften <?page no="202"?> Bernhard Schröder 202 zugesprochen oder diese werden zu anderen Objekten in Beziehung gesetzt. (8) stellt ein typisches solches Beispiel dar. Sobald jedoch Aggregate ins Spiel kommen, also aus mathematischen Objekten zusammengesetzte Objekte wie Mengen, Klassen, Folgen, Summe, Produkte, Geraden (als aus Punkten bestehende Objekte) usw., kommen auch kollektive Lesarten vor, wie Satz (9) demonstriert. (9) p 1 ,-p 2 ,-p 3 ,-… bilden eine Folge von Primzahlen in ansteigender Reihenfolge. (10) Die Punkte A, B und C definieren ein gleichseitiges Dreieck. In (10) gelangt man zu der intendierten kollektiven Lesart durch das Hintergrundwissen, dass ein Punkt nicht ausreicht, ein Dreieck zu definieren, was eine distributive Lesart (z. B. in dem Sinne, dass es ein Dreieck gebe, das jeweils durch den Punkt A, durch den Punkt B und durch den Punkt C definierbar ist) ausschließt. Das triviale Hintergrundwissen, dass ein Dreieck drei Eckpunkte hat, macht die kollektive Lesart, dass A, B und C zusammen (als die Eckpunkte) das Dreieck definieren, naheliegend. Nicht in allen Fällen ist aber die Auflösung der Pluralambiguität so trivial. Gerade Eigenschaften und Relationen, die auf unterschiedliche Aggregatsebenen angewandt werden können, können zu einer Vervielfältigung der Lesarten führen. Symmetrische Relationen wie unterschiedlich können immer auch in einstellige Prädikate von Pluralen überführt werden, die das paarweise Bestehen der Relation für die Elemente des Pluralaggregats behaupten. (11) Die Elemente der Folge s sind unterschiedlich. oder (12) Die Folge s besteht aus unterschiedlichen Elementen. ist zu lesen als: Jedes Element der Folge s ist ungleich/ unterschiedlich zu jedem Element der Folge an einer anderen Position. Während die zweistellige Relation unterschiedlich hier also auf die einzelnen Elemente der Folge angewandt wird, wird das einstellige Prädikat auf das Plural-Aggregat „die Elemente der Folge s“ angewandt. Dabei ist es möglich, dass das Plural-Aggregat weder durch eine morphosyntaktische Pluralkonstruktion noch durch eine Aufzählung eingeführt wird, sondern implizit durch die quantifikationelle Gesamtstruktur. 2 2 Es ist i. d. R. offensichtlich, dass durch Konstruktionen, die (verallgemeinerte) Quantoren im Plural enthalten („alle Punkte“, „drei Primzahlen“), gleich, ob sie all- oder existenzquantifizierend sind, Plural-Aggregate eingeführt werden können. Auch noch leicht zu sehen ist, dass auch ein morphosyntaktisch singularischer Allquantor wie „jeder Schnittpunkt“ ein Plural-Aggregat, also etwa die Menge der Schnittpunkte, als Diskursreferenzen implizit einführen kann. Zunächst weniger offensichtlich ist, dass dies auch bei einem singularischen existenzquantifizierenden Ausdruck, wie „ein Schnittpunkt“, <?page no="203"?> Die Gewinnung von Frames aus mathematischen Beweistexten 203 (13) Alle Zahlen in M haben einen unterschiedlichen kleinsten Primfaktor. Das einstellige Prädikat unterschiedlich bezieht sich in (13) auf das Plural-Aggregat kleinster Primfaktoren der Zahlen in M, obgleich die Nominalphrase im Singular auftritt. Da der Existenzquantor einen […] kleinsten Primfaktor jedoch unter dem Allquantor alle Zahlen in M steht, wird eine Menge kleinster Primfaktoren eingeführt. Mit diesen Überlegungen hat (14) Jedes a n ist ein Produkt unterschiedlicher kleiner Primzahlen. mindestens die Lesarten: a) Die Mengen kleiner Primzahlen, aus denen die Produkte bestehen, sind unterschiedlich. b) Die Primzahlen, aus denen die Produkte jeweils bestehen, sind untereinander unterschiedlich. Es kommt also keine Primzahl mehrfach in einem Produkt vor. Lesart (a) hat allerdings zwei Unterlesarten: Dass Mengen oder Pluralaggregate unterschiedlich sind, kann schwächer (a1) im terminologischen Sinne ungleicher Mengen (die sich also in mindestens einem Element unterscheiden müssen, aber überschneiden dürfen) oder stärker (a2) im Sinne disjunkter Mengen gelesen werden. Alle drei Lesarten sind für sich genommen semantisch sinnvoll, wobei die schwache Lesart (a1) trivial ist, da unterschiedliche Zahlen aus unterschiedlichen Primfaktoren bestehen. Dies schließt diese Lesart jedoch nicht aus, da in mathematischen Beweisen auch triviale Fakten referiert werden können, um aus ihnen Schlussfolgerungen zu ziehen. Sehen wir uns (14) im Kontext (15) an. (15) Wir schreiben jedes n- ≤ - N, das nur kleine Zahlen als Primteiler hat, in der Form n- =- a n b 2 n , wobei a n der quadratfreie Teil ist. Jedes a n ist deswegen ein Produkt unterschiedlicher kleiner Primzahlen. Es ist naheliegend, den zweiten Satz als Erläuterung des ersten zu verstehen, also im Sinne von (b), denn die Quadratfreiheit von a n meint, dass kein Primfaktor zweimal im Produkt a n vorkommt. Um zu dieser Interpretation zu gelangen, muss a n als Produkt von Primteilern verstanden werden, was im Bereich der Primfaktorzerlegung naheliegt. der Fall sein kann. Steht der Existenzquantor z. B. im Bereich des Allquantors, kann auch er implizit ein Plural-Aggregat einführen, vgl.: „Jedes nicht-parallele Paar von Geraden hat einen Schnittpunkt. Betrachten wir nun die Menge der Schnittpunkte .“ Insofern reicht es nicht, auf die einzelnen quantifizierenden Ausdrücke zu sehen, sondern es muss die Gesamtstruktur quantifizierender Ausdrücke in den Blick genommen werden. <?page no="204"?> Bernhard Schröder 204 Um letztlich zu dieser Interpretation zu gelangen, muss der Rezipient des Textes also ein Verständnis symmetrischer Relationen mitbringen und zudem wissen, dass symmetrische Relationen auch durch Eigenschaften von Aggregaten ausgedrückt werden, also „a ist R wie/ zu/ … b“ bei symmetrischen Relationen reformuliert werden kann zu „a und b sind R“. Es muss im Hintergrundwissen verankert sein, dass es bei Produkten nicht auf die Reihenfolge von Faktoren ankommt, die Multiplikation also kommutativ ist, um zu den zwei unter (14) genannten Lesarten nicht noch weitere hinzuzufügen, die sich auf die Anordnung der Primzahlen in einer Folge beziehen.-Außerdem muss eine Beziehung zwischen dem zweifachen Vorkommen eines Faktors in einem Produkt und der Quadrierung dieses Faktors hergestellt werden können. Es muss also erhebliches schematisches Wissen abgerufen werden, um zu der intendierten Lesart zu gelangen. In Fisseni et al. (2019) und Carl et al. (2021) wurde gezeigt, dass Frames ein geeignetes Mittel sind, schematisches Wissen bei der Beweisinterpretation darzustellen. Dabei werden zwei Typen von Frames unterschieden: strukturelle Frames, die Erwartungen an die Textstruktur, und ontologische Frames, die Erwartungen, die durch bestimmte Objektdomänen geweckt werden, modellieren. Der Fokus liegt in diesem Beitrag auf den strukturellen Frames und ihren Interaktionen mit ontologischen. 4. Frames für mathematische Beweise: das Beispiel der Induktion Wenn wir Frames als Beschreibungsinstrument für schematisches Wissen über mathematische Beweise einsetzen, gehört dazu nicht nur Wissen über den abstrakten inhaltlichen Aufbau bestimmter Beweistypen, sondern auch darüber, welche Textstrukturen und Notationen erwartet werden. Die inhaltliche Seite der Frames wird also mit der Ausdrucksseite verknüpft, wie dies auch in FrameNet (Ruppenhofer et al. 2006) und verwandten Projekten (vgl. Ziem o. J.) geschieht. Allerdings ist die Bestimmung der Ausdrucksseite bei Frames, die den Aufbau mathematischer Beweistypen beschreiben, deutlich abstrakter als dies bei Lexemen oder anderen Konstruktionen in FrameNet geschieht, weil manche Angaben schlicht vorhanden oder inferierbar sein müssen, ohne dass das strikt an eine bestimmte Form gebunden ist, und im Falle der Inferierbarkeit bestimmter Beweisbestandteile die Anwendung von Frames eher- - analog der Beschreibung stereotyper Ereignisse - - der Schließung von Lücken in Beschreibungen und der Kohärenzherstellung dient. Bei einem Induktionsbeweis beispielsweise erwarten wir, dass über eine induktive Menge wie natürliche Zahlen, Zeichenketten oder Bäume gesprochen wird. Die induktive Definition dieser Menge geht von einer Basismenge aus, die z. B. die Null oder Eins, die leere Zeichenkette oder den leeren Baum enthält. Ferner gibt es einen Induktionsschritt der Definition , mit dem sich zu gegebenen Elementen der in- <?page no="205"?> Die Gewinnung von Frames aus mathematischen Beweistexten 205 duktiven Menge neue Elemente konstruieren lassen. In einem Induktionsbeweis nun wird eine Behauptung über alle Elemente der induktiven Menge bewiesen, indem sie zunächst im Induktionsanfang für die Elemente der Basismenge gezeigt wird. Im Induktionsschritt des Beweises wird der Schluss von den zuvor konstruierten Elementen auf die im Induktionsschritt der Definition daraus zu konstruierenden Elementen gerechtfertigt. In etwas größerer Detailliertheit werden die beteiligten Komponenten eines solchen Beweises und die Zusammenhänge in Abbildung-2 in Form gängiger Notationen für Typed Feature Structures (TFFs) (vgl. Carpenter 1992) gezeigt. Anhang A von Fisseni et al. (2019) enthält eine ausführlichere Darstellung, die auch mögliche Fallunterscheidungen im Induktionsschritt berücksichtigt. Induktionsbeweise werden in mathematischen Lehrwerken zunächst sehr kanonisch eingeführt. Abbildung-3 zeigt einen kurzen Induktionsbeweis, bei dem die Bestandteile Induktionsanfang, Induktionsschritt und Induktionsschluss explizit- genannt sind, auch die Variablenbenennung orientiert sich an einem verbreiteten-Schema. Die folgenden Übungen in demselben Lehrwerk sind ganz analog strukturiert. In Texten, die sich an Rezipienten richten, denen eine größere Vertrautheit mit diesem Beweistyp unterstellt wird, fehlt eine explizite Textgliederung oft, manchmal werden auch Bestandteile des Beweises nicht ausgeführt. Abb. 2: Frame eines Induktionsbeweises, (? ! ) markiert Standard-Werte <?page no="206"?> Bernhard Schröder 206 Abb. 3: Induktionsbeweis des Satzes „Für alle n- ∈ N gilt: 1-+-2-+-3-+-…-+-n-=- - 1- 2- n- · (n-+- 1)“ (Land-Baden-Württemberg 2016) PROPOSITION 4.4.6. Let be a finite-dimensional K-vector space and let be a nilpotent endomorphism of . Let = dim( ). Then = 0. More precisely, for any vector ≠ 0 in , and ≥ 0 such that ( ) = 0 but −1 ( ) ≠ 0, 1 the vectors ( , ( ), . . . , −1 ( )) are linearly independent. a. Proof. First, the second statement is indeed more precise than the first: let ≥ 1 be such that = 0 but −1 ≠ 0; there exists ≠ 0 such that −1 ( ) ≠ 0, and we obtain ≤ by applying the second result to this vector . We now prove the second claim. b. Assume therefore that ≠ 0 and that ( ) = 0 but −1 ( ) ≠ 0. Let 0 , . . . , −1 be elements of K such that 1 + · · · + −1 −2 ( ) = 0. Apply −1 to this relation; since ( ) = . . . = 2 −3 ( ) = 0, we get 1 −1 ( ) = 1 −1 ( ) + 2 ( ) + · · · + −1 2 −3 ( ) = 0, and therefore 1 −1 ( ) = 0. Since −1 ( ) was assumed to be non-zero, it follows that 1 = 0. c. Now repeating this argument, but applying −2 to the linear relation (and using the fact that 1 = 0), we get 2 = 0. d. Then similarly we derive by induction that = 0 for all , proving the linear independence stated. Abb. 4: Beweis aus Kowalski (2016), Gliederung a.-d. und Korrektur zweier Tippfehler von BS, vgl. Fisseni et al. (2019) So beginnt im Beweis von Abbildung-4 unter b. ein Induktionsbeweis, ohne dass dies dort explizit gemacht würde. In c. wird exemplarisch der Schluss von t 1 -=-0 auf t 2 -=-0 angedeutet und erst in d. wird der Beweis explizit als Induktionsbeweis angesprochen und dem Rezipienten die Verallgemeinerung von c. zu einem Induktionsschritt überlassen. Während Abbildung- 3 die ausdrückliche Orientierung der Textstruktur am Frame zeigt, ist der Text in Abbildung-4 in seinem Aufbau nur teilweise am Frame orien- <?page no="207"?> Die Gewinnung von Frames aus mathematischen Beweistexten 207 tiert. Er enthält explizite („by induction“) und implizite Verweise auf Induktion als Beweismethode (Allquantifizierung über natürliche Zahlen, Schluss von einem Basisfall auf einen nachfolgenden). Die Frame-Bestandteile, die die Gültigkeit des Beweises sichern, müssen vom Rezipienten rekonstruiert werden. Dazu gehören auch die Annahme und das Beweisziel im Induktionsschritt. Ein in Fisseni et al. (2019) beschriebenes Experiment zeigte, dass bei erläuternden Paraphrasen eines Beweises die fehlenden Bestandteile tatsächlich von Rezipienten ergänzt werden. Die Beispiele aus der Zahlentheorie und Arithmetik, an denen Induktionsbeweise üblicherweise eingeführt werden, stellen, wenn man sich die Gesamtheit der Induktionsbeweise ansieht, einen sehr speziellen Typ dieser Beweisstrategie dar, der i. d. R. von schwacher Induktion Gebrauch macht, also davon, dass im Induktionsschritt von einem Element der induktiv definierten Menge auf das nachfolgende Element geschlossen werden kann. In anderen Domänen, wie beispielsweise der Graphentheorie, vollzieht sich der Schluss i. d. R. von sämtlichen Vorgängerelementen auf nachfolgende. Ein Baumgraph der Tiefe n kann beispielsweise unmittelbare Teilbäume sämtlicher Tiefen, die geringer als n sind, enthalten, Schlüsse von den Teilbäumen auf den sie unmittelbar enthaltenden Baum müssen also sämtliche möglichen Tiefen der Teilbäume berücksichtigen. Dies illustriert, dass die Domäne eines Induktionsbeweises dessen Struktur beeinflusst. Es gibt also domänenspezifische Subtypen von Induktionsbeweisen. In komplexeren Beweisen werden Induktionen mit anderen Beweistechniken kombiniert, z. B. mit Widerspruchsbeweisen oder Extremalbeweisen, die als Teil des Induktionsbeweises vorkommen können oder umgekehrt. Dadurch entstehen weitere Spezialisierungen von Induktionsbeweisen. Man kann sich die Frames der Beweistypen und ihrer Subtypen deshalb als ein Netz von Frames mit spezialisierteren und weniger spezialisierten Frames vorstellen. Sowohl Emittentinnen bei der Beweisfindung und der Textproduktion als auch Rezipienten bei der Beweisinterpretation nutzen ihre Kenntnis solcher Netze. Für den Prozess der Beweisfindung wurde dies in Carl et al. (2021) am Beispiel eines Extremalbeweises verdeutlicht. 5. Typhierarchien von Frames: das Beispiel der Extremalbeweise In seinem Buch über Beweistechniken schreibt Engel (1999, S.-39, Hervorhebungen im Original): In this chapter we discuss the extremal principle , which has truly universal applicability, but is not so easy to recognize, and therefore must be trained. […] We are trying to prove the existence of an object with certain properties. The extremal principle tells us to pick an object which maximizes or minimizes some function. The resulting object is then shown to have the desired property by showing a slight perturbation (variation) would further increase or decrease the given function. […] We will <?page no="208"?> Bernhard Schröder 208 learn the use of the extremal principle by solving 17 examples from geometry, graph theory, combinatorics, and number theory […]. Wie Carl (2017, S.- 75) betont, setzt „[d]as Extremalprinzip […] also einen Kontext voraus, in dem minimale oder maximale Objekte existieren“. Es liegt also beispielsweise nahe, in Fällen, in denen es um unendliche Mengen natürlicher Zahlen geht, das Prinzip der kleinsten Zahl zu nutzen, also die Eigenschaft solcher Mengen, stets ein kleinstes Element zu haben. Mengen reeller Zahlen haben nicht notwendigerweise ein kleinstes Element, auch dann nicht, wenn sie nach unten beschränkt sind. Bei nach unten beschränkten Mengen reeller Zahlen kann aber die Infimumeigenschaft benutzt werden, also die Tatsache, dass es eine größte untere Schranke gibt, also eine reelle Zahl, die selbst nicht Element der Menge sein muss, aber die größte Zahl ist, über der alle Elemente der Menge liegen. Nach oben beschränkte Mengen reeller Zahlen haben die entsprechend umgekehrte Supremumeigenschaft . Carl (2017, S.-75, Hervorhebungen im Original) führt weiter aus: Beweise mithilfe des Extremalprinzips funktionieren meist auf eine der beiden folgenden Weisen: 1)-Zu zeigen ist eine Existenzaussage . Das extremale Objekt ist ein Beispiel für ein Objekt der gesuchten Art oder hilft bei dessen Konstruktion. 2)-Zu zeigen ist eine Allaussage . Man nimmt das Gegenteil an, betrachtet ein extremales Gegenbeispiel und arbeitet auf einen Widerspruch (meist zur Maximalität oder Minimalität) hin. Ein Extremalbeweis-Frame wird also u. a. die folgenden Slots enthalten, die diese Subtypen unterscheiden: - Skala : Wie messen wir Extremalität? - Art der Extremalität : Minimalität oder Maximalität? - Genutztes Prinzip für die Behauptung der Existenz eines extremalen Objektes : Kleinste Zahl, Infimum, Supremum, … Abbildung-5 zeigt einen Teil der Typhierarchie von Extremalbeweis-Frames, der die genannten Unterscheidungen reflektiert. <?page no="209"?> Die Gewinnung von Frames aus mathematischen Beweistexten 209 Abb. 5: Typhierarchie von Extremalbeweis-Frames (aus Carl et al. 2021) Den Basistyp eines Extremalbeweis-Frames kann man sich dabei wie in Abbildung-6 vorstellen. Abb. 6: Basistyp eines Extremalbeweis-Frames (aus Carl et al. 2021) Einen sehr viel spezielleren Frame für auf Minimalität und Widerspruch beruhende Beweise für natürliche Zahlen sähe wie in Abbildung-7 aus. <?page no="210"?> Bernhard Schröder 210 Abb. 7: Frame eines Extremalbeweises, der auf Minimalität und Widerspruch für die Domäne der natürlichen Zahlen beruht (aus Carl et al. 2021) Bei der Findung eines Beweises für das Problem P9 von Engel (1999, S.-43) beispielsweise könnte das Wissen über die Frame-Hierarchie in der folgenden Weise zum Tragen kommen. Gefunden werden soll ein Beweis für die Behauptung, dass es keine vier positiven ganzen Zahlen x,-y,-z und gibt, so dass x 2 -+-y 2 -=-3 (z 2 -+-u 2 ) (P9.1) Unter der Annahme, dass ein Extremalbeweis gefunden werden soll, legt die Domäne der positiven ganzen Zahlen nahe, dass das Prinzip der kleinesten Zahl zur Anwendung kommt. Zu zeigen ist eine negierte Existenzaussage, was äquivalent mit einer Allaussage einer Negation ist. Das legt einen Widerspruchsbeweis nahe. Mit diesen Überlegungen gelangt man zu einem Frame des Typs aus Abbildung 7. Die zu widerlegende Behauptung ist, dass es eine minimale Belegung der Variablen x,-y,-z und u gibt, die (P9.1) erfüllt. Eine nicht-triviale Aufgabe ist es, ein Kriterium zu finden, hinsichtlich dessen die Variablen minimal gewählt sein sollen. Geht man von der Hypothese aus, dass die Gleichung (P9.1) selbst ein solches Kriterium liefert, wäre eine mögliche Wahl der Term auf der linken oder der gemäß Annahme äquivalente auf der rechten Seite der Gleichung. Betrachtet man nun eine Belegung der vier Variablen durch positive ganze Zahlen derart, dass x 2 -+-y 2 minimal wird, so ergibt sich der Frame von Abbildung 8. <?page no="211"?> Die Gewinnung von Frames aus mathematischen Beweistexten 211 Abb. 8: Frame nach Wahl des Minimalitätskriteriums bei der Lösung von Problem P9 von Engel (1999, S.-43) Der Rest des Beweises beruht auf arithmetischen Überlegungen, die durch (ontologische) Frames der beteiligten Operationen (Addition, Division (mit Rest), Quadrierung) motiviert werden können. Er sei im Folgenden kurz skizziert: Man sieht durch eine Umformung der Gleichung x 2 -+-y 2 -=-z 2 -+-u 2 3 unmittelbar, dass x 2 -+-y 2 durch 3 teilbar sein muss. Mit einigen Überlegungen hinsichtlich der Teilbarkeitsreste kommt man zu dem Ergebnis, dass Quadratzahlen entweder durch 3 teilbar sind oder den Rest 1 bei der Teilung durch 3 aufweisen. Das bedeutet aber auch, dass die Summe zweier Quadratzahlen nur dann durch 3 teilbar sein kann, wenn beide Quadratzahlen es sind, was bei den zu quadrierenden Zahlen den Primteiler 3 voraussetzt. Die Quadratzahlen haben folglich den Teiler 3 2 - =- 9. Wählt man m-=-x/ 3 und n-=-y/ 3, ergibt sich 9m 2 -+-9n 2 -=-3 (z 2 -+-u 2 ) Das kann äquivalent umgeformt werden in z 2 -+-u 2 -=-3 (m 2 -+-n 2 ) Da z 2 -+-u 2 aber nur ein Drittel von x 2 -+-y 2 beträgt, widerspricht das der Minimalität der Wahl von x und y. Es gibt also keine minimale Belegung der Variablen x,- y,- z und- u, die (P9.1) erfüllt. Da jedoch das Prinzip der kleinsten Zahl garantiert, dass, wenn es eine positiv-ganzzahlige Belegung der Variablen gibt, es auch eine Belegung gibt, die x 2 -+-y 2 minimiert, ist widerlegt, dass es überhaupt eine solche Belegung gibt. <?page no="212"?> Bernhard Schröder 212 Zumindest der erste Teil des Beweises illustriert, wie die Suche nach dem passenden Subtyp von Extremalbeweis-Frames, bei der man von Standardannahmen zum Zusammenhang von Domänen und Subtypen Gebrauch macht, bei der Konstruktion eines Beweisansatzes eine wesentliche Rolle spielen kann. 6. Frame-Erwerb und Elliptizität: ein Fazit Je fortgeschrittenere Kompetenzen den Rezipienten unterstellt werden, umso weniger wird die inhaltliche Struktur des jeweiligen Beweisframes explizit gemacht und umso weniger wird der jeweilige Subtyp ausdrücklich benannt oder auf andere Weise identifiziert. Die aus den entsprechenden Frames inferierbaren Bestandteile von Beweisen werden mit zunehmender unterstellter Kompetenz ausgelassen. Auf der Oberfläche werden Beweistexte damit lückenhafter. In Abbildung-9 ist ein graphentheoretischer Beweis wiedergegeben, der die Kenntnis des in der Graphentheorie oft verwendeten Frames der starken Induktion und des Extremalbeweis-Frames mit Konstruktion eines maximalen Objekts voraussetzt. T r (n) bezeichnet dabei einen bestimmten Graphen, den Turán-Graphen mit n Knoten und r Partitionen dieser Knoten. (a) führt den Beweis als Induktionsbeweis ein. Auch der Induktionsanfang umfasst bereits eine Menge an Fällen für n, nämlich n- ≤ -r---1. Diese Fälle dienen gleichzeitig als Induktionsannahme, die vom Rezipienten zu rekonstruieren ist, und der Induktionsschritt erfolgt von n- ≤ -r---1 nach n- ≥ -r. Der Extremalbeweis-Frame wird über die Kanten-Maximalität („edge-maximal“) von G unter (a) aufgerufen, gemessen wird die Maximalität also anhand der Kanten von G. Auf diese Maximalität wird am Ende des Beweises mit der Feststellung rekurriert, dass der Turán-Graph T r- -- 1 (n) der einzige Kanten-maximale Graph ist, der einige weitere Eigenschaften von G teilt und somit T r---1 (n)-=-G gelten muss. Schaut man auf die didaktische Einführung bestimmter Beweistechniken, so werden i. A. zunächst spezielle, „prototypische“, Subtypen von Frames sehr explizit eingeführt, bei den Induktionsframes beispielsweise schwache Induktion über natürliche Zahlen mit einem einfachen Induktionsanfang. Von da ausgehend werden weitere Subtypen und Verallgemeinerungen der Frames entwickelt. Da zusammen mit dem didaktischen Fortgang Beweisformulierungen immer weniger explizit auf die Frames Bezug nehmen, ist eine rein induktive Ermittlung von Frame-Strukturen aufgrund oberflächlicher Textmerkmale nur bei den prototypischen Frames sinnvoll, nicht jedoch in Fällen wie denen in Abbildung 9. Je weiter man sich von den prototypischen Fällen in Richtung generalisierter Typen oder anderer spezieller, weniger prototypischer Typen entfernt, um so mehr stellt sich die Notwendigkeit, die Frames intellektuell aufgrund ihrer Beziehungen zu anderen Subtypen und aufgrund von inhaltlich logischen Erwägungen zu entwickeln. Dabei ist es hilfreich, die Erwerbshistorie oder didaktische Abfolge der Frames nachzuvollziehen, da rein induktive Vorgehensweisen bei Subtypen zu „Insellösungen“ bei der Spezifikation der Frames und damit zu Inkompatibilitäten in der Framehierarchie führen können. <?page no="213"?> Die Gewinnung von Frames aus mathematischen Beweistexten 213 Die plausibelste Strategie der empirisch gestützten Spezifikation von Frames innerhalb einer Hierarchie dürfte also darin bestehen, bei den prototypischen Frames im frühen didaktischen Erwerbsstadium weitestgehend induktiv (corpus-driven approach) vorzugehen, dieses Verfahren bei weniger prototypischen Frame-Subtypen jedoch durch hypothesenbildende Verfahren (corpus-based approach) zu ergänzen und die Plausibilität der Hypothesen empirisch an Texten zu testen. Diese Überlegungen dürften auch auf konstruktionsgrammatische Typologien und textlinguistische Texttypologien übertragbar sein. Theorem 7.1.1. (Turán 1941) For all integers , with > 1, every graph with vertices and ex( , ) edges 1 is a −1 ( ). Proof. a. We apply induction on . For ≤ − 1 we have = = −1 ( ) as claimed. For the induction step, let now ≥ . Since is edge-maximal without a subgraph, has a subgraph = −1 . b. By the induction hypothesis, − has at most −1 ( − + 1 ) edges, and each vertex of − has at most − 2 neighbours in . c. Hence −1 ( − + 1) + ( − + 1) ( − 2) + − 1 2 = −1 ( ); (0.1) the equality on the right follows by inspection of the Turán graph −1 ( ) (Fig. 7.1.3). local argument. First proof. We apply induction on n . For n r − 1 we have G = K n = T r − 1 (n ) as claimed. For the induction step, let now n r . Since G is edge-maximal without a K r subgraph, G has a subgraph K = K r − 1 . By the induction hypothesis, G − K has at most K t r − 1 (n − r + 1) edges, and each vertex of G − K has at most r − 2 neighbours in K . Hence, G t r − 1 (n − r + 1) + ( n − r + 1)( r − 2) + r − 1 2 = t r − 1 (n ) ; (1) the equality on the right follows by inspection of the Tur´ an graph T r − 1 (n ) (Fig. 7.1.3). r − 1 2 r − 2 t r − 1 (n − r + 1) Fig. 7.1.3. The equation from (1) for r = 5 and n = 14 Since G is extremal for K r (and T r − 1 (n ) ⊇ K r ), we have equality in (1). Thus, every vertex of G − K has exactly r − 2 neighbours in K — just like the vertices x 1 , . . . , x r − 1 of K itself. For i = 1 , . . . , r − 1 let x 1 , . . . , x r − 1 V i : = { v ∈ V(G) | vx i / ∈ E (G) } V 1 , . . . , V r − 1 be the set of all vertices of G whose r − 2 neighbours in K are precisely the vertices other than x i . Since K r ⊆ G, each of the sets V i is independent, and they partition V(G). Hence, G is (r − 1)-partite. As T r − 1 (n ) is the unique ( r − 1)-partite graph with n vertices and the maximum number of edges, our claim that G = T r − 1 (n ) follows from the assumed extremality of G. Since is extremal for (and −1 ( ) ), we have equality in (0.1). Thus, every vertex of − has exactly − 2 neighbours in - just like the vertices 1 , . . . , −1 of itself. For = 1, . . . , − 1 let : = { ∈ ( ) | ∉ ( )} be the set of all vertices of whose − 2 neighbours in are precisely the vertices other than . Since , each of the sets is independent, and they partition ( ). Hence, is ( − 1)-partite. As −1 ( ) is the unique ( − 1)-partite graph with vertices and the maximum number of edges, our claim that = −1 ( ) follows from the assumed extremality of . 1 ex( , ) means the number of edges of a graph that is extremal for and , i.e., the maximal amount of edges a graph on vertices could have, without having a subgraph (isomorphic to) . Abb. 9: Beweis von Turáns Theorem nach Diestel (2006, S.-165 f.), Gliederung a.-c. von BS <?page no="214"?> Bernhard Schröder 214 Literatur Aigner, Martin/ Ziegler, Günter M. (2018): Das Buch der Beweise. 5. Aufl. Heidelberg: Springer. Carl, Merlin (2017): Wie kommt man drauf ? Einführung in das mathematische Aufgabenlösen. Wiesbaden: Springer Spektrum. Carl, Merlin/ Cramer, Marcos/ Fisseni, Bernhard/ Sarikaya, Deniz/ Schröder, Bernhard (2021): How to frame understanding in mathematics: A case study using extremal proofs. In: Axiomathes 31, S.-649-676. DOI: 10.1007/ s10516-021-09552-9. Carpenter, Bob (1992): The logic of typed feature structures. With applications to unification grammars, logic programs and constraint resolution. (=-Cambridge Tracts in Theoretical Computer Science). Cambridge: Cambridge University Press. Cramer, Marcos (2013): Proof-checking mathematical texts in controlled natural language.- Diss. Rheinische Friedrich-Wilhelms-Universität Bonn: https: / / hdl.handle. net/ 20.500.11811/ 5780 (Stand: 1.6.2023). Cramer, Marcos/ Schröder, Bernhard (2012): Interpreting plurals in the Naproche CNL. In: Rosner, Michael, Fuchs, Norbert E. (Hg.): Proceedings of the 2 nd international workshop on controlled natural language, CNL 2010, Marettimo Island, Italy, September 13-15, 2010. Revised Papers. (=-Lecture Notes in Computer Science 7175). Berlin/ Heidelberg: Springer, S.-43-52. DOI: 10.1007/ 978-3-642-31175-8_3. Cramer, Marcos/ Fisseni, Bernhard/ Koepke, Peter/ Kühlwein, Daniel/ Schröder, Bernhard/ Veldman, Jip (2010): The Naproche project. Controlled natural language proof checking of mathematical texts. In: Fuchs, Norbert E. (Hg.): Proceedings of the international workshop on controlled natural language, CNL 2009, Marettimo Island, Italy, June 2009, 8-10. Revised Papers. (=-Lecture Notes in Computer Science 5972). Berlin/ Heidelberg: Springer, S.-170-186. DOI: 10.1007/ 978-3-642-14418-9_11. Diestel, Reinhard (2006): Graph theory. 3. Aufl. Heidelberg: Springer. Engel, Arthur (1999): Problem-Solving Strategies. Problem Books in Mathematics. New York: Springer. Euklid (2003): Die Elemente. Bücher I-XIII. Reprint der Bände 235, 236, 240, 241, 243. Aus dem Griech. übers. und hrsg. von Clemens Thaer. (=-Oswalds Klassiker der exakten Wissenschaften-235). Frankfurt a. M.: Harri Deutsch. Fisseni, Bernhard/ Sarikaya, Deniz/ Schmitt, Martin/ Schröder, Bernhard (2019): How to frame a mathematician. Modelling the cognitive background of proofs. In: Centrone, Stefania/ Sarikaya, Deniz/ Kant, Deborah (Hg.): Reflections on the foundation of mathematics. Univalent foundations, set theory and general thoughts. (=-Synthese Library-407). Heidelberg: Springer, S.-415-434. Kamp, Hans/ Reyle, Uwe (1993): From discourse to logic. Dordrecht: Kluwer. Kowalski, Emmanuel (2016): Linear algebra. Lecture notes. Zürich: ETH Zürich. https: / / people.math.ethz.ch/ ~kowalski/ script-la.pdf (Stand: 1.6.2023). Land Baden-Württemberg (2016): Lehrerinnenfortbildung Baden-Württemberg, Bildungsplan 2016: Vertiefungskurs Mathematik. Beweistechniken. Aufgaben zum Beweis durch vollständige Induktion. https: / / lehrerfortbildung-bw.de/ u_matnatech/ mathematik/ gym/ bp2016/ fb9/ (Stand: 1.6.2023). <?page no="215"?> Die Gewinnung von Frames aus mathematischen Beweistexten 215 Minsky, Marvin (1974): A framework for representing knowledge. (=- Artificial Intelligence Memo-306). Technical report. Cambridge, MA: Massachusetts Institute of Technology. Naproche (2021)- = Schröder, Bernhard/ Koepke, Peter (2021): The Naproche project. https: / / naproche-net.github.io/ (Stand: 20.6.2023) Ruppenhofer, Josef/ Ellsworth, Michael/ Petruck, Miriam R. L./ Johnson, Christopher R./ Baker, Collin F./ Scheffczyk, Jan (2016): FrameNet II: Extended theory and practice. Berkeley, CA: International Computer Science Institute. https: / / framenet2.icsi.berkeley.edu/ docs/ r1.7/ book.pdf (Stand: 1.6.2023) Ziem, Alexander (o. J.): Das Projekt „FrameNet-Konstruktikon des Deutschen“. https: / / gsw. phil.hhu.de/ project/ about (Stand: 1.6.2023). <?page no="217"?> MANFRED STEDE/ ANNA-JANINA GOECKE/ NOËL SIMMEL/ BIRGIT SCHNEIDER DER REINE KLIMAWAHNSINN! Zur Konzeption eines Diskursglossars von Klimakomposita Abstracts : Wir beschreiben die Entwicklung und Implementierung eines online-Glossars für „Klimakomposita“; Nominalkomposita, die mit Klimabeginnen. Wir interessieren uns nicht für sachliche oder technische Begriffe, sondern für diejenigen, die im politisch motivierten Diskurs benutzt werden, um-- mehr oder weniger unterschwellig-- subjektive Beurteilungen zu kommunizieren, wie etwa in Klimareligion oder Klimahysterie. Unser Vorgehen ist korpusbasiert: Wir beschreiben die Zusammenstellung eines Textkorpus, das Material von den beiden Seiten der Klimaaktivist*innen und der Klimaskeptiker*innen umfasst, die Selektion der im Glossar zu behandelnden Stichwörter und das Vorgehen beim Formulieren ihrer Beschreibungen. We describe the conception and implementation of an online glossary for “climate compounds”, i. e., German noun compounds that start with Klima- (‘climate’). Our interest is not with purely descriptive or technical terms, but with terms that can be used in politically-motivated discourse for communicating subjective evaluation, as in Klimareligion (‘climate religion’) or Klimahysterie (‘climate hysteria’). Our method is corpus-based: We describe our decisions in constructing a corpus with text material from the two sides of climate activists and climate skeptics, the selection of terms to be included in the glossary, and the wording of their descriptions. Keywords : Klimawandeldiskurs, Glossar, Nominalkomposita, korpusbasierte Stichwortauswahl, Web-basierte Nutzungsschnittstelle; climate change discourse, glossary, noun compounds, corpusbased keyword selection, web user interface 1. Einführung 1.1 Motivation Deutschsprachige Online-Glossare zum Thema Klimawandel sind alles andere als rar; sie wurden unter anderem von Medien (beispielsweise dem NDR 1 oder der WELT 2 ) und von Energieversorgungsfirmen (etwa der EWE 3 ) erstellt. Gibt es dann tatsächlich Bedarf für eine weitere Ressource dieser Art? Ja, denn alle uns bisher bekannten Glossare zielen auf Wissensvermittlung zu den wissenschaftlichen oder technischen Grundlagen ab: Wie entsteht der Treibhauseffekt in der Atmosphäre? Warum ist CO 2 schädlich? Sind alle fossilen Energieträger gleichermaßen problematisch? und so weiter. Unser Anliegen in diesem Beitrag ist ein anderes: Wir interes- 1 www.ndr.de/ ratgeber/ klimawandel/ Klimawandel-Das-Glossar-von-A-bis-Z,glossar124.html (Stand: 17.4.2023). 2 www.welt.de/ wissenschaft/ article181807952/ Glossar-zum-Klimawandel-Klimawandel-verstehendas-muessen-Sie-wissen.html (Stand: 17.4.2023). 3 www.ewe.com/ de/ zukunft-gestalten/ klimaschutz/ klimaglossar (Stand: 17.4.2023). DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="218"?> Manfred Stede/ Anna-Janina Goecke/ Noël Simmel/ Birgit Schneider 218 sieren uns für die Verwendung von Begriffen in politisch motivierten Diskursen über den Klimawandel. Was hat es zu bedeuten, wenn von Klimareligion gesprochen wird? Warum wird das Wort Klimawandel vielerorts heute bewusst durch Klimakrise ersetzt? Spielen Klimaleugner*innen eine analoge Rolle zu Coronaleugner*innen? Es geht uns also um die bewusste Verwendung von Begriffen, die in ihrem Kontext nicht als „neutral“ intendiert sind, sondern Sachverhalte mit Konnotationen überlagern, Personen oder Gruppen bewerten u.dgl. Dieses Glossar erstellen wir korpusbasiert, auf Grundlage von digitalen oder (in geringem Maße) gedruckten Publikationen, die wir in Subdiskurse gliedern. Ziel ist es, die aufzunehmenden Stichworte 4 sowohl statistisch als auch qualitativ zu analysieren und kurze Glossareinträge zu erstellen, die wir dann im Rahmen einer Web App (Simmel 2022) bereitstellen. 5 Damit das Vorhaben nicht ausufert, beschränken wir uns auf Nominalkomposita aus zwei Gliedern, wobei das erste stets Klima ist- - wir sammeln also Komposita der Form Klima-X. Nach einem kurzen Exkurs zur Kompositabildung besprechen wir unser Vorgehen bei der Korpuserstellung, der Extraktion der Klima-X-Komposita und schließlich der Abfassung der Glossareinträge. Eine Zusammenfassung mit Ausblick beschließt den Beitrag. 1.2 Linguistischer Hintergrund: Nominalkomposita Die Komposition erlaubt uns nach Schlücker (2012), neue Bezeichnungen für Konzepte und Subkonzepte zu generieren-- also die Dinge beim Namen zu nennen, wie etwa bei Klimaskeptiker*innen oder Klimaaktivist*innen. Dabei werden komplexe textuelle Zusammenhänge sprachökonomisch komprimiert. In den hier behandelten Diskursen dienen sie außerdem der ironischen Übertreibung, wie Klimasau (Bezeichnung für Umweltverschmutzer*innen) oder Klimapapst (Bezeichnung für prominente Klimaforscher) zeigen. Nach Eisenberg (2006) sind Substantivkomposita, also Komposita mit einem Substantiv als Grundwort, der verbreitetste Worttyp des Deutschen. Ihre Bildung unterliege keinen formalen Restriktionen außer einem möglichen Fugenelement zwischen den Konstituenten. Knapp 73% der Substantivkomposita kommen jedoch laut Eisenberg (ebd., S.-236) ohne Fuge beziehungsweise mit einer sogenannten Nullfuge aus, so auch alle Formen aus dem Korpus unserer Arbeit. Zu den Gründen der Nullfuge siehe auch Schlücker (2012); für eine semantisch orientierte Analyse verweisen wir auf Fanselow (1981). Zur Frage der Schreibweise äußert sich der Rat für deutsche Rechtschreibung als präskriptives Organ eindeutig: „Substantive, Adjektive, Verbstämme, Pronomen 4 Wir verwenden in diesem Beitrag „Stichwort“ für die Einträge in unserem Glossar, „Begriff “ für semantisch abstrakte Einheiten, und „Wort“ für sprachliche Realisierungen von Begriffen, sowohl als Types oder als Tokens. 5 www.klimadiskurs.info (Stand: 17.4.2023). <?page no="219"?> Der reine Klimawahnsinn! 219 oder Partikeln können mit Substantiven Zusammensetzungen bilden. Man schreibt sie ebenso wie mehrteilige Substantivierungen zusammen“ (Leibniz-Institut für Deutsche Sprache 2018, § 37). Eine Schreibung mit Bindestrich ist nur in Ausnahmefällen erlaubt: Bei sehr komplexen Zusammensetzungen aus mehr als drei Stämmen, zur Auflösung von Ambiguitäten, oder wenn drei gleiche Buchstaben aufeinandertreffen (ebd., § 45). Dennoch sind im Alltag, vor allem in der Werbung und in informellen Texten, in vielen weiteren Fällen Bindestriche zwischen den Wortstämmen in Komposita zu finden. In der ersten, unbereinigten Wortliste von Goecke (2021) enthalten 39% aller Wörter (Types) einen Bindestrich und 27% ihrer Types sind zusätzlich in der Zusammenschreibung vertreten. Sogar stark lexikalisierte Begriffe wie Klimawandel, Klimaschutz oder Klimakrise sind in beiden Varianten zu finden. Für unsere Arbeit am Glossar schreiben wir alle Komposita gemäß dem Rat für deutsche Rechtschreibung ohne Bindestrich. 2. Korpuskonstruktion: Subdiskurse 2.1 Subdiskurse im Klimawandeldiskurs In der Bevölkerung sind die Haltungen zum Klimawandel vielfältig, lassen sich aber doch relativ klar gruppieren. Sie bewegen sich im Spektrum zwischen den Polen von überzeugtem Glauben, Zweifel und Ignoranz. Die Szene der Klimaleugner*innen, 6 welche rundheraus ablehnen, dass derzeit ein menschengemachter Klimawandel stattfindet, und dementsprechend keinerlei Anlass zur Beunruhigung sehen, hat in den letzten Jahren merklich an Sichtbarkeit verloren. Eine weniger radikale Gruppe sind die Klimaskeptiker*innen, die den menschlichen Einfluss für nicht maßgeblich halten und/ oder das Problem generell als überschätzt erachten. Auf der anderen Seite stehen die Klimaaktivist*innen, die die Erderwärmung als drängendstes Problem unserer Zeit einschätzen und die aktuellen politischen Handlungsmuster für unzureichend halten. Damit assoziiert sind Akteur*innen, die sich der Aufgabe widmen, die Öffentlichkeit fundiert zu informieren, ohne unbedingt selbst politisch aktiv zu werden, etwa Wissenschaftler*innen oder Journalist*innen. Selbstverständlich sind dies in der Praxis keine klar trennbaren Kategorien, sondern ein Spektrum; nichtsdestotrotz stellt die Annahme zweier unterschiedlich großer, jedoch im Widerstreit stehender Gruppierungen keine grobe Vereinfachung dar, zumal sich die beiden Positionen an den „Polen“ des Spektrums am aktivsten in den öffentlichen Diskurs einbringen. 7 Wir legen diese Zweiteilung für unsere Arbeit deshalb eben- 6 Diese Komposita zur Bezeichnung von Bevölkerungsgruppen mit bestimmten Überzeugungen haben sich „eingebürgert“, sind aber natürlich verkürzte Formen. Richtig wäre in diesem Beispiel etwa Klimawissenschaftsleugner*innen. 7 Die unterschiedlichen Größen der Gruppen lassen sich z. B. an einer Erhebung des ZDF Politbarometer aus dem Jahr 2019 erkennen, wonach 13% der Befragten glaubten, in Deutschland werde zu viel für den Klimaschutz getan; 63% hielten es demgegenüber für zu wenig. <?page no="220"?> Manfred Stede/ Anna-Janina Goecke/ Noël Simmel/ Birgit Schneider 220 falls zugrunde und bilden dementsprechend für Klimaaktivist*innen und für Klimaskeptiker*innen jeweils ein Textkorpus, das den jeweiligen Subdiskurs repräsentieren soll. In das Korpus der Aktivist*innen integrieren wir tentativ auch zwei informationsorientierte Portale, die zwar nicht im engeren Sinne politisch aktiv sind, sich aber dem Klimaschutz verschrieben haben und dazu Aufklärungsarbeit betreiben. Zur Vorbereitung der Konstruktion des Korpus und um einen ersten Überblick über den Gebrauch der Klima-X-Komposita zu erhalten, haben wir in einem ersten Schritt zwei Websites analysiert, die aus unserer Sicht den aktuellen Diskurs der beiden- Lager exemplarisch abbilden. Die Wahl fiel auf das Institut EIKE 8 für die Klimaskeptiker*innen und die deutsche Website der Bewegung Fridays For Future 9 (FFF) für die Aktivist*innen. Das selbsternannte „Europäische Institut für Klima und Energie e. V.“ zielt darauf ab, die Idee eines menschengemachten Klimawandels mittels naturwissenschaftlicher Belege als Schwindel zu enttarnen und der Bevölkerung wissenschaftlich fundierte Informationen für diese Sicht bereitzustellen. Die FFF-Bewegung, die sich für ein massiv höheres Tempo bei der Umsetzung der Energiewende einsetzt, wurde ursprünglich von Schüler*innen und Studierenden begründet und hat sich seither in unterschiedliche Berufsgruppen ausgeweitet. Im Zuge dieser Recherche haben wir eine vorläufige Liste von Klima-X-Komposita erstellt, die (nach unserer Interpretation) mit einer bestimmten Konnotation behaftet sind und nicht ausschließlich „neutral“ gebraucht werden oder für manche in der Diskussion nicht als neutral, sondern als alarmistisch rezipiert werden. Beispiele sind Komposita wie Klimahysterie und Klimafanatismus. Als „Pilot“ haben wir für einige Komposita eine vorläufige Kurzdefinition von 4-5 Sätzen erstellt. Während dieser Arbeiten hat sich unsere ursprüngliche Hypothese bestätigt, dass die beiden Korpora jeweils eine ganze Reihe unterschiedlicher Komposita beinhalten, denen eine politisch motivierte Prägung, u. a. für die Fremdzuschreibung der jeweils „anderen“ Gruppe, zukommt. 2.2 Konstruktion eines Klimadiskurs-Korpus Für die Extraktion der Textdaten aus den beiden Websites (sowie aller unten genannten) haben wir das Tool Trafilatura (Barbaresi 2021) verwendet, welches die Seiten rekursiv durchläuft und die Inhalte als Textdateien im „plaintext“-Format abspeichert. Diese Textdateien haben wir mittels des Pakets Quanteda (Benoit et al. 2018) in R zu einem Korpus zusammengefasst. Für die beiden Subdiskurse wurde jeweils ein eigenes Korpus erstellt, um die spätere Weiterverarbeitung und Auswertung zu erleichtern. 8 https: / / eike-klima-energie.eu (Stand: 17.4.2023). 9 https: / / fridaysforfuture.de/ (Stand: 17.4.2023). <?page no="221"?> Der reine Klimawahnsinn! 221 Bei der Bearbeitung der EIKE- und FFF-Texte zeigte sich schnell, dass die Datenmengen sich deutlich unterscheiden: Die von EIKE ausgelesenen Daten umfassten 14.000 Texte, während sich von Fridays For Future lediglich etwa 500 Texte extrahieren ließen. Aus diesem Grund, und um insgesamt das Spektrum der Datenquellen zu erhöhen, haben wir beide Korpora mit der Extraktion weiterer Websites angereichert. Für die Seite der Aktivist*innen waren dies die Websites der Organisationen GermanZero, Gerechte 1 Komma 5, Farn sowie das Institut für Klimaschutz und Mobilität e. V. (IKEM); dazu aus der o. g. Gruppe der Kommunikationsakteur*innen die journalistischen Projekte Klimareporter und Klimafakten. Das Korpus der skeptischen Seite haben wir um Texte des Magazins Compact-Spezial 15 zum Thema Klimawandel sowie eines Blogs namens Klimaschwindel erweitert. Im Zuge der Vorverarbeitung der Textdaten für die beiden Korpora wurden alle nicht-deutschsprachigen Texte entfernt. Final beinhaltet das Korpus der Klimaaktivist*innen (P2022) insgesamt 2.297 Texte mit 1.235.021 Tokens mit einer durchschnittlichen Textlänge von 24,5 Sätzen. Das Korpus der Klimaskeptiker*innen (C2022) umfasst 2.045 Texte mit 3.190.338 Tokens und einer durchschnittlichen Textlänge von 75,9 Sätzen. Tabelle-1 gibt einen Überblick. Korpus Subdiskurs Tokens ∅ Sätze pro Text Quelle URL Anzahl an Texten aus Quelle P2022 Klimaaktivisten 1.235.021 24.5 IKEM Gerechte 1 Komma 5 Fridays for Future (DE) Klimafakten Klimareporter German Zero Farn https: / / www.ikem.de/ https: / / gerechte1komma5.de https: / / fridaysforfuture.de https: / / www.klimafakten.de https: / / www.klimareporter.de https: / / www.germanzero.de https: / / www.nf-farn.de 1.312 18 506 36 82 46 297 C2022 Klimaskeptiker 3.190.338 75.9 EIKE Compact Klimaschwindel https: / / eike-klima-energie.eu Compact-Spezial-15: Klimawandel-- Fakten gegen Hysterie https: / / klimaschwindel.net 2000 31 14 Tab.-1: Überblick über die Zusammensetzung der beiden Korpora Die manuelle Analyse eines kleinen Ausschnitts der Korpora im Hinblick auf die verwendeten Textsorten zeigt, dass das P2022-Korpus viele Aufforderungen oder Appelle wie (1) enthält, oder auch kurze Statements wie beispielsweise (2). (1) „Hi! Wir sind die Ortsgruppe Magdeburg von Fridays for Future. Wir setzten uns in Magdeburg, gemeinsam mit Aktivisten aus der ganzen Welt, seit Februar 2019 für eine gerechte Klimapolitik ein. Aktionstermine 07.06. 15 Uhr Wo? Was? Wir planen unsere nächsten Aktionen und du kannst mitmachen! Wir freuen uns auf dich und deine Ideen. : ) 04.06. 15 Uhr Wo? Stadtpark/ Sternbrücke Was? Vorfahrt fürs Klima. Maskenpflicht und Abstand einhalten! “ (Quelle: https: / / fridaysforfuture.de, Stand: 17.4.2023) <?page no="222"?> Manfred Stede/ Anna-Janina Goecke/ Noël Simmel/ Birgit Schneider 222 (2) „Das Fit-for-55-Paket betrifft fast alle Bereiche von Europas Wirtschaft und wird das Leben der Bürger verändern: Wir werden anders heizen, fahren und konsumieren. Das zeigt, wie ernst die Von-der-Leyen-Kommission den Klimaschutz nimmt. Doch nicht alles, was sie plant, ist sinnvoll oder wird sich so durchsetzen lassen.“ (Quelle: www.klimareporter.de, Stand: 17.4.2023) Außerdem finden sich dort Berichte und Verlinkungen von Fachartikeln sowie Kommentare. Im C2022-Korpus hingegen sind deutlich mehr Fachartikel und Leserbriefe zu finden, also Textsorten, die typischerweise durch längere Textpassagen charakterisiert sind. 3. Die Wortmenge: Klima-X-Komposita 3.1 Vorverarbeitung und Identifikation der Klima-X-Komposita Für die frequenzbasierte Gewinnung der Klima-X-Komposita aus den genannten Korpusdaten haben wir die Textdaten in R vorverarbeitet und dabei auch lemmatisiert. Mittels einer Document-Feature-Matrix wurden die Textdaten der Korpora nach dem Wortmuster „KlimaX“ gefiltert und als Wortliste abgespeichert. Diese erste Wortliste enthält 2.967 Klima-X-Wörter, die als potenzielle Kandidatenmenge für das Diskursglossar fungieren. Da gemäß dem einfachen Filterkriterium in dieser Liste auch Wörter anderer Wortarten, etwa klimapolitisch, vorkommen, führten wir in einem nächsten Schritt eine halbautomatische Bereinigung der Wortliste durch. 3.2 Bereinigung der Wortliste Vor der Erstellung des eigentlichen Glossars wurde die oben genannte erste Wortliste in mehreren Schritten bereinigt (Simmel 2022). Zunächst haben wir automatisiert alle Wörter entfernt, die ein Sonderzeichen (ausgenommen Bindestriche) enthalten, um zu gewährleisten, dass Formate wie Internetadressen (klimaretter.info), Formen der gendergerechten Schreibung (klimaschützer_innen) oder Anführungszeichen als Teil ironischer Hervorhebungen („klimapolitik“-gebilde) von der Liste ausgeschlossen werden. Zusätzlich wurden auch Wörter mit Ziffern entfernt. Um etwaige Fehler der Lemmatisierungssoftware zu prüfen, haben wir die verkleinerte Liste anschließend noch einmal manuell durchgesehen und dabei alle verbliebenen flektierten Formen ausgeschlossen. Bei Personenbezeichnungen wurden in Anlehnung an den Duden sowohl die maskuline als auch die feminine Form (sofern vorhanden) übernommen. Ein nicht formaler, sondern inhaltlich motivierter Schritt bestand darin, nach Augenmaß alle neutralen, also nicht an sich politisch oder emotional aufgeladenen, Bezeichnungen wie Klimawandel, Klimaschutz oder Klimajournalismus zu entfernen. www.klimareporter.de. <?page no="223"?> Der reine Klimawahnsinn! 223 Die so entstandene neue Wortliste mit 981 Begriffen haben wir anschließend mit den Textkorpora der Subdiskurse verglichen und dabei abermals reduziert. Unser erstes Kriterium ist Frequenz: Wörter, die mindestens zweimal in den Korpora vorkommen, beließen wir in der Liste. Um aber auch aktuellere Wortschöpfungen zu berücksichtigen, haben wir in diesem Schritt zusätzlich Twitter als Informationsquelle herangezogen und dasselbe Kriterium angewandt; d. h. ein Kompositum, das nur einmal im Korpus auftritt, jedoch mehrfach auf Twitter, verbleibt ebenfalls in der Liste. In einem weiteren Schritt wurde die Liste mit der Onlineversion des Duden 10 abgeglichen. Klima-X-Komposita, die bereits im Duden verzeichnet und damit hinreichend belegt sind, haben wir größtenteils entfernt; in der Liste verblieben aber die Wörter Klimaaktivismus, Klimaaktivistin und Klimaaktivist, da diese für das Anliegen des Glossars und als Gegenpol zu den Begriffen Klimaskeptiker und Klimaleugner wichtig sind. Ein zweiter zentraler Aspekt des Duden-Abgleichs bestand darin, nur die Komposita in der Liste zu behalten, deren zweite Nominalkonstituente selbst im Duden zu finden ist. Auf diese Weise sollten komplexe Komposita (bestehend aus mehr als zwei Konstituenten, etwa Klimaleugnergeschichten) aussortiert werden, sofern der auf „Klima“ folgende Wortteil nicht bereits selbst lexikalisiert ist. Als finale Wortliste präsentieren wir auf der Website des Glossars 248 Klima-X- Komposita, wobei 200 Stichwörter ausschließlich im Korpus der Klimaskeptiker*innen, 13 nur in dem der Klimaaktivist*innen sowie 35 in beiden Korpora verwendet werden. 3.3 Auswertung: Gebrauchshäufigkeit Um einen Eindruck von der unterschiedlichen Relevanz der Komposita zu gewinnen, führten wir eine frequenzbasierte Analyse der Korpusdaten durch. Hierfür erstellten wir für die beiden Korpora jeweils eine Liste der 50 häufigsten Klima- X-Wörter, die wir dann miteinander sowie mit unserer finalen Liste der Klima-X- Komposita verglichen. Komposita wie Klimawandel, Klimaschutz und Klimapolitik sind beispielsweise Begriffe, die aufgrund ihrer neutralen Konnotation und ihres eher informativen Charakters in vielen Texten über den Klimawandel auftauchen und daher auch in beiden Subdiskursen zu finden sind. Ein Abgleich der Frequenzen dieser Wörter mit dem online zugänglichen Webkorpus des DWDS 11 zeigt: Der Begriff Klimawandel hat dort einen Frequenzwert von 102.616, Klimaschutz von 75.128 und Klimapolitik von 7.891. In Kontrast dazu sind die Klima-X-Komposita, mit denen wir uns in diesem Projekt befassen, deutlich seltener. Da wir der Annahme folgen, dass Begriffe, die von beiden Subdiskursen kontinuierlich im Diskurs über den Kli- 10 www.duden.de (Stand: 17.4.2023). 11 www.dwds.de/ d/ korpora/ web (Stand: 17.4.2023). <?page no="224"?> Manfred Stede/ Anna-Janina Goecke/ Noël Simmel/ Birgit Schneider 224 mawandel geäußert werden, eine weitgehend sachliche Bedeutung tragen und keine überspitzte oder „geladene“ Funktion erfüllen, wurden diese Wörter von der weiteren Analyse ausgeschlossen. Komposita, die nur von einem der beiden Subdiskurse verwendet werden, sind für unser Anliegen von besonderem Interesse. Hierzu zählen Komposita wie Klimawahn, Klimafreundin, Klimaverbrecher und Klimarealismus. Tabelle-2 zeigt diejenigen Top-10-Komposita in den beiden Korpora, die auch in unserer Glossar-Liste enthalten sind, mit zusätzlicher Angabe ihrer Frequenz im DWDS-Korpus. Top Klimaaktivisten (DWDS Webkorpus) Klimaskeptiker (DWDS Webkorpus) 1 2 3 4 5 6 7 8 9 10 Klimagerechtigkeit (1559) Klimaaktivist (641) Klimaleugner (883) Klimaktivistin (565) Klimarettung (446) Klimakanzlerin (387) Klimapäckchen (44) Klimanotstandsregierung (0) Klimahysterie (682) Klimaretter (950) Klimaleugner (883) Klimaskeptiker (1248) Klimakirche (88) Klimahysterie (682) Klimarettung (446) Klimaretter (950) Klimareligion (321) Klimawahn (243) Klimaalarm (160) Klimaschwindel (629) Tab.-2: Die 10 häufigsten Klima-X-Komposita in den Subdiskursen (nach Frequenz geordnet), welche auch in unserem Glossar zu finden sind. In Klammern stehen die Frequenzen im DWDS-Webkorpus Um neben den reinen Frequenzwerten die Relevanz der Klima-X-Komposita unserer finalen Wortliste für das Korpus genauer zu charakterisieren, haben wir zusätzlich je Subkorpus die TF-IDF-Werte der Wörter berechnet. Die Ergebnisse (siehe Abb.- 1) untermauern die Beobachtung, dass bestimmte Klima-X-Wörter gehäuft innerhalb eines Subdiskurses genutzt werden. Unter den Komposita, die im Korpus der Klimaaktivist*innen einen hohen TF-IDF-Wert erhalten, finden sich positiv konnotierte wie Klimagerechtigkeit und Klimadiplomatie, sowie Begriffe, die im Zusammenhang mit der Dringlichkeit des Handelns stehen, darunter Klimazerstörung und Klimanotstandsregierung. Im Korpus der Klimaskeptiker*innen hingegen sind Komposita wie beispielsweise Klimaleugner, 12 Klimahysterie und Klimalüge deutlich relevanter. 12 Dieser Befund ist auf den ersten Blick überraschend; wir gehen in Abschnitt-4 nochmals darauf ein. <?page no="225"?> Der reine Klimawahnsinn! 225 Subdiskurs TF-IDF TF-IDF Werte pro Subdiskurs Ak�visten Skep�ker 0.000 Klimagerech�gkeit Klimaak�vist Klimaak�vis�n Klimaskep�ker Klimaleugner Klimapäckchen Klimare�er Klimaak�vismus Klimare�ung Klimazerstörung Klimakonsens Klimahysterie Klimakanzlerin Klimagnom Klimakommissar Klimakonsor�um Klimaasyl Klimagau Klimagefahr Klimafreundlichkeit Klimazerstörung Klimare�erin Klimaverbrechen Klimachaos Klimagerech�gkeit Klimanotstandsregierung Klimadiploma�e Klimalüge Klimafreundin Klimafreund 0.025 0.050 0.100 0.075 Abb.-1: Klima-X-Komposita aus dem Glossar (Auszug) und ihre TF-IDF Werte: Vergleich zwischen den Subdiskursen 4. Von Korpora zu Glossareinträgen Nachdem wir die Konstruktion unserer Liste von Klima-X-Komposita beschrieben haben, wenden wir uns nun der Formulierung konkreter Glossareinträge zu. Wir erläutern zunächst den grundsätzlichen Aufbau und dann unser Vorgehen bei der Analyse von Verwendungskontexten für die Erstellung der Beschreibungen. 4.1 Aufbau der Glossareinträge Die Einträge unseres Glossars sollen den Nutzer*innen einen kurzen, informativen Überblick über ein Stichwort und seine Verwendung im Diskurs über den Klimawandel geben. 13 In den meisten Fällen beginnen wir mit einer knappen Definition und beschreiben anschließend unsere Beobachtungen zur Nutzung des Kompositums in den Subdiskursen, wobei Fragen wie diese beantwortet werden sollen: Kann das Wort einem unserer beiden Subdiskurse klar zugeordnet werden? Wird das Kompositum als Fremd- oder Selbstzuschreibung der Teilnehmer*innen im jeweiligen Subdiskurs verwendet? Lassen sich aus den Kontexten des Kompositums Beobachtungen zur Verwendung, insbesondere spezielle Konnotationen, ableiten? Zur Illustration geben wir anschließend eine Reihe von Beispielsätzen aus den Korpusdaten an, sowie zusätzlich Fundstellen aus dem tagesaktuellen Diskurs auf Twitter. 13 Die Formulierung von Glossareinträgen begann mit den Arbeiten von Goecke (2021) und Simmel (2022) und wird seither von uns kontinuierlich fortgeführt. <?page no="226"?> Manfred Stede/ Anna-Janina Goecke/ Noël Simmel/ Birgit Schneider 226 4.2 Korpusevidenz: Kontextanalyse zur Definitionsbildung Um die Verwendung eines Kompositums in seinem Kontext abbilden zu können, untersuchte Goecke (2021) beide Subdiskurse mit Hilfe von korpusbasierten Techniken. Dazu zählt die Keyword-in-Context-Analyse (KWIC), welche ein gesuchtes Schlüsselwort im Kontext der jeweils umgebenden Wörter ausgibt. Dieser Kontext vermittelt einen guten Überblick über die Verwendung des Wortes und liefert etwa Hinweise zur Haltung einer Autorin gegenüber dem zugrundeliegenden Konzept. Eine exemplarische Analyse des Kompositums Klimaleugner zeigt, dass dieses Wort, welches man zunächst vorwiegend als Fremdzuschreibung im „aktivistischen“ Korpus vermuten könnte, deutlich höher frequentiert im „skeptischen“ Korpus nachgewiesen werden kann. Anhand einer KWIC-Analyse stellten wir fest, dass das Kompositum von Seiten der Klimaskeptiker*innen weitgehend in Anführungszeichen gesetzt und damit in einem überspitzten Sinne als Selbstzuschreibung verwendet wird. Hier finden wir beispielsweise Sätze wie (3) oder (4): (3) „Wer selber denkt oder Pluralismus fordert, wird als „Klimaleugner“ der Lächerlichkeit preisgegeben.“ (Quelle: https: / / eike-klima-energie.eu, Stand: 17.4.2023) (4) Jetzt kämpfen die Protagonisten nicht mehr in erster Linie auf der Grundlage von empirisch begründeten Erkenntnissen um die Wahrheit, sondern die Guten müssen jetzt vorrangig die Bösen abwehren, also die gern als „Klimaleugner“ oder „Klimaskeptiker“ bezeichneten Klimarealisten oder Klimawandelrealisten. (Quelle: https: / / eike-klima-energie.eu, Stand: 17.4.2023) Begriffskontexte lassen sich weiterhin durch die Untersuchung von Kollokationen durch Extraktion von N-Grammen explorieren. Dies kann ein nützliches Instrument für die rasche Identifikation von typischen semantischen Relationen zwischen Schlüsselwort und Kontextwörtern sein. Für das Kompositum Klimakrise erhalten wir mit einer Bigramm-Analyse exemplarisch folgende Kollokationen im „aktivistischen“ Subdiskurs: „betroffen“, „aufmerksam“, „menschengemacht“, „voranschreitend“, „global“. Für den „skeptischen“ Subdiskurs hingegen finden sich folgende Kollokationen: „angeblich“, „dramatisch“, „erfinden“, „imaginär“, „herbeigeredet“, „beherrschbar“. Diese Kollokationen geben bereits Aufschluss über die Verwendung des Kompositums in den Subdiskursen und suggerieren, dass Klimaaktivist*innen auf eine Bedrohung aufmerksam machen wollen, während Klimaskeptiker*innen die Klimakrise als nicht ernstzunehmendes Problem darstellen. Freilich ergibt eine solche Kollokationsanalyse keineswegs ein vollständiges Bild und kann daher nur ein Baustein einer genaueren qualitativen Verwendungsanalyse sein, die dann auch die oben genannte KWIC-Darstellung einbezieht. Beispielsweise kann eine N-Gramm-Zählung „verschleiern“, dass die Verwendung eines Kompositums im Kontext sarkastisch gemeint ist oder dass es sich lediglich um <?page no="227"?> Der reine Klimawahnsinn! 227 ein Zitat des jeweils anderen Subdiskurses handelt. Eine manuelle Durchsicht bleibt daher unerlässlich, wenn wir den Glossareintrag für ein Klima-X-Kompositum erstellen. Abbildung- 2 zeigt exemplarisch den Glossareintrag für das Stichwort Klimaleugner (Stand: 7.8.2022). Klimaleugner Definition Als „Klimaleugner“ werden Personen bezeichnet, die die Existenz eines menschengemachten Klimawandels abstreiten. Sie stellen den menschlichen Anteil am Klimawandel in Frage und sehen ihn als etwas Natürliches und Unvermeidbares. Sie akzeptieren die Sonnenaktivität als Ursache des Klimawandels und vertreten die Annahme, dass es Klimaschwankungen schon immer gab. Zur Szene der Klimaleugner*innen zählen hauptsächlich Mitglieder rechtspopulistischer Parteien (z. B. AfD, WerteUnion) und die Organisation EIKE. Diese Bezeichnung wird als Fremdzuschreibung verwendet und trägt eine negative Konnotation. Beispielsätze (1)- Auf der anderen Seite stehen die erzbösen Klima-Leugner aus der dunklen fossilen Ecke, die nichts anderes im Schilde führen, als den Lichtgestalten ans Leder zu gehen. (2)- Wir planen Scheiterhaufen für Klima-Schädlinge und Klimaleugner , denn wir sind schließlich Spezialisten (3)-Mit Webinaren rund um den Klimawandel treten wir Klimaleugner*innen und fehlender Klimabildung in den Schulen entgegen und organisieren uns eigene, fakten-basierte, informierte Klima-Gesellschafts-Krisen-Bildung (4)-Das werden wir nicht zulassen und rufen ganz Europa dazu auf mit uns auf die Straße zu gehen, damit Klimaleugner*innen , Bremser und die „Ja, aber“-Fraktionen aus den Parlamenten rausgewählt werden. Tweets (1)-@Delion_Delos @reitschuster Ihr Querdenker/ Klimaleugner/ Putinknechte und sonstiges AfD-nahes Gesindel lügt und betrügt wie gedruckt … an unzähligen Beispielen auf FB und Twitter zu sehen … (2)- @LViehler So ist es! Und die 6,3% die das nicht möchten, sind Nazis, Reichsbürger, Querdenker, Coronaleugner oder sonstige Staatsfeinde. (3)-@knuff37 @Dunkelzimmer101 @Dr_GackGack Haben Sie nicht. Woher auch? Woher sollten Klimaleugner1, Querdenker und Putinkriecher verlässliche Quellen haben? (4)- @CarloMasala1 Unsere Putin-Freunde, Klimaleugner und Querdenker vereinen verschiedene psychologische Eigenschaften wie Paranoia und Größenwahn elegant miteinander. Abb.-2: Glossareintrag für das Kompositum „Klimaleugner“ 5. Zusammenfassung und Ausblick Neben der rein faktischen Information, die in vielen bereits existierenden Glossaren vermittelt wird, halten wir für ein Thema wie den Klimawandel auch die Beobachtung der Verwendung von Wörtern, die wertend oder anderweitig konnotiert sind, für bedeutsam, um den stets auch politisch motivierten Diskurs zu beschreiben. Unser Glossar macht dazu einen Vorschlag, der auf der Bildung von zwei Korpora und ihrer teilautomatischen Analyse beruht- - wobei die Abfassung der Einträge letztendlich aber ein Unterfangen menschlicher Autor*innen bleibt, die ihrerseits natürlich nur versuchen können, die Begriffsbeschreibungen selbst so wertfrei wie möglich zu gestalten. <?page no="228"?> Manfred Stede/ Anna-Janina Goecke/ Noël Simmel/ Birgit Schneider 228 Unser Klimaglossar ist als Web-App unter www.klimadiskurs.info (Stand: 17.4.2023) verfügbar. Es kann nach einem bestimmten Kompositum durchsucht oder ein zufällig ausgewähltes Kompositum angezeigt werden. Außerdem stehen sowohl die Stichwortliste, als auch alle Glossarinformationen im JSON-Format zum Download zur Verfügung. Einstweilen liegen nur für einen Teil der gelisteten Komposita auch Glossarinhalte vor, die Erstellung weiterer Beschreibungen mit Definition sowie Beispielsätzen aus dem Korpus und von Twitter geschieht fortlaufend. Die Twitter- Daten dienen hierbei der tagesaktuellen Beobachtung des Diskursgeschehens auch außerhalb unserer abgespeicherten Korpora. Da perspektivisch weitere Neuschöpfungen im Bereich der Klima-X-Komposita im Sprachgebrauch auftauchen werden, sollen unser Glossar und das zugrundeliegende Korpus dynamisch wachsen können. Für die Vergrößerung der Liste besteht auf der Website für die Nutzer*innen die Möglichkeit, Vorschläge für weitere Klima-X- Komposita einzureichen. Das Textkorpus können wir mit Hilfe von R-Skripten um neue Textdaten erweitern und die neuen Korpusdaten nach bisher ungesehenen Klima-X-Komposita Kandidaten durchsuchen. Diese können dann in das Glossar integriert werden, wobei die Extraktion von Beispielsätzen und ersten Informationen zur Definitionsbildung (Frequenzen) aus den erweiterten Korpusdaten automatisch erfolgt. Der Klimawandel ist in der Gesellschaft ein umkämpftes Thema, weil die dahinterstehende Wissenschaft politische Entscheidungen als notwendig begründet, die tiefgreifende Auswirkungen auf die gewohnte Lebensweise der Industriegesellschaften haben. Die Vielfältigkeit der Stichwörter im Glossar steht dafür, wie rege und sprachlich kreativ dieser Diskurs außerhalb der Wissenschaft geführt wird, wo Nominalkomposita eine „Währung“ für Aufmerksamkeiten sind, da sie abkürzende, griffige Wertungen transportieren können. Dies gilt umso mehr für die Gruppe der Klimawissenschaftsskeptiker*innen, weil diese ihre Meinung als Minderheit entgegen der Sicht einer Mehrheit umso mehr behaupten möchte. Im Zuge all dieser Argumentationen werden neue Komposita gebildet und die Inhalte der bestehenden Komposita können sich-- oft unmerklich-- verschieben. Diesen Bedeutungswandel der Komposita über die Zeit zu analysieren (Pölitz et al. 2015), stellt eine zentrale und auch linguistisch hochinteressante Aufgabe für unsere weiteren Aktivitäten rund um das Glossar dar. Literatur Barbaresi, Adrien (2021): Trafilatura: a web scraping library and command-line tool for text discovery and extraction. In: Ji, Heng/ Park, Jong C./ Xia, Rui (Hg.): Proceedings of the 59th annual meeting of the Association for Computational Linguistics and the 11th international joint conference on natural language processing: system demonstrations (Online- Konferenz), August 2021. Association for Computational- Linguistics,- S.- 122-131. https: / / aclanthology.org/ 2021.acl-demo.15 (Stand: 17.4.2023). <?page no="229"?> Der reine Klimawahnsinn! 229 Benoit, Kenneth/ Watanabe, Kohei/ Wang, Haiyan/ Nulty, Paul/ Obeng, Adam/ Müller, Stefan/ Matsuo, Akitaka (2018): quanteda: an R package for the quantitative analysis of textual data. In: Journal of Open Source Software-3,-30, 774. Eisenberg, Peter (2006): Grundriss der deutschen Grammatik. Bd.-1: Das Wort. 3.,-durchges. Aufl. Stuttgart: Metzler. Fanselow, Gisbert (1981): Zur Syntax und Semantik der Nominalkomposition. Ein Versuch praktischer Anwendung der Montague-Grammatik auf die Wortbildung im Deutschen. (=-Linguistische Arbeiten-107). Tübingen: Niemeyer. Goecke, Anna-J. (2021): Discourse-oriented German climate change glossary. Seminararbeit, Cognitive Systems. Potsdam: Universität Potsdam. Leibniz-Institut für Deutsche Sprache (2018): Deutsche Rechtschreibung: Regeln und Wörterverzeichnis. Aktualisierte Fassung des amtlichen Regelwerks entsprechend den Empfehlungen des Rats für deutsche Rechtschreibung 2016. Mannheim 2018. https: / / grammis. ids-mannheim.de/ rechtschreibung/ . Pölitz, Christian/ Bartz, Thomas/ Morik, Katharina/ Storrer, Angelika (2015): Investigation of word senses over time using linguistic corpora. In: Král, Pavel/ Matoušek, Václav (Hg.): TSD 2015: Proceedings of the 18th international conference on text, speech, and dialogue. Pilsen, Czech Republic, September 14-17 2015. (=-LNAI 9302). Cham: Springer, S.-191-198. DOI: 10.1007/ 978-3-319-24033-6 22. Schlücker, Barbara (2012): Die deutsche Kompositionsfreudigkeit: Übersicht und Einführung.- In: Gaeta, Livio/ Schlücker, Barbara (Hg.): Das Deutsche als kompositionsfreudige Sprache: Strukturelle Eigenschaften und systembezogene Aspekte. (=- Linguistik- - Impulse- & Tendenzen 46). Berlin/ Boston: De Gruyter, S.- 1-26. https: / / doi.org/ 10.1515/ 9783110278439. Simmel, Nöel (2022): Klimaretter oder Klimaspinner? Entwicklung einer Web-App zum Klimawandeldiskurs. B.Sc.-Arbeit, Computerlinguistik. Potsdam: Universität Potsdam. <?page no="231"?> GISELA ZIFONUN KORPUSBEFUNDE UND GRAMMATIK AM BEISPIEL DES GENITIVS IM DEUTSCHEN Abstracts : Der Beitrag setzt sich aus der Sicht einer Grammatikerin mit zwei am Leibniz-Institut für Deutsche Sprache (IDS) durchgeführten korpusgrammatischen Studien zum Genitiv im Deutschen auseinander: einer Studie zur Wahl des s-Markers in der starken Substantivflexion und einer Studie zu Sonderfällen des Genitivattributs. Dabei werden die Stärken der Vorgehensweise gewürdigt; es wird jedoch auch deren zwiespältige Beziehung zu etablierten systemgrammatischen Regularitäten diskutiert. The contribution discusses two corpus grammatical studies on the genitive case in German undertaken at the „Leibniz Institute for the German Language“ (IDS) from the viewpoint of a grammarian: a study dealing with the choice between the s-markers in the strong declension and a study dealing with special cases of the genitive attribute. The qualities of the approach are appreciated, but its ambivalent relationship with established regularities of the grammatical system is debated as well. Keywords : Genitivmarker, schwache/ starke Faktoren, Neologismus, Fremdwort, Pluralbildung, Genitivregel, pränominal eingebettetes Genitivattribut, Schwa-Regel 1. Einleitung Der Kasus Genitiv ist im Deutschen ein besonders interessanter Fall. Das betrifft die genitivische Flexionsmorphologie der deklinierbaren Wortklassen, also Substantiv, Adjektiv, Pronomen und Artikel, jeweils für sich betrachtet wie in der ganzen Nominalphrase, aber auch die Syntax von Phrasen im Genitiv. Dabei dürfte, was Letzteres angeht, das Wissen über das Genitivobjekt bzw. Genitivkomplement als weitgehend gesichert gelten. Sein allmählicher Rückgang wie der gegenwärtig fossilisierte Zustand sind gut erforscht und dokumentiert. Dagegen sind die Genitivmorphologie und das Genitivattribut nach wie vor beliebte und kontrovers diskutierte Themen der Forschung. Das ist vor allem der Tatsache geschuldet, dass hier offensichtlich aktueller Sprachwandel stattfindet. Der Genitiv ist eine der wichtigsten Baustellen im deutschen Sprachsystem. So ist es also nur folgerichtig, wenn auch die korpusbasierte Forschung hier einen Schwerpunkt setzt, wie dies gerade in jüngster Zeit in der Abteilung Grammatik des IDS geschehen ist. Im Folgenden werde ich Ergebnisse dieser Forschungen zu den beiden angesprochenen Phänomenbereichen, der Flexionsmorphologie und der Syntax des Genitivattributs, etwas genauer betrachten und aus Sicht der Grammatikerin einzuschätzen versuchen. Vorausgeschickt sei: Traditionelle Grammatikerin, die ich bin, bin ich mit den zugrundeliegenden statistischen Verfahren nicht hinreichend vertraut und DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="232"?> Gisela Zifonun 232 kann daher auch die Zuverlässigkeit und Validität ihrer Ergebnisse kaum beurteilen. Ich verlasse mich in dieser Hinsicht auf die fachliche Kompetenz der Kollegen. Nur ist es damit nicht getan. Denn es besteht ja meinerseits die Erwartung, hier Relevantes über den Genitiv zu erfahren, das auch von Nicht-Spezialisten rezipiert und künftig berücksichtigt werden muss. Ich werde mich daher im Folgenden auf die in- nicht-statistischer Sprache dargelegten Ergebnisse konzentrieren. 1 Der leitende Gesichtspunkt ist dabei: Verändert korpusbasierte Forschung den Blick auf das Sprachsystem, die Grammatik einer Sprache? Liefert sie nur Präzisierungen bzw. Korrekturen im Detail? Diese Position dürfte wohl dem Urteil oder Vorurteil des Systemgrammatikers entsprechen. Oder korrigiert sie unser Sprachverständnis in dramatischer Weise, macht sie gar unser Verständnis von Grammatik obsolet? 2. Genitivmarkierung beim Substantiv Im Folgenden befasse ich mich mit der korpusbasierten Analyse der Genitivmarkierung, die Konopka/ Fuß (2016) vorgelegt haben und die durch die detaillierte Vorstellung des korpusanalytischen Verfahrens in Bubenhofer/ Hansen-Morath/ Konopka (2014) sowie die Genitiv-Datenbank (Bubenhofer et al. 2015) empirisch angereichert ist. Die Untersuchung gilt dem Genitiv Singular „stark“ flektierender Substantive, erfasst also nur maskuline und neutrale Substantive. Die Genitivmarkierung im Plural und die Markierung bei Feminina-- die üblicherweise als „fehlend“ oder als Vorhandensein eines Nullmorphems interpretiert wird-- bleiben ebenso außer Betracht wie die anderer nominaler Klassen. Die Untersuchung besteht ihrerseits aus zwei größeren Teilen: der Behandlung der Variation zwischen den Markern -s und -es und die Behandlung des Wegfalls der Markierung wie in des Barock versus des Barocks. 2 2.1 Die Variation zwischen den s-Markern Ich greife hier nur den Teil zur Variation zwischen den beiden s-Markern auf. Bei der Wahl zwischen den beiden Markern spielen zahlreiche Faktoren unterschiedlicher Natur und Stärke eine Rolle. Um deren jeweiliges Gewicht und die Interaktion zwischen ihnen empirisch zu erfassen, wird ein Verfahren des maschinellen Lernens angewendet, das in mehreren Schritten statistischer Datenauswertung zu einem Entscheidungsbaum führt, der die Wahl eines der Genitivmarker modelliert. Die ca. 30 in der Literatur postulierten Einflussfaktoren werden auf 22 komprimiert und für über 2-Millionen aus dem Deutschen Referenzkorpus (DeReKo) extrahierten Geni- 1 Hervorzuheben ist, dass insgesamt in den Publikationen „Bausteine einer Korpusgrammatik“ (Konopka/ Wöllstein/ Felder (Hg.) 2020/ 2021), die Arbeiten des Projektteams präsentieren, das Ziel der Zugänglichkeit auch für den Nicht-Spezialisten aus meiner Sicht bereits gut umgesetzt ist. 2 Daneben erwähnen die Autoren auch die vereinzelt auftretenden gemischt flektierenden Nomina wie bei Gedankens, Herzens (vgl. z. B. Konopka/ Fuß 2016, Anm.-80, S.-80). <?page no="233"?> Korpusbefunde und Grammatik am Beispiel des Genitivs im Deutschen 233 tivtoken evaluiert (vgl. Bubenhofer/ Hansen-Morath/ Konopka 2014, S.-405). Die Autoren stellen zum Teil in Revision der bisherigen Forschung folgende Faktoren als Ergebnis besonders heraus: zum einen die Frequenz- - hochfrequente Wörter wie Jahr, Tag, Mann, Kind bevorzugen die s-Variante,-- zum anderen die Zugehörigkeit zum Sonderwortschatz- - Eigennamen, Fremdwörter, Kurzwörter tendieren ebenfalls stark zu s-Variante. Außerdem machen sie die „außersprachlichen Parameter Zeit und Raum“ aus, in der Weise, „dass prinzipiell Genitivnomina in Texten aus jüngerer Zeit stärker als sonst zu -s und Genitivnomina in Texten aus dem Südosten des deutschen Sprachraums stärker als sonst zu -es tendieren“ (ebd., S.- 416). Als „Linguistische Generalisierungen“ (vgl. Abschn.-4.2 der Untersuchung) arbeiten Konopka und Fuß in ähnlicher Weise zum einen den Einfluss der „grammatikexternen Faktoren“ Wortalter und Wortfrequenz heraus. Zum anderen betonen sie jedoch auch die „grammatikinternen Faktoren“ Silbenstruktur und prosodische Struktur (Konopka/ Fuß 2016, S.-251 f.). Zu ersterem heißt es: „Silbenstrukturell ist es auf der einen Seite der phonotaktische Ausschluss der silbeninternen Gemination (*Hauss vs. Hauses) und auf der anderen Seite die graphotaktische Vermeidung des Hiats (*Seees vs. Sees)“ (ebd., S.-252). Neben diesen Fällen des „Ausschlusses“ einer Variante sind Fälle zu nennen, bei denen eine Variante aufgrund einer silbenstrukturell „besseren“ Koda präferiert wird, wenn z. B. -es vorgezogen wird, sofern der Wortstamm auf eine komplexe Koda endet, wie etwa bei Kampfes versus weniger häufigem Kampfs. Der Ausschluss von -es bei Wörtern, die auf ein „(Pseudo-)Suffix mit Schwa“ enden, wie bei *Lehreres, *Eimeres oder auch *Bügeles, *Hafenes, *Atemes (gegenüber Lehrers, Eimers, Bügels, Hafens. Atems) wird mit der generell gültigen Präferenz einer trochäischen prosodischen Struktur für Simplizia wie die genannten bzw. für den Wortausgang komplexer Wörter (wie Wassereimers) erklärt, die durch die Wortformen auf -es verletzt würde. Auch hier werden Fälle mit Variation zwischen den Markern beigeordnet: So sei bei Einsilblern und ultimabetonten Wörtern -es präferiert-- denn damit entsteht eine trochäische Struktur am Wortende (wie bei Staates bzw. Betruges). Demgegenüber werde bei Wörtern, die auf der Pänultima betont werden, aus demselben Grund die s-Variante bevorzugt, wie bei Vorschlags oder Antrags. Aufgrund der Natur und der Interessenlage einer Korpusauswertung sind die Ergebnisse bezüglich der sogenannten „schwachen“ Faktoren, also denjenigen, die nur eine Tendenz in Richtung der einen Variante induzieren, sowie die eine abgestufte wechselseitige Verstärkung oder Abschwächung von Faktoren aufweisen, besonders ertragreich und interessant. Weniger Aufschluss gewinnt man jedoch darüber, wo die Grenze zwischen starken und schwächeren Faktoren zu ziehen ist oder ob es gar keine solche Grenze gibt, sondern nur graduelle Übergänge. Konopka/ Fuß (2016, S.-78) nennen folgende Nominagruppen mit starken Einflussfaktoren. Bei den ersten vier Gruppen ist die s-Variante gefordert oder stark präferiert, bei den beiden letzten die es-Variante: <?page no="234"?> Gisela Zifonun 234 - Sonderwortschatz-Gruppen Konversion, Neologismus, Fremdwort, Abkürzung und Eigenname - Nomina auf eine unbetonte Silbe mit dem Reim -el, -em, -en, -end, -er sowie -ich, -ing, -ig - Nomina auf das Suffix -chen, -lein, -ling, -mal, -sal, -sam, -tum - Nomina auf einen Vokal (einschließlich Diphthong) - Nomina, die auf einen s-Laut, einen sch-Laut oder eine st-Gruppe enden - Nomina der Häufigkeitsklasse 5-7 (‚Frequenz HK <-8‘) Aus Sicht der Grammatikerin sind jedoch nicht alle Fälle, die in einer Gruppe zusammengefasst werden, gleich zu behandeln. Ich greife die im ersten und im dritten Spiegelstrich genannten Gruppen heraus. So sind aus meiner Sicht bei den Sonderwortschatzgruppen (erster Spiegelstrich)- Konversion und Eigenname anders gelagert als Neologismus und Fremdwort. Bei Eigennamen (wie Peters, Schmidts, Berlins) und Konversionen (wie (des)- Neins, Selbsts, Achs, Wirkens, Tuns, Seins) ist die Langvariante -es schlicht ungrammatisch. 3 Was Neologismen angeht, so legen die Autoren eine 1.425 Lemmata umfassende vom IDS-Projekt „Neologismen“ erstellte Liste zugrunde. Bei den Maskulina und Neutra mit potenziellem „starkem“ Genitiv Singular handelt es sich in aller Regel um neugebildete Zusammensetzungen, deren Kopf ein etabliertes „Fremdwort“ wie Konto, Job, Korridor oder Pakt ist, um Kurzwörter oder Abkürzungen wie BFD, Besserwessi oder Grexit oder um neue Entlehnungen aus dem Englischen wie Bachelor, Gendergap, Millenial, Walking (und zahlreiche andere ing-Formen). Es handelt sich also grammatisch um eine Mischkategorie, deren Genitivbildung aufgrund jeweils eigener Regularitäten vorhersagbar und nicht direkt dem Charakter als Neologismus geschuldet ist. So ist bei den Komposita auf -konto wie bei Konto selbst der vokalische Auslaut für die obligatorische s-Endung verantwortlich (vgl. auch den fünften Spiegelstrich); auch Kurzformen bilden grundsätzlich s-Genitive. In den übrigen Fällen ist der ausschlaggebende Faktor die Pluralbildung: Der s-Plural verbietet grundsätzlich die lange Variante des starken Genitivs; das heißt, Genitiv Singular und die Pluralform sind identisch- - siehe des Jobs und die Jobs. Anglizismen der jüngeren Zeit haben in aller Regel einen s-Plural, so auch die oben genannten. Anders jedoch Wörter mit regulärem starkem Plural auf -e, wie etwa Pakt. Für das Suchmuster *paktes werden in DeReKo 557 Wortformen mit über 22.000 Belegen aufgefunden, neben 433 Wortformen mit über 17.000 Belegen für die s-Variante *pakts. 3 Konversionen aus Adverbien wie heute, gestern sind endungslos; Endungslosigkeit ist auch bei der Konversion von selbst, ja und nein gut belegt (vgl. Konopka/ Fuß 2016, S.-195). <?page no="235"?> Korpusbefunde und Grammatik am Beispiel des Genitivs im Deutschen 235 Zwischen den Kategorien Neologismen und Fremdwörter gibt es zudem, wie angedeutet, einen erheblichen Überschneidungsbereich: Fremdwörter der neueren Zeit sind in aller Regel Anglizismen, die in den meisten Fällen ihren s-Plural und die s- Variante der Genitivbildung mitbringen. Keinen s-Plural bilden Lehnwörter auf -er wie User, Poser oder auch auf -en wie bei Token. Bei ihnen erscheint wie bei den analogen nativen Bildungen mit den (Pseudo-)Suffixen -er und -en (wie Nutzer, Lehrer, Besen) kein Pluralsuffix- - oder anders gesagt: das Plural-e der starken Flexion entfällt nach der stammfinalen Schwasilbe. Diese Anpassung ist ein erster Integrationsschritt für solche „Fremdwörter“ aus dem Englischen. Die Genitivbildung erfolgt konsequenterweise obligatorisch ebenfalls mit der schwalosen Variante -s. Die „Schwa-Regel“ 4 erweist sich so gesehen als superstarker oder auch im engeren Sinne „grammatischer“ Faktor der Genitivbildung (wie der Pluralbildung). Konopka/ Fuß (2016) sind sich der Problematik der Kategorie Fremdwort durchaus- bewusst. Sie diskutieren das Konzept an verschiedenen Stellen und heben auf eine „strukturell-synchrone Klassifikation“-- gegenüber einer „diachron-etymologischen“-- ab (vgl. ebd., S.-31). Auch hier legen sie der Korpusauswertung eine Liste zugrunde (Umfang laut ebd., S.-30: 12.236 Fremdwörter). Fremdwörter, so heißt es, zeigen ganz überwiegend die s-Variante. Ausnahmen sind zum einen solche, die auf einen s-Laut enden, wie Kongress, Prozess, die -es fordern, zum anderen „integrierte“ Fremdwörter- mit Ultimabetonung, die neben -s auch -es lizenzieren (wie in Programm(e)s, Infarkt(e)s, Kontrast(e)s, Skelett(e)s). Nun ist auch Integration ein vergleichsweise unklar bestimmter Begriff: Man kann damit stärker auf die Zugehörigkeit zum Allgemeinwortschatz oder gar „Grundwortschatz“ (Duden 2016, S.- 197) und damit meist eine längere „Verweildauer“ und Frequenz im Sprachgebrauch abheben oder auf grammatische Faktoren. Beide Aspekte korrelieren häufig, müssen es aber nicht. Die Duden-Grammatik (ebd., S.- 197 f.), die in ihrer Darstellung der Wahl des Genitivmarkers in vielen Punkten an Konopka/ Fuß (2016) anschließt, erwähnt mit Beispielen wie (des) Kompromisses, (des) Reflexes usw. die obligatorische es-Endung bei auf einen s-Laut endenden ultimabetonten Fremdwörtern. Liegt bei Wörtern auf s-Laut keine Ultimabetonung vor, so bleibe wie bei Agens, Tempus oder Stimulus der Genitiv endungslos- - es sei denn, das Wort gehöre zum Grundwortschatz und lizenziere dann neben Endungslosigkeit auch -es wie bei (des) Omnibusses. Die Auflistung solcher Substantive mit möglichem es-Genitiv (Zirkus, Bonus, Index, Rhinozerus, Omnibus) verweist wiederum auf die Pluralbildung als wesentlichen Faktor. Alle genannten Beispiele erlauben- - gegebenenfalls neben dem bildungssprachlichen aus der Gebersprache übernommenen Plural-- auch einen regulären e-Plural (Zirkusse, Bonusse, Indexe, Rhinozerosse, Omnibusse), während die Substantive mit obligatorisch endungslosem Genitiv wortspezifische „irreguläre“ Pluralformen aufweisen. 4 Zur Rolle der Schwa-Regel vgl. Gunkel et al. (2017, S.-1143-1149). <?page no="236"?> Gisela Zifonun 236 Im dritten Spiegelstrich nennen die Autoren Nominagruppen mit Suffixen, die die s-Variante erforderlich machen. Dabei erscheinen ausschließlich heimische Suffixe. Die aus dem Lateinischen übernommenen Suffixe -or und -ar/ -är und das aus dem Französischen übernommene -eur lizenzieren ebenfalls grundsätzlich nur einen s-Genitiv wie in (des) Lektors; (des) Notars/ Funktionärs; (des) Redakteurs. Zwar kann beim or-Suffix die Pänultima-Regel den Ausschluss von -es erklären; bei den beiden anderen Fremdsuffixen jedoch liegt Endbetonung vor. Es müsste also durchaus von der Prosodie her auch die es-Variante möglich sein, zumal es sich bei Wörtern dieser Bildungsmuster in der Regel um ältere, dem Allgemeinwortschatz zugehörige und gemäß der Pluralbildung grammatisch integrierte Lehnwörter oder Lehnwortbildungen handelt. 2.2 Evaluation: Faktoren und kein Ende? In diesem Zwischenfazit diskutiere ich kurz zwei Fragen, die sich angesichts dieser komplexen empirischen Ergebnisse stellen: Bringt die Korpusuntersuchung im Hinblick auf die Wirksamkeit von starken bzw. grammatischen Faktoren neue Erkenntnisse? Wie ist die Wirksamkeit der schwächeren Faktoren zu beurteilen, wenn weitere Faktoren, z. B. stilistischer oder pragmatischer Natur, hinzukommen? Was die erstgenannte Frage angeht, so ist es unter methodischen Gesichtspunkten selbstverständlich unabdingbar, dass auch mutmaßlich (nahezu) ausnahmslos wirksame Faktoren in derselben Weise in die empirisch-statistische Auswertung eingehen wie andere schwächere Faktoren. Ein positiver Effekt ist aus meiner Sicht hier, dass übergreifende Regularitäten sichtbar werden, die sowohl in stärkerer als auch in schwächerer Ausprägung auftreten können. Prominente Beispiele sind die Wirksamkeit von Präferenzen aufgrund der ‚Trochäus-Bedingung‘ und aufgrund der ‚s- Laut-Gruppen-Bedingung‘, wie ich es nennen möchte: Beide „erstrecken“ sich von (nahezu) ausnahmslosen Fällen bis zu solchen mit stärkerer oder schwächerer Bevorzugung einer der Varianten. Auf der anderen Seite wird die Bandbreite von ‚obligatorisch‘ bzw. ‚ausnahmslos‘ bis zu ‚fakultativ mit größerem oder geringerem Vorsprung gegenüber der anderen Alternative‘ zwar belegt und benannt, aber nicht zu einer Gegenüberstellung von ‚grammatisch bedingt‘ versus ‚sprachgebrauchsbedingt‘ verdichtet. In Eisenberg (2013, S.-163) werden die grammatischen Regeln für die Wahl zwischen den beiden Varianten so zusammengefasst: Etwas komplizierter liegen die Verhältnisse beim s . In der s -Flexion wird das Genitivs nichtsilbisch realisiert. Das gilt auch dann, wenn der Stamm nicht vokalisch auslautet, wie das bei zahlreichen Fremdwörtern der Fall ist ( des Jobs/ *Jobes , des Sets / *Setes ). Im nativen Wortschatz der Typen 3 und 6 muss das s nach [z] und [s] silbisch realisiert werden ( des Hauses , des Maßes , des Reflexes , des Schatzes ). Nichtsilbisch wird es dann realisiert, wenn der Stamm schon auf einem Trochäus endet ( des Esels , des Wagens , des Königs , des Feiglings ). In den übrigen Fällen kann es im Prinzip silbisch oder nichtsilbisch sein ( des Tischs / Tisches , des Stoffs / Stoffes ; […]). <?page no="237"?> Korpusbefunde und Grammatik am Beispiel des Genitivs im Deutschen 237 Wie an diesem Zitat deutlich wird, verschiebt die grammatische Perspektive bei grundsätzlich gleichem Befund die Gewichte und in manchen Punkten auch die erklärenden Faktoren: Der flexionsmorphoologische Faktor s-Flexion erklärt Befunde, die bei Konopka und Fuß auf die Faktoren Sonderwortschatz mit den Unterfällen Neologismen/ Fremdwörter (wie bei des Jobs/ Sets), Eigennamen (wie bei Trumps) oder Kurzformen (wie bei Wessis) zurückgeführt werden. Gleichzeitig ist der grammatische Faktor präziser in seinen Prognosen, insofern als „falsch positive Fälle“ z. B. unter den Neologismen oder Fremdwörtern ausgeschlossen werden. Man denke z. B. an Bildungen auf -pakt(e)s, -lekt(e)s oder -gramm(e)s. Auch im Hinblick auf die ‚s-Laut-Gruppen-Bedingung‘ wird präziser getrennt zwischen den Fällen, die -es gänzlich ausschließen, und solchen, die (wie bei (des) Wunsch(e)s, (des) Trost(e)s) die silbische Variante immerhin zulassen. Weitergehend als in Eisenbergs Fassung kann auch bei der ‚Trochäus-Bedingung‘ noch ein weiterer flexionsmorphologischer Faktor ins Spiel gebracht werden. Wie Konopka/ Fuß (2016, S.-66) feststellen, ist bei Beispielen wie König oder Feigling bzw. Teppich (vgl. den zweiten Spiegelstrich oben) die es-Form marginal belegt. Es handelt sich um Nominagruppen, die starke Plurale auf -e aufwiesen. Bei Esel, Wagen usw. ist der Plural obligatorisch endungslos: Aufgrund der Schwa-Regel erscheint in keiner Flexionsendung dieser Wörter ein Schwa. Letztlich kann auch die Wortbildungsmorphologie geltend gemacht werden. Die Fremdsuffixe -or, -ar/ -är und -eur, die in aller Regel maskuline Personenbezeichnungen bilden, schließen die es-Variante ebenso aus wie das native Suffix -er. Was auf der anderen Seite die ganz „weichen“ Faktoren angeht (oder sind es nur die bisher wenig erforschten? ), so weisen Konopka und Fuß (2016, S.-263 f.) explizit darauf hin, dass wortübergreifende und rhythmische Aspekte (u. a. die Akzentverteilung in der Phrase und im Satz) ebenso unberücksichtigt blieben wie diaphasische Gesichtspunkte, also die „Abhängigkeit von der Mündlichkeitsnähe, dem Register, der Textsorte und der thematischen Domäne“. Stichprobenmäßig habe ich nun den Einfluss eines wortübergreifenden Faktors geprüft, der das (Nicht-)Vorhandensein einer syntaktischen wie einer prosodischen Grenze impliziert, und zwar in zwei Varianten: Die Substantive Kampf und Wunsch präferieren als Einsilbler (und zusätzlich bei Kampf aufgrund des finalen Konsonantenclusters, bei Wunsch aufgrund der s-Laut-Gruppen-Bedingung) die es-Variante: 4.317 Vorkommen für Kampfs gegenüber 38.696 Vorkommen für Kampfes; 288 Vorkommen für Wunschs gegenüber 6.118 Vorkommen für Wunsches. 5 Folgen auf die Substantive jedoch unmittelbar die regierten Präpositionen nach bzw. um, so verschiebt sich das Verhältnis zugunsten der s-Variante. Kampfs um hat immerhin 574 Belege, somit mehr als ein Zehntel der Belege für Kampfs insgesamt, während Kampfes um mit 3.176 von 38.696 Gesamtbelegen für Kampfes diesen Anteil deutlich 5 Die Recherchen wurden am 20.1.2022 im Archiv der geschriebenen Sprache (W-Gesamt) von DeReKo durchgeführt. <?page no="238"?> Gisela Zifonun 238 unterschreitet. Wunschs nach ist 70 Mal belegt, macht somit ein Viertel der Gesamtbelege für Wunschs aus, während Wunsches nach mit 1.132 wiederum unterhalb dieses Anteils an der Gesamtbelegzahl für Wunsches bleibt. Das kann als erstes Indiz dafür gewertet werden, dass eine enge prosodische und syntaktische Bindung zwischen der Genitivform und dem nachfolgenden Kontext der kürzeren s-Variante zugutekommt. Umgekehrt hat das Vorliegen einer deutlichen syntaktischen Grenze nach der Genitivform den umgekehrten Effekt. Die markanteste Form einer solchen Grenze ist das Satzende nach der Genitivform. Nur 184 Belege gibt es für Kampfs gefolgt von der Satzgrenze gegenüber 2.291 für Kampfes. Nur sechs Belege gibt es für Wunschs unmittelbar vor einer Satzgrenze gegenüber 412 für Wunsches. Eine Frage, die sich mir nun stellt, ist diese: Wenn wir eine ganze Reihe ähnlicher weicher Faktoren in Rechnung stellen, welche Änderungen des Gesamtbilds sind zu erwarten? Statistiker werden die Frage vielleicht beantworten können. Aus meiner Sicht jedoch schmälert das in gewisser Weise die Aussagekraft der Untersuchung. Wo folgen wir bei der Wahl einer der Varianten Regeln oder erkennbaren Tendenzen, wo herrschen Zufall oder die Laune des Augenblicks? Werde ich als Linguistin und Sprecherin bei einer derartigen Datenlage das jemals „wissen“ können? Oder ist das ein abwegiger Anspruch? 3. Ein Sonderfall des Genitivattributs Den zweiten Phänomenbereich, die Syntax des Genitivattributs, kann ich aus Platzgründen nur kurz anschneiden. Ich orientiere mich hier an Kopf (2021). Dort werden „Sonderfälle des Genitivattributs“ behandelt, also Fälle, bei denen gegen die grammatische Bedingung der overten Markierung des Genitivs an adjektivischen oder determinativischen Begleitern des Kopfsubstantivs als Voraussetzung für die Wohlgeformtheit des Genitivattributs verstoßen wird. Diese Bedingung, kurz ‚Genitivregel‘ genannt, ist in letzter Zeit in verschiedenen Publikationen diskutiert und präzisiert worden. 6 Kopf behandelt drei Fälle des Sondergenitivs (vgl. ebd., S.- 2): Fälle mit „Pseudogenitiv“ bei detoponymischen Adjektiven (wie in die Suchaktion Schweizer Banken), mit „doppelt schwacher Flexion“ (wie in das lokale Handeln jeden Einzelnen) und mit „pränominal eingebettetem Genitivattribut“ (wie in Eichels Sprechers Klugheit). Dazu heißt es (ebd.): Ziel der vorliegenden Einzeluntersuchungen ist, zu prüfen, wie frequent diese Phänomene sind, und damit auch vorsichtige Aussagen über ihren Status im System des geschriebenen Standarddeutsch machen zu können. Ich greife hier den dritten Fall, das pränominal eingebettete Genitivattribut, auf. Dazu heißt es in der Zusammenfassung (ebd., S.- 9): „Attribute mit eingebettetem 6 Man vergleiche die Fassung in Gunkel et al. (2017, S.-1313-1316). <?page no="239"?> Korpusbefunde und Grammatik am Beispiel des Genitivs im Deutschen 239 pränominalem Genitiv sind äußerst selten. Sie enthalten in den meisten Fällen ein zusätzliches Adjektiv, das den Kasusausdruck übernimmt.“ Es handelt sich hier nicht nur um eine seltene, sondern um eine komplizierte Konstruktion. Präziser müsste man eigentlich von Genitivattributen sprechen, in die ihrerseits pränominal- - also vor dem Kopf- - ein Genitivattribut zweiter Ordnung eingebettet ist. Das gesamte Attribut kann aber- - zumindest theoretisch- - seinerseits vor oder nach dem übergeordneten Kopfsubstantiv stehen. Die Autorin zieht als weiteren Faktor das (Nicht-)Vorhandensein eines adjektivischen Attributs heran. Ich exerziere das der Deutlichkeit halber an dem bereits erwähnten Beispiel durch (Attr1 und Attr2 stehen jeweils für die Genitivattribute erster und zweiter Ordnung): Attr1 und Attr2 pränominal (i) ohne adjektivisches Attribut: Eichels Sprechers Klugheit (ii) mit adjektivischem Attribut: Eichels neuen Sprechers Klugheit Attr1 postnominal, Attr2 pränominal (iii) ohne adjektivisches Attribut: die Klugheit Eichels Sprechers (iv) mit adjektivischem Attribut: die Klugheit Eichels neuen Sprechers Im Untersuchungskorpus sind laut Kopf (ebd., S.-8) für (i) 2 Belege vorhanden, für (ii) 0 Belege, für (iii) 37 Belege, für (iv) 357 Belege. Kopf (ebd., S.-7) bewertet das so: Die Typen (i) und (ii) seien „im Gegenwartsdeutschen so stark markiert, dass sie nicht zum normalen Wahlbereich gehören“, wobei die Frage ihrer Grammatikalität offen bleibt. Fall (iii) ordnet sie wie Zifonun (2003) als ungrammatisch ein und führt dies auf den Verstoß gegen die Genitivregel zurück. Weiter heißt es: „Mit Typ (iv) sollte es eigentlich keine Probleme geben: Das Gesamtattribut steht postnominal und ein hinreichend overter Genitivausdruck ist möglich.“ (ebd.) Dabei verweist sie auf die vergleichsweise hohe Frequenz von Belegen für Typ (iv). Bei diesem Typ überwögen die Belege mit einem Femininum oder einer Pluralform als Kopfsubstantiv von Attr1, also Belege wie (1) an die Adresse [Deutschlands ältester Partei] (Luxemburger Tageblatt, 8.9.2009, o. S.) Für Kopf ist also die ‚Genitivregel‘, das Vorhandensein einer overten Genitivmarkierung am Begleiter, der ausschlaggebende grammatische Faktor. Nun unterscheidet sich aber Fall (i) nicht von Fall (ii) im Hinblick auf einen hinreichend overten Genitiv, ebenso wenig wie (ii) von (iv). Die vorkommenden Wortformen sind, abgesehen vom nominativischen initialen Artikel bei (iii) und (iv), jeweils identisch. Der Grammatikalitätsunterschied kann also nicht (allein) der Genitivregel geschuldet sein. So wird denn auch in Gunkel et al. (2017, S.-1315) darauf hingewiesen, dass eine „Fas- <?page no="240"?> Gisela Zifonun 240 sung des Prinzips der Genitivmarkierung, die Substantive ohne kongruierenden Begleiter generell ausschließt […] mutmaßlich zu stark“ ist. Dabei werden unter anderem Fälle wie (i) erwähnt, die bei stilistischer Markiertheit in der Literatur als „syntaktisch korrekt“ bewertet würden. An anderer Stelle wird in dieser Grammatik deutlich herausgestellt, dass postnominale Genitivattribute „nicht durch pränominale Genitivattribute eingeleitet sein können“ (ebd., S.- 1499) bzw. dass im neueren Deutsch bei geschachtelten Genitivattributen eine „Beschränkung auf monotone Rektionsverhältnisse“ vorliege (ebd., S.- 1599). Für Kopf hingegen ist lediglich die Stellung des Gesamtattributs relevant. Da bei (iv) die übliche postnominale Stellung des gesamten Attributs eingehalten werde und overte Markierung vorliege, „sollte es eigentlich keine Probleme geben“ (Kopf 2021, S.- 7). Die stellungsmäßige Inkongruenz zwischen über- und untergeordnetem Attribut, die schon Behaghel (1923, S.- 529) als grammatisches Problem erkannte, spielt für sie keine Rolle. Möglicherweise hat die vergleichsweise hohe Belegzahl bei diesem Urteil eine Rolle gespielt. Diese wiederum wird aber relativiert, wenn nicht nur Eigennamen als Attribute zweiten Grades untersucht werden, sondern auch Vorkommen des Demonstrativums dessen/ deren. Genitivattribute mit pränominal eingebettetem dessen oder deren kommen nach meiner Beobachtung sehr viel häufiger vor als solche mit pränominalem Eigennamen. Der syntaktische Status von selbstständigem Demonstrativum und Eigennamen ist gleich: Beide habe in dieser Position eine determinierende Rolle-- „ersetzen“ also den definiten Artikel-- sind jedoch keine kongruierenden Determinative, sondern eigenständige phrasale Elemente. Ironischerweise zitiert Kopf (ebd., S.-10) einen Beleg dieser Art, ohne ihm Beachtung zu schenken; ihr kommt es nur auf den ersten Teil mit schwacher Flexion bei der Form jeden an: (2) Oberstes Gebot sei die Würdigung des Kenntnisstands jeden Einzelnen und- dessen individuellen Leistungsvermögens. (Schweriner Volkszeitung, 27.8.2011, S.-18) Auch hier ist das Vorkommen eines kongruierenden Begleiters nicht ausschlaggebend für die Akzeptabilität des Ausdrucks. (3) ist ebenso gut oder schlecht wie (2): (3) Oberstes Gebot sei die Würdigung des Kenntnisstands jeden Einzelnen und dessen Leistungsvermögens. In Zifonun (2003) werden verschiedene Hypothesen für die vergleichsweise hohe Frequenz solcher Vorkommen von dessen oder deren genannt. Bemerkenswert ist dabei auch, dass die Inkongruenz in der Stellung von über- und untergeordnetem Attribut weniger ins Gewicht fällt als beim Eigennamengenitiv. Zwar bewerteten die befragten Kollegen die monotone Stellung wie bei in dessen Nachfolgers Beisein positiver als die inkongruente wie bei im Beisein dessen Nachfolgers. Im Korpus finden sich aber durchaus Belege wie die Nummer dessen Schreibtelefons (Mannheimer <?page no="241"?> Korpusbefunde und Grammatik am Beispiel des Genitivs im Deutschen 241 Morgen, 2.4.1996) oder die späten Werke Goethes und die Bücher dessen Schwagers (Spiegel 12.7.1993). Man beachte, dass hier jeweils das Substantiv genitivmarkiert ist, nicht etwa der Begleiter. Bei einer künftigen Erweiterung der Recherche für diesen Sonderfall des Genitivattributs im Rahmen korpusgrammatischer Studien wäre also aus meiner Sicht unbedingt neben dem Eigennamengenitiv auch das selbstständige Demonstrativum einzubeziehen. 4. Fazit Die beiden besprochenen Phänomenbereiche sind unterschiedlich gelagert: Bei den Sonderfällen des Genitivattributs, insbesondere bei dem hier aufgegriffenen eingebetteten pränominalen Attribut, handelt es sich um ein überschaubares Szenario, sowohl was die Datenlage als auch was die beteiligten Faktoren angeht. Beides trifft auf die Wahl des s-Markers nicht zu. Dennoch gibt es aus meiner Sicht gemeinsame Merkmale der korpuslinguistischen Herangehensweise, die kritisch zu hinterfragen sind. Aus dieser Herangehensweise scheint das Bemühen zu resultieren, „vorgefasste“ Annahmen über grammatische Regularitäten nicht oder nur in möglichst geringem Maße in die Recherche eingehen zu lassen. In beiden Fällen wirkt sich das aber auf die Ergebnisse der Recherche aus, und zwar nicht nur positiv. Bei der Untersuchung zu den s-Markern verunklart der Verzicht auf die Regularitäten der Pluralbildung das Ergebnis, beim pränominalen Genitivattribut ist die Konzentration auf die so genannte Genitivregel unbefriedigend. Bei letzterem verzerrt zudem aus meiner Sicht eine grammatisch nicht gerechtfertigte Restriktion der Recherche auf Eigennamengenitive das Resultat. Es liegt die Schlussfolgerung nahe, dass grammatische Regularitäten auf jeden Fall in die Recherche eingehen. Werden sie nicht berücksichtigt und kontrolliert, beeinträchtigt dies die Validität der Ergebnisse. So kommt es zu einem Dilemma: Die Forschungsprogrammatik rät zum Verzicht auf grammatische Vorannahmen; ein adäquates Recherchedesign erfordert jedoch ein grammatisch informiertes Vorgehen. Diesen potenziellen Konflikt gilt es immer wieder und von Fall zu Fall zu klären. Zu Beginn des Beitrags wurde die Frage gestellt, ob die korpusgrammatische Herangehensweise unser Sprachverständnis in dramatischer Weise verändere oder gar unsere Sicht auf Grammatik obsolet mache. Ich erkenne die großen Erkenntnisfortschritte an, die diese verfeinerte Form der Empirie bringen kann und im Fall der beiden Studien auch gebracht hat, beantworte die Frage aber negativ. Diese Einschätzung mache ich über die hier konkret angesprochene Thematik hinaus für alle Bereiche der Grammatik und des Sprachsystems generell geltend, darunter auch hochaktuelle Fragestellungen wie etwa die Beurteilung des generischen Maskulinums. Die Annahme, das generische Maskulinum sei im Deutschen systematisch angelegt, wird aus Sicht des „aktuellen Forschungsstands“ beispielsweise so kommentiert: <?page no="242"?> Gisela Zifonun 242 Dies vermittelt aber eine völlig falsche Vorstellung davon, was Grammatik überhaupt ist, und entspricht nicht dem aktuellen Forschungsstand der Linguistik. Eine Grammatik steht nicht über der Sprache, sondern ist ein Deutungskonstrukt für den Sprachgebrauch. (Lobin/ Müller-Spitzer 2021) Deutungskonstrukte können aus meiner Sicht besser oder schlechter, adäquat oder inadäquat sein. Inadäquate grammatische Deutungskonstrukte können, sofern sie explizit oder implizit in die empirische Forschung eingehen, den Ertrag empirischer Arbeit gefährden oder gar zunichte machen. Literatur Behaghel, Otto (1923): Deutsche Syntax. Eine geschichtliche Darstellung. Bd.-1. Die Wortklassen und Wortformen; A: Nomen, Pronomen. (=- Germanische Bibliothek: Abteilung- 1, Sammlung germanischer Elementar- und Handbücher. Reihe-1, Grammatiken-10.1). Heidelberg: Winter. Bubenhofer, Noah/ Hansen-Morath, Sandra/ Konopka, Marek (2014): Korpusbasierte Exploration der Variation der nominalen Genitivmarkierung. In: Zeitschrift für Germanistische Linguistik-42,-3, S.-379-419. Bubenhofer, Noah/ Hansen-Morath, Sandra/ Konopka, Marek/ Schneider, Roman (2015): GenitivDB 2.0-- Datenbank zur Genitivmarkierung (Release vom 1.9.2015). Mannheim: Institut für Deutsche Sprache. www.doi.org/ 10.14618/ genitivdb. Duden (2016): Die Grammatik. Unentbehrlich für richtiges Deutsch. (=- Der Duden in zwölf Bänden, Bd.-4). 9., vollst. überarb. u. aktual. Aufl. Berlin: Dudenverlag. Eisenberg, Peter (2013): Grundriss der deutschen Grammatik. Bd.-2: Der Satz. Unter Mitarbeit von Rolf Thieroff. 4., aktual. u. überarb. Aufl. Stuttgart/ Weimar: Metzler. Gunkel, Lutz/ Murelli, Adriano/ Schlotthauer, Susan/ Wiese, Bernd/ Zifonun, Gisela (2017): Grammatik des Deutschen im europäischen Vergleich. Das Nominal. Unter Mitarbeit von Christine Günther und Ursula Hoberg. 2-Bde. (=-Schriften des Instituts für Deutsche Sprache-14). Berlin/ Boston: De Gruyter. Konopka, Marek/ Fuß, Eric (2016): Genitiv im Korpus. Untersuchungen zur starken Flexion des Nomens im Deutschen. (=-Studien zur Deutschen Sprache 70). Tübingen: Narr. Konopka, Marek/ Wöllstein, Angelika/ Felder, Ekkehard (Hg.) (2020/ 2021): Bausteine einer Korpusgrammatik des Deutschen. Bd.- 1/ Bd.- 2. Heidelberg: Heidelberg University Publishing. https: / / heiup.uni-heidelberg.de/ journals/ index.php/ bkgd/ issue/ view/ 2407, https: / / heiup.uni-heidelberg.de/ journals/ index.php/ bkgd/ issue/ view/ 2417 (Stand: 5.7.2023). Kopf, Kristin (2021): Sonderfälle des Genitivattributs. In: Grammatisches Informationssystem „grammis“. Mannheim: Leibniz-Institut für Deutsche Sprache. [Elektronische Ressource]. www.doi.org/ 10.14618/ sondergenitiv. Lobin, Hennig/ Müller-Spitzer, Carolin (2021): Keine Bevormundung beim Gendern! Weil sich die Welt ändert, ändert sich auch die Sprache. In: Die Zeit 29.4.2019, S.-18. Zifonun, Gisela (2003): Was geschieht, wenn dessen einen Genitiv trifft? In: SPRACH- REPORT-3/ 2003, S.-18-22. <?page no="243"?> KORPUSGESTÜTZTE ANALYSE GESPROCHENER SPRACHE <?page no="245"?> ARNULF DEPPERMANN/ SILKE REINEKE ZUR VERWENDUNG VON METADATEN IN DER INTERAKTIONSANALYTISCHEN ARBEIT MIT KORPORA-- AM BEISPIEL EINER UNTERSUCHUNG ANHAND DES KORPUS FOLK Abstracts : Metadaten zu Gesprächen und den beteiligten Sprecher/ -innen enthalten Informationen, die für die Beschreibung, Erschließung und Analyse von Korpora wichtig sind. Bisher werden sie jedoch in der Konversationsanalyse und der Interaktionalen Linguistik so gut wie nicht genutzt. Dieser Beitrag zeigt exemplarisch, wie Metadaten des Gesprächskorpus „Forschungs- und Lehrkorpus Gesprochenes Deutsch“ (FOLK) im Rahmen einer interaktionslinguistischen Untersuchung verwendet werden können, um Regularitäten der Verwendung einer untersuchten Gesprächspraktik zu identifizieren und ihren Zusammenhang mit den Eigenschaften von Aktivitäten und Sprecherrollen zu klären. In allgemeinerer Perspektive diskutiert der Beitrag, wie und an welchen Stellen einer interaktionslinguistischen Untersuchung Metadaten von Nutzen sein können und wie ihr Stellenwert im Rahmen dieser Methodologie kritisch reflektiert werden muss. Metadata concerning interactional events and their participants contain important information for the description, exploration and analysis of corpus data. However, to date metadata are only scarcely used in Conversation Analysis and Interactional Linguistics. This paper demonstrates how the metadata documented in the Forschungs- und Lehrkorpus für Gesprochenes Deutsch (FOLK) (Research and Training Corpus of Spoken German) can be used in an interactional linguistic study to identify regularities in the use of an interactional practice with respect to characteristics of activities and participant roles. In a broader perspective, the paper discusses how and at what stage of the research process metadata can be useful for interactional linguistic research. The general need for critical reflection on the role of metadata within this methodology is emphasized. Keywords : Interaktionale Linguistik, Konversationsanalyse, Gesprächs-Metadaten, Sprecher- Metadaten, Kontextinformationen, Korpora, Korpus-Recherche 1. Einleitung Im Zentrum der interaktionslinguistischen Erforschung von sprachlichen Strukturen der verbalen Interaktion steht die Analyse von Ausschnitten von Audiobzw. Videoaufnahmen authentischer sozialer Interaktionen, die zugleich auch als Transkript vorliegen (Couper-Kuhlen/ Selting 2017). Diese methodologische Maßgabe folgt dem Daten- und Methodenverständnis der Konversationsanalyse (ten Have 1998; Deppermann 2001). Dagegen spielen bisher in der Methodologie der Konversationsanalyse Metadaten, welche Eigenschaften der Sprecher/ -innen, des Sprechereignisses oder der Gesprächsaufnahme dokumentieren, keine Rolle. Dies steht im Gegensatz etwa zu variablenanalytischen Ansätzen in der Soziolinguistik (vgl. Labov 1972), die sprachliches Verhalten durch die Korrelation mit sozialen Variablen zu erklären suchen. Die Konversationsanalyse hat stets ein solches kausalistisches DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="246"?> Arnulf Deppermann/ Silke Reineke 246 Kontextverständnis, nach dem der soziale Kontext sprachliche Praxis bedingt, abgelehnt (siehe Heritage/ Clayman 2010). Stattdessen geht die Konversationsanalyse von einem reflexiven Kontextmodell aus: Der für die Interaktion interpretationsrelevante Kontext wird als eine symbolische Hervorbringung der Interaktionsbeteiligten selbst verstanden; seine Geltung wird reflexiv im Handeln selbst durch entsprechende Wahl sprachlicher Mittel und Formen des Handelns angezeigt. Eine solche Konzeption wird mit der Phrase doing (being) X angesprochen (Heritage/ Clayman 2010). So bedingt nach dieser Sicht bspw. die Tatsache, dass eine Interaktion in einer Institution stattfindet, nicht die Art und Weise, wie die Interaktion geführt wird. Vielmehr wird die Institutionalität der Situation durch institutionenentsprechendes und -rollenindizierendes Handeln selbst hergestellt (Heritage/ Clayman 2010)- - oder eben auch gerade nicht, wenn die Beteiligten es vorziehen, bspw. Smalltalk zu machen oder ihre persönliche Beziehung zu pflegen (Schegloff 1991). Aus diesem reflexiven Verständnis des Verhältnisses zwischen Kontext und Interaktion („im“ Kontext) erklärt sich die tiefe Skepsis der Konversationsanalyse gegen jede Art der Verwendung von Metadaten über Sprechereigenschaften, Interaktionstypen oder Aktivitäten: Metadaten sind dem Verdacht ausgesetzt, zu einer verkürzten subsumptiven und deduktiven Analyse zu führen, die die Geltung von bestimmten sozialen Kategorien unbesehen für eine Interaktion festschreibt und als Erklärung des Interaktionshandelns zu nutzen versucht, während doch eigentlich in der Analyse der Interaktion selbst erst zu erweisen wäre, ob und in welcher Weise die entsprechende Kategorie tatsächlich für die Interaktionsteilnehmenden eine relevante Orientierung darstellt. In diesem Artikel wollen wir zeigen, wie trotz dieser berechtigten Vorbehalte gegen ihre Nutzung Metadaten auch in der Konversationsanalyse und Interaktionalen Linguistik hilfreich sein können. Wir demonstrieren am Beispiel der Untersuchung der Verwendungskontexte des sprachlichen Formats was heißt X, wie die Berücksichtigung von Metadaten Verteilungen von Praktiken offenbart und auf Eigenschaften der Sprachverwendung aufmerksam macht, welche dann ihrerseits zu einer Vertiefung der Analysen führen. In Abschnitt-2 stellen wir das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) und die Möglichkeiten seiner Erschließung in der Datenbank für Gesprochenes Deutsch vor. In Abschnitt-3 führen wir in die Untersuchung des Formats was heißt X ein. Abschnitt- 4 erörtert, welchen Nutzen Metadaten für unterschiedliche wissenschaftliche Zwecke haben und welche speziell im Korpus FOLK dokumentiert und für die Korpuserschließung zu nutzen sind. Abschnitt- 5 diskutiert dann anhand der o. g. Untersuchung, wie metadatenbezogene Verteilungen der Variation einer sprachlichen Praktik genutzt werden können, um relevante Eigenschaften einer sprachlichen Praktik zu entdecken, darauf bezogene Hypothesen zu entwickeln und zu prüfen und unter Rückbezug auf detaillierte Fallanalysen Untersuchungsergebnisse zu vertiefen und hinsichtlich der Relevanz kontextueller Parameter zu klären. Im Fazit (Abschn.-6) diskutieren wir generellere Überlegungen zur Relevanz von Metadaten für interaktionslinguistische Untersuchungen. <?page no="247"?> Metadaten in der interaktionsanalytischen Arbeit mit Korpora 247 2. Das Forschungs- und Lehrkorpus für Gesprochenes-Deutsch Datengrundlage unserer Analyse sind Audio- und Videodaten des gesprochenen Deutsch in natürlichen Interaktionen aus dem Korpus FOLK, die über die Datenbank für Gesprochenes Deutsch (DGD, www.dgd.ids-mannheim.de) wissenschaftsöffentlich zugänglich sind. Während national wie international eine große Menge schriftsprachlicher Korpora verschiedenster Art für die sprachwissenschaftliche Forschung zur Verfügung stehen, sind wissenschaftsöffentlich verfügbare Korpora von Audio- und Videodaten authentischer mündlicher Interaktionen Mangelware. Um diesem Desiderat zu begegnen, wird seit 2008 am IDS das Forschungs- und Lehrkorpus Gesprochenes Deutsch aufgebaut. Das FOLK-Korpus stellt eine breit diversifizierte Datenbasis zur Untersuchung gesprochener Sprache in natürlicher Interaktion bereit. FOLK umfasst aktuell in der Version 2.20 ( Juni 2023) 414 Gesprächsaufnahmen mit einer Dauer von rund 347 Stunden (davon rund 157 Stunden auch als Videoaufnahmen) sowie vollständige Transkripte aller Aufnahmen (ca. 3.3 Millionen Tokens). Alle Gesprächsaufnahmen für das Korpus werden nach zeitgemäßen Standards erschlossen. Sie werden gemäß den cGAT-Konventionen (Schmidt/ Schütte/ Winterscheid 2015) transkribiert, linguistisch annotiert und mit Metadaten zu Gespräch und Beteiligten dokumentiert (Schmidt 2017). Die Nutzer/ -innen können auf vier Annotationsebenen- - Transkription, Normalisierung, Lemmatisierung und Partof-Speech-Tagging (POS)-- recherchieren. Darüber hinaus können über Metadaten gezielt Gespräche mit bestimmten Merkmalen ausgesucht werden (siehe unten). Die Daten können auch frei exploriert werden, indem man sich einzelne Gespräche über die Funktionalitäten der Audio-, Video- und Transkriptanzeige ansieht bzw. anhört. 3. Eine exemplarische interaktionslinguistische Untersuchung: was heißt X Im Rahmen von Untersuchungen zu Praktiken der Bedeutungskonstitution (vgl. Deppermann 2020, i.-Dr. a und b) und speziell bei der Untersuchung von Definitionspraktiken (Helmer 2020) fiel uns die Verwendung des Formats was heißt X auf. Über eine formbasierte Suche nach was heißt X im FOLK-Korpus in der Version-2.16 (Mai 2021) 1 haben wir 250 auswertbare Belege gefunden und qualitativ analysiert. Eine detaillierte Schilderung unseres Vorgehens bei der automatisierten Korpussuche und händischen Filterung der Ergebnisse anhand der KWIC-Ansicht, die beispielhaft eine formbasierte Korpussuche mithilfe der Funktionalitäten der DGD darstellt, 1 Das FOLK-Korpus umfasste in der Version 2.16 (Mai 2021) 374 Gesprächsaufnahmen mit einer Dauer von 314 Stunden und knapp 3 Millionen Tokens. <?page no="248"?> Arnulf Deppermann/ Silke Reineke 248 stellen Reineke/ Deppermann/ Schmidt (2023) dar. In unserer Analyse stellen wir fest, dass was heißt X verwendet wird, - um eine Definition, also eine verallgemeinerbare Bedeutungsangabe (n=30 / 250, 12%), zu elizitieren oder einzuleiten, - um eine Spezifikation (n=79/ 250, 32%) der lokalen Bedeutung von X im Verwendungskontext (nicht aber eine allgemeingültige Definition) zu elizitieren oder einzuleiten, - um eine Übersetzung (n=26/ 250, 10%) zu elizitieren oder einzuleiten, - um eine Konsequenz-- d. h. die Auswirkungen von X auf Y bzw. Handlungskonsequenzen angesichts von X-- zu formulieren oder zu erfragen (n=12/ 250, 5%), - um anzuzeigen, dass ein zuvor verwendeter Ausdruck sprachlich nicht angemessen ist (Adäquatheit, n=103/ 250, 41%), und eine alternative Formulierung einzuleiten oder zu elizitieren (vgl. auch Günthner 2015). In Abschnitt-5 gehen wir darauf ein, wie die zu jedem Gespräch und Sprecher/ -innen dokumentierten Metadaten für unsere weitere Analyse hilfreich waren. 4. Metadaten im FOLK-Korpus Neben den Primärdaten, Transkripten und linguistischen Annotationen werden im FOLK-Korpus zu jedem Gespräch umfangreiche Informationen dokumentiert und als Metadaten zur Verfügung gestellt. Der Begriff „Metadaten“ bezieht sich in diesem Artikel auf seine Verwendung in diesem Kontext. Wir unterscheiden hier zwischen Metadaten, die sich auf die aufgenommenen Sprecher/ -innen (z. B. Sprachkenntnisse und -biografie, Geschlecht, Bildung), auf die Sprechereignisse (z. B. Aktivität und Interaktionstyp) und auf die Umstände der Aufnahme (z. B. Aufnahmedatum, -ort, -geräte) beziehen. Metadaten haben sehr unterschiedliche Funktionen: - Sie werden zu archivarischen Zwecken erfasst, um z. B. die Herkunft der Aufnahmen, Datenformate oder den datenschutzrechtlichen Status zu dokumentieren. - Sie sind für die Korpus-Stratifikation, d. h., den systematischen, interaktions- und sozialtheoretisch geleiteten Ausbau des Korpus, und damit für die Planung von Erhebungen relevant (Kaiser 2018). - Sie sind für das Verständnis der Primärdaten, d. h. der Aufnahmen und Transkripte, oft unerlässlich. Metadaten beinhalten wichtige Kontextinformationen, die aus dem Gespräch selbst oft nicht (oder nur mit großem Aufwand) zu erschließen, aber für die Analyse relevant sind. Während Forschende, die mit selbst erhobenen Daten arbeiten, ethnografische Informationen aus der eigenen Felderfahrung für die Klärung von Referenzen und Inferenzen (z. B. Anspielungen), die Vertiefung und Prüfung der Analyse und zur Vermeidung von Fehlin- <?page no="249"?> Metadaten in der interaktionsanalytischen Arbeit mit Korpora 249 terpretationen einfließen lassen können und müssen (vgl. Deppermann 2000, 2013), ist bei der Nutzung von Fremddaten, die andere erhoben haben, dazu eine Dokumentation von Sprecher- und Ereignisparametern erforderlich. Besonders wenn Nutzer/ -innen ausgehend von KWIC-Listen, die aufgrund von Suchen in FOLK gewonnen werden, Datenausschnitte analysieren, ist es unbedingt empfehlenswert, sich den übergeordneten Gesprächskontext, den Gesprächstyp und -zweck sowie die Beteiligungsstruktur der jeweiligen Gespräche zu vergegenwärtigen, um keine Fehlschlüsse in der Analyse zu ziehen. - Metadaten können in FOLK genutzt werden, um virtuelle Korpora zu bilden, wie z. B. eine Auswahl von Interaktionen aus einer bestimmten Institution oder mit Beteiligung einer bestimmten Sprecher/ -innengruppe. Dies erlaubt es, gezielt die Verwendung sprachlicher Praktiken in einem bestimmten Kontext zu untersuchen. - Sie erlauben es, Verteilungen von Praktiken in Abhängigkeit von bestimmten Variablen der Sprecher/ -innen und des Typs des Interaktionsereignisses darzustellen. Dies kann dazu genutzt werden, die Abhängigkeit von Gesprächspraktiken von der Ausprägung dieser Variablen zu prüfen. - Sie sind zu benutzen für die Stichprobenbeschreibung in Publikationen. Auch wenn die Angabe von metadatenbezogenen Verteilungen der untersuchten Daten im statistischen Sinne keine Evidenz für die Generalisierbarkeit von Ergebnissen liefert, erlaubt sie doch Leser/ -innen einzuschätzen, wie homogen oder heterogen die untersuchten Datensamples zusammengesetzt waren und über welche Sprecher/ -innengruppen und Arten von Interaktionen aufgrund der Untersuchung Aussagen gemacht werden können und welche nicht berücksichtigt wurden. Viele Metadaten sind für die Analyse von Gesprächen potenziell relevant. Die DGD bietet hier Funktionen, mit denen man von einem Beleg ausgehend Informationen zu den dokumentierten Metadaten anzeigen lassen kann. Dies sind Metadaten der Sprecher/ -innen (S), Daten zum Sprechereignis (SE) sowie spezielle Sprechermetadaten in Relation zum Sprechereignis (z. B. verwendete Sprachen in der Aufnahme, das Alter zum Zeitpunkt der Aufnahme oder die Rolle in der Interaktion). Auf Ebene eines Gesprächsereignisses werden u. a. eine Kurzbezeichnung des Gesprächstyps („Art“), Angaben zum Datum der Aufnahme, eine kurze zusammenfassende Angabe zum Inhalt, zur Vertrautheit der Teilnehmenden, zur übergeordneten Aktivität etc. erfasst (Abb.-1). 2 2 Für eine Kurzübersicht der im FOLK-Korpus dokumentierten Metadaten siehe https: / / agd.ids-mann heim.de/ download/ FOLK_Z_10_Kurzuebersicht_Metadatensystematik_FOLK.pdf. Eine genaue Beschreibung der Metadatenkategorien und ihrer Systematisierung mit Blick auf die Korpusstratifizierung findet sich in Kaiser (2018). <?page no="250"?> Arnulf Deppermann/ Silke Reineke 250 Abb.-1: Ereignismetadaten zu einer Videoaufnahme im FOLK-Korpus Hier finden sich auch die Sprecher/ -innen und ihre Rolle in der Interaktion (Abb.-2). Abb.-2: Anzeige und Verlinkung zu beteiligten Sprecher/ -innen in einer Interaktion Von hier aus gelangt man zu Informationen zu den Sprecher/ -innen (Abb.-3): Abb.-3: Sprechermetadaten-Anzeige in der DGD <?page no="251"?> Metadaten in der interaktionsanalytischen Arbeit mit Korpora 251 Hier findet man Angaben, die eine/ -n Sprecher/ -in betreffen, die wiederum mit den Sprechereignissen verlinkt werden, in denen diese beteiligt sind. Angaben, die zwar Sprecher/ -innen betreffen, die aber relational zu anderen Sprecher/ -innen bzw. abhängig von einem Gesprächsereignis sind, finden sich hier entsprechend nicht mehr (vgl. etwa im Beispiel die Rolle „Kunde/ in“). Aus Datenschutzgründen erscheinen die Namen der Sprecher/ -innen als Pseudonyme; Angaben zur sprachlichen Herkunft werden nur in aggregierter Form verzeichnet. Diese Ansichten der Metadaten sind insbesondere in der Einzelfallanalyse hilfreich. Für korpusgestützte Suchen bietet die DGD die Möglichkeit, Metadaten-Kategorien zusammen mit der KWIC-Belegliste als XML-Datei auszugeben (zum Vorgehen siehe Reineke/ Deppermann/ Schmidt 2023). Hierzu führt man eine Metadatensuche nach einer Token-Suche aus (Abb.-4). Es ist aber ebenso möglich, ohne Tokensuche nach Ereignissen im Korpus zu suchen, die bestimmten Metadaten-Kategorien entsprechen, die (wahrscheinlich) für die eigene Analyse relevant sind. Dies ist vor allem dann eine geeignete Suchstrategie, wenn man keine formbezogene Untersuchung durchführt, welche eine bestimmte, über die Tokensuche ansprechbare linguistische Struktur erforschen will. Will man stattdessen eine funktionsbzw. handlungsbezogene Untersuchung vornehmen, dann kann man die interessierende Struktur nicht direkt suchen, denn die Funktionen (wie z. B. Handlungen) sind im Korpus nicht annotiert und bedürfen ohnehin der genauen sequenziellen und multimodalen Analyse (zur Unterscheidung von formvs. funktionsbezogenen Untersuchungstypen siehe z. B. Deppermann 2001; Sidnell 2012; Couper-Kuhlen/ Selting 2017). Im Falle von funktionsbezogenen Untersuchungen muss man stattdessen überlegen, in welchen, durch Metadaten beschriebenen interaktiven Kontexten die fragliche Praktik wahrscheinlich realisiert werden wird. So kann sich z. B. eine Untersuchung, die sich für Instruktionen interessiert, zunächst einmal pädagogischen Interaktionstypen zuwenden, in denen Instruktionen vermutlich eine grundlegende Rolle zukommt, wie z. B. Interaktionen in der Fahrschule und der Physiotherapie. Erzählungen oder Klatschgeschichten sind dagegen eher in nicht-aktivitätsgeleiteten Gesprächen zwischen Freunden und Familienangehörigen zu erwarten. Zeigegesten kommen wiederum mit hoher Wahrscheinlichkeit z. B. in Führungen oder beim gemeinsamen Renovieren vor, da hier die Lokalisation von Referenten eine zentrale Rolle spielt. Die Metadaten führen in diesen Fällen also nicht direkt zu potenziellen Kandidaten einer Datenkollektion, sondern fungieren als Heuristik, um händische Suchen nach einschlägigen Fällen ökonomisch und gut begründet einzugrenzen. Dazu sind natürlich Kenntnisse über die Handlungen und Praktiken, die typischerweise in bestimmten Interaktionstypen und Aktivitäten vollzogen werden, erforderlich. <?page no="252"?> Arnulf Deppermann/ Silke Reineke 252 Abb.-4: Metadatensuche in der DGD Wählt man einen Metadatendeskriptor (Variable) aus, werden alle vorhandenen Werte (Instanziierungen) angezeigt, die für die Suche ausgewählt werden können. Wir zeigen dies hier am Beispiel von „Aktivität“ auf Sprechereignis-Ebene (Abb.-5). Abb.-5: Auswahlfenster für Werte eines Metadaten-Deskriptors in der DGD Eine Suche nach der Kombination mehrerer Metadaten ist ebenfalls möglich. <?page no="253"?> Metadaten in der interaktionsanalytischen Arbeit mit Korpora 253 5. Die Verwendung von Metadaten in der interaktionslinguistischen Auswertung: Ein-exemplarisches Beispiel In unseren Analysen hatten wir den Eindruck, dass was heißt X besonders häufig in Interviews benutzt wird. Wir untersuchten daher die Distribution des Formats in Bezug auf die Metadatenkategorie „Aktivität“. Das Resultat bestätigte unsere Vermutung: 52 der in FOLK gefundenen 250 Fälle (=- 20,8%) des Formats was heißt X kamen in (verschiedenen Arten von) Interviews vor (Tab.- 1). Demgegenüber aber machen die Interviews einen deutlich geringeren Anteil am Umfang des Gesamtkorpus aus: Die Tokenanzahl der in FOLK-2.16 enthaltenen Gespräche mit den Werten „Biographisches Interview“, „Ethnographisches Interview“, „Interview“ und „Sprachbiographisches Interview“ beträgt 261.830 von 2.990.421 in FOLK (Version-2.16) 3 insgesamt (=-8,76%). Das Format wird also überzufällig oft in Interviews benutzt (Tab.-2). Aktivität Adäquatheit Definition Konsequenz Spezifikation Übersetzung Gesamt Biographisches Interview 6 2,40% 1 0,40% - - 5 2,00% 1 0,40% 13 Ethnographisches Interview 1 0,40% - - - - 2 0,80% - - 3 Fahrstunde 5 2,00% 1 0,40% 2 0,80% 1 0,40% - - 9 Interview 1 0,40% - - - - - - - - 1 Meeting 2 0,80% 1 0,40% - - 5 2,00% - - 8 Nachhilfe - - - - - - - - 9 3,60% 9 nicht aktivitätsgeleitet 33 13,20% 3 1,20% - - 9 3,60% 7 2,80% 52 Prüfung 3 1,20% 11 4,40% 1 0,40% 9 3,60% - - 24 Schlichtung 1 0,40% 4 1,60% 3 1,20% 7 2,80% - - 15 Sitzung 8 3,20% - - 1 0,40% 1 0,40% - - 10 Spielen 4 1,60% - - 2 0,80% 1 0,40% 1 0,40% 8 3 Die hier angegebenen Token-Zahlen wurden über eine Metadaten-Abfrage der entsprechenden Aktivitäten (über „SE: Aktivität“) in den bis einschließlich Version 2.16 der DGD veröffentlichten Daten (über „E: In DGD seit Version“) im September 2022 abgerufen. Durch Korrekturen von Transkripten in FOLK (z.B. Korrekturen der orthografischen Normalisierungen) können sich bei der Abfrage von Token-Zahlen vergangener Versionen zu einem späteren Zeitpunkt geringfügige Verschiebungen ergeben. <?page no="254"?> Arnulf Deppermann/ Silke Reineke 254 Aktivität Adäquatheit Definition Konsequenz Spezifikation Übersetzung Gesamt Sprachbiographisches Interview 18 7,20% 1 0,40% - - 13 5,20% 3 1,20% 35 Unterricht 4 1,60% 7 2,80% 3 1,20% 7 2,80% - - 21 Andere 17 6,80% 1 0,40% 0 - 19 7,60% 5 2,00% 42 Summe 103 41,20% 30 12,00% 12 4,80% 79 31,60% 26 10,40% 250 Tab.-1: Verteilung der Vorkommen von was heißt X auf Aktivitäten in FOLK Aktivität Adäquatheit Definition Konsequenz Spezifikation Übersetzung Gesamtergebnis Summe Interview Summe Gesamtsample 26 103 50,00% 41,20% 2 30 3,85% 12,00% 0 12 0% 4,80% 20 79 38,46% 31,60% 4 26 7,69% 10,40% 52 250 20,80% 100,00% Tab.-2: Verteilung der Vorkommen von was heißt X in Interviews im Vergleich zum Gesamtvorkommen in FOLK Während statistisch die Korrelation mit dem Metadatenwert „Interview“ signifikant ist, liefert sie als solche noch keinen interaktionsanalytisch relevanten Befund, der auch eine Erklärung für das häufige Vorkommen beinhaltet. Es könnte nämlich verschiedene Gründe geben: Bspw. könnten die Interviews konfrontativ sein und daher Ausdrucksverwendungen problematisieren oder die Interviewer könnten Probleme haben, hinreichend präzise Fragen zu stellen und deshalb häufiger Selbstreparaturen benötigen. Um einer Erklärung für Verwendungsverteilungen näher zu kommen, untersuchen wir die Vorkommen des Formats in Interviews in Bezug darauf, wie der Metadatenparameter „SES: Rolle“ in Bezug auf die verschiedenen Funktionen des Formats ausgeprägt ist. Diese Analyse ging von der Frage aus, ob denn die Verwendung von was heißt X unter den Interviewbeteiligten gleichverteilt ist. Wir sehen, dass das Format von den Teilnehmer/ -innen verschieden benutzt wird in Abhängigkeit von seiner Funktion (Tab.- 3 und 4). Wir beschränken uns hier auf die beiden häufigsten Verwendungen, die Adäquatheitsreparaturen und die Spezifikationsaufforderungen. Adäquatheitsreparaturen werden fast ausschließlich durch Interviewte initiiert. Sie beziehen sich entweder auf ihren eigenen Turn und werden im selben Turn dann auch selbst durchgeführt werden. Oder aber sie beziehen sich auf Formulierungen der Interviewer/ -innen, deren Angemessenheit infrage gestellt wird und die dann ebenfalls umgehend von den Interviewten korrigiert werden (siehe Tab.-3). <?page no="255"?> Metadaten in der interaktionsanalytischen Arbeit mit Korpora 255 Reparatur-initiierende Rolle Fremdinitiierte Fremdreparatur Selbstinitiierte Selbstreparatur gesamt Interviewer/ -in 1 1 2 Interviewte/ -r 13 11 24 14 12 26 Tab.-3: Selbst- und Fremdreparaturen der Adäquatheit in Interviews Die in Tabelle- 3 dargestellte Verteilung kann zu genaueren Hypothesen Anlass geben. Im Einklang mit der konversationsanalytischen Methodik gewinnen wir aber nicht direkt aus der Verteilung eine (spekulative) Erklärung, sondern betrachten nun nochmals die Fälle aus der entsprechenden Kollektion, um zu einer vertieften Analyse dieser Distribution zu gelangen. Beispiel-1 zeigt eine fremdinitiierte Fremdreparatur einer Formulierung des Interviewers (NL) durch die Interviewte (ND): Beispiel 1: FOLK_E_00130_SE_01_T_01_DF_01_c318 01 NL: du bist [bei deinen (.) GROSSeltern] groß geworden hast du gemeint, 02 ND: [((atmet ca. 1.1s ein)) ] 03 (0.3) 04 ND: hm JA: , 05 (.) was heißt GROSS geworden; (ts) 06 (0.5) 07 ND: sie haben sich halt viel um mich geKÜMmert; 08 weil [meine eltern] halt viel auf ARbeits waren sozusagen. °h 09 NL: [oKAY. ] 10 °h können deine GROSSeltern (.) diaLEKT? Mit seiner Äußerung in Zeile- 01 beansprucht der Interviewer die Interviewte zu zitieren. Mit der Adäquatheitsproblematisierung „was heißt groß geworden; “ (Zeile-04) und der anschließenden Formulierungskorrektur zeigt die Interviewte, dass sie besondere Sorgfalt darauf verwendet, keine falschen Schlussfolgerungen aufgrund ihrer Aussagen zu riskieren und nicht Fragen zu bestätigen, die aus ihrer Sicht falsche Präsuppositionen bzw. unzutreffenden Charakterisierungen von Sachverhalten, die sie betreffen, beinhalten. Dies kann als allgemeiner Befund für die Produktion von Adäquatheitskorrekturen durch Interviewte festgehalten werden, der sich ebenso zeigt, wenn die Interviewten die Adäquatheit einer eigenen Äußerung problematisieren und umgehend die Formulierung korrigieren. Umgekehrt erweist das weitgehende Fehlen von fremdinitiierten Fremdreparaturen durch die Interviewer/ -innen, dass es sich nicht um investigative oder konfrontative Interviews handelt. <?page no="256"?> Arnulf Deppermann/ Silke Reineke 256 Spezifikationsreparaturen werden dagegen fast ausschließlich von Interviewer/ -innen initiiert. Sie beziehen sich auf den vorangehenden Turn der Interviewten. Die Reparatur erfolgt dann durch die Interviewten (Tab.-4). Reparaturinitiierende Rolle Fremdinitiierte Selbst-Reparatur Fremdinitiierte Reparatur + candidate understanding 4 Fremdinitiierte Reparatur durch Dritte 5 gesamt Interviewer/ -in 15 1 1 17 Interviewte/ -r 3 0 0 3 18 1 1 20 Tab.-4: Spezifizierende Reparaturen in Interviews Auch in Bezug auf diese Verteilung wenden wir uns wieder unserer Datenkollektion zu und versuchen sie durch Einzelfallanalysen zu erklären. Beispiel-2 dient uns hier als prototypisches Beispiel für die Verwendung von was heißt X zur Fremdinitiierung einer Selbstreparatur der Befragten. Der Interviewte EUP hatte vor Ausschnitt-2 erklärt, dass er gerade versucht, mit dem Rauchen aufzuhören. Der Interviewer MF fährt fort, ihn über seinen bisherigen Zigarettenkonsum zu befragen: Beispiel 2: FOLK_E_00187_SE_01_T_01_c61 01 MF : °hh ähw äh wie viel hast du davor geRAUCHT? 02 (0.2) 03 EUP: °hh (0.5) ähm: (.) ein PÄCKchen auf zwei tage; 04 (0.9) 05 EUP: [n KLEInes.] 06 MF : [na gut- ] 07 (0.5) 08 MF : was HEISST ein kl[eines,] 09 EUP: [°h ] (0.3) neunzehn STÜCK. h° 10 (0.5) 11 MF : gibt s GRÖßere AUCH? 12 (0.3) ja bei UNS (.) äh gibt s auch (.) neunundZWANziger päckchen. In Zeile-08 fordert der Interviewer mit „was heißt ein kleines,“ zur Spezifikation einer referenziell unklaren Formulierung auf. In der Verwendung von was heißt X für Präzisierungssaufforderungen durch die Interviewer/ -innen zeigt sich spiegelbildlich zur Verwendung der Adäquatheitsproblematisierungen durch die Interviewten (siehe oben) ebenso die Orientierung daran, möglichst präzise Aussagen von den Interviewten zu gewinnen. Ihre Ausdrucksverwendung wird nicht kritisiert, es werden aber Spezifikationen vager oder unklarer Aussagen und Referenzen erbeten. 4 Die Reparatur selbst wird vom Interviewten vollzogen. 5 Die dritte Person ist eine weitere Interviewpartnerin. <?page no="257"?> Metadaten in der interaktionsanalytischen Arbeit mit Korpora 257 6. Schlussbetrachtung Unsere exemplarische Darstellung hat gezeigt, dass Metadaten in einer interaktionslinguistischen Untersuchung eine erkenntnisträchtige Rolle zukommen kann. Metadaten können uns zu prototypischen Kontexten führen, in denen ein bestimmtes Format besonders häufig verwendet wird (einer Art home environment, Zinken/ Ogierman 2011). Kontexte, die besonders eng mit der Verwendung eines bestimmten Formats bzw. einer bestimmten Praktik der Formatverwendung assoziiert sind, sind aber nicht deshalb interessant, weil sie quasi kausal die Verwendung des Formats hervorrufen würden: Weder erscheint das Format nur in diesem Kontext noch erscheint es dort an wahllosen Stellen. Vielmehr wird durch die vertiefende Analyse, wann und warum das betreffende Format gerade in diesen Kontexten anzutreffen ist, deutlicher, welche Art von Ressource das Format für die Interaktionsteilnehmer/ innen darstellt, die besonders geeignet ist, um kontextspezifischen Aufgaben und Anforderungen der Aktivität und, spezifischer, einer bestimmten Beteiligungsrolle gerecht zu werden. Dies wiederum führt uns zu der Einsicht, dass es nicht so sehr der Metadatenwert als solcher (in unserem Beispiel ‚Interview‘ bzw. ‚Interviewer/ in‘ und ‚Interviewte‘) ist, die die Verwendung eines Formats erklärt, sondern die interaktionalen Eignungen und Leistungen, die das Format in Bezug auf diesen Wert erbringt. Aufgrund des Ressourcencharakters sprachlicher Formate ist es dann auch keine Falsifizierung, wenn wir das Format vereinzelt auch in Aktivitäten antreffen, in denen wir es nicht erwarten würden, wie z. B. eine Präzisierungsaufforderung in einer Frühstücksinteraktion. Solche vermeintlich abweichenden Fälle deuten vielmehr darauf hin, dass in bestimmten Momenten der Interaktion von den Beteiligten Aufgaben oder Zwecke der Interaktion perzipiert und bearbeitet werden, die nicht aktivitäts- oder rollentypisch sind. Zudem können dies Momente der eingangs angesprochenen reflexiven Kontextkonstitution sein, wenn nämlich bspw. ein Frühstücksgespräch kurzfristig (von einer Beteiligten) so geführt wird, als ob es ein Interview wäre, in dem es auf maximale Ausdruckspräzision ankomme. Um zu analytischen Ergebnissen dieser Art zu gelangen, ist es aber notwendig, nicht bei Verwendungsverteilungen in Abhängigkeit von Metadaten stehen zu bleiben und in ihnen selbst schon eine Erklärung zu sehen (oder spekulativ zu suchen). Metadaten bieten nicht schon von sich selbst aus eine zwangsläufige Erklärung an. Vielmehr müssen wir im Rückgang auf einschlägige Fälle in der Datenkollektion den kontextspezifischen Ressourcencharakter, der von der metadatenbezogenen Verteilung indiziert wird, selbst herausarbeiten- - und damit die Erklärungskraft des Metadatenwerts als solchen zugleich erst transparent machen. Literatur Couper-Kuhlen, Elizabeth/ Selting, Margret (2017): Interactional linguistics: Studying language in social interaction. Cambridge: Cambridge University Press. <?page no="258"?> Arnulf Deppermann/ Silke Reineke 258 Deppermann, Arnulf (2000): Ethnographische Gesprächsanalyse: Zum Nutzen einer ethnographischen Erweiterung für die Konversationsanalyse. In: Gesprächsforschung- 1, S.-96-124. Deppermann, Arnulf (2001): Gespräche analysieren. Eine Einführung. 2.,- durchges. Aufl. (=-Qualitative Sozialforschung 3). Heidelberg: Springer. Deppermann, Arnulf (2013): Analytikerwissen, Teilnehmerwissen und soziale Wirklichkeit in- der ethnographischen Gesprächsanalyse. In: Hartung, Martin/ Deppermann, Arnulf (Hg.): Gesprochenes und Geschriebenes im Wandel der Zeit. Festschrift für Johannes Schwitalla. Mannheim: Verlag für Gesprächsforschung, S.-32-59. Deppermann, Arnulf (2020): Interaktionale Semantik. In: Hagemann, Jörg/ Staffeldt, Sven (Hg.): Semantiktheorien- II. Analysen von Wort und Satzbedeutungen im Vergleich. Tübingen: Stauffenburg, S.-235-278. Deppermann, Arnulf (i.-Dr. a): On two kinds of participants‘ meanings: Definitions and specifications provided in response to „was heißt X? “ (‘what does X mean? ’). In: Interactional Linguistics. Deppermann, Arnulf (i.-Dr. b): “What do you understand by X? ”: Semantics in Interactional Linguistics. In: Selting, Margret/ Barth-Weingarten, Dagmar (Hg.): New perspectives in interactional linguistic research. Amsterdam: Benjamins. Günthner, Susanne (2015): Grammatische Konstruktionen im Kontext sequenzieller Praktiken-- ‚was heißt x‘-Konstruktionen im gesprochenen Deutsch. In: Bücker, Jörg/ Günthner, Susanne/ Imo, Wolfgang (Hg.): Konstruktionsgrammatik. Bd.-5: Konstruktionen im Spannungsfeld von sequenziellen Mustern, kommunikativen Gattungen und Textsorten. (=-Stauffenburg Linguistik-77). Tübingen: Stauffenburg, S.-187-218. Helmer, Henrike (2020): How do speakers define the meaning of expressions? The case of German x heißt y (“x means y”). In: Discourse Processes-57,-3, 278-299. Heritage, John/ Clayman, Steven (2010): Talk in action. Interactions, identities and institutions. (=-Language in Society-38). Chichester: Wiley-Blackwell. Kaiser, Julia (2018): Zur Stratifikation des FOLK-Korpus: Konzeption und Strategien. In: Gesprächsforschung-19, S.-515-552. Labov, William (1972): Sociolinguistic patterns. (=-Conduct and Communication-4). Philadelphia: University of Pennsylvania Press. Reineke, Silke/ Deppermann, Arnulf/ Schmidt, Thomas (2023): Das Forschungs- und Lehrkorpus für Gesprochenes Deutsch (FOLK). Zum Nutzen eines großen annotierten Korpus gesprochener Sprache für interaktionslinguistische Fragestellungen. In: Deppermann, Arnulf/ Fandrych, Christian/ Kupietz, Marc/ Schmidt; Thomas (Hg.): Korpora in der germanistischen Sprachwissenschaft. (=-Jahrbuch des Institut für Deutsche Sprache 2022). Berlin/ Boston: De Gruyter, S.-71-103. Schegloff, Emanuel A. (1991): Reflections on talk and social structure. In: Boden, Deirdre/ Zimmerman, Don H. (Hg.): Talk and social structure: Studies in ethnomethodology and conversation analysis. Cambridge: Polity Press, S.-44-70. Schmidt, Thomas (2017): Construction and dissemination of a corpus of spoken interaction-- Tools and workflows in the FOLK project. In: Journal for Language Technology and Computational Linguistics ( JLCL)-31,-1, S.-127-154. <?page no="259"?> Metadaten in der interaktionsanalytischen Arbeit mit Korpora 259 Schmidt, Thomas/ Schütte, Wilfried/ Winterscheid, Jenny (2015): Konventionen für das computergestützte Transkribieren in Anlehnung an das Gesprächsanalytische Transkriptionssystem-2 (GAT2). Mannheim: Leibniz-Insitut für Deutsche Sprache. Sidnell, Jack (2012): Basic conversation analytic methods. In: Sidnell, Jack/ Stivers, Tanya (Hg.): The handbook of conversation analysis. (=- Blackwell Handbooks in Linguistics). Oxford u. a.: Wiley-Blackwell, S.-77-99. ten Have, Paul (1998): Doing conversation analysis. A practical guide. (=-Introducing Qualitative Methods). London: Sage. Zinken, Jörg/ Ogierman, Eva (2011): How to propose an action as objectively necessary: the case of Polish ‘trzeba x’ (‘one needs to x’). In: Research on Language and Social Interaction-44,-3, S.-263-287. <?page no="261"?> ROSEMARIE TRACY/ DAFYDD GIBBON THE BEAT GOES ON: A Case Study of Timing in Heritage German Prosody Abstracts: This contribution examines the role played by speech rhythms for narrative cohesion in a case study on fluency and rhythm and was conducted on narratives by a bilingual speaker of German as a minority heritage language in an English-speaking environment in the USA. The narratives are in four different scenario-determined language varieties (English and German, formal and informal). After a discussion of pauses, hesitation particles, and related items which contribute to narrative cohesion, the physical grounding of speech rhythms based on ‘rhythm formants’ as rhythm correlates in the low frequency spectrum of speech is investigated. Clustering methods applied to spectral features are shown to distinguish the four varieties. A case study does not permit generalisation, but the results point to the plausibility of the method. Anhand einer Fallstudie zur Sprachproduktion einer bilingualen Sprecherin des Deutschen als Herkunfts- und Minoritätssprache im englischsprachigen Majoritätskontext in den USA wird untersucht, wie Sprechrhythmen zur narrativen Kohäsion und Flüssigkeit beitragen. Verglichen werden vier Berichte zum gleichen Geschehen, die in unterschiedlichen Szenarien erhoben wurden: einerseits in formellen und informellen Situationen, andererseits sowohl auf Deutsch als auch auf Englisch. Einer allgemeinen Diskussion der Distribution von Produktionsphänomenen (Pausen, expliziten Häsitationsmarkern und vergleichbaren Elementen), die zur narrativen Kohäsion beitragen, wird die physikalisch-empirische Basis für Sprechrhythmen anhand von ‚Rhythmusformanten‘ als Rhythmusmerkmale in Niederfrequenzspektren des Sprachsignals untersucht. Die auf spektrale Merkmale angewandten Clustermethoden zeigen, dass sich die vier Datensätze nach diesen Rhythmuskriterien unterscheiden. Obwohl eine Fallstudie keine Generalisierung zulässt, deutet das Ergebnis auf die Plausibilität des methodischen Vorgehens hin. Keywords: heritage language, bilingualism, formality, fluency, hesitation particle, speech prosody, rhythm formant, text cohesion 1. Introduction The present study is concerned with timing in German and English narratives produced by bilingual speakers of German as a minority heritage language (HL) in an English-speaking environment. The study addresses the question of what temporal and spectral features of speech signals can tell us about speakers’ fluency and resourcefulness in speech production. Two aspects of temporal organisation are addressed. First, pauses and “performance additions” (Clark/ Fox Tree 2022, p.-74) are discussed, that is, inserts or fillers of various kinds, including hesitation particles and connectors which contribute ‘discourse glue’ to the overall cohesion of narratives. Second, we aim to show that the temporal structure of narratives about the same event but produced in different scenarios and in different languages can be used to identify rhythm as a cohesion factor and to distinguish the languages and speaking styles of a bilingual speaker on this basis. DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="262"?> Rosemarie Tracy/ Dafydd Gibbon 262 This study is exploratory and takes a hybrid qualitative-quantitative line, its aim being to demonstrate a novel ‘proof of concept’, rather than a confirmatory ‘proof of hypothesis’, by pointing out possible merits of using an explanatory signal processing approach, Rhythm Formant Theory, together with linguistic analysis. The overall structure is as follows: Section- 2 provides background information on current heritage language research and on some general fluency-related claims. Section- 3 contains information about the available corpus, the elicitation of the narratives as well as about a specific participant’s background and an illustration of the types of narratives providing our data. This section also outlines the methodology. Sections-4 to 6 are dedicated to two phonetic methods: first, annotation and duration analysis, and second, long-term spectral analysis of rhythm formants with cluster analysis of low frequency spectrum and spectrogram properties. Finally, Section- 7 discusses results and potential for further study. 2. Timing matters in heritage language scenarios 2.1 Heritage speakers: heterogeneity and research potential Over the past decades, heritage language research has received considerable attention from descriptive linguistic, sociolinguistic and psycholinguistic angles because of the multitude of external and internal factors influencing acquisition paths, outcomes and long-term maintenance (Montrul 2016; Montrul/ Polinsky (eds.) 2021; Polinsky 2018; Wiese et al. 2022, among many others). The spectrum of interand intra-individual variation identified in many areas of inquiry makes heritage speakers (HSs) a particularly relevant population from empirical and theoretical perspectives, offering insights into the dynamics of linguistic systems in general. Time matters throughout on several time scales: with respect to age of onset of language contact, duration of exposure, and opportunity of language use throughout life, as well as dynamically in individual language change and in the production and comprehension of actual utterances. The HS we focus on here were early bilinguals, either simultaneous acquirers of two first languages from birth (2L1), or L1 learners exposed to a second language (L2) in early childhood. 1 They can be considered native speakers of two languages, regardless of levels of ultimate attainment by the time they reach adulthood. In a typical HL scenario of a minority language (indigenous or immigrant) within a majority language (ML) environment, the HL is primarily used within the family, 1 Historically established German “language islands” and first-generation immigrants will not be dealt with here. For the former see Boas (2009), Clyne (2003), Hopp/ Putnam (2015), Stolberg (2015), and for the latter Schmid (2011), Schmid/ Dusseldorp (2010), Tracy (2022). <?page no="263"?> The Beat Goes On 263 and sometimes with one parent only. Depending on the ML policy of the country of residence, there may be no support via the educational system. Often, HL maintenance is treated as negligible, regarded as a hindrance to integration into the ML community, and its active use may be openly discouraged (Brehmer/ Treffers-Daller (eds.) 2020 and Montrul/ Polinsky (eds.) 2021 for an international perspective; Dirim/ Mecheril 2018; Wiese/ Tracy/ Sennema 2020). Especially where HSs do not learn to read and write in their minority language- - provided there is a writing system-- their access to different genres, styles and formal registers is highly limited. In the course of time, the imbalance between the languages involved in this kind of bilingual minority-majority tandem may literally become more “pronounced”. Even HS’ spoken repertoires may strike majority speakers of the same languages as pragmatically off the track and not quite up to their age (Polinsky 2018, pp.-291-328). Nevertheless, age of onset and natural exposure to HLs in family contexts explain why core-grammatical features of heritage grammars develop along the lines known from L1 acquisition in general. Basic word order patterns, in particular placement of finite and non-finite verbs, subjects, and objects in main and subordinate clauses can be expected to be “in place” around age 3 (Tsimpli 2014; Tracy 2011; Schulz/ Tracy 2011). Peripheral properties of the grammar, on the other hand, in particular details of nominal classification (e. g. gender), case and number paradigms, require more time, especially in a language like German where morphological subsystems show considerable syncretism and irregularity. Given what we know from longitudinal research on the simultaneous acquisition of two first languages, 2L1 children are able to differentiate languages from early on (de Houwer 2009; Meisel 2007; Müller et al. 2007). However, neither the linguistic systems of bilinguals, young or old, nor their performance are immune to cross-linguistic interaction and competition, which may be enhanced by structural and phonological overlaps of the languages involved, i. e. the “grey zones” in the sense of Clyne (1987, p.-755). The cooperative potential resulting from the coactivation of linguistic systems can also be seen in the skillful and fluent language mixing of adult and child bilinguals (cf. the papers in Auer (ed.) 1998; Bullock/ Toribio (eds.) 2009; Döpke (ed.) 2000; Gawlitzek-Maiwald/ Tracy 1996; Isurin/ Winford/ de Bot (eds.) 2020; Muysken (2013); Treffers-Daller 2022, to name but a few). Although the languages available to bilingual speakers may all be co-activated and therefore “ready to go” and compete for expression, those not called for in a monolingual communicative context are inhibited at a price, which is manifest, for instance, in slower speech rate and response lags (Green 1998; Kroll/ Gollan 2014). The well-practiced ability of controlling and holding in check a contextually irrelevant language has been identified as a major player in keeping the aging brain fit, even delaying dementia (Abutalebi/ Green 2008; Anderson/ Somayya/ Bialystok 2019; Bialystok 2009; Kroll/ Bialystok 2013). <?page no="264"?> Rosemarie Tracy/ Dafydd Gibbon 264 2.2 Time-critical aspects of speech production Control is part and parcel of processing, regardless of the number of languages involved. All speakers monitor their own speech (Levelt 1989), a sorely needed process because “[…] in conversation- - the prototypical form of language use- - fluent speech is rare” (Clark/ Fox Tree 2002, p.- 73). Speakers already engaged in articulation monitor their speech proactively, anticipating trouble which may necessitate reconsidering a current plan about to be articulated. In this way imminent slips of the tongue can be proactively and covertly prevented, or they are repaired retroactively. Speakers also “comment” on their own performance with metalocutions such as laughter or other paralinguistic cues (e. g. tongue clicking, which we will see in the case described here), showing amusement or dissatisfaction. It seems, then, that we are faced with what sounds like an intriguing contradiction: On the one hand, the properties of linguistic systems are largely implicit, i. e. not accessible to introspection. On the other hand, as Levelt points out (1989, pp.-497 f.): “Speakers attend to what they are saying and how they say it. They can monitor almost any aspect of their speech, ranging from content through syntax and lexical choice to phonological form and phonetic articulation. But they do not continuously attend to all these things simultaneously. Attention is on the one hand selective, and on the other hand fluctuating. Which aspects of speech are attended to is highly dependent on the context and on the task.” Moreover, the synchronisation roles of speech timing have both serial and parallel syntagmatic dimensions which provide ‘discourse glue’ in ensuring utterance continuity, in addition to the role of items such as hesitation interjections. According to Clark/ Fox Tree (2002, p.- 74), speakers “proceed along two tracks of communication simultaneously”, namely a “primary track”, containing the actual message, and a “collateral track to refer to the performance itself ”, a case of metalocutionary deixis in the sense of Gibbon (1983). For Clark/ Fox Tree uh and uhm- - more precisely: the phonetic realization of these orthographic conventions- - are interjections, and as such they are taken to be conventional lexical items. From a functional perspective they can be considered to be announcements or, more precisely, deictic signals, providing the interlocutor with a temporal index to a particular moment of speaking, with uh pointing to the need for a minor, uhm to need for a major delay. Crucially, as they claim, “If uh and uhm are words, speakers must plan these too” (p.-80). The conceptual content of these units should then be part of the initial message plan and the items should be provided in subsequent stages of formulation. There is an apparent inconsistency in this view, however: if these items are in a parallel production stream and are instantly available when production falters, they are not necessarily regular words or subject to the same kind of planning, and indeed in Levelt’s model (1989) hesitation markers are epiphenomena, sympto- <?page no="265"?> The Beat Goes On 265 matic of trouble arising in the course of speech production. Nevertheless, these items have the phonotactic properties of words. For Belz (2021, p.-39), these two points of view-- signal vs. symptom-- do not necessarily exclude each other. At the same time, according to him, what is needed first is a precise phonetic analysis of filler inventories in their respective contexts, i. e. a- bottom-up distributional analysis relegating speculation about communicative functions of inserts to a later analytical stage. In his detailed phonetic analysis of German hesitation particles, i. e. a vowel segment with or without a following nasal, orthographically represented as äh and ähm, and with the vowel sometimes preceded by a glottal sound unrepresented in orthographic script, Belz shows that their occurrence is non-arbitrary in terms of microand macro-contexts, extending the results of Fischer (2000), for example, on the distribution of “äh” and “ähm” in schedule-planning dialogue corpora. Regardless of what filler particles may signal or implicate, they enhance and contribute to the maintenance of semantic, grammatical and phonetic fluency. 2.3 Fluency measures as indicators of proficiency Time-related criteria are often invoked in research aiming at the assessment of language proficiency in L2 speakers. Thomson (2015) characterises fluency, for example, in terms of an automatic procedural skill on the part of the speaker and a perceptual phenomenon in the listener, and covers features such as speech rate, phonation time ratio, pruned syllables, articulation rate, mean length of run (length of interpausal unit), silent pause ratio and filled pause ratio. Fluency counts as an element in the CAF triad of Complexity, Accuracy, and Fluency (cf. Housen/ Kuiken/ Vedder (eds.) 2009; Lin/ Gibbon 2019) and serves as a criterion in L1-L2 comparisons. A related issue is the question of the extent to which L2 speakers can be “fluently disfluent” (Belz et al. 2017), namely whether they approximate the typical (dis)fluency pattern of native speakers. But researchers have also cautioned against attributing differences in fluency in L2 learners to differences in proficiency or (non-)native speaker status. After all, L1 speakers also differ considerably in their individual speed and styles of speaking (De Jong et al. 2015). Fluency is also often invoked as a cover term for a multitude of other proficiency-related tasks (see the overview in De Jong 2018). L2 learners have been asked to provide as many L2-language words as possible for specific semantic categories or with specific phones within a specific time span. Monolinguals and highly proficient bilinguals have been shown to differ in response latencies in lexical decision tasks due to cross-linguistic competition, as already mentioned above. As a consequence, bilinguals who are asked to quickly decide whether an item presented is a word in one of their languages or to provide labels for objects, have to speedily suppress positive responses to words in their other language (Grosjean 2008; Kroll/ Gollan 2014). <?page no="266"?> Rosemarie Tracy/ Dafydd Gibbon 266 During the past two decades consideration of timing in speech production has also played an increasingly important role in the investigation of language attrition in the L1 of first-generation immigrants (Schmid 2011) and in HL speakers’ performance. Slow-down of lexical access has been shown to be a regular concomitant of decreasing lexical activation. There is then an interesting link between first-generation attrition and HL acquisition: After all, the input by first-generation immigrants, among them attriters, provides us with an important baseline for the following generation, i. e. the second-generation immigrant, as in the case of the HS considered here. Studies looking at HSs find that their speech rate in comparable tasks measured in words (Polinsky 2018) or syllables per minute or second (Nagy/ Brook 2020) differs in their minority and majority languages. According to Polinsky (2008, 2018), HS production rate is about 30% slower in comparison with their dominant language. It is therefore an interesting question to ask what we can learn if we take into account longer temporal stretches and rhythmic patterns, regardless of the types of units involved on the segmental level. 3. Data: corpus and participants 3.1 The RUEG corpus 2 The study draws on data collected by the DFG research unit “Research Unit Emerging Grammars” (RUEG), which investigates the linguistic repertoires of adolescent and adult HSs of Turkish, Russian, Greek, and German in the U.S., in comparison with the same minority HLs-- minus German-- in Germany. For comparison, and especially in order to capture the dynamics of the same languages as MLs, L1 monolingual data was obtained in Russia, Turkey, Greece, Germany, and the USA. The data were elicited via the “Language Situations” methodology (Wiese 2020), which distinguishes two quasi-natural communicative situations (formal and informal) and two modes (written and spoken). After watching a fictional car accident video, participants were recorded in role play, with a phone call reporting the incident to a police hotline (formal, spoken) as well as to a friend (informal spoken). They were also asked to send typed reports (formal, written) to the police and text messages to friends (informal, written). HSs were tested in both their minority and majority languages, which yielded eight data sets per person. During the elicitations, the formal vs. informal register distinction was enhanced by differently arranged rooms (for- 2 The corpus is available in an open repository (doi: 10.5281/ zenodo.3236068) and can be used via search and visualization tools (Krause 2019). The stimulus film, a training video, and elicitor instructions can be accessed via the Open Science Foundation at https: / / osf.io/ cm96g/ . All speakers completed questionnaires on language background and use, personality and proficiency (self-rating). The spoken data selected for analysis here (speaker- 03), can be found under Usbi03FD_fsD.wav, Usbi03FD_isD. wav, Usbi03FD_fsE.wav, Usbi03FD_isE.wav. Order of elicitation was varied across speakers in order to mitigate priming effects. <?page no="267"?> The Beat Goes On 267 mal vs. informal) and different elicitators, each dressed accordingly. The interviewers, two native speakers of German and two English native speakers, addressed participants in English or German, exclusively, underscoring that the default of the interaction was a (relatively) monolingual style. All testing took place in the same week, with English and German sessions separated by about four days. The order of elicitation was varied systematically: for the speaker in the case study the HL was first and the ML session came later that week. 3.2 Participant 03 and data illustration The backgrounds and experiences of HS are very varied, so case studies addressing particular speaker profiles are not only challenging but essential. The HS selected for our case study, is a case in point: a 24-year-old bilingual female with a college education, an only child, born and raised on the U.S. East Coast in a bilingual home. Her father is a speaker of English, and the mother a German-speaking immigrant. The participant mentions regular visits (sometimes yearly) to Germany. According to her self-assessment she does not consider herself a native speaker of German, finds listening to German and reading easy, but speaking and writing difficult. She sometimes consumes German media (movies) but indicates that she does not read for leisure or write text messages in German. 3 (1) (-) und äh weil: die das auto wollte die frau nicht ähm (-) äh (-) hin / überfahrn(-) und ähm [tongueclicking] es / (-) dann kam ein andres auto und ähm: [tongueclicking] äh dieses auto äh m: usste ga / a / auch ganz schnell stoppen und is eigentlich ähm in=s ersten erstes auto (-) äh hingefahrn in reingefahrn und ähm (-) [tongueclicking] und dann ähm: (--) [tongueclicking] äh die (-) die müssn dann (-) die polizei: ähm: anrufen und ähm: (-) [ … and because the car did not want to run over the woman and then came another car and this car had to brake abruptly and it actually ran into the first car and then they had to call up the police and …] The passage contains several interruptions of clausal structure and what, from a functional perspective, look like lexical searches, repairs and points of indecision. At the same time, grammatical analyses based on all four German data sets (2 spoken and 2 written), and also from a recording of informal conversation, show that the participant has mastered crucial properties of German syntax, in particular the ca- 3 The illustration in (1) is taken from an orthographic transcript of a recording made during the oral formal elicitation scenario. In this transcript as well as in (2) time-relevant stretches are highlighted: hesitation markers as a type of discourse glue are bolded, interruptions are indicated by “/ ”; various types of repetitions are underscored, silences are marked “(-)”; extra-lengthening is shown by “: ”; tongue clicks are placed in square brackets; “=” indicates cliticisation. <?page no="268"?> Rosemarie Tracy/ Dafydd Gibbon 268 nonical distribution of finite and non-finite verbs in main and subordinate clauses (Wöllstein 2014; Zifonun/ Hoffmann/ Strecker 1997). As mentioned before, in monolingual L1 German, 2L1, as well as in early L2 German these properties emerge and stabilize early (Schulz/ Tracy 2011; Tracy 1991, 2011; Tracy/ Thoma 2009), and they prove robust in HS German as well, even though in their case dominance may shift to the majority language. In contrast-- even though not evident from the passages above 4 -- because their acquisition is challenging for majority German L1 acquisition as well, HS’s gender and case marking may show extensive intra-individual fluctuation and inter-individual heterogeneity. The same can be observed for choice of prepositions. The following English passage, (2), was selected from a transcription of the same event reported in the oral “formal” English setting. (2) s: o i was standing um in a parking lot and there were two people um walking with their uh baby in a stroller and the man was um dribbling a soccer ball (-) [tongueclicking] um (-) and then there was also=a woman u: m either packing or or taking groceries out of her ca: r u: m and she had a do: g on a leash (-) u: m and then two ca: rs drove into: the parking lot and the um (-) first car had to brake really suddenly so as not to hit the people and the dog (-) so dog kind of jumped out in front of it um: and the: second car um: hit the (-) back o=the first car wasn=t a serious accident but um (-) uh they did (-) they did uh collide um [tongueclicking] In both (1) and (2) pauses and fillers (and sequences thereof) occur in transitionrelevant positions: clause-initial, coinciding with the beginning of new informational units (coding new moves or new events) and before major constituents (VPs, PPs); also note the two occurrences of introductory so, with the first one even starting the overall report. As we can also see, tongue clicking is not restricted to her HS German. The doubled or or might be due to the speaker offering an alternative interpretation to her first statement (loading or unloading). The grammar, however, is flawless. 4 The following excerpt from one of the texts written by participant 03 illustrates her non-canonical case and gender marking. The original orthography is preserved; deviant choices, including one misselection of an auxiliary, are marked by *: dan kam ein auto. es gab zwei personen mit *einen baby und eine frau mit *ein hund und lebensmittel. ein auto muste ganz schnell stoppen und ein anderes auto *hat ins *ersten auto reingefahren. (then came a car. there were two persons with a baby and a woman with a dog and groceries. a car had to stop very fast and another car drove into the first car.) <?page no="269"?> The Beat Goes On 269 4. Phonetic fluency: a case study of rhythm 4.1 Phonetic analysis: rhythm formants The qualitative linguistic analysis in the preceding sections is complemented by a phonetic approach. This approach is based on the insight that it is not only directly observable timing of specific units such as words and the discourse glue of hesitation particles and other items which are involved in establishing utterance cohesion, but that the timing patterns of entire utterances are crucial. Some utterances are more rhythmic or ‘resonant’ than others. Rhythms are specified in terms of rate, for example in syllables or words per second, or alternatively, as in the following analyses, when a spectral analysis is performed on the utterance, as frequency in hertz. The frequencies are typically below about 5-Hz, i. e. 1 beat per second, for the basic rhythm of accentuation, but at slower frequencies for phrasal and other rhythms which are influenced by information structure and rhetorical factors. The four oral German and English recordings were analysed in three steps. First, the signal is annotated on four tiers with qualitatively defined linguistic units: from syllables with and without ‘discourse glue’ chunks, to text and ‘discourse glue’ chunks only. Time stamps are extracted from the annotation for further analysis in order to determine the degree of temporal variability in the durations of the annotated units. Second, a modulation-theoretic approach is taken (Ohala 1992; Traunmüller 1994; Todd/ Brown 1994; Tilsen/ Johnson 2008; Gibbon/ Lin 2021; Gibbon 2021, 2022, 2023). Syllables, words, phrases and longer units cause variations in the amplitude of the speech signal, its amplitude modulation (AM), a phonetic correlate of the ‘sonority curve’ postulated in some phonological models. The signal is demodulated by taking absolute values of the low-pass filtered signal. This amplitude modulation (AM) envelope is then input into spectral analysis by FFT (Fast Fourier Transform) and the low frequency (LF) range of the spectrum is extracted, typically 0…5- Hz, where rhythm frequencies might be expected. The smoothed frequency modulation (FM) envelope (F0 estimation, ‘pitch track’), which conveys lexical tone, accentuation and intonation, is processed in the same way. The LF spectrum typically shows more or less clear (‘resonant’) magnitude peaks in certain frequency zones if the utterance is at all rhythmical. These peaks, whose frequencies are characteristic of rhythmic sequences of units such as syllables, words, phrases or longer discourse units, have been termed ‘rhythm formants’ (Gibbon 2021). Since a spectrum contains frequency information but no information about temporal variability of rhythm formant frequencies, an LF spectrogram, i. e. a sequence of shorter windowed spectra of the narrative, is derived in order to provide temporal information. Third, properties are extracted from the spectrum and the spectrogram of each narrative in order to compare different styles and languages: the slower rhythms of <?page no="270"?> Rosemarie Tracy/ Dafydd Gibbon 270 longer stretches of utterances are unlikely to reflect the linguistic typology of the language, and more likely to reflect rhetorical timing in the narrative. Using the property vectors extracted from the LF spectrum and LF spectrogram, distances (effectively: quantitative degrees of similarity or difference) between sets of different narratives are calculated pairwise with basic clustering methods of unsupervised machine learning. Using this methodology, differences between the speaker’s ML and HL can be investigated, with the prognosis that differences between temporal and related frequency properties of fluent and disfluent passages can be detected. 4.2 Annotation: duration analysis On the basis of this annotation and duration analysis, the following hypotheses were tested: H0: Syllable sequences are equally regular, whether with or without discourse glue sequences. H1: Syllable sequences containing discourse glue syllables are more rhythmical than syllable sequences without discourse glue. Fig.-1: Screenshot of an excerpt from the multitier orthographic annotation with the Praat phonetic workbench tool The first short extract quoted in Section-3.2 was annotated using the Praat (Boersma 2001) phonetic workbench (Fig.-1). Values of durations on each tier in the annotation were extracted and analysed with the TGA online tool (Gibbon 2013). The tiers are: Syllables (with hesitation particles and conjunctions as well as the text syllables); Text Syllables (syllables excluding hesitation particles and hesitation-marked conjunctions); Text (inter-hesitation text sequences) and Hesitations (hesitation-pauseconjunction sequences) separated by text sequences. Sequences of hesitation particles, pauses, the conjunction und and the conjunctive adverb dann were grouped into a set of discourse glue segments: ähm, äh, (-), (--), [tongue-clicking], und dann la- <?page no="271"?> The Beat Goes On 271 belled as a single discourse glue unit. Figures 2A (Syllables), 2B (Text Syllables), 2C (Text) and 2D (Hesitations) visualise the durations of the annotated utterance elements on each tier. 5 Measures such as the normalised pairwise variability index, nPVI, a variant of Normalised Manhattan Distance, have been frequently used to provide an index of differences between adjacent syllables as a measure of timing irregularity. The nPVI shows very close irregularity indices of 51 and 48 for the duration sequences shown in Figure 2A and Figure 2B, respectively. This is within the expected range for German, which is due mainly to the morphophonotactic patterns of German words with lexically stressed and unstressed syllables. The durations of narrative text chunks and discourse glue sequences are much more irregular, but have relatively similar regularity indices of 71 and 82. The relevant point in the present context is that internally the regularity indices of text chunks and discourse glue chunks are very similar, even though their durations are irregular, supporting the hypothesis that ‘discourse glue’ assures the rhythmic continuity of the narrative text and thus indirectly also supports the word status claim of Clark/ Fox Tree (2002). Clearly these observations of a segment of a case study cannot be taken as conclusive proof that discourse glue always supports rhythmic continuity, but they are a useful starting point for establishing hypotheses for more detailed work. Consequently, the initial annotation-based hypothesis for further comparison with rhythm formant analyses is that the discourse glue sections are not simply arbitrary inserts, but that they are metalocutionary turn-keeping control structures which are integrated into the flow of discourse and maintain the temporal cohesion of the narrative by continuing the rhythm of the preceding narrative. Figure 2A shows the sequence of syllable durations obtained from the annotation, with fairly regular long-short alternations, impressionistically interpreted as a clear rhythm. The timing pattern is as expected in a stress-pitch-accent language like German, in which relatively evenly spaced stress groups or foot units with alternating duration patterns are expected: a syllable with longer duration, typically a lexically stressed syllable, surrounded by one or more shorter syllables. The duration peaks tend to be above the mean (302.84ms), while the intervening shorter syllables tend to be below the mean. There are 24 duration peaks in an overall time span of 5 A discrepancy between the orthographic transcription in (1) and the acoustic, PRAAT-based segmentation in Table- 1 should be pointed out. In the former, the interpretation leading to <die das auto> plausibly results from the creaky-voice onset of [auto] auditorily interpreted as a fricative onset of the noun, hence / zauto/ . The interpretation <die das auto> in terms of an article repair matches other self-corrections elsewhere in the HL corpus. At the same time, an alternative repair sequence should also be kept in mind: instead of an article reparandum we may be dealing with a referent repair, with <die> (taken as a pronominal subject) referring to other protagonists in the video followed by an interruption and a full NP repair <das Auto>. <?page no="272"?> Rosemarie Tracy/ Dafydd Gibbon 272 30.92s, an average duration of 1.388s, corresponding to a foot rate of 0.776/ sec (i. e. a foot-rhythm frequency of 0.776Hz). On comparison of the duration patterns with B, without the discourse glue segments, it is evident-- simply on impression, without further quantitative analysis-- that the discourse glue segments contribute to the salience of a fairly regular alternating rhythm. The phonetic properties of the utterance thus apparently reflect the hypothesised role of the discourse glue segments, providing support for the regularity and cohesion of the utterance. Informally, therefore, H0, the null hypothesis, is refuted and H1, the substantive alternative hypothesis, is not. Fig.-2: Durations of annotated segments. A: all syllables; B: only text syllables; C: Interpausal units (“Text”); D: Discourse glue (see text). Solid lines: mid mean; top and bottom +/ - SD. Dotted lines: peak detection thresholds Whether this observation is generalisable or not is not the issue here, as this is a small exploratory case study, and as such it is not concerned with large data sets. The point is that if it is claimed that discourse glue enhances the cohesion of the utterance, then this is one of the ways to go. Discourse glue N ms and [English] 2 570, 356 ähm 2 355, 718 ähm äh äh 1 801 ähm pause ähm 1 2621 <?page no="273"?> The Beat Goes On 273 Discourse glue N ms pause 1 232 pause äh 1 397 pause ähm äh pause dann 1 2020 und 2 405, 308 und ähm pause ähm 1 1638 und ähm pause und dann ähm pause äh 1 4810 Total: 13 Table-1: Sample of durations (from the German formal narrative) Figure 2C and Figure 2D indicate that the duration sequencing of the two annotated categories concerned has a temporal complementary distribution. The regular text sequences in Figure- 4, separated by discourse glue units, vary in duration, with shorter intervals of local lexical units and longer intervals characterising narrative episodes. A sample of more detailed information about the durations of the discourse glue sequences is provided in Table-1. The exploratory results suggest that there are three categories of temporal discourse glue sequence: 1)- very short (in this text corresponding to single occurrences of ‘ähm’ or short pauses), indicating, somewhat speculatively, local lexical access related hesitations, 2)- very long events, corresponding to narrative planning and execution, and 3)-an intermediate duration, possibly also marking shorter narrative planning events. 5. Rhythm Formant Analysis: rhythm frequencies 5.1 What’s in the envelope? Irregularity measures, such as the nPVI used in the preceding section, do not measure rhythm as such, but characterise only one necessary condition for rhythm by providing an index of temporal regularity. For this purpose, software-supported time-stamped annotations of the utterance or, in older studies, tapping with a counter and using a stopwatch, are the empirical basis. These procedures are dependent on prior top-down definition of linguistic units such as syllable, foot, word, phrase or of longer discourse units (cf. the overview in Lin/ Gibbon 2019). But there is an important gap in this approach if the concept of rhythm itself is to be explicated: the nPVI, like other similar descriptive statistical dispersion measures, does not account for the alternation and rhythm frequencies or longer or shorter, <?page no="274"?> Rosemarie Tracy/ Dafydd Gibbon 274 stronger or weaker, stressed or unstressed units. Alternation and frequency (i. e. oscillations of specific frequencies) are both essential properties of rhythms and are often reflected in traditional discussions of syllable rate, foot rate or word rate (cf. Section-2). Despite the value of these approaches as heuristics which provide a rough characterisation of the regularity of speech, for a description of rhythm, and indeed for an explanation, a more complete account of the frequencies of rhythms with a theoretical underpinning such as Rhythm Formant Theory and its associated method Rhythm Formant Analysis are needed. The basic signal processing parameters which are required for Rhythm Formant Analysis are shown in Figure-3, which corresponds exactly to the formal spoken narrative data selection discussed previously. The amplitude modulated (AM) signal is demodulated by taking absolute values of the samples (full-wave rectification of the signal) and smoothing these values with a low-pass filter. The result is the amplitude modulation (AM) envelope, a phonetic correlate of the sonority curve postulated in some phonological theories, shown in Figure-3 (top panel) as the outline of positive amplitude values. The frequency modulated (FM) signal, on the other hand, is demodulated with a moving time-domain window which registers similarities in successive segments of the signal. For this purpose the Average Magnitude Difference Function (AMDF) was implemented. The output is the frequency modulation envelope (often known as F0-estimation, or ‘pitch’ track), which is a phonetic correlate of intonation, tone and pitch accent. Fig.-3: Signal properties required for RFA: upper panel, waveform (light grey), amplitude modulation envelope (dark grey); lower panel, frequency modulation envelope (F0 estimation, ‘pitch’ track) 5.2 Spectral peaks Both the AM envelope and the FM envelope are processed with the whole narrative as the sample window, using the Fast Fourier Transformation (FFT). This analysis <?page no="275"?> The Beat Goes On 275 transforms the signal in the time domain to the frequency domain, producing a spectrum. The range 0,…5-Hz is selected as a relevant range for rhythm frequencies (5-Hz corresponds to average unit lengths of 200ms, typically syllables). The output of the spectral analysis for each case is shown in Figure-4. Fig.-4: Upper panel: Smoothed AM envelope spectrum. Lower panel: smoothed FM envelope with background column chart. The column charts group and average neighbouring frequencies. Both graphs show conspicuous and not so conspicuous peaks, and the two spectra only partially match each other, with more clear peaks in the AM spectrum. There is a similarity at about 0.3-Hz, an average unit length of around 3-s, which is, on inspection, approximately the interval between the longer discourse glue intervals. The details of where exactly the match lies for each peak are questions for future investigation, and do not fall into the more holistic scope of the present paper. 6. Language and setting: spectrogram analysis and utterance comparison The potential of RFA spectral analysis, combined with basic unsupervised machine learning clustering techniques, for comparing speech in different languages, dialects and speech styles is applied to the four speaker-03 narratives. Parameters for comparison can be the spectrum, peaks in the spectrum, or tracks of the highest magnitudes and their associated frequencies through the spectral slices in the low frequency spectrogram, for example. Different clusterings can be expected, depending on the selected parameters. Clustering describes exactly how items are more or less similar to each other and provides a useful starting point for future investigation. <?page no="276"?> Rosemarie Tracy/ Dafydd Gibbon 276 Fig.-5: Waterfall spectrogram of the selected speaker-03 narrative excerpt: each horizontal line represents a spectral slice with FFT over a 3s window. Time axis reads bottom to top Each row of the low frequency spectrogram matrices contains values for one spectrum (or ‘spectral slice’) of a segment of the signal. The spectrograms are derived both from the AM and the FM envelopes. Figure-5 visualises the matrix as a waterfall with wavy lines and dots for the highest magnitude in the spectral slice. For each of the four narratives, trajectories were extracted from the sequence of spectral slices, consisting of the maximum magnitude in each spectral slice and its associated frequency. The four resulting trajectories are visualised in the four panels of Figure-6, for formal and informal English and formal and informal German, with the following information: 1) AM: the highest magnitude track from each of the four narratives (Panel A), and the associated frequency tracks (Panel B). 2) FM: the highest magnitude track from each of the four narratives (Panel C), and the associated frequency track (Panel D). Visual inspection already shows possible clustering trends between tracks: in Panel A (AM magnitudes), the English narratives appear visually to be most similar, with high magnitudes and high magnitude variation with further similarities in the FM tracks in Panel B.. The maximum magnitude frequency tracks are hard to interpret visually. <?page no="277"?> The Beat Goes On 277 Fig.-6: Top 4 tracks of maximum magnitudes in spectral slices: Panel A, AM; Panel B, FM: frequency tracks with these magnitudes: Panel C, AM; Panel D, FM. Formatted as small panels to permit holistic comparison by visual impression Fig.-7: Distance based hierarchical clustering of speaker-03 narratives, with spectrogram trajectories. Panel A: AM magnitudes, Panel B: FM magnitudes, Panel C: FM maxmagnitudes, Panel D: FM max-magnitude frequencies. All panels: Chebyshev distance, complete clustering <?page no="278"?> Rosemarie Tracy/ Dafydd Gibbon 278 The trajectories visualised in Figure- 6 are compared pairwise using standard distance metrics. It is not a priori clear which distance metric is most suitable for these data so several popular metrics were examined: Manhattan (Cityblock, Mannheim) distance, Normalised Manhattan (Canberra) distance, Chebyshev (Chessboard, Maximum Value) distance, Cosine distance and Euclidean distance. Based on the results of the pairwise distance tables, a range of criteria was tested: cluster average, furthest element (complete, Voorhees), nearest element, least variance (Ward). Chebyshev distance with complete clustering provided the most interesting results (Fig.- 7): the main clusters for the magnitude tracks are based on the language criterion, while (only for AM) for the frequency tracks the styles are clustered first. The distance-clusterings for FM spectrogram frequency tracks failed to confirm these results and require further investigation. 7. Two conclusions 7.1 Methodological potential The main concern in the present study is to examine different methods for establishing cohesion in temporal patterns in HL use of bilingual speakers. The goal is not necessarily to come to a firm quantitative result or to work out the details of which spectral frequencies match exactly with which linguistic features but to search for ideas for improving the empirical grounding of speech rhythm as a cohesion factor. A number of pointers to interesting directions of study emerged. Grouping certain discourse particles together proved to have consequences for the cohesion of the narrative in terms of regularity of duration patterns: 1) Using the annotation method: a) syllable duration regularity is higher when ‘discourse glue’ sequences are included together with text; b) varying lengths of text sequences appear to indicate episodes of different kinds in the narrative; c) varying lengths of discourse glue sequences appear to indicate complementary distribution in relation to the text, and hence possibly complementary functionality in regard to local lexical access hesitation on the one hand, and non-local narrative planning with metalocutionary functionality on the other. 2) Using the Rhythm Formant Analysis method: a) the four speech varieties were distinguished using spectral data; b) AM and FM variation requires different comparison criteria, possibly related to different structural properties. <?page no="279"?> The Beat Goes On 279 Indirect evidence for the status of ‘discourse glue’ items such as hesitation particles was provided. Clearly, a small case study such as the present investigation can only be a source of hypotheses and the results, without follow-up research, remain speculation, albeit empirically motivated. The issue of which similarity measures are most appropriate for the spectral time series remains open. More sophisticated distance comparison techniques are called for, and much larger datasets are needed in order to apply modern supervised machine learning techniques. In any case, as already mentioned by De Jong (2018, p.-227) with respect to L2 acquisition and proficiency assessments: “Future research should focus on finding ways to ensure that the measures used in testing reflect the ability to talk fluently and efficiently, rather than measures that only reflect listeners’ impressions about such ability, and to show that these can be marked appropriately and reliably”. 7.2 Epilogue Denn eben wo Begriffe fehlen, da stellt ein Wort zur rechten Zeit sich ein. Goethe, Faust I, Mephistopheles, Schülerszene Aber sie vergriff sich im Tone, sie nahm ihn zu fein. Lessing, Emilia Galotti, V.-Aufzug, 7.-8.-Auftritt The first much quoted assertion by Mephistopheles, often not recognised as cynical, is roughly translatable as where concepts are lacking, a word may pop up just in time, and seems like an appropriate overall conclusion, provided one is willing to grant word-like status-- as proposed by Clark/ Fox Tree (2002)-- to the humming and hawing of conventionalized non-lexical inserts with metalocutionary function. The Lessing quote (translatable as her tone was misplaced, her dealings were too gentle) points to the many challenges in discourse style choices, including those in HL with the choice of the prosodic features of rhythm. In view of the previous discussion, however, the even more relevant part of the Goethe quote is the “zur rechten Zeit”, if taken not just as “just in time” but, more literally, “at the right time”. A speaker-specific long-term rhythmic speaking pattern may be upheld even under the challenge of lexical uncertainty and other planning problems. This means that when we look at adult HSs who are no longer immersed in the language of their childhood, more should be considered than a local slot for missing text segments or slowed speech, and holistic prosodic features derived from the locutionary channel and the metalocutionary prosodic channels are important. From a prosodic perspective, as outlined here, the potentially disturbed temporal rhythm, derived from sonority and pitch patterns and their phonetic correlates, is repaired with discourse glue and the beat goes on. <?page no="280"?> Rosemarie Tracy/ Dafydd Gibbon 280 Acknowledgments We gratefully acknowledge the DFG grant to the first author (TR 238/ 5-1 and 6-1, DFG reference 2357). Speaker: Heike Wiese, HU Berlin. And support to the second author during guest stays in China, at Jinan University, Guangzhou and Tongji and Fudan Universities, Shanghai. We also thank everyone from the RUEG project involved in collecting, transcribing and annotating the data discussed here. References Abutalebi, Jubin/ Green, David W. (2008): Control mechanisms in bilingual language production: Neural evidence from language switching studies. In: Language and Cognitive Processes-23,-4, pp.-557-582. Anderson, John A. E./ Somayya, Saleemi/ Bialystok, Ellen (2017): Neuropsychological assessments of cognitive aging in monolingual and bilingual older adults. In: Journal of Neurolinguistics-43,-A, pp.-17-27. Auer, Peter (ed.) (1998): Code-switching in conversation: Language, interaction and identity. London i. a.: Routledge. Belz, Malte (2021): Die Phonetik von „äh“ und „ähm“. Akustische Variation von Füllpartikeln im Deutschen. Berlin: Metzler. Belz, Malte/ Sauer, Simon/ Lüdeling, Anke/ Mooshammer, Christine (2017): Fluently disfluent? Pauses and repairs of advanced learners and native speakers of German. In: International Journal of Learner Corpus Research-3,-2, pp.-118-148. Bialystok, Ellen (2009): Bilingualism: The good, the bad, and the indifferent. In: Bilingualism: Language and Cognition-12,-1, pp.-3-11. Boas, Hans-Christian (2009): The life and death of Texas German. Durham, NC: Duke University Press. Boersma, Paul (2001): Praat, a system for doing phonetics by computer. In: Glot International-5,-9/ 10, pp.-341-345. Brehmer, Bernhard/ Treffers-Daller, Jeanine (eds.) (2020): Lost in transmission: The role of attrition and input in heritage language development. (=- Studies in Bilingualism-59). Amsterdam/ Philadelphia: Benjamins. Bullock, Barbara E./ Toribio, Almeida J. (eds.) (2009): The Cambridge handbook of linguistic code-switching. (=-Cambridge Handbooks in Language and Linguistics). Cambridge i. a.: Cambridge University Press. Clark, Herbert H./ Fox Tree, Jean E. (2002): Using “uh” and “um” in spontaneous speaking. In: Cognition-84,-1, pp.-73-111. Clyne, Michael (1987): Constraints on code-switching: How universal are they? In: Linguistics-25,-4, pp.-739-764. De Jong, Nivja H. (2018): Fluency in second language testing: Insights from different disciplines. In: Language Assessment Quarterly- 15,- 3: Conceptualizing and Operationalizing Speaking Assessment for a New Century, pp.-237-254. <?page no="281"?> The Beat Goes On 281 De Jong, Nivja H./ Groenhout, Rachel/ Schoonen, Rob/ Hulstijn, Jan H. (2015): Second language fluency: Speaking style or proficiency? Correcting measures of second language fluency for first language behavior. In: Applied Psycholinguistics-36,-2, pp.-223-243. Dirim, Inci/ Mecheril, Paul (2018): Heterogenität, Sprache(n), Bildung. Die Schule der Migrationsgesellschaft. Bad Heilbrunn: Klinkhardt. Döpke, Susanne (ed.) (2000): Cross-linguistic structures in simultaneous language acquisition. (=-Studies in Bilingualism-21). Amsterdam/ Philadelphia: Benjamins. Fischer, Kerstin (2000): From cognitive semantics to lexical pragmatics: The functional polysemy of discourse particles. Berlin/ New York: Mouton de Gruyter. Gawlitzek-Maiwald, Ira/ Tracy, Rosemarie (1996): Bilingual bootstrapping. In: Linguistics-34,-5, pp.-901-926. Gibbon, Dafydd (1983): Intonation in context. An essay on metalocutionary deixis. In: Rauh, Gisa (ed.): Essays on deixis. (=- Tübinger Beiträge zur Linguistik- 188). Tübingen: Narr, pp.-195-218. Gibbon, Dafydd (2013): TGA: A web tool for time group analysis. In: Hirst, Daniel/ Bigi, Brigitte (eds.): Proceedings of the international workshop on tools and resources for the analysis of speech prosody, Aix-en-Provence, France, pp.-66-69. Gibbon, Dafydd (2021): The rhythms of rhythm. In: Journal of the International Phonetic Association ( JIPA), First View. 16 August 2021, pp.-1-33. Gibbon, Dafydd (2022): Speech rhythms: learning to discriminate speech styles. In: Proceedings of the speech prosody 2022. Lisbon, Portugal 23-26- May 2022. Lissabon: Universidade de Lisboa, pp.-302-306. Gibbon, Dafydd (2023). Rhythm pattern discovery in Niger-Congo story-telling. In: Frontiers in Communication-8, pp.-1-18. Gibbon, Dafydd/ Lin, Xuewei (2021): Rhythm zone theory: Speech rhythms are physical after all. In: Wrembel, Magdalena/ Kiełkiewicz-Janowiak, Agnieszka/ Gąsiorowski, Piotr (eds.): Approaches to the study of sound structure and speech. Interdisciplinary work in honour of Katarzyna Dziubalska-Kołaczyk. (=- Routledge Studies in Linguistics). New York/ London: Routledge, pp.-109-128. Green, David W. (1998): Mental control of the bilingual lexico-semantic system. In: Bilingualism: Language and Cognition-1,-2, pp.-67-81. doi: 10.1017/ S1366728998000133. Grosjean, François (2008): Studying bilinguals. (=- Oxford Linguistics). Oxford i. a.: Oxford University Press. Hopp, Holger/ Putnam, Michael (2015): Syntactic restructuring in heritage grammars. Word order variation in Moundridge Schweitzer German In: Linguistic Approaches to Bilingualism-5,-2, pp.-180-214. Housen, Alex/ Kuiken, Folkert/ Vedder, Ineke (eds.) (2012): Dimensions of L2 performance and proficiency: Complexity, accuracy and fluency in SLA. (=-Language Learning & Language Teaching-32). Amsterdam/ Philadelphia: Benjamins. Isurin, Ludmila/ Winford, Donald/ de Bot, Kees (eds.) (2009): Multidisciplinary approaches to code switching. (=-Studies in Bilingualism-41). Amsterdam/ Philadelphia: Benjamins. <?page no="282"?> Rosemarie Tracy/ Dafydd Gibbon 282 Krause, Thomas (2019): ANNIS: A graph-based query system for deeply annotated text corpora. Diss. Berlin: Humboldt-Universität zu Berlin. Kroll, Judith F./ Bialystok, Ellen (2013): Understanding the consequences of bilingualism for language processing and cognition. In: Journal of Cognitive Psychology 25, 5, pp.-497-514. Kroll, Judith F./ Gollan, Tamar H. (2014): Speech planning in two languages: What bilinguals tell us about language production. In: Goldrick, Matthew/ Ferreira, Victor/ Miozzo, Michele (eds.): The Oxford handbook of language production. (=-Oxford Library of Psychology). Oxford/ New York, pp.-165-181. Levelt, Willem J. (1989): Speaking: From intention to articulation. Cambridge, MA/ London: MIT Press. Lin, Xuewei/ Gibbon, Dafydd (2019): Classroom reading: Speech assessment from a phonetic perspective. In: Cox, Lisa Hale/ Zhang, Jin/ Yong, Qian (eds.): Proceedings of the International symposium on SLA-based language Pedagogy, Jinan University, Guangzhou, January 04-06, 2019. Marietta, GA: American Scholar Press, pp.-312-318. Montrul, Sylvana (2016): The acquisition of heritage languages. Cambridge: Cambridge University Press. Montrul, Sylvana/ Polinsky, Maria (eds.) (2021): The Cambridge handbook of heritage languages and linguistics. Cambridge: Cambridge University Press. Muysken, Pieter (2013): Language contact outcomes as the result of bilingual optimization strategies. In: Bilingualism: Language and Cognition 16, 4, pp.-709-730. Nagy, Naomi/ Brook, Marisa (2020): Constraints on speech rate: A heritage-language perspective. In: International Journal of Bilingualism pp.-1-20. DOI: 10.1177/ 1367006920920935. Ohala, John J./ Kawasaki-Fukumori, Haruko (1992): Alternatives to the sonority hierarchy for explaining segmental sequential constraints. In: Ziółkowski, Michaeł (ed.): Papers from the Parasession on the syllable in phonetics & phonology. Chicago, IL: Chicago Linguistic Society (CLS), pp.-319-318. Polinsky, Maria (2008): Gender under incomplete acquisition: heritage speakers’ knowledge of noun categorization. In: Heritage Language Journal-6,-1, pp.-40-71. Polinsky, Maria (2018): Heritage languages and their speakers. (=-Cambridge Studies in Linguistics-159). Cambridge: Cambridge University Press. Schmid, Monika S. (2011): Language attrition. (=-Key Topics in Sociolinguistics). Cambridge: Cambridge University Press. Schmid, Monika S./ Dusseldorp, Elise (2010): Quantitative analyses in a multivariate study of- language attrition: The impact of extralinguistic factors. In: Second Language Research-26,-1, pp.-125-160. Schulz, Petra/ Tracy, Rosemarie (2011): Linguistische Sprachstandserhebung- - Deutsch als Zweitsprache (LiSe-DaZ®). (=-Reihe “Deutsche Schultests“). Göttingen: Hogrefe. Stolberg, Doris (2015): Changes between the lines. Diachronic contact phenomena in written Pennsylvania German. (=-Studia Linguistica Germanica-118). Berlin/ Boston: De Gruyter. Tilsen, Samuel/ Johnson, Keith (2008): Low-frequency Fourier analysis of speech rhythm. In: The Journal of the Acoustic Society of America ( JASA)-124, EL34-EL39. <?page no="283"?> The Beat Goes On 283 Todd, Neil P. McAngus/ Brown, Guy J. (1994): A computational model of prosody perception. In: Proceeding of the 3 rd international conference on spoken language processing (ICSLP 1994), Yokohama, Japan, 18-22-September 1994, pp.-127-130. Tracy, Rosemarie (2011): Konstruktion, Dekonstruktion und Rekonstruktion: Minimalistische und (trotzdem) konstruktivistische Überlegungen zum Spracherwerb. In: Engelberg, Stefan/ Holler, Anke/ Proost, Kristel (eds.): Sprachliches Wissen zwischen Lexikon und Grammatik. (=- Jahrbuch des Instituts für Deutsche Sprache- 2010). Berlin/ Boston: De Gruyter, pp.-397-428. Tracy, Rosemarie (2022): Gemischtsprachiges Sprechen: Formen, Funktionen, Dynamik. In: Földes, Czaba/ Roelcke, Thorsten (eds.): Handbuch Mehrsprachigkeit. (=- Handbücher Sprachwissen (HSW)-22). Berlin/ Boston: De Gruyter, pp.-399-427. Tracy, Rosemarie/ Thoma, Dieter (2009): Convergence on finite V2 clauses in L1, bilingual L1 and early L2 acquisition. In: Jordens, Peter/ Dimroth, Christine (eds.): Functional categories in learner language. (=- Studies on Language Acquisition (SOLA)- 37). Berlin/ New York: De Gruyter, pp.-1-43. Traunmüller, Hartmut (1994): Conventional, biological, and environmental factors in speech communication: A modulation theory. In: Phonetica-51,-1-3, pp.-170-183. Treffers-Daller, Jeanine (2022): The simple view of borrowing and code-switching. In: International Journal of Bilingualism. Tsimpli, Ianthi M. (2014): Early, late or very late? Timing acquisition and bilingualism. In: Linguistic Approaches to Bilingualism-4,-3, pp.-283-313. Wiese, Heike (2020): Language situations: A method for capturing variation within speakers’ repertoires. In: Yoshiyuki, Asahi (ed.): Proceedings of methods XVI.-Papers from the sixteenth international conference on methods in dialectology, 2017. (=-Bamberger Beiträge zur englischen Sprachwissenschaft-59). Frankfurt: Lang, pp.-105-117. Wiese, Heike/ Tracy, Rosemarie/ Sennema, Anke (2020): Deutschpflicht auf dem Schulhof ? Warum wir Mehrsprachigkeit brauchen. Berlin: Dudenverlag. Wiese, Heike/ Alexiadou, Artemis/ Allen, Shanley/ Bunk Oliver/ Gagarina, Natalia/ Iefremenko, Kateryna/ Martynova, Maria/ Pashkova, Tatiana/ Rizou, Vasiliki/ Schroeder, Christoph/ Shadrova, Anna/ Szucsich, Luka/ Tracy, Rosemarie/ Tsehaye, Wintai/ Zerbian, Sabine/ Zuban Yulia (2022): Heritage Speakers as Part of the Native Language Continuum. Front. Psychol. 12: 717973. doi: 10.3389/ fpsyg.2021.717973. Wöllstein, Angelika (2014): Topologisches Satzmodell. 2., aktual. Aufl. (=-Kurze Einführungen in die germanistische Linguistik-8). Heidelberg: Winter. Zifonun, Gisela/ Hoffmann, Ludger/ Strecker, Bruno (1997): Grammatik der deutschen Sprache. Bd.-3. (=-Schriften des Instituts für Deutsche Sprache-7.3). Berlin/ New York: Mouton de Gruyter. <?page no="285"?> KORPUSGESTÜTZTE ANALYSE INTERNETBASIERTER KOMMUNIKATION <?page no="287"?> MICHAEL BEIẞWENGER/ SARAH STEINSIEK INTERPUNKTION ALS INTERAKTIONALE RESSOURCE Eine korpusgestützte Untersuchung zur Funktion von Auslassungspunkten in-der-internetbasierten Kommunikation Abstracts : Der Beitrag untersucht Praktiken der Adaption von Auslassungspunkten für die Bearbeitung von Anforderungen des interaktionsorientierten Schreibens. Ausgehend vom Stand der Forschung wird anhand einer randomisierten Stichprobe aus dem MoCoDa2-Korpus gezeigt, welche formalen und funktionalen Charakteristika sich für die Verwendung von Auslassungspunkten in WhatsApp-Chats nachweisen lassen. Aus der Analyse der Stichprobe wird eine Funktionstypologie abgeleitet, anhand derer sich Praktiken des Auslassens, Andeutens, Organisierens und Segmentierens mittels Auslassungspunkten in Produkten des text- und des interaktionsorientierten Schreibens vergleichen lassen. In this paper we examine how ellipsis points are adapted for the purposes and requirements of interaction-oriented writing. Based on current research and a random sample from the MoCoDa2 corpus, we describe formal and functional characteristics of ellipsis points in WhatsApp chats. From our analysis we develop a typology that allows to compare practices of omission, segmentation, indication and sequential organization using ellipsis points in textand interaction-oriented writing. Keywords: Praktiken, Interpunktion, Auslassungspunkte, Schriftlichkeit, internetbasierte Kommunikation, Interaktion, interaktionsorientiertes Schreiben, Pragmatik, Korpuslinguistik, MoCoDa2 1. Einleitung Die internetbasierte Kommunikation ist ein facettenreiches Forschungsfeld für die Analyse von Praktiken im Entstehen (vgl. Beißwenger 2016). Die funktionale Anpassung schriftsprachlicher Mittel an Aufgaben der Interaktionskonstitution und -organisation bildet seit Beginn der linguistischen Beschäftigung mit dem Schreiben in digitalen Kommunikationsumgebungen einen zentralen Forschungsgegenstand. Sprachwandel vollzieht sich hier unter aller Augen und unter jedermanns Fingern. Den Mythos, dass dabei eine eigenständige ‚Netzsprache‘ entstünde, hat die Linguistik in diesem Zusammenhang schon früh zurückgewiesen (vgl. z. B. Dürscheid 2004) und empirisch fundiert Argumente dafür präsentiert, dass die vermeintlich normabweichende Sprachverwendung bei der Kommunikation in Chats, Online- Foren und sozialen Netzwerken keinen Ab-, sondern einen Ausbau der schriftsprachlichen Ausdrucksmöglichkeiten darstellt, der, bedingt durch die kommunikationstechnologischen Innovationen des Internets, im Sinne einer gesellschaftlich ausgehandelten ‚Best Practice‘ auf das Vordringen geschriebener Sprache in den Bereich der interaktionalen Nähekommunikation mit dafür angepassten Gebrauchsnormen und Praktiken reagiert (vgl. Storrer 2014). Der Schreibgebrauch in der inter- DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="288"?> Michael Beiẞwenger/ Sarah Steinsiek 288 netbasierten Kommunikation stellt dabei gerade keinen Bruch mit der schriftsprachlichen Tradition dar, sondern deren gegenwärtige Weiterentwicklung unter den spezifischen Anforderungen ihrer Verwendung in einem (vergleichsweise) neuen Kommunikationsbereich, in dem Interaktion unter Rückgriff auf Schriftlichkeit und Textformen organisiert wird (vgl. Beißwenger 2020) und in dem eine Schreibhaltung prominent geworden ist, die Storrer (2012, 2018) als interaktionsorientiertes Schreiben beschrieben hat. Androutsopoulos (2018, 2020) und Busch (2021, S.- 308-410) haben kürzlich aufschlussreiche Untersuchungen dazu vorgelegt, wie sich die Adaption schriftsprachlicher Mittel für die Anforderungen der Interaktion am Beispiel von Interpunktionszeichen zeigt. In diesem Beitrag möchten wir an diese Arbeiten anknüpfen und anhand von Analysen zum Gebrauch von Auslassungspunkten in einer randomisierten Stichprobe aus einem WhatsApp-Korpus (MoCoDa2) den Forschungsstand zum Thema erweitern. Dabei gehen wir zunächst reproduzierend vor und übertragen die von Androutsopoulos (2020) durchgeführten Untersuchungen zur Form und topologischen Distribution von Auslassungspunkten in der Facebook-Kommunikation auf unsere Daten. Anschließend betrachten wir unseren Gegenstand unter funktionaler Perspektive und ermitteln anhand einer qualitativen Analyse unserer Korpusbelege die Funktionen, die sich den einzelnen Verwendungen vor dem Hintergrund des sequenziellen und sprachlichen Kontexts zuweisen lassen. Auch hier knüpfen wir an vorhandene Funktionsbeschreibungen an, entwickeln diese aber weiter mit dem Ziel, anhand der Belege in unserer Korpusstichprobe und unter Berücksichtigung ihrer orthografietheoretischen Modellierung eine Funktionstypologie für Auslassungspunkte zu entwickeln, die die Praktiken ihrer Verwendung im textorientierten wie im interaktionsorientierten Schreiben gleichermaßen erfasst. Bei der Darstellung unserer Untersuchung folgen wir der IMRAD-Struktur (vgl. Sollaci/ Pereira 2004; Müller-Spitzer/ Koplenig/ Wolfer 2022, S.- 33). Wir beginnen mit einer Einführung in den Untersuchungsgegenstand, verorten diesen im Stand der Forschung und formulieren unsere Forschungsfragen (I-= introduction, Abschn.- 2). Daran anschließend erläutern wir unser methodisches Vorgehen und beschreiben die für die Untersuchung genutzten Korpusdaten (M-= method, Abschn.-3). Abschließend präsentieren wir die Befunde unserer Korpusuntersuchung (R- = results, Abschn.-4) und (A-= and) diskutieren diese hinsichtlich ihrer Bedeutung für die Beantwortung der eingangs formulierten Fragestellungen (D- = discussion, Abschn.- 5). Ausgehend von dem gewonnenen Erkenntnisstand werden wir dabei auch Perspektiven für lohnenswert erscheinende Anschlussforschungen formulieren. <?page no="289"?> Interpunktion als interaktionale Ressource 289 2. Auslassungspunkte in digitaler Alltagsschriftlichkeit: Untersuchungsgegenstand und Forschungsfragen Im Folgenden charakterisieren wir Auslassungspunkte zunächst hinsichtlich ihres Gebrauchs in redigierten Texten. In einem zweiten Schritt werden wir auf vorliegende Befunde zu ihrer Verwendung in der internetbasierten Kommunikation eingehen und daraus die Fragestellungen für unsere eigene Untersuchung ableiten. Auslassungspunkte stellen für den Einblick in Prozesse der Adaption schriftsprachlicher Mittel für Zwecke der Interaktion und der Nähekommunikation einen besonders interessanten Fall dar. Sie haben kein unmittelbares Pendant in der gesprochenen Sprache, sondern sind genuin schriftsprachliche Mittel. Sie lassen sich in gesprochener Sprache nicht oralisieren, sondern bestenfalls paraphrasieren. Ihre Genese und ihr Gebrauch in nicht-digitaler Schriftlichkeit sind gut erforscht, und im amtlichen Regelwerk der deutschen Rechtschreibung existiert dazu eine kodifizierte Norm, die in der folgenden Regelformulierung zusammengefasst ist: § 99 Mit drei Punkten (Auslassungspunkten) zeigt man an, dass in einem Wort, Satz oder Text Teile ausgelassen worden sind. (AR 2018, S.-100) Geläufig ist der Gebrauch von Auslassungspunkten (im Weiteren: AP) im Sinne dieser Regel zum Beispiel aus wissenschaftlichen Texten, wenn in Zitaten aus Werken anderer Autor: innen Passagen (Sätze, Teilsätze), die für die Argumentation nicht relevant sind, ausgelassen und entsprechend markiert werden. § 99 des Amtlichen Regelwerks liefert aber auch die folgenden Beispiele: (a) Du bist ein E…! Scher dich zum …! (b) „… ihm nicht weitersagen“, hörte er ihn gerade noch sagen. (AR 2018, S.-101) Analysiert man die AP in den beiden Beispielen lediglich als Auslassungen, ergibt sich unter pragmatischer Perspektive eine stark vereinfachende Beschreibung, der sich wenig über die dahinterstehende Schreibentscheidung entnehmen lässt. Interessant an den Beispielen ist gerade, dass wir auch ohne Kenntnis des situativen und textuellen Kontexts (es handelt sich nicht um authentische Belege, sondern um konstruierte Beispiele) anhand unseres Erfahrungswissens eine Deutung zu der Entscheidung der Schreiberin bzw. des Schreibers formulieren können, bestimmte Segmente der sprachlichen Äußerung auszulassen, und zwar: In Beispiel (a) dürfte der Verzicht auf die Versprachlichung von Wortteilen auf Normen sprachlicher Höflichkeit rückführbar sein; der bzw. die Schreiber: in liefert aber hinreichend sprachlichen Kontext, damit der oder die Adressat: in der Äußerung das Ausgelassene selbst ergänzen kann. Den Unterschied macht dabei gerade, dass im Falle der Auslassung der bzw. die Adressat: in das Wort in der Verarbeitung selbst konstruieren muss, womit der bzw. die Verfasser: in nicht so leicht für die Deutung der Äußerung zur Verantwortung gezogen werden kann, als wenn sie oder er sie vollständig ausformuliert hätte. In Beispiel (b) dienen die AP dazu, etwas zuvor in der Figurenrede Gesagtes <?page no="290"?> Michael Beiẞwenger/ Sarah Steinsiek 290 als nicht wahrgenommen zu markieren. Da die Auslassung in (b) nicht, wie in (a), hinsichtlich Länge und Struktur spezifiziert ist (Teilsatz, Satz, mehrere Sätze? ), kann in diesem Fall die Leserin oder der Leser das Ausgelassene im Geiste nicht ergänzen; die AP markieren vielmehr entweder den ausgelassenen oder den nicht ausgelassenen Teil der Äußerung als bedeutsames Element der Narration und wecken dadurch eine Erwartung bzw. unterstützen den Spannungsaufbau: Entweder soll im Kontext der Erzählung das Nichtgesagte verrätselt werden oder es wird auf die Tatsache fokussiert, dass etwas Gesagtes, das im gegebenen Kontext bekannt oder nicht weiter relevant ist, jemandem, zum Beispiel dem bzw. der Zuhörer: in, nicht weitergesagt werden dürfe (aufgrund des begrenzten Kontexts wäre sowohl das eine als auch das andere denkbar). Es darf somit festgehalten werden, dass, wenngleich im Regelwerk nicht explizit thematisiert, AP auch in der geschriebenen Standardsprache nicht ‚nur‘ der Auslassung sprachlichen Materials dienen, sondern daneben auch pragmatische und stilistische Funktionen übernehmen können. Befunde zur Geschichte und Systematik von Interpunktionszeichen bestätigen, dass AP schon vor der Normierung in Texten in stilistischer Funktion gebraucht wurden, und zwar insbesondere im Rahmen der Figurenrede, was Parkes (1992) als Ausdruck einer Simulation (nicht Repräsentation) gesprochener Sprache mit den Mitteln des Schriftsystems beschreibt: However, the written medium had become so independent of that of the spoken medium having its own complex conventions, that the expectation that one could represent spoken discourse in a work of fiction was itself an illusion. […] 1 The novelist was obliged to impose on readers the responsibility of reconstructing speech, requiring them to contribute their own experience of actual conversation to foster that illusion, and to accept what they found in the text as a record of dialogue. To induce this reaction novelists developed special conventions involving choice of vocabulary and syntactical features, but they also imposed new conventions of layout and punctuation upon the printer to make it as clear to the reader as possible that the representation of spoken language was intended. (ebd., S.-93) Als Beispiele für grafische Mittel, die von englischen Autor: innen des 18.-Jahrhunderts für diese Zwecke in Dienst genommen wurden, nennt Parkes den Gedankenstrich und die Iteration von Punkten. Zentral ist der Hinweis bei Parkes (siehe Zitat), dass diese Innovationen im literarischen Schreibgebrauch die Mitwirkung der Leserin bzw. des Lesers erfordern-- ein Aspekt, der auch der schriftsystematischen Analyse des Interpunktionssystems im Deutschen von Ursula Bredel (2011) zugrunde liegt. AP-Verwendungen gleich welcher Art haben nach Bredel gemeinsam, dass sie den Leser instruieren, an der mit den Auslassungspunkten gekennzeichneten Stelle sein Wissen zu aktivieren, um nicht ausgedrückte Informationen zu ergänzen (ebd., S.-47). 1 Sic! Diese (von den Autor: innen des vorliegenden Beitrags erzeugte) AP-Instanz ist ein prototypisches Beispiel für den regelkonformen Gebrauch gemäß § 99 der amtlichen Norm. <?page no="291"?> Interpunktion als interaktionale Ressource 291 Als grafische Einheiten der Textgestaltung sind die AP dadurch ausgezeichnet, dass sie-- gemeinsam mit dem Gedankenstrich-- das Scannen schriftsprachlicher Äußerungen unterstützen und dabei-- im Unterschied zu Divis und Apostroph, die ebenfalls Scanzeichen sind-- auf der Textebene operieren bzw. den Aufbau einer Textkartografie beim Lesen unterstützen (vgl. ebd., S.- 25). Als Filler, die im Gegensatz zu anderen Interpunktionszeichen eines Stützzeichens bedürfen, an das sie sich anlehnen (Klitika), bringen sie dafür die wichtige Eigenschaft mit, einen eigenständigen segmentalen Raum einzunehmen (ebd., S.- 20): Sie sind in der geschriebenen Standardsprache, sofern sie nicht als Stützzeichen für ein vorausgehendes oder nachfolgendes Klitikon fungieren müssen, von ihrem Kotext links und rechts durch Leerzeichen abgegrenzt und dadurch visuell in besonderer Weise salient. Bredel (ebd., S.-25) bezeichnet AP daher auch als Einheiten der Textkartografie. Die Spezifik der Austauschprozesse von Schreiber: in und Leser: in stellen einen zentralen Punkt von Bredels Analyse des Interpunktionssystems dar: Der Abgleich zwischen Schreiber: in und Hörer: in wird als „eine Relation von Geben (Schreiben/ Enkodieren) und Nehmen (Lesen/ Dekodieren)“ (ebd., S.-29) aufgefasst (aktionale Dimension), bei dem das für die Herstellung von Sinn und Verstehen benötigte Wissen zwischen den Akteur: innen in spezifischer Weise verteilt ist (epistemische Dimension). Die Defaultannahme besteht darin, dass alles Wissen bei dem bzw. der Schreiber: in liegt; er bzw. sie kann sich anhand bestimmter Praktiken aber auch „selbst zum Nichtwissenden und den Leser zum Wissenden mach[en]“ (ebd.), sodass der bzw. die Leser: in für das Textverstehen selbst Gebende: r werden, Wissensressourcen aktivieren und eigene Bedeutungselemente in die bei der Lektüre aufgebaute mentale Repräsentation des Textes einbringen muss; die interaktionale Dimension-- bei Bredel verstanden als das Rollenverhältnis von Schreiber: in und Leser: in bei der Lektüre redigierter Texte, die typischerweise für die zeitlich zerdehnte Kommunikation konzipiert sind-- ändert sich. Dies wird besonders augenfällig im Falle der AP, für deren Deutung von dem bzw. der Leser: in je nach Funktion unterschiedliche Wissensressourcen aktiviert werden müssen. Bredel bezieht sich in ihrer funktionalen Analyse nicht nur auf die in der amtlichen Regelung behandelten Funktionen von AP in Texten, sondern auch auf solche Vorkommen im Schreibgebrauch, die in Texten vorliegen, für die die amtliche Regelung nicht verbindlich ist. Sie bezieht sich dabei auf diejenigen Funktionen von AP, die Meibauer (2007) unterschieden hat. Bei den von Meibauer diskutierten Beispielen handelt es sich nicht um authentische Sprachbelege, sondern um konstruierte Beispiele, die aber für den Zweck seiner Differenzierung insoweit plausibel sind, als sie sich in authentischen Texten bzw. Korpusdaten belegen lassen. Meibauer unterscheidet vier Funktionstypen, die er als Auslassungsfunktion, Fortsetzungsfunktion, Verbindungsfunktion und Andeutungsfunktion bezeichnet. Bredel gruppiert diese vier Funktionstypen nach der Art der Wissensressourcen, die von der Leserin bzw. dem Leser aktiviert werden müssen, um den Bedeutungsbeitrag der AP im gegebe- <?page no="292"?> Michael Beiẞwenger/ Sarah Steinsiek 292 nen Kontext im Sinne der Schreiberin bzw. des Schreibers zu rekonstruieren, und unterscheidet zwischen der „Aktivierung von Wissen, das im Text nicht gegeben ist“ (Auslassungs- und Andeutungsfunktion), und der „Re-Aktivierung von Wissen, das im Text gegeben ist“ (Fortsetzungs- und Verbindungsfunktion) (Bredel 2011, S.-47). In unserer Untersuchung betrachten wir die Verwendung von AP in Produkten des interaktionsorientierten Schreibens. Damit knüpfen wir an die von Storrer (2012, 2018) vorgeschlagene funktionale Differenzierung zweier verschiedener Schreibhaltungen an, die sich für die linguistische Einordnung des Sprachwandels im Bereich der geschriebenen Sprache bewährt hat. Dieser Sprachwandel zeigt sich, bedingt durch die Verbreitung internetbasierter Kommunikationstechnologien, in den zurückliegenden etwa drei Jahrzehnten darin, dass die geschriebene Sprache nicht mehr nur für das Handeln mit monologisch verfassten, redigierten Texten und orientiert an den Normen der geschriebenen Standardsprache (‚konzeptionelle Schriftlichkeit‘ sensu Koch/ Oesterreicher 1994) verwendet wird, sondern auch in den Bereich der sequenziell strukturierten Interaktion vorgedrungen ist- - ein Bereich, der früher, von wenigen Ausnahmen wie z. B. der Zettelkommunikation unter der Schulbank abgesehen, der gesprochenen Sprache vorbehalten war (vgl. Storrer 2014). Charakteristisch für das interaktionsorientierte im Gegensatz zum textorientierten Schreiben ist nun, dass Formulierungsprozesse häufig mit nur geringer Planung (spontansprachlich) ablaufen und dass die sprachliche Gestaltung solcher schriftlicher Äußerungen an den Aufgaben der Interaktionskonstitution und -organisation ausgerichtet ist: Im Vordergrund steht die Beteiligung an einem sequenziellen Interaktionsgeschehen, in dem-- ähnlich wie Sprecher: innen und Hörer: innen in Gesprächen- - zwischen Schreiber- und Leserrollen gewechselt wird und in dessen Verlauf jede Äußerung den Kontext für Folgeäußerungen bildet. Dabei steht weniger das sprachliche Produkt als vielmehr der Beitrag der Äußerung zur Weiterentwicklung des Interaktionsgeschehens und zur kooperativen Bearbeitung der dafür relevanten Aufgaben im Vordergrund. Eine umfassende Orientierung an den Normen konzeptionell schriftlicher Texte ist dabei weniger wichtig als die kooperative Herstellung sequenzieller Ordnung und die Sicherung interaktionaler Kohärenz, die Beziehungsarbeit sowie bei der Kommunikation im zeitlichen Nahbereich auch die rasche Produktion und Fortführung bzw. Respondierung schriftlicher Beiträge (vgl. Storrer 2018). Einen sehr guten Überblick über den Stand der internationalen Forschung zu Auslassungspunkten in der internetbasierten Kommunikation gibt Jannis Androutsopoulos (2020). Androutsopoulos untersucht ein selbst erhobenes Datenset mit 353 Postings griechischer Gymnasiast: innen auf Facebook, die insgesamt 465 AP-Tokens enthalten. Er ermittelt die Verteilung der Vorkommen auf allographische Varianten des im amtlichen Regelwerk mit drei Punkten fixierten AP-Zeichens, die Distribution der AP-Instanzen innerhalb der Postings sowie das Verhältnis der Okkurrenz von AP in Relation zur Länge der Postings in Token. Anhand von 22 Ausschnitten aus dem Datenset zeigt er weiterhin, welche Funktionen AP in unterschiedlichen Positionen (beitragsinitial, -medial-, final oder beitragswertig) übernehmen. Androutsopoulos <?page no="293"?> Interpunktion als interaktionale Ressource 293 konstatiert, dass die Kennzeichnung von lexikalischen und syntaktischen Auslassungen (=-Auslassungsfunktion i. S. v. Meibauer 2007) in den untersuchten Daten „praktisch keine Rolle“ spielt (ebd., S.-154). Stattdessen werden in beitragsfinaler Position mit den AP häufig Andeutungen markiert, und für die beitragsmediale Position ist die „Funktion der Segmentierung bzw. Binnengliederung“ zentral (ebd., S.-150) (=-Verbindungsfunktion i. S. v. Meibauer 2007), was einer Verwendung als syntaktisches Interpunktionszeichen nahekommt, die allerdings im Unterschied zu genuinen syntaktischen Trennzeichen hinsichtlich der „syntaktische[n] Grenze, die sie markieren, hochgradig variabel“ eingesetzt werden können (ebd., S.-156). Androutsopoulos bezeichnet beitragsmediale AP daher als „eine Art Allzweck-Segmentierer“ (ebd., S.-155) und führt ihr Potenzial zur Steuerung von Lese- und Verarbeitungsprozessen auf die visuelle Salienz der Zeichen zurück, die mehr Fläche einnehmen als andere Interpunktionszeichen sowie-- als Filler im Sinne Bredels-- zudem links und rechts durch Leerzeichen abgegrenzt werden (ebd., S.-54 f.). Busch (2021) untersucht in seiner Studie zur Registervariation deutschsprachiger Schüler: innen unter anderem ein WhatsApp-Korpus, in dem 952 AP-Verwendungen belegt sind. Auch er analysiert seine Belege unter strukturellen und topologischen Gesichtspunkten und analysiert ausgewählte Belege ausgehend von den von Meibauer (2007) vorgeschlagenen Funktionstypen hinsichtlich ihres Beitrags zur Interaktionsgestaltung. So zeigt er unter anderem, dass AP im Rahmen von Praktiken des höflichen Handelns modalisierend eingesetzt werden, dass sie als Kohäsionsmittel zwischen Postings derselben Schreiberin bzw. desselben Schreibers fungieren und dass sie auch als Mittel der „interaktionalen Staffelübergabe“ (ebd., S.-391)-- im Sinne einer Fremdwahl- - Verwendung finden. Busch weist darauf hin, dass es ein zentrales Charakteristikum des Gebrauchs von AP ist, dass sich in ihnen mehrere Funktionen überlagern können: Wenn sich alle analysierten Belege also in einem Merkmal gleichen, dann in ihrer semiotischen Offenheit für die Interpretation ihrer RezipientInnen. (Busch 2021, S.-405) Ein Ziel unserer Untersuchung ist es, die von Androutsopoulos (2020) und Busch (2021) vorgelegte Befundlage zu erweitern. Im Unterschied zu Busch, der Whats- App-Daten von Schüler: innen untersucht und dem es auch um die Rekonstruktion individueller Schreibregister geht (weswegen die Anzahl der in seinem Korpus dokumentierten Sprachverwender: innen, dem Forschungsanliegen geschuldet, mit 23 erwartungsgemäß begrenzt ist), legen wir unserer Untersuchung eine randomisierte Stichprobe aus einem WhatsApp-Korpus zugrunde, das den Schreibgebrauch von gegenwärtig über 3.000 Schreiber: innen umfasst. Im Unterschied zu Androutsopoulos, der Facebook-Postings griechischer Schüler: innen untersucht, arbeiten wir mit deutschsprachigen Daten. Wir konzipieren unsere Untersuchung in Teilen als Vergleichsuntersuchung zu Androutsopoulos (2020), da uns der Aspekt des Vergleichs von AP-Verwendungen in zwei unterschiedlichen Kommunikationsumgebungen-- Facebook und WhatsApp-- <?page no="294"?> Michael Beiẞwenger/ Sarah Steinsiek 294 interessant erscheint. In der Darstellung und Diskussion unserer Ergebnisse werden wir aber auch wiederholt auf die Befunde von Busch (2021) zurückgreifen. Neben dem Vergleich mit den Ergebnissen existierender Untersuchungen geht es uns darüber hinaus und insbesondere um eine Weiterentwicklung der von Meibauer (2007) vorgeschlagenen Funktionstypologie im Hinblick auf die Erfassung von Funktionen, die sich anhand unserer Stichprobenuntersuchung für AP-Verwendungen in Produkten des interaktionsorientierten Schreibens aus WhatsApp-Chats nachweisen lassen. Die Forschungsfragen für unsere Untersuchung lauten: 1) Lassen sich die von Androutsopoulos (2020) ermittelten Befunde zur formalen und topologischen Verteilung von AP an einer randomisierten Stichprobe aus WhatsApp-Interaktionen reproduzieren? 2) Wie kann eine Funktionstypologie aussehen, die- - unter Einbezug einer interpunktionstheoretischen Modellierung von AP sowie existierender Funktionsbeschreibungen-- aus der Analyse der Stichprobe abgeleitet wird? 3) Welche Funktionen von AP sind in der Stichprobe dominant und inwiefern bestätigt der ermittelte Befund die Befunde und Beobachtungen aus Vorgängeruntersuchungen? 3. Daten und Methode Für unsere Untersuchungen haben wir 2021 und 2022 zwei randomisierte Stichproben im Umfang von jeweils 100 Treffer-Postings aus dem Korpus der Mobile Communication Database (MoCoDa2) gezogen, das einen über Datenspenden erhobenen und kontinuierlich erweiterten Ausschnitt des Sprachgebrauchs in deutschsprachigen WhatsApp-Chats umfasst und das unter https: / / db.mocoda2.de/ (Stand: 10.4.2023) für Forschungs- und Lehrzwecke zur Verfügung steht. Die erste Stichprobe diente der Exploration des Untersuchungsgegenstands. Im Rahmen gemeinsam durchgeführter, qualitativer Analysen diente uns diese Stichprobe als Datengrundlage für die Formulierung des ersten Entwurfs einer Funktionstypologie. Neben der WhatsApp-Stichprobe sind in diesen ersten Entwurf auch Belege aus einer intellektuell zusammengestellten Sammlung von Belegen aus Texten unterschiedlicher Textsorten der geschriebenen Standardsprache eingeflossen. Da es unser Ziel war, eine Typologie zu entwickeln, die den Gebrauch von AP im interaktionsorientierten Schreiben besonders berücksichtigt, zugleich aber auch auf den Gebrauch in Produkten des textorientierten Schreibens anwendbar ist, sollte auf diese Weise ein Bias auf dem Gebrauch im interaktionalen Kontext vermieden werden. Den Erstentwurf unserer Typologie haben wir in einem zweiten Schritt einer systematischen Analyse der zweiten Stichprobe zugrunde gelegt, die das eigentliche Da- <?page no="295"?> Interpunktion als interaktionale Ressource 295 tenset unserer Untersuchung bildete. Diese zweite Stichprobe wurde zunächst von Pseudotreffern (false positives) bereinigt und auf die Gesamtzahl von AP-Belegen in den Trefferpostings durchgesehen. Als Ergebnis dieser vorbereitenden Schritte ergab sich für das Datenset eine Gesamtzahl von N=98 Postings, die jeweils mindestens einen AP-Beleg umfassten bzw. eine Gesamtzahl von N=108 AP-Belegen (vgl. Tab.-1). Randomisierte Stichprobe aus MoCoDa2 (1.587 Tokens): Treffer-Postings und Beleg-Postings: AP-Treffer und AP-Belege: Treffer-Postings: 100 AP-Treffer in Stichprobe: 110 Postings mit Pseudotreffern: 2 Pseudotreffer: 2 Belegpostings: 98 AP-Belege in Stichprobe: 108 Tab.-1: Datenbasis Die qualitative Analyse erfolgte in einem hermeneutischen Vorgehen ausgehend von der pragmatischen Grundannahme, dass der Gebrauch von AP, der bereits in der internetbasierten Kommunikation des frühen Internet und des ‚Web 1.0‘ (also seit mehr als 30 Jahren) vielfältig belegt ist, 2 i)- auf Aufgaben bei der Herstellung von Sinn und Verstehen bezogen ist, dass er ii)- an Daten nachweisbaren Mustern folgt und dass iii)- sich diese Muster als etablierte und im kommunikativen Handeln-tradierte Lösungen (Praktiken) für Aufgaben der Interaktionskonstitution und -organisation beschreiben lassen. Die Analyse erfolgte in einem iterativen Verfahren. Den Ausgangspunkt für jeden Durchgang durch die Stichprobe bildete der jeweils aktuelle Stand des Typologieentwurfs. Im Rahmen einer gemeinsamen Analyse der Daten wurde dieser auf seine Eignung überprüft mit dem Ziel, jedem der 108 AP-Belege einen (primären) Funktionstyp zuzuweisen. Die Plausibilität der Zuordnungen wurde informell ermittelt, indem Belege, zu denen die Zuordnung der beiden Autor: innen voneinander abwichen, in gemeinsamen Datensitzungen diskutiert und die Zuordnungskriterien so überarbeitet und verfeinert wurden, dass eine für beide Parteien plausible Zuordnung getroffen werden konnte. Als Ergebnis jedes Durchgangs wurde der Typologieentwurf überarbeitet bzw. wurden die einzelnen Typenbeschreibungen hinsichtlich ihrer Konzeption präzisiert sowie die bisher getroffenen Zuordnungen zu diesen Typen erneut anhand der angepassten Kriterien überprüft. Den Abschluss des Analyseprozesses bildete eine Version der Typologie, anhand derer 106 von 108 AP-Belegen einem primären Funktionstyp zugeordnet werden konnten. Die Möglichkeit, dass sich in einer AP-Verwendung mehrere Funktionen überlagern (vgl. den Hinweis in Busch 2021, S.-405), wurde dabei explizit zugelassen. 2 Zahlreiche Belege für AP-Verwendungen in Chat-Daten aus den Jahren 1998-2004 finden sich z. B. im Dortmunder Chat-Korpus. <?page no="296"?> Michael Beiẞwenger/ Sarah Steinsiek 296 Für die Reproduktion der Befunde von Androutsopoulos (2020) zur formalen und topologischen Distribution von AP-Belegen an unseren WhatsApp-Daten (Domänenübertragung) haben wir mit geringfügigen Anpassungen, die sich aus strukturellen Unterschieden der Kommunikation in Facebook und per WhatsApp ergeben, die gleichen formalen Merkmale zugrunde gelegt, die Androutsopoulos beschreibt. Diese Anpassungen sind in Abschnitt-4.1 in der Ergebnisdarstellung vermerkt. 4. Ergebnisse 4.1 Formale und distributionelle Analyse der Korpusstichprobe AP sind in der WhatsApp-Stichprobe in weniger Formvarianten (Allographen) belegt als im Facebook-Datenset (vgl. Tab.-2). Immerhin 7% der bei Androutsopoulos (2020) untersuchten Vorkommen bestehen aus >4- Punkten, in der von uns untersuchten Korpusstichprobe trifft das auf nur 1% der Vorkommen zu; die einzige AP-Instanz mit 5-Punkten kann als Ausreißer gelten. Die Verteilung der Varianten mit 2-3-Punkten ist in etwa derjenigen in Androutsopoulosʼ Facebook-Stichprobe vergleichbar, mit einem etwas höheren Anteil an AP mit 2-Punkten. Instanzen mit 3-Punkten sind am häufigsten belegt. Bezüglich der Relation der Anzahl von AP-Vorkommen zur Beitragslänge fällt auf, dass in der Facebook-Stichprobe 10,5% der AP-Vorkommen (bei N=353) auf beitragswertige Verwendungen entfallen, während in der WhatsApp- Stichprobe beitragswertige AP überhaupt nicht belegt sind (vgl. Tab.-3). Eine intellektuelle Überprüfung am Gesamtdatenbestand des MoCoDa2-Korpus zum Zeitpunkt 7.2.2023 ergab, dass darin insgesamt nur fünf Vorkommen von AP dokumentiert sind, die als beitragswertig i. S. v. Androutsopoulos (2020) gelten können. Einer dieser Belege ist in Beispiel- 1 wiedergegeben. Heike deutet damit Sprachlosigkeit an (paraphrasiert: „Da fehlen mir die Worte“, Posting #12), bevor sie in einem unmittelbar darauf versendeten Beitrag ihre Einstellung zum von Bernd berichteten Sachverhalt auch sprachlich ausdrückt. Dies zeigt sich auch in den Ergebnissen zur topologischen Distribution (vgl. Tab.-4), bei der in der WhatsApp-Stichprobe zudem die beitragsfinalen Verwendungen häufiger belegt sind als in der Facebook-Stichprobe. Datenbeispiel 1: Beitragswertige AP-Verwendung in der MoCoDa2 | WyEaW 3 Bernd: Heiko hat einfach wieder irgendwas du dem foliensatz gelöscht.- #9 11: 58 Bernd: Aus #10 11: 58 Bernd: Und ich mache mir die Mühe.- #11 11: 59 3 Belege aus der MoCoDa2 sind hier und im Weiteren anhand einer Sigle referenziert, die sich wie folgt zu einer URL erweitern lässt: https: / / db.mocoda2.de/ view/ WyEaW (Stand: 10.4.2023). Der Aufruf der URL führt in das referenzierte Korpusdokument. Die Voraussetzung für den Aufruf des Dokuments bildet eine einmalige Registrierung für die MoCoDa2. <?page no="297"?> Interpunktion als interaktionale Ressource 297 Heike: … #12 12: 21 Heike: Das würde ich so nicht akzeptieren. Wenn das deine Folien sind, füge sie wieder ein! #13 12: 21 Punktgraphen 2x 3x 4x 5x >5x Gesamt Androutsopoulos (2020): Facebook: n (Tokens) 69 301 62 14 19 465 % 15% 64% 13% 3% 4% 100% WhatsApp-Stichprobe: n (Tokens) 34 61 12 1 0 108 % 32% 57% 11% 1% 0% 100% Tab.-2: Allographen des Auslassungspunktes nach Anzahl der realisierten Punkte 4 Beitragslänge Anzahl der AP 1x 2x 3x 4x >4x FB WA FB WA FB WA FB WA FB WA 0 Tokens (beitragswertige AP) 37 - - - - - - - - - 1-9 Tokens 137 43 4 - - - - - - - 10-19 Tokens 85 28 15 1 1 - - - - - 20-29 Tokens 22 12 9 2 2 1 - - - - 30-177 Tokens 23 8 5 2 9 - - 1 4 - Tab.-3: Beitragslänge 5 im Verhältnis zu den AP-Tokens (alle Allographen) pro Beitrag. FB bezeichnet die von Androutsopoulos (2020) für Facebook-Postings griechischer Schüler: innen ermittelten Werte, WA die Werte, die wir in unserer Untersuchung für die WhatsApp-Stichprobe aus der MoCoDa2 ermittelt haben. 4 Dass die Summe der Prozentwerte für die WhatsApp-Stichprobe 101 ergibt, ist darauf rückführbar, dass die Prozentwerte gerundet wiedergegeben werden. 5 ‚Beitragslänge‘ bezeichnet die Anzahl der Tokens, die neben den enthaltenen AP-Instanzen in einem Posting enthalten sind. Emojis und Emoticons wurden dabei jeweils als ein Token gezählt. Fehlerhafte Wortgrenzen, die als Schnellschreibphänomene gelten können, wurden-- analog zur Zählung bei Androutsopoulos (2020, S.-141-143)-- vor der Zählung manuell korrigiert. <?page no="298"?> Michael Beiẞwenger/ Sarah Steinsiek 298 Position im Beitrag Anzahl % FB WA FB WA Beitragswertig 37 0 8% 0% Beitragsinitial 12 2 3% 2% Beitragsmedial 310 60 71% 56% Beitragsfinal 78 46 18% 43% Gesamt 437 108 100% 100% Tab.-4: Topologische Distribution der Auslassungspunkte (alle Allographen) 6 In der Stichprobe sind die AP in nur 17 Fällen als echte Filler realisiert. Sie sind in diesen Fällen jeweils sowohl links als auch rechts entweder durch ein Leerzeichen, durch einen erzwungenen Zeilenumbruch oder durch den Beginn bzw. das Ende des Postings begrenzt. In 91 Fällen erscheinen sie hingegen klitisiert und sind entweder an vorangehende und/ oder nachfolgende Zeichen angelehnt. In keinem dieser Fälle fungieren die AP als (notwendiges) Stützzeichen für ein anderes Interpunktionszeichen (etwa ein Anführungs- oder Fragezeichen wie in den eingangs zitierten Beispielen aus dem amtlichen Regelwerk), womit es sich bei den 91 Fällen, die 84,26%-der Belege ausmachen, um freie, von der Norm nicht vorgesehene Varianten handelt. 4.2 Funktionstypologie für Auslassungspunkte in geschriebener Sprache Die von uns aus der Analyse der Stichprobe abgeleitete Funktionstypologie sieht vier Grundtypen vor: Das Auslassen , das Andeuten , das Organisieren und-- als eine Basisfunktion, die sich unmittelbar aus den flächig-visuellen Eigenschaften des AP-Zeichens ableiten lässt, das Segmentieren . Wir stellen die Typen im Folgenden vor und differenzieren einige davon in Subtypen. Grundlegend für die Beschreibung der einzelnen Typen ist, dass mit ihnen ein Appell an den bzw. die Leser: in verbunden ist, bestimmte Arten von Wissen zu aktivieren, um entsprechende AP-Instanzen im Sinne der Verfasserin bzw. des Verfassers zu deuten. Die Bindung der Funktionen von AP nicht nur an die Verfasserrolle, sondern gleichermaßen auch an die Rolle der Leserin bzw. des Lesers beziehen wir aus den Hinweisen in Bredel (2011) zur interaktionalen, aktionalen und epistemischen Dimension der Rollenverhältnisse in Texten. Im Unterschied zu den Kategorien von Meibauer (2007, vgl. dort z. B. ‚Auslassen‘ vs. ‚Fortsetzen‘) benennen wir die Funktionstypen konsequent aus der Produzentenperspektive und ordnen dieser durch die Charakterisierung des damit verbundenen Appells eine Beschreibung der Aktivitäten zu, die durch die Leserrolle erbracht werden müssen, um zu den AP eine Bedeutung zu konstruieren, die in den gegebenen 6 Siehe Fußnote-3. <?page no="299"?> Interpunktion als interaktionale Ressource 299 Kontext passt. In Erweiterung der bei Meibauer (2007) auf das sprachliche Handeln in Texten gerichteten Perspektive beziehen wir in unserer Typologie weiterhin die Verwendung von AP im Rahmen von Praktiken des interaktionalen Schreibens ein und integrieren solche Funktionen, die diese bei der Organisation eines sequenziell kohärenten Handelns übernehmen. Die Auslassungs- und die Andeutungsfunktion übernehmen wir von Meibauer, wobei wir für die Auslassungsfunktion eine Einteilung in verschiedene Subtypen vornehmen. Da es uns im Unterschied zu Meibauer, der seine Kategorien anhand anekdotischer, nicht authentischer Sprachbeispiele entwickelt, um die vollständige Klassifikation einer Stichprobe randomisiert ausgewählter Korpusbelege geht, war es zudem erforderlich, die Abgrenzung von Auslassung und Andeutung zu präzisieren, um hinreichende Kriterien für eine Operationalisierung dieser beiden Kategorien zu gewinnen. Auslassen zielt in unserer Konzeption grundsätzlich auf eine notwendige oder zumindest mögliche Konkretisierung durch die Leserrolle; beim Andeuten geht es hingegen verfasserseitig gerade um das Vermeiden einer Konkretisierung, zu welcher der sprachliche Kontext die entsprechenden Hinweise liefert; was hier leserseitig konkretisiert wird, liegt in der Verantwortung der Leserrolle. Die Verbindungs- und die Fortsetzungsfunktion von Meibauer gehen in unserer Typologie mit gewissen Anpassungen in den Funktionen Auslassen, Organisieren und Segmentieren auf. Der Bereich der AP-Funktionen, die Meibauer beschreibt, sind in unserer Typologie somit vollständig abgebildet, auch wenn wir die Typen aus den genannten Gründen teilweise abweichend konzipieren, neu zuschneiden und weiter ausdifferenzieren. Der Funktionstyp Segmentieren stellt für uns eine Basisfunktion von AP dar, der sich in jeder AP-Verwendung, insbesondere in beitragsmedialer Position, notwendigerweise manifestiert. Das Potenzial, Segmentgrenzen anzuzeigen, ergibt sich für AP aus ihrer bloßen Materialität: Als Zeichen, in denen ein Basiselement des Interpunktionssystems dreifach redupliziert erscheint und das zudem im linearen Schreibverlauf als links und rechts durch Spatien begrenztes Fillerzeichen auftritt (vgl. Bredel 2011, S.-16-21), verfügt es bei der Draufsicht auf den Text im Unterschied zu anderen Graphemen über eine ausgeprägte visuelle Salienz. Wenn Androutsopoulos (2020, S.- 155) AP als „Allzweck-Segmentierer“ beschreibt, so verstehen wir das in dem Sinne, dass AP ihre Strukturierungsleistung in Bezug auf den Text als flächiges Artefakt in jedweder Verwendung und auch unabhängig von einer entsprechenden Intention der Verfasserin bzw. des Verfassers ausspielen. Im Folgenden geben wir pro Funktionstyp und -subtyp zunächst (in Kursivschrift) eine Paraphrase des Appells an den bzw. die Leser: in, in dem auch die Wissensarten genauer benannt werden, die leserseitig für die Deutung der AP benötigt werden. Anschließend geben wir (recte) weitere Erläuterungen und Beispiele. Zu Funktionstypen, die in der untersuchten Stichprobe nicht belegt sind, greifen wir auf Beispiele aus der Literatur zurück, in den anderen Fällen handelt es sich um Datenbeispiele aus der Stichprobe. <?page no="300"?> Michael Beiẞwenger/ Sarah Steinsiek 300 (1) Auslassen Interpretiere AP als Stellvertreter für Nichtvorhandenes. Beim Auslassen werden AP als Stellvertreter für sprachliche Einheiten oder für bedeutungstragendes nichtsprachliches Zeichenmaterial eingesetzt, die bzw. das von dem/ der Verfasser: in an dieser Stelle nicht realisiert wird, das von dem bzw. der Leser: in aber konkretisiert werden kann. Ausgelassen werden kann nur, was sich als zeichenhafte Einheit konkretisieren lässt. Dadurch unterscheidet sich der Funktionstyp Auslassen vom Funktionstyp Andeuten. Auslassungen können sich auf unterschiedliche Ebenen der sprachlichen Bedeutungskonstitution beziehen und auf unterschiedliche Arten von Wissen bezogen sein. Wir unterscheiden die folgenden Subtypen: - Auslassen | quellenbezogen Aktiviere dein Konventionenwissen zur Kennzeichnung von Auslassungen bei der wörtlichen Wiedergabe der sprachlichen Äußerungen Dritter. Ein typischer Fall für diesen Typ ist die Auslassung von Textteilen in Zitaten, die von dem bzw. der Schreiber: in im aktuellen Kontext für nicht relevant erachtet werden. - Auslassen | wortschatzbezogen Inferiere Wörter oder Wortteile anhand deines Wortschatzwissens. Beispiele: „Du bist ja so ein A….! “, „Scher dich zum …! “ - Auslassen | kontextbezogen Greife auf bereits gelesene Einheiten zurück und führe eine als fortführbar markierte Reihe durch deren Iteration fort. Beispiel aus Meibauer (2007, S.- 34): „Tack, tack, tack, … So ging das die ganze Nacht.“ - Auslassen | framebezogen Aktiviere dein Weltbzw. Erfahrungswissen und inferiere Elemente, mit denen sich eine als unabgeschlossen markierte Aufzählung im Sinne der Verfasserin/ des Verfassers fortführen ließe. Datenbeispiel 2 : Beleg aus der Stichprobe | RnbM9: Planung eines gemeinsamen Ausflugs mit Übernachtung Lea: Ich hab die Matratze für uns beide: ) #25 10: 38 Markus: Alles klar, muss ich noch was mitbringen? : ) #26 10: 38 Lea: Kannst du evt mit deinem großen Rucksack kommen? Ich schlepp den auch, aber dann kann ich da echt alles rein tun: ) #27 10: 38 Lea: Also die Matratze, die Pumpe… #28 10: 38 <?page no="301"?> Interpunktion als interaktionale Ressource 301 (2) Andeuten Konstruiere auf dem Hintergrund deines (oder unseres gemeinsamen) Wissens zum Thema oder auf der Grundlage von Annahmen über meine Einstellung zur verhandelten Sache eine Lesart zur Äußerung, die im gegebenen Kontext deutlich macht, dass ich (Verfasser: in) mit meiner Äußerung mehr oder etwas anderes als das tatsächlich Gesagte ausdrücken und/ oder dich zu einer eigenen Schlussfolgerung aus dem Gesagten anregen möchte. Im folgenden Beispiel fungieren die AP in Posting #11, insbesondere in Verbindung mit der Interjektion ‚pff ‘ und dem Emoji, als Aufforderung zur Konstruktion einer Annahme über Johannesʼ Bewertung von Christinas Zurückweisung seines Anliegens. Datenbeispiel 3: Beleg aus der Stichprobe | rgsLe: Christina antwortet auf Johannesʼ Frage, ob sie ihn und einen Freund in Duisburg mit dem Auto abholen könne: Christina: Selbst wenn ich könnte, würde ich das jetzt sicher nicht machen #9 00: 29 Christina: Hab selber Alkohol getrunken #10 00: 29 Johannes: ….pff #11 00: 29 Mit der Andeutung von Nichtgesagtem kann die Präferenz der Schreiberin bzw. des Schreibers für ein thematisch kohärentes Folgehandeln des Gegenübers verbunden sein (=- Fremdwahl), in welchem die Bearbeitung des präsentierten Sachverhalts fortgeführt wird, z. B. indem der/ die Adressat: in eine Frage dazu stellt, eine eigene Einschätzung dazu abgibt oder, wie in Beispiel-4, zu erkennen gibt, dass er Svenjas zuvor missverstandene Äußerung nun verstanden hat. Datenbeispiel 4: Beleg aus der Stichprobe | 9DX66: Svenja und Marco verhandeln die Bedingungen für ihr erstes richtiges Date: Svenja: Wenn es noch ein zweites gibt , entscheide ich- #73 22: 35 Marco: Einen zweiten Vorschlag? #74 22: 35 Svenja: Ein zweites treffen … #75 22: 36 Marco: Achso- #76 22: 36 Im Unterschied zum Auslassen fungieren die AP beim Andeuten als Aufforderung an den bzw. die Leser: in, der Äußerung im Geiste etwas hinzuzufügen: eine zusätzliche oder alternative Lesart, eine Schlussfolgerung, eine Annahme über die Einstellung der Verwenderin bzw. des Verwenders zum verhandelten Sachverhalt-- in jedem Fall etwas, für das der bzw. die Autor: in keine sprachliche Konkretisierung vorgesehen hat, sondern was sich bestenfalls paraphrasieren lässt. Beim Auslassen wird demgegenüber dem bzw. der Leser: in die Möglichkeit einer Konkretisierung nahegelegt (z. B. im Fall des quellenbezogenen Auslassens, bei dem die wiedergegebene Quelle aufge- <?page no="302"?> Michael Beiẞwenger/ Sarah Steinsiek 302 sucht werden kann, aber nicht muss) oder er bzw. sie wird dazu aufgefordert, weil eine syntaktische Struktur ohne seine bzw. ihre Mitwirkung an deren Komplettierung nicht interpretierbar wäre (z. B. im Fall wortschatzbezogener Auslassungen). Beim Andeuten geht es im Gegensatz dazu darum, den autorseitigen Verzicht auf Konkretisierung zu akzeptieren und aus dem Kontext Deutungen abzuleiten, für die der bzw. die Leser: in selbst die Verantwortung übernimmt; entwirft der bzw. die Leser: in im Geiste eine mögliche Formulierung, kann der bzw. die Verfasser: in für diese nicht zur Rechenschaft gezogen werden. Die explizite Nichtfixierung von relevanten Ausdrucksabsichten-und Informationen in Sprache wird deshalb unter anderem für Praktiken des höflichen Handelns (‚face work‘) eingesetzt: Was man nicht sagt, sondern was das Gegenüber eigenaktiv zur Bedeutungskonstruktion beitragen muss, bleibt ungesagt. (3) Organisieren Aktiviere Wissen zur Sequenzorganisation und zu konditionellen Relevanzen in mündlichen Gesprächen und interpretiere die AP als Nachbildung von Praktiken der ‚next speaker selection‘ zur Organisation interaktionaler Kohärenz beim interaktionsorientierten Schreiben. Wir unterscheiden zwei Subtypen: - Organisieren | Fremdwahl Fremdwahl kann, je nach Kontext, mehr oder weniger explizit intendiert sein: •--‚starke‘ Version: Wechsle in die Schreiberrolle und formuliere einen eigenen Beitrag, der an den aktuellen sequenziellen Kontext anschließbar ist. •--‚schwache‘ Version: Wisse, dass ich aktuell nicht mehr als das Gesagte zum gegenwärtig verhandelten Thema beizutragen habe bzw. beitragen möchte und somit du (oder jemand anderes) die Initiative (für einen Folgebeitrag oder ein neues Thema) ergreifen kann. Die schwache Version kommt z. B. bei rein responsiven Postings vor. Einen Beleg für die starke Version zeigt das Datenbeispiel- 5, in dem die Deutung der AP als Fremdwahl durch den Handlungstyp (Direktive) disambiguiert wird. Datenbeispiel 5: Beleg aus der Stichprobe | y91fl: Muriel: Schick mal deine emailadresse.hab ich irgendwie nich mehr.. #218 13: 01 <?page no="303"?> Interpunktion als interaktionale Ressource 303 - Organisieren | Selbstwahl Projiziere anhand des bereits Gelesenen eine syntaktische Fortführung oder Expansion des gelesenen Beitrags durch dessen Schreiber: in! Typischerweise stehen AP in dieser Funktion am Ende eines Postings und verweisen auf die Fortsetzung durch ein Folgeposting derselben Schreiberin bzw. desselben Schreibers. Im Einzelfall können AP in dieser Funktion aber auch beitragsinitial in einem Folgeposting zu einem Posting derbzw. desselben Verfasserin bzw. Verfassers platziert sein. In ersterem Fall sind die AP projizierend (und können unter den für Chats charakteristischen Zeitlichkeitsbedingungen, die eine Aushandlung von Turn-Taking zur Laufzeit der Interaktion ausschließen, als Praktik des ‚floor keeping‘ gelten 7 ). In zweiterem Fall sind die AP nicht projizierend, sondern kennzeichnen die Fortführung, nachdem die Selbstwahl bereits erfolgt ist, und sichern im Fall, dass zwischenzeitlich Postings anderer Schreiber: innen im Verlaufsprotokoll sichtbar geworden sein sollten, die Anschließbarkeit des Beitrags an den eigenen Vorbeitrag (vgl. Datenbeispiel-6). Fremdwahl wie Selbstwahl dienen der Sicherung interaktionaler Kohärenz (i. S. v. Herring 1999) unter den Bedingungen der Chat- Kommunikation. Datenbeispiel 6: Beleg aus der Stichprobe | OGoME: Luisa: Ach Quatsch stört mich nie : ) #21 16: 31 Luisa: … bei anderen : D in meiner wg treibt mich das zur Weißglut aber das ist ein anderes Thema #22 16: 31 (4) Segmentieren Konstruiere eine Segmentgrenze und nutze sie für die Verarbeitung. Wir unterscheiden zwei Subtypen: - Segmentieren | visuell Konstruiere eine Segmentgrenze und verarbeite die Segmente links und rechts davon getrennt voneinander. Diesem Subtyp zuzurechnen ist die Verwendung von AP zur Kennzeichnung von Grenzen zwischen Sätzen bzw. kommunikativen Minimaleinheiten oder von Aufbaueinheiten derselben, deren holistische visuelle Erfassbarkeit den Leseprozess (das Scannen) unterstützt (z. B. Grenze zwischen Matrixsatz und Nebensatz oder zwischen Anrede und Prädikation). Wir betrachten diese Form des Segmentierens als Basisfunktion von AP. 7 Zum Status des Turn-Taking-Apparats in Bezug auf Chats vgl. Beißwenger (2007), zur Verwendung von AP als Ressource zur punktuellen Beanspruchung eines Pendants zum Rederecht in mündlichen Gesprächen vgl. ebd., S.-245-253. <?page no="304"?> Michael Beiẞwenger/ Sarah Steinsiek 304 - Segmentieren | transmodal Aktiviere Wissen zur Multimodalität mündlicher Gespräche und interpretiere die AP als schriftliche Nachbildung eines interaktional bedeutungsvollen nonverbalen Signals. Transmodales Segmentieren ist der fingierten Mündlichkeit zuzurechnen. Damit werden v. a. Sprechpausen oder ein Wechsel des Sprechduktus nachgebildet, um eine Fokussierung (i. S. v. Androutsopoulos 2020, S.-135) zu markieren-- z. B. um Pointen einzuleiten oder Spannung aufzubauen (vgl. die Beschreibung als ‚typographisches Schweigen‘ bei Busch 2021, S.-387). Datenbeispiele 7 und 8: Belege aus der Stichprobe: Viktor Petrov: Bitte jeder einen Schlafsack , Luftmatraze und Handtuch mitbringen. Ich habe leider nicht genug Zeug für 15 Leute da. Wir werden nicht alle (Luftmatrazen) brauchen, weil ich für 5-7 Schlafplätze habe. Aber besseres sind zuviele davon da als… naja.. Holzboden für jemanden. #26 23: 45 | 6pvIP (gekürzt) Emma: Melde dich wenn ich dir wieder gut genug bin, so lange nerve ich dich nicht. Bin echt etwas enttäuscht muss ich sagen.. Trotzdem wünsche ich dir später eine gute Nacht und schöne Träume, viel Spaß noch auf dem Geburtstag und pass auf dich auf ja 👀 #29 19: 52 | n3716 (gekürzt) 4.3 Ergebnis der funktionalen Analyse der Korpusstichprobe Für die AP-Belege in der WhatsApp-Stichprobe ergibt sich die Verteilung in Tabelle-5. Die Kennzeichnung von quellen- und wortschatzbezogenen Auslassungen, so wie sie die Rechtschreibnorm als Konvention der AP-Verwendung vorsieht, und ebenso die Kennzeichnung monoton fortzusetzender Aufzählungen (kontextbezogenes Auslassen) sind in den Daten kein einziges Mal belegt. Stattdessen werden AP bevorzugt zur visuellen Segmentierung des Geschriebenen (leseunterstützend), und damit noch am ehesten in der Funktion von Interpunktionszeichen, für das Andeuten von Nichtgesagtem (interpretationssteuernd) und als Mittel für die Organisation interaktionaler Kohärenz (Fremd- und Selbstwahl) eingesetzt. <?page no="305"?> Interpunktion als interaktionale Ressource 305 Funktionstyp Anzahl % S e g m e n t i e r e n | visuell 41 37,96 A n d e u t e n 28 25,93 S e g m e n t i e r e n | transmodal 16 14,81 O r g a n i s i e r e n | Fremdwahl 13 12,04 O r g a n i s i e r e n | Selbstwahl 7 6,48 A u s l a s s e n | framebezogen 1 0,93 A u s l a s s e n | kontextbezogen 0 0 A u s l a s s e n | quellenbezogen 0 0 A u s l a s s e n | wortschatzbezogen 0 0 Mehr als eine Lesart begründbar 2 1,85 Gesamt 108 100,00 Tab.-5: Verteilung der Funktionstypen nach Häufigkeit in der Stichprobe Aus der Kodierung der AP-Belege nach ihrer topologischen Distribution (Tab.-4) und nach Funktionstypen (Tab.-5) lässt sich in einem weiteren Schritt die Verteilung der Funktionstypen auf topologische Positionen ermitteln (Tab.- 6). Diese ergibt eine deutliche Affinität von segmentierenden Verwendungen zur beitragsmedialen sowie von andeutenden und sequenzorganisatorischen Verwendungen zur beitragsfinalen Position. Funktionstyp beitragsinitial beitragsmedial beitragsfinal S e g m e n t i e r e n | visuell 0 41 0 A n d e u t e n 1 3 24 S e g m e n t i e r e n | transmodal 0 16 0 O r g a n i s i e r e n | Fremdwahl 0 0 13 O r g a n i s i e r e n | Selbstwahl 1 0 6 A u s l a s s e n 0 0 1 Gesamt 2 60 44 Tab.-6: Häufigkeit der Funktionstypen bezüglich topologischer Positionen 8 8 Die beiden Fälle, für die sich mehr als ein Funktionstyp begründen ließ, sind in dieser Tabelle nicht erfasst. Die beitragswertige Realisierung von AP ist nicht dargestellt, da sich dafür in der Stichprobe keine Belege finden (vgl. Tab.-4). Auf eine Subdifferenzierung des Funktionstyps Auslassen wird verzichtet, da dieser lediglich einmal belegt ist (vgl. Tab.-5). <?page no="306"?> Michael Beiẞwenger/ Sarah Steinsiek 306 5. Diskussion der Befunde und Ausblick Die Reproduktion der quantitativen Analysen von Androutsopoulos (2020) auf unserer WhatsApp-Stichprobe bestätigt im Großen und Ganzen die Verteilung in den Facebook-Daten. Auffällig ist aber, dass in der WhatsApp-Stichprobe keine (und auch im gesamten MoCoDa2-Korpus nur vereinzelt) beitragswertige AP belegt sind. Dies deckt sich mit dem Befund von Busch (2021, S.-385), in dessen Schüler-Whats- App-Korpus es sich bei lediglich 0,5% aller AP-Belege um beitragswertige Verwendungen handelt. Abweichungen bei der topologischen Distribution der AP in den Postings, die in WhatsApp häufiger beitragsfinal verwendet sind, sollten aufgrund der begrenzten Stichprobengröße nicht überbewertet werden, könnten aber möglicherweise damit zu tun haben, dass responsive Facebook-Postings unabhängig von ihrer Platzierung im Thread häufig auf das Initialposting (=- die sog. ‚Statusmeldung‘) bezogen sind und mit der Gesamtheit der responsiven Beiträge keine fortlaufende Interaktionssequenz konstituiert wird, bei der mit Folgebeiträgen die konditionellen Relevanzen von Vorgängerbeiträgen bedient werden oder am Beitragsende Kontinuität zu geplanten oder gewünschten Folgehandlungen markiert wird. Auffällig ist der Befund, dass AP in 84% aller Fälle in klitischen Verwendungen erscheinen. Dies führen wir auf die interaktionsorientierte Schreibhaltung zurück, nach welcher schriftliche Beiträge in Chats häufig rasch und ökonomisch produziert werden. Ihre segmentierende Leistung bleibt aufgrund der Differenz zu allen anderen grafischen Zeichen dennoch erhalten, da sie sich selbst in Instanzen mit nur zwei Punkten immer noch vom einfachen Punkt unterscheiden und bei der Verarbeitung der sprachlichen Äußerungen auch nicht mit Buchstabengraphemen zu bedeutungstragenden Einheiten verrechnet werden können. Die funktionale Analyse der AP in der WhatsApp-Stichprobe zeigt, dass der Funktionstyp ‚Fremdwahl‘ ausschließlich und der Funktionstyp ‚Andeuten‘ sehr häufig beitragsfinal realisiert wird und dass weiterhin Andeutungen in den meisten Fällen eine zumindest implizite Fremdwahl als sekundäre Funktion zugeordnet werden kann, die sich aus dem sequenziellen Kontext und dem Thema des Beitrags begründen lässt. Die Untersuchung der Abhängigkeit der Verteilung und Funktionalität beitragsfinaler AP von der Prädisposition von Threadstruktur und Beteiligungsrollen in unterschiedlichen Kommunikationsumgebungen (Facebook: herausgehobene Funktion der Statusmeldung, WhatsApp: kontinuierlicher Kommunikationsfluss mit egalitär verteilten Berechtigungen zur lokalen Initiierung von Themen und Handlungsmustern) könnte ein interessanter Gegenstand für Anschlussuntersuchungen sein. Ähnlich wie in den Befunden aus Androutsopoulos (2020) und Busch (2021) spielt auch in unserer Analyse die kodifizierte Norm für die Funktion von AP keine Rolle (Busch identifiziert in seinem Schülerkorpus genau einen aus 952 Belegen, vgl. ebd., S.-383). Stattdessen übernehmen AP aufgrund ihrer materialen Qualitäten (Visuali- <?page no="307"?> Interpunktion als interaktionale Ressource 307 tät, Flächigkeit) auffallend häufig die Funktion eines Interpunktionszeichens, mit dem Segment- und damit Verarbeitungsgrenzen angezeigt werden. Androutsopoulos (2020, S.- 155) erklärt die Indienstnahme der AP als Segmentierer aus deren „geringe[r] funktionale[r] Belastung im Interpunktionssystem“, wodurch einer Umfunktionalisierung in Richtung eines syntaktischen Interpunktionszeichens vergleichsweise geringe sprachsystematische Widerstände entgegenstehen. Hinzuzufügen wäre dem als weiteres Argument, dass AP im Unterschied zu etablierten syntaktischen Interpunktionszeichen wie dem Inventar an Satzschlusszeichen oder den Kommata gerade aufgrund der Tatsache, dass sie in der geschriebenen Standardsprache nicht den Status eines auf bestimmte syntaktische Einheiten spezialisierten Segmentierers konventionalisiert sind, hinsichtlich der Segmente, zu deren Kennzeichnung sie verwendet werden können, eine hohe Flexibilität erlauben. Dies kommt dem spontansprachlichen Formulieren, das gerade für informelle Kontexte angenommen werden kann, entgegen und ermöglicht des Weiteren Segmentierung auch in solchen Fällen interaktionalen Sprachgebrauchs, in denen, etwa aufgrund von sequenziell motivierten Struktur-Ellipsen, die syntaktischen Standards der geschriebenen Standardsprache sowie die darauf bezogenen Interpunktionsregeln nicht ohne Weiteres applizierbar sind. Entgegen sprachkritischen Positionen, wie sie z. B. Storrer (2014, S.-171) referiert und die dem Sprachgebrauch in informellen Chats häufig eine Vernachlässigung sprachlicher Konventionen unterstellen, zeigt die Dominanz der Segmentierungsfunktion in unserer Korpusstichprobe, dass der Leserbezug auch beim interaktionsorientierten Schreiben eine zentrale Rolle spielt: Die Bereitstellung von typografischen Rezeptionshilfen unterstützt die Verarbeitung und dient der Verstehenssicherung. Daneben finden sich transmodale Bezüge zur gesprochenen Sprache, die sich aus der Konzeptualisierung des schriftlichen Austauschs als Form der Nähekommunikation ableiten; die AP werden hier als ein Stilmittel eingesetzt, um Zeichenmodalitäten der gesprochenen Sprache im Schreiben nachzubilden und damit soziale Nähe und Unmittelbarkeit zu markieren. Dies unterstützt die gerade für Privatkommunikation wichtige Aufgabe der Beziehungsarbeit und ermöglicht zudem den Rekurs auf Dimensionen der Bedeutungskonstitution in der Interaktion, die in geschriebener Sprache nicht unmittelbar realisiert werden können (wie z. B. Sprechpausen oder Wechsel des Sprechduktus in gesprochener Sprache). Die in den Daten ebenfalls stark vertretene Andeutungsfunktion lässt sich ebenfalls interaktional erklären: In noch stärkerem Maße als bei der Textkommunikation wird der bzw. die Leser: in in der Chat-Kommunikation zum/ zur aktiven Kommunikationspartner: in, der/ die Eigenleistung nicht nur in das Verstehen schriftlicher Beiträge einbringt, sondern der/ die durch Rollenwechsel auch selbst zum/ zur Schreiber: in wird und Gelesenes unmittelbar respondieren und das Kommunikationsgeschehen durch eigene Initiativen weiterentwickeln kann. Die Auseinandersetzung mit dem Gegenüber und die Herstellung kommunikativer und sozialer Ord- <?page no="308"?> Michael Beiẞwenger/ Sarah Steinsiek 308 nung werden somit zur unmittelbaren Anforderung für gelingende Kommunikation. Damit rückt erneut der Beziehungsaspekt in den Fokus, der sich etwa in Praktiken des face work manifestiert, sodass in bestimmten Kontexten auf sprachlichen Ausdruck verzichtet und der Aufbau von Lesarten in die Verantwortung der Partner: innen überstellt wird. Auch die Erklärung mancher AP-Verwendungen als Alternative zu Satzschlusspunkten, die auch in unserer Stichprobe in einigen Fällen als zusätzliche Funktionszuordnung plausibel erscheint, lässt sich dem Bereich sprachlicher Höflichkeit zuordnen und an die Befunde aus Vorgängeruntersuchungen anschließen: So kommt Androutsopoulos (2018) in seiner Untersuchung zur Verwendung des beitragsabschließenden Punkts in WhatsApp-Postings zu dem Schluss, dass das Punktzeichen im interaktionsorientierten Schreiben einen Prozess der Pragmatikalisierung durchläuft, bei dem die syntaktische Leistung, die ihm in der geschriebenen Standardsprache zugewiesen ist, eine metaphorische Ausdehnung erfährt und dazu verwendet wird, „einer Aussage Nachdruck [zu] verleihen oder einen Grenzpunkt der Interaktion [zu] markieren, an dem die Verhandlungsbereitschaft der Sprecherin [sic] ausgeschöpft erscheint“ (ebd., S.- 741). Daran anschließbar konstatiert Busch (2021) anhand von Belegen aus seinem Schüler-WhatsApp-Korpus, dass die normkonforme „Setzung eines Punktes […] in Gemeinschaften, die über entsprechendes metapragmatisches Wissen verfügen, als ‚genervt‘, ‚schlecht gelaunt‘ oder eben ‚angepisst‘“ (ebd., S.-320) gelte. Aus den Anforderungen der Interaktionskonstitution erklärbar ist schließlich das Auftreten interaktionsorganisierender Funktionen der AP, mit denen Praktiken der sequenziellen Fremd- und Selbstwahl aus mündlichen Gesprächen nachempfunden werden. Abb.-1: --Auslassungspunkte im Comic (Quelle: LTB 142 (1990), S.-148) <?page no="309"?> Interpunktion als interaktionale Ressource 309 Die aus unserer Analyse der Stichprobe abgeleitete Funktionstypologie berücksichtigt die Funktionen von AP in Produkten des textorientierten und des interaktionsorientierten Schreibens gleichermaßen und kann einen Ausgangspunkt für datengestützte Vergleiche von AP-Verwendungen in Formen internetbasierter Kommunikation und in redigierten Texten bilden. Die sprachlichen Praktiken des interaktionsorientierten Schreibens sind nicht im luftleeren Raum entstanden. Auch wenn Produkte des interaktionsorientierten Schreibens häufig auf den ersten Blick normfern erscheinen, wenn man sie an den Konventionen der geschriebenen Standardsprache misst, stehen auch sie in der schriftsprachlichen Tradition und adaptieren diese für die Bearbeitung von Aufgaben der Interaktion und der Nähekommunikation. Praktiken des Andeutens, des transmodalen Segmentierens und der Fremdwahl mittels AP lassen sich auch in literarischen Texten unterschiedlicher Gattungen (bis hin zum Comic, Abb.-1) nachweisen, wo sie als Stilmittel-- etwa im Bereich der Figurenrede-- eingesetzt werden. Korpusgestützte Vergleichsuntersuchungen von Praktiken der AP-Verwendung in der internetbasierten Kommunikation und in literarischen Texten dürften ein lohnenswertes Feld für Anschlussuntersuchungen sein, um den Transfer zwischen textorientiertem und interaktionsorientiertem Schreiben herauszuarbeiten und das interaktionsorientierte Schreiben in seinem Verhältnis zu schriftsprachlichen Traditionen auf empirischer Grundlage genauer zu bestimmen. Literatur Androutsopoulos, Jannis (2018): Digitale Interpunktion: Stilistische Ressourcen und soziolinguistischer Wandel in der informellen digitalen Schriftlichkeit von Jugendlichen. In: Ziegler, Arne (Hg.): Jugendsprachen. Aktuelle Perspektiven internationaler Forschung. Berlin/ Boston: De Gruyter, S.-721-748. Androutsopoulos, Jannis (2020): Auslassungspunkte in der schriftbasierten Interaktion. Sequenziell-topologische Analysen an Daten von griechischen Jugendlichen. In: Androutsopoulos, Jannis/ Busch, Florian (Hg.): Register des Graphischen. Variation, Interaktion und Reflexion in der digitalen Schriftlichkeit. Berlin/ Boston: De Gruyter, S.-133-158. AR (2018) = Rat für deutsche Rechtschreibung (2018): Regeln und Wörterverzeichnis. Aktualisierte Fassung des amtlichen Regelwerks entsprechend den Empfehlungen des Rats für deutsche Rechtschreibung 2016. https: / / www.rechtschreibrat.com/ DOX/ rfdr_Regeln_ 2016_redigiert_2018.pdf (Stand: 29.6.2023). Beißwenger, Michael (2007): Sprachhandlungskoordination in der Chat-Kommunikation. (=-Linguistik-- Impulse & Tendenzen-26). Berlin/ Boston: De Gruyter. Beißwenger, Michael (2016): Praktiken in der internetbasierten Kommunikation. In: Deppermann, Arnulf/ Feilke, Helmuth/ Linke, Angelika (Hg.): Sprachliche und kommunikative Praktiken. (=-Jahrbuch des Instituts für Deutsche Sprache 2015). Berlin/ Boston: De Gruyter, S.-279-310. Beißwenger, Michael (2020): Internetbasierte Kommunikation als Textformen-basierte Interaktion: ein neuer Vorschlag zu einem alten Problem. In: Lobin, Henning/ Marx, <?page no="310"?> Michael Beiẞwenger/ Sarah Steinsiek 310 Konstanze/ Schmidt, Axel (Hg.): Deutsch in sozialen Medien: interaktiv, multimodal, vielfältig. (=-Jahrbuch des Instituts für Deutsche Sprache 2019). Berlin/ Boston: De Gruyter, S.-291-318. Bredel, Ursula (2011): Interpunktion. (=- Kurze Einführungen in die germanistische Linguistik-11). Heidelberg: Winter. Busch, Florian (2021): Digitale Schreibregister. Kontexte, Formen und metapragmatische Reflexionen. (=-Linguistik-- Impulse & Tendenzen-92). Berlin/ Boston: De Gruyter. Dürscheid, Christa (2004): Netzsprache-- ein neuer Mythos. In: OBST-68 (Heft: Internetbasierte Kommunikation), S.-141-157. Herring, Susan C. (1999): Interactional coherence in CMC. In: Journal of Computer-Mediated Communication-4.4. https: / / doi.org/ 10.1111/ j.1083-6101.1999.tb00106.x. Koch, Peter/ Oesterreicher, Wulf (1994): Schriftlichkeit und Sprache. In: Günther, Hartmut/ Ludwig, Otto (Hg.): Schrift und Schriftlichkeit. Ein interdisziplinäres Handbuch internationaler Forschung. 1. Halbband. (=-Handbücher zur Sprach- und Kommunikationswissenschaft [HSK]-10.1). Berlin/ New York: De Gruyter, S.-587-604. Meibauer, Jörg (2007): Syngrapheme als pragmatische Indikatoren: Anführung und Auslassung. In: Döring, Sandra/ Geilfuß-Wolfgang, Jochen (Hg.): Von der Pragmatik zur Grammatik. Leipzig: Universitätsverlag, S.-21-37. Müller-Spitzer, Carolin/ Koplenig, Alexander/ Wolfer, Sascha (2022): Methodische Grundlagen: Empirisches Forschen in der germanistischen Linguistik. In: Beißwenger, Michael/ Lemnitzer, Lothar/ Müller-Spitzer, Carolin (Hg.): Forschen in der Linguistik. Eine Methodeneinführung für das Germanistik-Studium. (=-UTB-5711). Paderborn: Brill | Fink, S.-21-34. Parkes, Malcolm B. (1992): Pause and effect. An introduction to the history of punctuation in the West. Aldershot: Scolar Press. Sollaci, Luciana B./ Pereira, Mauricio G. (2004): The introduction, methods, results, and discussion (IMRAD) structure: a fifty-year survey. In: Journal of the Medical Library Association-92,-3, S.-364-367. Storrer, Angelika (2012): Neue Text- und Schreibformen im Internet: Das Beispiel Wikipedia. In: Feilke, Helmuth/ Köster, Juliane/ Steinmetz, Michael (Hg.): Textkompetenzen in der Sekundarstufe-II. Stuttgart: Fillibach bei Klett, S.-277-304. Storrer, Angelika (2014): Sprachverfall durch internetbasierte Kommunikation? Linguistische Erklärungsansätze-- empirische Befunde. In: Plewnia, Albert/ Witt, Andreas (Hg.): Sprachverfall? Dynamik-- Wandel-- Variation. (=- Jahrbuch des Instituts für Deutsche Sprache 2013). Berlin/ Boston: De Gruyter, S.-171-196. Storrer, Angelika (2018): Interaktionsorientiertes Schreiben im Internet. In: Deppermann, Arnulf/ Reineke, Silke (Hg.): Sprache im kommunikativen, interaktiven und kulturellen Kontext. (=- Germanistische Sprachwissenschaft um 2020- 3). Berlin/ Boston: De Gruyter, S.-219-244. <?page no="311"?> LEONIE BRÖCHER/ EVA GREDEL/ LAURA HERZBERG/ MAJA LINTHE/ ZIKO VAN DIJK LINGUISTISCHE WIKIPEDISTIK UND WIKIPEDAKTIK Revisited (2018-2023) Abstracts : Dieser Beitrag gibt einen Überblick über zwei dynamische Forschungsfelder, die in den letzten fünf Jahren intensiv ausgebaut wurden: Die Linguistische Wikipedistik umfasst Arbeiten aus der Linguistik, die sich mit der Online-Enzyklopädie Wikipedia und Wikis im Allgemeinen als Untersuchungsgegenstände beschäftigen. Als disziplinäre Facetten dieses Forschungsfeldes werden in diesem Beitrag neben korpuslinguistischen Zugängen auch text-, interaktions- und diskursanalytische Ansätze sowie genderlinguistische Forschungsergebnisse der Linguistischen Wikipedistik überwiegend aus der Germanistischen Linguistik vorgestellt. Im Fokus der Wikipedaktik steht die Zielsetzung, das didaktische Potenzial der Wikipedia und Wikis als Reflexionsgegenstände, Lehr-Lern-Plattformen sowie Orte digitaler Partizipation und Emanzipation in Vermittlungskontexten zu nutzen. This paper provides an overview of two dynamic fields of research that have been intensively developed over the last five years: Linguistic Wikipediology comprises work in linguistics that deals with the online encyclopaedia Wikipedia and wikis in general as objects of study. In addition to (corpus) resources, text-, interactionand discourse-analytical approaches as well as gender-linguistic research results from Linguistic Wikipediology, predominantly from German Linguistics, are presented. The focus of the second field-- namely Wikipedactics-- is to use the didactic potential of Wikipedia and wikis as objects of reflection, teaching-learning platforms and spaces of digital participation and emancipation. Keywords : Wikipedia, Wikipedistik, Wikipedaktik, Korpus, Text, Interaktion, Sprach- und Kulturvergleich, Diskurs, Gender Bias 1. Einleitung Wikis sind digitale Plattformen, deren Seiten von mehreren Personen verändert werden können. Produziert und verbreitet wird gemeinschaftlicher Inhalt (vgl. van Dijk 2021, S.-35 f.). Einteilen lassen sie sich etwa danach, ob sie primär zur Inhaltsproduktion, als Plattform zur Kollaboration oder als Lehr-Lernplattform dienen. Die bedeutendsten Wikis gehören der Wikimedia Foundation mit Sitz in den USA. Das sind neben der Online-Enzyklopädie Wikipedia die Mediensammlung Wikimedia Commons, die Datenbank Wikidata und das Wörterbuch Wiktionary. In vielen Wikis werden Sachtexte produziert. In Wikis entwickeln sich typischerweise Hypertexte (Storrer 2018a, S.-401), für deren Entstehung „eine gute Planung“ und für deren Nutzung ein „durchschaubares Navigationskonzept“ benötigt werden (Storrer 2004, S.- 215). Wikis eröffnen daher Internetnutzer*innen Möglichkeiten der digitalen Teilhabe in permanent aktualisierbaren und dynamischen Projekten und haben „die Qualität des Mediums Inter- DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="312"?> Leonie Bröcher/ Eva Gredel/ Laura Herzberg/ Maja Linthe/ Ziko van Dijk 312 net tiefgreifend verändert“ (Ebersbach/ Glaser/ Heigl 2016, S.-38). Mit ihren Reichweiten und ihrer Relevanz sind Wikis und v. a. Wikipedia früh in den Fokus der Wissenschaft gerückt. Dort werden sie aus unterschiedlichen disziplinären Perspektiven und mit verschiedenen Erkenntnisinteressen erforscht. Man kann von einem Forschungsfeld Wikis und die Wikipedia oder auch von der Wikipedistik 1 sprechen (vgl. van Dijk 2021, S.-25-27). Dieser Beitrag widmet sich der „Linguistischen Wikipedistik“ (Gredel/ Herzberg/ Storrer 2018) und fokussiert die Entwicklungen der letzten fünf Jahre (2018-2023) anhand von vier Themenbereichen: Neben (Korpus-)Ressourcen, die den empirischen Zugriff auf Wikipedia-Daten erlauben, geht es um text-, interaktionssowie diskursanalytische Ansätze und Studien, die in einigen Fällen mithilfe von Korpora durchgeführt wurden (Abschn.- 2). Es folgen Abschnitte zum Sprach- und Kulturvergleich sowie zur genderlinguistischen Perspektive. In einem weiteren Teil (Abschn.- 3) wird das didaktische Potenzial von Wikis in Hochschule und Schule dreifach perspektiviert: Wikis werden dann nicht nur als Reflexionsgegenstände thematisiert, sondern auch als Lehr-Lern-Plattformen sowie als Orte digitaler Partizipation und Emanzipation in Vermittlungskontexten. Der Beitrag schließt mit einem Fazit (Abschn.-4). 2. Disziplinäre Facetten der Linguistischen Wikipedistik 2.1 (Korpus-)Ressourcen Wikipedia steht unter freien Lizenzen zur Verfügung, was die enthaltenen Sprachdaten für die Forschung nutzbar macht. Das Leibniz-Institut für Deutsche Sprache (IDS) bietet seit 2005 über seine Korpusinfrastruktur Zugriff auf Wikipedia-Daten an. Dabei werden diese in linguistisch aufbereitete Korpora überführt und so für Forschungs- und Recherchezwecke erschlossen. Dies geschieht strukturiert, z. B. nach Namensraum, 2 d. h. es gibt Wikipedia-Subkorpora zu Artikel-, Diskussions- und Benutzerdiskussionsseiten. Neben verschiedenen Namensräumen sind auch dezidierte Jahrgänge und mehrere Sprachversionen verfügbar. Beißwenger/ Lüngen (2022) beschreiben den Ablauf folgendermaßen: Seit 2011 werden dazu alle zwei Jahre aus einem von der Wikimedia-Foundation veröffentlichten Wikipedia-Dump (einem „Snapshot“ des Datenbankinhalts einer gesamten einzelsprachlichen Wikipedia zu einem bestimmten Zeitpunkt) Korpora aller deutschsprachigen Enzyklopädie-Artikel sowie auch aller zugehörigen Diskussionen (engl. talk pages) erstellt. (Beißwenger/ Lüngen 2022, S.-439) Der Bestand wird somit laufend erweitert und ausgebaut. Die Wikipedia-Daten bilden ein Archiv des Deutschen Referenzkorpus (DeReKo), das mit 53 Mrd. Wörtern 1 https: / / de.wikipedia.org/ wiki/ Wikipedia: Wikipedistik (Stand: 25.4.2023). 2 „Ein Namensraum ist eine funktionale Gruppierung von Seiten“ (van Dijk 2021, S.-65). <?page no="313"?> Linguistische Wikipedistik und Wikipedaktik 313 (Stand: März 2022) 3 die umfangreichste Sammlung geschriebener Gegenwartssprache darstellt (vgl. Lüngen/ Kupietz 2020). Die Wikipedia-Korpora sind über die Korpusrecherchesysteme des IDS, COSMAS-II 4 und KorAP, 5 verfügbar. In COSMAS-II werden die Korpora in drei Archiven verwaltet, wobei die deutschen und englischen Wikipedia-Inhalte in jeweils einem Archiv organisiert sind und weitere acht Sprachversionen in einem Archiv zusammengefasst zur Verfügung stehen. Einige Wikipedia-Korpora verschiedener Sprachversionen und aus unterschiedlichen Jahren stehen in Samples bzw. vollständig unter CC-BY-SA-Lizenzen auch zum Download zur Verfügung. 6 Die zugrundeliegenden Rohdaten im Wikitext-Format werden initial in TEI-I5, die Textstruktur-Repräsentation von DeReKo, überführt. TEI-I5 ist ein etablierter Encoding-Standard der Text Encoding Initiative (TEI, vgl. Beißwenger/ Lüngen 2020; Beißwenger/ Lüngen 2022, S.-439). Ausgezeichnet werden die Thread- und die Post- Struktur; Zeitstempel und Signaturen werden gleichermaßen markiert. Innerhalb des Korpus sind die einzelnen Wikipedia-Seiten so abgebildet, dass immer eine Webseite, d. h. entweder eine komplette Artikel- oder eine Diskussionsseite, als zusammenhängendes Dokument dargestellt wird (vgl. ebd.). Kupietz et al. (2020) beschreiben, dass für die Wikipedia-Korpora die Quellen-URLs als externe Links eingebunden sind (vgl. ebd., S.-375). Dieses Feature gewährleistet, dass man direkt „von einem Treffer in KorAP […] zu der betreffenden Seite 7 in der deutschen Wikipedia [gelangt]“ (ebd.). Auch sind die Wikipedia-Daten, wie die meisten DeReKo-Korpora, mit den dort üblichen Annotationsschichten versehen, u. a. Tokenisierung, Lemmatisierung und Satzsegmentierung. 8 2.2 Text und Interaktion Im Internet und auch in der Wikipedia wird Schriftsprache für verschiedene Formen des Schreibens verwendet. Dabei kann zwischen dem text- und dem interaktionsorientierten Schreiben differenziert werden (vgl. Storrer 2018b). In der Wikipedia, die als „dynamischer Hypertext” (Gredel/ Herzberg/ Storrer 2018, S.-483) aufgefasst wird, zeigen sich die Unterschiede dieser Konzepte sehr deutlich, da hier beide Formen des Schreibens praktiziert werden. 3 https: / / www.ids-mannheim.de/ digspra/ kl/ projekte/ korpora/ (Stand: 25.4.2023). 4 https: / / cosmas2.ids-mannheim.de/ cosmas2-web/ (Stand: 25.4.2023). 5 https: / / korap.ids-mannheim.de/ (Stand: 25.4.2023). 6 https: / / www.ids-mannheim.de/ digspra/ kl/ projekte/ korpora/ verfuegbarkeit-1/ (Stand: 25.4.2023). 7 Dies meint eine Verlinkung auf eine durch einen persistenten Link versehene Seite, wie sie für das Korpus heruntergeladen wurde. 8 Vgl. Beißwenger/ Lüngen (2022, S.- 440) für weitere Informationen dazu sowie https: / / korap.idsmannheim.de/ doc/ ql für eine Einführung in KorAP und dessen Features. <?page no="314"?> Leonie Bröcher/ Eva Gredel/ Laura Herzberg/ Maja Linthe/ Ziko van Dijk 314 Für das „textorientierte Schreiben sind Prozesse des Planens und (oft mehrfachen) Redigierens“ (Storrer 2019, S.-226) charakteristisch. Zwar werden Wikiseiten kontinuierlich von Benutzer*innen verändert, ausgebaut oder korrigiert. Es kommen Artikel hinzu, andere werden gelöscht. Dennoch erfüllen die Artikelseiten als solche die Anforderungen, die an einen Text gestellt werden. Die Einträge in der Online- Enzyklopädie sollen für Leser*innen ohne direkten Kontakt mit den Schreiber*innen verständlich sein, dienen der Wissensvermittlung und haben somit eine erkennbare Textfunktion (vgl. ebd.). Sie sind zudem „von einer aktuellen Sprachproduktionssituation“ (ebd.) ablösbar. Demgegenüber steht das Schreiben auf den Diskussionsseiten der Wikipedia, das an- einen Interaktionsverlauf gebunden ist und an dem mehrere Benutzer*innen teilnehmen. Diskussionsseiten werden von den Benutzer*innen als Raum des kollaborativen Arbeitens wahrgenommen. Der Inhalt wird innerhalb von „Threads“ ausgehandelt. Jeder Thread besteht aus thematisch zusammengehörigen Diskussionsbeiträgen, die wiederum mit einer Signatur abschließen. Dort enthalten sind Informationen darüber, wann und von wem ein Beitrag verfasst wurde. Die Zusammengehörigkeit von Beiträgen bleibt bestehen durch die räumliche Darstellung als Liste. Eine solche räumliche Darstellung bezeichnet Storrer (2020) als „Kohärenzbildungshilfen“, die die „Rekonstruktion interaktionaler Kohärenz unterstützen“ (ebd., S.-115). Trotz unterschiedlichen Wissenstands können die Benutzer*innen jederzeit rekonstruieren, wie der aktuelle Stand der Diskussion aussieht. Diskussionsbeiträge bedienen das übergeordnete kollaborative Ziel der ständigen Entwicklung neuer bzw. Verbesserung bestehender Artikelseiten. Dementsprechend werden darin meist kurz und umgangssprachlich akute Probleme dargestellt. Das Ausformulieren eines stilistisch redigierten Textes steht nicht im Vordergrund, vielmehr geht es darum, Unstimmigkeiten bei der Bearbeitung zu beheben. Somit zielen die Versprachlichungsstrategien „auf das Gelingen der laufenden Interaktion. Hierfür kann eine schnelle Reaktion wichtiger sein als sprachliche Elaboriertheit“ (Storrer 2019, S.-226). Ähnlich zu Gesprächen im Alltag spielen die Nähe zueinander, das Erreichen eines gemeinsamen Ziels und die allgemeine Beziehungsgestaltung tragende Rollen auf den Diskussionsseiten. Diese Charakteristika werden von Wikipedia selbst ebenfalls unterstützt. Während es für die Artikelseiten genaue Anleitungen zur Erstellung gibt, die beschreiben, was Teil eines Wikipedia-Artikels sein kann, wird bei den Angaben zu Diskussionsbeiträgen vor allem auf das Miteinander der Benutzer*innen geachtet, d. h. wie miteinander kommuniziert werden soll. Die Unterschiede des text- und interaktionsorientierten Schreibens in Wikipedia kommen in Untersuchungen zu interaktiven Einheiten besonders ertragreich zum Vorschein. Storrer (ebd.) vergleicht Verwendungsweisen der Konnektoren weil, d. h. und sprich. In Korpusstudien zum Internationalismus okay (Herzberg 2018; Herzberg/ Storrer 2019a; Storrer/ Herzberg 2022) wurde ebenfalls gezeigt, dass vermeintlich kleine Kommunikationseinheiten ein breites Funktionsspektrum entwickeln kön- <?page no="315"?> Linguistische Wikipedistik und Wikipedaktik 315 nen, wenn in Diskussionsräumen wie Wikipedia dafür Bedarfe bestehen. Weiterhin bildet Wikipedia eine gute Grundlage für die Herausstellung von Eigenschaften schriftlicher Interaktion und der Etablierung von internetbasierter Kommunikation-als Dritt-Genre neben Text und Gespräch (vgl. Beißwenger 2020). In Studien zu computerlinguistischen Auszeichnungs- und Darstellungsmöglichkeiten von Interaktionsstrukturen werden Textsorten internetbasierter Kommunikation, u. a. Wikipedia-Daten genutzt, um Goldstandards zu entwickeln, die ein automatisches Taggen von Interaktionszusammenhängen ermöglichen sollen (Lüngen/ Herzberg 2019; Herzberg/ Lüngen in-Vorb.). 2.3 Diskurse Während sich die Diskurslinguistik als linguistische Teildisziplin mit transtextuellen Erkenntnisinteressen zunächst auf journalistische Texte als Untersuchungsobjekte konzentrierte, fand zuletzt eine Hinwendung zu digitalen Plattformen statt. Dabei wurde das Programm digitaler Diskursanalysen ausgebaut (vgl. Gredel 2020). Auch Wikipedia wurde entsprechend untersucht und ihr Potenzial als diskurslinguistischer Gegenstand aufgezeigt (vgl. Pentzold 2007; Beyersdorff 2011; Gredel 2020). Wikis und Wikipedia als diskursive Räume zeichnen sich durch komplexe Diskursfragmente aus (vgl. Gredel 2020), wobei nicht nur die Artikel- und Artikel-Diskussionsseiten Relevanz für Diskurse haben. Auch die Benutzerbzw. Benutzerdiskussionsseiten als Orte der Selbst- und Fremdpositionierung sind diskursiv bedeutsam (vgl. Gredel 2021a). Der Metabereich mit Regeln und Richtlinien beeinflusst, ob und wie sich Äußerungen im digitalen Diskurs der Wikipedia durchsetzen können. Einige Elemente der „Werkstattsprache“ in Wikipedia (Storrer 2017, S.-269) können als diskursive Einheiten zur sprachlichen Durchsetzung dieser Regeln gedeutet werden (vgl. Gredel/ Flinz 2020). Zudem gibt es einen umfassenden Metadiskurs dazu, wie Wikipedia verbal und visuell auszugestalten ist, um einen potenziellen Gender-Bias in Wikipedia-Artikeln zu reduzieren (vgl. Gredel 2022). Digitale Diskursanalysen der Wikipedia gingen in den letzten Jahren v. a. auf die hypertextuellen Spezifika ein- - darunter Multimodalität und Multilingualität. Da Hypertexte die vielfältige Integration multimodaler Ressourcen erlauben, sind digitale Diskurse als multimodale Kohärenzphänomene zu verstehen (vgl. Storrer 2019). So werden Bildinventare in Wikipedia-Artikeln zu kontrovers verhandelten Themen wie etwa Nachhaltigkeit (vgl. Gredel 2019a) immer wieder abgewandelt und rezipiert (vgl. zu Leser-Interaktionen mit Bildern in der Wikipedia Rama et al. 2022). In einigen Fällen nutzen Autor*innen etwa multimodale Metaphern zur perspektivischen Sachverhaltskonstitution bei komplexen Themen wie Burnout, wobei sich diese in den verschiedenen Sprachversionen unterscheiden können (vgl. Gredel 2019b). Dies verweist darauf, dass die multilinguale Wikipedia als Ressource zum <?page no="316"?> Leonie Bröcher/ Eva Gredel/ Laura Herzberg/ Maja Linthe/ Ziko van Dijk 316 Sprach- und Kulturvergleich genutzt werden kann, was im folgenden Abschnitt im Detail besprochen werden soll. 2.4 Sprach- und Kulturvergleich Mit zwischenzeitlich 316 aktiven Sprachversionen (Wikimedia 2022) stellt die Wikipedia eine einzigartige Ressource zum Sprach- und Kulturvergleich dar (Hinweise zur multilingualen Erforschung der Wikipedia vgl. Johnson/ Lescak 2022). Eine zentrale Idee der Wikipedia-Gemeinschaft ist es, freies Wissen für alle in möglichst vielen Sprachen anzubieten, wobei auch Dialekte (wie Ägyptisches Arabisch), Dialektgruppen (wie Alemannisch) und Regionalsprachen (wie Friesisch) mit eigenen Sprachversionen und z. T. mit spezifischen textuellen Mustern vertreten sind (vgl. Gredel 2018). Auch wenn das Grundkonzept der Wikipedia dasselbe ist, so unterscheiden sich die Regeln und Traditionen der einzelnen Sprachversionen voneinander (vgl. van Dijk 2009): Während man sich in der Wikipedia auf Deutsch vornehmlich duzt, siezt man sich in der Wikipedia auf Französisch. Unterschiede zwischen hypertextuell verknüpften Wikipedia-Artikeln verschiedener Sprachversionen lassen sich auch bezüglich der Makrostruktur (Lenk 2020) oder des Framings und der konzeptionellen Perspektivierung rekonstruieren, wie Kleinke/ Schultz (2019) am Beispiel von „Nation“ (DE) und „nation“ (ENG) zeigen. Die in Abschnitt- 2.1 beschriebenen multilingualen Korpora machen kontrastive bzw. sprachvergleichende Analysen auf unterschiedlichsten Sprachebenen möglich: So wurde mithilfe der Wikipedia-Korpusfamilie der Internationalismus okay für das Sprachenpaar Deutsch- - Französisch kontrastiv etwa hinsichtlich seiner syntaktischen Integration untersucht (vgl. Herzberg/ Storrer 2019a sowie Storrer/ Herzberg 2022). Auf morphologischer Ebene wurden für das Sprachenpaar Deutsch-- Italienisch korpus-basiert die Konfixderivate -phobie (D) und -fobia (IT) sowie -manie (D) und -mania (IT) analysiert, die von der Medizinfachsprache in die Gemeinsprache und zuletzt auch in die internetbasierte Kommunikation auf den Wikipedia-Diskussionsseiten übernommen wurden (vgl. Gredel/ Flinz 2020). Es konnte gezeigt werden, dass formale und funktionale Äquivalenzen im Deutschen und Italienischen bestehen, wenn Wikipedia-Autor*innen die als Krankheitsmetaphern zu deutenden Wortbildungsprodukte wie etwa Lösch(o)manie oder cancellomania auf Diskussionsseiten dazu nutzen, Wikipedia-Regeln durchzusetzen. Auch textuelle Phänomene in Wikipedia wurden analysiert: In einer korpusbasierten Untersuchung zu deutschen Funktionsverbgefügen sowie ihren polnischen Äquivalenten geht Kabatnik (2020) auf deren Leistungen im Textzusammenhang ein. In einer kontrastiv angelegten Diskursanalyse zu Migration in der deutschen und italienischen Sprachversion der Wikipedia konnten auf lexikalischer Ebene Präferenzen für konkurrierende Diskursvokabulare rekonstruiert werden (Flüchtling versus Geflüchtete und rifugiato versus profugo, vgl. Flinz/ Gredel 2019). Über solche <?page no="317"?> Linguistische Wikipedistik und Wikipedaktik 317 Diskursanalysen wird die transnationale Dimension digitaler Diskurse transparent und die Ergebnisse können nicht nur zum Sprachvergleich, sondern auch zum Kulturvergleich herangezogen werden. 2.5 Genderlinguistik und Gender-Bias Die Genderlinguistik nach Kotthoff und Nübling analysiert einerseits, unter Einbezug der gesprächs- und medienanalytischen Genderforschung, den Sprachgebrauch und widmet sich andererseits der Analyse des Sprachsystems „das in seinen erhärteten lexikalischen und grammatischen Strukturen frühere Gespräche, Geschlechterordnungen und das Sprechen über die Geschlechter konserviert, perpetuiert und reproduziert“ (Kotthoff/ Nübling 2018, S.- 13 f.). In ihrem gemäßigten Konzept des sprachlichen Konstruktivismus gehen Kotthoff und Nübling davon aus, dass Gender oder doing gender, die Praktiken der Geschlechtsdarstellung, auch durch Sprache und Sprechen reproduziert werden. In den Fokus der Analyse rückt dann u. a. das generische Maskulinum als geschlechtsübergreifende Personenbezeichnung. Die Forscherinnen weisen auf die Homophonie der geschlechtsspezifischen und geschlechtsübergreifenden Personenbezeichnungen hin, wodurch das generische Maskulinum eine Verweiskraft auf das männliche Geschlecht (ebd., S.-89) enthält. Einen solchen engen Genus-Sexus-Nexus belegen auch die Ergebnisse der von ihnen angeführten empirischen Rezeptions- oder Perzeptionsstudien. Die Wikipedia als Untersuchungsgegenstand eignet sich besonders für eine genderlinguistische Analyse sowohl des Sprachgebrauchs als auch des Sprachsystems, da gemäß der Wikipedia-Richtlinien Artikelseiten und die zugeordneten Kategorien 9 nach wie vor „unter dem maskulinen Bezeichner (siehe generisches Maskulinum) angelegt“ 10 werden müssen. Im Rahmen des Projekts Digilog@bw 11 wurden linguistische Analysen zum Gender- Bias in der Online-Enzyklopädie durchgeführt. In einer Teiluntersuchung geht es auch um die Benutzung geschlechtergerechter Formen in der Wikipedia. Dass sich die konsequente Verwendung des generischen Maskulinums dabei als kaum durchhaltbar erweist, belegt eindrücklich die Betrachtung von Artikelseiten zu Berufsbezeichnungen in der Wikipedia, die gemäß den Richtlinien unter ihrer männlichen Bezeichnung (z. B. Kassierer) angelegt sind. In der Untersuchung wurden 20 über- 9 https: / / de.wikipedia.org/ wiki/ Wikipedia: Namenskonventionen/ Kategorien#Allgemeines (Stand: 25.4.2023). 10 https: / / de.wikipedia.org/ wiki/ Wikipedia: Namenskonventionen#Männliche_und_weibliche_ Bezeich nungen (Stand: 25.4.2023). 11 https: / / digilog-bw.de (Stand: 25.4.2023). <?page no="318"?> Leonie Bröcher/ Eva Gredel/ Laura Herzberg/ Maja Linthe/ Ziko van Dijk 318 wiegend von Frauen (z. B. Kassiererin) und 20 überwiegend von Männern ausgeübte Berufe (z. B. Kfz-Mechatroniker) betrachtet. Es hat sich gezeigt, dass auf den Artikelseiten zu Berufen, die überwiegend von Männern ausgeübt werden, ausschließlich die männliche Form verwendet wird, wohingegen in acht von 20 Artikeln zu überwiegend von Frauen ausgeübten Berufen auch movierte Formen, wie Stenotypistin oder geschlechtergerechte Varianten, wie Datentypist(-in) oder Kassierer(innen) vorkommen. Kotthoff / Nübling (2018) erkennen in den sprachlichen Verfahren der Imitation, in den Verfahren, wie Sprache unsere Wahrnehmung prägt und präformiert, auch die Möglichkeit, Distanz zum „Zitat“ zu wahren. Diese Distanz zum Zitat ist es dann, die Veränderung und damit Sprachwandel ermöglicht. Auch für eine solche Untersuchung eignet sich die Wikipedia als Diskursraum kontroverser Genderdiskussionen. 3. Wikipedaktik in Schule und Hochschule Unter dem Label Wikipedaktik (Storrer 2013, S.-278) wird seit den 2000er Jahren ein umfassender Rahmen für den didaktischen Einsatz von Wikis und insbesondere der Wikipedia ausgebaut. Bereits Anfang der 2010er Jahre wurde verdeutlicht, dass Wikis in unterschiedlichen Vermittlungskontexten und in verschiedenen Disziplinen zielführend genutzt werden können (vgl. Beißwenger/ Anskeit/ Storrer (Hg.) 2012). Wikis stellen für Kinder und Jugendliche zudem ein wichtiges Informationsangebot dar: Im Jahr 2020 gaben 58 Prozent der befragten Schülerinnen und Schüler zwischen 12 und 19 Jahren an, dass Wikipedia ein von ihnen regelmäßig genutztes „mediales Lernangebot“ sei (MPFS 2020, S.- 1). Die auf jüngere Kinder fokussierte KIM-Studie (2020, S.-38) belegt, dass bereits 28% der befragten Kinder im Alter von sechs bis 13 Jahren Wikipedia mehrmals wöchentlich nutzen. Didaktisch sinnvoll können Wikis als Reflexionsgegenstände (Abschn.- 3.1), als Lehr-Lern-Plattformen (Abschn.-3.2) oder als Orte digitaler Partizipation und Emanzipation eingesetzt werden (Abschn.-3.3), um digitalisierungsbezogene Kompetenzen zu erwerben. 3.1 Wikis als Reflexionsgegenstand In Zeiten digitaler Transformation ist der reflektierte Zugriff auf digitale Plattformen eine zentrale Kompetenz. In einem Strategiepapier der Kultusministerkonferenz (KMK) unter dem Titel „Bildung in der digitalen Welt“ wird der diesbezügliche Anspruch an Lehrerinnen und Lehrer klar formuliert: „Lehramtsstudierende und (angehende) Lehrkräfte müssen die didaktischen und methodischen Chancen digitaler Medien für den Lehr- und Lernprozess erkennen und nutzen können“ (KMK 2016, S.- 25). Wikipedia und andere Wikis bieten sich als thematisch und zielgruppenbezogen breit gestreute Wissensressourcen an. Während ein beträchtlicher Teil <?page no="319"?> Linguistische Wikipedistik und Wikipedaktik 319 der 6bis 13-Jährigen auf Wikipedia zugreift (siehe oben), weist die Initiative Klicksafe im Kontext des Medienkompetenzrahmens NRW auf Folgendes hin: Aus medienpädagogischer Sicht ist es für Kinder dieses Alters [6-13 Jahre, Anmerkung der Verf.] jedoch nicht empfehlenswert, über Erwachsenenangebote-- und dazu zählt auch Wikipedia-- Informationen zu suchen […] Ein kindgerechtes Nachschlagewerk ist […] das Klexikon. (Klicksafe/ Wikimedia Deutschland e. V. 2018) Neben dem Klexikon gibt es weltweit eine Reihe weiterer Online-Enzyklopädien in verschiedenen Sprachen für Kinder, die als digitale Wissensressourcen nicht nur kindgerecht gestaltet sind, sondern sich auch als Reflexionsgegenstand im (Sprach-) Unterricht anbieten (etwa Wikikids.nl oder die Txikipedia auf Baskisch). Aus linguistischer Sicht kann Wikipedia mit Lernenden anderer Altersstufen als Produkt sachlexikografischer Prozesse perspektiviert werden, um Mikro- und Makrostrukturen der Online-Enzyklopädie zu thematisieren (vgl. Gredel 2019c). Auch die Beschäftigung mit der diskursiv-multimodalen Dimension (Gredel 2019b) sowie mit multilingualen Aspekten (vgl. Gredel 2019c und 2019d) können gut an schulische Bildungspläne und universitäre Curricula rückgebunden werden. Zudem lassen sich beispielsweise im Fremdsprachenunterricht Fragen nach spezifischen Wortbildungsprodukten in der Wikipedia besprechen (Gredel 2021b). Eine digitale Plattform wie die Wikipedia mit ihren dynamischen Inhalten bietet sich dazu an, die Konstruiertheit von Wissen bzw. die Entstehungsprozesse von Texten zu reflektieren (Bürgin/ Eichenberger/ Zumstein 2020, S.- 187). Gegenstand der Reflexion kann zunächst der Hauptinhalt sein, also Artikelseiten und andere Seiten (z. B. die Diskussionsseiten), deren Inhalte sich an die Rezipienten des Wikis richten. Der Nebeninhalt umfasst die Regel- und Diskussionsseiten oder allgemeiner alle Kommunikationskontexte in Wikis, die die Inhaltsproduktion unterstützen (vgl. van Dijk 2021, S.-213-216). Anhand von Diskussionsseiten lassen sich nicht nur Entstehungsprozesse nachverfolgen, sondern auch soziale Beziehungen zwischen den Beteiligten und der Gemeinschaft der Mitmachenden. Ferner kann man analysieren, wie Wikipedia-Inhalte von den Rezipierenden aufgenommen werden; so ergab eine Studie, dass Artikel über Krankheiten für ein nicht medizinisch gebildetes Publikum oft schwer verständlich sind (vgl. Gordejeva et al. 2022). Da die Arbeit der Gemeinschaft beispielsweise von der Gesetzgebung etwa zu Urheberrechtsfragen beeinflusst wird, lässt sich behandeln, wie das Bildungssystem oder Kulturinstitutionen zur Wikipedia stehen. Darüber hinaus können Lernende auch selbst zu bereits bestehenden Wikis (z. B. Wikipedia) oder eigens zu didaktischen Zwecken erstellten Wikis beitragen (vgl. dazu im Detail Abschn.-3.2). Dazu sollte deren Funktionsweise zunächst reflektiert, analysiert und verstanden werden, bevor man (eventuell in einer Kleingruppe) einen Beitrag schreiben kann (zur Rezeption, Reflexion und Modifikation im Unterricht vgl. van Dijk 2019). Gerade das Schreiben für ein Kinderlexikon kann eine sinnvolle <?page no="320"?> Leonie Bröcher/ Eva Gredel/ Laura Herzberg/ Maja Linthe/ Ziko van Dijk 320 Herausforderung für ältere Schülerinnen und Schüler bzw. Studierende sein, da sie für eine Zielgruppe schreiben, der sie selbst nicht mehr angehören. Es gibt zumindest Anzeichen dafür, dass Studierende lieber einen Wikipedia-Artikel als eine gewöhnliche Hausarbeit schreiben (Stakić et al. 2021). Bürgin/ Eichenberger/ Zumstein (2020, S.-188 f., 197) stellen folgende Diskrepanz fest: Auch wenn sie selbst als Dozierendenteam einen studentischen Artikel sehr positiv einschätzen, wird er von „Wikipedianern“ gelegentlich stark kritisiert oder zur Löschung vorgeschlagen. Allgemein empfehlen sie studentisches Wikipedia-Schreiben im Rahmen von Konzepten wie Flipped Classroom und Blended Learning, bei denen das eigenständige Arbeiten im Vordergrund steht und Präsenzveranstaltungen vor allem der Reflexion, Diskussion und Vertiefung dienen. 3.2 Wikis als Lehr-Lern-Plattformen Wikis bieten sich in Vermittlungskontexten als Lehr-Lern-Plattformen an (vgl. Beißwenger/ Anskeit/ Storrer (Hg.) 2012), wobei in einschlägigen Projekten bereits lexikografische Zielsetzungen verfolgt wurden (zum Denktionary, vgl. Herzberg/ Storrer 2019b sowie Nolting/ Radtke 2019), orthografische Aspekte im Fokus standen (zu Ortho & Graf vgl. Beißwenger/ Meyer 2018) oder kreatives Schreiben gefördert wurde (Anskeit 2020). Dabei gibt es oft ein gemeinschaftliches Ziel, das innerhalb des Wikis verfolgt wird. Im Wiki-Wörterbuch „Denktionary“, das Wörterbuch des Projekts „Schüler machen Wörterbücher- - Wörterbücher machen Schule“, sind durch kollaborative Schreibprozesse eine Vielzahl von Wörterbuchartikeln entstanden. Knapp 100 Schüler*innen haben im Rahmen von Gruppenarbeiten Wiki-Artikel zu Themen ihrer Wahl erstellt. Dabei lernten sie Methoden der Korpuslinguistik und der korpusbasierten Lexikografie kennen. Durch die Einfachheit von MediaWiki, der verwendeten Wiki-Software, die ebenfalls Wikipedia und Wiktionary zugrundeliegt, konnte der Kompetenzbereich „Sprachreflexion“ in den Bildungsstandards des Faches „Deutsch“ ohne abschreckende technische Hürden von den Schüler*innen erforscht werden (vgl. Herzberg/ Storrer 2019b, S.- 192). Durch die Vorgabe und Nutzung von Templates, z. B. in Form von Tabellen oder Grafiken, die vom Projektteam im Vorhinein erstellt werden können, kann die kollaborative Textproduktion der Schüler*innen gut geplant werden. Wikis ermöglichen eine vollständige Transparenz des Schreibprozesses: Über die Versionsgeschichte lässt sich bei Bedarf rekonstruieren, wann welcher Textabschnitt eingefügt worden ist. Darüber hinaus können die Schüler*innen nachverfolgen, wie die Artikel der anderen Gruppen entstehen, und sich über die verknüpften Diskussionsseiten Feedback geben. Die Attraktivität eines solchen Lehr-Lern-Szenarios zeigt sich auch über das Projektende hinaus: In drei weiteren Schulen wurden Wörterbuchartikel erstellt und in das Denktionary integriert. <?page no="321"?> Linguistische Wikipedistik und Wikipedaktik 321 Ein weiteres in der Praxis erprobtes Wiki ist das Planspiel Ortho & Graf. Ähnlich zum Denktionary sollen hier für Schüler*innen komplexe Inhalte des Deutschunterrichts anschaulich vermittelt werden. Ortho & Graf fördert orthografische Kompetenzen und es regt zur Reflexion über Schreibregularitäten im Deutschen an (vgl. Beißwenger/ Meyer 2018, S.305). Die Konzepte von Ortho & Graf sowie Denktionary wurden in Hochschulseminaren sowie in der gymnasialen Mittelstufe (Klasse 7-10) erprobt. Dass Wikis bereits im Grundschulalter erfolgreich eingesetzt werden können, zeigt Anskeit (2020): Neben weiterführenden Links lassen sich beispielsweise erklärende und anregende Bilder in MediaWiki eingebunden werden. Multimodalität ist gerade bei Aufgaben des kreativen Schreibens sehr förderlich; Schüler*innen im Grundschulalter wurden u. a. anhand eines Bildimpulses aufgefordert, eine Geschichte zu schreiben. Anskeit (ebd.) stellt fest, dass den Schüler*innen so bereits im frühen Stadium der Textproduktion das Potenzial digitaler Überarbeitungsmöglichkeiten zugänglich wird (vgl. ebd., S.-93). 3.3 Wikis als Orte digitaler Partizipation und Emanzipation Wikis werden auch in der Politik eingesetzt, um im Sinne deliberativer und partizipativer Demokratietheorien einen größeren Kreis an Menschen mit einzubeziehen (van Dijk 2021, S.-250 f.). Im Teilprojekt „Wikilog@bw“ des Forschungsverbunds „Digilog@bw“ und in experimentellen Lehrveranstaltungen am Lehrstuhl Germanistische Linguistik in Mannheim wurde die Wikipedia als Ort digitaler Partizipation und Emanzipation analytisch betrachtet und praktisch genutzt. In „Wikilog@bw“ ging es vor allem darum, Forschungsergebnisse öffentlichkeitswirksam zu präsentieren und mit Bürger*innen zu diskutieren. Aspekte der Digitalisierung wurden im Rahmen der Auftaktveranstaltung am Zentrum für Kunst und Medien (ZKM), in Online-Diskussionsformaten und Blogbeiträgen diskutiert. Zudem wurden sogenannte Spotlights verfasst, in denen konkrete Einblicke in Forschungsprojekte gegeben wurden. In dem aus dem Teilprojekt „Wikilog@bw“ hervorgegangenen Spotlight-Text zum Thema „Diversität“ wurde etwa die auch in der Wikipedia-Community immer wieder aufkommende Diskussion um das generische Maskulinum aufgegriffen (vgl. Gredel/ Bröcher/ Storrer 2022) und auf die Umsetzung der internen Vorgaben zum Umgang mit geschlechtergerechten Schreibweisen eingegangen. 12 In experimentellen Lehrveranstaltungen und Projekten an der Universität Mannheim wurde die sprachwissenschaftliche Analyse von Hypertexten in der Wikipe- 12 Vgl. dazu https: / / digilog-bw.de/ blog/ diversitaet-gender-bias-in-der-wikipedia (Stand: 25.4.2023); Abschnitt-2.5. <?page no="322"?> Leonie Bröcher/ Eva Gredel/ Laura Herzberg/ Maja Linthe/ Ziko van Dijk 322 dia 13 mit der Erstellung von Wikipedia-Artikelseiten verbunden. So konnten der Wandel der Textsorte Enzyklopädie-Artikel (u. a. Pscheida 2010), die verschiedenen Arten und der Nutzen von Verlinkungen im Hypertext Wikipedia (Storrer 2012), der Einsatz der Multimodalität, die Interaktion auf den Diskussionsseiten (Storrer 2018b), die gemeinschaftliche Textproduktion (Kallass 2015) und die Qualitätssicherung in der Wikipedia (Mederake 2016) nicht nur theoretisch betrachtet, sondern auch in der Praxis, im Sinne digitaler Partizipation und Emanzipation, verfolgt werden. Die Studierenden hatten die Aufgabe, eine Wikipedia-Artikelseite zu veröffentlichen und darüber einen Projektbericht zu verfassen. Zwei der experimentellen Seminare an der Universität Mannheim, 14 die zu etwa 90% von Frauen besucht wurden, beteiligten sich an dem Projekt „Frauen in Rot“. Dieses Projekt hat es sich zur Aufgabe gemacht, mehr Autorinnen für die Wikipedia zu gewinnen und mehr Artikel über Frauen in der Wikipedia zu veröffentlichen. Die Studierenden des dritten, interdisziplinären Seminars „Der Widerstand gegen den Nationalsozialismus in der deutschen Wikipedia“, bestehend aus je einem Seminar der Geschichte und der germanistischen Linguistik, 15 hatten die Aufgabe, zu zweit eine Artikelseite über eine Person aus der Region Rhein-Neckar zu erstellen, die Widerstand gegen den Nationalsozialismus geleistet hatte. Insgesamt konnten in den drei Seminaren fünf sog. Edit-a-thons, d. h. Veranstaltungen, auf denen Artikel gemeinsam erstellt werden und erfahrene Wikipedianer*innen „Neulingen“ bei der Artikelerstellung helfen, durchgeführt werden. Dabei wurden 50 Artikelseiten erstellt und 7 vervollständigt. Alle Seminarverläufe und die damit verbundenen Artikelerstellungen können sowohl in der Wikipedia, auf den entsprechenden oben genannten Seminarseiten, als auch in einem Blog, in dem die Studierenden über ihre Erfahrungen bei der gemeinschaftlichen Textproduktion berichten, verfolgt werden. 16 4. Fazit Die Ausführungen im Abschnitt-2 machen deutlich, dass im Kontext der Linguistischen Wikipedistik in den letzten Jahren in zahlreichen Studien zu verschiedenen sprachlichen Phänomenen Forschungsbeiträge zur empirischen Linguistik und v. a. zur Erforschung digitaler Kommunikation geleistet werden konnten. Insbesondere die vorgestellten digitalen Korpusressourcen eröffnen den empirischen Zugang zu Wikipedia-Daten aus text-, interaktions- und diskursanalytischer Sicht. Ergänzt werden diese disziplinären Sichten im Bereich der Linguistischen Wikipedistik durch kontrastive und genderlinguistische Ansätze. In Abschnitt-3 wurde im Sinne 13 Für eine entsprechende Beispielanalyse siehe Linthe (2023a). 14 https: / / de.wikipedia.org/ wiki/ Wikipedia: Edit-a-thon/ Mannheim_2020_%E2%80%93_Frauen_in_Rot, https: / / de.wikipedia.org/ wiki/ Wikipedia: Hochschulprogramm/ Mannheim_FSS_2021 (Stand: 25.4.2023). 15 Linthe (2023b). 16 https: / / mitqualitaet.com/ category/ wikipedia-artikel-schreiben/ (Stand: 25.4.2023). <?page no="323"?> Linguistische Wikipedistik und Wikipedaktik 323 der Wikipedaktik das didaktische Potenzial der Wikipedia sowie von Wikis im Allgemeinen dreifach perspektiviert vorgestellt. Wünschenswert wäre es angesichts des großen Potenzials von Wikis, dass diese auch über die einzelnen beschriebenen Projekte hinaus zukünftig flächendeckend und systematisch zur Vermittlung bzw. zum Erwerb digitalisierungsbezogener Kompetenzen zum Einsatz kommen. Literatur und Quellen Anskeit, Nadine (2020): Wikibasiertes Schreiben in der Primarstufe. Ein multimediales Projekt für den Deutschunterricht. In: Abraham, Ulf/ Knopf, Julia (Hg.): Deutsch digital: Bd-2 Praxis. Vollst. überarb. und erw. 2.-Aufl. (=-Deutschdidaktik für die Primarstufe-4). Baltmannsweiler: Schneider Hohengehren, S.-88-95. Beißwenger, Michael (2020): Internetbasierte Kommunikation als Textformen-basierte Interaktion: ein neuer Vorschlag zu einem alten Problem. In: Lobin/ Marx/ Schmidt (Hg.), S.-291-318. Beißwenger, Michael/ Lüngen, Harald (2020): CMC-core: a schema for the representation of CMC corpora in TEI. In: Corpus-20. https: / / doi.org/ 10.4000/ corpus.4553. Beißwenger, Michael/ Lüngen, Harald (2022): Korpora internetbasierter Kommunikation. In: - Beißwenger, Michael/ Lemnitzer, Lothar/ Müller-Spitzer, Carolin (Hg.): Forschen in der Linguistik. Eine Methodeneinführung für das Germanistik-Studium. Paderborn: Brill | Fink, S.-431-450. Beißwenger, Michael/ Meyer, Lena (2018): Ortho-& Graf: ein Wiki-basiertes Planspiel zur Förderung von Rechtschreibkompetenzen in der Sekundarstufe- II. In: Gailberger, Steffen/ Wietzke, Frauke (Hg.): Deutschunterricht in einer digitalen Gesellschaft. Unterrichtsanregungen für die Sekundarstufen. Weinheim: Beltz Juventa, S.-296-330. Beißwenger, Michael/ Knopp, Matthias (Hg.) (2019): Soziale Medien in Schule und Hochschule: Linguistische, sprach- und mediendidaktische Perspektiven. (=- Forum Angewandte Linguistik-63). Bern u. a.: Lang. Beißwenger, Michael/ Anskeit, Nadine/ Storrer, Angelika (Hg.) (2012): Wikis in Schule und Hochschule. Boizenburg: VWH, Hülsbusch. Beyersdorff, Marius (2011): Wer definiert Wissen? Wissensaushandlungsprozesse bei kontrovers diskutierten Themen in „Wikipedia-- Die freie Enzyklopädie“-- Eine Diskursanalyse am Beispiel der Homöopathie. (=- Semiotik der Kultur / Semiotic of Cultures). Frankfurt a. d. O.: LIT. Bürgin, Martin/ Eichenberger, Linda/ Zumstein, Marius (2020): Alternative Leistungsnachweise im Digital Flipped Classroom. Wikipedia als Plattform und Werkzeug universitärer Lehre. https: / / www.religionskunde.ch/ index.php/ unterricht-enseignement/ 115-buerginmartin-eichenberger-linda-zumstein-marius-alternative-leistungsnachweise-im-digitalflipped-classroom-wikipedia-als-plattform-und-werkzeug-universitaerer-lehre (Stand: 25.4.2023). Ebersbach, Anja/ Glaser, Markus/ Heigl, Richard (2016): Social Web. 3.,-überarb. Aufl. (=-UTB 3065). Konstanz/ München: UVK. Flinz, Carolina/ Gredel, Eva (2019): Bildinventare und konkurrierende Termini im Flüchtlingsdiskurs in der Wikipedia. Eine kontrastive Diskursanalyse der deutschen und der italieni- <?page no="324"?> Leonie Bröcher/ Eva Gredel/ Laura Herzberg/ Maja Linthe/ Ziko van Dijk 324 schen Sprachversion. In: Niehr, Thomas/ Moraldo, Sandro/ Schiewe, Jürgen (Hg.): Sprach(kritik)kompetenz als Mittel demokratischer Willensbildung. Sprachliche In- und Exklusionsstrategien als gesellschaftliche Herausforderung. (=-Greifswalder Beiträge zur Linguistik-12). Bremen: Hempen, S.-177-196. Gordejeva, Jelizaveta/ Zowalla, Richard/ Pobiruchin, Monika/ Wiesner, Martin (2022): Readability of English, German, and Russian disease-related Wikipedia pages: Automated computational analysis. In: Journal of Medical Internet Research-24,-5. DOI: 10.2196/ 36835. Gredel, Eva (2018): Di Alemannischi Wikipedia-- Di frei Enzyklopedi, wo alli chöi mitschaffe. Eine text- und variationslinguistische Analyse der alemannischen Sprachversion der Wikipedia. In: Adamzik, Kirsten/ Maselko, Mateusz (Hg.): Variationslinguistik trifft Textlinguistik. (=-Europäische Studien zur Textlinguistik-19). Tübingen: Narr, S.-161-182. Gredel, Eva (2019a): Vom Sprachbild Nachhaltigkeit zur Bildersprache der Wikipedia: Dynamiken ökonomischer Wissensbestände in der Online-Enzyklopädie- - die multimodale Dimension digitaler Diskurse. In: Gredel, Eva/ Balint, Iuditha/ Galke-Janzen, Patrick/ Lischeid, Thomas/ Raith, Markus (Hg.): Ökonomie und Bildmedien: Bilder als Ausdrucksressource zur Konstruktion von Wissen. (=- Sprache und Wissen- 36). Berlin/ Boston: De Gruyter, S.-188-212. Gredel, Eva (2019b): Multimodalität in verschiedenen Sprachversionen der Wikipedia: Eine kontrastive Analyse von Bildinventaren und Text-Bild-Relationen in digitalen Diskursen. In: Giessen, Hans/ Lenk, Hartmut/ Tienken, Susanne/ Tiittula, Liisa (Hg.): Medienkulturen-- Multimodalität und Intermedialität. (=-Sprache in Kommunikation und Medien-14). Bern: Lang, S.-261-276. Gredel, Eva (2019c): Wikipedaktik: Kollaborative Sachlexikographie als Lehr- und Lerngegenstand im Deutschunterricht. In: Lexicographica-34,-1, S.-37-65. Gredel, Eva (2019d): Wikipedia als Reflexionsgegenstand in sprach- und mediendidaktischen Kontexten: Die diskursanalytische und multimodale Dimension der Wikipedaktik. In: Beißwenger/ Knopp (Hg.), S.-165-190. Gredel, Eva (2020): Digitale Diskursanalysen: Das Beispiel Wikipedia. In: Lobin/ Marx/ Schmidt (Hg.), S.-247-264. Gredel, Eva (2021a): Multimodal (self)-positioning of Wikipedia authors on user pages. The visual dimension of identities-in-interaction in digital discourse. In: Diskurse- - digital-3,-1, S.-1-22. Gredel, Eva (2021b): Wikipedistik in Vermittlungskontexten des DaF-/ DaZ-Unterrichts: Kollaborative Textproduktion mithilfe von CMC-Korpora analysieren und reflektieren. In: Korpora Deutsch als Fremdsprache-1,-2, S.-74-94. Gredel, Eva (2022): Diskursdynamiken zum Gender Bias in der Online-Enzyklopädie Wikipedia. In: Deutsche Sprache- 50 (Themenheft: Diskursive Dynamiken. Herausgegeben von Janja Polajnar), S.-196-213. Gredel, Eva/ Flinz, Carolina (2020): Morphosyntax im deutsch-italienischen Vergleich: Eine kontrastive Fallstudie zu Wortbildungsprodukten in der internetbasierten Kommunikation der Online-Enzyklopädie Wikipedia. In: Deutsche Sprache-48, S.-193-209. Gredel, Eva/ Bröcher, Leonie/ Storrer, Angelika (2022): Wikilog@bw: Linguistische Analysen zum Gender Bias in der Online-Enzyklopädie Wikipedia. In: Kämper, Heidrun/ Plewnia, <?page no="325"?> Linguistische Wikipedistik und Wikipedaktik 325 Albrecht (Hg.): Sprache in Politik und Gesellschaft: Perspektiven und Zugänge. (=- Jahrbuch des Instituts für Deutsche Sprache 2021). Berlin/ Boston: De Gruyter, S.-319-322. Gredel, Eva/ Herzberg, Laura/ Storrer, Angelika (2018): Linguistische Wikipedistik. Zeitschrift für germanistische Linguistik-46,-3, S.-480-493. Herzberg, Laura (2018). Ein Internationalismus kontrastiv: korpusbasierte Untersuchungen zu OKAY in der deutschen und französischen Sprachversion der Wikipedia. In: Bambrilla, Marina (Hg.): Internationale Tagung Kontrastive Linguistik: Book of abstracts : Dipartimento di Scienze della Mediazione Linguistica, Piazza Montanelli-1, Sesto San Giovanni (MI), 25.-26.-Oktober 2018. Milano: Università degli Studi di Milano, S.-17-18. Herzberg, Laura/ Lüngen, Harald (in Vorb.): Investigating reply relations on Wikipedia talk pages to reconstruct interactional strategies of Wikipedia authors. In: Poudat, Céline/ Lüngen, Harald/ Herzberg, Laura: Investigating Wikipedia: Linguistic corpus building, exploration and analysis. Amsterdam/ Philadelphia: Benjamins. Herzberg, Laura/ Storrer, Angelika (2019a): Investigating OKAY across genres, modes and languages: A corpus-based study on German and French. Cahiers du Laboratoire de Recherche sur le Langage: CLRL-8, S.-149-176. Herzberg, Laura/ Storrer, Angelika (2019b): Wiki-Wörterbücher im Deutschunterricht: Konzepte und Erfahrungen aus dem Projekt „Schüler machen Wörterbücher-- Wörterbücher machen Schule“. In: Beißwenger/ Knopp (Hg.), S.-191-214. Johnson, Isaac/ Lescak, Emily (2022): Considerations for multilingual Wikipedia research. In: Conference paper for ICLR 2022. https: / / doi.org/ 10.48550/ arXiv.2204.02483. Kabatnik, Susanne (2020): Leistungen von Funktionsverbgefügen im Text. Eine korpusbasierte quantitativ-qualitative Untersuchung am Beispiel des Deutschen und des Polnischen. (=-Europäische Studien zur Textlinguistik-21). Tübingen: Narr. Kallass, Kerstin (2015): Schreiben in der Wikipedia: Prozesse und Produkte gemeinschaftlicher Textgenese. Wiesbaden: Springer VS. KIM-Studie (2020): Kindheit, Internet, Medien. https: / / www.mpfs.de/ fileadmin/ files/ Studien/ KIM/ 2020/ KIM-Studie2020_WEB_final.pdf (Stand: 25.4.2023). KMK (2016)- = Kultusministerkonferenz (2016): Bildung in der digitalen Welt. Strategie der Kultusministerkonferenz. https: / / www.kmk.org/ fileadmin/ pdf/ PresseUndAktuelles/ 2018/ Digitalstrategie_2017_mit_Weiterbildung.pdf (Stand: 25.4.2023). Kleinke, Sonja/ Schultz, Julia (2019): Ist „Nation“ gleich „nation“? Zwei Wikipedia-Artikel im Sprach- und Kulturvergleich. In: Diskurse-- digital-1, S.-62-97. Klicksafe/ Wikimedia Deutschland e. V. (2018): Wikipedia. Wissen gemeinsam gestalten. https: / / www.klicksafe.de/ fileadmin/ cms/ download/ Material/ Päd._Praxis/ LH_Zusatzmodul_ Wikipedia.pdf (Stand: 28.6.2023). Kotthoff, Helga/ Nübling, Damaris (2018): Genderlinguistik. Eine Einführung in Sprache, Gespräch und Geschlecht. Unter Mitarbeit von Claudia Schmidt. (=- Narr Studienbücher). Tübingen: Narr. Kupietz, Marc/ Diewald, Nils/ Margaretha, Eliza/ Bodmer, Franck/ Stallkamp, Helge/ Harders, Peter (2020): Recherche in Social-Media-Korpora mit KorAP. In: Marx/ Lobin/ Schmidt (Hg.), S.-373-378. <?page no="326"?> Leonie Bröcher/ Eva Gredel/ Laura Herzberg/ Maja Linthe/ Ziko van Dijk 326 Lenk, Hartmut E.- H. (2020): Fünf berühmte Sprachwissenschaftler in fünf Sprachversionen der Wikipedia. Eine kontrastive Analyse multimodaler Textgestaltung. In: Cieszkowski, Marek/ Pociask, Janusz (Hg.): Text und Diskurswelten in der massenmedialen Kommunikation. (=-Studien zur Medien- und Kulturlinguistik-2). Berlin u. a.: Lang, S.-103-125. Linthe, M. (2023a): Eine Analyse der Wikipedia-Artikelseite von Alfred Delp: Aufbau, Verlinkungen, Multimodalität und gemeinschaftliche Textproduktion. In: Diskurse-- digital- 5, S.-1-18. Linthe, M. (2023b): Das Tandemseminar „Der Widerstand gegen den Nationalsozialismus in der deutschen Wikipedia“: ein Lehrexperiment mit forschendem Lernen im Open-Science-Format. In: Diskurse-- digital-5, S.-19-41. Lüngen, Harald/ Herzberg, Laura (2019): Types and annotation of reply relations in computermediated communication. European Journal for Applied Linguistics-7,-2, S.-305-331. Lüngen, Harald/ Kupietz, Marc (2020): IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache. In: Marx/ Lobin/ Schmidt (Hg.): De Gruyter, S.-319-344. Marx, Konstanze/ Lobin, Henning/ Schmidt, Axel (Hg.) (2020): Deutsch in Sozialen Medien. Interaktiv, multimodal, vielfältig. (=- Jahrbuch des Instituts für Deutsche Sprache 2019). Berlin/ Boston: De Gruyter. Mederake, Nathalie (2016): Wikipedia: Palimpseste der Gegenwart: Text- und Wissensverfahren im kollaborativen Hypertext. (=-Germanistische Arbeiten zu Sprache und Kulturgeschichte-54). Frankfurt a. M.: Lang MPFS (2020)- = Medienpädagogischer Forschungsverbund Südwest (2020): Mitteilung zu JIMplus. https: / / www.mpfs.de/ fileadmin/ files/ Presse/ 2020/ PM_02_2020_JIMplus_Corona. pdf (Stand: 25.4.2023). Nolting, Antje/ Radtke, Nadja (2019): Wörterbücher im Unterricht nutzen und eigene Wörterbuchartikel erstellen. Das Denkwerk-Projekt Schüler machen Wörterbücher-- Wörterbücher machen Schule. In: Lexicographica-34, S.-183-206. Pentzold, Christian (2007): Wikipedia. Diskussionsraum und Informationsspeicher im neuen Netz. (=-Internet Research-29). München: Nomos. Pscheida, Daniela (2010): Das Wikipedia Universum. Wie das Internet unsere Wissenskultur verändert. (=-Kultur und Medientheorie). Bielefeld: Transcript. Rama, Daniele/ Piccardi, Tiziano/ Redi, Miriam/ Schifannella, Rossano (2022): A large scale study of reader interactions with images on Wikipedia. In: EPJ Data Science-11,-1. https: / / doi. org/ 10.1140/ epjds/ s13688-021-00312-8. Stakić, Đorđe/ Tasić, Marija/ Stanković, Marko/ Bogdanović, Milena (2021): Students’ Attitudes Towards the Use of Wikipedia: A Teaching Tool and a Way to Modernize Teaching. In: Área Abierta-21,-2, S.-309-325. Storrer, Angelika (2004): Hypertext und Texttechnologie. In: Knapp, Karlfried/ Becker-Mrotzek, Michael/ Antos, Gerd (Hg.): Angewandte Linguistik. Ein Lehrbuch. (=-UTB-8275). Tübingen/ Basel: Francke, S.-207-228. Storrer, Angelika (2013): Neue Text- und Schreibformen im Internet: Das Beispiel Wikipedia. In: Feilke, Helmuth/ Köster, Juliane/ Steinmetz, Michael (Hg.): Textkompetenz in der Sekundarstufe-II. Stuttgart: Klett, S.-277-304 <?page no="327"?> Linguistische Wikipedistik und Wikipedaktik 327 Storrer, Angelika (2017): Internetbasierte Kommunikation. In: Deutsche Akademie für Sprache und Dichtung und Union der deutschen Akademien der Wissenschaften. In: Klein, Wolfgang (Hg.): Vielfalt und Einheit der deutschen Sprache. Zweiter Bericht zur Lage der deutschen Sprache. Tübingen: Stauffenburg, S.-247-282. Storrer, Angelika (2018a): Web 2.0- - das Beispiel Wikipedia. In: Birkner, Karin/ Janich, Nina (Hg.): Handbuch Text und Gespräch. (=-Handbücher Sprachwissen (HSW)-5). Berlin/ Boston: De Gruyter, S.-398-418. Storrer, Angelika (2018b): Interaktionsorientiertes Schreiben im Internet. In: Deppermann, Arnulf/ Reineke, Silke (Hg.): Sprache im kommunikativen, interaktiven und kulturellen Kontext. (=- Germanistische Sprachwissenschaft um 2020- 3). Berlin/ Boston: De Gruyter, S.-219-244. Storrer, Angelika (2019): Text und Interaktion im Internet. In: Eichinger, Ludwig M./ Plewnia, Albrecht (Hg.): Neues vom heutigen Deutsch. Empirisch- - methodisch- - theoretisch. (=- Jahrbuch des Instituts für Deutsche Sprache 2018). Berlin/ Boston: De Gruyter, S.-221-244. Storrer, Angelika (2020): Textqualität digital: Ein Modell zur Qualitätsbewertung digitaler Texte. In: Deutsche Sprache-48 (Themenheft: Textqualität im digitalen Zeitalter. Herausgegeben von Andrea Abel, Aivars Glaznieks, Maja Linthe, Sascha Wolfer), S.-101-125. Storrer, Angelika/ Herzberg, Laura (2022): Alles okay! Korpusgestützte Untersuchungen zum Internationalismus OKAY. In: Beißwenger, Michael/ Lemnitzer, Lothar/ Müller-Spitzer, Carolin (Hg.): Forschen in der Linguistik. Eine Methodeneinführung für das Germanistik- Studium. (=- UTB- 5711, Germanistik, Sprachwissenschaft, Methoden). Paderborn: Brill | Fink, S.-37-59. van Dijk, Ziko (2009): Wikipedia and lesser-resourced languages. In: Language Problems and Language Planning-33,-3, S.-234-255. van Dijk, Ziko (2019): Wikis im Unterricht reflektieren und bearbeiten. In: Beißwenger/ Knopp (Hg.), S.-319-361. van Dijk, Ziko (2021): Wikis und die Wikipedia verstehen. Eine Einführung. (=-Edition Medienwissenschaft-87). Bielefeld: Transcript. Wikimedia (2022): List of Wikipedias. https: / / meta.wikimedia.org/ wiki/ List_of_Wikipedias (Stand: 25.4.2023). <?page no="329"?> WOLFGANG IMO „ICH GLAUB MEIN SCHWEIN PFEIFFT“-- EIN FALL FÜR DIE MOBILE COMMUNICATION DATATABASE. ODER: DAS-POSSESSIVPRONOMEN MEIN AUS KORPUSBASIERTER PERSPEKTIVE Abstracts: Die vorliegende Fallstudie nimmt eine Auswertung des Gebrauchs des Possessivpronomens mein in Messengerchats aus der Mobile Communication Database MoCoDa-2 vor. Dabei wurden quantitative Auswertungen aller dort vorkommenden Belege nach ihrer Funktion vorgenommen sowie exemplarisch anhand von Belegen diese Funktionen illustriert. This short corpus based study analyzes the use of the German possessive pronoun mein in messenger chats archived in the Mobile Communication Database MoCoDa- 2. All instances of mein were then grouped according to their functions. Keywords: computervermittelte Kommunikation, Chatkommunikation, MoCoDa, Possessivpronomen 1. Einleitung Der Aufbau von deutschsprachigen Korpora internetbasierter bzw. weiter gefasst computervermittelter Kommunikation (Computer-Mediated Communication; CMC) geht langsam voran: Noch vor einigen Jahren hatte das Dortmunder Chat-Korpus (Beißwenger 2013) beinahe ein Alleinstellungsmerkmal als frei nutzbares CMC-Korpus, und man war froh, überhaupt ‚traditionelle‘ Text- oder Gesprächskorpora online zur Verfügung zu haben (Storrer 2005). Inzwischen wächst das Angebot an Ressourcen jedoch, wie Beißwenger/ Lüngen (2022) mit ihrem Überblick über verfügbare Korpora internetbasierter Kommunikation zeigen. Diese Entwicklung ist aus mehreren Gründen erfreulich: Zum einen werden diese Korpora benötigt, um vor allem im schulischen Kontext Material für die Reflexion von Sprachstilen zu erhalten, Medienkompetenz zu vermitteln und die immer wieder vorgebrachte Kritik an einem vermeintlichen Sprachverfall empirisch auf den Prüfstand stellen zu können (vgl. Beißwenger 2018; Beißwenger/ Storrer 2011a,-b; Storrer 2012, 2013, 2014, 2018), zum anderen ergänzen sie Korpora geschriebener (Lemnitzer 2022) und gesprochener (Schmidt 2022) Sprache. Mit CMC-Ressourcen lassen sich Daten aus der meist informellen Schriftlichkeit heranziehen (z. B. Imo 2022; Storrer/ Herzberg 2022) oder speziell Phänomene in den Blick nehmen, die nur in dieser Art der Kommunikation vorkommen, wie beispielsweise Emojis (Beißwenger/ Pappert 2022). In der hier vorliegenden Fallstudie zur Verwendungsweise des Possessivpronomens mein wird die Mobile Communication Database-2 (MoCoDa-2) genutzt, um anhand am Beispiel informeller schriftlicher Kommunikation zwischen in der Regel jüngeren Interaktionspartnern die Bandbreite der Verwendungsweisen zu beschreiben. DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="330"?> Wolfgang Imo 330 2. Die Mobile Communication Database (MoCoDa) Die Mobile Communication Database-2 (MoCoDa-2) geht zurück auf eine im Jahr 2011 von Marcel Fladrich, Wolfgang Imo und Susanne Günthner aufgebaute Datenbank, die 2012 unter Leitung von Wolfgang Imo als öffentliche Instanz mit dem Namen MoCoDa den Betrieb aufnahm. Zunächst wurde diese Datenbank mittels Datenspenden mit SMS-Nachrichten befüllt. Mit der Etablierung des Smartphones und damit zusammenhängend dem Aufkommen von Messengerkommunikation über Dienste wie WhatsApp, Viber oder iMessage änderten sich jedoch schnell mit den neuen Darstellungsformen auch die Anforderungen: Eine Darstellung von Emojis war nicht möglich (dies spiegelte den Fokus auf Emoticons in der SMS-Kommunikation wider) und Gruppenchats konnten nicht gut visualisiert werden. Aus diesen Gründen wurde die MoCoDa-(1) im Jahr 2018 stillgelegt-- wobei sie als Archiv weiterhin für Forschungszwecke unter https: / / mocoda.spracheinteraktion.de (Stand: 2.5.2023) zugänglich ist (mehr dazu in Beißwenger/ Lüngen 2022, S.-436). Die hier verwendete MoCoDa- 2 (https: / / db.mocoda2.de, Stand: 2.5.2023) wurde von-einem Projektteam bestehend aus Michael Beißwenger, Marcel Fladrich, Wolfgang Imo und Evelyn Ziegler mit Hilfe einer Förderung durch das Ministerium für Kultur und Wissenschaft NRW (Förderlinie Infrastrukturelle Förderung für die Geistes- und Gesellschaftswissenschaften) grundlegend neu konzipiert. Dabei fokussiert die MoCoDa-2 nun ausschließlich auf WhatsApp-Daten, die dafür über einen automatisierten Datenimport in die Datenbank geladen werden können. MoCoDa-2 ist in der Lage, Gruppenchats abzubilden, Emojis darzustellen sowie integrierte Medienobjekte wie Bilder, Sticker, Videos, Sprachnachrichten etc. automatisch zu erkennen und dafür Platzhalter zu erzeugen, in die die entsprechenden Informationen (Transkript, Beschreibung des Inhalts des Bildes etc.) eingetragen werden können (die eingebetteten Daten selbst können aus Datenschutzgründen nicht integriert werden). In der Datenbank werden zusammen mit den WhatsApp-Chats die jeweiligen Metadaten der Beteiligten (Alter, Geschlecht etc.) sowie ergänzende Informationen (Kommunikationsanlass, Teilnehmerzahl etc.) bereitgestellt (zu weiteren Details der MoCoDa-2 vgl. Beißwenger et al. 2018, 2019, 2020; Beißwenger/ Lüngen 2022, S.-437 f.). Das Korpus wächst ständig weiter. Zum Zeitpunkt der vorliegenden Analyse (15.12.2021) umfasste die Datenbank insgesamt 685 Chat-Ereignisse, die ihrerseits aus 35.699 Einzelnachrichten im Umfang von 280.559 Tokens bzw. 1.261.966 Zeichen bestanden. 3. Fallstudie: eine MoCoDa-basierte Analyse des Gebrauchs des Possessivpronomens mein Die vorliegende Fallstudie fokussiert auf den Gebrauch des Possessivpronomens mein. Ausgangspunkt für das Interesse an diesem Wort sind einerseits Beobach- <?page no="331"?> Das-Possessivpronomen mein aus korpusbasierter Perspektive 331 tungen z. B. bei Werth (2021 sowie Günthner in- Vorb.), dass Possessiva mit pragmatischen Funktionen routinehaft mit Rufnamen verwendet werden. Werth (2021, S.- 62) analysiert dabei dialektalen Sprachgebrauch im Westmitteldeutschen, in dem-„einem Rufnamen […] der Possessivartikel 1 unser“ vorangestellt wird (z. B. „us DIETmar“; ebd., S.-61). Die Struktur an sich, so Werth (ebd., S.-62), verwundere dabei nicht, denn sie existiere auch „in der Schriftsprache und in standardnahen Sprechlagen“. Was aber überrascht, ist „die Häufigkeit, mit der unser im Gespräch verwendet wird“. Dabei zeigt sich, dass mit dieser Struktur (unser-+ Rufname) nicht einfach nur Personenreferenz in der Interaktion hergestellt und gesichert wird (ausführlich zu diesem Thema Enfield/ Stivers (Hg.) 2007 und Stivers/ Enfield/ Levinson 2007), „sondern unser weitere Funktionen erfüllt“ (Werth 2021, S. 62). Diese weiteren Funktionen, so die Ergebnisse einer Interviewdatenuntersuchung von Werth, bestehen darin, dass durch unser-+ Rufnamen eine Familienassoziation gebildet wird, bei der Repräsentativität und Angesehenheit eine Rolle spielen: So handelt es sich bei unser bei Rufnamen wie beschrieben zuvorderst um einen sprecherassoziierten Referenzausdruck. Der Sprecher als Teil (und Repräsentant) einer Familie assoziiert mit der Verwendung des Ausdrucks einen Referenten mit sich selbst und damit mit der Familie. Ausschlaggebend hierfür ist, ob der Referent in den Augen des Sprechers die Familie repräsentieren ‚darf ‘. Schwiegerkinder, die für Nachwuchs gesorgt haben oder die sich sonst in Familie und Dorfgemeinschaft bewährt haben, sind ‚unser‘, das schwarze Schaf der Familie hingegen nicht. (Werth 2021, S.-75) Wie eine solche Funktion entstehen kann, das wird, so Werth (ebd., S.-73) mit Hilfe wder Untersuchungen zur interaktionalen Personenreferenz durch Sacks/ Schegloff (1979), Stivers (2007), Stivers/ Enfield/ Levinson (2007) und Hanks (2007) erklärbar. Laut diesen Ansätzen dienen Ausdrücke wie Possessivpronomen, mit denen auf Personen referiert wird, dazu, dass sich die Sprecher/ -innen dadurch zugleich gegenüber diesen Personen positionieren bzw. eine Haltung, eine „stance“ (Du Bois 2007) einnehmen: Bei sprecherassoziierten Referenzausdrücken, z. B. mein Onkel, aber auch bei relationalen Verwandtschaftsbezeichnungen wie Mama, Schwester und Opa, assoziiert der Sprecher den Referenten mit sich selbst. Er signalisiert damit, dass er sich dem Referenten gegenüber verantwortlich fühlt und ihm sozial nahe steht. (Werth 2021, S.-73) Diese Funktion der Markierung von sozialer Nähe bis hin zu sozialer Verantwortlichkeit wird sich auch in den hier vorliegenden Daten als ein relevanter Aspekt erweisen. Zum anderen liegt eine genauere Analyse des Possessivpronomens mein auch deshalb nahe, da erste Beobachtungen in den Daten zeigen, dass Possessivität generell sehr weit gefasst und vom konkreten physischen Besitz bis hin zu einer eher vagen 1 Ich verwende hier den Ausdruck Possessivpronomen. Alternative Bezeichnungen sind Possessivartikel und Possessivdeterminator (Zifonun 2005, 2003). <?page no="332"?> Wolfgang Imo 332 Zugehörigkeitsmarkierung verwendet wird (vgl. hierzu u. a. auch Haspelmath 2008, S.-1 zur Unterscheidung von „alienable vs. inalienable possessive constructions“, wie z. B. bei der Unterscheidung von „mein Garten“ vs. „mein Arm“, für die in manchen Sprachen unterschiedliche Possessivmarkierungen benötigt werden; zur Possessivität im Allgemeinen auch Seiler 1972 und Elkady 2001). Zifonun (2005, S.- 3) sieht entsprechend als „funktionale Domäne der Possessivpronomina“ im prototypischen Kern die „semantische Relation des ‚Besitzes‘ oder der ‚Zugehörigkeit‘ an, wobei sie anmerkt, dass „selbst bei großzügiger und wohlwollender Interpretation das Konzept ‚Zugehörigkeit‘ nicht mehr greift, etwa wenn im Deutschen von seine Demütigung, sein Erröten die Rede ist“. Es sei daher sinnvoll, abstrakter davon zu sprechen, dass das Possessivpronomen eine „referenzielle Verankerung“ leistet. Der prototypische Fall ist dabei dann die „eigentliche ‚Besitz‘-Relation“, die die Merkmale enthält, dass der Possessor eine bestimmte Person ist, das Possessum eine unbelebte Entität und dabei in der Regel ein Gegenstand ist und die Besitzrelation exklusiv und von Dauer ist (ebd., S.-27). Von dieser prototypischen Position aus lassen sich dann die Fälle bestimmen, in denen das Possessum nicht mehr physisch greifbar ist, in der kein eigentlicher Besitz vorliegt, in dem die Besitzrelation nicht exklusiv oder von Dauer ist etc. Im Folgenden soll anhand aller Belege des Possessivpronomens mein in der Mobile Communication Database- 2 gezeigt werden, welche Relationen (wie Possessivität, Assoziativität etc.) mit diesem Pronomen ausgedrückt werden. 4. Datenkorpus und Auswertung Der Suche zu Grunde lag das Gesamtkorpus der MoCoDa- 2. Gesucht wurde nach allen Token, die die Zeichenfolge mein enthalten. Die Trefferzahl hierfür betrug 1.203, davon mussten 384 falsche Treffer (z. B. ich meine, gemeinsam, ich habe gemeint etc.) händisch aussortiert werden. Übrig blieben 845 Belege, in denen das Lexem mein mitsamt seinen Flexionsformen (meine, meines etc.) auftrat (die Lexemform mein wird hier stellvertretend für alle Wortformen (syntaktischen Wörter) verwendet). Die Belege wurden in ihrem sequenziellen und kontextuellen Auftreten gesichtet und es wurden auf semantisch-funktionaler Basis die folgenden vier Kategorien gebildet, die sich an der Art der Possessivrelation orientieren, die in der Phrase, die mein enthält, ausgedrückt wird. (i) Realia, die sich in Besitz einer Person befinden: 373 Fälle Den größten Anteil stellen Realia, die sich im Besitz einer Person befinden. Darunter sind viele Possessa, bei denen dieser Charakter realen, greifbaren Besitzes unstrittig ist, z. B. Fälle wie „meine Hose“, „meine Ausarbeitung“, „meine Unterlagen“, „mein Zimmer“, „mein Handy“, „mein Balkon“, „mein Regenschirm“, „meine Fahrkarte“ u. v. m. Allerdings finden sich auch Fälle, in denen es unklar ist, ob es sich bei den Possessa wirklich noch um Realia handelt oder um Abstrakta. Dies betrifft beispielsweise Possessa wie „meine Hausarbeit“, „meine Rückmeldung“, „meine Telefonnum- <?page no="333"?> Das-Possessivpronomen mein aus korpusbasierter Perspektive 333 mer“, „meine Sachen“ (im Kontext einer Referatsbesprechung „Hab meine Sachen auch sehr kurz gehalten“) oder „meine Nachricht“. Eine Hausarbeit kann sowohl eine abstrakte Aufgabe als auch ein reales Produkt sein und mit „meine Rückmeldung“ kann man beispielsweise sowohl auf die abstrakte Handlung einer Rückmeldung als Gesprächszug verweisen als auch auf eine real vorliegende Rückmeldung beispielsweise per E-Mail oder Chatnachricht. In diesen Fällen wird versucht, aus dem Kontext heraus zu entscheiden, ob sie eher als Verweis auf Realia oder auf Abstrakta intendiert sind und entsprechend eher den Gruppen- 1 oder 2 zugeordnet werden sollten. Es bleibt aber in vielen Fällen dennoch zugegebenermaßen eine z. T. willkürliche Zuordnung, da gerade Geistesarbeiten wie eine Hausarbeit oder eine Referatsmitarbeit natürlich immer zugleich aus abstrakten Denkleistungen und aus realen Ergebnissen bestehen. (ii) Abstrakta, die sich im (metaphorischen) Besitz einer Person befinden: 185 An dritter Stelle in Bezug auf die Häufigkeit liegen Abstrakta, die sich in einem mehr oder weniger metaphorischen Besitz eines Possessors befinden. Beispiele sind „mein Hobby“, „mein Praxissemester“, „meine Frage an dich“, „meine Lieblingsband“, „meine Fähigkeiten“, „mein Praktikum“, „meine Pläne“, „mein Leid“, „mein Versprechen“, „meine Weiterbildung“, „mein Termin“, „meine Pause“, „meine Miete“, „meine Größe“, „meine Stimme“, „mein Zug“, „mein Geschmack“, „mein ganzes Leben“, „mein Traum vom Halbtagsjob“, „meine Verantwortung“, „mein Name“, „meine Muskelkraft“, „meine Angst“, „meine Konzentration“ etc. Die Possessivität ist dabei bei manchen der Abstrakta noch relativ gut gegeben. Das Wort Fähigkeiten kann z. B. recht klar als metaphorischer Besitz eingestuft werden. Von dieser, wenn man von der Kernbedeutung von mein als Possessivum ausgeht, als prototypisch anzunehmenden Bedeutung gehen dann Bedeutungen ab, bei denen (1) eine Mischung aus (projektivem) Besitz und Adressierung vorliegt, wie in der Äußerung „Wo bleibt eig. mein Foto“, womit die Schreiberin auf ein Foto verweist, das ihre Freundin ihr schicken wollte (es handelt sich dabei nicht um ein Foto der Schreiberin! ). Die Äußerung ist also im Kern als „Das Foto, das du mir versprochen hast.“ zu deuten, die Adressierung steht im Mittelpunkt. Ähnlich auch bei der scherzhaften Frage „Planst du meine Beerdigung? “, wo sinnvoll keine Possessivrelation anzunehmen ist, sondern eine Affizierung. Als potenziell eigene Gruppe könnten Fälle wie „meine Schuld“, „mein krankheitsbedingter Ausfall“, „meine unzureichende Vorbereitung“, „mein Fehler“ eingestuft werden, da diese sich nicht possessiv deuten lassen. Allerdings finden sich nur neun solcher Belege und zudem wird bei der Analyse der metaphorischen Possessivität deutlich, dass es einen fließenden Übergang von Possessivivität zu Affiziertheit gibt. Dabei ist Affiziertheit, die sich auf den Possessor bezieht, wie in „meine Beerdigung“, wo die Handlung der Beerdigung mit dem Possessor durchgeführt wird, noch klarer in den Possessiv zu verorten als Affiziertheit, die vom Possessor ausgeht und <?page no="334"?> Wolfgang Imo 334 ihn verlassen hat, wie „meine Schuld“, „mein Fehler“: Hier ist der Possessor Verursacher und affiziert andere durch die durch das Possessivum ausgedrückte Handlung, Emotion o. ä. Statt von Possessivität kann hier nur mehr von einer Zugehörigkeitsmarkierung gesprochen werden. (iii) Ausdruck einer Affiliation (Verwandtschaft, Beruf, Studium u. Ä.): 214 Eine Zugehörigkeitsmarkierung anstelle der Possessivität ist auch dann klar erkennbar, wenn es sich um die Markierung von entweder verwandtschaftlichen (Mama/ Cousine/ Geschwister/ Freundin/ Familie/ Mann/ Bruder/ Onkel etc. 2 ) oder sozialen, dabei oft arbeitsbezogenen Affiliationen („meine Mitbewohnerin“, „meine WG“, „meine Gäste“, „mein Vermieter“, „meine Referatspartnerin“, „meine Kunden“, „meine Uni“, „meine Osteopathin“, „mein Trainingspartner“ etc.) handelt. Bei letzteren finden sich sowohl Ad-hoc-Komposita wie die Formulierung „meine Lern-Anita“ für eine Lernpartnerin, also zur Markierung von auf die universitäre „community of practice“ (Eckert/ McConnell-Ginet 1998) gestiftete Gemeinsamkeit, als auch Ausdrücke, bei denen man diskutieren kann, inwieweit sie nicht auch den formelhaften Ausdrücken zugerechnet werden sollten, wie etwa „meine Truppe“ („Durch Umzug und Co ist da etwas Schwund, aber das ist eigentlich schon immer meine Truppe und finde die sogar was cooler und netter“). Als Sonderfall können Verweise auf den Herkunftsort wie „…mein Heimatort…“, „ES SCHNEIT IN MEINER STADT“ oder „süße Grüße aus meiner idyllischen Dorfheimat“ betrachtet werden, oft in einer Mischung aus verwandtschaftlichen Affiliationen (als die Stadt/ der Ort/ das Land, in dem die Eltern, Verwandten, Geschwister etc. wohnten und wohnen) und sozialen Affiliationen (die Stadt/ der Ort/ das Land, in dem ich den Kindergarten, die Schule etc. ging, wo meine Freunde wohnen und wohnten etc.). (iv) Floskelhafte Ausdrücke: 73 Floskelhafte Ausdrücke lassen sich nochmals in vier Untergruppen teilen: Die erste und mit 46 Belegen größte Untergruppe gehört zumindest teilweise eigentlich auch in die Gruppe der Affiliationsmarkierung (vgl. die Diskussion von Werth in Abschn.- 3 oben), insofern dort (1) Verwandtschaftsbeziehungen mit einem Possessivpronomen verbunden (z. B. „mein Kind“ als Anrede einer Mutter an die Tochter) oder (2) Freundschaftsbeziehungen markiert werden. Im letzteren Fall finden sich sowohl Freundschaftsanreden („meine liebe“, „Meine liebe lili“, „mein freund“, „mein lieber“) als auch kosende Partneradressierungen („mein Schatz“, „mein Mäuschen“, „meine süßeee“, „mein Gold Hasi“, „mein Herz“, „mein Engel“). Das Besondere dabei ist, dass es sich um floskelhafte Ausdrücke handelt, die Anredepraktiken darstellen, die im Sinne von Günthner/ Zhu (2015, S.-32) als „Formen ‚verbaler Fellpflege‘“ be- 2 Vgl. Günthner/ Zhu (2017) zu dem Thema der „Verwandtschaftsbezeichnungen als Mittel der kommunikativen Konstruktion sozialer Beziehungen“ aus einer kulturvergleichenden Perspektive. <?page no="335"?> Das-Possessivpronomen mein aus korpusbasierter Perspektive 335 trachtet werden können. Günthner (in- Vorb.) zeigt in einer Untersuchung über „adnominale Possessivkonstruktionen als kommunikative Praktik der Selbst- und Fremdreferenz in WhatsApp-Interaktionen“, dass mittels solcher Possessivkonstruktionen interaktional eine Reihe von sozialen Aufgaben erfüllt wird, so u. a. die Erzeugung von sozialen Rollen wie Eltern-Kind, Beziehungsrollen wie Ehemann- Ehefrau, und über kosendem Austausch Intimität hergestellt und somit Partnerschaft erzeugt wird. Gerade im letzteren Bereich zeigt sich die Formelhaftigkeit, die ein typisches Dilemma für Liebeskommunikation darstellt (vgl. Auer 1988): Einerseits gibt es eine recht überschaubare Zahl häufiger und etablierter Kosenamen (Schatz, Maus/ Mäuschen, Hase/ Häschen, Süße/ r, Engel, Herz), andererseits kommen auch weitaus seltenere Ad-hoc-Bildungen vor, mit denen Kreativität, Intimität und Situationsbezogenheit ausgedrückt wird, wie auch Günthner (in- Vorb.) feststellt: „[D]ie Übergänge zwischen verfestigten Anrede- und Referenzformen [sind] fließend“ und werden u. a. durch situative Gegebenheiten wie der Vergesslichkeit des Partners ausgelöst, der dann lokal als „mein Lieblingsschussel“ adressiert wird. Die zweite Gruppe mit 8 Belegen wird von der Interjektion mein Gott (bzw. oh mein Gott) gestellt, hinzu kommen noch 2 weitere Belege der Interjektion meine Güte, die vermutlich als Ersatzform zu mein Gott entstanden ist, um die Tabuisierung der Gottesanrufung zu umgehen (Nübling 2001, S.- 34). Die Interjektion oh mein Gott kann dabei in voller Bandbreite eines Emotionsausdrucks verwendet werden. So findet sich in den Daten der Ausdruck negativer Überraschung oder gar von Abscheu („Oh mein Gott ist der gruselig“) ebenso wie der Ausdruck von „Genervtheit“ („Mein gott braucjrm die heute lange 🙄“), der Ausdruck von positiver Überraschung bzw. Freude („Hahahahahaha oh mein Gott wir denken beide zu gleich! 😂 😂 geil“) oder von Entzücken („Oh mein Gott ist der süß 😍“). Angesichts dieser Bandbreite möglicher Emotionen, die über die Interjektion oh mein Gott ausgedrückt werden kann, verwundert es nicht, dass in textueller Nachbarschaft häufig Emojis als Kontextualisierungshinweise (vgl. Beißwenger/ Pappert 2019; Imo/ Lanwer 2019, S.-289-292) zu finden sind, die bildlich als „Lesbarkeitshinweise“ (Beißwenger/ Pappert 2019, S.-72) bestimmte Lesarten der Interjektion nahelegen (im obigen Fall: verdrehte Augen bei Genervtheit, Tränen lachen bei Freude, Herzaugen bei Entzücken) und zugleich als „Stilmarker“ (Storrer 2013) informelles und „interaktionsorientiertes Schreiben“ (Storrer 2018) hervorbringen. Hier läge eine Anschlussstudie nahe, die Interjektionen in der MoCoDa-2 quantitativ und qualitativ auf ihre Co-Verwendung mit Emojis hin untersucht und so Routinisierungen in diesem Bereich aufdecken kann. Eine dritte Gruppe von Floskeln betrifft (1) den epistemischen Heckenausdruck meines Wissens (3- Belege) und (2) die subjektivitätsmarkierenden Heckenausdrücke meiner Meinung nach (3- Belege), in meinen Augen (1- Beleg) und aus meiner Sicht (1-Beleg). Auch hier würden sich darauf aufbauende Anschlussforschungen anbieten, die diese m. E. erstaunlich selten vorkommenden Floskeln in den größeren Zu- <?page no="336"?> Wolfgang Imo 336 sammenhang mit verwandten Konstruktionen (soweit ich weiß; soviel ich weiß; ich glaub(e); wie ich es sehe, soweit ich sehe, aus meiner Perspektive etc.) stellen und so ein Bild des Hedgings (Lakoff 1973), der ‚Einhegung‘ von Aussagen, in WhatsApp-Interaktionen liefern. Die vierte Gruppe umfasst schließlich sehr heterogene Routineformen: (1) mein Ding/ mein(e)s: („Philosophie ist echt nicht mein Ding“; „Ist nicht so meins…“, „Deutsche Literatur ist garnicht meins), (2) mein Tag im Sinne von Erfolg haben („ach keine Ahnung, ist heute nicht so mein Tag“; „War einfach nicht mein Tag, ich war auch voll müden“), (3) mein Beileid („Oh… mein Beileid“; „Mein Beileid.“), (4) sein Glück versuchen („Versuch ich auch nochmal mein Glück“), mein Reden/ meine Rede: „Mein Reden! Herzilein wir verstehen uns.“ und schließlich den Überraschung oder Empörung ausdrückenden Phraseologismus mein Schwein pfeift: „Ich glaub mein Schwein pfeifft“. 5. Fazit Im Rahmen des vorliegenden Überblicksartikels können aus Platzgründen leider keine ins Detail gehenden qualitativen Untersuchungen vorgenommen werden. Es wird aber deutlich, dass man mit Hilfe der MoCoDa2-Datenbank sehr gute Einblicke in die Sprachstruktur der Kommunikationsform (informeller) Messengerchat gewinnen kann. Die Kodierung von realer Besitzzugehörigkeit umfasst die meisten Fälle (373) des Gebrauchs des Possessivpronomens mein, was die Annahme dieser Kodierung als prototypische Funktion von Possessivpronomen nahelegt. Von dort aus gehen zwei Wege: Der eine betrifft die Markierung von metaphorischem Besitz oder besser von Affiziertheit (185 Fälle), also der Markierung beispielsweise von Verursachung und Verantwortlichkeit („meine Frage an dich“), von Nutzung („mein Zug“) oder von ausgelösten Emotionen („meine Lieblingsband“, „mein Leid“, „mein Traum vom Halbtagsjob“). Der zweite Weg ist der in Richtung des Ausdrucks von entweder familiärer oder im weiteren Sinne sozialer Affiliation, wodurch u. a. Rollen markiert und profiliert werden (die Äußerung meine Mutter profiliert meine Rolle als Sohn, die Äußerung meine WG profiliert meine Rolle als WG-Bewohner, die Äußerung meine Osteopathin profiliert meine Rolle als Patient etc.). Die Tatsache, dass sich in dieser Gruppe 214 Fälle befinden-- zählt man die 46 affiliationsbasierten formelhaften Anreden hinzu, sind es sogar 260 Fälle (von insgesamt 885 Belegen)-- zeugt von der zentralen Bedeutung, die die Markierung von sozialen Rollen und Affiliationen in der Interaktion spielt. Schließlich gibt die Untersuchung auch einen Einblick in Routineformen und Phraseologismen. Dort bieten sich besonders viele Optionen für Anschlussforschung an: Dies betrifft unter anderem Fragen der Kookkurrenz von formelhaften Ausdrücken mit Emojis und allgemeiner der eingesetzten Bandbreite von Desambiguierungs- <?page no="337"?> Das-Possessivpronomen mein aus korpusbasierter Perspektive 337 strategien bei multifunktionalen oder polysemen Floskeln sowie der Konstruktionsnetzwerke, d. h. der Erfassung von funktional ähnlich eingesetzten Floskeln, mit der erst ein vollständiges Bild des Floskelgebrauchs in authentischer Alltagskommunikation möglich wird. Literatur Auer, Peter (1988): Liebeserklärungen. Oder: Über die Möglichkeiten, einen unmöglichen sprachlichen Handlungstyp zu realisieren. In: Sprache und Literatur-61, S.-11-31. Beißwenger, Michael (2013): Das Dortmunder Chat-Korpus. In: ZGL-41,-1, S.-161-164. Beißwenger, Michael (2018): WhatsApp, Facebook, Instagram-& Co.: Schriftliche Kommunikation im Netz als Thema in der Sekundarstufe. In: Gailberger, Steffen/ Wietzke, Frauke (Hg.): Deutschunterricht in einer digitalen Gesellschaft. Unterrichtsanregungen für die Sekundarstufen. Weinheim: Beltz Juventa, S.-91-124. Beißwenger, Michael/ Lüngen, Harald (2022): Korpora internetbasierter Kommunikation. In: Beißwenger/ Lemnitzer/ Müller-Spitzer (Hg.), S.-431-448. Beißwenger, Michael/ Pappert, Steffen (2019): Handeln mit Emojis. Grundriss einer Linguistik kleiner Bildzeichen in der WhatsApp-Kommunikation. Duisburg: UVRR. Beißwenger, Michael/ Pappert, Steffen (2022): Höfliches Handeln mit Emojis: eine Fallstudie aus dem Bereich der Angewandten (Medien-)Linguistik. In: Beißwenger/ Lemnitzer/ Müller-Spitzer (Hg.), S.-179-200. Beißwenger, Michael/ Storrer, Angelika (2011a): Digitale Sprachressourcen in Lehramtsstudiengängen: Kompetenzen-- Erfahrungen-- Desiderate. In: Journal for Language Technology and Computational Linguistics-26,-1, S.-119-139. Beißwenger, Michael/ Storrer, Angelika (2011b): Wiki-Hypertexte in Lehr-/ Lernkontexten: State-of-the-art-- Praxisbeispiele-- Didaktische Potenziale. Workshop in Kooperation mit dem Arbeitskreis Hypermedia der Gesellschaft für Computerlinguistik und Sprachtechnologie vom 1.-2.-April 2011. In: Marci-Boehncke, Gudrun/ Rath, Matthias (Hg.): Medienkonvergenz im Deutschunterricht. (=-Jahrbuch Medien im Deutschunterricht 2010). München: kopaed, S.-225-227. Beißwenger, Michael/ Fladrich, Marcel/ Imo, Wolfgang/ Ziegler, Evelyn (2018): News from the MoCoDa2 corpus: a design and web-based editing environment for collecting and refining data from private CMC interactions. In: Vandekerckhove, Reinhild/ Fišer, Darja/ Hilte, Lisa (Hg.): Proceedings of the 6th conference on Computer-Mediated Communication (CMC) and Social Media Corpora. 17-18-September 2018. Antwerp: University of Antwerp, S.- 10-14. www.uantwerpen.be/ images/ uantwerpen/ container49896/ files/ proceedings_CMCcorpora2018.pdf (Stand: 3.5.2023). Beißwenger, Michael/ Fladrich, Marcel/ Imo, Wolfgang/ Ziegler, Evelyn (2019): https: / / www. mocoda2.de: a database and web-based editing environment for collecting and refining a corpus of mobile messaging interactions. In: European Journal of Applied Linguistics-7,-2, S.-333-344. Beißwenger, Michael/ Fladrich, Marcel/ Imo, Wolfgang/ Ziegler, Evelyn (2020): Die Mobile Communication Database 2 (MoCoDa 2). In: Lobin, Henning/ Marx, Konstanze/ Schmidt, <?page no="338"?> Wolfgang Imo 338 Axel (Hg.): Deutsch in sozialen Medien: interaktiv, multimodal, vielfältig. (=-Jahrbuch des Instituts für Deutsche Sprache 2019). Berlin/ Boston: De Gruyter, S.-349-352. Beißwenger, Michael/ Lemnitzer, Lothar/ Müller-Spitzer, Carolin (Hg.) (2022): Forschen in der Linguistik. Eine Methodeneinführung für das Germanistik-Studium. (=-UTB-5711). Paderborn: Brill | Fink. Du Bois, John W. (2007): The stance triangle. In: Englebretson, Robert (Hg.): Stancetaking in discourse. (=- Pragmatics- & Beyond New Series- 164). Amsterdam: Benjamins, S.-139-182. Eckert, Penelope/ McConnell-Ginet, Sally (1998): Communities of practice: where language, gender, and power all live. In: Coates, Jennifer (Hg.): Language and gender: a reader. Oxford: Blackwell, S.-484-494. Elkady, Nourelhoda (2001): Ausdrucksweisen der Possessivität im Deutschen und Arabischen. Eine konfrontative Studie. Doktorarbeit. Siegen: Universität-Gesamthochschule- Siegen. https: / / dspace.ub.uni-siegen.de/ bitstream/ ubsi/ 122/ 1/ elkady.pdf (Stand: 2.5.2023). Enfield, Nick J./ Stivers, Tanya (Hg.) (2007): Person reference in interaction. Linguistic, cultural, and social perspectives. (=- Language Culture and Cognition- 7). Cambridge: Cambridge University Press. Günthner, Susanne (in- Vorb.): ‚Deine Frau würde sich über ein kleines Lebenszeichen freuen‘- - adnominale Possessivkonstruktionen als kommunikative Praktik der Selbst- und Fremdreferenz in WhatsApp-Interaktionen. Günthner, Susanne/ Zhu, Qiang (2015): Formen ‚verbaler Fellpflege‘: Kosende Anredepraktiken in chinesischen und deutschen SMS-Dialogen. In: Deutsche Sprache-43, S.-42-73. Günthner, Susanne/ Zhu, Quiang (2017): Anredeformen im Kulturvergleich. Verwandtschaftsbezeichnungen als Mittel der kommunikativen Konstruktion sozialer Beziehungen in chinesischen und deutschen SMS-Interaktionen. In: Linke, Angelika/ Schröter, Juliane (Hg.): Sprache und Beziehung. (=- Linguistik- - Impulse- & Tendenzen- 69).- Berlin/ Boston: De Gruyter, S.-119-149. Hanks, William F. (2007): Person reference in Yucatec Maya conversation. In: Enfield/ Stivers (Hg.), S.-149-171. Haspelmath, Martin (2008): Alienable vs. inalienable possessive constructions, S.-1-14. www. eva.mpg.de/ lingua/ conference/ 08_springschool/ pdf/ course_materials/ Haspelmath_ Possessives.pdf (Stand: 2.5.2023). Imo, Wolfgang (2022): Diskursmarker: eine Fallstudie zur Einführung in die Methode der Interaktionalen Linguistik. In: Beißwenger/ Lemnitzer/ Müller-Spitzer (Hg.), S.-103-121. Imo, Wolfgang/ Lanwer, Jens P. (2019): Interaktionale Linguistik: eine Einführung. Stuttgart: Metzler. Lakoff, George (1973): Hedges: a study in meaning criteria and the logic of fuzzy concepts. In: Journal of Philosophical Logic-2,-4, S.-458-508. Lemnitzer, Lothar (2022): Korpora geschriebener Sprache. In: Beißwenger/ Lemnitzer/ Müller- Spitzer (Hg.), S.-411-420. Nübling, Damaris (2001): Von oh mein Jesus! zu oje! . Der Interjektionalisierungspfad von der sekundären zur primären Interjektion. In: Deutsche Sprache-29, S.-20-45. <?page no="339"?> Das-Possessivpronomen mein aus korpusbasierter Perspektive 339 Sacks, Harvey/ Schegloff, Emanuel A. (1979): Two preferences in the organization of reference to persons in conversation and their interaction. In: Psathas, George (Hg.): Everyday language: studies in ethnomethodology. New York: Irvington Publishers, S.-15-21. Schmidt, Thomas (2022): Korpora gesprochener Sprache. In: Beißwenger/ Lemnitzer/ Müller- Spitzer (Hg.), S.-421-430. Seiler, Hansjakob (1972): Zum Problem der sprachlichen Possessivität. (=-Arbeitspapier Köln Nr.-20). Köln: Allgemeine Sprachwissenschaft, Institut für Linguistik, Universität zu Köln, S.-1-17. Stivers, Tanya (2007): Alternative recognitionals in person reference. In: Enfield/ Stivers (Hg.), S.-73-96. Stivers, Tanya/ Enfield, Nick J./ Levinson, Stephen C. (2007): Person reference in interaction. In: Enfield/ Stivers (Hg.), S.-1-20. Storrer, Angelika (2005): Online-Corpora zur linguistischen Analyse der deutschen Gegenwartssprache. In: ZGL-33,-1, S.-145-150. Storrer, Angelika (2012): Neue Text- und Schreibformen im Internet: Das Beispiel Wikipedia. In: Feilke, Helmuth (Hg.): Textkompetenzen in der Sekundarstufe- II. Stuttgart: Fillibach bei Klett, S.-227-304. Storrer, Angelika (2013): Sprachstil und Sprachvariation in sozialen Netzwerken. In: Frank- Job, Barbara/ Mehler, Alexander/ Sutter, Tilmann (Hg.): Die Dynamik sozialer und sprachlicher Netzwerke. Konzepte, Methoden und empirische Untersuchungen an Beispielen des WWW. Wiesbaden: Springer, S.-331-366. Storrer, Angelika (2014): Sprachverfall durch internetbasierte Kommunikation? Linguistische Erklärungsansätze-- empirische Befunde. In: Plewnia, Albert/ Witt, Andreas (Hg.): Sprachverfall? Dynamik-- Wandel-- Variation. (=- Jahrbuch des Instituts für Deutsche Sprache 2013). Berlin/ Boston: De Gruyter, S.-171-196. Storrer, Angelika (2018): Interaktionsorientiertes Schreiben im Internet. In: Deppermann, Arnulf/ Reineke, Silke (Hg.): Sprache im kommunikativen, interaktiven und kulturellen Kontext. (=- Germanistische Sprachwissenschaft um 2020- 3). Berlin/ Boston: De Gruyter, S.-219-244. Storrer, Angelika/ Herzberg, Laura L. (2022): Alles okay! Korpusgestützte Untersuchungen zum Internationalismus OKAY. In: Beißwenger/ Lemnitzer/ Müller-Spitzer (Hg.), S.-37-59. Werth, Alexander (2021): Soziopragmatik von unser bei Rufnamen im Westmitteldeutschen. Zum Gebrauch sprecherassoziierter Referenzausdrücke. In: Linguistik online- 107,- 2, S.-60-81. Zifonun, Gisela (2003): Dem Vater sein Hut-- Der Charme des Substandards und wie wir ihm gerecht werden. In: Deutsche Sprache-31, S.-97-126. Zifonun, Gisela (2005): Grammatik des Deutschen im europäischen Vergleich: Das Pronomen, Teil-III: Possessivpronomen. (=-amades-3). Mannheim: Institut für Deutsche Sprache. <?page no="341"?> KONSTANZE MARX DIE INSTAB-FORMEL Ein Vorschlag für die Erstellung von Instagram- Datensammlungen für studentische-Arbeiten Abstracts : Als eine der beliebtesten Social-Media-Plattformen rückt Instagram immer mehr in den Fokus von Sprachwissenschaftler*innen. Bislang gibt es jedoch noch keine Standards für Korpora, die multimodale und ephemere Daten enthalten, wie sie für Instagram typisch sind. Gleichzeitig besteht auch bei Studierenden ein großes Interesse an einer wissenschaftlichen Untersuchung der Plattform, weshalb sich die Integration in die akademische Lehre aufdrängt. Datengrundlagen für Untersuchungen im Rahmen von Seminar- und Abschlussarbeiten entstehen häufig nach individueller Absprache. Mit der INSTAB-Formel wird hier ein Vorschlag unterbreitet, wie Schritt für Schritt eine Datensammlung angelegt werden kann, ohne dass Studierende über Programmierkenntnisse oder besondere technische Voraussetzungen verfügen. Die so generierte Datenbasis ermöglicht es Studierenden, qualitativ ausgerichteten Fragestellungen nachzugehen. As one of the most popular social media platforms, Instagram is increasingly becoming interesting for linguistic studies. So far, however, there are no standards for corpora containing multimodal and ephemeral data, which are typical for Instagram. At the same time, there is also a great interest among students in a scientific investigation of the platform, which is why integration into academic teaching is an obvious option. Data bases for investigations in the context of seminar papers and theses are often created by individual agreement. With the INSTAB formular I make a proposal how a data collection can be created step by step without students having programming knowledge or special technical requirements. The database generated in this way enables students to pursue qualitatively oriented research questions. Keywords: Soziale Medien, Instagram, Multimodalität, Korpusgenerierung, Ephemere Daten, Annotation, Transkription, Digitale Ethik 1. Multimodale Daten und heterogene Prozesse Das Soziale Netzwerk Instagram gelangt zunehmend in den Interessensfokus Studierender, wenn sie sich, etwa im Rahmen einer Seminar- oder Abschlussarbeit, eingehender mit spezifischen internetlinguistischen Fragestellungen beschäftigen wollen. 1 Angesichts der Nutzungsprofile der App ist das nicht verwunderlich: Weltweit sind 1,48 Mrd. Nutzer*innen auf Instagram aktiv, die meisten (74%) 2 davon sind im Alter von 14 bis 34, eine Altersspanne, in der sich auch Studierende mehrheitlich befinden. Dass hier elizitierte Daten also durch eine große Nähe zur Lebenswelt von Studierenden gekennzeichnet sind, ist eine gute Voraussetzung für die Implementation forschungsorientierten Lehrens und Lernens anhand von Sozialen Medien. 1 Mein Dank geht an Josefine Guderian für eine studentische Perspektive auf den Text und Unterstützung bei der Transkription und Formatierung. 2 https: / / de.statista.com/ statistik/ daten/ studie/ 1247275/ umfrage/ anteil-der-instagram-nutzer-nachaltersgruppen-und-geschlecht-weltweit/ (Stand: 2.4.2023). DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="342"?> Konstanze Marx 342 Nun ist Instagram eine Plattform, die ihren Nutzer*innen ein breites Spektrum an Möglichkeiten zur Erzeugung von Inhalten zur Verfügung stellt: Beiträge, Reels, Stories-- und damit statische und bewegte Bilder-- sowie Gestaltungsoptionen, die unterschiedliche Modi (z. B. Boomerang), Filter, Effekte, Sticker (mit Umfragen etc.) oder Emojis integrieren. Auf diese Weise entsteht sehr komplexes, multimodales (teilweise ephemeres) Datenmaterial, das eine Herausforderung für die Generierung-von Korpora darstellt. Diese schwierigen Bedingungen führen z. B. dazu, dass bei Untersuchungen einzelne oder mehrere Konstituenten der Kommunikate ausgeblendet werden. So wird in einigen Arbeiten der Fokus einzig auf Hashtags (Knierim/ Achmann/ Wolf 2022; Heyen 2022), auf „klassische Instagram-Beiträge mit statischem Bild“ (Schiefer 2022, S.- 2), auf die Sprachebene, ohne (Bewegt)-Bilder (Gür-Şeker 2021b, S.- 68), auf Kommentare (Vargas et al. 2021), Beiträge (Krammer 2021) oder einzelne Accounts (Issel-Dombert 2020) gerichtet. Gleichzeitig ist ein sehr hoher zeitlicher Aufwand für die Datenaufbereitung dokumentiert, vgl. Vargas et al. (2021, S.- 3): „The entire process of annotation training took approximately 6- months“. Damit wäre die Bearbeitungszeit für eine Bachelor- oder Masterarbeit bereits ausgefüllt. Erschwerend kommt hinzu, dass es bislang weder ein zugängliches Social-Media- Korpus gibt, das ephemere Kommunikate 3 integriert (vgl. Beißwenger/ Lüngen 2022) noch einheitliche Standards für die Transkription multimodaler Daten (u. a. Pfurtscheller 2022). Der Anspruch an transkribierte Daten ist hingegen seit langem klar formuliert: Es braucht eine hinreichend gut definierte Darstellungsform, die reproduzierbare Analysen ermöglicht (Bateman 2008, S.-17). In den letzten Jahren lässt sich jedoch eher ein Trend hin zu dezentrierten Datensammlungen beobachten. Damit sind Korpora gemeint, die ad hoc, fragengeleitet und vor allem lokal-- also unzugänglich für andere Forscher*innen-- entstehen. Gerade für Untersuchungen zu ephemeren Modi, eben Reels, Stories oder auch Clips, die nicht nur für Instagram typisch sind, sondern z. B. auch für Snapchat oder TikTok, scheint das besonders praktikabel und verbreitet. Diese Entwicklung für die akademische Lehre fruchtbar zu machen, scheint also nicht abwegig. Allerdings werden die Vorgehensweisen bei der Erstellung dieser Datengrundlagen kaum transparent dokumentiert. In Publikationen zu Social-Media-Plattformen, wie z. B. Instagram, sind häufig keine so präzisen Angaben zu finden, dass die Datengrundlage rekonstruiert oder zumindest die Vorgehensweise repliziert werden kann. Forscher*innen beschreiben den Prozess der Korpusgenerierung z. B. als Datenextraktion (Gür-Şeker 2021a, S.-69) oder folgendermaßen: - das […] Korpus von Instagram-Postings wurde manuell zwischen April und Juli 2020 zusammengetragen (Heyen 2022, S.-136) 3 Ephemere Kommunikate sind fluide und vergänglich, wie etwa Stories bei Instagram, die nach 24 Stunden gelöscht werden. <?page no="343"?> Die INSTAB-Formel 343 - „wurden alle […] Instagram-Postings der sechs Lebensmittelunternehmen gesammelt, die […] digital veröffentlicht wurden.“ (Krammer 2021, S.-196) - „wurden die Postings des Accounts […] erhoben und offline gesichert“ (Issel- Dombert 2020, S.-547) - „We access Instagram using a custom script to emulate a user accessing the platform […] we created a plugin for the chrome browser“ (Achmann et al. 2022, S.-1) - The dataset was collected by scraping data from the social network Instagram (Vargas et al. 2021, S.-3) (Hervorhebungen jeweils von mir) Welche Vorgänge und Prozesse genau mit dem hier genannten manuellen Zusammentragen, Sammeln, Erheben und Sichern verbunden sind, bleibt jedoch eine Black Box. Anhand der Rezeption von thematisch einschlägigen Studien können sich Studierende die Vorgehensweise also kaum erschließen. Auch das erwähnte Schreiben eines Scripts oder die Erstellung eines Browser-Plugins kann von Studierenden nicht erwartet werden. Zwar gibt es bereits in einigen sprachwissenschaftlichen Studiengängen entsprechende curriculare Angebote, Standard sind sie jedoch weder im Bachelor-, Masternoch Lehramtsstudium. Mit Blick auf die eng getakteten Studienpläne und die dadurch begrenzten zeitlichen Ressourcen kann nicht vorausgesetzt werden, dass Studierende bereit sind, Zusatzangebote wahrzunehmen oder sich autodidaktisch z. B. mit dem jüngst erschienenen Lehr- und Arbeitsbuch zur Python- Programmierung für Germanist*innen (Weißer 2022) fortzubilden. Auch von Dozierenden in den Geisteswissenschaften kann nicht erwartet werden, dass sie über so fundierte Programmierkenntnisse verfügen, dass sie bei auftretenden Problemen z. B. auch beim automatischen toolgestützten Scrapen helfen können. Zwar wird für- die Erhebung von Instagram-Daten der Crawler Instaloader (ggf. mit DMI) 4 empfohlen, 5 beim Einsatz in der akademischen Lehre berichteten Studierende jedoch von Schwierigkeiten, sei es im Hinblick auf die eigentlich nur zu kopierende Python-Syntax oder die Kompatibilität mit dem eigenen Betriebssystem. Schon der misslingende Installationsversuch auf dem eigenen Rechner (so vorhanden) kann eine Hürde sein. Insgesamt sind das keine guten Voraussetzungen für die Implementierung in die akademische Lehre, denn es ist nicht möglich, Studierenden auf Basis bereits vorhandener Studien einen Leitfaden für den Aufbau ihrer eigenen Datensammlung an die Hand zu geben. Von dieser suboptimalen Ausgangssituation lassen sich aber weder Dozierende noch Studierende abhalten und so ist es gängige Praxis, dass analog zu den individuell erstellten Datensammlungen in größeren Forschungskontexten auch individu- 4 https: / / github.com/ digitalmethodsinitiative/ dmi-instascraper (Stand: 2.4.2023). 5 Vgl. das Lehrvideo von Simon Meier-Vieracker (TU Dresden) zur Erstellung von Social-Media-Korpora: www.youtube.com/ watch? v=0Gy-1uICmm0 (Stand: 2.4.2023). <?page no="344"?> Konstanze Marx 344 elle Lösungen für kleinere Projekte (Seminar- oder Abschlussarbeiten) gefunden werden. Das gestaltet sich meiner Erfahrung nach in ineffizienter Weise so, dass in Sprechstunden gemeinsame Überlegungen zur Datenbasis angestellt und das Vorgehen für jedes spezifische Projekt einzeln abgesprochen werden. Hierbei spielen im Wesentlichen die von Stukenbrock (2022, S.- 318) zusammengefassten Fragen eine Rolle: Welche Daten werde ich in welchem Format erheben? Welchen Umfang wird das Datenvolumen haben? Wie werde ich die Daten speichern, zusätzlich sichern, verwalten (Ordnerstrukturen, Benennungen, Verlinkungen, etc.)? Welche Metadaten benötige ich, wie erhebe und systematisiere ich sie? Wie behandle ich ethische und rechtliche Fragen? Benötige ich z. B. einen Passwortschutz für den Speicherungsort der Daten? Wie verfahre ich mit dem Problem der langfristigen Aufbewahrung der Daten? Die Antworten auf diese Fragen fallen dann aber zumeist approximativ aus, was Studierende durchaus etwas ratlos zurücklässt. Die entlang der oben genannten Fragen entwickelte INSTAB-Formel ist ein Vorschlag für ein sachbezogenes, vereinheitlichendes Vorgehen, das Studierende in der Phase, in der noch keine Standards entwickelt worden sind, beim Verfolgen ihrer Forschungsinteressen unterstützen soll. Dabei steht IN für In Time, also den frühzeitigen Beginn der Datensammlung (2.1), S für Speichern (2.2), T für Transkribieren (2.3), A für Annotieren (2.4) und B für Bereitstellen (2.5). Studierende und ggf. auch Dozierende erhalten damit Anhaltspunkte für die Generierung von Datensammlungen im Rahmen von akademischen Lehrveranstaltungen, die soziopragmatische Phänomene zum Thema haben und auf hermeneutische Verfahren angewiesen sind. Ein besonderes Augenmerk liegt dabei darauf, die Kommunikate möglichst in ihrer Multimodalität abzubilden, weil die Selektion einzelner Modi der Komplexität der Daten in ihrer Medialität nicht gerecht wird. Dabei wurde berücksichtigt, dass der Prozess in einem überschaubaren Zeitraum mit zumutbarer Workload umsetzbar sein muss. Für das vorgeschlagene Verfahren werden keinerlei Programmierkenntnisse vorausgesetzt. Ich stelle hier eine ausschließlich auf On-Screen-Methoden (dazu Pfurtscheller 2022, S.-192) basierende Vorgehensweise vor. Das ist vermutlich nicht der eleganteste Weg, aber er hat den Vorteil, auf dem kleinsten gemeinsamen Nenner hinsichtlich der technischen Voraussetzungen, als auch der Computerkenntnisse aufbauen zu können. 2. Die INSTAB-Formel 2.1 IN wie In Time: Frühzeitig beginnen Die Erstellung einer Datengrundlage ist zeitaufwendig und sollte daher bereits in der Vorlesungszeit (und bei Abschlussarbeiten vor der Anmeldung beim Prüfungsamt) begonnen werden. Für die Menge der Daten haben wir in Marx/ Weidacher (2020, S.-33) die Faustformel formuliert, „dass genügend Daten vorhanden sind, so- <?page no="345"?> Die INSTAB-Formel 345 bald sich ein Muster finden lässt“. Es hat sich jedoch gezeigt, dass Studierende dennoch Richtwerte benötigen und eine Größenordnung von 50 bis 100 Belegen praxistauglich ist. Zu berücksichtigen ist hierbei, dass die für eine methodisch valide Untersuchung notwendige Stichprobengröße von diversen statistischen Parametern, wie z. B. erwartbaren Wahrscheinlichkeiten, dem Konfidenzlevel etc. abhängt und die genannten Richtwerte eher als unterste Grenze für empirische Einstiegsübungen im Rahmen studentischer Projekte dienen. Die Auswahl der Instagram- Profile hängt von der Forschungsfrage ab, die ebenfalls frühzeitig im Rahmen der Lehrveranstaltung festgelegt werden kann. Ein vollständiges Datum setzt sich aus den folgenden Komponenten zusammen: - Angaben zum Profil (Profilfoto, Nutzername, Profilname, Bio (Kurzangaben zum*zur Profilinhaber*in, inkl. ggf. URL, Anzahl der Beiträge, Follower*innen und gefolgten Personen), - Beitrag bestehend aus Foto, Caption inklusive Hashtags, Reaktionen und Kommentaren, ggf. Story oder Reel und - Datum und ggf. Uhrzeit der Veröffentlichung. Gut umsetzbar ist die Erhebung, wenn ein Protokollierungszeitraum von zwei Monaten festgelegt wird und die Daten jeweils täglich zu zwei festgelegten Uhrzeiten erhoben werden. Von jedem Beitrag sollte ein Screenshot und mit Hilfe der Instagram-App-Funktion ein QR-Code erstellt sowie Textinhalte per Copy-and-Paste extrahiert werden. Bilder, Reels und Stories können entweder über die App (z. B. unter Zuhilfenahme des Kurzbefehls R↓Download 6 oder der App Instdown) oder browserbasiert 7 heruntergeladen werden. 2.2 S wie Speichern Ähnlich wie beim Crawlen mit dem Instaloader liegen die Kommunikat-Komponenten separat vor. Der automatisch im Ordner Fotos abgelegte QR-Code sollte wie die Bilder, Reels und Stories in der jeweiligen Uni-Cloud (z. B. Nextcloud) gespeichert werden. Alle Bild- und Videodateien werden dafür mit möglichst aussagekräftigen Dateinamen versehen, etwa nach dem Muster (1) Laufende Belegnummer_Format_Profil_Datum_Aufnahmenummer Die laufende Belegnummer wird vergeben, damit alle Kommunikat-Komponenten problemlos aufeinander bezogen werden können. Die Angabe zum Format macht 6 www.youtube.com/ watch? v=t5_CfErp-u8 (Stand: 2.4.2023). 7 Das lässt sich zum Beispiel für Bilder, Stories und Reels auf www.save-insta.com/ de/ (Stand: 2.4.2023) sehr intuitiv bewerkstelligen. Besonders praktisch ist, dass z. B. die einzelnen Sequenzen von Stories separat herunterladbar sind. <?page no="346"?> Konstanze Marx 346 Abb.-1: Muster für die Dokumentation der Datenbasis, aus satztechnischen Gründen hier zweigeteilt dargestellt <?page no="347"?> Die INSTAB-Formel 347 schnell sichtbar, ob es sich um den QR-Code, eine Story, ein Reel oder ein Beitragsbild handelt. Mit Datum und (wenn verfügbar) Uhrzeit werden Angaben zum Veröffentlichungszeitpunkt des Posts vermerkt. Auch das Datum des Protokolliertags ist festzuhalten. Der Profilname sollte deshalb mit in den Dateinamen aufgenommen werden, weil eine schnelle Zuweisbarkeit die Analysearbeit erleichtert. Hier sollte zusätzlich der Aktivitäts- und Vernetzungsgrad notiert werden, wofür die Anzahl der Follower (F), der abonnierten Accounts (A) und der Beiträge (B) Indikatoren sind. Die Aufnahmenummer gibt an, ob es sich bei dem Beleg um den ersten oder zweiten an dem angegebenen Tag protokollierten Beleg handelt. In ähnlicher Weise ist auch die Excel-Tabelle aufgebaut, in der alle Kommunikat-Komponenten zusammengeführt werden (siehe Abb.-1). Hierin werden auch Caption-Text, Hashtags und Kommentare übertragen. Für ephemere Inhalte, wie Stories und Reels, wird der Link integriert, der durch das Speichern in der Cloud erzeugt worden ist. Zudem ist es ratsam, eine Sigle zu erzeugen, um ggf. auch anonymisiert auf Belege aus der Datensammlung referieren zu können. Eine Möglichkeit zur Erstellung besteht beispielsweise darin, die laufende Belegnummer mit dem 1., 3. und 5.-Buchstaben des Profilnamens sowie den Ziffern des Veröffentlichungsdatums zu kombinieren (siehe Abb.-1, Spalte-2). Die Ablage in der Tabelle hat nicht nur den Vorteil, dass hier alle notwendigen Informationen zu einem Kommunikat zusammengeführt werden. Sie ist zudem durchsuchbar und beliebig erweiterbar. Das hat Soeffner (1989, S.-58) zufolge eine besondere Relevanz für die Annotation. Er betrachtet die Fixierung als Voraussetzung dafür, „dass etwas [überhaupt] zum ‚Datum‘ sozialwissenschaftlicher Analyse werden kann [und] immer wieder und in gleicher ‚Gestalt‘ von jedem beliebigen Interpreten angesehen, hin- und hergewendet und damit kontrolliert interpretiert werden kann“. Damit ist das Speichern der Daten nicht nur Grundlage für die Interpretation, sondern auch eine „Möglichkeit der Qualitätskontrolle qualitativer Forschung“ (Reichertz 2014, S.-66). 2.3 T wie Transkribieren Während Textpassagen, wie Captions, Kommentare, Hashtags aber auch Texte in Stories oder Reels, recht einfach (per copy + paste-Verfahren) übernommen werden können, bestehen z. B. Stories und Reels aus bildlichen und akustischen (gesprochenen/ gesungenen) Daten, die einer Transkription bedürfen. Damit stehen Studierende vor der Aufgabe der multimodalen medienlinguistischen Transkription, für die es nach wie vor keine einheitlichen Standards gibt (Pfurtscheller 2022, S.- 187; siehe aber auch Stukenbrock 2009, S.- 146; Reichertz 2014, S.- 68). Stukenbrock (2009, S.- 147 f.) nimmt die digitale Verfügbarkeit und Komplexität der Daten zum Anlass darüber nachzudenken, dass ein Transkript allein keine adäquate Abbildung mehr darstellen kann. Das macht eine didaktische Reduktion für diesen wichtigen Brückenschlag zur Analysearbeit zur Herausforderung. Es geht in diesem Schritt um <?page no="348"?> Konstanze Marx 348 nicht weniger als die Überführung (ephemer)-multimodaler Daten in ein Textformat. Um Studierende gedanklich zu entlasten, sei erwähnt, dass in der Forschung Einigkeit darüber besteht, dass (Bewegt-)Bildinhalte nicht verlustfrei in Text „übersetzt“ werden können, weshalb Reichertz (2014, S.-61-64) zum Beispiel vorschlägt, sich bei der Erzeugung einer Repräsentation von Medieninhalten abzuwenden und eher nach der Möglichkeit zu fragen, wie „die Bedeutung der Medieninhalte mit Hilfe eines anderen Mediums“ repräsentiert werden kann. Pfurtscheller (2022, S.-187 f.) rückt zentrale medienlinguistische Fragen in den Mittelpunkt seiner Überlegungen zu Transkriptions- und Annotationspraktiken in der qualitativen Forschung zu digitaler Medienkommunikation: Wie lässt sich Sprache in den Medien als mediatisierter Sprachgebrauch beschreiben? Welche Rolle spielt der Bestand von unterschiedlichen Kommunikations- und Gestaltungsmitteln, wie lassen sich Verfahrensweisen in Mikroanalysen rekonstruieren, welche Muster lassen sich in Mediendiskursen und im medialen Wandel beschreiben? Diese Fragen zeigen nicht nur eine Linie auf, entlang derer „kleinere“ für Seminar- und Abschlussarbeiten adäquate Fragestellungen entwickelt werden können, sie bilden auch das Grundgerüst für die Transkription und Annotation, bei der als wichtigstes Prinzip lediglich berücksichtigt wird, was für die individuelle Fragestellung relevant ist. Für die hier zusammengetragenen Hinweise musste von diesen potenziellen Fragestellungen abstrahiert werden. Ich zeige daher ein etwas breiteres Spektrum an Transkriptionsoptionen auf, aus dem für die eigene Studie dann jeweils das Passende ausgewählt werden kann. Es sind praktische Gründe, die mich dazu veranlassen, die Arbeitsschritte Transkription und Annotation (siehe-2.4) voneinander zu trennen. Dabei orientiere ich mich an der von Pfurtscheller (2022, S.- 189) explizierten Unterscheidung, nach der Transkription als Umwandeln und regelgeleitetes In- Form-Bringen gefasst wird, während bei der Annotation „deskriptive oder analytische Metadaten oder Kategorien in rohes Datenmaterial“ eingebunden werden. Auf diese Weise können bereits im Datenaufbereitungsprozess Modi analytisch separiert werden. Ich schlage also vor, sich das in der Konversationsanalyse bewährte Zwiebelprinzip (Selting et al. 2009, S.- 356) zunutze zu machen. In einem ersten Schritt werden den Videos allgemeine Kategorien zugewiesen, dann Bildsequenzen festgelegt (Schritt- 2) und diese nach Bildinhalt (Schritt 3) aufgeschlüsselt sowie in Schritt-4 ggf. und selektiv multimodal erweiterte GAT2-Transkripte angefertigt. Was bedeutet das konkret? Schritt-1: In Unkenntnis der jeweils für die Studienarbeit zusammengestellten Datenbasis greife ich für Vorschläge zur Unterteilung der Instagram-Videos auf Bainotti/ Caliandro/ Gandini (2021, S.-3664) zurück, die folgende beschreibende Kategorien ermittelt haben: Porträts (von sich selbst, den Freunden, der Familie etc.), Kompositionen (Texte, Bilder, Sticker, Memes, Zeichnungen etc.), Objekte (Autos, Bücher, Körper etc.), Szenerien (Landschaft/ Natur, Städte, Reisen etc.), Feierlich- <?page no="349"?> Die INSTAB-Formel 349 keiten (Party, Geburtstag, Feiertage etc.), Ernährung (Essen, Getränke), Tiere und anderes. Schritt- 2: Sequenzen, die durch die jeweilige Story (Collage) oder Szenen in Reels vorgegeben werden, können als grobe Strukturierung übernommen werden. Unterschiedliche Bilder in der Story werden also ebenso wie unterschiedliche Szenen in Reels getrennt voneinander transkribiert und jeweils fortlaufend nummeriert. Schritt- 3: Anschließend werden die Inhalte der Sequenzen und Szenen sprachlich paraphrasiert. Dazu werden die folgenden Fragen beantwortet: Wer oder was ist zu sehen? Was tut ggf. die Person/ was tun die Personen? Welche akustischen Signale gibt es, z. B. Monologe, Gespräche oder Musik? Wurden Filter, Rahmen, Sticker eingesetzt? Wird auf Links verwiesen, gibt es sogenannte Shoutouts, also Erwähnungen anderer Nutzer*innen/ Follower*innen? Schritt-4: Für die Fragestellung relevante Monologe und/ oder Gespräche werden in ein multimodal erweitertes GAT2-Transkript übertragen. Hierbei dienen Sprechen und Pausen als Gerüst und werden fettgedruckt. Körperliche Aktivitäten, Geräusche, visuelle und textuelle Effekte werden mit Sonderzeichen aligniert, vgl. dazu Mondada (2016), sowie Marx/ Schmidt (2019, S.- 329). In Abbildung- 2 habe ich das einmal für die zweite Szene einer Story umgesetzt. Diese Sequenz wäre zum Beispiel interessant, wenn man sogenannte Call-to-actions-Handlungen untersuchen möchte, die typisch für Instagram sind. INS +unten %~und $zwar (.)(°h) §DEN hier von Veganista; kA 8 % greift nach Gutschein $ schaut auf Gutschein § zeigt Gutschein und blickt in Kamera, beugt sich nach vorn --->> StA + Videobeschreibung --->> HG 9 ~ rascheln INS mit dem man ~sich eine % $ein Liter EIS §box holen kann(°h); kA % schaut kurz auf Gutschein $ zeigt Gutschein und blickt in Kamera § fächernde Bewegung mit Gutschein StA --->> HG ~ leichtes rascheln INS %und ich HAB mir gedacht - kA % dreht Gutschein und schaut auf diesen StA --->> HG 8 körperliche Aktivität 9 Hintergrundgeräusche <?page no="350"?> Konstanze Marx 350 INS %ich verlos $~ den hier in der Story an jemanden §unter EUCH - kA % blickt in Kamera $ klatscht einmal in Hände § schaut auf Gutschein StA --->> HG ~ Klatschgeräusch INS %also (°h) viel $~leicht mach ich damit ja jemandem eine FREUde - kA % blickt in Kamera $ klatscht einmal in Hände StA --->> HG ~ Klatschgeräusch INS alle Bedingungen gibt es in der nächsten %SLIDe; kA % „wischt“ rechte Hand von oben rechts nach unten links StA --->> HG INS und ICH geh jetzt % raus. kA % greift mit linker Hand nach vorn StA --->> HG Abb.-2: Muster für ein multimodal erweitertes Transkript- Sind die Daten letztlich für die Analyse aufbereitenden Schritte vollzogen, kann zur Annotation übergegangen werden. Es bietet sich an, die unter Punkt-3 und Punkt-4 beschriebenen Vorgänge in separaten Spalten in die bereits erstellte Datenbasis (siehe Abb.-1) zu integrieren. 2.4 A wie Annotieren Die Annotation dient dazu, für die Analyse wichtige Beobachtungen zu notieren. Ganz einfach formuliert, wird hier festgehalten, was auffällt. Das kann auf unterschiedlichen Ebenen geschehen. Ich nenne einige Beispiele. In den textbasierten Passagen sind Auffälligkeiten auf allen linguistischen Beschreibungsebenen interessant: Gibt es besondere Wörter, auch mit Blick auf Hashtagkonnektive, 10 fällt der Satzbau auf, wie sind die Sätze und Hashtags miteinander verknüpft? Wurden Emojis verwendet, welche und wo genau? 10 Hashtagkonnektive sind neben dem Rautenmarker konstitutive Bestandteile von Hashtags. Das können vielgestaltige Formen sein, etwa Akronyme, Zahlen, einzelne oder mehrere Wörter oder sogar Sätze (Marx 2021, S.-135). <?page no="351"?> Die INSTAB-Formel 351 Bei Bildern helfen Kameraperspektive, Licht, eingesetzte Filter oder Effekte, die bildliche Ausdruckshandlung zu ergründen. Reichertz (2014, S.-69) schlägt vor, mit sogenannten moves als kleinste bedeutungstragende Bewegungen zu arbeiten, um weg vom Bild, das im Transkriptionsschritt beschrieben wurde, auf die Deutungsebene zu gelangen. Für Instagram-Videos legen Bainotti/ Caliandro/ Gandini (2021, S.-3654) Narrationstypen auf einem sogenannten „connotative level“ fest, weil sie davon ausgehen, dass es sich hierbei um digitale small stories handelt. Small stories bieten die Möglichkeit, alltägliche, gewöhnliche, sogar triviale Ereignisse (Georgakopoulou 2017, S.- 268) und spezifische kulturelle und moralische Sichtweisen, anders als in traditionellen Geschichten, „a-typisch“, d. h. fragmentarisch, mit offenem Ende und mit hoher intertextueller Verankerung zu erzählen (Page 2013; Bainotti/ Caliandro/ Gandini 2021, S.-3654). Als Kategorien wurden hierbei ermittelt: Alltagseinblicke in einzelnen Einheiten (sog. snippets) oder kohärente Erzählungen eines Ereignisses in mehreren Szenen/ Frames als Mikrodokumentationen. Vorgeschlagen wird, den jeweiligen Verwendungszusammenhang (besonderes Ereignis, Alltag, Stimmung, Interaktion, Selbstdarstellung, Aphorismus o. ä.) zu notieren. Bei Interaktant*innen (etwa Personen oder Tiere) sollte festgehalten werden, wie sich diese Interaktion gestaltet, ob es Auffälligkeiten mit Blick auf die Darstellung ihrer Beziehung, der verhandelten Themen etc. gibt. Werden z. B. Emotionen ausgedrückt, wenn ja, welche und wie? Interessant kann auch sein, ob es besondere Schnitte oder ein spezifisches Tempo gibt und welche Stimmung etwaige Musik konstruiert. Gibt es besondere Symbole, eine auffällige Wort-/ Farb-/ Typografie-Wahl bei Texteinblendungen? Inwieweit nimmt auch der*die Profilinhaber*in dazu eine Position ein und wie? Dabei kann es u. a. eine Rolle spielen, ob die jeweilige Story zu den Highlights hinzugefügt wurde. Die Kodierung sollte hier so erfolgen, dass sie von Dritten leicht nachvollzogen werden kann. Ich rate also davon ab, umständliche, auf vorab definierten Ikons basierende Notationssysteme zu verwenden (siehe auch Reichertz 2014, S.-69). Dass Annotationen im Normalfall von mehr als einer Person durchgeführt werden, sollte Studierenden bewusst sein. Dieses methodische Wissen kann im Methodenkapitel erwähnt werden, eine Umsetzung dieser Praxis liegt nicht im Erwartungshorizont für studentische Arbeiten. 2.5 B wie Bereitstellen Wie soll das Datenmaterial für Dozierende zugänglich gemacht werden? Fragen, die hierzu von Studierenden häufig gestellt werden, beziehen sich a) auf die konkrete Umsetzung des Zugangs zu den Daten und b) auf ggf. zu berücksichtigende ethische Aspekte. In vielen Prüfungsordnungen ist nach wie vor vorgeschrieben, dass Seminar- und Abschlussarbeiten als ausgedrucktes Manuskript einzureichen sind. In manchen <?page no="352"?> Konstanze Marx 352 Universitäten wird zusätzlich eine CD-ROM eingefordert. Solche Vorgaben bedürfen einer dringenden Überarbeitung. Solange sie jedoch verbindlich sind, empfehle ich zusätzlich eine lesefreundliche Variante der Bereitstellung. Das heißt, dass die Daten (als illustrierende Beispiele etwa) sowohl in den Fließtext, als auch in den Anhang so eingebunden sein sollten, dass ein schneller Zugriff erfolgen kann. Für textuelle Daten und Screenshots lässt sich das leicht bewerkstelligen. Aber auch ephemere Daten können eingebunden und leicht zugänglich gemacht werden. Im Abschnitt-2.2 habe ich bereits das Erstellen von QR-Codes über die Instagram-App empfohlen. Diese lassen sich problemlos in den Fließtext integrieren. Für die Bereitstellung der gesamten Datengrundlage erachte ich es als praktikabel, Zugang zu dem Ordner zu gewähren, der in der universitätseigenen Cloud angelegt ist (siehe 2.2). Das kann über einen Link oder ebenfalls über einen QR-Code 11 geschehen. Die Ordnerstruktur sollte dabei leicht nachvollziehbar gestaltet, die einzelnen Unterordner und Dateien sollten mit transparenten Namen (etwa Name_Modul_Angabedes- Semesters_ Datengrundlage_gesamt, _Stories, _Reels etc.) versehen sein. Die hier zusammengetragenen Hinweise sind an qualitativen Untersuchungen ausgerichtet, die häufig Orientierungspunkt für forschungsethische Fragestellungen sind (vgl. Meier-Vieracker 2022, S.-20). Daher sollte auch in Seminar- und Abschlussarbeiten sichtbar gemacht werden, dass sich die Verfasser*innen mit ethischen Fragen auseinandergesetzt haben. Eine solche Passage kann z. B. gut im Methoden-Kapitel platziert werden und sollte die wesentlichen Überlegungen zur Anonymisierung, zur (informationellen) Selbstbestimmung mit Blick auf die Urheber*innen und zur Datentransparenz enthalten. Die Daten (insbesondere bei Seminararbeiten) werden im Normalfall von zwei Personen, nämlich den Betreuer*innen der Arbeit, eingehend gelesen. Diese Tatsache sollte in die Überlegung, ob umfangreiche Anonymisierungen innerhalb der zugänglich gemachten Datenbasis notwendig sind, einfließen und kann in der erwähnten Passage explizit thematisiert werden. Vor diesem Hintergrund und unter Berücksichtigung des Umstands, dass Studierenden nur ein sehr begrenzter Zeitraum für das Erstellen von Seminararbeiten (aber natürlich auch Abschlussarbeiten) zur Verfügung steht, ist auch abzuwägen, ob auf die sehr aufwändige, für wissenschaftliche Projekte empfohlene Kontaktaufnahme zu Nutzer*innen (vgl. Luth/ Marx/ Pentzold 2022, S.- 120) verzichtet werden kann. Das betrifft auch die in diesem Zusammenhang als Alternative angeführte Datenakquise über Spenden. Es ist nicht davon auszugehen, dass solche forschungsethisch vorzuziehenden Varianten im Rahmen von studentischen Arbeiten umsetzbar sind. Das Bewusstsein für diese Problematik sollte aber kenntlich gemacht werden. Eine Formulierung könnte folgendermaßen aussehen: Die dieser Arbeit zugrundeliegenden Daten sind einem Sozialen Netzwerk entnommen, das ohne besondere Hürden öffentlich zugänglich ist. Mir ist bewusst, dass dar- 11 Dieser lässt sich z. B. mit dem QR-Code-Generator leicht erstellen: www.qrcode-generator.de/ (Stand: 2.4.2023). <?page no="353"?> Die INSTAB-Formel 353 aus noch nicht abzuleiten ist, dass die Nutzer*innen einer wissenschaftlichen Untersuchung ihrer Beiträge zugestimmt haben. Ich gehe davon aus, dass diese Arbeit nur von meinen Betreuer*innen gelesen wird, auch die Datengrundlage wird nur ihnen zugänglich gemacht. Ich habe mit Blick auf den mir zur Verfügung stehenden zeitlichen Rahmen zur Anfertigung meiner Seminararbeit auf umfangreiche Anonymisierungen verzichtet und von einer Kontaktaufnahme zu den betreffenden Nutzer*innen abgesehen. Auch die Akquise der Daten über Spenden wäre in diesem Zusammenhang nicht umsetzbar gewesen. Sollte meine Untersuchung qualitativ so überzeugen, dass eine Veröffentlichung in Betracht kommt, werde ich forschungsethische Aspekte erneut in den Blick nehmen. 3. Fazit Ziel dieses Beitrags war eine Gebrauchsanweisung für Datensammlungen, die Basis für qualitativ ausgerichtete studentische Arbeiten sein kann. Damit schließt er in bescheidener Weise an die umfassenden Arbeiten von Angelika Storrer zur Generierung von Social-Media-Korpora an. Ich habe hier versucht, ein Desiderat zu adressieren, das die Gemüter in großen und bereits lange währenden Forschungsdiskussionen bewegt und uns im Kleinen in unserer täglichen Arbeit, der akademischen Lehre, vor ganz konkrete Herausforderungen stellt: Die Frage, wie multimodale Daten als Grundlage für studentische Forschungsprojekte abgebildet werden können. Zu berücksichtigen ist hierbei, dass deren Generierung fragengeleitet und in einer angemessenen Zeit umsetzbar sein muss, möglichst keine Programmierkenntnisse voraussetzen und nur von einem technischen Grundverständnis bei der Handhabung verfügbarer Software ausgehen darf. Vielmehr können diejenigen Fähigkeiten zum Einsatz kommen, die ohnehin zur Nutzung von Social Media benötigt werden. Mit der INSTAB-Formel wurde ein didaktisch reduzierter Vorschlag vorgelegt, der meines Erachtens auch deshalb legitim ist, weil studentische Arbeiten häufig (und im wertschätzenden Sinne: nur) hypothesengenerierenden Charakter für Qualifikationsarbeiten haben. Wünschenswert ist natürlich, dass der Anwendungsbezug dazu beiträgt, dass der Vorschlag über den festlichen Rahmen dieses Buches hinaus Reichweite erlangt, weil das der Würdigung des Werks von Angelika Storrer umso zuträglicher wäre. Literatur Achmann, Michael/ Hampel, Lisa/ Asabidi, Ruslan/ Wolff, Christian (2022): Studying the ephemeral cultures of digital oblivion. Identifying patterns in Instagram Stories. In: Geierhos/ Trilcke/ Börner/ Seifert/ Busch/ Helling (Hg.). Bainotti, Lucia/ Caliandro, Alessandro/ Gandini, Alessandro (2021): From archive cultures to ephemeral content, and back: studying Instagram stories with digital methods. In: New Media & Society 23, 12, S.-3656-3676. Bateman, John A. (2008): Multimodality and Genre. A Foundation for the Systematic Analysis of Multimodal Documents. New York: Palgrave Macmillan. <?page no="354"?> Konstanze Marx 354 Beißwenger, Michael/ Lüngen, Harald (2022): Korpora internetbasierter Kommunikation. In: Beißwenger/ Lemnitzer/ Müller-Spitzer (Hg.), S.-431-448. Beißwenger, Michael/ Lemnitzer, Lothar/ Müller-Spitzer, Carolin (Hg.) (2022): Forschen in der Linguistik. Eine Methodeneinführung für das Germanistik-Studium. (=-UTB-5711). Paderborn: Brill | Fink. Geierhos, Michaela/ Trilcke, Peer/ Börner, Ingo/ Seifert, Sabine/ Busch, Anna/ Helling, Patrick (Hg.) (2022): Eine Posterpräsentation auf der 8. Tagung des Verbands „Digital Humanities im deutschsprachigen Raum“-- DHd 2022 Kulturen des digitalen Gedächtnisses, Potsdam, 07.03.-11.03.2022. Georgakopoulou, Alexandra (2017): Small stories research: a narrative paradigm for the analysis of social media. In: Sloan, Luke/ Quan-Haase, Anabel (Hg.): The SAGE handbook of social media research methods. London u. a.: SAGE, S.-266-281. Gredel, Eva (Hg.) (2022): Diskurse-- digital. Theorien, Methoden, Anwendungen. (=-Diskursmuster-- Discourse Patterns-30). Berlin/ Boston: De Gruyter. Gür-Şeker, Derya (2021a): Zur Konstruktion rechter Diskursgemeinschaften in Social Media. Von PEGIDA zur Identitären Bewegung. In: Lublin Studies in modern languages and literature-45,-2, S.-119-131. Gür-Şeker, Derya (2021b): „Wie sieht die #ZukunftDerArbeit aus? “-- Hashtags als Dreh- und Angelpunkte linguistischer Social-Media-Analysen. In: Linguistica-61,-1, S.-67-80. Heyen, Hauke (2022): #hokerbeest: Auf der Suche nach Spuren digitaler nordfriesischer Kommunikation. In: Walker, Alastair/ Hoekstra, Eric/ Jensma, Goffe/ Vanselow, Wendy/ Visser, Willem/ Winter, Christoph (Hg.): From West to North Frisia. A journey along the North Sea Coast. Frisian studies in honour of Jarich Hoekstra. (=- NOWELE Supplement Series-33). Amsterdam/ Philadelphia: Benjamins, S.-133-148. Issel-Dombert, Sandra (2020): Die Macht der Bilder und Bilder der Macht: die sprachliche Konstruktion von Nationalismus und Konservatismus in der strategischen politischen Kommunikation von Vox España. In: Zeitschrift für romanische Philologie- 136,- 2, S.-538-566. Knierim, Aenne/ Achmann, Michael/ Wolff, Christian (2022): Zeitgeschichte untersuchen- - Topic Modeling von #blackouttuesday-Inhalten auf Instagram. In: Geierhos/ Trilcke/ Börner/ Seifert/ Busch/ Helling (Hg.). Krammer, Lisa (2021): „Wir sind für euch da. #gemeinsamschaffenwirdas“ Flugblätter-Narrative und Social-Media-Kommunikation des Lebensmittelhandels während des ersten COVID-19-Lockdowns in Österreich. In: Wiener Linguistische Gazette (WLG)- 90,- 2021 (Themenheft: Corona-Diskurse in und über Österreich), S.-185-216. Luth, Janine/ Marx, Konstanze/ Pentzold, Christian (2022): Ethische und rechtliche Aspekte der Analyse von digitalen Diskursen. In: Gredel (Hg.), S.-101-134. Marx, Konstanze (2021): #Versprochenistversprochen-- Die Kartographie einer kognitionslinguistischen Rautenwanderung. In: Giessen, Hans W./ Lüger, Heinz-Helmut (Hg.): Text-, Diskurs- und Kommunikationsforschung. Festschrift für Hartmut Lenk. (=- Landauer Schriften zur Kommunikations- und Kulturwissenschaft). Landau: Verlag Empirische Pädagogik, S.-131-144. Marx, Konstanze/ Schmidt, Axel (2019): Making Let‘s Plays watchable: Praktiken des stellvertretenden Erlebbar-Machens von Interaktivität in vorgeführten Videospielen. In: Marx, <?page no="355"?> Die INSTAB-Formel 355 Konstanze/ Schmidt, Axel (Hg.): Interaktion und Medien. (=- OraLingua- 17). Heidelberg: Winter, S.-319-352. Marx, Konstanze/ Weidacher, Georg (2020): Internetlinguistik: ein Lehr- und Arbeitsbuch. 2.,-aktual. und durchges. Ausgabe. (=-Narr Studienbücher). Tübingen: Narr. Meier-Vieracker, Simon (2022): Digitale Diskursforschung und Forschungen zu digitalen Diskursen. In: Gredel (Hg.), S.-7-26. Mondada, Lorenza (2016): Zwischen Text und Bild: Multimodale Transkription. In: Hausendorf, Heiko/ Schmitt, Reinhold/ Kesselheim, Wolfgang (Hg.): Interaktionsarchitektur, Sozialtopographie und Interaktionsraum. (=- Studien zur Deutschen Sprache- 72). Tübingen: Narr, S.-111-160. Page, Ruth E. (2013): Stories and Social Media: identities and interaction. (=-Routledge studies in sociolinguistics-3). New York u. a.: Routledge. Pfurtscheller, Daniel (2022): Medienlinguistisch transkribieren. Transkriptions- und Annotationspraktiken in der qualitativen Forschung zu digitaler Medienkommunikation. In: Schwarze, Cordula/ Grawunder, Sven (Hg.): Transkription und Annotation gesprochener Sprache und multimodaler Interaktion. Konzepte, Probleme, Lösungen. Tübingen: Narr, S.-186-210. Reichertz, Jo (2014): Das vertextete Bild. Überlegungen zur Gültigkeit von Videoanalysen. In: Moritz, Christine (Hg.): Transkription von Video- und Filmdaten in der Qualitativen Sozialforschung. Multidisziplinäre Annäherungen an einen komplexen Datentypus. Wiesbaden: Springer, S.-55-72. Schiefer, Veronika (2022): Der Instagram-Beitrag als politische Textsorte. Eine Analyse rechtspopulistischer Merkmale in Instagram-Beiträgen der FPÖ im Kontext der Corona- Krise. Masterarbeit. Graz: Universität Graz. Selting, Margret/ Auer, Peter/ Barth-Weingarten, Dagmar/ Bergmann, Jörg/ Bergmann, Pia/ Birkner, Karin/ Couper-Kuhlen, Elizabeth/ Deppermann, Arnulf/ Gilles, Peter/ Günthner, Susanne/ Hartung, Martin/ Kern, Friederike/ Mertzlufft, Christine/ Meyer, Christian/ Morek, Miriam/ Oberzaucher, Frank/ Peters, Jörg/ Quasthoff, Uta/ Schütte, Wilfried/ Stukenbrock, Anja/ Uhmann, Susanne (2009): Gesprächsanalytisches Transkriptionssystem- 2 (GAT- 2). In: Gesprächsforschung--̶ Online-Zeitschrift zur verbalen Interaktion-10, S.-353-402. Soeffner, Hans-Georg (1989): Auslegung des Alltags-- Der Alltag der Auslegung. Zur wissenssoziologischen Konzeption einer sozialwissenschaftlichen Hermeneutik. Unter redaktioneller Mitarbeit von Ludgera Vogt. Frankfurt a. M.: Suhrkamp. Stukenbrock, Anja (2009): Herausforderungen der multimodalen Transkription: Methodische und theoretische Überlegungen aus der wissenschaftlichen Praxis. In: Birkner, Karin/ Stukenbrock Anja (Hg.): Die Arbeit mit Transkripten in Fortbildung, Lehre und Forschung. Mannheim: Verlag für Gesprächsforschung, S.-144-169. Stukenbrock, Anja (2022): Audio- und Videographie. In: Beißwenger/ Lemnitzer/ Müller-Spitzer (Hg.), S.-307-323. Vargas, Francielle/ Carvalho, Isabelle/ Rodrigues de Góes, Fabiana/ Benevenuto, Fabrício/ Pardo, Thiago A.- S.- (2022): HateBR: a large expert annotated corpus of Brazilian Instagram comments for hate speech and offensive language detection. In: Calzolari, Nicoletta/ Béchet, Frédéric/ Blache, Philippe/ Choukri, Khalid/ Cieri, Christopher/ Declerck, Thierry/ Goggi, Sara/ Isahara, Hitoshi/ Maegaard, Bente/ Mariani, Joseph/ Mazo, Hélène/ Odijk, Jan/ <?page no="356"?> Konstanze Marx 356 Piperidis, Stelios (Hg.): Proceedings of the thirteenth language resources and evaluation conference, Marseille, France. European Language Resources Association, S.- 7174-7183. https: / / arxiv.org/ pdf/ 2103.14972.pdf (Stand: 2.4.2023). Weißer, Martin (2022): Python-Programmierung für Germanist: innen. Ein Lehr- und Arbeitsbuch. (=-Narr Studienbücher). Tübingen: Narr. <?page no="357"?> KORPUSGESTÜTZTE ANALYSE UND FÖRDERUNG SPRACHLICHER KOMPETENZEN <?page no="359"?> THOMAS BARTZ/ NADJA RADTKE NUTZUNG DIGITALER TEXTKORPORA UND ANALYSEWERKZEUGE BEIM MATERIALGESTÜTZTEN SCHREIBEN IM DEUTSCHUNTERRICHT Abstracts: In diesem Beitrag greifen wir das im Deutschunterricht bislang noch wenig genutzte Potenzial einer Verknüpfung von Sprachreflexion mit der Recherche und Analyse authentischer Sprachdaten mithilfe digitaler Textkorpora auf und machen es für das materialgestützte Schreiben nutzbar. Dazu skizzieren wir didaktische Grundlagen und curriculare Vorgaben zum materialgestützten Schreiben und entwickeln einen Vorschlag zur Weiterentwicklung dieser Aufgabenart, die Möglichkeiten der Nutzung digitaler Textkorpora als Werkzeuge zur Informationsgewinnung beim materialgestützten Schreiben verdeutlicht und in konkrete Unterrichtsüberlegungen mündet. In this article, we focus on the potential of linking language reflection with the search for and analysis of authentic language data with the help of digital text corpora, which has been little used in teaching German so far, and make it usable for material-based writing. To do so, we outline didactic principles and curricular guidelines for material-based writing and develop a concept for the further development of this type of task which illustrates the possibilities of using digital text corpora as tools for information retrieval in material-based writing and leads to specific teaching considerations. Keywords: Materialgestütztes Schreiben, Digitale Textkorpora, Sprachreflexion, Deutschunterricht in der digitalen Welt 1. Einleitung Anspruchsvolle schriftliche Texte wie z. B. Sachbuchartikel, Zeitungs- oder Forschungsberichte bzw. überzeugende Kommentare, Leserbriefe, Essays oder auch Antragsschreiben entstehen nicht aus dem Nichts. Sie sind das Ergebnis komplexer und insbesondere für weniger fortgeschrittene Schreiber/ -innen oft mühsamer Schreibprozesse, bei denen die Gewinnung, Organisation und Verarbeitung von Informationen häufig eine mindestens ebenso große Herausforderung darstellt wie ihre Verschriftung in einem idealerweise formal und kommunikativ ansprechenden Text (vgl. für einen Überblick Philipp 2015, auch: Hayes 2012; Ortner 2000; Bereiter 1980). In der Schreibdidaktik hat diese Einsicht zur Entwicklung von Vermittlungs- und Förderkonzepten geführt, bei denen der gesamte Schreibprozess in den Blick genommen wird (vgl. Becker-Mrotzek/ Böttcher 2020; Steets 2020; Feilke 2014; Baurmann 2019). Das gilt auch für das materialgestützte Schreiben (vgl. Philipp 2017; Feilke et al. 2016). Dabei verarbeiten Schüler/ -innen Informationen aus unterschiedlichen, z. T. multimodalen Materialien zu eigenen informierenden oder argumentierenden Texten. Die Materialien erhalten die Schüler/ -innen bislang in der Regel vorgefertigt in Form gedruckter Materialsammlungen. Dies ist zur Entlastung des Schreibprozesses gerade bei Schreibnoviz/ -innen zwar sinnvoll und berechtigt, DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="360"?> Thomas Bartz/ Nadja Radtke 360 entspricht allerdings nicht den Anforderungen vieler alltäglicher und professioneller Schreibszenarien, in denen Schreiber/ -innen geeignete Informationen selbst recherchieren müssen. Zudem wächst in einer zunehmend durch Digitalisierung und Digitalität geprägten Welt die Bedeutung von Kompetenzen, die sich auf den Umgang mit digitaler Technologie und deren Nutzung für die Gewinnung, Verarbeitung und Kommunikation von Informationen auf der einen sowie auf deren Organisation und Bewertung auf der anderen Seite beziehen (vgl. Beißwenger 2022; Gredel 2021). Da sich materialgestützte Schreibaufgaben im Deutschunterricht sinnvollerweise zudem thematisch häufig auf Fragestellungen zu Aspekten des Gebrauchs und der- Entwicklung der deutschen Sprache beziehen und digitale Textkorpora sowie darauf aufbauende webbasierte Informationssysteme inzwischen gut zugänglich und nutzbar sind, liegt es nahe, auch die Informationsgewinnung durch Recherchen und Analysen mithilfe dieser Ressourcen in die Hände der Schüler/ -innen zu legen. In diesem Beitrag greifen wir das im Deutschunterricht bislang noch wenig genutzte Potenzial einer Verknüpfung von Sprachreflexion mit der Recherche und Analyse authentischer Sprachdaten mithilfe digitaler Textkorpora auf und machen es für das materialgestützte Schreiben nutzbar. Dazu skizzieren wir im Folgenden didaktische Grundlagen und curriculare Vorgaben zum materialgestützten Schreiben (Abschn.-2.) und entwickeln einen Vorschlag zur Weiterentwicklung dieser Aufgabenart, die Möglichkeiten der Nutzung digitaler Textkorpora als Werkzeuge zur Informationsgewinnung beim materialgestützten Schreiben verdeutlicht und (anstelle eines Fazits) in konkrete Unterrichtsüberlegungen mündet (Abschn.-3.). 2. Materialgestütztes Schreiben-- Grundlagen und ein Vorschlag zur Weiterentwicklung 2.1 Materialgestütztes Schreiben als zeitgemäße, am Schreibprozess orientierte Aufgabenart Insbesondere die Entwicklung und Implementierung bundeseinheitlicher Bildungsstandards im Zuge des schlechten Abschneidens deutscher Schüler/ -innen bei internationalen Schulleistungsstudien hat eine Revision der Aufgabenarten für den Schreibunterricht ausgelöst, die eine stärkere Fokussierung auf den Schreibprozess zur Folge hat (vgl. Philipp 2017; Schüler 2017; Sieber 2005). Mit den Bildungsstandards für die Allgemeine Hochschulreife 2012 wurde schließlich Materialgestütztes Schreiben als neue Aufgabenart mit den beiden Aufgabenformaten Materialgestütztes Verfassen informierender Texte und Materialgestütztes Verfassen argumentierender Texte eingeführt (vgl. BiSta-D AHR 2012, S.- 24-26, S.- 28 f. und S.- 106-119). Auch die neuen Bildungsstandards für den Ersten und den Mittleren-Schulabschluss sehen beide Aufgabenformate vor (vgl. BiSta-D ESA-MSA 2022, S.-24 f.). <?page no="361"?> Nutzung digitaler Textkorpora und Analysewerkzeuge 361 Beim materialgestützten Schreiben (für einen Überblick vgl. Philipp 2017, auch: Schüler 2017; Feilke et al. 2016) haben Schüler/ -innen komplexe Anforderungen zu bewältigen, die zu einem großen Teil in der zielgerichteten Entnahme von und im weiteren Umgang mit den Informationen aus den zugrundeliegenden Materialien bestehen: Welche Informationen bieten die Materialien in Bezug auf Thema und Zielsetzung der Aufgabenstellung? Wie sind die Informationen aus den unterschiedlichen Materialien im Vergleich einzuordnen und zu gewichten? Sind die Informationen seriös, glaubwürdig und argumentativ belastbar? Welche Informationen stützen einander, welche widersprechen sich? In welchem Zuschnitt und in welcher Reihenfolge fließen diese Informationen in den zu verfassenden Text ein? Auf welche Weise wird in diesem Text erkennbar, woher die Informationen stammen? In der Fachdidaktik Deutsch wird das materialgestützte Schreiben inzwischen intensiv erforscht und in der für die Lehramtsausbildung einschlägigen Literatur behandelt (vgl. Franken 2021; Franken/ Pertzel 2021; Philipp 2017; Feilke et al. 2016; Pertzel/ Schütte 2015). Lehrkräfte finden zu dieser Aufgabenart eine Auswahl an Materialien in zunehmend großer Zahl und Varianz für die Jahrgangsstufen der Sekundarstufen-I und II vor, die sowohl viele mögliche Zieltextsorten (Erörterung, Kommentar, Rede, Essay, Wörterbuch- oder Sachbuchartikel, Zeitungs- oder Forschungsberichte etc.) als auch sämtliche Schritte (Lesen und Auswählen, Strukturieren und Verbinden von Informationen, Schreiben, Überarbeiten) des materialgestützten Schreibens abdecken (vgl. die Bände der Zeitschrift Praxis Deutsch: Abraham/ Baurmann/ Feilke 2015; Feilke/ Tophinke 2017; Abraham/ Kammler 2019; Feilke 2022; vgl. Diekhans/ Wölke 2021; Ellerich/ Gebhard/ Rühle 2021 und 2017; Mohr/ Wagener 2021). 2.2 Weiterentwicklung des materialgestützten Schreibens: die Perspektive der Informationsgewinnung Materialgestützte Schreibarrangements (zum Begriff „Schreibarrangement“ vgl. Steinhoff 2018) sind in den gängigen Unterrichtsmodellen bislang in der Regel so gestaltet, dass Schüler/ -innen mit der Aufgabenstellung eine bereits durch die Lehrkraft vorausgewählte Sammlung an Materialen mit den (meist abgedruckten) kontinuierlichen bzw. diskontinuierlichen 1 Texten oder Textauszügen erhalten. Im Schreibunterricht, in dem die Schüler/ -innen die für die Bewältigung des komplexen-materialgestützten Schreibprozesses notwendigen Teilkompetenzen erst erwerben müssen, ist diese Praxis auch mehr als berechtigt (vgl. Feilke et al. 2016). In vielen alltäglichen und insbesondere in professionellen Schreibszenarien können Schreiber/ -innen jedoch nicht auf vorgefertigte Materialien zurückgreifen, sondern 1 Unter ‚diskontinuierlichen Texten‘ verstehen wir Tabellen, Diagramme oder Grafiken, in denen Informationen im Zusammenspiel von Text (meist zentrale Begriffe, kein Fließtext) und Bild komprimiert dargestellt werden. <?page no="362"?> Thomas Bartz/ Nadja Radtke 362 müssen geeignete Informationen selbst recherchieren (vgl. Philipp 2015 und 2017). Dazu sind zusätzliche Kenntnisse und Fähigkeiten erforderlich. Schreiber/ -innen müssen nicht nur geeignete Informationsquellen sowie Suchstrategien und -werkzeuge kennen, mithilfe derer sie die für eine Schreibaufgabe benötigten Informationen gewinnen können. Sie müssen darüber hinaus auch in der Lage sein, zielgerichtete Suchanfragen zu formulieren und insbesondere die damit erzielten Ergebnisse hinsichtlich ihrer Zuverlässigkeit und ihres Wertes für die zu bearbeitende Schreibaufgabe zu beurteilen. Bezieht man diesen Aspekt der Informationsgewinnung beim materialgestützten Schreiben mit ein, wird deutlich, dass zum Anforderungsprofil dieser Aufgabenart neben umfassenden literalen Kompetenzen (vgl. Feilke 2011) auch weitreichende Informationsbzw. Datenkompetenzen gehören (vgl. Gredel 2021; Martin 2006; Mukherjee 2002). Letztere haben als Kompetenzziele auch und gerade für den Deutschunterricht insbesondere nach der Verabschiedung der KMK-Strategie „Bildung in der digitalen Welt“ (vgl. KMK 2017 und 2021) und deren Implementierung in den neuen Bildungsstandards u. a. für das Fach Deutsch (vgl. BiSta-D ESA-MSA 2022) zuletzt stark an Bedeutung gewonnen. Deshalb schlagen wir vor, die ursprünglich schreibdidaktische Aufgabenart des materialgestützten Schreibens so zu erweitern, dass es auch die Entwicklung von fachbezogenen Informations- und Datenkompetenzen einschließt. Dabei greifen wir die Empfehlung Feilkes (2022, S.- 5) auf, Themen des Faches Deutsch auch zu Themen des materialgestützten Schreibens im Deutschunterricht zu machen, und ermöglichen Schüler/ -innen im Rahmen von Lern- und Übungsaufgaben (vgl. Abraham/ Müller 2009; Leistungsbzw. Prüfungsaufgaben schätzen wir aktuell als schwer umsetzbar ein), ausgehend von einer Fragestellung aus dem Bereich der Sprachreflexion (z. B. zu Aspekten des Sprachwandels, sprachlicher Variation, sprachlich-kommunikativer Normen, sprachsystematischer Strukturen bzw. Zweifelsfällen) auf Basis angeleiteter und zunehmend selbstständiger Recherchen und Analysen mithilfe digitaler Textkorpora zur deutschen Sprache eigenständig die Informations- und Datengrundlage für das materialgestützte Schreiben zu erarbeiten. 3. Nutzung digitaler Textkorpora und Analysewerkzeuge beim materialgestützten Schreiben im Deutschunterricht: Konzept-- Ziele und Kompetenzen-- Anwendungsbeispiele 3.1 Verknüpfung von Sprachanalyse und -reflexion mithilfe digitaler Textkorpora Materialsammlungen zum materialgestützten Schreiben sind aktuell mit nahezu beliebigem Themenbezug erhältlich (siehe Auflistung unter 2.1). Ausschlaggebend ist dabei häufig die berechtigte Absicht, Schüler/ -innen durch interessante Themen zu- <?page no="363"?> Nutzung digitaler Textkorpora und Analysewerkzeuge 363 sätzlich zu motivieren oder fächerübergreifendes Lernen zu ermöglichen. Tatsächlich bietet aber auch der Lerngegenstand Sprache selbst hervorragende Anknüpfungspunkte sowohl für das materialgestützte Schreiben (vgl. Feilke 2022) als auch für die eigenständige Informationsrecherche und -analyse (vgl. Uhl 2020). Diese kann sich in materialgestützten Schreibprozessen zunächst niedrigschwellig z. B. auf das Nachschlagen bestimmter (Fremd-)Wortbedeutungen oder die Erarbeitung eines themenspezifischen (Fach-)Wortschatzes beziehen. Insbesondere ab Ende der Sekundarstufe-I und in der gymnasialen Oberstufe sind aber auch anspruchsvollere Schreibarrangements denkbar und wünschenswert, in denen die Schüler/ -innen eigenständig Fragestellungen zum Lerngegenstand Sprache bearbeiten und auch die Informationsgrundlage dazu durch Recherche und Analyse mithilfe digitaler Textkorpora selbst gewinnen (siehe 3.4; vgl. Uhl 2020; Nolting/ Radtke 2019; Bartz 2016; Bartz/ Radtke 2014). Ein in diesem Sinne forschendes, daten- und recherchegeleitetes Lernen mithilfe digitaler Ressourcen und Modelle ist im naturwissenschaftlichen Unterricht bereits etabliert (vgl. Uhl 2020). Hingegen scheinen vergleichbare Einsatzszenarien von digitalen Werkzeugen für das Lernen im Deutschunterricht noch kaum verbreitet zu sein, wenngleich inzwischen mächtige und gut nutzbare Ressourcen vorliegen (z. B. DWDS, vgl. Klein/ Geyken 2010; OWID, vgl. Müller-Spitzer 2014). 3.2 Digitale Textkorpora als Werkzeuge zur Informationsgewinnung: Potenzial für das materialgestützte Schreiben Digitale Textkorpora sind linguistisch aufbereitete digitale Textsammlungen, die als empirische Basis für die linguistische Forschung und die Lexikografie dienen. Eingebunden in sogenannte „lexikalische Systeme“ bzw. „Wort-“ oder „Wortschatz-Informationssysteme“ wie das an der Berlin-Brandenburgischen Akademie der Wissenschaften entwickelte „Digitale Wörterbuch der Deutschen Sprache“ (DWDS, vgl. Klein/ Geyken 2010) oder das „Online-Wortschatz-Informationssystem Deutsch“ (OWID, vgl. Müller-Spitzer 2014) des Leibniz-Instituts für Deutsche Sprache (IDS) in Mannheim, die jeweils über eine Web-Oberfläche für interessierte Nutzer/ -innen frei zugänglich sind, ermöglichen diese Ressourcen einen Zugang zu authentischen Sprachdaten und statistischen Analysewerkzeugen, die auch Lexikograph/ -innen und Sprachwissenschaftler/ -innen, die Aspekte des Sprachwandels, sprachlicher Variation, grammatische Strukturen oder Normvorstellungen in Bezug auf den Sprachgebrauch erforschen, für ihre Arbeit nutzen (vgl. Lemnitzer 2022). Verglichen mit Unterrichtsszenarien zur Sprachreflexion, bei denen Informationstexte und/ oder reine (Online-)Nachschlagewerke als Lehrbzw. Lernmaterialien zum Einsatz kommen, bieten digitale Textkorpora deutlich erweiterte Möglichkeiten für das eigenständige Erkunden und Verstehen von Sprachstrukturen, -normen und -regularitäten sowie Sprachgebrauch und Sprachentwicklung (vgl. Uhl 2020). Beispielsweise können <?page no="364"?> Thomas Bartz/ Nadja Radtke 364 Abb.-1: Stichwort „Schallplatte“, bereitgestellt durch das Digitale Wörterbuch der deutschen Sprache, www.dwds.de/ wb/ Schallplatte (Stand: 11.3.2023) <?page no="365"?> Nutzung digitaler Textkorpora und Analysewerkzeuge 365 durch Korpusabfragen Listen mit Belegen zu authentischen Verwendungen von Wörtern in ihren textuellen Kontexten erzeugt werden. Metadaten geben Aufschluss über charakteristische Verwendungsbereiche (z. B. Textsorten) und -zeiträume, wodurch Rückschlüsse auf Verwendungspräferenzen und Entwicklungstendenzen über die Zeit möglich werden. Statistische Analysewerkzeuge wie sog. „Wortverkaufskurven“ oder Kookkurrenzprofile, die Kombinationen eines Wortes mit gebräuchlichen Kookkurenzpartnern visualisieren, machen auffällige Zusammenhänge und Entwicklungen anschaulich (vgl. Lemnitzer 2022; siehe Abb.-1 sowie die Abb.-3 und 4 in Abschn.- 3.4). Einige der Möglichkeiten, die sich durch die Nutzung digitaler Sprachkorpora für die Sprachreflexion im Deutschunterricht ergeben, sind in Beißwenger/ Storrer (2011) und Bartz/ Radtke (2014) exemplarisch illustriert (vgl. außerdem Nolting/ Radtke 2019 und Bartz 2016). Digitale Textkorpora und Analysewerkzeuge stellen aber auch an sich einen exemplarischen Lerngegenstand dar, an dem insbesondere Urteilsfähigkeiten in Bezug auf Qualität, Adäquatheit und Relevanz der genutzten Werkzeuge, Suchabfragen und erzielten Ergebnisse erworben werden können (vgl. Gredel 2021; Martin 2006; Mukherjee 2002). Eine wichtige Quelle für unbefriedigende Suchergebnisse oder Fehlinterpretationen beim forschenden Lernen mit digitalen Korpora besteht beispielsweise in der „semantischen Blindheit“ (Storrer 2011) der meisten automatischen Verfahren, mit denen die Korpora ausgewertet werden. Suchergebnisse kritisch hinterfragen und ihr Zustandekommen nachvollziehen sowie daraufhin Suchabfragen optimieren zu können, gehört zu den wichtigen Fähigkeiten im Umgang mit digitalen Korpora, die angelehnt an das Literalitätskonzept auch unter dem Begriff „Corpus Literacy“ zusammengefasst werden (vgl. Gredel 2021; Martin 2006; Mukherjee 2002). Corpus Literacy wiederum umfasst viele der Kenntnisse und Fähigkeiten, auf die auch die oben bereits genannte KMK-Strategie „Bildung in der digitalen Welt“ als Aspekte einer im Rahmen der Schullaufbahn zu erwerbenden „Data Literacy“ Bezug nimmt (vgl. KMK 2017 und 2021; vgl. Beißwenger 2022). 3.3 Kompetenzziele in Bildungsstandards und Lehrplänen: Anforderungsbereiche, Operatoren und mögliche Progressionspfade Das materialgestützte Schreiben mit seinen beiden Aufgabenformaten wird als Aufgabenart in den Bildungsstandards Deutsch für die Allgemeine Hochschulreife (BiSta-D AHR 2012, S.-25 f.) als Prüfungsaufgabe genau definiert: Das materialgestützte Verfassen informierender Texte [H. d. V.] besteht im Kern darin, Leser über einen Sachverhalt so zu informieren […], dass sie eine Vorstellung über seine wesentlichen Aspekte entwickeln können. Dabei nutzen die Prüflinge die vorgegebenen Materialien-- auch Tabellen, Grafiken, Diagramme-- ebenso wie eigene Wissensbestände. Der zu erstellende Text soll den jeweiligen Sachverhalt adressatenbezogen, zielorientiert und in kohärenter Weise darlegen […]. <?page no="366"?> Thomas Bartz/ Nadja Radtke 366 Das materialgestützte Verfassen argumentierender Texte [H. d. V.] besteht im Kern darin, zu strittigen oder erklärungsbedürftigen Fragen, Sachverhalten und Texten differenzierte Argumentationen zu entwickeln und diese strukturiert zu entfalten […]. Dabei nutzen die Schülerinnen und Schüler die vorgegebenen Materialien und die Ergebnisse eigener Analysen, Vergleiche und Untersuchungen ebenso wie eigene Wissensbestände und geeignete Argumentationsstrategien. Der dabei entstehende Text soll die Kontroverse sowie die Argumentation und die vom Prüfling eingenommene Position für den Adressaten des Textes nachvollziehbar machen […]. Durch das Erlernen des materialgestützten Schreibens sollen Schüler/ -innen gemäß den Bildungsstandards einerseits in den prozessbezogenen Kompetenzbereichen Schreiben und Lesen sowie andererseits in den domänenspezifischen Kompetenzbereichen Sich mit Texten und (anderen) Medien auseinandersetzen sowie Sprache und Sprachgebrauch untersuchen bzw. reflektieren gefördert werden (vgl. BiSta-D AHR 2012; BiSta-D ESA-MSA 2022). Dabei werden folgende Kompetenzziele angestrebt: - Im Bereich Schreiben die Kompetenzen, „Aufgabenstellungen in […] Schreibziele und Schreibpläne [zu] überführen“, „Texte […] [zu] strukturieren“, „aus selbst recherchierten Informationsquellen Relevantes […] aus[zu]wählen und […] auf[zu]bereiten“ sowie „korrekt [zu] zitieren“ (BiSta-D AHR 2012, S.-16). - Im Bereich Lesen die Kompetenzen, „aus […] Aufgabenstellungen […] Leseziele ab[zu]leiten und diese für die Textrezeption [zu] nutzen“, „die Qualität von Textinformationen […] [zu] prüfen und [zu] beurteilen“ sowie „Fach- und Weltwissen […] ein[zu]setzen, um das Textverständnis zu vertiefen und die Relevanz […] einzuschätzen“ (BiSta-D AHR 2012, S.-18). - Im Bereich Sich mit Texten und (anderen) Medien auseinandersetzen die Kompetenzen, „den inhaltlichen Zusammenhang voraussetzungsreicher Texte […] [zu] sichern und diese Texte […] präzise und sachgerecht zusammen[zu]fassen“, „Zusammenhänge zu […] Texten her[zu]stellen“ sowie „Texte […] [zu] vergleichen“ (BiSta-D AHR 2012, S.-19). - Im Bereich Sprache und Sprachgebrauch untersuchen bzw. reflektieren die Kompetenzen, „auf der Grundlage sprachkritischer Texte Entwicklungstendenzen der Gegenwartssprache [zu] beschreiben und [zu] bewerten“ (BiSta-D AHR 2012, S.- 21) sowie „Wörterbücher, Grammatiken, digitale Rechtschreibhilfen und Informationsangebote zum Deutschen […] [zu nutzen]“ (BiSta-D ESA-MSA 2022, S.-41). Insbesondere letztere Kompetenzbereiche gewinnen durch unseren Vorschlag, materialgestütztes Schreiben und korpusgestützte Recherche und Analyse zu verbinden, zusätzlich an Gewicht. Dabei legen die Zielsetzungen der KMK-Strategie „Bildung in der digitalen Welt“, die in der Neufassung der Bildungsstandards Deutsch für den Ersten und Mittleren Schulabschluss (BiSta-D ESA-MSA 2022) bereits berücksichtigt sind, diese Schwerpunktsetzung nahe. Der Kompetenzbereich Sprache <?page no="367"?> Nutzung digitaler Textkorpora und Analysewerkzeuge 367 und Sprachgebrauch untersuchen umfasst nun auch explizit Kompetenzziele „für den reflektierten Umgang mit digitalen Ressourcen zur deutschen Sprache“ (BiSta-D ESA-MSA 2022, S.-37), die als „Grundlage für die Weiterentwicklung der Sprachbewusstheit, für die Produktion, Erschließung und Analyse von Texten und Medien und für die Planung mündlicher Präsentationen“ dienen sollen. Dies gilt ebenso für die Zielsetzung „Schülerinnen und Schüler […] nutzen Informationsquellen gezielt und angemessen, insbesondere […] (digitale) Ressourcen zur deutschen Sprache“ (BiSta-D ESA-MSA 2022, S.-24) im Kompetenzbereich Schreiben. Unterrichtspraktisch und hinsichtlich der breitgestreuten Kompetenzziele der einzelnen Kompetenzbereiche (vgl. dazu BiSta-D ESA-MSA 2022, S.-20-41) soll das materialgestützte Schreiben unter Berücksichtigung seiner einzelnen Bausteine (wie z. B. den Inhalt eines Textes wiedergeben oder ein Diagramm auswerten, siehe unten) im Laufe der Sekundarstufe-I erlernt und geübt werden, damit die Schüler/ -innen zum Ende der Sekundarstufe-I die komplexen Anforderungen dieser Aufgabenart bewältigen können. Aufgrund ihrer Anforderungen ist die Aufgabenart geeignet, alle drei in den Bildungsstandards formulierten, gestaffelten Anforderungsbereiche (AFB I: Wiedergeben, Beschreiben, Anwenden; AFB 2: Verarbeiten, Erklären, Übertragen; AFB 3: Begründen, Verallgemeinern, Reflektieren, Werten; vgl. BiSta-D AHR 2012, S.- 22) abzudecken. Mithilfe passender Operatoren (vgl. Feilke/ Rezat 2019) lassen sich materialgestützte Schreibaufgaben in Teilprozesse zerlegen und hinsichtlich verschiedener Anforderungsniveaus differenzieren. Dadurch können Schüler/ -innen über die Jahrgangsstufen hinweg schrittweise an die komplexen Aufgabenformate des materialgestützten Schreibens herangeführt werden. Der Weg zum Verfassen materialgestützter informierender oder argumentativer Texte führt über das Nennen (AFB I), Skizieren (AFB I-II), Wiedergeben (AFB I) und Zusammenfassen (AFB I-II), über das Auswerten (AFB II), Darstellen (AFB I-II), Ein- und Zuordnen (AFB I-II), Erläutern (AFB II-III), Herausarbeiten (AFB II), In-Beziehung-Setzen (AFB II-III), Vergleichen und Gegenüberstellen (AFB II-III), Bewerten und Stellungnehmen (AFB II-III), Diskutieren und Auseinandersetzen (AFB II-III) sowie Erörtern (AFB I-III; vgl. Operatoren Hessen 2023; Operatoren NRW 2023). Mögliche Progressionspfade der Förderung von Teilkompetenzen für das materialgestützte Schreiben lassen sich den jeweiligen Richtlinien und Lehrplänen der Bundesländer entnehmen, die auch Kompetenzziele je (Doppel-)Jahrgangsstufe ausweisen. Die Grafik in Abbildung-2 stellt eine mögliche Progression in der Sekundarstufe-I überblicksartig dar und bezieht sich exemplarisch auf die (Kern-)Lehrpläne Deutsch für das Gymnasium in Hessen (Lehrplan Hessen G8 2010, Lehrplan Hessen G9 2010) und für die Gesamtschule in Nordrhein-Westfalen (Lehrplan NRW Sek I 2022). Erst die Richtlinien und Lehrpläne für die Sekundarstufe- II erwähnen das materialgestützte Schreiben explizit und mit thematischem Bezug (im Lehrplan Hessen GO 2022, S.- 31, 40 f.: Thema E1: Norm und Positionierung im Themenfeld E1.3: Positionen- und Argumente bzw. Thema Q2: Sprache und Literatur in politisch-gesellschaft- <?page no="368"?> Thomas Bartz/ Nadja Radtke 368 lichen- Spannungsfeldern in Themenfeld Q2.1: Sprache und Öffentlichkeit; im Lehrplan NRW Sek- II 2023, S.- 16, 21, 27, 36: Inhaltsfeld Texte bzw. Hinweise zur schriftlichen Abiturprüfung). Abb.-2: Progressionspfade zum materialgestützten Informieren und Argumentieren nach Lehrplan Hessen G8 und G9 (2010) sowie Lehrplan NRW Sek-I (2022) mit Anknüpfungspunkten für die Arbeit mit digitalen Textkorpora <?page no="369"?> Nutzung digitaler Textkorpora und Analysewerkzeuge 369 3.4 Unterrichtspraktische Anwendungsbeispiele Wie sich das didaktische Potenzial der Sprachanalyse und -reflexion mithilfe digitaler Textkorpora in konkreten Unterrichtsszenarien für die Implementierung authentischer materialgestützter Schreibarrangements nutzen lässt, wird im Folgenden an einem Unterrichtsvorschlag für die Unterstufe exemplarisch dargestellt. Abschließend werden auch für die Oberstufe Anwendungsmöglichkeiten mit Bezug zu den curricularen Vorgaben skizziert. 3.4.1 Jahrgangsstufen 5-6: Technologischen Fortschritt nachverfolgen, Sprachentwicklung beobachten Der folgende Unterrichtsvorschlag ist für die Jahrgansstufen 5-6 gedacht. Die Einheit knüpft an verbindliche Unterrichtsinhalte der Jahrgansstufen an, ist von geringem zeitlichem Umfang und legt ihren Fokus auf die ersten grundlegenden Bausteine des materialgestützten Schreibens (siehe 3.3). Die Schüler/ -innen geben die Inhalte der vorgelegten Sachtexte wieder und arbeiten mit sprachlichen Daten. In Hinblick auf die Vorkenntnisse der Schüler/ -innen wird davon ausgegangen, dass die Lernenden zuvor mit Sachtexten gearbeitet haben, indem sie kurze Texte bzw. Textausschnitte gelesen, auf ihre Struktur (auf die Überschrift und die Einteilung der Texte in Absätze) geachtet und in Texten Schlüsselwörter markiert haben, sodass sie das Thema der Texte nennen, ihre thematischen Abschnitte erkennen und Texte wiedergeben können. Im didaktischen Zentrum der Einheit stehen die Situation, in der die Schüler/ -innen mit ausgewählten Wörtern konfrontiert werden, die für sie unbekannt bzw. nicht geläufig sind, sowie die Erkenntnis darüber, dass das Vorkommen der Wörter und ihre Verwendung davon abhängen, ob und in welcher Weise die Gegenstände, die sie bezeichnen, gebräuchlich sind ( zentrales Lernziel ). Das wird dadurch erreicht, dass sich die Schüler/ -innen über die Gegenstände informieren und mithilfe digitaler Textkorpora und Analysewerkzeuge auch sprachliche Daten untersuchen und die erhaltenen Informationen auswerten. Somit dient die Einheit der Erweiterung der Kompetenzen im Kompetenzbereich Sprache und Sprachgebrauch untersuchen und reflektieren sowie darüber hinaus zur Erweiterung der Kompetenzen für die digitale Welt (Suchen, Verarbeiten und Aufbewahren; vgl. BiSta-D AHR 2012; BiSta-D ESA-MSA 2022; KMK 2017, 2021). Die benötigten Materialien (Textausschnitte) können den Schüler/ -innen als Ausdruck vorgelegt oder auch über die Verlinkung verfügbar gemacht werden. Letzteres bietet sich hierbei besonders an, da die Schüler/ -innen bei der Bearbeitung der Aufgabe die Recherche im DWDS ohnehin an digitalen Endgeräten vornehmen. Bevor Schüler/ -innen mit der Bearbeitung der Aufgabe beginnen, werden ihnen als Einstieg zwei Bilder gezeigt, die sie anregen sollten, sich im Plenum darüber auszutauschen, was sie auf den Bildern sehen (Gegenstände, Hinweise auf die Zeit), sodass die zu untersuchenden Wörter (Nomen) und der Wortschatz in den Vordergrund rücken. Im Laufe bzw. <?page no="370"?> Thomas Bartz/ Nadja Radtke 370 am Ende der Unterrichtseinheit kann ein Austausch stattfinden, welche Geräte Schüler/ -innen heutzutage nutzen, um z. B. Musik oder Hörbücher zu hören. Weißt du, was ein Phonograph ist? Thema der Unterrichtseinheit : Fortschritte in der Technologie nachverfolgen und dabei die Entwicklung der Sprache beobachten (vom Phonographen und Grammophon zum Plattenspieler und über den Kassettenrecorder und CD-Player bis hin zum iPod und Smartphone) Jahrgangsstufe : 5.-6.-Klasse Zeitlicher Umfang: zwei bis drei Doppelstunden Mögliche Anknüpfungen an die Unterrichtsinhalte : Wortschatz, Wortarten (Nomen) und Satzglieder Fächerübergreifend : Geschichte und Physik Aufgabenart des materialgestützten Schreibens : informierend Zieltext : Informationstext für einen Aktionstag: Unsere Sprachen Technische Ausstattung : Digitales Endgerät (idealerweise PC oder Tablet) mit Zugang zum Internet Digitale Ressourcen : Digitales Wörterbuch der deutschen Sprache (DWDS: www.dwds.de/ ) Einstieg: Bilder von einem Phonographen und einem Grammophon 2 Aufgabe : In unserer Schule findet ein Aktionstag „Unsere Sprachen“ statt, an dem sich Schüler/ -innen gegenseitig über ihre Sprachen, über die Sprachenvielfalt und über die Entwicklung der deutschen Sprache informieren. Verfasse dafür einen Informationstext über die Geschichte von Abspielgeräten wie iPod, CD- Player und Co. sowie über die Geschichte der Wörter in der Sprache, die wir benutzen, um darüber zu sprechen. Erschließe aus den Materialien die Informationen, die für dein Thema wichtig sind. Untersuche unbekannte Wörter mithilfe des Digitalen Wörterbuchs der deutschen Sprache (DWDS). Die Materialen können aus den folgenden Quellen entnommen werden und dem Lernstand der Schüler/ -innen entsprechend aufbereitet werden. M1: Der Edison-Phonograph Quelle: https: / / physikforkids.de/ wiewas/ musik/ was-ist-ein-phonograph/ (Stand: 9.3.2023). M2: Das Grammophon Quelle: https: / / physikforkids.de/ wiewas/ musik/ wie-funktioniert-ein-grammophon (Stand: 9.3.2023). 2 Hierfür eignen sich z. B. die Abbildungen unter: https: / / pixabay.com/ images/ id-1679813/ und https: / / pixabay.com/ images/ id-2786526/ (Stand: 9.7.2023). <?page no="371"?> Nutzung digitaler Textkorpora und Analysewerkzeuge 371 M3: Wie funktioniert ein Plattenspieler? Quelle: https: / / physikforkids.de/ wiewas/ musik/ wie-funktioniert-ein-plattenspieler (Stand: 9.3.2023). M4: Die Schallplatte Quelle: www.planet-wissen.de/ kultur/ musik/ geschichte_der_tontraeger/ pwiedieschall platte100.html (Stand: 9.3.2023). M5: Schallplatte Quelle: https: / / klexikon.zum.de/ wiki/ Schallplatte (Stand: 9.3.2023). Die Recherche im DWDS sollte zunächst durch die Lehrkraft eingeführt und schrittweise begleitet werden. Die Recherche könnte damit beginnen, dass Schüler/ -innen im DWDS-Wörterbuch (siehe 3.2) die Wörter Phonograph, Grammophon und Plattenspieler nachschlagen, sich dabei in Hinblick auf die Bedeutung der Wörter vergewissern und u. a. auf weitere Informationen stoßen, z. B. dass die Wörter Phonograph und Grammophon mit den Angaben „historisch/ veraltend“ aufgeführt werden. Im Weiteren können die Wortverlaufskurven (siehe 3.2) für die einzelnen Wörter in Hinblick auf Zeit und u. a. unter Berücksichtigung verschiedener Textsorten bzw. im Vergleich gemeinsam mit Schüler/ -innen erzeugt und ausgewertet werden, wobei die Schüler/ -innen Stichwortzettel anlegen, die sie später beim Verfassen des Informationstexts benutzen können. Abbildung- 3 zeigt die Verlaufskurven für Phonograph, Grammophon und Plattenspieler in Referenz- und Zeitungskorpora im Zeitraum 1600 bis 2018 ohne Einteilung in unterschiedliche Textsorten. Abb.-3: DWDS-Wortverlaufskurve für Phonograph, Grammophon und Plattenspieler, erstellt durch das Digitale Wörterbuch der deutschen Sprache, www.dwds.de/ r/ plot (Stand: 9.3.2023) <?page no="372"?> Thomas Bartz/ Nadja Radtke 372 Interessant ist ebenfalls das Vorkommen und die Entwicklung der Wörter in Wortverbindungen, insbesondere in Hinblick auf Wortgruppen und Satzglieder als Thema der Jahrgangsstufe 5-6. Hierbei kann das DWDS-Wortprofil (siehe 3.2) benutzt werden, um Fragen wie Was kann man mit einem Grammophon/ einer Schallplatte machen? nachzugehen und zu typischen Prädikaten zu Akkusativobjekten wie das Grammophon anstellen, eine Schallplatte auflegen, oder Schallplatten einspielen zu gelangen (siehe Abb.-4). Abb.-4: DWDS-Wortprofil für Schallplatte, erstellt durch das Digitale Wörterbuch der deutschen Sprache, www.dwds.de/ wp/ Schallplatte (Stand: 9.3.2023) 3.4.2 Oberstufe: Sprachkritische Standpunkte durch eigene Recherche überprüfen sowie argumentativ stützen oder entkräften In der Oberstufe, in der das materialgestützte Schreiben als Aufgabenart vorausgesetzt wird (siehe Abschn.- 3.3), können die Recherchen und Analysen anhand der oben vorgestellten digitalen Ressourcen gezielt und zunehmend selbstständig von Schüler/ -innen fortgesetzt werden. Dazu eignet sich z. B. die schon in Ellerich/ Gebhard/ Rühle (2021, S.- 70-74) angedachte Aufgabenstellung, für einen Vortrag zum Thema „Anglizismen in der deutschen Sprache“ ein Redemanuskript zu verfas- <?page no="373"?> Nutzung digitaler Textkorpora und Analysewerkzeuge 373 sen und zu der Frage, wie „in der deutschen Sprache mit Fremdwörtern umgegangen werden sollte“, Stellung zu nehmen. Ihre Argumente untermauern die Schüler/ -innen dabei durch eigene Auswertungen (z. B. Gegenüberstellung der Kompositabildung mit ‚einheimischen‘ Wörtern und mit Anglizismen bzw. der Vergleich ihrer Verwendung mit typischen Adjektiven), die sie in digitalen Textkorpora des DWDS mithilfe der ausgewählten Analysewerkzeuge ermitteln. Hierzu finden sich in Bartz/ Radtke (2014, S.-136-139) illustrative Beispiele und weitere Hinweise. Literatur Abraham, Ulf/ Kammler, Clemens (2019): Materialgestützter Literaturunterricht. In: Praxis Deutsch-273. Abraham, Ulf/ Müller, Astrid (2009): Aus Leistungsaufgaben lernen. In: Praxis Deutsch-36,-214, S.-4-12. Abraham, Ulf/ Baurmann, Jürgen/ Feilke, Helmuth (2015): Materialgestütztes Schreiben. In: Praxis Deutsch-42,-251, S.-4-12. Bartz, Thomas (2016): Digitale Sprachressourcen im Deutschunterricht: Korpus-basierte Recherche und Analyse in der „Wörterbuchwerkstatt“. In: Chudak, Sebastian/ Drumbl, Hans/ Nardi, Antonella/ Zanin, Renata (Hg.): Medien in Kommunikation und Unterricht. Bd.-6: Sektionen F2, F3, F4. (=-IDT 2013 6). Bozen: bu,press, S.-237-248. Bartz, Thomas/ Radtke, Nadja (2014): Digitale Korpora im Deutschunterricht: Didaktisches Potenzial. In: Zeitschrift für Germanistische Linguistik-42,-1, S.-130-143. Baurmann, Jürgen (2019): Schreiben in der Schule. In: Kämper-van den Boogaart, Michael (Hg.): Deutsch-Didaktik. Praxishandbuch für die Sekundarstufe- I und II. 7.- Aufl. Berlin: Cornelsen, S.-235-246. Becker-Mrotzek, Michael/ Böttcher, Ingrid (2020): Schreibkompetenz entwickeln und beurteilen. 9.-Aufl. (=-Scriptor Praxis/ Sekundarstufe-I + II). Berlin: Cornelsen. Beißwenger, Michael (2022): Digitalität und Sprachreflexion. In: Knopf, Julia/ Mergen, Torsten/ Müller, Ann-Kristin (Hg.): Digitalität und Deutschunterricht. (=- Mitteilungen des Deutschen Germanistenverbandes-69.4), S.-441-455. Beißwenger, Michael/ Storrer, Angelika (2011): Digitale Sprachressourcen in Lehramtsstudiengängen: Kompetenzen-- Erfahrungen-- Desiderate. In: Journal for Language Technology and Computational Linguistics ( JLCL)-26,-1, S.-119-139. Bereiter, Carl (1980): Development in writing. In: Gregg, Lee W./ Steinberg, Erwin R. (Hg.): Cognitive processes in writing. Hillsdale, NJ: Erlbaum, S.-73-93. BiSta-D AHR (2012)-= Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (Hg.) (2012): Bildungsstandards im Fach Deutsch für die Allgemeine Hochschulreife. (Beschluss der Kultusministerkonferenz vom 18.10.2012). Köln: Link. BiSta-D ESA-MSA (2022)-= Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (Hg.) (2022): Bildungsstandards für das Fach Deutsch. Erster Schulabschluss (ESA) und Mittlerer Schulabschluss (MSA). (Beschluss der Kultusministerkonferenz vom 15.10.2004 und vom 04.12.2003, i. d. F. vom 23.6.2022). www. <?page no="374"?> Thomas Bartz/ Nadja Radtke 374 kmk.org/ fileadmin/ Dateien/ veroeffentlichungen_beschluesse/ 2022/ 2022_06_23-Bista- ESA-MSA-Deutsch.pdf (Stand: 4.5.2023). Diekhans, Johannes/ Wölke, Alexandra (2021): Materialgestütztes Schreiben. Sekundarstufe-II. (=-EinFach Deutsch. Unterrichtsmodell). Braunschweig: Westermann. Ellerich, Christel/ Gebhard, Lilli/ Rühle, Christian (2017): Rund um materialgestütztes Schreiben. Kopiervorlagen für den Deutschunterricht. Berlin: Cornelsen. Ellerich, Christel/ Gebhard, Lilli/ Rühle, Christian (): Rund um materialgestütztes Schreiben. Kopiervorlagen für den Unterricht in der Oberstufe. Berlin: Cornelsen. Feilke, Helmuth (2011): Literalität und literale Kompetenz: Kultur, Handlung, Struktur. In: leseforum.ch-1, S.-1-18. Feilke, Helmuth/ Lehnen, Katrin/ Rezat, Sara/ Steinmetz, Michael (2016): Materialgestütztes Schreiben lernen. Grundlagen, Aufgaben, Materialien. Sekundarstufe- I und II. Braunschweig: Schroedel/ Westermann. Feilke, Helmuth/ Tophinke, Doris (2017): Materialgestütztes Argumentieren. In: Praxis Deutsch-44, 262. Feilke, Helmuth/ Rezat, Sara (2019): Operatoren „to go“. Prozedurenorientierter Schreibunterricht. In: Praxis Deutsch-46, 274, S.-4-13. Feilke, Helmuth (2022): Materialgestütztes Informieren. In: Praxis Deutsch 294, 49, S.-4-11. Franken, Anna Ulrike (2021): Lesen und Schreiben verbinden: Materialgestütztes Schreiben. Warum einfaches Durchlesen nicht ausreicht. In: Praxis Deutschunterricht-74,-5. Franken, Anna U./ Pertzel, Eva (2021): Materialgestütztes Schreiben. Schwerpunkt: Texte lesen und aufbereiten. In: Praxis Deutschunterricht-74,-5. Gredel, Eva (2021): CMC-Korpora und Digital Literacy in der Fremdsprachendidaktik: Relevanz, Potentiale und didaktische Szenarien. In: Zeitschrift für Interkulturellen Fremdsprachunterricht (ZIF)-26,-1, S.-109-135. Hayes, John R. (2012): Modeling and remodeling writing. In: Written Communication- 29,- 3, S.-369-388. Klein , Wolfgang/ Geyken, Alexander (2010): Das Digitale Wörterbuch der Deutschen Sprache (DWDS). In: Lexikographica-26, S.-79-96. KMK (2017)-= Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (Hg.) (2017): Strategie der Kultusministerkonferenz „Bildung in- der digitalen Welt“. Beschluss der Kultusministerkonferenz vom 08.12.2016, in der Fassung vom 07.12.2017. https: / / www.kmk.org/ fileadmin/ pdf/ PresseUndAktuelles/ 2018/ Digitalstrategie_2017_mit_Weiterbildung.pdf (Stand: 4.5.2023). KMK (2021)- = Sekretariat der Kultusministerkonferenz (Hg.) (2021): Lehren und Lernen in der-digitalen Welt. Ergänzung zur Strategie der Kultusministerkonferenz „Bildung in der digitalen Welt“ (Beschluss der Kultusministerkonferenz vom 9.12.2021). www.kmk.org/ fileadmin/ veroeffentlichungen_beschluesse/ 2021/ 2021_12_09-Lehren-und-Lernen-Digi. pdf (Stand: 4.5.2023). Lehrplan Hessen G8 (2010)-= Hessisches Kultusministerium (Hg.) (2010): Lehrplan. Deutsch. Gymnasialer Bildungsgang. Jahrgangsstufen 5G bis 9G, 2010. <?page no="375"?> Nutzung digitaler Textkorpora und Analysewerkzeuge 375 Lehrplan Hessen G9 (2010)-= Hessisches Kultusministerium (Hg.) (2010): Lehrplan. Deutsch. Gymnasialer Bildungsgang. Jahrgangsstufen- 5 bis 13, 2010. Wiesbaden: Hessisches Kultusministerium. Lehrplan Hessen GO (2022)- = Hessisches Kultusministerium (Hg.) (2022): Kerncurriculum gymnasiale Oberstufe. Bildungsland Hessen. Deutsch, Stand: August 2022. https: / / kultus ministerium.hessen.de/ sites/ kultusministerium.hessen.de/ files/ 2022-09/ kcgo_deutsch_ stand_august_2022.pdf (Stand: 4.5.2023). Lehrplan NRW Sek- I (2022)- = Ministerium für Schule und Bildung des Landes Nordrhein- Westfalen (Hg.) (2022): Kernlehrplan für die Sekundarstufe- I. Gesamtschule/ Sekundarschule in Nordrhein-Westfalen. Deutsch. 2022. Düsseldorf: Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen. Lehrplan NRW Sek- II (2023)- = Ministerium für Schule und Bildung des Landes Nordrhein- Westfalen (Hg.): Kernlehrplan für die Sekundarstufe- II. Gymnasium/ Gesamtschule in Nordrhein-Westfalen. Deutsch. Entwurf Verbändebeteiligung 2023. (=- Schule in NRW 4701). Düsseldorf: Ministerium für Schule und Weiterbildung des Landes Nordrhein- Westfalen. Lemnitzer, Lothar (2022): Korpora geschriebener Sprache. In: Beißwenger, Michael/ Lemnitzer, Lothar/ Müller-Spitzer, Carolin (Hg.): Forschen in der Linguistik. Eine Methodeneinführung für das Germanistik-Studium. (=-UTB 5711). Paderborn: Brill | Fink, S.-411-420. Martin, Allan (2006): Literacies for the digital age: Preview of Part-1. In: Martin, Allan/ Madigan, Dan (Hg.): Digital Literacy for learning. London: Facet Publishing, S.-3-25. Mohr, Deborah/ Wagener, Andrea (Hg.) (2021): Umgang mit Sachtexten: Analyse, Erörterung, materialgestütztes Schreiben. Arbeitsheft mit Lösungen. (=-Texte, Themen und Strukturen. Deutschbuch für die Oberstufe.) Berlin: Cornelsen. Mukherjee, Joybrato (2002): Korpuslinguistik und Englischunterricht. Eine Einführung. (=-Sprache im Kontext-14). Frankfurt a. M.: Lang. Müller-Spitzer, Carolin (2014): Das Online-Wortschatz-Informationssystem Deutsch-OWID. Ansichten und Einsichten. In: Institut für Deutsche Sprache (Hg.): 50- Jahre Institut für Deutsche Sprache. Mannheim: Institut für Deutsche Sprache, S.-347-359. Nolting, Antje/ Radtke, Nadja (2019): Korpusbasierte Lexikografie. Nutzung von Korpora und Analysewerkzeugen im Unterricht für Deutsch als Muttersprache und Fremdsprache. In: Zeitschrift für Interkulturellen Fremdsprachenunterricht-24,-1, S.-107-126. Operatoren Hessen (2023)-= Hessisches Kultusministerium (Hg.) (2023): Landesabitur 2023. Operatoren in den Fächern Deutsch, Musik, Sport und in den Fächern des Fachbereiches- II. Stand: 1.- August 2022. https: / / kultusministerium.hessen.de/ sites/ kultus ministerium.hessen.de/ files/ 2022-09/ la23-operatoren-deutsch-musik-sport-fbii.pdf (Stand: 8.5.2023). Operatoren NRW (2023)- = Ministerium für Schule und Bildung des Landes Nordrhein- Westfalen (Hg.) (2023): Deutsch. Übersicht über die Operatoren, gültig ab dem Abitur 2023. www.standardsicherung.schulministerium.nrw.de/ cms/ zentralabitur-gost/ faecher/ getfile.php? file=5330 (Stand: 8.5.2023). Ortner, Hanspeter (2000): Schreiben und Denken. (=- Reihe Germanistische Linguistik- 214). Tübingen: Niemeyer. <?page no="376"?> Thomas Bartz/ Nadja Radtke 376 Pertzel, Eva/ Schütte, Anna U. (2015): Materialgestütztes informierendes Schreiben. (=-Deutschunterricht-68.1). Braunschweig: Westermann, S.-5-10. Philipp, Maik (2015): Schreibkompetenz. Komponenten, Sozialisation und Förderung. (=-UTB 4458). Tübingen: Francke. Philipp, Maik (2017): Materialgestütztes Schreiben. Anforderungen, Grundlagen, Vermittlung. Weinheim/ Basel: Beltz Juventa. Schüler, Lisa (2017): Untersuchungen zu einem neuen wissenschaftspropädeutischen Aufgabentyp in der Oberstufe. (=-Thema Sprache-- Wissenschaft für den Unterricht-25). Baltmannsweiler: Schneider Verlag Hohengehren. Steets, Angelika (2020): Schreiben. In: Beste, Gisela (Hg.): Deutsch Methodik. Handbuch für die Sekundarstufe-I und II. Berlin: Cornelsen, S.-48-91. Steinhoff, Torsten (2018): Schreibarrangements. Impulse für einen lernförderlichen Schreibunterricht. In: Der Deutschunterricht-70, 3, S.-2-10. Storrer, Angelika (2011): Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In: Knapp, Karlfried (Hg.): Angewandte Linguistik. Ein Lehrbuch. 3., vollst. überarb. u. erw. Aufl. (=-UTB 8275). Tübingen/ Basel: Francke, S.-216-239. Uhl, Benjamin (2020): Forschendes Lernen mit digitalen Medien. In: Der Deutschunterricht 72, 6, S.-6-10. <?page no="377"?> EVA BREINDL KOORDINATION-- (K)EIN LERNPROBLEM FÜR DAF? Abstracts : Der Beitrag zeigt an einer Auswertung von Lernerkorpora und DaF-didaktischen Materialien, dass Koordination als Lerngegenstand unterschätzt wird. In einer Pseudolongitudinalstudie am Lernerkorpus MERLIN lassen sich die Entwicklungen koordinativer Strukturen vom Niveau B1 über B2 bis C1 zeigen. Im Vergleich mit L1-Texten weisen selbst Lerner auf C1-Niveau noch einen erheblichen Mindergebrauch komplexerer Koordinationsstrukturen auf. This analysis of learner corpora and teaching materials shows that Coordination contrary to common estimation is difficult for learners of German. By analysing coordinative constructions on levels B1, B2 and C2 in the learner corpus MERLIN there can be shown underuse of more complex coordinative constructions by learners of all levels. Keywords : DaF, Koordination, Lernerkorpus, Komplexität, Zweitspracherwerb 1. Gegenstand und Ziel In der Relevantsetzung und Beschreibung koordinativer Verknüpfungen-- sei dies asyndetisch oder mit Konjunktoren wie und, oder, aber-- zeigt sich eine bemerkenswerte Diskrepanz zwischen Sprachtypologie und germanistischer Linguistik einerseits und Zweitspracherwerbsforschung und DaF-Didaktik andererseits. Auf der einen Seite steht die typologisch orientierte Forschung, die das formale und semantische Spektrum koordinativer Verknüpfungen in den Sprachen der Welt in einer Vielzahl von Publikationen auslotet (siehe etwa Haspelmath 2007; Stassen 2000), sowie die germanistische Linguistik mit zahlreichen Arbeiten zur Semantik und Syntax der Koordination (siehe für eine Übersicht das Handbuch der Konnektoren HDK-1 (Pasch et al. 2003) und HDK-2 (Breindl/ Volodina/ Waßner 2014), wobei Formen und Bedingungen koordinativ gestützter Ellipsen traditionell einen breiten Raum einnehmen. Hingegen gibt es in DaF/ DaZ zum Erwerb koordinativer Verknüpfungen nur vereinzelte empirische Studien (zu DaF Walter/ Schmidt 2008; Breindl 2016, zum ungesteuerten Zweitspracherwerb Erwachsener Birkner/ Dimroth/ Dittmar 1995; Dittmar/ Skiba 1992). Noch weniger Beachtung finden koordinative Verknüpfungen als Lerngegenstand in Lehrmaterialien für DaF, wo sie, quantitativ marginalisiert gegenüber Subordination (v. a. semantische Typen von Nebensätzen), regelmäßig stark vereinfacht bis fehlerhaft präsentiert werden. Dass aber die Regeln koordinativer Verknüpfungen für Lerner keineswegs Selbstläufer und weniger komplex als die von subordinativen Verknüpfungen sind, zeigen Koordinationsfehler auf höheren Niveaustufen, auf denen nach Stand der empirischen Forschung zu Erwerbssequenzen (und auch in den hier angeführten Beispielen selbst) die Erwerbsschwellen Verbletztstellung und die Inversion bereits erworben sind. DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="378"?> Eva Breindl 378 (1) Zusammenfassend kann ich sagen, daß die deutsche Sprache nützlicher angesehen werden muß und finde ich das die deutsche Sprache an der Spitze der Weltsprache stehen muß. (MERLIN, 1031_0003127, C1, L1=TÜR) (2) Ich bin bereit schon mit der Arbeit anzufangen aber habe ich noch ein paar Fragen über der Arbeits Stunden. (MERLIN, 1023_0101751, B2, L1=POL) (3) Am Abend wir haben zusammen gegessen und wir auch uns das Feuerwerk angesehen haben. (MERLIN, 1061_0120297, B1, L1 not reported) (4) Uns es geht in moment gut, Maria ist in der Schule, und in 2 Wochen fliegt mit ihre Klasse nach Stadt Y. (MERLIN, 1061_0120374, B1, L1=SPA) Im Folgenden wird die These vertreten, dass Koordination als syntaktisches Verfahren des satzinternen Ausbaus und der Kombination von Sätzen sowie als differenziertes Verfahren der semantischen Relationierung von Propositionen in Forschung und Didaktik zu DaF stark unterschätzt wird und weder als Lernproblem mit dem Ziel der Fehlervermeidung noch in seiner Bedeutung für die Rezeption und Produktion von Texten erkannt wird. Die Diskussion ließe sich angesichts der Irrelevanz von Koordination im Zusammenhang mit Fragen des „Sprachausbaus“ und der „Bildungssprache“ im Übrigen auch auf DaZ und den regelschulischen Unterricht ausweiten. Diese These soll auf der Basis des Forschungsstands- - übereinzelsprachlich typologisch (Kap.- 2) und germanistisch (Kap.- 3)- - durch die Gegenüberstellung einer Synopse aus Lehrmaterialien mit Daten aus Lernerkorpora (Kap.- 4) untermauert werden. Die Ergebnisse werden anschließend im Rahmen der aktuellen Diskussion zur Komplexität sprachlicher Phänomene diskutiert (Kap.-5). 2. Koordination in typologischer Perspektive Alle Sprachen haben koordinative Verfahren, Phrasen und Sätze auf der gleichen Hierarchiestufe zu umfangreicheren Einheiten auszubauen, die die gleiche Relation zu ihrer syntaktischen Umgebung aufweisen wie das einfache Element. Das Spektrum der Strategien und Differenzierungen in der formalen Kodierung dieses Verfahrens zeigt aber „surprising variety“ in den Sprachen der Welt (Mithun 1988, S.-332). In der typologischen Literatur werden v. a. die folgenden Differenzparameter genannt. i) AND-Languages vs. WITH-Languages Letztere kodieren komitative Relationen genauso wie UND-Relationen, unterscheiden also nicht zwischen Anna ging mit Maria ins Kino und Anna und Maria gingen ins Kino. Die Verteilung gibt Stassen (2005) für das im World Atlas- of Language Structures berücksichtigte Sprachensample mit 103 WITH- Languages gegenüber 131 AND-Languages an. Arealer Schwerpunkt letzterer <?page no="379"?> Koordination-- (k)ein Lernproblem für DaF? 379 ist Eurasien (die gesamte Indogermania, aber auch Finno-Ugrisch, Baskisch, Türkisch, Zentralasien, Arabisch, Hebräisch u. a.), WITH-Languages sind v. a. in Subsahara-Afrika und Ost- und Südostasien verbreitet. ii) Zero-Markierung (Asyndese) vs. overte Markierung Asyndese ist nur in wenigen Sprachen obligatorisch, meist aber eine Option, die nach Haspelmath (2007, S.-7) in europäischen Sprachen häufiger bei Satzkoordination und bei Koordination modifizierender Phrasen (ein kleines, feines Café) vorkommt als bei NP-Koordination (*Anna, Maria tanzten). iii) Monosyndese vs. Bisyndese und Position des Konjunktors Die verbreitetste Form overter Kodierung ist die monosyndetische Zwischenposition zwischen den Konjunkten; seltener die Suffigierung (vgl. lat. senatus populusque), bei Bisyndese kann Voranstellung und Nachstellung auftreten. iv) NP-Koordination vs. VP- und Satzkoordination Haspelmath (2005) gibt die Verteilung von Sprachen, die zwischen „nominal conjunction“ und „verbal conjunction“ (=- VP- und Satzkoordination) differenzieren, und solchen, die identisch kodieren, mit 125 zu 161 an, in Haspelmath (2007, S.- 21) nennt er die differenzielle Kodierung aber „probably the majority pattern in the world’s languages“, „in striking contrast to European languages“. Die areale Verteilung weist große Überschneidungen mit der von WITH- und AND-Languages auf, mit Schwerpunkt der Universalkonjunktoren in Eurasien. Für „quite a few languages“ existiert eine partielle Überlappung, d. h. neben Universalkonjunktoren gibt es auch solche, die auf nur einen Typ beschränkt sind. v) Existenz und Form von Koordinationsellipsen In vielen Sprachen gibt es Koordinationsellipsen, die sich aber in den Beschränkungen unterscheiden. Nach den Differenzparametern Analepse (=-Vorwärtsellipse) vs. Katalepse (=Rückwärtsellipse) und Anfangsrand vs. Schlussrand vs. Mitte lassen sich-- aus 64 logisch möglichen Kombinationen-- sechs Typen belegen. Die Unterschiede lassen sich bereits an einigen von Haspelmath (2007) angeführten englischen Beispielen zeigen, die nicht strukturparallel mit gleicher Bedeutung und gleicher Grammatikalität ins Deutsche übersetzt werden können, was mit der andersgearteten Wortstellung (SVO vs. V2-Sprache, +/ - identische Verbstellung bei Subordination, do-support im Engl.) zusammenhängen dürfte. (5a) Joan wrote a novel, and Marvin did [], too (5b) ≠ Joan schrieb einen Roman und Marvin schrieb auch. (6a) *Mr. Singh [sent] his father a postcard and Ms. Banerjee [] her grandmother a fax. (6b) Herr Singh [schickte] seinem Vater eine Postkarte, und Frau Banerjee [] ihrer Großmutter ein Fax <?page no="380"?> Eva Breindl 380 Das Deutsche kann in diesem typologischen Spektrum als AND-Sprache mit grammatikalisierten Konjunktoren und vornehmlich identischer Kodierung von NP- und Satzkoordination sowie monosyndetischer Koordination mit Zwischenposition des Konjunktors beschrieben werden, die ausgiebig von Koordinationsellipsen (Analepsen und Katalepsen, vom Anfangsrand, aus der Mitte und vom Endrand) Gebrauch macht (siehe Klein 1981; HDK- 1, S.- 306-330; Zifonun/ Hoffmann/ Strecker 1997, S.-569-583 und 2360-2390). Es nutzt mit korrelativen Konjunktoren wie sowohl (…) als auch und entweder (…) oder aber auch die Option der Bisyndese, kann bzw. muss in bestimmten Umgebungen asyndetisch koordinieren und verfügt neben den Universalkonjunktoren und und oder auch über solche, die keine vollständigen Verbzweitsätze koordinieren können (sowie, sowohl (…) als auch), und, sofern man das kausale denn als Konjunktor akzeptiert, auch über einen reinen Satzkonjunktor. Mit diesem einzelsprachlichen Variationsspektrum des Deutschen im Rahmen des größeren typologischen Variationsraums in den Sprachen der Welt sollte deutlich geworden sein, dass man nicht unhinterfragt voraussetzen darf, dass Koordination als Lerngegenstand im Zweit- und Fremdspracherwerb als eine Art strukturelle Universalie implizit erworben wird und deshalb wenig didaktische Beachtung verdient. 3. Koordination im Deutschen Koordination und koordinative Konjunktoren sind für das Deutsche vor allem im Handbuch der Konnektoren ausgiebig beschrieben. (Zu Koordinationssyntax und Ellipsen siehe HDK- 1, zu semantischen und syntaktischen Differenzierungen bei Konjunktoren siehe HDK-2.) Im Folgenden soll auf einige Besonderheiten eingegangen werden, die im Rahmen des typologischen Spektrums über den unauffälligen, in europäischen Sprachen (Standard Average European nach Haspelmath 2001) vertretenen Typ-- Monosyndese, mediale Position des Konjunktors (bei Satzkoordination an der „Nullstelle“ zwischen den Konnekten), identische Kodierung von Phrasen- und Satzkoordination-- hinausgehen und damit auch für Lerner mit einer L1 vom gleichen Typ 1 schwierig sein können. Hier fallen zunächst die polysyndetischen Konjunktoren ins Auge, die in ihren Stellungseigenschaften und ihrem hybriden Verhalten zwischen Konjunktor und Adverb auch untereinander inhomogen sind (vgl. HDK-1, S.-473-481; HDK-2, S.-428- 438 zu sowohl (…) als auch, S.-458-464 zu weder (…) noch, S.-593-601 zu entweder (…) oder.) So zeigen beide Teile von weder (…) noch adverbtypisches Stellungsverhalten (weder im Vor- und Mittelfeld, noch nur im Vorfeld), Koordinationsellipsen sind aber 1 Man beachte, dass DaF bislang schwerpunktmäßig eine europäische Schulfremdsprache ist. Berücksichtigt man aber im Migrationskontext auch DaF-/ DaZ-Unterricht im Zielsprachenland, haben wir es mit einer ganz anderen Bandbreite an L1 bei den Lernern zu tun, gegebenenfalls auch mit Sprachen, für die die typischen Eigenschaften von Koordination, die das Deutsche mit anderen SAE-Sprachen (StandardAverage European) teilt, nicht greifen. <?page no="381"?> Koordination-- (k)ein Lernproblem für DaF? 381 zulässig. Bei entweder (…) oder variiert der erste Teil zwischen der konjunktortypisch unintegrierten Position vor dem Konnekt und der adverbtypischen Einbettung im Vor- oder Mittelfeld, der zweite Teil zeigt nur Konjunktorverhalten. Sowohl (…) als auch ist im Format der Konnekte beschränkt und kann keine vollständigen Verbzweitsätze, aber Verbletztsätze, Verbalphrasen und andere Phrasen koordinieren, wobei der erste Teil vor dem ersten Konnekt oder in dessen Mittelfeld, nicht aber ins Vorfeld integriert auftreten kann, der zweite Teil vor dem zweiten Konnekt steht (Beispiel-9). 2 (7) Weder putzte er das Bad / Er putzte weder das Bad / * Weder er putzte das Bad noch räumte er auf. (8) Entweder putzt du das Bad / / Du putzt entweder das Bad / Entweder du putzt das Bad oder du räumst auf. (9a) Er hat sowohl das Bad geputzt / Sowohl hat er das Bad geputzt, als auch die Küche aufgeräumt. (9b) * Sowohl er hat das Bad geputzt, als auch die Küche aufgeräumt. (9c) *Er hat sowohl das Bad geputzt, als auch er hat die Küche aufgeräumt. (9d) … dass er sowohl das Bad geputzt [hat] als auch die Küche aufgeräumt hat. Die zweite Herausforderung liegt in den Möglichkeiten und Beschränkungen koordinativ gestützter Ellipsen. Das Deutsche erlaubt Analepsen und Katalepsen einschließlich der Ellipse eines finiten Verbs, dem sog. Gapping, sowie Kombinationen von beiden. Koordinationsellipsen unterliegen vielfältigen Positionsbeschränkungen: Analepsen vom Anfangsrand und aus der Mitte, nicht aber vom Schlussrand, Katalepsen nicht vom Anfangsrand. Die Beispiele unter (10) decken bei Weitem nicht alle Möglichkeiten und Beschränkungen ab, illustrieren aber vielleicht die Komplexität von Koordinationsellipsen. Dass die an der Oberfläche verbleibenden Konnekt-Ketten auch Nicht-Konstituenten sein können, stellt bei der Rezeption eine hohe Hürde dar, da beim Bedeutungsaufbau über Phrasen-, ja sogar über Satzgrenzen hinweg ein Merkmalsausgleich geleistet werden muss. (10a) [Den neuen Kluftinger habe ich] sofort gekauft und [] an einem Tag gelesen. (10b) [Ich habe den neuen Kluftinger] sofort gekauft und [] an einem Tag gelesen. (10c) *Ich habe [] sofort gekauft und [den neuen Kluftinger] an einem Tag gelesen. (10d) Anna liebt [] und Maria hasst [Krimis mit Kluftinger]. (10e) *Anna hat [] geliebt und Maria hat [Krimis mit Kluftinger] immer gehasst. (10g) Meiers [wohnen] im ersten [] und Müllers [] im zweiten [Stock]. 2 Mit den Einschränkungen von sowohl (…) als auch haben übrigens auch L1-Schreiber bisweilen Probleme und bilden dann Nonstandard-Konstruktionen (siehe Breindl 2009). <?page no="382"?> Eva Breindl 382 4. Koordination in der DaF-Perspektive 4.1 Zweitspracherwerbsforschung Empirische Studien zu Erwerb und Gebrauch koordinativer Verknüpfungen bei Lernern sind rar. Walter/ Schmidt (2008) untersuchten den Gebrauch von satzinitialem und in Texten fortgeschrittener Lerner an den Lernerkorpora FALKO-Essay und FALKO-Summary und ermittelten einen deutlichen Overuse im Vergleich zu einem akademischen L1-Korpus. Die Lerner verwenden und in einer genreinadäquaten „Quasikoordination“ (Zifonun/ Hoffmann/ Strecker 1997, S.- 2362 f.), die eher in der gesprochenen Sprache zur narrativen Verkettung oder turninitial im Dialog (HDK-2, S.- 424), schriftlich als expressives Stilmittel, z. B. in der Werbung oder vor rhetorischen Fragen vorkommt (Fernandez-Bravo 2001). Ein vergleichbares Ergebnis ermittelte Rosén (2006) bei schwedischen Germanistikstudierenden. Deren Texte ließ Rosén von muttersprachlich deutschen Studierenden beurteilen, die sie trotz geringer Fehlerdichte in Satzstruktur und Flexionsmorphologie als „undeutsch und abgehackt“ empfanden. Bemängelt wurden zu kurze, nur aneinandergereihte Sätze, ein Overuse von und sowie eine monotone Vorfeldbesetzung mit dem Subjekt. Studien zum ungesteuerten Zweitspracherwerb fokussierten früh auf den Erwerb der Satzstruktur von einer „Basic variety“ bis zu Hauptsatz-Nebensatzverbindungen, teils parallelisiert mit dem Erwerb von Kasusmarkierung und Verbkonjugation (Diehl et al. 2000). Das Ergebnis war eine empirisch abgesicherte Theorie überindividueller und L1-unabhängiger Erwerbsstufen, die sich weitgehend auch im gesteuerten L2-Erwerb bestätigten, und als sprachstandsdiagnostisches Instrument genutzt werden konnten, beispielsweise in der Form der Profilanalyse (Grießhaber 2012). Satzausbau durch Subordination (d. h. Differenzierung von Verbzweit- und Verbletztstellung) stellt im fünfstufigen Erwerbssequenzmodell die höchste Stufe dar; 3 eine Erweiterung um zwei Ausbaustufen (Nebensatzeinbettung im Mittelfeld, NP-Ausbau durch propositionale Strukturen) gibt es im Modell der Profilanalyse. Wichtig im Kontext der vorliegenden Studie ist aber: In keinem Modell spielt koordinativer Ausbau von Sätzen und Satzteilen eine Rolle. Im Gegenteil scheinen flache, parataktische Strukturen eher als Manifestation eines „pragmatic mode“ (Givón 1979), als Ausgangspunkte für ontogenetische Grammatikalisierungsprozesse zu gelten. Im Projekt P-Moll (Dittmar/ Skiba 1992) wurden solche Prozesse in einer Längsschnittstudie an mehreren erwachsenen Zweitsprachlernern untersucht. Bei allen begann die Entwicklung eines Konnektorensystems mit stark polyfunktional verwendetem und und aber als „Grundbaustein zum Diskursaufbau“ (Birkner/ Dimroth/ Dittmar 1995, S.-114). 3 Abweichende Befunde betreffen die Abfolge von Stufe- 4 (Inversion, d. h. Erwerb der strikten V2- Stellung) und Stufe-5. <?page no="383"?> Koordination-- (k)ein Lernproblem für DaF? 383 Was bei dieser Sicht zu kurz kommt, ist, dass ontogenetische Grammatikalisierung bzw. Sprachausbau und Komplexitätszunahme nicht nur durch eine Entwicklung von hierarchisch flachen Satzkoordinationen zu subordinativen Strukturen erfolgt, sondern auch durch Verdichtung und Verschränkung propositionaler Ausdrücke mittels Koordinationsellipsen und topologischer Integration bzw. syntaktischer Einbettung von Konnektoren ins zweite Konnekt. 4.2 Lehrmaterialien Eine Durchsicht von sieben didaktischen Grammatiken und drei aktuellen Lehrwerken 4 zeigt, dass die Darstellung der Koordination nicht nur weit hinter dem Spektrum der Ausdrucksmöglichkeiten zurückbleibt, sondern der Gegenstand mitunter gar nicht, im Widerspruch zum Beispielmaterial oder schlicht falsch dargestellt wird. Der erfasste Regelbereich beschränkt sich auf die Verbindung von Sätzen und die Besonderheiten zweiteiliger Konjunktoren. Das Beispielmaterial besteht fast immer in der Koordination vollständiger Verbzweitsätze, die auch stilistisch markiert-wirken können wie Vielleicht fahren wir an die Berge oder wir fahren ans Meer. (Buscha/ Szita 2011, S.- 194). Es finden sich unterkomplexe, zu weite Regelformulierungen wie „Konjunktionen verbinden immer gleichrangige Sätze“, „stehen zwischen zwei Sätzen, die auch ohne die jeweilige Konjunktion vollständig sind“ (Fandrych/ Thurmair 2018, S.- 246), „Konjunktionen verbinden zwei Hauptsätze miteinander“ (Buscha/ Szita 2011, S.-193; Buscha/ Szita/ Raven 2013, S.-170), „Hauptsätze verbinden mit Konjunktionen“ (Kunkel/ Durst 2017, S.-200). Diskrepanzen zwischen Regel und Beispielen illustriert exemplarisch die Grundstufengrammatik von Reimann (1996, S.-201): Konjunktionen „stehen zwischen zwei Hauptsätzen oder am Anfang eines neuen Hauptsatzes“-- und der dazugehörige Beispielblock enthält Sätze wie Mich interessieren weder die Museen noch die Kirchen. Die Angaben zu Koordinationsellipsen sind häufig zu eng: „Bei und, aber, denn (sic! ) kann das Subjekt im zweiten Satz weggelassen werden, wenn es identisch mit dem Subjekt im ersten Satz ist“ (Fandrych (Hg.) 2016, S.-27), „Wenn in beiden Sätzen Subjekt oder Subjekt und Verb identisch sind, kann der zweite Satz verkürzt werden.“ (Buscha/ Szita 2011, S.-194). Auf der anderen Seite sind Aussagen wie „Bei und, oder und aber kann man doppelte Satzteile weglassen“ ( Jin/ Voß 2013, S.- 98) oder „Wenn Satzteile doppelt sind, kann man sie nach und, oder, aber (aber nicht bei denn) oft weglassen.“ (Kunkel/ Durst 2017, S.-200) zu weit, da sie ungrammatische Strukturen wie (11) lizenzieren: 4 Für die Grundstufe: Klipp und klar A1-B1 (Fandrych/ Tallowitz 2017), Grammatik aktiv A1-B1 ( Jin/ Voß 2013), Reimann (1996), für die Mittelstufe Klipp und klar B2-C1 (Fandrych (Hg.) 2016), Grammatik aktiv ( Jin/ Voß 2017), B-Grammatik (Buscha/ Szita 2011) und C-Grammatik (Buscha/ Szita/ Raven 2013), ohne Niveauangabe Duden (Kunkel/ Durst 2017). Als Grundstufenlehrwerk wurden die Bände A1.1 bis B1.2 von Netzwerk neu (Dengler et al. 2019 ff.) und Schritte international (Niebisch et al. 2016 ff.) untersucht, für die Mittelstufe die Bände B2.1 bis C1.2 von Sicher (Perlmann-Balme/ Schwalb/ Matussek 2013 ff.). <?page no="384"?> Eva Breindl 384 (11a) *Anna liebt [Wagner] und Maria hasst []. (11b) *Anna [wohnt im ersten Stock] und ihre Freundin [] zweiten []. Umgekehrt schließen die zu engen Formulierungen nicht nur alle Katalepsen und Verschränkungen von Analepsen und Katalepsen, sondern z. B. auch Analepsen mit Numerusungleichheit des Finitums (Beispiel-12), Analepsen von Nicht-Subjekten im Vorfeld (Beispiele-13 und 14) und generell den weiten Skopus von Adverbialia (Beispiel-14) am linken Satzrand aus: (12) Anna [wohnt] im ersten [Stock] und Meiers [] im zweiten []. (13) [Den neuen Kehlmann habe ich] mir gleich gekauft und [] an einem Tag gelesen. (14) [Im Urlaub] fahren wir an die Algarve und [] mieten uns ein Segelboot. In der Progression des Gegenstands ist eine Lücke zwischen einer rudimentären Einführung von Satzkoordination auf A-Niveau und der Behandlung zweiteiliger Konjunktoren auf B-Niveau auffällig. Der explizierte Regelapparat ist damit für die Erklärung der Lehrbuchtexte meist nicht hinreichend, insbesondere, wenn es sich dabei um authentische Texte handelt. Kein einziges der untersuchten Lehrmaterialien thematisiert Koordination in ihrer Funktion für die Erzeugung von Textkohärenz und von Komplexität durch Ausbau und Verdichtung, auch wenn beides in anderen Zusammenhängen durchaus erwähnt wird. Textkohärenz wird v. a. bei Fragen der Vorfeldbesetzung und der Pronominalisierung adressiert. Komplexität als Konzept fand sich nur in Fandrych/ Thurmair (2018, S.- 269), sie entstehe „vor allem durch Ausbau der Nominalphrase durch Attributsätze“ und durch „Hauptsatz-Nebensatz- Verknüpfungen“. 4.3 Daten aus Lernerkorpora In Breindl (2016) wurde am Lernerkorpus KobaltDaF (argumentative Texte von fortgeschrittenen chinesischen, weißrussischen und schwedischen Lernern (ab C1) und muttersprachliches Kontrollkorpus) gezeigt, dass koordinative Strukturen, die durch Koordinationsellipsen verdichtet sind, sowie topologische und syntaktische Integration von Konnektoren deutlich seltener als bei Muttersprachlern vorkommen. Adverbkonnektoren wie deshalb, allerdings, trotzdem wurden in den L1-Texten zwei bis vier mal so oft verwendet wie von den Lernern. Der zentrale Vertreter für Adversativität, aber, nach Birkner/ Dimroth/ Dittmar (1995) im ungesteuerten Erwerb der zweite Konnektor nach und, findet sich bei den Lernern hauptsächlich zwischen vollständigen Sätzen, während ihn die Muttersprachler häufiger ins Mittelfeld des zweiten Konnekts integrieren oder von Koordinationsellipsen Gebrauch machen. Auch ein Mehrgebrauch der „Quasikoordination“ zeigt sich im Korpus KobaltDaF (Abb.-1). Dieses satzinitiale Und bzw. Aber geht nie mit Koordinationsellipsen ein- <?page no="385"?> Koordination-- (k)ein Lernproblem für DaF? 385 her, sondern steht stets vor vollständigen Sätzen; die Verbindung ist lockerer und wirkt wie eine nachträgliche Erweiterung, wie sie für gesprochene Sprache typisch ist. (15) Sie leben nicht. Aber sie werden gelebt. (KobaltDaF, CMN_14) (16) Es gibt doch Länder, in denen auch heute Kriege geführt werden. Und der Jugend in diesen Ländern kann es noch schlimmer gehen, als der früheren Jugend. (KobaltDaF, BEL_11) Abb.-1: Satzinitiales Und und Aber im KobaltDaF-Korpus In Kapitel- 2 wurde auf den typologischen Differenzparameter der Kodierung von phrasenverknüpfendem vs. satzverknüpfendem und hingewiesen. Das Deutsche verfügt mit und über einen-- auch semantisch unterspezifizierten-- Universalkonjunktor. Versteht man satzinternen Ausbau durch Phrasenkoordination als ein im Vergleich zur Aneinanderreihung vollständiger Sätze stärker integratives Verfahren, wäre zu erwarten, dass sich dies auch im Erwerbsprozess niederschlägt und die aggregativen, nähesprachtypischen Satzreihungen (siehe Hennig 2010) zunehmend von integrativeren, distanzsprachlicheren Koordinationen mit Koordinationsellipsen abgelöst werden, die an der Oberfläche als Phrasenkoordinationen erscheinen. Auch Phrasenausbau durch Koordinationen tiefer eingebetteter attributiver Elemente wären erst auf einem fortgeschritteneren Niveau zu erwarten. Um dies zu prüfen, wurden nach der Methode einer Pseudolängsschnittstudie Texte unterschiedlicher Niveaustufen aus dem nach dem GER-Maßstab bewerteten Lernerkorpus MERLIN ausgewertet. Als L1-Vergleichsdaten wurden 200 zufällig ausgewählte Belege für und aus dem DeReKo (W-öffentlich) nach der Kategorie der Konnekte ausgezählt. Im DeReKo zeigen fast drei Viertel der Belege (145) Koordinationen ohne Finitum, davon ist ein Viertel (36) tiefer eingebettet. Verknüpfungen vollstän- <?page no="386"?> Eva Breindl 386 diger Sätze machen insgesamt nur ein Zehntel aller Belege aus, vielfach sind sie klar emphatisch wie (17): (17) „Wir sind die Ersten, wir sind die Besten, und wir sind es, weil wir frei sind.“ (U20/ NOV.00715 SZ, 07.11.2020, S.-31) Im Lernerkorpus MERLIN wurden drei Subkorpora mit Texten, die jeweils die Gesamtbewertung B1, B2 und C1 erhalten hatten, nach Typen der Koordination mit und bzw. Konnektkategorien ausgewertet (Tab.-1). Um in etwa einen vergleichbaren Umfang zu erhalten, wurden alle 42 Texte des Subkorpus C1 (11.496 Token), die ersten 70 Texte von B2 (12.691 Token) und die ersten 100 mit B1 bewerteten Texte (12.520 Token) analysiert. Es zeigen sich mehrere Entwicklungstendenzen (Tab.-2): i) Der Anteil von und nimmt prozentual von B1 bis C1 kontinuierlich leicht ab. ii) Der Anteil von Vollsätze verknüpfendem und nimmt deutlich ab, ist aber selbst auf C1 noch fast doppelt so hoch wie im muttersprachlichen Referenzkorpus. iii) Umgekehrt nimmt der Anteil von Phrasenverknüpfungen insbesondere von B2 nach C1 stark zu und erreicht auf C2-Niveau den Wert von DeReKo. iv) Der Anteil der Koordination von tiefer eingebetteten Konstituenten verdoppelt sich von B1 zu C2, bleibt aber noch weit unter dem muttersprachlichen Wert. Subkorpus B1 B2 C1 DeReKo Vollständige Sätze (einschl. Pseudokoord.) 104 89 49 20 (9) VP (mit Subjektellipse) 24 48 33 11 Vinf (Subjekt- + Finitum- Ellipse) 45 26 34 35 NP/ PP-- primäre Konstituenten 92 86 101 13 NP/ PP-- attributiv 5 3 2 85 AdjP-- primäre Konst. (prädikativ, adverbial) 11 20 19 23 AdjP-- attributiv 1 9 10 11 Wortbestandteile 0 3 2 4 Nicht analysierbar 3 0 0 0 Gesamtvorkommen und 285 284 250 200 Tab.-1: Typen von und-Koordination im Lernerkorpus MERLIN und im DeReKo <?page no="387"?> Koordination-- (k)ein Lernproblem für DaF? 387 Niveau Token N und 5 % und % und Vollsätze % und primäre Konst. % und Attrib. B1 12.520 285 2,27% 36,5% 36,1% 2,1% B2 12.691 284 2,23% 31,3% 37,3% 4,2% C1 11.496 250 2,17% 19,6% 48,0% 4,8% DeReKo 200 10,0% 48,0% 13,5% Tab.-2: Anteil der verschiedenen und-Koordinationen an allen und-Verwendungen Abb.-2: Typen von und-Koordination im Lernerkorpus MERLIN und im DeReKo Anders als im DeReKo wird satzverknüpfendes und von den Lernern keineswegs nur emphatisch verwendet (Beispiel-18). Häufig tritt eine fehlerhafte Subjekt-Verb- Inversion im zweiten Konnekt auf (Beispiele-19, 20): (18) Glücklicherweise funktionieren die Verkehrsmittel sehr gut, und sie sind billig. Etwa 50 Euro pro Monat, und man kann in 45 Minuten bei der Arbeit sein. (ID 1031_0003076, C1, L1=ITA) (19) Bin belastbar, mobil und flexibel und übernehme ich gerne die Verantwortung. (ID 1023_0101909, C1, L1=UNG) 5 N und ist bereinigt um die und-Vorkommen in der Einleitungsfloskel Sehr geehrte Damen und Herren, die durch die Aufgabenstellungen für B1 und B2, nicht aber für C1 gehäuft evoziert werden. <?page no="388"?> Eva Breindl 388 (20) Die Probleme der Migration sind allgemein bekannt und herrschen in der Öffentlichkeit verschiedene Meinungen danach. (ID 1031_030301, C1, L1=ENG) Insgesamt zeigen sich deutliche Unterschiede zwischen dem Lernerkorpus und dem L1-Korpus sowohl im Grad der Integration als auch im Grad der Komplexität. 5. Fazit: Koordination und Komplexität Linguistische Komplexität kann als skalares und disziplinübergreifendes Schlüsselkonzept verstanden werden, mit dem sowohl Diskurse der Sprachbeschreibung als auch der Erst- und Zweitspracherwerbsforschung und der Forschung zu Grammatikalisierung konvergent modelliert werden können. In Hinblick auf koordinative Verknüpfungen konvergieren deskriptive Linguistik und Zweitspracherwerbsforschung in dieser Hinsicht allerdings nur wenig. Während sie in Sprachdidaktik und Zweitspracherwerbsforschung als wenig komplex erscheinen und einem anreihenden, präsyntaktischen „pragmatic mode“ im Sinne von Givón (1979) zugerechnet werden, firmieren sie in der deskriptiven Linguistik zwar großteils ebenfalls nicht im Zusammenhang mit Komplexität, unter der meist subordinierende Verfahren einschließlich des NP-Ausbaus durch eingebettete propositionale Strukturen erwähnt werden, in der Forschung zu Koordinationsellipsen wird die Komplexität der Reduktionsverfahren aber doch herausgestrichen. Auch Hennig/ Emmrich/ Lotzow (2017) stellen an ihren Untersuchungen zur Koordination sehr tief eingebetteter Einheiten überzeugend den Zusammenhang von Koordination und (rezeptiver) Komplexität her. Die Analyse von Lehrmaterialien und Lernersprache zeigt, dass Koordination in Spracherwerbsforschung und Sprachdidaktik weitaus differenzierter als bislang zu behandeln ist. Gerade die Tatsache, dass Lerner auch auf fortgeschrittenen Stufen, auf denen sie subordinative Verfahren bereits großteils erworben haben, noch Fehler bei der Koordination machen und insgesamt im Grad der Verdichtung durch Koordinationsreduktion weit hinter Muttersprachlern zurückbleiben, deutet darauf hin, dass der Gegenstand unterschätzt wird. So ergab eine Fehlerauswertung aller 42 Lernertexte des C1-Niveaus 17 Verbstellungsfehler bei Koordination gegenüber 13 bei Subordination. Dabei ließe sich die Komplexität von ellipsenhaltigen Koordinationen durchaus auch im Rahmen einer Spracherwerbstheorie wie der Processability Theory von Pienemann (Hg.) (2005) begründen: Es findet ein Merkmalsabgleich nicht innerhalb der Phrase, sondern entweder phrasenübergreifend (z. B. Subjekt-Verb-Kongruenz bei koordinierten NP-Subjekten), oder- - letzte Stufe der Processability-Hierarchie- - satzübergreifend statt, wenn Material aus einem Konnekt für das andere Konnekt rezeptiv ergänzt werden muss, um eine vollständige Proposition zu erhalten bzw. in der Sprachproduktion eliminiert werden kann. 6 Aus 6 Pienemann bezieht sich in seiner Verarbeitbarkeitshierarchie mit der höchsten Stufe-- satzübergreifender Merkmalsausgleich-- allerdings nur auf Subordination. <?page no="389"?> Koordination-- (k)ein Lernproblem für DaF? 389 dieser Perspektive versteht sich auch, warum Katalepsen, die ja eine Vorwegnahme eines vollständigen zweiten Konnekts bei der zeitlich davor liegenden Produktion des ersten Konnekts erfordern, in den Lernertexten fast nicht vorkommen und in didaktischen Materialien völlig ausgespart bleiben. Um einen sprachlichen Gegenstand als Lernschwierigkeit zu erkennen, gibt es mehrere Wege. Neben der typologischen Einordnung als idiosynkratisches oder seltenes Merkmal (für das Deutsche sicher die Satzklammer, die strikte V2-Stellung und die Differenzierung von Haupt- und Nebensatzstellung), zählt dazu auch eine (mehr oder minder empirisch gestützte) L1-unabhängige Fehlerhäufigkeit. Letzteres ist für die Koordination aber bislang nie untersucht worden. Was noch weniger Beachtung findet, ist Mindergebrauch oder Vermeidung einer Struktur. Die hier vorgebrachten Daten aus Lernerkorpora zeigen genau solche Vermeidungen und Mindergebräuche von komplexeren Koordinationsstrukturen. Es könnte sich lohnen, hierauf noch einen genaueren Blick zu werfen und etwa auch koordinative Verknüpfungen von subordinierten Satzstrukturen zu berücksichtigen. Auch ein Vergleich von Koordinationsstrukturen im kindlichen Erstspracherwerb mit Koordinationsstrukturen in niedrigeren Niveaustufen im L2-Erwerb könnte zu einem umfassenderen Bild von Komplexitätsaufbau beitragen. Literatur Birkner, Karin/ Dimroth, Christine/ Dittmar, Norbert (1995): Der adversative Konnektor aber in den Lernervarietäten eines italienischen und zweier polnischer Lerner des Deutschen. In: Handwerker, Brigitte (Hg.): Fremde Sprache Deutsch. Grammatische Beschreibung-- Erwerbsverläufe- - Lernmethodik. (=- Tübinger Beiträge zur Linguistik- 409). Tübingen: Narr, S.-65-118 Breindl, Eva (2009): Fehler mit System und Fehler im System. Topologische Varianten bei Konnektoren. In: Konopka, Marek/ Strecker, Bruno (Hg.): Deutsche Grammatik-- Regeln, Normen, Sprachgebrauch. (=- Jahrbuch des Instituts für Deutsche Sprache 2008). Berlin/ Boston: De Gruyter, S.-274-306. Breindl, Eva (2016): Konnexion in argumentativen Texten. Gebrauchsunterschiede in Deutsch als L2 vs. Deutsch als L1. In: D‘Avis, Franz Josef/ Lohnstein, Horst (Hg.): Normalität in der Sprache. (=-Linguistische Berichte/ Sonderheft-22). Hamburg: Buske, S.-37-64. Diehl, Erika/ Christen, Helen/ Leuenberger, Sandra/ Pelvat, Isabelle/ Studer, Thérèse (2000): Grammatikunterricht: Alles für der Katz? Untersuchungen zum Zweitsprachenerwerb Deutsch. (=-Reihe Germanistische Linguistik-220). Tübingen: Niemeyer. Dittmar, Norbert/ Skiba, Romuald (1992): Zweitspracherwerb und Grammatikalisierung. Eine Längsschnittstudie zur Erlernung des Deutschen. In: Leirbukt, Oddleif/ Lindemann, Beate (Hg.): Psycholinguistische und didaktische Aspekte des Fremdsprachenlernens. (=-Tübinger Beiträge zur Linguistik- 377). Tübingen: Narr, S.-25-61. Fernandez-Bravo, Nicole (2001): Initiales und in einer textorientierten Perspektive. In: Cambourian, Alain (Hg.): Textkonnektoren und andere textstrukturierende Einheiten. (=-Eurogermanistik-16). Tübingen: Stauffenburg, S.-201-222. <?page no="390"?> Eva Breindl 390 Givón, Talmy (1979): From discourse to syntax: Grammar as processing strategy. In: Syntax and Semantics-12, S.-81-112. Grießhaber, Wilhelm (2012): Die Profilanalyse. In: Ahrenholz, Bernt (Hg.): Einblicke in die Zweitspracherwerbsforschung und ihre methodischen Verfahren. (=- DaZ-Forschung- 1). Berlin/ Boston: De Gruyter, S.-173-194. Haspelmath, Martin (2001): The European linguistic area: Standard average European. In: Haspelmath, Martin/ König, Ekkehard/ Oesterreicher, Wulf/ Raible, Wolfgang (Hg.): Language typology and language universals/ Sprachtypologie und sprachliche Universalien/ La typologie des langues et les universaux linguistiques. 2.- Halbbd. (=- Handbücher zur Sprach- und Kommunikationswissenschaft / Handbooks of Linguistics and Communication Science (HSK)-20.2). Berlin/ New York: De Gruyter, S.-1492-1510. Haspelmath, Martin (2005): Nominal and Verbal Conjunction. In: Haspelmath/ Dryer/ Gil/ Comrie (Hg.), S.-262-264. Haspelmath, Martin (2007): Coordination. In: Shopen, Timothy (Hg.): Language typology and syntactic description. Second edition. Vol.- II: Complex constructions. Cambridge: Cambridge University Press, S.-1-51. Haspelmath, Martin/ Dryer, Matthew/ Gil, David/ Comrie, Bernard (Hg.) (2005): The World Atlas of language structures. Oxford: Oxford University Press. HDK-1 = Pasch, Renate/ Brauße, Ursula/ Breindl, Eva/ Waßner, Ulrich Hermann (2003): Handbuch der deutschen Konnektoren. Linguistische Grundlagen der Beschreibung und syntaktische Merkmale der deutschen Satzverknüpfer (Konjunktionen, Satzadverbien und Partikeln). (=- Schriften des Instituts für Deutsche Sprache- 9). Berlin/ New York: De Gruyter. HDK- 2 = Breindl, Eva/ Volodina, Anna/ Waßner, Ulrich H. (2014): Handbuch der deutschen Konnektoren. Bd.- 2.1: Semantik der deutschen Satzverknüpfer. (=- Schriften des Instituts für Deutsche Sprache-13.1). Berlin u. a.: De Gruyter. Hennig, Mathilde (2010): Aggregative Koordinationsellipsen im Neuhochdeutschen. In: Ziegler, Arne (Hg.): Historische Textgrammatik und Historische Syntax des Deutschen. Bd.-1: Diachronie, Althochdeutsch, Mittelhochdeutsch. Berlin/ Boston: De Gruyter, S.-937-964. Hennig, Mathilde/ Emmrich, Volker/ Lotzow, Stephanie (2017): Komplexität und Koordination. In: Hennig, Mathilde (Hg.): Linguistische Komplexität- - ein Phantom? (=- Stauffenburg Linguistik-94). Tübingen: Stauffenburg, S.-175-196. Klein, Wolfgang (1981): Some rules of regular ellipsis in German. In: Klein, Wolfgang/ Levelt, Willem (Hg.): Crossing the boundaries in linguistics. Studies presented to Manfred Bierwisch. (=-Synthese language library-13). Dordrecht: Reidel, S.-51-78. Mithun, Marianne (1988): The grammaticalization of coordination. In: Haiman, John/ Thompson, Sandra A. (Hg.): Clause combining in grammar and discourse. (=-Typological studies in language-18). Amsterdam/ Philadelphia: Benjamins, S.-331-357. Pienemann, Manfred (Hg.) (2005): Cross-linguistic aspects of processability theory. (=-Studies in bilingualism-30). Amsterdam/ Philadelphia: Benjamins. Rosén, Christina (2006): Warum klingt das nicht Deutsch? Probleme der Informationsstrukturierung in deutschen Texten schwedischer Schüler und Studenten. (=-Lunder germanistische Forschungen-67). Stockholm: Almqvist & Wiksell International. <?page no="391"?> Koordination-- (k)ein Lernproblem für DaF? 391 Stassen, Leon (2000): AND-languages and WITH-languages. In: Linguistic Typology- 4,- 1, S.-1-54. Stassen, Leon (2005): Noun phrase conjunction. In: Haspelmath/ Dryer/ Gil/ Comrie (Hg.), S.-258-261. Walter, Maik/ Schmidt, Karin (2008): Und das ist auch gut so! Der Gebrauch des satzinitialen und bei fortgeschrittenen Lernern des Deutschen als Fremdsprache. In: Ahrenholz, Bernt/ Bredel, Ursula/ Klein, Wolfgang/ Rost-Roth, Martina/ Skiba, Romuald (Hg.): Empirische Forschung und Theoriebildung. Beiträge aus der Soziolinguistik, Gesprochene-Sprache- Forschung und Zweitspracherwerbsforschung. Frankfurt a. M. u. a.: Lang, S.-331-342. Zifonun, Gisela/ Hoffmann, Ludger/ Strecker, Bruno (1997): Grammatik der deutschen Sprache. 3- Bde. (=- Schriften des Instituts für Deutsche Sprache- 7). Berlin/ New York: De Gruyter. Didaktische Materialien Buscha, Annerose/ Szita, Szilvia (2011): B-Grammatik. Übungsgrammatik Deutsch als Fremdsprache. Sprachniveau B1, B2. Leipzig: Schubert. Buscha, Annerose/ Szita, Szilvia/ Raven, Susanne (2013): C-Grammatik. Übungsgrammatik Deutsch als Fremdsprache. Sprachniveau C1, C2. Leipzig: Schubert. Dengler, Stefanie/ Rusch, Paul/ Schmitz, Helen/ Sieber, Tanja (2019 ff.): Netzwerk neu. A1.1- B1.2. Stuttgart: Klett Sprachen. Fandrych, Christian (Hg.) (2016): Klipp und klar. Übungsgrammatik Deutsch als Fremdsprache Mittelstufe B2/ C1. Stuttgart: Klett Sprachen. Fandrych, Christian/ Tallowitz, Ulrike (2017): Klipp und Klar. Übungsgrammatik Grundstufe Deutsch in 99 Schritten. Mit Lösungen. Stuttgart: Klett Sprachen. Fandrych, Christian/ Thurmair, Maria (2018): Grammatik im Fach Deutsch als Fremd- und Zweitsprache. Grundlagen und Vermittlung. (=- Grundlagen Deutsch als Fremd- und Zweitsprache-2). Berlin: ESV. Jin, Friederike/ Voß Ute (2013): Grammatik aktiv. A1-B1. Berlin: Cornelsen. Jin, Friederike/ Voß Ute (2017): Grammatik aktiv. B2-C1. Berlin: Cornelsen Kunkel, Melanie/ Durst, Uwe (2017): Lern- und Übungsgrammatik Deutsch als Fremdsprache. Berlin: Duden. Niebisch, Daniela/ Penning-Hiemstra, Sylvette/ Specht, Franz/ Bovermann, Monika/ Pude, Angela/ Reimann, Monika (2016 ff.): Schritte international. A1.1-B1.2. Ismaning: Hueber. Perlmann-Balme, Michaela/ Schwalb, Susanne/ Matussek, Magdalena (2013 ff.): Sicher! Deutsch als Fremdsprache. B2.1-C1.2. Ismaning: Hueber. Reimann, Monika (1996): Grundstufen-Grammatik für Deutsch als Fremdsprache. Ismaning: Hueber. <?page no="393"?> CAROLINA FLINZ/ RUTH M. MELL/ CHRISTINE MÖHRS/ TASSJA-WEBER KORPORA FÜR DEUTSCH ALS FREMDSPRACHE-- POTENZIALE UND PERSPEKTIVEN Abstracts : In unserem Beitrag widmen wir uns dem Einsatz von Sprachkorpora für den Kontext Deutsch als Fremdsprache (DaF), wobei wir unterschiedliche Ressourcen und Anwendungsbereiche beleuchten. Ziel des Beitrags ist es, exemplarisch Korpora für den DaF-Kontext vorzustellen, sowie deren Potenziale beispielhaft herauszustellen. Zu den vorgestellten Ressourcen zählen Lernerkorpora für Deutsch als Zielsprache, Spezial- und Fachkorpora, Vergleichskorpora sowie Korpora der gesprochenen Sprache und Wörterbuchressourcen. Mit Blick auf die unterschiedlichen Korpora und deren Spezifika loten wir lohnende Perspektiven und Anknüpfungspunkte für Forschung und Didaktik aus und geben Hinweise zur vertiefenden Auseinandersetzung. In our paper, we focus on the use of language corpora in the context of German as a foreign language (GFL), highlighting different resources and areas of application. The aim of this article is to present exemplary corpora for the context of German as a foreign language and to highlight their potential. Language Resources presented here include learner corpora for German as a target language, corpora containing language for specific purposes, comparable corpora, spoken language corpora, and dictionary resources. With a view to these different corpora and their specifics, we present worthwhile ideas for research as well as teaching practice, and give hints for a more indepth discussion. Keywords: Deutsch als Fremdsprache, Fremdsprachendidaktik, geschriebenes und gesprochenes Deutsch, korpusbasierte und korpusgestützte Lexikografie, Lernerkorpora, Spezialkorpora, Terminologie, Vergleichskorpora 1. Einleitung 1 Die verschiedenen Arten von Korpora des Deutschen stellen authentisches sprachliches Material zur Verfügung, das für unterschiedliche Forschungs- und Anwendungsbereiche vielfältige Potenziale bietet. Dieser Beitrag fokussiert die didaktische Perspektive, insbesondere von Lernenden des Deutschen als Fremdsprache (DaF). Zu Beginn des Überblicks zu Lernerkorpora für Deutsch als Zielsprache stehen in Abschnitt-2 Daten von Lernenden im Fokus. Abschnitt-3 betrachtet Spezialkorpora aus einer intralingualen Perspektive, Abschnitt- 4 öffnet den Blick für vergleichbare- Fachsprachenkorpora aus interlingualer Perspektive. Abschnitt- 5 thematisiert schließlich Korpora zum gesprochenen Deutsch mit einem Anwendungsfall (Wörterbuch) für Lernende und Lehrende des Deutschen. Der Beitrag präsentiert zahlrei- 1 Der vorliegende Beitrag wurde gemeinsam konzipiert und bearbeitet. Tassja Weber hat den Abschnitt- 2, Ruth M. Mell den Abschnitt- 3, Carolina Flinz den Abschnitt- 4 und Christine Möhrs den Abschnitt- 5 erarbeitet. Die Einleitung (1) und das Fazit (6) haben die Autorinnen gemeinsam verfasst. DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="394"?> Carolina Flinz/ Ruth M. Mell/ Christine Möhrs/ Tassja-Weber 394 che lohnende Anknüpfungspunkte, mit denen (Lerner-)Korpora und auf Korpora basierende Anwendungen die DaF-Forschung und -Didaktik bereichern können. 2. Lernerkorpora für Deutsch als Zielsprache: Ein Überblick Ein Lernerkorpus ist eine systematisch zusammengestellte, digital aufbereitete, mit linguistischen Annotationen angereicherte und elektronisch zugängliche Sammlung authentischer Produktionen von Lernenden einer Zweit- oder Fremdsprache (L2) (vgl. Granger 2002, S.- 7). Die Lernerkorpusforschung beschäftigt sich, vereinfacht gesagt, mit der Analyse von Daten in einem Lernerkorpus (LK) und zeichnet sich durch einen Anwendungsbezug aus: An der Schnittstelle zur Fremdsprachendidaktik können LK bzw. die darin enthaltenen Daten eingesetzt werden, um auf Basis von lernersprachlichen Gebrauchsmustern informierte Entscheidungen zur „Auswahl und Progression pädagogisch relevanter Unterrichtsgegenstände im Bereich der Sprachproduktion“ zu treffen (Wisniewski 2022, S.-8). LK eignen sich in diesem Kontext auch für die Entwicklung von Lehr-/ Lernmaterialien (vgl. Granger 2015): Um diese auf die Bedürfnisse von Lernenden des Deutschen anzupassen, bedarf es u. a. einer Analyse lernersprachlicher Äußerungen und der Herausarbeitung spezifischer Lernschwierigkeiten. Welches Potenzial LK für die Erstellung von Referenz- und Nachschlagewerken für Lernende (Wörterbücher, Grammatiken) sowie die Konzipierung von Lehrmaterialien (Lehrbücher und Lern-Software) bieten, zeigt Granger (2015) sehr anwendungsbezogen. Wie LK an der Schnittstelle zur L2-Erwerbsforschung eingesetzt werden können, wird z. B. in der Arbeit von Weber (2020) deutlich. Im Folgenden wird ein kurzer, systematischer Überblick aktuell frei zugänglicher LK der Zielsprache Deutsch gegeben, die u. a. für die Dokumentation des Spracherwerbs sowie für die Konzipierung von bedarfsgerechten Lehr-/ Lernmaterialien für die Zielsprache Deutsch eingesetzt werden (können). Der Überblick bildet damit eine Grundlage für den informierten und reflektierten Einsatz von LK für eigene Untersuchungen. Er beschränkt sich auf schriftliche LK, für einen Überblick zu gesprochenen LK siehe Wisniewski (2022). Der Überblick ist selektiv 2 und zusammenfassend gestaltet; für vertiefende Informationen sei auf die angegebenen Referenzartikel verwiesen. Kriterien zur Auswahl der hier dargestellten LK 3 sind: 2 Für weitere LK siehe z. B. den Beitrag von Pushkina/ Hinrichs (in diesem Band), die Übersicht zu LK von CLARIN (https: / / t1p.de/ Clarin-LK, Stand: 3.4.2023) und die Liste „Learner corpora around the world“ der UCLouvain (https: / / t1p.de/ lcw, Stand: 3.4.2023). 3 Das LK LEONIDE (Glaznieks et al. 2022) erfüllt ebenfalls die genannten Kriterien. Es ist jedoch nicht in der Übersicht aufgeführt, da es einen sehr spezifischen Erhebungskontext repräsentiert (junge Lernende in der Schule; mono-, bi- und plurilinguale Sprachhintergründe) (siehe auch Beitrag von Glaznieks/ Abel/ Frey in diesem Band). <?page no="395"?> Korpora für Deutsch als Fremdsprache-- Potenziale und Perspektiven 395 1) Das LK ist frei zugänglich und über ein Korpus-Recherchesystem durchsuchbar. 2) Das LK enthält Annotationen, die man für linguistische Analysen nutzen kann. 3) Es gibt eine frei zugängliche Dokumentation zum LK und zur Datenaufbereitung im LK. 4) Im LK-Überblick bzw. den in LK enthaltenen Daten sind verschiedene Erstsprachen der Lernenden, verschiedene Sprachkompetenzniveaus der Zielsprache Deutsch sowie verschiedene Schreibanlässe repräsentiert. 4 GLEG13 - Größe: ca. 285.200 Token; Datenerhebung: longitudinal; Kontext: Universität; Aufgaben in Lehrveranstaltungen - Genre: Zusammenfassungen, Kommentare, Essays - Metadaten: • Erstsprache(n): Englisch (Britisch) • Sprachkompetenzniveau: Anfänger (B1) bis Fortgeschrittene (C1) • Weitere: Alter, Geschlecht, Sprachbiografie, textbezogene Metadaten - Annotationen: automatische Annotationen - Besonderheiten: Das LK enthält nicht nur genuine longitudinale Daten, sondern auch quasi-longitudinale 5 Daten - Referenzartikel: CLEG13 documentation (2013) Falko: Falko Summary (S) und Falko Essay (E) - Größe: ca. 40.600 Token (S) bzw. 144.600 Token (E); Datenerhebung; Querschnitt, Kontext: Universität; Sprachstandbestimmung (S), Klausuraufgaben (E) - Genre: Zusammenfassungen (S) und Essays (E) - Metadaten: • Erstsprache(n): verschiedene • Sprachkompetenzniveau: fortgeschritten ((C1-C2) (S) und (B2/ C1) (E)) • Weitere: Alter, Geschlecht, Sprachbiografie - Annotationen: automatische und manuelle Annotationen (u. a. Abweichungen) - Besonderheiten: Zu beiden LK liegt je ein Vergleichskorpus mit Texten von Muttersprachler*innen vor (L1-Vergleichskorpus); beide LK sind lizenziert unter der Lizenz CC BY 3.0. - Referenzartikel: Reznicek et al. (2012) 4 Die hier genannten Kriterien wurden ausgewählt, da sie nachweislich einen Einfluss auf den Erwerb bzw. Gebrauch einer L2 haben und damit relevant für die Fremdsprachendidaktik sind. 5 Quasi-longitudinal meint, dass zu einem Zeitpunkt Daten von verschiedenen Lernenden mit jeweils unterschiedlichen Kompetenzniveaus erhoben werden. <?page no="396"?> Carolina Flinz/ Ruth M. Mell/ Christine Möhrs/ Tassja-Weber 396 KANDEL: cross cohort (cc) und long cohort (lc) - Größe: ca. 74.000 Token (cc) bzw. 48.000 Token (lc); Datenerhebung: quasi-longitudinal (cc) und longitudinal (lc); Kontext: Universität; Aufgaben in Lehrveranstaltungen - Genre: Essays - Metadaten: • Erstsprache(n): v. a. amerikanisches Englisch • Sprachkompetenzniveau: Anfänger (ca. A2) bis mittleres Niveau (nicht weiter spezifiziert) • Weitere: sehr umfangreiche text- und lernerbezogene Metadaten - Annotationen: automatische und manuelle Annotationen (u. a. Abweichungen) - Besonderheiten: Das LK enthält nicht nur genuine longitudinale Daten, sondern auch quasi-longitudinale Daten - Referenzartikel: Vyatkina (2016) MERLIN - Größe: ca. 155.000 Token (L2 Deutsch); Datenerhebung: quasi-longitudinal; Kontext: standardisierte Sprachtests - Genre: verschiedene (u. a. formelle/ informelle Briefe, Essays) - Metadaten: • Erstsprache(n): verschiedene • Sprachkompetenzniveau: Anfänger bis Fortgeschrittene (A1-C2) • Weitere: Alter, Geschlecht; textbezogene Metadaten - Annotationen: automatische und manuelle Annotationen (u. a. Abweichungen), sehr umfangreich - Besonderheiten: Es gibt zwei Angaben zum Sprachkompetenzniveau jedes Lernertexts: 1.-Niveau des Sprachtests und 2.-Niveau des produzierten Texts (nachträgliche Bewertung); das LK ist lizenziert unter der Lizenz CC BY-SA 4.0 - Referenzartikel: Abel et al. (2014) Tab.-1: Lernerkorpora mit Zielsprache Deutsch: Überblick 6 3. Spezialkorpora: Potenziale für den DaF- und Fach-Unterricht Die differenzierende Untersuchung zwischen dem allgemeinsprachlichen Wortschatz und fachbezogener Terminologie, die einer speziellen Kommunikation bzw. Kommunikation in spezialisierten Tätigkeitsbereichen dient (Roelcke 2015, S.-373), hat in der Sprachwissenschaft eine lange Tradition. Dies gilt auch für ihre lexikologische Fundierung, die bereits auf G. W. Leibniz zurückgeht (Mell 2022). 7 Dieser 6 CLEG13, die Falko-Lernerkorpora (falkoSummaryL2v1.1 und falkoEssayL2v2.4) und KANDEL (KanDeL_cross_cohortv2015, KanDeL_long_cohort1_v2015 und KanDeL_long_cohort2_v2014) sind zugänglich unter https: / / t1p.de/ CLEG-Falko-KANDEL (Stand: 3.4.2023), MERLIN unter https: / / t1p.de/ MERLIN (Stand: 3.4.2023). 7 Leibniz definiert hier Fachwörter und Fachwortschätze als „gewissen Lebens-Arten und Künsten eigen“ (Leibniz 1697, Abschn.-32). <?page no="397"?> Korpora für Deutsch als Fremdsprache-- Potenziale und Perspektiven 397 merkt in seinen „Unvorgreiflichen Gedanken“ (1697) an, dass in ein Wörterbuch nicht nur Wörter der Allgemeinsprache, sondern auch Fachwörter gehören. 8 Über die Notwendigkeit, Fachsprachenwissen und Fachsprachenerwerb nicht nur im Bereich der Lexikologie und Lexikografie, sondern darüber hinaus und besonders auch in Situationen des Wissenserwerbs, etwa in der schulischen oder universitären Lehre, zu untersuchen und daraus didaktische Konzepte zu generieren, besteht erst wesentlich später Konsens. Fachsprachen bzw. fachsprachenbezogenes Wissen ist essenziell für die Wissensvermittlung in Unterrichtssituationen (Maschmann 1980, S.- 34). Kirsten Adamzik bestätigt noch in einer 2018 erschienenen Publikation mit dem Titel „Fachsprachen“, dass adäquate Kommunikation essenziell für die Wissensvermittlung in Unterrichtssituationen ist. Fachbezogenes Wissen wird in den unterschiedlichen Fächern resp. (Fach-)Bereichen durch spezifische und spezialisierte fach- und fachdiskurspezifische Terminologie vermittelt (Adamzik 2018, S.-171 f.). Auf die Wichtigkeit, Fachsprachen zu beherrschen, verweist u. a. Thorsten Roelcke. Er stellt für die aktuelle Gesellschaft fest, dass die steigende Pluralität von Fachsprachen in Alltag und Beruf sowie die damit verbundenen fachkommunikativen Anforderungen auch das Erlernen fachkommunikativer Kompetenzen notwendig machen. Nach Roelcke erwiese sich eine Didaktik der Fachsprachen im Allgemeinen und eine Didaktik des Fachwortschatzes im Besonderen von immer größerer Bedeutung. Dies gilt für Schulen und Hochschulen wie auch für andere Bildungseinrichtungen […] (Roelcke 2015, S.-389). In den meisten Fächern werden diese Spezialwortschätze aber gerade nicht dezidiert gelernt und erworben. So werden im Fachunterricht die für das Verständnis des Faches notwendigen Termini in der Regel unsystematisch und häufig nur anhand exemplarischer Einzeltermini-Definitionen erworben (vgl. hierzu auch Mell 2022). Eine Ausnahme bildet hierbei lediglich der Fremdsprachenunterricht, in welchem das Erlernen von Wörtern bzw. Wortschätzen integraler Bestandteil des Kompetenzerwerbs ist. Dieser Unterschied tritt besonders dann zu Tage, wenn man den Deutschunterricht mit dem Fremdsprachenunterricht vergleicht. Die Arbeit mit frei zugänglichen Spezialkorpora (z. B. für Fachdiskurse) kann besonders für den Fremdsprachenunterricht gewinnbringend sein. Eine günstige Voraussetzung ist hier, wenn diese Korpora metasprachlich angereichert und durch Anno- 8 Die Frage nach dem Wesen von Fachsprache wurde 1985 von Hoffmann ähnlich artikuliert, wenn er als die zentrale Frage der Fachsprachenforschung das „Verhältnis von Fachsprache zu (All)Gemeinsprache“ herausstellt (Hoffmann 1985, S.-48). Dazu hat sich die Forschungsmeinung etabliert, dass die Spezifik von Fachsprachen am deutlichsten in den Terminologien einer Fachsprache, d. h. in ihrer Lexik, Ausdruck findet. Fachsprachen und ihr lexikalisches Inventar, das sind also die Fachwörter oder die Terminologie, werden damals wie heute überwiegend als bestimmter Ausschnitt sprachlicher Äußerungen (ebd., S.- 244) bzw. als Kommunikation in bestimmten fachlichen Bereichen (Roelcke 2020) aufgefasst (vgl. Mell 2021, S.-370 f.). <?page no="398"?> Carolina Flinz/ Ruth M. Mell/ Christine Möhrs/ Tassja-Weber 398 tation aufbereitet sind. 9 Bereits 2018 beschreiben Flinz und Perkuhn einen korpuslinguistischen Ansatz, der die Analyse musterhafter Verwendung von Fachsprache in den Fokus nimmt. Sie vergleichen das Deutsche und das Italienische miteinander und analysieren mittels Kollokations- und Mehrwortanalysen typische Sprachgebrauchsmuster im Tourismusdiskurs (Flinz/ Perkuhn 2018). Sie zeigen damit, wie Fachlexikografie von der Korpuslinguistik sowie von der Diskurslinguistik erfolgreich profitieren kann. Dazu untersuchen sie neben dem zentralen Vokabular und den Schlüsselwörtern vor allem sprach- und fachsprachspezifische Formulierungen und deren Übersetzungsäquivalente. In einer neueren Studie beschäftigt sich Mell (2021) mit Wörtern, die im Kontext des bioethischen Fachvermittlungsdiskurses verwendet werden und dort als Termini markiert sind, sowie mit deren syntagmatischem Gebrauch, und nimmt dafür ebenfalls eine sprachgebrauchsbasierte sowie korpuslinguistische Perspektive ein (vgl. hierzu auch Müller/ Mell 2020). 10 Bereits bestehende Spezialkorpora, etwa aus dem politischen Bereich (so etwa die Plenardebatten des Deutschen Bundestages, Müller 2022a) oder einem beruflichen Fachdiskurs (GINKO-Korpus, Portmann 2022) bieten somit sehr gute Anwendungsmöglichkeiten für die Arbeit mit Korpora im Fach- und DaF-Unterricht. So zeigen aktuelle korpuslinguistische Arbeiten von Giacomini (2022), Meier-Vieracker (2022), Müller (2022b) oder Nardi/ Farroni (2022), wie durch die Arbeit mit Spezialkorpora Fachwortschätze sinnvoll in den DaF-Unterricht oder im Übersetzungsunterricht (Wiesmann 2022) integriert werden können. 4. Mehrsprachige Korpora für DaF (interlinguale Perspektive) Mehrsprachige bzw. bilinguale Korpora 11 sind für die DaF-Didaktik und den DaF- Unterricht sehr wichtig, da mit ihnen sowohl sprachspezifische, aber auch sprach- 9 Was diese Fachwortschätze auszeichnet und wie sie, vor allem mit aktuellen korpuslinguistischen Methoden und Ressourcen erklärt sowie aus fachsprachenlinguistischer und/ oder lexikografischer Perspektive neu beschrieben werden können, zeigt u. a. eine Themenausgabe der Zeitschrift KorDaF- Korpora-- Deutsch als Fremdsprache (Mell (Hg.) 2022), die u. a. genau hier einen Schwerpunkt setzt. 10 Eine so verstandene Terminologieforschung ist in einem Forschungsfeld zu verorten, welches fachvermittelnde, akademische Diskurse im Spannungsfeld von Sprache, Wissen und institutionellem Kontext untersucht (z. B. Hyland 2004). Die Korpuslinguistik spielt dabei eine wichtige Rolle (Flinz 2019, 2020; Müller/ Mell 2020): So werden beispielsweise Termini über kontextgebundene Kollokationsprofile bestimmt (Gledhill 2000) und im Sinne von Routineformeln in akademischen Texten verstanden (Hyland 2008; Mell 2021). 11 Mehrsprachige Korpora können sowohl Vergleichskorpora als auch Parallelkorpora sein: Vergleichskorpora sind in der Korpuslinguistik Korpora, in welchen Texte mehrerer Sprachen S1…Sn zu vergleichbaren Diskursbereichen erfasst sind, die aber keine Übersetzungen voneinander sind; Parallelkorpora sind Korpora, welche aus Texten in einer Sprache S1 und deren Übersetzung(en) in die Sprache(n) S2…Sn bestehen. Die Textteile können miteinander aligniert werden (vgl. Lemnitzer/ Zinsmeister 2015, S.-138). <?page no="399"?> Korpora für Deutsch als Fremdsprache-- Potenziale und Perspektiven 399 übergreifende Fragestellungen angegangen und behandelt werden können. Sie haben ein großes unterrichtsmethodisches Potenzial 12 und ihre Anwendung gilt derzeit als innovativer Ansatz (vgl. Flinz/ Mell 2022). Für viele sprachliche Phänomene sind sie eine wichtige Ressource, da DaF-Lehrwerke und -Grammatiken nicht durchgehend mit authentischen Beispielen arbeiten und dort oft vergleichende Überlegungen in Hinblick auf die Entwicklung einer mehrsprachigen Kompetenz nicht vorhanden sind (vgl. Salzmann 2021). Hinzu kommt, dass lexikografische Ressourcen nicht immer eine konkrete Unterstützung für spezifische Probleme in der Rezeption, Produktion und Übersetzung leisten können. Das ist der Fall für z. B. polyfunktionale Wörter (vgl. Flinz 2021a), für interaktive Einheiten in der gesprochenen Sprache (vgl. Meliss/ Möhrs 2018, siehe auch Abschn.-5), für pragmatische Phänomene wie Komplimente etc. (vgl. Ravetto/ Castagneto 2021), für den Fachwortschatz (vgl. Mell 2022) oder für fachspezifische Kollokationen (vgl. Flinz/ Perkuhn 2018). Während Parallelkorpora mittlerweile frei zugänglich in unterschiedlichen Anwendungen verfügbar sind und über webbasierte Recherche- und Analysesysteme durchsucht werden können, sind Vergleichskorpora seltener. Eine große Auswahl an Parallelkorpora findet man auf der Clarin-Homepage 13 (einige davon, wie u. a. die Korpora EUR-Lex und EUROPARL sind auch in der Anwendung Sketch Engine 14 enthalten). Parallelkorpora bieten eine gute Grundlage „für die Ermittlung funktionaler Äquivalenz zwischen sprachlichen Strukturen im sprachübergreifenden Kontext“ 15 (Trawiński/ Kupietz 2021, S.-214). Vergleichskorpora 16 eignen sich hingegen für feingranulare sprachübergreifende Einsatzszenarien, da sie sowohl eine hohe Vergleichbarkeit in Bezug auf Inhalt und Größe als auch eine hohe Qualität der linguistischen Daten gewährleisten (vgl. Trawiński/ Kupietz 2021, S.-218). Außer rein webbasierten Vergleichskorpora (wie u. a. die Webkorpora der TenTen Familie in Sketch Engine 17 ) sind andere Typen von Vergleichskorpora entweder eine Rarität (darunter die Wikipedia-Korpora in DeReKo 18 und die LBC-Korpora 19 ) oder befinden sich noch im Auf- 12 Vgl. die Unterscheidung zwischen direkter und indirekter Anwendung von Korpora in Flinz (2021b). 13 Vgl. www.clarin.eu/ resource-families/ parallel-corpora (Stand: 3.4.2023). 14 Sketch Engine ist eine kommerzielle Korpusplattform (vgl. Kilgarriff et al. 2004), mit der Korpora nicht nur analysiert werden können, sondern auch erstellt werden können. 15 Da es sich bei Parallelkorpora um Übersetzungen handelt, kann die Qualität des linguistischen Materials verringert sein (vgl. Trawiński/ Kupietz 2021, S.-217). 16 Sprachvergleichende Studien können zudem auch auf der Basis von Referenzkorpora oder Zeitungskorpora gemacht werden, auch wenn einige Defizite, insbesondere auf einer empirisch-methodischen Ebene, festgestellt werden können (vgl. u. a. Hartmann et al. 2018). 17 Auch wenn für diese Korpora teilweise die Kriterien der hohen Qualität und Vergleichbarkeit in Frage gestellt werden können (Trawinski/ Kupietz 2021, S.-218), können sie für bestimmte Fragestellungen in der DaF-Didaktik angewendet werden (vgl. dazu Flinz 2021b). 18 Siehe Beitrag von Bröcher et al. (in diesem Band). 19 Vgl. http: / / corpus.lessicobeniculturali.net/ it/ (Stand: 3.4.2023). <?page no="400"?> Carolina Flinz/ Ruth M. Mell/ Christine Möhrs/ Tassja-Weber 400 bau (wie das Europäische Referenzkorpus EuReCo, vgl. dazu Trawiński/ Kupietz 2021). Für die gesprochene Wissenschaftssprache ist das Korpus Gesprochene Wissenschaftssprache kontrastiv (GeWiss 20 ) zu erwähnen (vgl. Salzmann 2021 für die didaktische Anwendung). Kleinere ad hoc erstellte Vergleichskorpora sind auch eine gute Lösung und für die fachsprachliche DaF-Didaktik sind sie auch oft die einzige Lösung, da vergleichbare Spezialkorpora für viele Fachsprachen nicht zu finden sind. 21 Die Daten sind vergleichbar und die Qualität ist hoch (Originaltexte). Sie können mit Hilfe von Korpusplattformen und -anwendungen wie Sketch Engine seitens der Lehrenden oder der Lernenden erstellt und zu vergleichenden Untersuchungen sprachlicher Phänomene eingesetzt werden (vgl. Flinz 2020). Auf diese Weise kann auch eine gewisse corpus literacy 22 aufgebaut werden. Mehrsprachige Korpora können zu unterschiedlichen Zielsetzungen im DaF-Unterricht eingesetzt werden, z. B. zum Erwerb grammatischer Kompetenzen sowie zur Wortschatzerweiterung (vgl. Wallner 2013). Schwerpunkt ist dabei das Suchwort samt seiner unmittelbaren sprachlichen Umgebung, sodass sowohl lexikalische Einheiten als auch formal beschreibbare Strukturen (Wortklassen, grammatische Muster) untersucht und verglichen werden können. Ein weiterer Einsatzbereich ist die Sensibilisierung für das Verhältnis von Norm und Varianz sowie für die Unterschiede zwischen Varietäten (vgl. Salzmann 2021, S.-79). Des Weiteren können durch den Einsatz von mehrsprachigen Korpora textuelle und stilistische Analysen mit Hilfe von Häufigkeitslisten (nach Wörtern, Lemmata oder Wortarten) und Keyword- Ranglisten durchgeführt werden. Als Hilfsmittel zur Textproduktion finden mehrsprachige Korpora ebenso Anwendung wie zur Ermittlung von funktionaler Äquivalenz zwischen sprachlichen Strukturen (einzelne Lexeme, Kollokationen etc.) (vgl. Flinz 2020, 2021a, 2021b; Mell 2021). Mit dem Einsatz von mehrsprachigen Korpora kann somit gelernt werden, nicht nur zwischen den Dimensionen Form und Funktion zu differenzieren, sondern diese auch kontextadäquat zu Einheiten zusammenzufügen, und das in beide Richtungen 23 (vgl. Flinz 2021a, S.-283). Die intensive und bewusste Auseinandersetzung mit dem fokussierten sprachlichen Element (vgl. Siepmann 2009) auf einer vergleichenden Ebene führt zu einer tieferen kognitiven Verarbeitung des fremdsprachlichen 20 Vgl. https: / / gewiss.uni-leipzig.de/ index.php? id=home (Stand: 3.4.2023). Das Korpus kann auch in der Datenbank für Gesprochenes Deutsch untersucht werden, vgl. https: / / dgd.ids-mannheim.de/ dgd/ pragdb.dgd_extern.welcome (Stand: 3.4.2023). Zur Anwendung gesprochener Korpora in DaF vgl. Kaiser/ Schedl (2021); Fandrych/ Meißner/ Wallner (2021) und die Themenausgabe der KorDaF 2023 in Vrb. (vgl. https: / / kordaf.tujournals.ulb.tu-darmstadt.de, Stand: 3.4.2023). 21 Vgl. das ad hoc erstellte Vergleichskorpus für die Tourismusfachsprache (siehe Flinz 2018). Da es keine existierenden Korpora gab, musste das Korpus explizit für das Projekt erstellt werden. 22 Unter Corpus Literacy versteht Mukherjee (2002, S.- 179 f.) die Fähigkeit, mit Korpora umgehen zu können. 23 Gebrauchsregeln können sowohl induktiv erschlossen als auch deduktiv erlernt werden. <?page no="401"?> Korpora für Deutsch als Fremdsprache-- Potenziale und Perspektiven 401 Inputs und Sprachbewusstheit wird gefördert. Zusätzlich fördern das explorative Arbeiten und der Sprachvergleich die Motivation und die Lernerautonomie (Flinz 2020, S.-151). 5. Korpora in der Lexikografie: Potenzial für DaF-Ressourcen Ein Blick in den „Gemeinsamen europäischen Referenzrahmen für Sprachen“ (=-GeR, vgl. Trim/ North/ Coste 2001) gibt Aufschluss darüber, zu was Lernende des Deutschen auf den verschiedenen Niveaustufen sprachlich in der Lage sein sollten. So heißt es darin beispielsweise: „[Der Lernende] Kann ein breites Spektrum von Sprachfunktionen realisieren und auf sie reagieren, indem er/ sie die dafür gebräuchlichsten Redemittel und ein neutrales Register benutzt“ (Trim/ North/ Coste 2001, S.-122; Niveau B1). Um dieser Forderung gerecht werden zu können, benötigen Lehrkräfte und Lernende Lehr-/ Lernmittel, die das geforderte Repertoire entsprechend bereitstellen. Eine wichtige Frage zu dieser Forderung in Lehr-/ Lernmaterialien sowie in Sprachressourcen ist in der Fremdsprachendidaktik schon länger ein Thema-- besonders auch zu Aspekten des gesprochenen Deutsch: Es wird diskutiert, wie das Verhältnis zwischen geschriebener und gesprochener Sprache in Materialien und Ressourcen abgebildet ist, welche Besonderheiten der gesprochenen Sprache berücksichtigt sind und wie Lehrwerke für Deutsch als Zielsprache oder lexikografische Ressourcen in Bezug auf diese Forderungen zu beurteilen sind (vgl. u. a. Meliss/ Möhrs 2018). Ein genauerer Blick in einsprachige Wörterbücher des Deutschen zeigt, dass Besonderheiten zum gesprochenen Deutsch darin meist nur bruchstückhaft abgebildet sind. Dies gilt z. B. für Stichwörter, die nach ihrer Frequenz im gesprochenen häufiger als im geschriebenen Deutsch oder teils auch ausschließlich im Gesprochenen vorkommen sowie im Gesprochenen ein besonderes Kombinationspotenzial oder als interaktive Einheit gesprächsstrukturierende Funktionen aufweisen. Kritikpunkte bei einer Analyse zu Stichwörtern wie gucken, okay 24 oder Gott sind nach Meliss/ Möhrs/ Ribeiro Silveira (2019, S.-94 f.) unter anderem folgende Aspekte: 25 1)--keine differenzierte Markierung zwischen Medialität (geschrieben vs. gesprochen) 24 Vgl. z. B. auch die korpusbasierte Analyse über Gattungen, Modi und Sprachen hinweg, bei der Herzberg/ Storrer (2019) Gebrauchsbesonderheiten zu okay im Deutschen und Französischen herausarbeiten. Studien dieser Art bereichern die Erkenntnisse zur Vielfalt im Gebrauch. Daraus können Lernende und Lehrende des Deutschen als Zielsprache schöpfen, besonders, wenn derartiges Wissen gezielt und lexikografisch-didaktisch aufbereitet für sie in Ressourcen zugänglich gemacht wird- - z. B. in Wörterbüchern oder Lehrwerken. 25 Vgl. zur ausführlichen Gegenüberstellung Meliss/ Möhrs/ Ribeiro Silveira (2019, S.-96-98). <?page no="402"?> Carolina Flinz/ Ruth M. Mell/ Christine Möhrs/ Tassja-Weber 402 2)--nur unzureichende Beschreibung der interaktionsspezifischen Informationen 3)--die dargestellten Informationen entstammen nicht interaktionsspezifischen Quellen Diese und weitere Untersuchungen zu Quellen, die als potenzielle Nachschlagewerke besonders auch in der Fremdsprachendidaktik verwendet werden, kommen meist zu dem Ergebnis, dass fundierte lexikografische Nachschlagewerke zum gesprochenen Deutsch fehlen, obwohl sie besonders für DaF-Lehrende und -Lernende eine überaus nützliche Quellen wären. 26 Zu diesen und weiteren Aspekten hat das Forschungsprojekt „LeGeDe“ (Lexik des gesprochenen Deutsch) 27 zwischen 2016 und 2020 an einem lexikografischen Prototyp 28 geforscht. In dieser Ressource wurden zunächst relevante Stichwörter korpusgestützt identifiziert, interaktionsspezifische Besonderheiten auf Basis von FOLK (Forschungs- und Lehrkorpus gesprochenes Deutsch) und DeReKo (Deutsches Referenzkorpus) herausgearbeitet und ausgewählte Einheiten für einen Online-Prototyp aufbereitet. Neben der systematisch korpusgestützten Erarbeitung der Informationen bietet die Anwendung auch einen Verweis auf das in der Projektarbeit ergänzend entwickelte Tool „Lexical Explorer“ (vgl. Lemmenmeier-Batinić 2020). „Mit dem Lexical Explorer können quantitative Korpusdaten mit Hilfe von Häufigkeitstabellen bezüglich der Wortverteilung über Wortformen, Kookkurrenzen und Metadaten erforscht werden“ (www.owid.de/ lexex/ index_de, Stand: 28.4.2023). Nutzende können über das Tool Suchen über Daten aus FOLK sowie aus GeWiss (vgl. z. B. Fandrych/ Meißner/ Wallner 2017) anstoßen. Für den Unterricht des Deutschen als Zielsprache können Ressourcen wie LeGeDe, Lernerkorpora (vgl. Abschn.- 2), Korpora zum gesprochenen Deutsch (FOLK, Ge- Wiss), aber auch Tools wie der Lexical Explorer nützliche Quellen sein, um Lehrmaterial und den Unterricht anhand von authentischem Datenmaterial, lexikografisch aufbereiteten Informationen und Suchoptionen in explorativen Tools anzureichern. 29 Auch der noch stärkere Einbezug von (gesprochenen) Lernerkorpora birgt laut Wisniewski Nutzungspotenziale: 26 In einer Erwartungsstudie zu einem „Wörterbuch des gesprochenen Deutsch“ fanden Meliss/ Möhrs/ Ribeiro Silveira heraus, dass Lehrende und Lernende des Deutschen als Zielsprache „von allen L1- und L2-Befragten als Hauptzielgruppe einer lexikografischen Ressource des gesprochenen Deutsch gesehen werden“ (Meliss/ Möhrs/ Ribeiro Silveira 2019, S.-108 f.). 27 Forschungsprojekt LeGeDe (gefördert im Leibniz-Wettbewerb 2016, Förderlinie: Innovative Vorhaben): www.ids-mannheim.de/ lexik/ lexik-des-gesprochenen-deutsch (Stand: 3.4.2023). 28 LeGeDe: www.owid.de/ legede/ (Stand: 3.4.2023). 29 Fandrych/ Wallner (2022, S.- 209) weisen darauf hin, dass auch GeWiss als Quelle für authentische Produktionen eingestuft werden kann, obgleich das Korpus nicht als Lernerkorpus angelegt worden sei. <?page no="403"?> Korpora für Deutsch als Fremdsprache-- Potenziale und Perspektiven 403 Je nach Design gestatten Lernerkorpora zudem die Untersuchung intraindividueller Variation, z. B. hinsichtlich des Effekts verschiedener Erhebungsformate (bzw. Aufgaben, Register, Genres usw.) oder Modalitäten auf die lernersprachliche Korrektheit, Komplexität und Flüssigkeit bei ein und derselben Person. (Wisniewski 2022, S.-7) (Gesprochene) Lernerkorpora könnten damit in lexikografische Arbeiten ebenfalls noch weiter einfließen, um z. B. die Identifizierung für L2-Lernende relevanter Stichwörter (allgemein betrachtet oder auch in Bezug auf Fachsprachen 30 ) zu vertiefen oder das Informationsangebot in (Lerner-)Wörterbüchern zu verbessern (vgl. auch Granger 2015). Um als Lehrkraft mit Korpora, Wörterbüchern oder explorativen Tools arbeiten zu können, erfordert es selbstverständlich eine gute Einarbeitung. Insbesondere korpusgestützt erarbeitete Wörterbücher (vgl. LeGeDe) bieten sich hier als Brücke der Vermittlung an. 6. Fazit Unser Beitrag fokussiert die Perspektive auf Lernende des Deutschen als Zielsprache und zeigt unterschiedliche Anknüpfungspunkte für die Erforschung und (didaktische) Anwendung von Korpora des Deutschen. Je nach Design und Datenmaterial haben Korpora für die Fremdsprachenforschung und -didaktik sowie Anwendungsfelder ein hohes Potenzial: Monolinguale Korpora zum geschriebenen und gesprochenen Deutsch- - zum allgemeinen Sprachgebrauch wie auch zu Fachsprachen- -, mehrsprachige Korpora, Lernerkorpora können Ausgangspunkte für Einblicke in eine auf authentischem Sprachmaterial basierende Sprachverwendung sein. Neben „traditionellen“ Sprachkorpora, die vorwiegend Texte auf muttersprachlichem Niveau bereitstellen, sind Lernerkorpora eine weitere Erkenntnisquelle zu Erwerbsstufen, Besonderheiten für Fehlerquellen oder auch relevanten sprachlichen Ausdrücken, die von Lernenden gebraucht werden. Wollen Lehrende und Lernende des Deutschen als Zielsprache die Potenziale von Korpusdaten bestmöglich nutzen, so bieten sich z. B. explorative Korpusanalysetools oder Wörterbücher als Schnittstellen an, um vom Schatz der Korpusdaten profitieren zu können. Korpora können sinnvolle Ergänzungen zu existierenden Lehr- und Lernmaterialien sein und können, besonders bei grammatischen Ausnahmefällen oder in spezifischen gesprochen-sprachlichen oder fachdiskursspezifischen relevanten Einzelfällen, ein reichhaltiges Datenreservoir bereitstellen, anhand dessen Lernende mit sprachlichen Verwendungen vertraut gemacht werden sowie diese auch (sprachvergleichend) aufzuschlüsseln und zu verstehen lernen. 30 Vgl. zu Spezialkorpora bzw. Fachdiskurskorpora den Abschnitt-3. <?page no="404"?> Carolina Flinz/ Ruth M. Mell/ Christine Möhrs/ Tassja-Weber 404 Literatur Abel, Andrea/ Wisniewski, Katrin/ Nicolas, Lionel/ Boyd, Adriane/ Hana, Jirka/ Meurers, Detmar (2014): A trilingual learner corpus illustrating European reference levels. In: Ricognizioni- - Rivista di Lingue, Letterature e Culture Moderne- 2,- 1, S.- 111-126. http: / / dx.doi. org/ 10.13135/ 2384-8987/ 702. Adamzik, Kirsten (2018): Fachsprachen. Die Konstruktion von Welten. (=-UTB 4962). Tübingen: Francke. CLEG Documentation (2013): CLEG13, version 07-19-2013. https: / / t1p.de/ CLEG13-documen tation (Stand: 31.8.2022). DeReKo- = Deutsches Referenzkorpus. www.ids-mannheim.de/ kl/ projekte/ korpora/ (Stand: 3.4.2023). Fandrych, Christian/ Wallner, Franziska (2022): Funktionale und stilistische Merkmale gesprochener fortgeschrittener Lerner: innensprache: Methodische und konzeptionelle Überlegungen am Beispiel von GeWiss. In: Zeitschrift für Germanistische Linguistik- 50,- 1, S.-202-239. Fandrych, Christian/ Meißner, Cordula/ Wallner, Franziska (2021): Korpora gesprochener Sprache und Deutsch als Fremd- und Zweitsprache: Eine chancenreiche Beziehung. In: - Korpora Deutsch als Fremdsprache- 1,- 2, S.- 5-30. https: / / kordaf.tujournals.ulb.tudarmstadt.de/ article/ id/ 76/ (Stand: 3.4.2023). Fandrych, Christian/ Meißner, Cordula/ Wallner, Franziska (Hg.) (2017): Gesprochene Wissenschaftssprache- - digital. Verfahren zur Annotation und Analyse mündlicher Korpora. (=-Deutsch als Fremd- und Zweitsprache-11). Tübingen: Stauffenburg. Flinz, Carolina (2018): Tourlex: Ein deutsch-italienisches Fachwörterbuch zur Tourismussprache für italienische DaF-Lerner. In: Lexicographica-34, S.-9-36. Flinz, Carolina (2019): Fachsprachen-- aktuelle Fragen zu Forschung und Lehre. In: Zeitschrift für Interkulturellen Fremdsprachenunterricht- 24,- 1, S.- 1-20. https: / / zif.tujournals.ulb.tudarmstadt.de/ article/ id/ 3172/ (Stand: 3.4.2023). Flinz, Carolina (2020): Vergleichbare Spezialkorpora für den Tourismus: eine Chance für den Fachsprachenunterricht. In: Hepp, Marianne/ Salzmann, Katharina (Hg.): Sprachvergleich in der mehrsprachig orientierten DaF-Didaktik. Theorie und Praxis. Roma: Istituto Italiano di Studi Germanici, S.-133-151. Flinz, Carolina (2021a): Attributive Funktion und weitere Funktionen von ganz. Vorschläge für den DaF-Unterricht polyfunktionaler Wörter anhand von Korpora. In: Fandrych, Christian/ Foschi Albert, Marina/ Hepp, Marianne/ Thurmair, Maria (Hg.): Attribution in Text, Grammatik, Sprachdidaktik. (=- Studien Deutsch als Fremd- und Zweitsprache- 13). Berlin: ESV, S.-281-309. Flinz, Carolina (2021b): Korpora in DaF und DaZ: Theorie und Praxis. In: ZIF-26,-1, S.-1-43. https: / / zif.tujournals.ulb.tu-darmstadt.de/ article/ id/ 3321/ (Stand: 3.4.2023). Flinz, Carolina/ Mell, Ruth M. (2022): Über den Nutzen der Korpuslinguistik für den DaF-Unterricht beim Lehren und Lernen nicht-flektierbarer Wörter-- eine Mikro-Studie zur Intensitätspartikel ganz. In: Pieklarz-Thien, Magdalena/ Chudak, Sebastian (Hg.): Wissenschaften und ihr Dialog. Exkurse zur Erforschung des Lehrens und Lernens fremder Sprachen. Göttingen: V&R unipress, S.-211-230. <?page no="405"?> Korpora für Deutsch als Fremdsprache-- Potenziale und Perspektiven 405 Flinz, Carolina/ Perkuhn, Rainer (2018): Wortschatz und Kollokationen in „Allgemeine Reisebedingungen“. Eine intralinguale und interlinguale Studie zum fachsprachlich-lexikographischen Projekt „Tourlex“. In: Čibej, Jaka/ Gorjanc, Vojko/ Kosem, Iztok/ Krek, Simon (Hg.) (2018): Proceedings of the XVIII EURALEX International Congress: Lexicography in- Global Contexts, 17-21- July 2018, Ljubljana. Ljubljana: Ljubljana University Press, S.-959-966. FOLK- = Leibniz-Institut für Deutsche Sprache: Forschungs- und Lehrkorpus Gesprochenes Deutsch. http: / / agd.ids-mannheim.de/ folk.shtml (Stand: 31.8.2022). GeWiss- = Fandrych, Christian: Gesprochenes Wissenschaftsdeutsch. https: / / gewiss.unileipzig.de/ (Stand: 3.4.2023) Giacomini, Laura (2022): Repräsentation von terminologischen Varianten in relationalen Termbanken. In: Korpora Deutsch als Fremdsprache- 22,- 1, S.- 25-41. https: / / kordaf. tujournals.ulb.tu-darmstadt.de/ article/ id/ 59/ (Stand: 3.4.2023). Glaznieks, Aivars/ Frey, Jennifer-Carmen/ Stopfner, Maria/ Zanasi, Lorenzo/ Nicolas, Lionel (2022): Leonide- - A longitudinal trilingual corpus of young learners of Italian, German and English. In: International Journal of Learner Corpus Research-8,-1, S.-97-120. https: / / doi.org/ 10.1075/ ijlcr.21004.gla. Gledhill, Christopher J. (2000): Collocations in science writing. (=- Language in Performance-22). Tübingen: Narr. Granger, Sylviane (2002): A bird’s eye view on learner corpus research. In: Granger, Sylviane/ Hung, Joseph/ Petch-Tyson, Stephanie (Hg.): Computer learner corpora, second language acquisition and foreign language teaching. (=- Language Learning and Language teaching-6). Amsterdam: Benjamins, S.-3-33. Granger, Sylviane (2015): The contribution of learner corpora to reference and instructional materials design. In: Granger, Sylviane/ Gilquin, Gaëtanelle/ Meunier, Fanny (Hg.): The Cambridge handbook of learner corpus research. (=-Cambridge Handbooks in Language and Linguistics). Cambridge: Cambridge University Press, S.-485-510. Hartmann, Jutta M./ Mucha, Anne/ Trawiński, Beata/ Wöllstein, Angelika (2018): Selectional preferences for (non-)finite structures as indicators of control relations: A cross-Germanic corpus study. International conference “Grammar and Corpora 2018”, 16.11.2018, Paris. Paris: Université Paris Diderot. Herzberg, Laura/ Storrer, Angelika (2019): Investigating OKAY across genres, modes and languages: A corpus-based study on German and French. In: Cahiers du Laboratoire de Recherche sur le Langage (CLRL)-8, S.-149-176. Hoffmann, Lothar (1985): Kommunikationsmittel Fachsprache. Eine Einführung. 2., völl. neu bearb. Aufl. (=-Forum für Fachsprachen-Forschung 1). Tübingen: Narr. Hyland, Ken (2004): Disciplinary discourses. Social interactions in academic writing. (=-Michigan Classics Edition). Ann Arbor, MI: The University of Michigan Press. Hyland, Ken (2008): As can be seen: Lexical bundles and disciplinary variation. In: English for Specific Purposes-27,-1, S.-4-21. Kaiser, Julia/ Schedl, Evi (2021): Das Forschungs- und Lehrkorpus Gesprochenes Deutsch als Ressource für den handlungsorientierten DaF-Unterricht- - Potentiale und Herausforderungen. In: Zeitschrift für Interkulturellen Fremdsprachenunterricht- 26,- 1, S.- 45-83. https: / / zif.tujournals.ulb.tu-darmstadt.de/ article/ id/ 3322/ (Stand: 3.4.2023). <?page no="406"?> Carolina Flinz/ Ruth M. Mell/ Christine Möhrs/ Tassja-Weber 406 Kilgarriff, Adam/ Rychlý, Pavel/ Smrz, Pavel/ Tugwell, David (2004): The sketch engine. In: Williams, Geoffrey/ Vessier, Sandra (Hg.): Proceedings of the 11th Euralex International Congress, Lorient, France, July 6-10. Bd.-1. Lorient: Université Bretagne Sud, S.-105-115. LeGeDe-= Lexik des gesprochenen Deutsch. www.owid.de/ legede/ (Stand: 3.4.2023). Gloning, Thomas (1697/ 2000): G.- W. Leibniz. Unvorgreiffliche Gedancken, betreffend die Ausübung und Verbesserung der Teutschen Sprache. www.uni-giessen.de/ fbz/ fb05/ germanistik/ absprache/ sprachverwendung/ gloning/ tx/ lbnz-ug.htm (Stand: 3.4.2023). Textgrundlage: Paul Pietsch: Leibniz und die deutsche Sprache (III). In: Wissenschaftliche Beihefte zur Zeitschrift des Allgemeinen Deutschen Sprachvereins, Vierte Reihe, Heft-30 (1908), S.-313-356 und 360-371. Lemmenmeier-Batinić, Dolores (2020): Lexical explorer: Extending access to the database of spoken German for user-specific purposes. In: Corpora-15,-1, S.-55-76. Lemnitzer, Lothar/ Zinsmeister, Heike (2015): Korpuslinguistik. Eine Einführung. 3.,-überarb. u. erw. Aufl. (=-Narr Studienbücher). Tübingen: Narr. Maschmann, Bärbel (1980): Sprachbedarf und Sprachverwendung in der Metallwerkstatt: Zum Verhältnis von Fach- und Deutschunterricht für ausländische Jugendliche. In: Deutsch lernen-4, S.-34-52. Meier-Vieracker, Simon (2022): Fußballwortschatz digital- - Korpuslinguistische Ressourcen für den Sprachunterricht. In: Korpora Deutsch als Fremdsprache- 22,- 1, S.- 7-24. https: / / kordaf.tujournals.ulb.tu-darmstadt.de/ article/ id/ 3485/ (Stand: 3.4.2023). Meliss, Meike/ Möhrs, Christine (2018): Lexik in der spontanen, gesprochensprachlichen Interaktion: Eine anwendungsorientierte Annäherung aus der DaF-Perspektive. In: German as a Foreign Language-3, S.-79-110. Meliss, Meike/ Möhrs, Christine/ Ribeiro Silveira, Maria (2019): Anforderungen und Erwartungen an eine lexikografische Ressource des gesprochenen Deutsch aus der L2-Lernerperspektive. In: Lexicographica-34, S.-89-121. Mell, Ruth M. (2021): Technisierung der Begriffe. Sprachgebrauchsmuster von bioethischer Terminologie im Fachvermittlungsdiskurs zu Nachhaltigkeit. In: Deutsche Sprache- 49 (Themenheft: Nachhaltigkeit und Linguistik. Sprachwissenschaftliche Innovationen im Kontext einer globalen Thematik. Herausgegeben von Carolin Schwegler und Anna Mattfeldt), S.-368-383. Mell, Ruth M. (2022): Fachsprachenbezogene Wissensvermittlung und Korpora. In: Hufeisen, Britta/ Flinz, Carolina (Hg.): KorDaF-- Korpora Deutsch als Fremdsprache. https: / / kordaf. tujournals.ulb.tu-darmstadt.de/ issue/ 83/ info/ (Stand: 3.4.2023). Mell, Ruth M. (Hg.) (2022): Fachsprachenbezogene Wissensvermittlung und Korpora. In: Kor- DaF-- Korpora Deutsch als Fremdsprache. 1/ 2022. https: / / kordaf.tujournals.ulb.tu-darmstadt.de/ issue/ 83/ info/ (Stand: 3.4.2023). Mukherjee, Joybrato (2002): Korpuslinguistik und Englischunterricht. Eine Einführung. (=-Sprache im Kontext-14). Berlin u. a.: Lang. Müller, Marcus (2022a): Die Plenarprotokolle des Deutschen Bundestages auf Discourse Lab. In: KorDaF-2,-1, S.-123-127. https: / / kordaf.tujournals.ulb.tu-darmstadt.de/ article/ id/ 3492/ (Stand: 3.4.2023). Müller, Marcus (2022b): „Ich will das hier nicht ausführlich erläutern; denn das ist viel zu kompliziert“. Terminologiearbeit und terminologische Arbeitsverweigerung in Plenarde- <?page no="407"?> Korpora für Deutsch als Fremdsprache-- Potenziale und Perspektiven 407 batten des Deutschen Bundestags. In: KorDaF- 2,- 1, S.- 95-122. https: / / kordaf.tujournals. ulb.tu-darmstadt.de/ article/ id/ 62/ (Stand: 3.4.2023). Müller, Marcus/ Mell, Ruth M. (2020): Zwischen Fach und Wort. Fragen, Methoden und Erkenntnisse der Terminologiedynamik. In: Bopp, Dominika/ Pthashnyk, Stefaniya/ Roth, Kerstin/ Theobald, Tina (Hg.): Wörter- - Zeichen der Veränderung. (=- Studia Linguistica Germanica 137). Berlin/ Boston: De Gruyter, S.-191-208. Nardi, Antonella/ Farroni, Cristina (2022): Wissenschaftliche Kompetenz beim Schreiben in Deutsch als fremde Wissenschaftssprache. Eine korpusbasierte Untersuchung. In: Kor- DaF- 2,- 1, S.- 61-80. https: / / kordaf.tujournals.ulb.tu-darmstadt.de/ article/ id/ 3488/ (Stand: 3.4.2023). Portmann, Annette (2022): GINKO-- Geschriebenes ingenieurwissenschaftliches Korpus. In: KorDaF- 2,- 1, S.- 128-133. https: / / kordaf.tujournals.ulb.tu-darmstadt.de/ article/ id/ 3495/ (Stand: 3.4.2023). Ravetto, Miriam/ Castagneto, Marina (2021): Zum Erwerb pragmatischer Kompetenz im Fremdsprachenunterricht: Das Korpus Co.Cor (Compliment Corpus). In: ZIF- 26,- 1, S.-85-107. Reznicek, Marc/ Lüdeling, Anke/ Krummes, Cedric/ Schwantuschke, Franziska/ Walter, Maik/ Schmidt, Karin/ Hirschmann, Hagen/ Andreas, Torsten (2012): Das Falko-Handbuch. Korpusaufbau und Annotationen. Version- 2.01. Berlin: Humboldt-Universität zu Berlin. https: / / t1p.de/ Falko_Handbuch (Stand: 3.4.2023). Roelcke, Thorsten (2015): Besondere Wörter-II: Fachwörter, Termini. In: Haß, Ulrike/ Storjohann, Petra (Hg.): Handbuch Wort und Wortschatz. (=-Handbücher Sprachwissen-3). Berlin/ Boston: De Gruyter, S.-371-393. Roelcke, Thorsten (2020): Fachsprachen. 4., neu bearb. u. wesentl. erw. Aufl. (=- Grundlagen der Germanistik-37). Berlin: ESV. Salzmann, Katharina (2021): Zum Einsatz des GeWiss-Korpus im Rahmen einer mehrsprachigkeitsdidaktischen Vermittlung der gesprochenen Wissenschaftssprache. In: Kor- DaF- 1,- 1, S.- 79-96. https: / / kordaf.tujournals.ulb.tu-darmstadt.de/ article/ id/ 40/ (Stand: 3.4.2023). Siepmann, Dirk (2009): Korpuslinguistik und Fremdsprachenunterricht. In: Jung, Udo O. H. (Hg.): Praktische Handreichung für Fremdsprachenlehrer. 5. durchges. Aufl. (=-Bayreuth Contributions to Glottodidactics-2). Frankfurt a. M. u. a.: Lang, S.-321-330. Trawiński, Beata/ Kupietz, Marc (2021): Von monolingualen Korpora über Parallel- und Vergleichskorpora zum Europäischen Referenzkorpus EuReCo. In: Lobin, Henning/ Witt, Andreas/ Wöllstein, Angelika (Hg.): Deutsch in Europa. Sprachpolitisch, grammatisch, methodisch. (=-Jahrbuch des Instituts für Deutsche Sprache-2020). Berlin/ Boston: De Gruyter, S.-209-234. Trim, John L. M./ North, Brian/ Coste, Daniel (2001): Gemeinsamer europäischer Referenzrahmen für Sprachen: lernen, lehren, beurteilen. Berlin u. a.: Langenscheidt. Vyatkina, Nina (2016): The Kansas Developmental Learner Corpus (KANDEL). A developmental corpus of learner German. In: International Journal of Learner Corpus Research-2,-1, S.-101-119. Wallner, Franziska (2013): Korpora im DaF-Unterricht-- Potentiale und Perspektiven am Beispiel des DWDS. In: Revista Nebrija de Lingüística Aplicada 13. www.nebrija.com/ revista- <?page no="408"?> Carolina Flinz/ Ruth M. Mell/ Christine Möhrs/ Tassja-Weber 408 linguistica/ korpora-im-daf-unterricht-potentiale-und-perspektiven-am-beispiel-desdwds.html (Stand: 3.4.2023). Weber, Tassja (2020): Präpositionen und Deutsch als Fremdsprache: Quantitative Fallstudien im Lernerkorpus MERLIN. Diss. Mannheim: Universität Mannheim. https: / / madoc.bib. uni-mannheim.de/ 54296 (Stand: 3.4.2023). Wiesmann, Eva (2022): Rechtssprachenbezogene Wissensvermittlung. Zum Einsatz von Ge- LeCo in der Übersetzerausbildung. In: KorDaF-2,-1, S.-42-60. https: / / kordaf.tujournals.ulb. tu-darmstadt.de/ article/ id/ 56/ (Stand: 3.4.2023). Wisniewski, Katrin (2022): Gesprochene Lernerkorpora des Deutschen: Eine Bestandsaufnahme. In: Zeitschrift für Germanistische Linguistik-50,-1, S.-1-35. <?page no="409"?> AIVARS GLAZNIEKS/ JENNIFER-CARMEN FREY/ ANDREA ABEL WEIL-SÄTZE BEI LERNENDEN DES DEUTSCHEN Vergleich zwischen immersiv und nicht immersiv Deutschlernenden-in-Südtirol Abstracts : Dieser Beitrag vergleicht die Verwendung von weil-Sätzen in Texten von immersiv und nicht-immersiv Deutschlernenden in Südtirol. Die Studie, die auf Korpus-Daten aus der mehrsprachigen italienischen Provinz Südtirol basiert, zeigt, dass weil-Sätze in beiden Lernsituationen ein Muster aufweisen, das sie von anderen durch Subjunktion eingeleiteten Nebensätzen unterscheidet. Es sind häufiger Verbzweitsätze (V2) feststellbar als z. B. bei wenn-Sätzen. Die Daten zeigen ein unterschiedliches Variationsspektrum für die beiden Lernsituationen. Im Immersionsfall treten nur Verbletzt- (VL) und V2-Sätze auf, während bei nicht-immersiv Lernenden auch Systemfehler auftreten. Deutschlernende Schüler/ -innen sind im Immersionsfall mit Schüler/ -innen mit Deutsch als Erstsprache in der Verteilung von VL- und V2-Sätzen vergleichbar, während nicht-immersiv Lernende sich von beiden Gruppen klar unterscheiden. This paper compares the use of weil-clauses (engl. because-clauses) in texts of immersive and non-immersive learners of German in South Tyrol. The study which is based on corpus data collected in the multilingual Italian province of South Tyrol shows that weil-clauses in both learning situations have a learning pattern that distinguishes them from other subordinate clauses introduced by a subjunction. Verb-second (V2) clauses can be detected more frequently than, for example, in the case of wenn-clauses (engl. if-clauses). In addition, the data show a different spectrum of variation for the two learning situations: In immersive learning situations, only verb-final and V2 structures occur, while non-immersed learners also produce non-grammatical forms. Immersed students are comparable to students with German as a native language in the distribution of verb-final and V2 structures, while non-immersed learners clearly differ from both groups. Keywords : syntaktische Variation, DaZ, Lernerkorpus, schulisches Schreiben, Register 1. Einleitung Die Bewertung der Textqualität im schulischen und außerschulischen Bereich ist ein aktuelles Thema in der Linguistik (zuletzt z. B. Storrer 2020). Oftmals werden Textbewertungsraster herangezogen, die mehr oder weniger umfänglich alle Teilgebiete der Linguistik berücksichtigen und die Bewertung auf sprachliche Korrektheit sowie auf adäquate Sprachverwendung stützen. Sprachliche Variation kann dabei eine Rolle spielen, vor allem dann, wenn sie registerbedingt ist. Im schulischen Schreiben wird der Schule die Aufgabe zugeschrieben, ein bestimmtes Schreibregister zu vermitteln, das häufig mit der deutschen Standardsprache gleichgestellt wird. Der Schule kommt daher auch die Aufgabe zu, ein Registerbewusstsein zu vermitteln, das einen adäquaten Umgang mit Sprache im schulischen und außerschulischen DOI 10.24053/ 9783823396109 SDS 88 (2023) <?page no="410"?> Aivars Glaznieks/ Jennifer-Carmen Frey/ Andrea Abel 410 Schreiben ermöglicht. 1 Auch wenn viele Autoren dafür plädieren, die Variation in der Sprache im Unterricht zu thematisieren und auf diese Weise das Bewusstsein für das Variantenspektrum zu fördern (u. a. Bittner 2013), bleibt sprachliche Variation für den Unterricht unbequem, stellt sie doch Lehrkräfte wie Schüler/ -innen vor Herausforderungen in Hinblick auf die Bewertung dessen, was sprachlich korrekt oder situativ angemessen ist. Registerbedingte Variation stellt darüber hinaus für den Fremdsprachunterricht eine Herausforderung dar. Je nach Phänomen sind Fälle von Variation leichter und früher in den Sprachunterricht zu integrieren. Generell wird aus didaktischen Gründen auf Variation eher später aufmerksam gemacht, ab einem bestimmten Kompetenzniveau, wenn die Lernenden eine gewisse Sicherheit mit der zu lernenden Sprache erreicht haben. Feinheiten in der Registerwahl sind für Lernende zu Beginn oftmals schwierig wahrzunehmen und können daher zu einer Verunsicherung in der Wahl von Varianten führen, die mit steigendem Sprachgebrauch überwunden wird. In diesem Artikel widmen wir uns dem in der deutschsprachigen Linguistik gut beschriebenen Phänomen der syntaktischen Variation in weil-Sätzen (u. a. in Antomo/ Steinbach 2010; Breindl/ Volodina/ Waßner 2014; Wegener 2000) im schulischen Schreiben bei Schüler/ -innen der Sekundarstufen (Sek.) I und II, die Deutsch vor allem außerhalb der Familie, also nicht als Erstsprache (L1) erwerben. Wir stellen dazu eine Studie vor, die auf Korpus-Daten aus der mehrsprachigen italienischen Autonomen Provinz Bozen-Südtirol (Südtirol) basiert. Das folgende Kapitel gibt einen Überblick über die syntaktische Variation in weil-Sätzen im Deutschen sowie zum Erwerb von Nebensatzstrukturen bei Lernenden des Deutschen. Zudem werden Informationen zur Organisation des Zweitsprachenlernens in Südtirol geliefert, woraus sich die zentralen Forschungsfragen ableiten lassen, die anschließend (Kap.- 3) zusammen mit den herangezogenen Korpora und der Methode der Korpusstudie vorgestellt werden. Kapitel-4 gibt die Ergebnisse der Studie wieder, die abschließend in Kapitel-5 diskutiert werden. 2. Weil-Sätze im Sprachunterricht 2.1 Weil-Sätze im Deutschen Weil-Sätze weisen im Deutschen eine syntaktische Variation auf. Sie können als Verbletzt-Sätze (VL) oder als Verbzweit-Sätze (V2) realisiert werden. Allerdings ist diese Variation nicht frei, sondern register- und mediumspezifisch und kann außerdem unterschiedliche semantische und pragmatische Bedeutung tragen. Gramma- 1 Siehe hierzu stellvertretend die in Deutschland beschlossenen Bildungsstandards für das Fach Deutsch (Kultusministerkonferenz 2022, S.- 37-39) oder mit Blick auf Südtirol die Rahmenrichtlinien für die Gymnasien (Autonome Provinz Bozen-Südtirol 2021, S.-48 und S.-51). <?page no="411"?> Weil-Sätze bei Lernenden des Deutschen 411 tisch lässt sich diese Variation unterschiedlich beschreiben. Der Duden nimmt beispielsweise eine Subjunktion sowie eine Konjunktion weil an, die dementsprechend unterschiedliche Satzstrukturen hervorbringen; die Verwendung von weil als Konjunktion sei aber auf die gesprochene Sprache beschränkt (Duden 2016, S.- 631). Pasch et al. (2003, S.- 410) beschreiben weil als Subjunktor, der unter bestimmten Umständen auch „hauptsatzanschließend“ verwendet werden kann. Auch Breindl/ Volodina/ Waßner (2014, S.-842) nehmen nur einen Subjunktor an, der mit syntaktischer Variation auftritt, wobei V2-Strukturen syntaktisch eingeschränkter sind als VL-Strukturen; so kommen sie beispielsweise nur postponiert vor (ebd., S.-846). Trotz der Variationsmöglichkeit wird als standardsprachlich korrekt nur die Verwendung mit VL-Stellung angesehen (vgl. Duden 2021, S.-1036). Ausschließlich diese kommt folglich in geschriebenen Texten, z. B. in journalistischer Prosa, vor (vgl. Abel/ Glaznieks 2020). Im gesprochenen Deutsch (Wegener 2000) und im interaktionsorientierten Schreiben in Online-Medien (Glaznieks 2022) findet sich hingegen neben weil-VL-Sätzen auch die Verwendung mit anschließendem V2-Satz. Im gesprochenen und geschriebenen informellen Austausch treten weil-V2-Sätze häufig dann auf, wenn sie epistemische Kausalrelationen ausdrücken oder einen Sprechakt als solchen begründen (Duden 2016, S.-1222 f.). Epistemische Begründungen können jedoch auch mit einem weil-VL-Satz ausgedrückt werden, in diesem Fall meist mithilfe von prosodischen Mitteln, etwa einer kurzen Pause vor dem weil-VL-Satz (Antomo/ Steinbach 2010, S.- 9). Regional, besonders im Süden des deutschen Sprachraums, kommen weil-V2-Sätze auch im propositionalen Gebrauch vor (Scheutz 2001). Eine eindeutige Zuordnung von syntaktischer Konstruktion und semantisch/ pragmatischer Bedeutung ist daher nicht möglich, auch wenn eine starke Assoziation von V2-Stellung und epistemischen Begründungen unter bestimmten situativen und kommunikativen Bedingungen besteht. 2.2 Weil-Sätze im Zweitspracherwerb Eine Sprache, egal ob als Erst-, Zweit- oder Fremdsprache, wird in Entwicklungsstufen erworben. Entwicklungsstufen im frühen Zweitsprachenlernen im Vorschulalter gleichen den Entwicklungsstufen im Erstspracherwerb und weisen eine erstaunliche Festigkeit trotz verschiedener Einflussfaktoren wie unterschiedlicher Erstsprachen, Lerngeschwindigkeiten, Lernumgebungen und individueller Varianz auf (Tracy 2007, S.-133-144). Einen wesentlichen Teil des Erwerbsfortschritts macht dabei der Erwerb der deutschen Wortstellung aus, deren Stadien zur Sprachstandserhebung eingesetzt werden können (z. B. Grießhaber 2010, S.-147-173). Dem Erwerb der Klammerstruktur des Deutschen wird dabei eine erhebliche Rolle zugewiesen, an der man laut Grießhaber auch das „Profil“ eines Sprachlernenden ablesen könne. VL-Sätze, wie sie kennzeichnend für subordinierte Nebensätze im Deutschen sind, werden erst spät, auf Erwerbsstufe- 4 erworben, erst nachdem die Teilung der Verbklammer (Separation, Stufe- 2) und die Möglichkeit der Inversion, <?page no="412"?> Aivars Glaznieks/ Jennifer-Carmen Frey/ Andrea Abel 412 d. h. der Positionierung des Subjekts hinter dem finiten Verb (Stufe-3), erreicht wurden. V2-Sätze sind folglich in Äußerungen von Deutschlernenden früher zu erwarten als VL-Sätze. Grießhaber (2010, S.-170) steckt den Erwartungshorizont für DaZlernende Kinder folgendermaßen ab: „Auf der Sekundarstufe sollten alle L2-Lerner die Stufe-4 erreicht haben. Falls dies bei hier [in Deutschland] eingeschulten DaZ- Lernern am Ende der fünften Klasse nicht der Fall sein sollte, liegt ein Rückstand im- Erwerbsprozess vor.“ Je nachdem, welche Erwerbsstufe erreicht wurde, sind V2-Strukturen in durch Subjunktionen eingeleiteten Nebensätzen in Lernendenvarietäten erwartbar. Die Zielstruktur (VL) müssen sich die Lernenden über Zwischenstufen erarbeiten. Die registerbedingte Variation bei weil-Sätzen sollte Deutsch-Lehrkräften als Besonderheit des Deutschen selbstverständlich bekannt sein und sollte „bei der Auswahl des Sprachmaterials […] und bei der Korrektur von Fehlern“ (Roche 2005, S.-144) berücksichtigt werden. 2.3 Sprachunterricht in Südtirol Italiens nördlichste Provinz Südtirol ist offiziell mehrsprachig, d. h. Italienisch, Deutsch und in einigen Tälern auch Ladinisch sind anerkannte Amtssprachen der Provinz. Laut Sprachzensus (Autonome Provinz Bozen-Südtirol 2013) ist die Verteilung der Sprachgruppen in der Provinz regional sehr unterschiedlich. Während sich die italienischsprachige Bevölkerung in den größten Städten Bozen und Meran sowie im Südtiroler Unterland im Süden der Provinz konzentriert, sind die übrigen, eher ruralen Gebiete überwiegend von Personen bewohnt, die sich der deutschen Sprachgruppe zugehörig fühlen. Eine Ausnahme bilden die Gebiete Gröden und Gadertal, die überwiegend eine ladinischsprachige Bevölkerung aufweisen. In Südtirol gibt es sowohl Schulen mit deutscher als auch Schulen mit italienischer Unterrichtssprache und die Eltern können unabhängig von der Familiensprache entscheiden, in welche Schule sie ihre Kinder einschreiben. Die jeweils andere Sprache wird ab der ersten Klasse der Primarstufe als Unterrichtsfach unterrichtet. Das führt zu unterschiedlichen Sprachlernsituationen für die Schüler/ -innen, deren Erstsprache beispielsweise nicht Deutsch ist. Deutsch kann entweder in vollständiger schulischer Immersion in Schulen mit deutscher Unterrichtssprache 2 oder als reines Schulfach mit begrenzter Stundenanzahl in Schulen mit italienischer Unterrichtssprache gelernt werden. 2 „Immersion“ verwenden wir hier nicht i. S. einer sprachmethodischen Unterrichtsform. Vielmehr möchten wir damit das vollständige „Eintauchen“ in die monolingual ausgerichtete Umgebung an Schulen mit deutscher Unterrichtssprache unterstreichen, die in dieser Form in anderen Kontexten auch- - negativ konnotiert- - als „Submersion“ bezeichnet wird (vgl. Cathomas 2005, S.- 65 f., 88 f.; Reich/ Roth 2002, S.-17 f.). <?page no="413"?> Weil-Sätze bei Lernenden des Deutschen 413 Die so beschriebene Organisation der Bildung in Südtirol führt daher auch zu unterschiedlichen Bedingungen, wie weil-Sätze von Deutschlernenden erworben und verwendet werden. Sie lernen sie einerseits im Rahmen des gesteuerten Zweitspracherwerbs als durch Subjunktion eingeleitete Nebensätze oder andererseits im Immersionsfall weitgehend ungesteuert als Subjunktion, die syntaktisch variabel je nach semantischem bzw. pragmatischem Gehalt mit VL- oder V2-Satz verwendet werden kann. 3. Methode und Design der Studie 3.1 Verwendete Korpora Die Daten für die Untersuchung liefern die Korpora LEONIDE (Glaznieks et al. 2022), Kolipsi-2 (Glaznieks et al. in-Vorb.) und KoKo (Abel et al. 2014). LEONIDE ist ein mehrsprachiges Korpus, in dem Texte von 163 Schüler/ -innen aus acht Klassen der Sek.-I (Mittelschule, Jahrgangsstufen 6-8) in Südtirol in den Sprachen Deutsch, Italienisch und Englisch zu finden sind. Das Korpus umfasst insgesamt ca. 2.500 Texte (ca. 237.000 Wörter), wobei der deutschsprachige Anteil 833 Texte (ca. 74.000 Wörter) beinhaltet. Kolipsi-2 ist ein zweisprachiges Korpus und besteht aus italienischen und deutschen L2-Texten, die ebenfalls aus Südtirol stammen. Die Texte wurden von 1.035 Oberschüler/ -innen der 12.-Jahrgangstufe verfasst. Der deutschsprachige Anteil besteht aus 700 Texten (ca. 105.000 Wörtern). KoKo ist ein deutschsprachiges Korpus, das ebenfalls aus der Sek.-II stammt (11.-12. Jahrgangsstufe). Die Schülertexte wurden in der Unterrichtssprache Deutsch erhoben und das daraus entstandene Korpus beinhaltet ca. 1.500 Texte von L1-Sprecher/ -innen des Deutschen. Für die vorliegende Untersuchung wurde auf ein bereits existierendes Sample von 602 Texten zurückgegriffen (vgl. Abel/ Glaznieks 2020). Tabelle-1 fasst die verwendeten Korpora zusammen. Korpus Anzahl der Texte Anzahl der Tokens LEONIDE_DE 833 73.862 Kolipsi-2_L2_DE 700 105.158 KoKo-Sample 602 376.184 Tab.-1: Übersicht über die verwendeten Korpora Eine Besonderheit der drei Korpora zeigt sich darin, dass aufgrund der mehrsprachigen Situation in Südtirol Schüler/ -innen mit unterschiedlichen Sprachhintergründen repräsentiert sind. In LEONIDE_DE befinden sich sowohl Texte von L1- Sprecher/ -innen als auch Nicht-L1-Sprecher/ -innen des Deutschen, die Deutsch entweder immersiv oder nicht-immersiv lernen. Kolipsi-2 als L2-Korpus beinhaltet <?page no="414"?> Aivars Glaznieks/ Jennifer-Carmen Frey/ Andrea Abel 414 überwiegend Texte von nicht-immersiv Lernenden des Deutschen, ein kleinerer Anteil wurde auch von immersiv lernenden Schüler/ -innen verfasst. Die KoKo-Texte wurden nur an Schulen mit deutscher Unterrichtssprache gesammelt. Das Korpus beinhaltet daher überwiegend Texte von L1-Schreibenden sowie von Schüler/ -innen, die sich in einem immersiven Lernkontext befinden. Mit Fokus auf die Schreiber/ -innen sind in den drei Korpora drei unterschiedliche Gruppen von Lernenden vertreten: - nicht-immersiv Lernende: Schüler/ -innen nicht-deutscher L1, die Schulen mit italienischer Unterrichtssprache besuchen, in denen Deutsch als Zweitsprache unterrichtet wird; - immersiv Lernende: Schüler/ -innen nicht-deutscher L1, die Schulen mit deutscher Unterrichtssprache besuchen und am dortigen Deutschunterricht teilnehmen; - L1-Lernende (Referenzgruppe): Schüler/ -innen deutscher L1, die Schulen mit deutscher Unterrichtssprache besuchen und am dortigen Deutschunterricht teilnehmen. Es ist anzunehmen, dass sich diese Gruppen hinsichtlich der Verwendung von weil- Sätzen unterschiedlich verhalten. Immersiv Lernende sollten das Stellungsmuster VL in der Sekundarstufe weitgehend erworben haben (vgl. Grießhaber 2010, S.-170), während bei nicht-immersiv Lernenden diese Erwartung noch nicht besteht (vgl. Grimm/ Müller 2019, S.-334). Außerdem sollte die registerbedingte syntaktische Variation bei weil-Sätzen im Deutschen einen unterschiedlich starken Einfluss auf die Lernendenvarietäten dieser beiden Gruppen haben, da die Lernenden dieser in unterschiedlichem Ausmaß ausgesetzt sind. Nicht-immersiv Lernende bekommen sprachlichen Input vor allem im schulischen Zweitsprachunterricht über die Vermittlung der Sprachlehrkraft, die sich an standardsprachlichen Konventionen orientiert. Immersiv Lernende erhalten sprachlichen Input über verschiedene Lehrkräfte und im Kontakt mit Mitschüler/ -innen innerhalb und außerhalb des Unterrichts. Die Registervarianz im Input von immersiv Lernenden sollte gegenüber nicht-immersiv Lernenden höher sein. Die Erwartung gegenüber der Produktion von weil-Sätzen im schulischen Kontext ist für nicht-immersiv wie für immersiv Lernende (sowie für L1-Lernende) gleich: Weil-Sätze sollten in der schriftlichen Standardsprache als Nebensätze mit VL- Struktur gebildet werden. Um die Verwendung von weil-Sätzen umfassend anhand- authentischer Korpus-Daten zu untersuchen, konkretisieren wir unsere Forschungsfragen: 1) Gibt es einen Unterschied in den Lernendenvarietäten nicht-immersiv und immersiv Lernender hinsichtlich der Verbstellung in weil-Sätzen; wie verhalten sich die Ergebnisse zur Referenzgruppe der L1-Lernenden? <?page no="415"?> Weil-Sätze bei Lernenden des Deutschen 415 2) Steigt der proportionale Anteil an VL-Strukturen in weil-Sätzen mit der Zeit an und gibt es einen Unterschied in der Entwicklung zwischen den nicht-immersiv und immersiv Lernenden? 3) Beeinflusst die Semantik der Kausalrelation die Wahl der Wortstellung in weil-Sätzen? 4) Gibt es einen Unterschied in den Lernendenvarietäten nicht-immersiv und immersiv Lernender hinsichtlich der Verbstellung in wenn-Sätzen; wie verhalten sich die Ergebnisse zu den Ergebnissen der Analyse der weil-Sätze? 3.2 Methode der Korpusanalyse In einem ersten Schritt wurden aus den Korpora LEONIDE und Kolipsi-2 und dem KoKo-Sample alle weil-Sätze extrahiert und verifiziert. Verwendungen, die nicht als kausaler Konnektor interpretiert werden konnten, wurden ausgeschlossen. Anschließend wurde das entstandene Datenset nach unterschiedlichen Kriterien annotiert. Dazu gehörten unter anderem die folgenden für diese Studie relevanten Aspekte: die Linearisierung der Konnekte, die Verbstellung und Satzförmigkeit des internen Konnekts (vgl. Pasch et al. 2003) sowie die Semantik der Kausalrelation-(propositional vs. epistemisch/ illokutionär, vgl. Breindl/ Volodina/ Waßner 2014, S.-833-837). In einem zweiten Schritt wurden aus dem Datenset alle anteponierten weil-Sätze aus der Untersuchung ausgeschlossen, da in dieser Stellung keine syntaktische Variation im Deutschen möglich ist (Pasch et al. 2003, S.-410). Schüler/ -innen- Gruppe # weil -Vorkommen # Texte # Schüler/ -innen Sek. 1 Sek. 2 Sek. 1 Sek. 2 Sek. 1 Sek. 2 nicht-immersiv Lernende 134 389  98 268  42 198 immersiv Lernende 143  52  70  32  24  29 L1 Deutsch Lernende 295 353 143 189  58 189 Total 572 794 311 489 124 416 Tab.-2: Verwendetes Datenset an weil-Sätzen, geteilt nach Schüler/ -innen-Gruppen Tabelle- 2 gibt nach Untersuchungsgruppen sowie Sekundarstufen sortiert das Datenset mit der Anzahl aller relevanten weil-Vorkommen wieder, das für die quantitative und qualitative Analyse verwendet wurde. Es umfasst insgesamt 1.366 weil- Vorkommen aus 800 verschiedenen Texten. In der quantitativen Analyse wurden die Gruppen hinsichtlich ihrer Tendenz zur Wahl von VL-weil-Sätzen vs. anderen Verbstellungen gegenübergestellt und die Entwicklung hin zu einem von VL-Strukturen <?page no="416"?> Aivars Glaznieks/ Jennifer-Carmen Frey/ Andrea Abel 416 geprägten, bildungssprachlichen Schreibregister für alle Gruppen in einem Querschnittsvergleich zwischen Sek.-I (LEONIDE_DE) und II (Kolipsi-2_DE bzw. KoKo) untersucht. Dabei erfolgte die Analyse mit hierarchischen linearen (logistischen) Modellen (generalized mixed effects models, siehe Gries 2021), um Verzerrungen durch individuelle Varianz in den hierarchisch strukturierten Daten zu berücksichtigen und von den Effekten der Gruppenzugehörigkeit und der Schulstufe zu trennen. Die qualitative Analyse widmete sich einer detaillierten Analyse der im Korpus vorkommenden Satzkonstruktionen in weil-Sätzen, die alternativ zu VL-Sätzen vorkommen. Bei im Deutschen nicht möglichen Strukturen wurde eine Kategorisierung der Abweichung vorgenommen. Um den Einfluss der Semantik auf die Wortstellung in weil-Sätzen zu testen, wurde die Distribution der Verbstellungsmuster in den beiden semantischen Kategorien der propositionalen und epistemischen Verwendungen untersucht und die Relevanz der Information über die semantische Kategorie als zusätzlicher Faktor im bestehenden Modell evaluiert. Alle Schritte der quantitativen und qualitativen Analyse wurden mit den Vorkommnissen von temporalen und konditionalen wenn-Sätzen für einen Vergleich wiederholt und abschließend mit den Ergebnissen der weil-Studie verglichen. 4. Ergebnisse der Studie 4.1 Ergebnisse der quantitativen Analyse Die quantitative Analyse der Daten zeigt einen signifikanten Unterschied in der Verwendung von VL-weil-Sätzen sowohl zwischen den drei Lernendengruppen (p<0.001 gemäß eines Chi-Quadrat-Tests der Signifikanz der Effekte der einzelnen Prediktoren im Modell) als auch im Vergleich zwischen Sek.-I und II (p<0.001). Dabei ist die Wahrscheinlichkeit der Wahl von VL-Sätzen in der Sek.-II in allen Lernendengruppen signifikant höher als in der Sek.- I (p<0.001). Abbildung- 1 zeigt dabei die- marginalen Effekte und Konfidenzintervalle der Prediktoren „Schulstufe“ und „Lernendengruppe“ in einem generalisierten hierarchischen Modell, das die Lernenden als zufälligen Faktor berücksichtigt. Der vorhergesagte Anteil an VL-Sätzen liegt bei nicht-immersiv Lernenden in der Sek. I bei knapp 20%. Bei immersiv Lernenden ist dieser Anteil höher (56,6%), womit sie sich auch näher am Wert der Referenzgruppe der L1-Lernenden befinden (75,8%). In der Sek. II erreichen die vom Modell vorhergesagten Werte bei nicht-immersiv Lernenden 54,9%, bei immersiv- Lernenden 86,7% und bei L1-Lernenden 97,3%, wobei sich bei der Gruppe der immersiv Lernenden in der Sek. I eine starke Intragruppenvarianz abzeichnet (siehe Konfidenzintervall, dargestellt durch vertikale Markierungen der vorhergesagten Werte), die in der Sek. II nicht mehr vorhanden ist und somit für eine zunehmende Sicherheit der immersiv Lernenden in der Wahl der Wortstellung spricht. <?page no="417"?> Weil-Sätze bei Lernenden des Deutschen 417 Abb.-1: Vorhergesagte Wahrscheinlichkeit für die Wahl der VL-Struktur für immersive, nicht-immersiv Lernende und L1-Schreiber 4.2 Ergebnisse der qualitativen Analyse In der qualitativen Analyse wurden alle satzförmigen weil-Sätze, die keine VL- Stellung aufwiesen, im Hinblick auf die Art der Abweichung kategorisiert. Dabei wurden neben der Kategorie „V2“ neue Kategorien gebildet, die die jeweilige Abweichung wiedergeben. Im Datensatz der nicht-immersiv Lernenden finden sich in insgesamt 281 Nicht-VL-Sätzen hauptsächlich (in Sek.- I 76%, in Sek.- II 83%) V2weil-Sätze (ich will ein Spiele-Programmierer werden weil das interessiert mich.). Daneben finden sich Strukturen, die im Deutschen nicht möglich sind. Darunter befinden sich in Sek.-I in 10% bzw. in Sek.-II in 8% der Abweichungen einem V2-Satz vorangestellte adverbiale Ausdrücke (V3-Sätze) (Diese Strategie funktionier gut, weil mit die Zeit ich weiße viele Worter.) und Strukturen, in denen das Subjektpronomen weggelassen wurde (Pro-Drop), die in der Sek.-II weniger häufig (2%) auftreten: Auch im Sport spreche ich deutsch, weil ist eine deutsche Verein. In wenigen Fällen werden in der Sek.-I (2%) Strukturen gewählt, in denen das finite Verb zwar an erster Stelle des Satzes steht, aber nicht als Frage- oder Imperativsatz intendiert oder interpretiert und daher nicht als korrekter V1-Satz gewertet werden kann (Nach der Mittelschule möchte ich Pedagogische Gimnasium machen, weil gefällt mir die Fächer.); diese kommen in der Sek.-II ebenfalls vor (4%). In beiden Schulstufen machen 2% der Abweichungen Sätze aus, in denen das finite Verb innerhalb eines Verbalkomplexes in der falschen Reihenfolge steht (Mein Traumberuf ist ein Handballspielerin werden oder alle Land besuchen, weil ich andere Stadt wollte sehen.). Im Datensatz der immersiv Lernenden finden sich in 67 Nicht-VL-Sätzen 66 V2-weil- <?page no="418"?> Aivars Glaznieks/ Jennifer-Carmen Frey/ Andrea Abel 418 Sätze (einmal steht das finite Verb in der falschen Reihenfolge im Verbalkomplex). In der Referenzgruppe (L1-Lernende) kommen bei 77 Vorkommen 76 V2-Sätze und ein intendierter V1-Sat