eBooks

Transkription und Annotation gesprochener Sprache und multimodaler Interaktion

2022
978-3-8233-9469-3
Gunter Narr Verlag 
Cordula Schwarze
Sven Grawunder
10.24053/9783823394693

Transkription und Annotation als Praxen empirischer Forschung in der Linguistik und benachbarten Disziplinen erschließen Audio- und Videodaten für die Analyse. Diese Verfahren stützen sich auf umfangreiche multidisziplinäre Traditionen, müssen jedoch entlang neuer technischer Möglichkeiten und Bearbeitungstools sowie veränderter Datentypen weiterentwickelt werden. Dabei bleiben Ansprüche wie Transparenz, Detailfülle, Konsistenz und allgemeine Zugänglichkeit gültig, werden aber um Anforderungen an Reliabilität und Maschinenlesbarkeit erweitert, was zu Anpassungen und gegebenenfalls Standardisierungen in der Durchführung führen sollte. Dieser Band fokussiert auf die Forschungspraxis selbst, was erlaubt, die individuelle disziplinäre Perspektive in den Hintergrund zu rücken und gemeinsame Fragen herauszustellen. Neben einzelnen Konzepten von Transkription und Annotation werden Probleme und ihre Lösungen auf den Themengebieten von Phonetik und Prosodie, Multimodalität und Interaktion, Mehrsprachigkeit sowie methodologische Fragen exemplarisch und datenbasiert vorgestellt.

9783823394693/Zusatzmaterial.html
Transkription und Annotation gesprochener Sprache und multimodaler Interaktion Cordula Schwarze / Sven Grawunder (Hrsg.) Konzepte, Probleme, Lösungen Transkription und Annotation gesprochener Sprache und multimodaler Interaktion Cordula Schwarze / Sven Grawunder (Hrsg.) Transkription und Annotation gesprochener Sprache und multimodaler Interaktion Konzepte, Probleme, Lösungen Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. Gedruckt mit finanzieller Unterstützung durch das Vizerektorat für Forschung und die Philologisch-Kulturwissenschaftliche Fakultät der Universität Innsbruck Sowie mit Unterstützung der Johann Wolfgang Goethe-Universität Frankfurt am Main. https: / / www.doi.org/ 10.24053/ 9783823394693 © 2022 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Internet: www.narr.de eMail: info@narr.de CPI books GmbH, Leck ISBN 978-3-8233-8469-4 (Print) ISBN 978-3-8233-9469-3 (ePDF) ISBN 978-3-8233-0270-4 (ePub) Inhalt Cordula Schwarze & Sven Grawunder Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 A Phonetik & Prosodie Frank Kügler, Stefan Baumann & Christine T. Röhr Deutsche Intonation, Modellierung und Annotation (DIMA). Richtlinien zur prosodischen Annotation des Deutschen . . . . . . . . . . . . . . . . . . . . . . . . 23 Jürgen Trouvain & Raphael Werner A phonetic view on annotating speech pauses and pause-internal phonetic particles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Heike Baldauf-Quilliatre Zur Transkription von Lautobjekten in der Gesprächsanalyse . . . . . . . . . 74 B Multimodalität Carolin Dix GAT2 trifft das International SignWriting Alphabet (ISWA). Ein neues System für die Transkription von Multimodalität . . . . . . . . . . . . . . . . . . . . 103 Ingmar Rothe Die Transkription folgt den Daten. Multikonventionelles Transkribieren 132 Sandra Reitbrecht Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 Daniel Pfurtscheller Medienlinguistisch transkribieren. Transkriptions- und Annotationspraktiken in der qualitativen Forschung zu digitaler Medienkommunikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 C Mehrsprachigkeit Rahaf Farag & Bernd Meyer Telefondolmetschen Arabisch-Deutsch. Gesprächstranskription im Spannungsfeld von Mehrsprachigkeit, schriftlichem Standard und Varietätenvielfalt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 Kathrin Wild Herausforderungen bei der Transkription und Annotation von mehrsprachigen Audio- und Videodaten und mögliche Lösungen in einem empirischen Forschungsprojekt zum frühen gleichzeitigen Fremdsprachenlernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 Carmen Konzett-Firth Transkriptionspraxis in mehrsprachigen Forschungskontexten. Eine Bestandsaufnahme aktueller Praktiken von Verweisen auf Transkripte im Fließtext . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 D Methodologie & Methodik Yvonne Kathrein Wann ist „ gut “ gut? Problemfelder und Lösungsansätze zur Bearbeitung und Interpretation dialektaler Teuthonista-Transkripte . . . . . . . . . . . . . . . 291 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 Hanna Hedeland FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten. Empfehlungen und offene Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 Verzeichnis der Autorinnen und Autoren . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 6 Inhalt Einführung Cordula Schwarze & Sven Grawunder Im Zentrum des Bands stehen Transkription und Annotation als konstitutive Praxen zur Erschließung von Audio- und Videodaten für die Analyse in Forschungsprozessen der empirischen Linguistik. Subdisziplinär gedacht ist Transkription vorrangig für Erkenntnisinteressen der Phonetik, angewandten Linguistik, Gesprächsforschung als Interaktionaler Linguistik oder mit konversationsanalytischer Ausrichtung, Gestenforschung, Sprechwissenschaft und nicht zuletzt Dialektologie und Sprachdokumentation relevant. Transkriptions- und Annotationsweisen und ihre Konventionen basieren daher einerseits auf umfangreichen, disziplinären Traditionen, die auch reichlich publiziert sind (z. B. Bose 2001; Bressem 2013; Deppermann 2008; Selting et al. 2009; Vieregge 1989) sowie disziplinär begründeten, spezifischen Arbeitsweisen. Andererseits erlaubt die Fokussierung auf die Forschungspraxis selbst, wie es der Grundgedanke dieses Bands ist, die disziplinäre Perspektive in den Hintergrund zu rücken und auf diese Weise die Gemeinsamkeiten deutlicher hervortreten zu lassen. Die Forschungspraxen Transkription und Annotation sind jedoch grundlegend ähnlich. Daher zeigt sich ein gleiches Grundverständnis, wohingegen die Auslegung, Anwendung und Problematisierung einzelner Aspekte und der damit verbundenen Handlungen sowie der weiteren Zwecke eines Transkripts verschieden sind. Charakteristisch für den Prozess der Transkription ist eine Transformation der ursprünglichen Materialität der Daten durch die schriftliche Fixierung, wodurch sie derAnalyse zugänglich gemacht werden. In diesem Prozess wird das flüchtige lautliche und visuelle Kontinuum des zu transkribierenden Ereignisses segmentiert, durch die Nutzung entsprechender konkreter Notationskonventionen und symbole vereinheitlicht und in eine räumlich-visuelle, folglich lesbare Form gebracht und somit Verständlichkeit hergestellt. Dabei sind die jeweiligen Phänomene in ihrer Form und Entfaltung und nicht durch beschreibende Kommentare darzustellen (Gülich & Mondada 2008: 32). Charakteristisch für den Prozess der Annotation hingegen ist eine additive Zuweisung von explizierender Information zu den Primärdaten. Annotation und Transkription sind dabei nicht trennscharf voneinander abgegrenzt. Annotation gilt als Oberbegriff, der alle beschreibenden und analytischen linguistischen Anreicherungen und Bezeichnungen der Primärdaten umfasst und Transkription als Spezialfall subsumiert (Bird & Liberman 2001: 26; Dittmar 2009: 165; Ide 2017: 2). Transkription beruht auf einer mehr oder weniger konkreten Vorschrift zur Transformation der Modalitäten. Auf diese Weise beinhalten Transkriptionsentscheidungen, seien sie über prosodische oder andere Merkmale, kategorielle Zuordnungen, unabhängig davon, ob diese binär ausgerichtet oder graduell gestuft sind. Die Abwägung zwischen genauer theoriegeleiteter Vorschrift und flexibler, aber noch transparenter Konvention ist dabei abhängig vom Zweck der Transkription. Auch strukturelle Eigenschaften der Merkmale spielen hierbei eine Rolle. Letztendlich wird bereits bei einer herkömmlichen segmentalen sowie suprasegmentalen phonetischen Transkription festgelegt, dass linear (d. h. Segment für Segment) annotiert wird, aus einem mehr oder weniger fixierten System von Konventionen der Symbole und Notationszeichen (z. B. IPA, Teuthonista, etc.) ausgewählt und zugeordnet wird, hinter denen z.T. bestimmte phonologische Auffassungen oder Theorien stehen. In gesprächs- und konversationsanalytischen Forschungsprozessen, deren Interessen sich auf die Analyse authentischer Interaktion richten, ist Transkription konstitutiver Teil dieser Prozesse und daher kontinuierlich Gegenstand von theoretischer sowie methodisch-methodologischer Reflexion (z. B. Ayaß 2015; Birkner et al. 2020: 21ff.; Birkner & Stukenbrock 2009; Bose 2001; Deppermann 2018, 2008: 39 ff.; Deppermann & Schütte 2008; Dittmar 2009; Du Bois 1991; Ehlich & Rehbein 1976; Gülich & Mondada 2008; Hepburn & Bolden 2017, 2013; Imo & Lanwer 2019: 90 ff.; Jenks 2013; Kowal & O ’ Connell 2014; Luckmann 1979; Mondada 2016; Ochs 1979; O ’ Connell & Kowal 1994; Psathas & Anderson 1990; Redder 2001; Selting 2001; Stukenbrock 2009). Übereinstimmend wird der zeitaufwändige Charakter des Transkribierens betont. Das hat aber auch einen spezifischen Nutzen, denn es ist zugleich die „ Zeit im Forschungsprozess, in der sich die Forschenden am intensivsten mit dem Material beschäftigen und häufig schon die meisten Ideen und Hypothesen für die spätere Analyse sammeln “ (Selting 2001: 1067). Demzufolge ist Transkription als forschungspraktischer Schritt keinesfalls zu unterschätzen. Für die linguistisch-phonetische Transkription auf Basis auditiver Impressionen und des zugehörigen artikulatorisch-auditiven Nachvollzugs als Bestandteil der Analyse trifft diese Reflexivität gleichermaßen zu (Shriberg & Lof 1991). Doch scheint hier der Abbildcharakter im Sinne einer validen Repräsentation des Gesprochenen stärker im Vordergrund zu stehen (Laver 1994: 95 ff.), dies auch deswegen, da auch andere Methoden (z. B. elektrophysiologische und bildgebende Artikulographie) verwendet werden, um dieser Anforderung nachzukommen. 8 Cordula Schwarze & Sven Grawunder In Bezug auf den Status des Transkripts und seinen Herstellungsprozess wird übereinstimmend betont, dass es sich um einen methodischen, theoriegeleiteten Prozess handelt, der wiederum (Forschungs-)Daten hervorbringt (z. B. Ayaß 2015: 511; Selting 2001: 1060). Das kann als ein wechselseitig aufeinander bezogenes Verhältnis beschrieben werden: Transkription ist abhängig vom Erkenntnisziel, der disziplinären Orientierung und theorieabhängig; es ist zugleich ein fragestellungs- und gegenstandsabhängigerAuswahlprozess (Breuer et al. 2014: 173). Die Frage also, was transkribiert wird, ist schon Theoriearbeit und nicht (nur) Datenerschließung. Deppermann weist darüber hinaus in diesem Zusammenhang darauf hin, dass Transkribieren „ methodisch disziplinierend “ wirke; der positive Effekt liegt darin, dass für die Leser: innen „ durch das Transkript die Fundierung der Analyse in einer Weise transparent und prüfbar [wird], wie es bei einer Beschreibung in Prosa nicht möglich ist “ (Deppermann 2018: 60). Die interdisziplinäre, jeweils datenbasierte Betrachtung der von mehreren Disziplinen geteilten Forschungspraxen Transkription und Annotation in einem Band wie dem vorliegenden ermöglicht mehrere Perspektivwechsel. Die einzelnen Problemfelder machen die Spezifika deutlich, ermöglichen aber auch Reflexion und Analyse des eigenen Vorgehens vor allem in Bezug auf die spezifischen Eigenschaften der jeweils zugrundeliegenden Daten sowie der daraus folgenden je eigenen Notwendigkeit zur Transkription. Es kann dann deutlich werden, dass bestimmte Fragen in einem Bereich bereits gelöst sind, während sie in einem anderen beispielsweise erst in das Zentrum der Aufmerksamkeit rücken. Schließlich werden auch die geteilten Möglichkeiten und Erfordernisse deutlich wie eine Diskussion zu Fragen der Standardisierung, Objektivität, Reliabilität oder auch zum Verhältnis von Annotation und Transkription. Der nächste Schritt wäre das tatsächliche cross-over i. S. einer Zusammenarbeit an einer für beide Seiten interessanten Fragestellung wie beispielsweise die Entwicklung einer gemeinsamen, unterschiedliche Erkenntnisinteressen berücksichtigenden Transkriptionskonvention von Gesprächsanalyse und Phonetik für ein spezifisches Korpusprojekt. Transkription und Annotation als interdisziplinär geteilte Forschungspraxen werfen in jeder Disziplin andere Fragen auf und generieren einen je spezifischen Beitrag zu einer empirischen Transkriptionsforschung an sich, auch wenn bestimmte Fragen wie die Ausdifferenzierung von Transkriptionssystemen oder die Frage nach neuen Symbolen für die jeweiligen disziplinären Zwecke sowie die Zwecke eines konkreten Forschungsprojekts beantwortet werden müssen. Etablierte Forschungspraxen, wie Transkription und Annotation es sind, müssen außerdem von Zeit zu Zeit erneut befragt und diskutiert werden, vor allem dann, wenn größere Veränderungsschübe auf die Praxen einwirken. Für Einführung 9 die Transkription beispielsweise wird dies offenkundig, wenn man die Beiträge einer frühen Publikation zur Transkriptions- und Notationsproblematik am Beginn der Möglichkeiten der technischen Aufzeichnung kommunikativen Verhaltens zur Kenntnis nimmt (z. B. Luckmann 1979 b) oder auch solche am nächsten Veränderungsschritt, der „ Gesprächstranskription auf dem Computer “ (z. B. Schmidt 2002). Auf die enge Verknüpfung von Transkription und Technologie wird immer wieder hingewiesen (z. B. Davidson 2009: 44; Schmidt 2007). Derzeit ändern sich Transkriptionskonventionen, -systeme und -praxen in Abhängigkeit von technischen Werkzeugen, Möglichkeiten und Bearbeitungstools (wie z. B. Praat, Elan, EXMARaLDA oder MAXQDA, NVivo, Transana) sowie veränderten Datentypen vor allem als Konsequenzen aus der zunehmenden Digitalisierung. Dazu gehört auch die zunehmende (und teils institutionell geforderte) wissenschaftsöffentliche Verfügbarkeit und daraus resultierende Sekundärnutzung von Korpora. Zugleich bleiben die Ansprüche an eine Transkription bzw. Annotation wie Transparenz, Detailfülle, Konsistenz und allgemeine Zugänglichkeit unverändert bestehen, erweitert um aktuelle wissenschaftliche Anforderungen an Reliabilität und Maschinenlesbarkeit. Das stellt die Diskussion um die kontrollierte, ggf. standardisierte Durchführung dieser Forschungspraxen in den unmittelbaren Zusammenhang von Gütekriterien (z. B. Deppermann 2018; Schmidt 2002; Strübing et al. 2018). Das zieht zugleich neue Publikationsgewohnheiten nach sich, wobei Links zu Datenbanken veröffentlicht, Annotationsschemata offengelegt oder aus den Transkriptionstools Ton/ Video-alignierte Transkripte herausgelöst werden. Hier deutet sich an, dass für die Art und Weise, wie über Daten und ihre Transkription und Annotation gesprochen wird, neue Wege gefunden und gegangen werden müssen. Auch wenn technische Lösungen wie das direkte Abrufen und Annotieren von Audio- und Videoaufzeichnungen derzeit möglich sind, so werden doch Fragen des Datenschutzes (z. B. die Anonymisierung personenbezogener Informationen wie Gesichter, Stimmen, Orte) dies wieder einschränken. Daher bleibt für die Analyse authentischer Interaktion der Schritt der Transkription auch weiterhin trotz technologischen Fortschritts das Mittel der Wahl zu Verdauerung sowie Sichtbarmachung und Greifbarmachung von flüchtiger Interaktion zu Zwecken der Analyse. Überblick über den Band Der vorliegende Band gliedert sich in vier Bereiche: Eingangs werden phonetisch-phonologische Fragen bearbeitet, gefolgt von Aspekten zur Transkription von Multimodalität und Multimedialität sowie Mehrsprachigkeit und methodisch-methodologischen Fragen. Datenbasiert lassen sich jedoch quer zu den 10 Cordula Schwarze & Sven Grawunder thematischen Bereichen Schwerpunkte ausmachen, die sich der Unterscheidung des Transkribierens als einer analytischen, theoriegebundenen Praxis sowie einer professionellen Praxis zuordnen lassen (Gülich & Mondada 2008: 30). Während beispielsweise Fragen der Annotation von Pausen (z. B. Trouvain & Werner i. d.Bd.) der analytischen Praxis zuzurechnen sind, sind Aspekte des Zitierens von Transkripten im Fließtext (z. B. Konzett-Firth i. d.Bd.) der professionellen Praxis zuzuordnen. Transkribieren als das „ Handwerk der Verschriftlichung mündlicher Rede “ (Dittmar 2009: 9) beinhaltet viele Routinen und ist lern- und optimierbar, dies vornehmlich durch wiederholte Handlungsvollzüge. Dazu kann der Band beitragen, denn dazu eignet sich das Spezifikum des Bandes: die über QR- Codes bzw. Links zugänglich gemachten Primärdaten. Jeder Beitrag stellt - insoweit es den Autor: innen passend erschien und vom Forschungsdatenmanagement her möglich war - Zusatzmaterial als eContent zur Verfügung. Das Zusatzmaterial sind hauptsächlich Audio- oder Videodaten und teils Textgrids, die sich über die QR-Codes in der Marginalspalte bzw. über die Links aligniert zum Text und dem jeweiligen Beispieltranskript abrufen lassen. Den Autor: innen ist für ihre mutige Entscheidung nicht genug zu danken und Respekt zu zollen insbesondere dann, wenn es sich um Ausschnitte aus den eigenen Forschungsdaten handelt. Das Angebot des Zusatzmaterials ermöglicht neben der größeren Anschaulichkeit, Informativität und Nachvollziehbarkeit vor allem jedoch die Transparenz der je eigenen Vorgehensweisen. Die auf diese Weise überaus nachvollziehbare Darstellung des Transkripts sowie seines Herstellungsprozesses leistet somit einen Beitrag zum Gütekriterium der „ textuellen Performanz “ (Strübing et al. 2018: 93; s. a. Deppermann 2018: 60). Durch die Offenlegung der konkreten Datenbasis wird die Nachvollziehbarkeit (und ggf. Diskussion) der jeweiligen Transkriptionsentscheidungen ermöglicht und somit eine wesentliche Qualitätsanforderung an Annotations- und Transkriptionsprozesse erfüllt. Zugleich wird auf diese Weise die spezifische Leistung von Transkription und Annotation deutlich, die in der Zugänglichmachung von Daten (unabhängig davon, ob sie gesprochene Sprache, authentische multimodale Interaktion, multimediale Daten sind) für die weitere Analyse besteht und die hier in den Beiträgen auch den Blick auf einzelne Phänomene anschaulich lenkt. Es handelt sich folglich nicht um einfache illustrative Beigaben, sondern um eine spezifische Lösung darstellungslogischer Fragen in Bezug auf textuelle Performanz, die wiederum notwendige Adaptionen für verschiedene disziplinäre Zwecke aufzeigt. Im Folgenden werden die vier Teilabschnitte des Bands kurz vorgestellt sowie die einzelnen Aufsätze auf der Basis der vorangestellten Abstracts. Einführung 11 Phonetik In diesem Abschnitt sind drei Artikel versammelt, die zum einen die Annotation sogenannter para- und extralinguistischer phonetischer Phänomene wie Pausen, Atemgeräusche und interaktionale Sprechersignale sowie Prosodie in Gänze zum Gegenstand haben. Dabei werden praktische Vorschläge zum Umgang mit spezifischen komplexen Phänomenen gemacht. Zum anderen wird mit DIMA (Kügler et al. i. d.Bd.) ein ganzes System zur Deskription von prosodischen Phänomenen und Merkmalen vorgestellt, welches seine Anwendung an einen breiten Nutzerkreis adressiert. Frank Kügler (Frankfurt a. M.), Stefan Baumann (Köln) und Christine T. Röhr (Köln) präsentieren in ihrem Beitrag Deutsche Intonation, Modellierung und Annotation (DIMA) - Richtlinien zur prosodischen Annotation des Deutschen das von ihnen entwickelte System zur prosodischen Annotation des Deutschen. Das Ziel besteht darin, den Annotationsprozess durch eine relative Theorieneutralität zu vereinfachen. Im System DIMA werden phonetische und phonologische Kriterien integriert, indem eine phonetisch orientierte Repräsentation einer intonatorischen Oberflächenkontur angestrebt wird, die gleichzeitig den phonologischen Kern der Kontur abbildet. Das Ziel für Zwecke der Anwendung besteht darin, dadurch die Vergleichbarkeit von prosodisch annotierten Korpora zu ermöglichen. Der Beitrag ermöglicht durch die Hinzufügung der Audiomaterials in besonderer Weise im Sinne der intendierten Richtlinien zu Trainingszwecken sowie Eichungsprozessen für Annotator: innen genutzt zu werden. Jürgen Trouvain (Saarbrücken) und Raphael Werner (Saarbrücken) stellen in ihrem Beitrag A phonetic view on annotating speech pauses and pause-internal phonetic particles die Pause und ihre Komplexität in den Mittelpunkt. Der Beitrag vermittelt Einsicht in die Vielschichtigkeit von Sprechpausen und ihren phonetischen Komponenten. Neben einer kurzen Einführung zu den Hauptfunktionen von Sprechpausen diskutieren die Autoren die hauptsächlichen Herausforderungen beim Definieren, Detektieren, Segmentieren und Annotieren. Sie illustrieren diese anhand von Ausschnitten aus Gesprächskorpora. Der Fokus liegt dabei auf Atemgeräuschen als phonetischen Bestandteilen in sogenannten „ stillen “ Pausen. Heike Baldauf-Quilliatre (Lyon) widmet sich in ihrem Beitrag Zur Transkription von Lautobjekten in der Gesprächsanalyse einem die gesprächsanalytische Transkription herausfordernden Phänomen, den Lautobjekten (non-lexical vocalizations, liminal signs). Lautobjekte sind eine Herausforderung, da sie nicht oder nur bedingt orthographisch transkribiert werden können, phonetisch aber eine erhebliche Variabilität aufweisen. Für ein besseres Verständnis der Interaktionsorganisation ist eine präzise und konzise Tran- 12 Cordula Schwarze & Sven Grawunder skription jedoch unerlässlich. Baldauf-Quilliatre plädiert in Bezug auf die Lautobjekte für eine systematische Integration phonetischer Transkription in ein gesprächsanalytisches Basistranskript und untersetzt dies sowohl mit herkömmlichen Praktiken der Transkription von Lautobjekten in der Konversationsanalyse als auch mit einer Beispielanalyse des Lautobjekts „ pff “ . Multimodalität Der Abschnitt zur Transkription von multimodaler Interaktion fokussiert spezielle Transkriptionsprobleme, die durch Videodaten sowie multimediale Daten als Datengrundlage relevant werden. Multimodalität ist zunächst „ eine unhintergehbare Qualität der Ursprungssituation [ … ] mithin der empirische Normalfall “ (Mondada & Schmitt 2010: 32). Erst wenn auf Video aufgezeichnet wird, ist eine Unterscheidung erforderlich zwischen dieser grundlegenden Eigenschaft von face-to-face-Interaktion und den daraus folgenden analytischen Konsequenzen (und auch einzelnen Ebenen, s. Mondada & Schmitt 2010: 24 f.) durch diese Art ihrer Zugänglichmachung. Dieser Bereich der Multimodalitätsforschung ist ein dynamisches Feld mit vielen neuen, weitgehend technikgetriebenen Entwicklungen. Videodaten multimodaler Interaktion, die sich als eigenständige Art von Daten nicht nur durch Addition von Datenfülle auszeichnen (Ayaß 2015: 506), werfen allerdings in Bezug auf die Transkription von Multimodalität, d. h. in Bezug auf die Sukzessivität bzw. Sequenzialität und Simultaneität von Handlungen, also das Verhältnis von Zeitlichkeit und Räumlichkeit, oder die Relevanz zu transkribierender Phänomene, neue Fragen auf. Denen wird mit der Entwicklung neuer Trankriptionskonventionen Rechnung getragen (z. B. Mondada 2016; Stukenbrock 2009; s. a. Dix i. d.Bd.). Zudem lässt diese Veränderung den epistemischen Status des Transkripts im Forschungsprozess selbst überdenken. Zum einen sind durch die Überfülle der Daten multimodale Transkripte nicht so gestaltet, dass sie „‚ alle ‘ wesentlichen Informationen enthalte[n] und in der Analyse nur hin und wieder auf die Tonaufnahmen rekurriert werden müsse “ (Stukenbrock 2009: 147 f.), zum anderen ist das multimodale Transkript „ weniger die Grundlage einer Datenanalyse als vielmehr ihr Produkt “ (Deppermann 2018: 57). Vor diesem Hintergrund befassen sich die vier Aufsätze des Abschnitts mit folgenden Themen: Im Beitrag von Carolin Dix (Bayreuth) GAT2 trifft das International SignWriting Alphabet (ISWA): Ein neues System für die Transkription von Multimodalität steht die produktive Verbindung zweier Transkriptionssysteme im Mittelpunkt. Angesetzt wird an einem Defizit des verbreiteten Gesprächsanalytischen Transkriptionssystems GAT 2, das für die Transkription visuell-leiblicher Ressourcen sowie multimodaler Aspekte der Interaktion nur Einführung 13 eingeschränkt Lösungen bereithält. Der Beitrag stellt ein neues Transkriptionssystem vor, das bestehende Konventionen mit dem Zeicheninventar des International SignWriting Alphabet (ISWA) verknüpft. Das Transkriptionssystem ist eine standardisierte, forschungsübergreifende und dennoch an die Daten, den Transkriptionszweck und die jeweilige Forschungsfrage anpassbare Konvention für die Transkription von Videodaten, die keine verbale Beschreibung visueller Handlungen mehr notwendig macht. Ingmar Rothe (Leipzig) plädiert in seinem Beitrag Die Transkription folgt den Daten: Multikonventionelles Transkribieren für eine hochgradig datensensitive und angepasste Notationsweise innerhalb konversationsanalytischer, videografischer Forschungsarbeiten. Ausgehend von der Feststellung, dass derzeit für die Notation multimedial erhobener Daten kein einheitlicher Standard existiert, werden die verschiedenen einschlägigen Notationsweisen anhand eines Datenfragments miteinander verglichen. Darauf aufbauend wird ein integrativer Vorschlag abgeleitet und zur Diskussion gestellt. Der Beitrag stärkt die Position, dass die Entscheidung für eine Notationsweise nicht apriori zu treffen ist, sondern vielmehr von verschiedenen Faktoren des Prozesses abhängt. Im Beitrag Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren von Sandra Reitbrecht (Wien) wird Transkription als Werkzeug im Kontext eines schreibdidaktisch grundierten Forschungsprojekts zu Erklärvideos betrachtet. Offen ist derzeit, wie ein angemessener forschungsmethodischer Zugang zu Erklärvideos als Datenbasis gestaltet sein muss. Am Beispiel screencast-basierter schreibdidaktischer Modellvideos wird gezeigt, wie bestehende Verfahren zur Inventarisierung und Transkription multimodaler Daten auf einen neueren Untersuchungsgegenstand angewandt werden können. Insbesondere fokussiert die Autorin den Mehrwert gesprächsanalytischer Zugänge, wenn es um das präzise Aufzeigen räumlich-zeitlicher Koordination beim Erklären bzw. Modellieren von Vorgängen geht. Daniel Pfurtscheller (Innsbruck) beschäftigt sich im Beitrag Medienlinguistisch transkribieren. Transkriptions- und Annotationspraktiken in der qualitativen Forschung zu digitaler Medienkommunikation mit den Herausforderungen multimodaler Transkription im Kontext solcher medienlinguistischen Fragestellungen, die den Fokus auf digitale Multimodalität und die Untersuchung digitaler und audiovisueller Formate in medienvermittelter Kommunikation legen. Anhand exemplarischer Fälle von Social-Media- Interaktion wird gezeigt, welche medialen Bedingungen multimodales Transkribieren in digitalen Medien antrifft und wie Transkripte als Arbeitsmittel zur Analyse und Darstellung von digitaler Multimodalität angelegt sein können. 14 Cordula Schwarze & Sven Grawunder Mehrsprachigkeit Nicht nur multimodale sowie multimediale Daten erweitern die Herausforderungen für den Prozess der Transkription und für Konventionenentwicklung, sondern auch mehrsprachige Datenbasen. Diese Herausforderungen, die bereits aus der Mehrsprachigkeitsforschung (z. B. Rehbein et al. 2014) und der Sprachdokumentation (z. B. McConvell 2003; Schultze-Berndt 2008; Seifart et al. 2018) bekannt sind, verstärken sich insbesondere dann, wenn sich auch die Schriftsysteme deutlich unterscheiden. All das hat wiederum Auswirkungen auf die Publikationspraxis sowie die Darstellungsweisen in Transkripten; nicht zuletzt ist Mehrsprachigkeitskompetenz für die verschiedenen transkribierten Sprachen erforderlich. Die Bedeutung solcher erarbeiteten und getesteten Lösungsvorschläge geht daher über die präsentierten linguistischen Kontexte hinaus. Im Beitrag von Rahaf Farag (Mainz) und Bernd Meyer (Mainz) zu Telefondolmetschen Arabisch-Deutsch: Gesprächstranskription im Spannungsfeld von Mehrsprachigkeit, schriftlichem Standard und Varietätenvielfalt wird zunächst die Notwendigkeit eines reflektierten computergestützten Transkriptionsverfahrens für interaktionsbezogene Untersuchungen anhand von per Telefon gedolmetschten Gesprächen zwischen einer deutschsprechenden Asylverfahrensberaterin und arabischsprechenden Klient: innen diskutiert. Ein für solche Daten zentraler Aspekt wird adressiert: Gesprächstranskription erfordert die Verwendung eines romanisierten, rechtsläufigen Schriftsystems für die schriftliche und grafische Darstellung der zeitlichen Dimensionen des sprachlichen Handelns. Die von Farag und Meyer entwickelte transparente Systematik zur Romanisierung und Übersetzung dieser Gesprächsdaten reduziert ihre Opazität für ein Publikum ohne Arabischkenntnisse sowie Sprachkundige ohne Kenntnis der rekonstruierten Varietäten. Dadurch wird ein Beitrag zur Lesbarkeit geleistet, der für Fragen der Datenkuratierung und Nachnutzung in seiner Bedeutung nicht zu unterschätzen ist. Im Beitrag von Kathrin Wild (Flensburg) zu Herausforderungen bei der Transkription und Annotation von mehrsprachigen Audio- und Videodaten und mögliche Lösungen in einem empirischen Forschungsprojekt zum frühen gleichzeitigen Fremdsprachenlernen werden die Überlegungen zur Transkription an die mehrsprachigen Daten eines empirischen Forschungsprojekts im Bereich der Sprachlehr- und -lernforschung angebunden. Aufbauend auf Reflexionen zur Sprachenwahl in Transkriptionen und Annotationen sowie zum Umgang mit mehrsprachigen Phänomenen und nichterstsprachlichen Äußerungen werden Anforderungen an Transkribierende und Übersetzende abgeleitet. Anhand von ausgewählten Beispielen mehrsprachiger Einführung 15 Unterrichtsinteraktionen werden die dort getroffenen Transkriptionsentscheidungen und ihre Umsetzungen kritisch hinterfragt. Carmen Konzett-Firth (Innsbruck) beschäftigt sich in Transkriptionspraxis in mehrsprachigen Forschungskontexten. Eine Bestandsaufnahme aktueller Praktiken von Verweisen auf Transkripte im Fließtext mit einem sehr speziellen, aber für Forschende in diesem Bereich höchst relevanten Problem von mehrsprachigen Transkripten und ihrer Publikation. Im methodologischen Rahmen der Gesprächsanalyse ist es übliche Publikationspraxis, in Sprachen, die nicht dem besprochenen bzw. analysierten Idiom entsprechen, Transkripte von Gesprächsdaten zu übersetzen. Offen ist dabei die Frage, wie im Fließtext der Analyse auf eine solche mehrsprachige bzw. übersetzte Transkription verwiesen bzw. wie daraus zitiert wird. Der Beitrag nimmt eine Bestandsaufnahme von aktuell in der Konversationsanalyse üblichen Praktiken der Bezugnahme auf Transkripte in einem mehrsprachigen Kontext vor und diskutiert verschiedene Formen von Fließtextverweisen in Bezug auf Kriterien wie Verständlichkeit, Nachvollziehbarkeit und Lesbarkeit. Methodologie & Methodik Im letzten Abschnitt werden ausgewählte offene methodologische Fragen bearbeitet. Dabei werden die Möglichkeiten einer (automatisierten) Reliabilitätsprüfung subjektiver Annotationen untersucht, die Transparenz von Annotationsschemata und Offenlegung der Transkriptionsentscheidungen bei wechselnden Bearbeiter: innen desselben Materials, Konsensfähigkeit und Konsensherstellung der Entscheidungen (z. B.: Was ist relevant, perzipierbar, intersubjektivierbar? Gibt es Abstufungen? ) sowie abschließend die FAIR-Prinzipien für Forschungsdatenmanagement dargestellt und mit konkret daraus resultierenden Empfehlungen verknüpft. Yvonne Kathreins (Innsbruck) Beitrag Wann ist „ gut “ gut? Problemfelder und Lösungsansätze zur Bearbeitung und Interpretation dialektaler Teuthonista-Transkripte stellt die Daten des Tiroler Dialektarchivs in den Mittelpunkt. Die Daten des Dialektarchivs bilden zum einen eine umfangreiche Forschungsgrundlage zu einzelnen Ortsdialekten Tirols. Zum anderen - und das wird im Beitrag fokussiert - stellt das Material die Bearbeiter: innen vor mehrfache methodisch-methodologische Herausforderungen: Unterschiedliche Verschriftlichungskonventionen der Explorierenden oder eine mögliche Orientierung derselben am phonologischen System der eigenen Varietät etwa lassen das Material zunächst als inhomogen, wenig reliabel und intransparent erscheinen. Im Beitrag werden Lösungen dafür vorgestellt, um die Daten für unterschiedliche wissenschaftliche Zwecke verfügbar zu machen. 16 Cordula Schwarze & Sven Grawunder Ines Bose (Halle-Wittenberg), Sven Grawunder (Frankfurt a. M.), Cordula Schwarze (Innsbruck) und Anna Schwenke (Greifswald) ermitteln in ihrem Beitrag zu Reliabilität und Inter-Annotator-Agreement bei der Prosodie- Transkription die Übereinstimmung von Transkriptionsentscheidungen verschiedener Transkribent: innen zum gleichen Interaktionsdokument in Bezug auf die prosodischen Merkmale Gliederung, Akzentuierung und Endmelodieverlauf als Inter-Annotator-Agreement anhand des Koeffizienten Krippendorffs Alpha. Die explorative Vorstudie soll die Eignung eines solchen Vorgehens sowie die Anwendung von Krippendorffs Alpha innerhalb des Rahmens der gesprächsanalytischen Transkription authentischer Interaktion prüfen. Im Hinblick auf die Anwendung können abschließend Schlussfolgerungen für Qualitätsfragen der Transkription als Teil der professionellen Praxis angedeutet werden. Hanna Hedeland (Mannheim) behandelt in ihrem Beitrag FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten: Empfehlungen und offene Fragen die mittlerweile als Bestandteil guter wissenschaftlicher Praxis anerkannten FAIR-Prinzipien (Findable, Accessible, Interoperable, Reusable) in Bezug auf die Transkription und Annotation gesprochener Sprache und multimodaler Interaktion. Der Beitrag versucht, empirische Methoden im Prozess der Digitalisierung und generische Prinzipien des digitalen Forschungsdatenmanagements zusammenzubringen, um für diesen Kontext einem operationalisierten Begriff der „ FAIRness “ näher zu kommen und möglichst konkrete Empfehlungen aufzustellen. Der Beitrag möchte zugleich eine Diskussion anstoßen, denn konkrete Anforderungen in Bezug auf das Forschungsdatenmanagement und die Datenqualität müssen von den Fachgemeinschaften selbst herausgearbeitet werden. Lektüreanleitung: In der Marginalspalte finden Sie verschiedentlich QR-Codes. Diese verweisen auf Zusatzmaterial, z. B. in Form von Audio- oder Videodateien, auf die sich der nebenstehende Text bezieht. Sie finden es im Online-Shop des Verlags (https: / / www.narr.de/ ) bei diesem Buch unter dem Reiter ‚ Zusatzmaterial ‘ . Alternativ können Sie auch den QR-Code scannen und so direkt darauf zugreifen. Für Nutzer: innen des eBooks befindet sich unter dem QR-Code ein Link, der über einen Klick direkt zu dem Material im Shop führt. Einführung 17 Literaturverzeichnis Ayaß, Ruth. 2015. Doing data: The status of transcripts in Conversation Analysis. Discourse Studies 17(5). 505 - 528. Bird, Steven & Max Liberman. 2001. A formal framework for linguistic annotation. Speech Communication (33). 23 - 60. Birkner, Karin, Peter Auer, Angelika Bauer & Helga Kotthoff. 2020. Einführung in die Konversationsanalyse. Berlin/ Boston: De Gruyter. Birkner, Karin & Anja Stukenbrock (Hrsg.). 2009. Die Arbeit mit Transkripten in Fortbildung, Lehre und Forschung. Mannheim: Verlag für Gesprächsforschung. Bose, Ines. 2001. Methoden der Sprechausdrucksbeschreibung am Beispiel kindlicher Spielkommunikation. Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion 2. 262 - 303. Bressem, Jana. 2013. Transcription systems for gestures, speech, prosody, postures, and gaze. In Cornelia Müller, Alan Cienki, Ellen Fricke, Silvia Ladewig, David McNeill & Sedinha Teßendorf (eds.), Body - Language - Communication.: An International Handbook on Multimodality in Human Interaction (Handbücher zur Sprach- und Kommunikationswissenschaft 38), 1037 - 1059. Berlin, New York: De Gruyter Mouton. Breuer, Franz, Arnulf Deppermann, Udo Kuckartz, Günter Mey, Katja Mruck & Jo Reichertz. 2014. All is data - Qualitative Forschung und ihre Daten. In Günter Mey & Katja Mruck (Hrsg.), Qualitative Forschung, 261 - 290. Wiesbaden: Springer Fachmedien Wiesbaden. Davidson, Christina. 2009. Transcription: Imperatives for Qualitative Research. International Journal of Qualitative Methods 8(2). 35 - 52. Deppermann, Arnulf. 2008. Gespräche analysieren: Eine Einführung, (Qualitative Sozialforschung 3). Wiesbaden: VS Verlag für Sozialwissenschaften. Deppermann, Arnulf. 2018. Sprache in der multimodalen Interaktion. In Arnulf Deppermann & Silke Reineke (Hrsg.), Sprache im kommunikativen, interaktiven und kulturellen Kontext (Germanistische Sprachwissenschaft um 2020 3), 51 - 85. Berlin, Boston: De Gruyter. Deppermann, Arnulf & Wilfried Schütte. 2008. Data and transcription. In Gerd Antos & Eija Ventola (eds.), Handbook of Interpersonal Communication (Handbooks of Applied Linguistics 2), 179 - 213. Berlin, New York: De Gruyter Mouton. Dittmar, Norbert. 2009. Transkription: Ein Leitfaden mit Aufgaben für Studenten, Forscher und Laien, (Qualitative Sozialforschung 10). Wiesbaden: VS Verlag für Sozialforschung. Du Bois, John W. 1991. Transcription Design Principles for Spoken Discourse Research. Pragmatics 1(1). 71 - 106. Ehlich, Konrad & Jochen Rehbein. 1976. Halbinterpretative Arbeitstranskriptionen (HIAT). Linguistische Berichte (45). 21 - 41. Gülich, Elisabeth & Lorenza Mondada. 2008. Konversationsanalyse: Eine Einführung am Beispiel des Französischen (Romanistische Arbeitshefte 52). Tübingen: Niemeyer. Hepburn, Alexa & Galina B. Bolden. 2013. The Conversation Analytic Approach to Transcription. In Jack Sidnell & Tanya Stivers (eds.), The handbook of conversation 18 Cordula Schwarze & Sven Grawunder analysis (Blackwell handbooks in linguistics), 57 - 76. Malden Mass. u. a.: Wiley- Blackwell. Hepburn, Alexa & Galina B. Bolden. 2017. Transcribing for social research. Los Angeles, London, New Delhi, Singapore, Washington DC, Melbourne: Sage. Ide, Nancy. 2017. Introduction: The Handbook of Linguistic Annotation. In Nancy Ide & James Pustejovsky (eds.), Handbook of Linguistic Annotation, 1 - 18. Dordrecht: Springer Netherlands. Imo, Wolfgang & Jens P. Lanwer. 2019. Interaktionale Linguistik. Berlin: J. B. Metzler. Jenks, Christopher J. 2013. Working with Transcripts: An Abridged Review of Issues in Transcription. Language and Linguistics Compass 7(4). 251 - 261. Kowal, Sabine & Daniel C. O ’ Connell. 2014. Transcription as a Crucial Step of Data Analysis. In Uwe Flick (ed.), The SAGE Handbook of Qualitative Data Analysis, 64 - 78. London: Sage. Laver, John. 1994. Principles of phonetics (Cambridge textbooks in linguistics). Cambridge: Cambridge Univ. Press. Luckmann, Thomas. 1979 a. Verhaltenspartituren: Notation und Transkription. Zeitschrift für Semiotik (1). 149 - 151. Luckmann, Thomas (Hrsg.). 1979 b. Verhaltenspartituren: Notation und Transkription. Zeitschrift für Semiotik (1). McConvell, Patrick. 2003. Multilingual Multiperson Multimedia: Linking Audio-Visual with Text Material in Language Documentation. http: / / hdl.handle.net/ 2123/ 1429. Mondada, Lorenza. 2016. Zwischen Text und Bild: Multimodale Transkription. In Heiko Hausendorf, Reinhold Schmitt & Wolfgang Kesselheim (Hrsg.), Interaktionsarchitektur, Sozialtopographie und Interaktionsraum (Studien zur Deutschen Sprache 72), 111 - 160. Tübingen: Narr. Mondada, Lorenza & Reinhold Schmitt. 2010. Zur Multimodalität von Situationseröffnungen. In Lorenza Mondada & Reinhold Schmitt (Hrsg.), Situationseröffnungen: Zur multimodalen Herstellung fokussierter Interaktion (Studien zur Deutschen Sprache 47), 7 - 52. Tübingen: Narr. O ’ Connell, Daniel C. & Sabine Kowal. 1994. Some current transcription systems for spoken discourse: A critical analysis. Pragmatics 4(1). 81 - 107. Ochs, Elinor. 1979. Transcription as theory. In Elinor Ochs & Bambi B. Schieffelin (eds.), Developmental pragmatics, 43 - 72. New York: Academic Press. Psathas, George & Timothy Anderson. 1990. The ‘ practices ’ of transcription in conversation analysis. Semiotica 78(1 - 2). 75 - 99. Redder, Angelika. 2001. Aufbau und Gestaltung von Transkriptionssystemen. In Klaus Brinker, Gerd Antos, Wolfgang Heinemann & Svend F. Sager (Hrsg.), Text- und Gesprächslinguistik (Handbücher zur Sprach- und Kommunikationswissenschaft16.2; 2. Hb.), 1038 - 1059. Berlin, New York: De Gruyter. Rehbein, Jochen, Thomas Schmidt, Bernd Meyer, Franziska Watzke & Annette Herkenrath. 2014. Handbuch für das computergestützte Transkribieren nach HIAT. Universität Hamburg - Sonderforschungsbereich 538. Einführung 19 Schmidt, Thomas. 2002. Gesprächstranskription auf dem Computer - das System EXMARaLDA. Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion (3). 1 - 23. Schmidt, Thomas. 2007. Transkriptionskonventionen für die computergestützte gesprächsanalytische Transkription. Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion (8). 229 - 241. Schultze-Berndt, Eva. 2008. Linguistic annotation. In Jost Gippert, Nikolaus P. Himmelmann & Ulrike Mosel (eds.), Essentials of Language Documentation (Trends in Linguistics. Studies and Monographs 178), 213 - 252. Berlin, New York: Mouton de Gruyter. Seifart, Frank, Nicholas Evans, Harald Hammarström & Stephen C. Levinson. 2018. Language documentation twenty-five years on. Language 94(4). 324 - 345. Selting, Margret. 2001. Probleme der Transkription verbalen und paraverbalen/ prosodischen Verhaltens. In Klaus Brinker, Gerd Antos, Wolfgang Heinemann & Svend F. Sager (Hrsg.), Text- und Gesprächslinguistik (Handbücher zur Sprach- und Kommunikationswissenschaft16.2; 2. Hb.), 1059 - 1068. Berlin, New York: De Gruyter. Selting, Margret, Peter Auer & et al. 2009. Gesprächsanalytisches Transkriptionssystem 2 (GAT 2). Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion 10. 353 - 402. Shriberg, Lawrence D. & Gregory L. Lof. 1991. Reliability studies in broad and narrow phonetic transcription. Clinical Linguistics & Phonetics 5(3). 225 - 279. Strübing, Jörg, Stefan Hirschauer, Ruth Ayaß, Uwe Krähnke & Thomas Scheffer. 2018. Gütekriterien qualitativer Sozialforschung. Ein Diskussionsanstoß. Zeitschrift für Soziologie 47(2). 83 - 100. Stukenbrock, Anja. 2009. Herausforderungen der multimodalen Transkription: Methodische und theoretische Überlegungen aus der wissenschaftlichen Praxis. In Karin Birkner & Anja Stukenbrock (Hrsg.), Die Arbeit mit Transkripten in Fortbildung, Lehre und Forschung, 144 - 169. Mannheim: Verlag für Gesprächsforschung. Vieregge, Wilhelm H. 1989. Phonetische Transkription: Theorie und Praxis der Symbolphonetik (Zeitschrift für Dialektologie und Linguistik Beihefte 60). Stuttgart: Steiner. 20 Cordula Schwarze & Sven Grawunder A Phonetik & Prosodie Deutsche Intonation, Modellierung und Annotation (DIMA) Richtlinien zur prosodischen Annotation des Deutschen Frank Kügler, Stefan Baumann & Christine T. Röhr Abstract: Dieser Artikel leistet mit der Vorstellung des DIMA-Annotationssystems (Deutsche Intonation - Modellierung und Annotation) einen Beitrag zur Theorie und Praxis prosodischer Annotation am Beispiel des Deutschen. Das Ziel der hier vorgeschlagenen Richtlinien besteht darin, den Annotationsprozess durch eine relative Theorieneutralität zu vereinfachen. In diesem System werden phonetische und phonologische Kriterien integriert, indem eine phonetisch orientierte Repräsentation einer intonatorischen Oberflächenkontur angestrebt wird, die gleichzeitig den phonologischen Kern der Kontur abbildet. In der Anwendung soll schließlich eine Vergleichbarkeit von prosodisch annotierten Korpora erlangt werden. Keywords: Deutsche Intonation, Annotation, Richtlinien, Phrase, Prominenz, Akzentton, Grenzton Präambel Deutsche Intonation wurde bereits in zahlreichen Studien untersucht und dabei anhand unterschiedlicher phonetisch-phonologischer Modelle analysiert und annotiert. Die Modelle reichen von auditiv-deskriptiven Ansätzen (z. B. von Essen 1964; Kieler Intonationsmodell (KIM), Kohler 1991) über phonetisch orientierte Analysen (wie ein quantitatives, parametrisches Modell der Intonation, Möbius 1993) bis hin zu Analysen im Rahmen des autosegmentalmetrischen Ansatzes (z. B. Uhmann 1991, Féry 1993, Grice & Baumann 2002, Peters 2009). Die bisweilen sehr unterschiedlichen Annahmen der Systeme, sogar innerhalb der autosegmental-metrischen Modelle, lassen eine einheitliche Annotation deutscher Intonation nicht zu. Das hier vorgeschlagene Annotationssystem DIMA (Deutsche Intonation - Modellierung und Annotation) versucht - als eine Art autosegmental-metrisches Konsensmodell - auf einer präphonologischen Ebene die Beschreibung der Intonation des Deutschen zu vereinheitlichen, gleichzeitig aber auch die Übersetzbarkeit in bisher entwickelte phonologische Systeme zu gewährleisten (vgl. Kügler et al. 2015). Ein Vergleich von DIMA mit einigen einflussreichen gegenwärtigen Intonationsmodellen (insbesondere zum Deutschen) wird in Kügler et al. (2019) vorgestellt. Die Spannbreite des Vergleichs reicht von Systemen, die eine phonologische Analyse der Daten voraussetzen, wie z. B. ToBI-Modelle (Grice & Baumann 2002), bis hin zu Modellen, die eine dezidiert phonetische Transkription ermöglichen, wie etwa die Initiative zur Entwicklung eines internationalen prosodischen Alphabets (IPrA, Hualde & Prieto 2016; vgl. auch Ahn et al. 2019, Khan 2019). Eine Besonderheit des DIMA-Annotationssystems besteht darin, einzelne prosodische Komponenten (des komplexen Sprachsignals) auf unterschiedlichen, voneinander unabhängigen Ebenen zu erfassen und damit auch die meist komplexen Annotationssymbole bisheriger Modelle zu dekomponieren und zu vereinfachen. Dies erleichtert auch den Annotationsprozess, da während des Annotierens keine Entscheidungen über phonologische Kategorien und deren Funktionen vorgenommen werden müssen, sondern die phonologische Analyse erst nach der DIMA-Annotation erfolgt. Der Annotationsprozess basiert zudem primär auf perzeptuellen Eindrücken und nicht auf dem akustischen Signal wie z. B. beim IPrA (Hualde & Prieto 2016). In DIMA werden im Gegensatz zu bisherigen Modellen phrasale und tonale Eigenschaften des Sprachsignals sowie die Wahrnehmung von Prominenz auf separaten Ebenen (Phrase, Ton, Prominenz) annotiert. Einige Modelle erlauben zwar eine separate Prominenzannotation (KIM, Kohler 1991; IViE, Grabe, Post & Nolan 2001; RAP, Dilley & Brown 2005), aber ein wesentlicher Unterschied liegt in der Interpretation der Assoziation von Prominenz und Ton: Eine als prominent wahrgenommene Silbe muss in DIMA nicht zwangsläufig mit einem Tonakzent verknüpft werden (allerdings ist umgekehrt - wie in den meisten anderen Modellen - ein Tonakzent immer prominent). Somit wird in DIMA mit der Prominenzannotation eine zusätzliche, unabhängige Beschreibungsebene eröffnet, welche nicht durch automatische Regeln bzw. Entscheidungen, die auf anderen Ebenen getroffen wurden, eingeschränkt oder beeinflusst wird. Der zentrale Unterschied zwischen DIMA und anderen Systemen betrifft aber die tonale Annotation: Während in allen bisherigen Systemen komplexe Informationen zu Tonwert, Prominenz und Funktion in einem Akzentbzw. Grenztonlabel vereint werden, weicht DIMA hiervon ab, indem die Komplexität durch eine separate Annotation von tonalen Eigenschaften wahrgenommener 24 Frank Kügler, Stefan Baumann & Christine T. Röhr Phrasengrenzen sowie einer Unterscheidung von Akzenttönen und Nicht- Akzenttönen aufgelöst wird. DIMA erlaubt durch seine oberflächennahe Annotation somit die Differenzierung zwischen phonologischen und phonetischen Aspekten der Intonationsanalyse und liefert zugleich Informationen über das Mapping zwischen phonologischen Kategorien und ihrer phonetischen Implementierung. Mit dieser prä-phonologischen Annotation ist es zum einen möglich, deutsche Intonation in vergleichbarer Weise und unabhängig von unterschiedlichen theoretischen Modellen zu annotieren. Erste Reliabilitätsstudien belegen auch den Anspruch einer relativ leichten Erlernbarkeit des DIMA Systems (vgl. Kügler et al. 2017). Zum anderen ermöglicht DIMA, die Arbeit an wenig erforschten Sprachen und Dialekten oder auch die Analyse der Intonation einer Zweitsprache zu initiieren, da DIMA keine vollständige phonologische Analyse einer tonalen Grammatik für die Annotation voraussetzt. Die nun folgenden Richtlinien beschreiben sowohl die Grundgedanken des DIMA-Systems als auch den genauen, schrittweisen Annotationsprozess. Alle im Text angegebenen Audiobeispiele wurden mithilfe der change gender Funktion in Praat (Boersma & Weenink 2017) verfremdet und sind zusammen mit einem Praat TextGrid über den jeweiligen QR Code abrufbar. 1 Ziel Das Ziel dieser Richtlinien besteht darin, ein Konsenssystem zur Annotation der Intonation des Deutschen vorzuschlagen: DIMA (Deutsche Intonation - Modellierung und Annotation). Es basiert auf den Grundannahmen des autosegmentalmetrischen Ansatzes zurAnalyse von Intonation (Pierrehumbert 1980, Beckman & Pierrehumbert 1986, Gussenhoven 2004, Ladd 2008). Das Konsenssystem versucht, die phonologisch relevanten prosodischen Ereignisse von Äußerungen zu ermitteln, die entweder der Hervorhebung oder der Abgrenzung sprachlicher Einheiten dienen, und stützt sich dabei auf dezidiert phonetische Kriterien ( “ phonetically informed phonological annotation ” ). Mit dieser Integration phonetischer und phonologischer Kriterien soll eine Vergleichbarkeit von Daten/ Korpora unterschiedlicher Arbeitsgruppen im deutschsprachigen Raum gewährleistet werden. Zwei Kriterien soll das System erfüllen: (i) Es soll leicht erlernbar bzw. trainierbar und damit transparent sein sowie eine hohe Reliabilität zwischen den AnnotatorInnen erzielen. (ii) Das Basistranskript soll grundsätzlich (automatisch) in die phonologischen Systeme der verschiedenen Intonationsmodelle des Deutschen (z. B. Féry 1993, 2012, Mayer 1995, Grice, Baumann & Benzmüller 2005, Peters 2009, 2014) übersetzbar sein. Daraus ergibt sich, dass die (eigent- Deutsche Intonation, Modellierung und Annotation (DIMA) 25 liche) phonologische Interpretation der Daten zu einem späteren Zeitpunkt als die Annotation erfolgt. Somit ist die angestrebte Annotation entsprechend dem Konsenssystem DIMA als eine phonetisch orientierte Repräsentation einer intonatorischen Oberflächenkontur zu betrachten, die jedoch den phonologischen Kern der Kontur abbildet. 2 Voraussetzungen und Annahmen 2.1 Voraussetzungen Für die Annotation von Intonation nach DIMA wird folgendes Grundwissen vorausgesetzt: 1. Kenntnis des autosegmental-metrischen Ansatzes der Intonationsanalyse (vgl. Gussenhoven 2004, Ladd 2008, Peters 2014). 2. Kenntnis mikroprosodischer Einflüsse von Vokalen und Konsonanten auf die Grundfrequenz (vgl. Möbius, Zimmermann & Hess 1987, Ohala & Eukel 1987, Kohler 1990, Whalen & Levitt 1995, Kap. 3.4.2 in Grice & Baumann 2016). 3. Erfahrungen mit der Perzeption von Tönen, Akzenten und Intonationsphrasen (vgl. Grundlagen der Prosodie auf der GToBI-Webseite, www.gtobi. uni-koeln.de). 2.2 Annahmen Für die Annotation von prosodischen Phänomenen in gesprochener Sprache nehmen wir drei Ebenen der prosodischen Annotation sowie eine zusätzliche Ebene für Kommentare an. (Die Durchführung der Annotation wird hier in Praat (Boersma & Weenink 2017) illustriert.) Wir empfehlen, diese vier Ebenen als point tiers zu verwenden. Auf den drei Ebenen der Prosodie werden jeweils unabhängig voneinander Phrasengrenzen, Töne und die relative Prominenz von Wörtern innerhalb einer Phrase gekennzeichnet. Darüber hinaus sollte es Textebenen geben, die mindestens eine Wortebene und eine Silbenebene beinhalten (1). Die Annotation der Tonebene und der Prominenzebene erfolgen grundsätzlich mit Bezug auf Silben. 26 Frank Kügler, Stefan Baumann & Christine T. Röhr Abb. 1: Ebenen der prosodischen Annotation nach DIMA. Die einzelnen Ebenen sind von oben nach unten folgendermaßen benannt: Wort, Silbe, Phrase, Ton, Prominenz, Kommentar. Die Silbenebene ist hier in SAMPA (Wells 1997) transkribiert; dies ist keine notwendige Voraussetzung für DIMA. Jede Ebene wird in einem Annotationsprozess nacheinander und unabhängig von den anderen Ebenen annotiert. Die Unabhängigkeit der Ebenen hat den Vorteil, dass z. B. prosodische Grenzen und Prominenzen nicht in Bezug auf Töne annotiert werden müssen, sondern allein aufgrund ihrer phonetischen Eigenschaften und perzeptiven Wahrnehmung als Grenze oder Prominenz. Grenzen müssen mit Tönen einhergehen, die allerdings erst in einem späteren Schritt annotiert werden. Ein Prominenzlabel dagegen, egal welcher Stufe, muss kein korrespondierendes Tonlabel zugewiesen bekommen (vgl. Kapitel 3.3 „ Tonebene “ ). Auf jeder Ebene der Annotation gibt es die Möglichkeit, Unsicherheiten mit einem „ ? “ zu kennzeichnen. Generell werden Diakritika, die ein Label modifizieren, unmittelbar links vor das betreffende Label gesetzt. Für die prosodische Annotation wird das Symbolinventar gemäß Tabelle 1 festgelegt. Die Symbole sind im Wesentlichen dem klassischen ToBI-System (Beckman & Ayers-Elam 1997) entlehnt. Die Verwendung der einzelnen Symbole wird im Folgenden erläutert und anhand von Beispielen illustriert. Es ist zu beachten, dass die Symbole per se keine Bedeutung tragen, wie z. B. die Markierung von Fokus oder Kontrast. Die DIMA-Annotation dient aber als geeignetes Hilfsmittel für die Untersuchung der Relation zwischen der intonatorischen Form sprachlicher Einheiten und ihrer semantisch-pragmatischen Bedeutung im Diskurs. Deutsche Intonation, Modellierung und Annotation (DIMA) 27 Ebene Symbole Diakritika Phrase % - ! ^ & ? Ton H* L* H L ! ^ < > ? Prominenz 1 2 3 ? Kommentar z. B. alternative Annotation mit vorangehendem ? Tab. 1: Symbole für die prosodische Annotation auf den vier Ebenen. 2.3 Praat-Einstellungen und praktische Hinweise für die Annotation Im Annotationsprogramm ist eine Anordnung der Tonebene zwischen der Phrasen- und Prominenzebene zu empfehlen (Abb. 1), da unterschiedliche Arten von Tonlabeln mit Phrasen- oder Prominenzmarkierungen aligniert werden müssen. Für die Darstellung der Tonhöhe bei der Annotation in Praat sollen speckles verwendet, ein Tonhöhenumfang in Abhängigkeit vom Geschlecht des Sprechers/ der Sprecherin gewählt und die gewählten F0-Einstellungen für denselben/ dieselbe SprecherIn beibehalten werden. Praktische Hinweise für die Einstellungen in Praat sind auf der DIMA-Webseite zu finden: http: / / dima. uni-koeln.de. Auf der DIMA-Webseite werden auch Hinweise zum Vorgehen bei Zweifelsfällen gegeben. Zum einen betrifft dies die Möglichkeit der Resynthese einer Audiodatei, um ein Minimalpaar für die Identifizierung möglicher funktionaler Unterschiede einer Kontur zu erzeugen. Zum anderen wird die Möglichkeit des verlangsamten Abspielens einer Audiodatei erläutert, wodurch der Höreindruck für das Auftreten derTöne auf den entsprechenden Silben geschärft werden kann. 3 Annotationsprozess Die prosodische Annotation basiert grundsätzlich auf den relationalen Höreindrücken der Annotierenden, die in prosodische Kategorien (hier: das Inventar in Tab. 1 oben) klassifiziert werden. Die Annotation erfolgt in mehreren Schritten auf drei eigenständigen Ebenen. Grundsätzlich wird empfohlen, zuerst die Phrasenebene, als Zweites die Prominenzebene und als Letztes die Tonebene zu annotieren. Entsprechend dieser Abfolge werden die einzelnen Ebenen im Folgenden erläutert. Dieses Vorgehen lenkt die Aufmerksamkeit auf einzelne Aspekte des komplexen prosodischen Ereignisses und erleichtert somit z. B. die Entscheidung über die Anbzw. Abwesenheit einer Grenze oder der Prominenzstufe unabhängig vom tonalen Wert einer Silbe. Außerdem soll auf Phrasenebene begonnen werden, weil die Einteilung in prosodische Phrasen mit 28 Frank Kügler, Stefan Baumann & Christine T. Röhr starker Grenze die Domäne für die weitere Annotation definiert. Dies hat zur Folge, dass weitere Grenzmarkierungen, Prominenzen und Töne immer phrasenweise annotiert werden. Des Weiteren wird empfohlen, zur Identifikation der Phrasengrenzen und der Prominenzen die F0-Kontur auszublenden, um sich allein auf den Höreindruck konzentrieren zu können. Idealerweise soll die Bestimmung der Töne ebenfalls zunächst ohne F0-Kontur erfolgen. Die Alignierung der Tonlabel kann dann in einem zweiten Schritt mit eingeblendeter Tonhöhe durchgeführt werden. Unsicherheit bei der Annotation kann immer durch ein „ ? “ an der linken Seite des jeweiligen Labels (ggfs. in Verbindung mit einer alternativen Annotation auf Kommentarebene) ausgedrückt werden (siehe hierzu auch Kapitel 3.4 „ Kommentarebene “ ). Eine Kurzanleitung zu den Annotationsrichtlinien ist Tabelle 3 im Anhang zu entnehmen ( ► eContent_KU_s). 3.1 Phrasenebene 3.1.1 Grundlegendes Auf der Phrasenebene werden zwei Phrasentypen anhand der folgenden Label unterschieden: % = prosodische Phrase mit starker Grenze - = prosodische Phrase mit schwacher Grenze Gemäß der prosodischen Hierarchie (Selkirk 1984, Nespor & Vogel 1986) nehmen wir an, dass eine prosodische Phrase mit schwacher Grenze von einer prosodischen Phrase mit starker Grenze dominiert wird. Grundsätzlich postulieren wir damit zwei Ebenen der Phrasierung, die jedoch (so theorieneutral wie möglich) in erster Linie über die relative Stärke der Grenzen ausgedrückt werden (siehe Kapitel 3.1.2). Phonetisch-perzeptive Kriterien für eine Grenze sind eine Pause, phrasenfinale Längung, eine phrasenfinale tonale Bewegung, Tonhöhen-Reset sowie segmentale Phänomene wie Laryngalisierung oder creaky voice. Je nach Ausprägung dieser Kriterien wird eine starke oder schwache Grenze annotiert. 3.1.2 Annotation der Phrasenebene Grundsätzlich werden der Beginn und das Ende einer prosodischen Phrase annotiert. Dies gilt für beide Phrasentypen. Wenn eine Pause zwischen den Phrasen vorhanden ist, werden zwei Phrasenlabel, jeweils eins für das Ende der ersten und den Beginn der zweiten Phrase annotiert. Wenn keine Pause vorhanden ist, wird nur ein Phrasenlabel annotiert, das zugleich das Ende Deutsche Intonation, Modellierung und Annotation (DIMA) 29 der ersten und den Beginn der zweiten Phrase markiert. Abbildung 2 illustriert das Vorkommen zweier Phrasentypen in einer Äußerung. Im Annotationsprozess wird also zunächst eine Phrase mit starker Grenze identifiziert und deren linke und rechte Grenze annotiert. Innerhalb dieser Phrase werden dann gegebenenfalls weitere schwache Phrasengrenzen annotiert. Das heißt, dass eine Phrase mit schwacher Phrasengrenze immer innerhalb einer Phrase mit starker Grenze auftritt. Hinweise zur Annotation der Phrasenebene Die Entscheidung, ob eine Grenze als stark oder schwach zu bewerten ist, ist sprecherabhängig, d. h. für jeden/ jede SprecherIn muss ein eigenes perzeptives Bezugssystem entwickelt werden, innerhalb dessen ein/ eine AnnotatorIn die relative Stärke einer Grenze beurteilen kann. Dies setzt (idealerweise) voraus, dass genug Sprachmaterial eines Sprechers/ einer Sprecherin zur Verfügung steht. Abb. 2: Beispiel „ Peking “ (aus DIRNDL, Eckart et al. 2012); ► eContent_KU_a.wav: Illustration von starken und schwachen Phrasengrenzen. Starke Grenzen werden hier jeweils vor und nach Pausen markiert, die schwache Phrasengrenze tritt an einer Stelle ohne Pause, aber mit deutlicher glottaler Grenzmarkierung durch den Glottalverschluss vor „ in “ auf, und wird nur einfach markiert. (Für eine vollständige Annotation s. Abb. 11 und ► eContent_KU_b.TextGrid) 3.1.3 Diakritika auf Phrasenebene Für Unterschiede im Tonhöhenumfang (pitch range) zwischen zwei oder mehreren Phrasen werden zwei Arten von Diakritika verwendet: Downstep „ ! “ und Upstep „ ^ “ (vgl. Ladd 1988, van den Berg, Gussenhoven & Rietveld 1992). eContent_KU_a. wav eContent_KU_b. TextGrid 30 Frank Kügler, Stefan Baumann & Christine T. Röhr In DIMA wird eine starke oder schwache Phrasengrenze mit den Diakritika für Downstep und Upstep versehen, wenn das Tonhöhenregister der jeweiligen Phrase verschoben oder durch eine unterschiedliche Tonhöhenspanne (reduzierte bzw. erweiterte pitch span: Ladd 2008) gekennzeichnet ist. Nur der Beginn des Bruchs im Register - Downstep oder Upstep - wird markiert, und zwar direkt links vom Phrasenlabel (Abb. 3a & 3b, sowie das nachfolgende Beispiel in Abb. 4). In einer Phrase kann also beispielsweise die absolute F0 eines L* höher sein als die F0 eines H* in einer nachfolgenden herabgestuften Phrase (Abb. 13). An der rechten Phrasengrenze wird kein Diakritikum gesetzt. Bleibt das Tonhöhenregister verschoben, gibt es keinen Tonhöhenregisterbruch, der markiert werden muss (Abb. 5 für phrasalen Downstep und Abb. 6 für phrasalen Upstep). Kehrt das Tonhöhenregister hingegen zu seinem Ausgangslevel zurück, kann dieser Tonhöhenbruch durch ein entsprechendes Diakritikum gekennzeichnet werden, sofern diese Verschiebung des Tonhöhenregisters perzeptuell auffällig ist (Abb. 6). a) b) Abb. 3: a) Downstep des Tonhöhenregisters auf Phrasenebene; b) Upstep des Tonhöhenregisters auf Phrasenebene. Abb. 4: Beispiel „ schmutzig “ (aus Datenerhebung für DFG-Projekt BA 4734/ 1); ► eContent_KU_c.wav: Illustration eines phrasalen Downsteps. Zu Beginn der reduzierten Phrase ( „ protestiert Karl “ ) wird ein „ ! “ links vom Phrasenlabel annotiert. (Für eine vollständige Annotation s. Abb. 15 und ► eContent_KU_d.TextGrid) eContent_KU_c. wav eContent_KU_d. TextGrid Deutsche Intonation, Modellierung und Annotation (DIMA) 31 Abb. 5: Beispiel „ Polen “ (aus „ Harald Schmidt Show “ vom 6.5.2011); ► eContent_KU_e. wav und ► eContent_KU_f.TextGrid: Illustration eines phrasalen Downsteps, der sich über zwei Phrasen erstreckt; zu Beginn der ersten herabgestuften Phrase wird ein „ ! “ links vom Phrasenlabel annotiert; die folgende Phrase verläuft in etwa im selben abgesenkten Tonhöhenregister und wird nicht weiter markiert. Abb. 6: Beispiel „ Topseller “ (aus Datenerhebung für SFB 632 „ Informationsstruktur “ , Projekt T2); ► eContent_KU_g.wav und ► eContent_KU_h.TextGrid: (i) Illustration eines phrasalen Upsteps über zwei Phrasen mit anschließender Rückkehr zum Ausgangslevel. Zu Beginn der ersten heraufgestuften Phrase wird ein „ ^ “ links vom Phrasenlabel annotiert. Nach der zweiten heraufgestuften Phrase kehrt das Tonhöhenregister zum Ausgangslevel zurück. Dies wird zu Beginn der zurückgestuften Phrase durch ein „ ! “ links vom Phrasenlabel markiert. (ii) Illustration einer Häsitation, die eine eigene Phrase bildet. eContent_KU_e. wav eContent_KU_f. TextGrid eContent_KU_g. wav eContent_KU_h. TextGrid 32 Frank Kügler, Stefan Baumann & Christine T. Röhr Neben der weitgehend linguistisch determinierten Einteilung in prosodische Phrasen mit starker und schwacher Grenze können insbesondere in spontaner Sprache Disfluenzen vorkommen, die sich in eine Phrase integrieren oder eine Phrase unterbrechen, z. B. Häsitationen wie „ ähm “ . Disfluenzen, die sich in eine Phrase integrieren, werden nicht gesondert annotiert (siehe letzte schwache Grenze in Abb. 6). Für die Markierung von Disfluenzen, die eine Phrase unterbrechen, wird das sogenannte „ Kaufmanns-Und “ (&) verwendet. Dieses Label wird als Diakritikum links an das jeweilige Symbol der Phrasengrenze gesetzt. Eine Disfluenz kann sowohl am Anfang als auch Ende einer Phrase vorkommen, oder eine eigene Phrase bilden. Abbildungen 6 und 7 illustrieren die Verwendung des Diakritikums. Abb. 7: Illustration einer Disfluenz (aus Datenerhebung für DIMA Workshop); ► eContent_KU_i.wav und ► eContent_KU_j.TextGrid. An der prosodischen Unterbrechung wird das Label „ & “ als Diakritikum links zur prosodischen Phrase mit schwacher Grenze annotiert. 3.2 Prominenzebene 3.2.1 Grundlegendes Auf der Prominenzebene werden drei Stufen der perzeptiven Prominenz unterschieden (vgl. KIM, Kohler 1991), die silbenbasiert annotiert werden. Nicht-Prominenz wird nicht annotiert, d. h. dass jede der drei Stufen der Prominenz eine relative Prominenz gegenüber nicht-prominenten Silben ausdrückt. In Abbildung 8 sind die Prominenzstufen 1 und 2 illustriert. Abbildung 9 zeigt eine Äußerung, in der mehrfach die Prominenz der Stufe 3 vorkommt. eContent_KU_i. wav eContent_KU_j. TextGrid Deutsche Intonation, Modellierung und Annotation (DIMA) 33 1 = schwache Prominenz Die Stufe 1 drückt reduzierte Prominenz aus, die nicht notwendigerweise mit einer (eindeutigen) F0-Bewegung einhergehen muss. Eine Prominenz der Stufe 1 ist entweder rhythmisch oder tonal bedingt. Beispiele für die Stufe 1 sind: (i) postfokale Prominenzen in stark reduziertem Tonhöhenregister (vgl. Kügler & Féry 2017), (ii) (partielle) Deakzentuierung, (iii) Prominenz in einer Hutkontur zwischen den beiden Rändern des Hutes, (iv) rhythmisch bedingte Akzente, (v) Druckakzente, (vi) Phrasenakzente. 1 2 = starke Prominenz Die Stufe 2 drückt starke Prominenz aus, die in der Regel primär auf tonale Parameter zurückzuführen ist, wie beispielsweise bei (vollen) Tonakzenten. 3 = extra-starke Prominenz, die deutlich über die starke Prominenz hinausgeht Die Stufe 3 kennzeichnet in der Regel emphatische Realisierungen von vollen Akzenttönen (siehe Kapitel 3.3 „ Tonebene “ , Abschnitt „ Akzenttöne “ ), die sich in der tonalen (phonologischen) Form nicht von Akzenttönen mit starker Prominenz unterscheiden (z. B. wird sich ein H* der Stufe 3 oftmals phonetisch, etwa durch eine stärkere F0-Auslenkung, von einem H* der Stufe 2 unterscheiden). Zusätzlich kann es aber vorkommen, dass sich die Emphase nicht in der F0 ausdrückt, sondern durch segmentale Hyperartikulation hervorgerufen wird, etwa durch starke Friktion oder Aspiration. Diese schlägt sich in einer erhöhten akustischen Energie der Formanten und der Dauer von Obstruenten bei reduziertem Silbennukleus nieder (vgl. force accent, Kohler 2005). 1 Inhaltlich überlappen sich die aufgeführten Konzepte. Zur terminologischen Unterscheidung von Phrasenakzent, Phrasenton und Druckakzent vgl. Grice & Baumann (2016: 91 ff.). 34 Frank Kügler, Stefan Baumann & Christine T. Röhr Abb. 8: Beispiel „ Peking “ (aus DIRNDL, Eckart et al. 2012); ► eContent_KU_a.wav: Illustration der Prominenzebene mit Prominenzstufen 1 und 2. (Für eine vollständige Annotation s. Abb. 11 und ► eContent_KU_b.TextGrid) Abb. 9: Beispiel „ Details “ (aus KIESEL, Niebuhr et al. 2015); ► eContent_KU_k.wav und ► eContent_KU_l.TextGrid: Illustration der Prominenzstufe 3, die mehrfach in dieser Äußerung vorkommt. eContent_KU_k. wav eContent_KU_l. TextGrid Deutsche Intonation, Modellierung und Annotation (DIMA) 35 3.2.2 Annotation der Prominenzebene Zunächst müssen Prominenzen identifiziert und ihre jeweilige Prominenzstufe (schwach =1, stark =2, extra-stark =3) festgelegt werden. Anschließend wird das entsprechende Prominenzlabel im Vokal der prominenten Silbe einfügt. Nachdem die Annotation der Tonebene erfolgt ist (siehe unten), müssen Prominenzlabel ggfs. in einem weiteren Schritt mit den Tonlabeln aligniert werden (siehe Kapitel 3.3 „ Tonebene “ , Abschnitte „ Akzenttöne “ und „ Nicht-Akzenttöne “ ). Die Prominenzstufen sind grundsätzlich unabhängig von der Markierung auf der Tonebene. Abbildung 10 zeigt Beispiele für mögliche (bzw. besonders plausible) Labelkombinationen, anhand stilisierter Konturen der Äußerung „ Hätten sie nach Pisa fahren sollen? “ 2 Die Konturen unterscheiden sich in der Synchronisierung der tonalen Zielpunkte mit dem Text auf den letzten beiden Wörtern. Besonderes Augenmerk gilt hier der lexikalisch betonten, ersten Silbe in „ fahren “ (schattiert). a) b) c) Abb. 10: Konstruierte Beispiele zur Illustration der Unabhängigkeit der Prominenzebene von der Tonebene. Bezugspunkt ist die erste Silbe von „ fahren “ (schattiert) in drei ähnlichen Konturen. 2 Satzauswahl und Analyse wurden inspiriert durch Benzmüller & Grice (1998). 36 Frank Kügler, Stefan Baumann & Christine T. Röhr Abbildung 10a: Auf „ fahren “ wird kein tonaler Zielpunkt erreicht - zwischen dem H* auf „ Pi -“ und dem L auf „ sol- “ findet tonale Interpolation statt. Die lexikalisch starke Silbe „ fah- “ wird daher vermutlich als nicht-prominent (hier durch Ø angezeigt) wahrgenommen. Prinzipiell sind hier auch höhere Prominenzstufen denkbar, je nachdem inwiefern Dauer, Intensität und Vokalqualität zu einem stärkeren perzeptiven Eindruck von Prominenz führen. Abbildung 10b: Auf der Silbe „ fah- “ ist das Minimum in der F0-Kontur nach dem letzten Akzentton erreicht. Die Silbe kann als nicht-prominent (Ø) wahrgenommen werden, aber auch als schwach prominent (Stufe 1). Stärker empfundene Prominenz wird z. B. durch längere Dauer oder Intensität hervorgerufen, oder durch zusätzliche segmentale Hyperartikulation, wie etwa bei einem force accent mit starker Friktion auf dem / f/ . Wichtig ist, dass die Prominenzstufen hier mit einem Nicht-Akzentton (ungesternter Ton) korrespondieren. Abbildung 10c: Hier wird „ fah- “ als tonakzentuierte Silbe wahrgenommen. Die Kontur, die diese Silbe als letzten tonalen Zielpunkt vor der hohen Grenze auszeichnet, macht ein entsprechendes Perzept wahrscheinlicher als in 10a und 10b. Hier sind die Prominenzstufen 1 oder 2 plausibel. Die Markierung des zugehörigen Tons als Akzentton (markiert durch den Stern) bestätigt dies, da die Annotation eines Akzenttons im Widerspruch zu einem völligen Fehlen perzeptiver Prominenz stehen würde. Die Wahl der Prominenzstufe hängt von der Kombination mit nicht-tonalen Parametern (Dauer, Intensität) und ihrer Ausprägung ab. Entscheidend für die Annotation eines Akzenttons ist aber der prominenzverleihende Eindruck, der durch die tonalen Parameter hervorgerufen wird (siehe auch Kapitel 3.3 „ Tonebene “ ). Hinweise zur Annotation der Prominenzebene 1. Die Wahrnehmung von Prominenzen und ihrer Stufen ist relational, d. h. nur in Bezug auf den prosodischen Kontext und den sprecherspezifischen Stil kann eine Prominenz (bzw. Nicht-Prominenz) angemessen klassifiziert werden. 2. Prominenzmarkierungen sind grundsätzlich unabhängig von der Markierung auf der Tonebene. Das bedeutet, jede Prominenzstufe kann auf der Tonebene mit einem Akzentton, einem Nicht-Akzentton oder keinem Ton vorkommen (vgl. Kapitel 3.3 „ Tonebene “ ). Während Prominenzlabel ohne Tonlabel vorkommen können (z. B. bei „ Blatt “ in Abb. 14), fällt umgekehrt ein Akzentton jedoch mindestens mit Prominenzstufe 1 zusammen. 3. In der Regel korrespondieren die Prominenzstufen 2 und 3 mit einem Akzentton auf der Tonebene. Deutsche Intonation, Modellierung und Annotation (DIMA) 37 4. In der Regel enthält eine prosodische Phrase mit starker Grenze mindestens eine Prominenz der Stufe 2. 5. In Ausnahmefällen kann eine Phrase ohne Prominenz oder lediglich mit Prominenzen der Stufe 1 vorkommen, z. B. im Falle einer reduzierten Phrase. 3.3 Tonebene 3.3.1 Grundlegendes Die Tonebene differenziert zwischen drei Typen von Tönen: Grenztöne, Akzenttöne und Nicht-Akzenttöne. Grenztöne beziehen sich auf die tonale Markierung von Phrasengrenzen. Akzenttöne sind durch einen Stern gekennzeichnet, der die phonologische Assoziation eines Tons mit einer Prominenz (mindestens Stufe 1) anzeigt. Sie sind somit Ausdruck der Hervorhebungsfunktion innerhalb einer Äußerung und werden bei der Annotation mit der prominenztragenden Silbe synchronisiert. Nicht-Akzenttöne markieren hingegen Zielbzw. Wendepunkte im Tonverlauf, die nicht notwendigerweise mit einer Prominenz einhergehen. Für die Beantwortung der Frage „ Wann annotiere ich einen Stern? “ ist die Wahrnehmung durch den/ die AnnotatorIn entscheidend. Die Wahrnehmung von Prominenz kann auf verschiedene Parameter zurückgeführt werden, z. B. Tonbewegung, größere Dauer und Intensität sowie unreduzierte Vokalqualität. Ein Stern wird dann annotiert, wenn das tonale Element deutlich zur Prominenzwahrnehmung beiträgt. Der entsprechende Akzentton wird dann innerhalb der Grenzen der prominenten Silbe gesetzt (s. u.). Er markiert also - im abstrakten wie konkreten Sinn - den Kern des Akzents, der in einer späteren phonologischen Analyse auf der Basis der DIMA-Annotation zugewiesen werden kann, und markiert seine Zugehörigkeit zur hervorgehobenen Silbe. Kennzeichnet ein Ton ein Minimum oder Maximum in der F0-Kontur, das nicht mit der Wahrnehmung einer akzentuierten Silbe bzw. eines akzentuierten Wortes einhergeht, wird kein Stern gelabelt. Die Position eines solchen Nicht- Akzenttons richtet sich nach seinem Extremwert (bzw. dem genauen Zielpunkt) in der F0-Kurve. Eine phonologische Zuordnung zu einem Tonakzent ist hier nicht maßgeblich, sondern wird ggf. zu einem späteren Zeitpunkt durchgeführt (z. B. bei der Übertragung in ein bestimmtes phonologisches Modell). Für die Unterscheidung von Akzenttönen und Nicht-Akzenttönen gilt also: Der Stern zeigt den Kern, der bloße Ton die Position! Grundsätzlich wird, wie im klassischen Ansatz nach Pierrehumbert (1980), nur zwischen zwei phonologischen Tonebenen unterschieden, H und L, die jeweils relativ zueinander als hoch und tief interpretiert werden; d. h. bezüglich der 38 Frank Kügler, Stefan Baumann & Christine T. Röhr absoluten F0-Werte kann ein Tiefton höher sein als ein Hochton in einer Äußerung, jedoch nicht in unmittelbarer Nachbarschaft eines Hochtons. 3.3.2 Annotation der Tonebene Begonnen wird mit den Grenztönen (sowohl am Anfang als auch am Ende von Phrasen mit starker und schwacher Grenze). Darauf folgen nacheinander die Akzenttöne, in deren linker und rechter Umgebung Nicht-Akzenttöne gelabelt werden können. Dieses iterative Vorgehen gewährleistet, dass Töne relativ zueinander bewertet werden, was z. B. Downstep- und Upstep-Relationen einschließt. Grenztöne Die Grenztöne erscheinen in ihrem Tonwert (L/ H). Ihre Annotation orientiert sich an den Grenzen der Phrasenebene. Tonlabel werden genau unterhalb des Phrasenlabels platziert. Phrase Ton % L / H Hinweise zur Annotation von Grenztönen 1. Grundsätzlich erhalten Phrasenlabel einen korrespondierenden Ton auf der Tonebene. Repräsentiert ein Phrasenlabel sowohl den Anfang als auch das Ende einer Phrase, können zwei Tonlabel vergeben werden, jedoch nur wenn diese sich in ihrem Tonwert unterscheiden (z. B. Abb. 14 nach „ Banane “ ); andernfalls wird nur ein Tonwert annotiert. 2. In der Regel beginnt eine prosodische Phrase mit starker Grenze mit einem tiefen Grenzton „ L “ . Dieser Wert wird als Standardwert verstanden und repräsentiert tiefe bis mittlere Phrasenanfänge. Wenn dagegen eine Phrase eindeutig mit einer hohen F0 (innerhalb des Registers) beginnt, wird ein hoher linker Grenzton „ H “ festgesetzt. Initiale Grenztöne können weder heraufnoch herabgestuft sein. 3. Werden Disfluenzlabel als Grenzton-Diakritika vergeben, korrespondieren auch diese mit einem Tonlabel, weil Phrasenlabel grundsätzlich mit einer Tonannotation einhergehen. Die nächsten beiden Schritte wiederholen sich bis zum Ende der Phrase: Akzenttöne Die Akzenttöne sind durch einen Stern „ * “ an ihrem Tonwert gekennzeichnet. Für ihre Annotation dienen hier die Label der Prominenzebene als Orientierung. Ein Akzentton wird immer in der betonten (stressed) Silbe eines Wortes annotiert (F0-Minimum/ Maximum bzw. Mitte des Vokals). L* / H* Deutsche Intonation, Modellierung und Annotation (DIMA) 39 Die Annotation derAkzenttöne orientiert sich an der Prominenzebene, allerdings muss nicht jede Prominenz mit einem Akzentton einhergehen! Umgekehrt ist aber ein Akzentton mindestens mit Prominenzstufe 1 verknüpft. Ist eine deutliche, tonal bedingte Prominenz wahrnehmbar (i. d. R. eine Prominenz der Stufe 2), handelt es sich um einen vollen Akzentton, und dem Ton ist ein Stern beizufügen. Handelt es sich um eine weniger deutliche Prominenz (Stufe 1), wird dem Ton nur dann ein Stern hinzugefügt, wenn die Prominenz vor allem durch ebendiesen Ton (und nicht primär durch größere Dauer oder Intensität) hervorgerufen wird. Hinweise zur Annotation von Akzenttönen 1. Zur Identifikation der Tonhöhe von Akzenttönen wird vorgeschlagen, ein Drei-Silben-Fenster zu nutzen, d. h. jeweils eine Silbe vor und nach der betreffenden Silbe. Um die Tonhöhe von Zielpunkten einschätzen zu können, muss sie in Relation zu den umgebenden Silben betrachtet bzw. angehört werden (wie bei Prominenzen). 2. Ein Akzentton wird immer in der prominenten/ wortbetonten Silbe eines Wortes annotiert: - Das Tonlabel wird auf das Minimum bzw. Maximum in der F0-Kurve platziert, wenn dieses innerhalb der wortbetonten Silbe auftritt. - Ist kein deutlicher F0-Zielpunkt sichtbar, wird das Label in die Mitte des Vokals der wortbetonten Silbe gesetzt. Dies kommt z. B. bei ! H* Akzenttönen vor oder bei Akzenttönen als Teil einer Plateaukontur, welche nicht immer ein klar definierbares Maximum haben. - Das Tonlabel wird auch in die Mitte des Vokals platziert, wenn das F0- Minimum/ Maximum außerhalb der wortbetonten Silbe auftritt. 3. Für weitere Hinweise siehe unten Punkt 1. und 2. unter „ Hinweise zur Annotation von Akzenttönen und Nicht-Akzenttönen “ . Diakritika für Akzenttöne Für den Fall, dass der tonale Zielpunkt eines Akzenttons nicht in der prominenten Silbe liegt, werden Diakritika an dem entsprechenden F0-Zielpunkt in der vorangehenden oder nachfolgenden Silbe gelabelt. Die Diakritika werden an dem phonetischen F0-Minimum/ Maximum außerhalb der prominenten (wortbetonten) Silbe platziert (Abb. 11, „ wird “ = H* und „ von “ = <; Abb. 16 „ han “ = H* und „ nas “ = <). Dabei zeigt das Label auf den zugehörigen Ton: - F0-Zielpunkt erscheint in der nachfolgenden Silbe und signalisiert Zugehörigkeit zum vorhergehenden Ton: L*/ H* < 40 Frank Kügler, Stefan Baumann & Christine T. Röhr - F0-Zielpunkt erscheint in der vorhergehenden Silbe und signalisiert Zugehörigkeit zum nachfolgenden Ton: > L*/ H* Nicht-Akzenttöne Die Nicht-Akzenttöne erscheinen in ihrem Tonwert (L/ H). Zur Identifizierung dieser Töne dienen die Minima/ Maxima in der F0-Kurve vor und nach einem Akzentton. Hier werden sie auch annotiert. L / H Hinweise zur Annotation von Akzenttönen und Nicht- Akzenttönen 1. Nach Einblenden der F0-Kontur (siehe oben „ Annotationsprozess “ ) sollen: - die Akzenttöne sowie dazugehörige Prominenzlabel mit dem F0-Minimum/ Maximum bzw. der Mitte des Vokals der wortbetonten Silbe aligniert werden. - die Nicht-Akzenttöne mit dem F0-Minimum/ Maximum aligniert werden. Ein Prominenzlabel muss nur dann mit einem Nicht-Akzentton aligniert werden, wenn beide in derselben Silbe stehen. 2. Es werden keine mikroprosodischen Perturbationen annotiert; Zielpunkte sollen ggf. unmittelbar vor (siehe Punkt 4.) bzw. nach (siehe Punkt 5.) Perturbationen gesetzt werden. Abbildung 12 illustriert einen deutlichen Fall von mikroprosodischer Perturbation zwischen dem akzenttragenden Wort ( „ machst “ ) und dem nachfolgenden Wort ( „ du “ ). DerAkzentgipfel wird in der akzenttragenden Silbe annotiert, obwohl die F0 zu Beginn der folgenden Silbe „ du “ visuell höher ist. Die höhere F0 auf „ du “ wird durch die stimmlosen Obstruenten hervorgerufen, ist jedoch perzeptiv nicht höher als „ machst “ . Aus diesem Grund wird hier kein später Akzentgipfel in der nachfolgenden Silbe annotiert. 3. Wenn man einen tiefen Zielpunkt vor einem hohen Akzentton wahrnimmt (z. B. „ nicht schmutzig “ , Abb. 13), wird dieser Nicht-Akzentton an die tiefste F0 in oder vor der akzenttontragenden Silbe gesetzt. Im Falle von nichtsonoranten Segmenten kann dieser Tiefpunkt auch deutlich vor der Akzentsilbe liegen. Ein L-Ton wird auch dann eingefügt, wenn keine Interpolation zwischen linker Grenze und hohem Akzentton vorliegt ( „ waschen “ in Abb. 12, „ sind “ in Abb. 13). 4. Nach einem hohen Akzentton (und besonders häufig vor einer rechten Phrasengrenze) wird ein tiefer Nicht-Akzentton annotiert, wenn die F0 ein hör- und sichtbares Minimum bildet, d. h. wenn die F0 nicht zwischen hohem Akzentton und tiefer Grenze interpoliert. Abbildung 12 zeigt ein Beispiel für mehrere Fallbewegungen (mit jeweils deutlichem Knick) am Ende einer Phrase ( „ Gardinen “ , „ waschen “ , „ sonst “ ; siehe auch „ schmutzig “ in Abb. 13). Deutsche Intonation, Modellierung und Annotation (DIMA) 41 3.3.3 Diakritika auf Tonebene Der Tonwert von Akzenttönen und Nicht-Akzenttönen sowie von finalen Grenztönen kann herab- oder heraufgestuft werden. Die entsprechenden Diakritika Downstep „ ! “ und Upstep „ ^ “ werden links vor dem Ton notiert. Downstep und Upstep sind relational zum vorangehenden Ton gleicher Qualität innerhalb derselben Phrase zu interpretieren, daher können initiale Grenztöne weder herabnoch heraufgestuft sein. Herab- und heraufgestufte Tief- und Hochtöne: ! L/ ! L*/ ^L/ ^L*/ ! H/ ! H*/ ^H/ ^H* Es gibt zudem speziell für Akzenttöne weitere Diakritika, die verwendet werden, wenn der tonale Zielpunkt eines Akzenttons nicht in der prominenten Silbe liegt (siehe oben Abschnitt „ Akzenttöne “ ). Abbildung 11 illustriert das Zusammenspiel von Grenztönen, Akzenttönen und Nicht-Akzenttönen. Tiefe Töne erscheinen in diesem Beispiel zu Beginn und am Ende von Phrasen mit starker prosodischer Grenze. Der erste Akzentton (auf „ wird “ ) ist perzeptiv ein hoher Ton (H*) nach einem tiefen Zielpunkt (Nicht- Akzentton) im selben Wort. Das F0-Maximum wird erst in der nachfolgenden Silbe ( „ von “ ) erreicht, ausgedrückt durch „ < “ (siehe auch die Realisierung des H* Akzenttons auf „ Johannas “ in Abb. 16). Außerdem stehen zwei spätere Hochtöne in einer Downstep-Relation zu einem jeweils vorangehenden H. Dies betrifft sowohl Akzenttöne (auf „ -stützt “ ) als auch Grenztöne (an der schwachen Grenze nach „ Regierung “ ). Die Phrase nach der schwachen Grenze beginnt im unteren bis mittleren Stimmumfang der Sprecherin, so dass als Standardwert ein L-Ton annotiert wird. Weitere Nicht-Akzenttöne kennzeichnen ein F0- Minimum (auf „ -king “ ) nach einem Akzentton und ein F0-Maximum (auf „ -ter “ ) zwischen zwei Akzenttönen. 42 Frank Kügler, Stefan Baumann & Christine T. Röhr Abb. 11: Beispiel „ Peking “ (aus DIRNDL, Eckart et al. 2012), ► eContent_KU_a.wav und ► eContent_KU_b.TextGrid: Illustration der Tonebene. Grenztöne werden an phonologischen Grenzen gesetzt. Akzenttöne werden mit „ * “ gekennzeichnet. Nicht-Akzenttöne erscheinen an F0-Minima/ Maxima zwischen Grenzen und Akzenttönen sowie zwischen Akzenttönen. Abb. 12: Beispiel „ Gardinen “ (aus Datenerhebung für DFG-Projekt BA 4734/ 1); ► eContent_KU_m.wav und ► eContent_KU_n.TextGrid: (i) Illustration mikroprosodischer Perturbationen, die nicht annotiert werden. (ii) Illustration tiefer Plateaus nach hohen Akzenttönen, die mit tiefen Nicht-Akzenttönen vor tiefen Grenzen markiert werden. eContent_KU_m .wav eContent_KU_n. TextGrid Deutsche Intonation, Modellierung und Annotation (DIMA) 43 Abb. 13: Beispiel „ schmutzig “ (aus Datenerhebung für DFG-Projekt BA 4734/ 1); ► eContent_KU_c: Illustration der Annotation tiefer Nicht-Akzenttöne vor und nach hohen Akzenttönen. (Für eine vollständige Annotation siehe Abb. 15 und ► eContent_KU_d) 3.3.4 Sonderfall - Plateaukonturen Es gibt drei verschiedene Plateaukonturen, die in DIMA entsprechend annotiert werden können (Tab. 2; vgl. für Plateaukonturen Niebuhr 2013, Peters 2014). 1 a. Hochplateau, das auf gleicher, hoher F0-Ebene bleibt, oder von einem tiefen Akzentton zu einem hohen Nicht- Akzentton ansteigt. % H* … H 1 b. In Abgrenzung zu einem Plateau gibt es eine Kontur mit gleichmäßig fallender F0 von einem hohen Akzentton oder einem hohen Nicht-Akzentton bis zu einem herabgestuften finalen Grenzton; die Perzeption der Grenze ist eindeutig nicht tief. % H* … ! H 1 c. Darüber hinaus gibt es eine Kontur mit gleichmäßig steigender F0 von einem hohen Akzentton oder einem hohen Nicht-Akzentton bis zum finalen hohen Grenzton. Die Grenze wird eindeutig höher wahrgenommen als der vorangehende Hochton. % H* … ^H 44 Frank Kügler, Stefan Baumann & Christine T. Röhr 2. Abgestuftes Hochplateau nach einem hohen Akzentton oder einem hohen Nicht-Akzentton; F0 bleibt konstant auf abgestuftem F0-Niveau bis zum Phrasenende. % H* ! H H 3. Tiefplateau, das auf gleicher, tiefer F0-Ebene bleibt % H* L L Tab. 2: Plateaukonturen in DIMA 3.4 Kommentarebene Auf dieser Ebene werden bei Bedarf Kommentare aller Art notiert, z. B. Lachen. Daneben können auch unterschiedliche Typen von Disfluenzen, wie etwa Redeflussstörungen, Häsitationen, Unterbrechungen, Abbrüche o. ä., gekennzeichnet werden. Die Annotation von Intonation ist nicht immer eindeutig. Dies betrifft alle Ebenen der Annotation, d. h. Phrasen, Töne und Prominenzen. Die Kommentarebene bietet deshalb auch die Möglichkeit, eine alternative Annotation mit Hilfe des Fragezeichens „ ? “ und dem entsprechenden Grenz-, Prominenz- oder Tonlabel anzugeben (z. B. drückt „ ? % “ eine Alternative zu einer annotierten Phrase mit schwacher Grenze auf Phrasenebene aus, die dort ebenfalls mit einem vorangehenden „ ? “ gekennzeichnet ist). Im Folgenden ist ein Beispiel aufgeführt, das in einer Gruppe von Annotierenden als Zweifelsfall identifiziert wurde (Abb. 14): Der steigende Tonhöhenverlauf auf „ Banane “ wurde entweder als tiefer Nicht-Akzentton mit einem nachfolgenden H* oder als L* auf der akzentuierten Silbe mit nachfolgendem hohen Nicht-Akzentton wahrgenommen und entsprechend annotiert. Diese Unklarheiten sind durch das „ ? “ an der linken Seite des jeweiligen Tonlabels (und Diakritikums „ ? < “ ) markiert. Auf Kommentarebene wurde die alternative Annotation (L* H) ebenso mit einem vorangestellten „ ? “ annotiert. Die Klammern um die zwei Alternativen zeigen die Zusammengehörigkeit beider Label an, da eine Änderung des ersten fraglichen Labels (L wird L*) auch eine Anpassung des zweiten fraglichen Labels (H* wird H) nach sich zieht. Deutsche Intonation, Modellierung und Annotation (DIMA) 45 Abb. 14: Beispiel „ Banane “ (aus Datenerhebung für DIMA Workshop); ► eContent_KU_o.wav und ► eContent_KU_p.TextGrid: Illustration der Kommentarebene. Die Unklarheit bezieht sich auf die Tonebene (Fragezeichen vor den entsprechenden Labeln). Eine alternative Annotation dieser Tonlabel, die sich aufeinander beziehen, ist auf Kommentarebene durch Klammerung angegeben. Sofern Unsicherheiten auf mehreren Ebenen bestehen, werden die Alternativen als Kommentar in der Reihenfolge der Ebenen angegeben. Dies soll an einem kurzen Beispiel illustriert werden (Abb. 15): In der reduzierten Phrase kann nicht eindeutig bestimmt werden, ob es sich um einen hohen oder tiefen Ton handelt, der mit der Prominenz auf „ Karl “ assoziiert ist (H*, L*). Darüber hinaus ist auch die Ausprägung der Prominenz nicht genau zu erfassen (1 oder 2). Diese Unsicherheiten haben neben einer Annotation von „ ? H* “ auf Tonebene und „ ? 2 “ auf Prominenzebene auch eine Markierung auf Kommentarebene in der Form „ ? L*, ? 1 “ zur Folge. Ein „ ? “ ohne Zusatzlabel ist auch möglich, sofern der/ die AnnotatorIn zwischen der An- und Abwesenheit eines Ereignisses, z. B. einer Prominenz, schwankt. Die Alternative zur Nicht-Existenz einer Prominenz sollte auf der Kommentarebene vermerkt werden (Abb. 16). eContent_KU_o. wav eContent_KU_p. TextGrid 46 Frank Kügler, Stefan Baumann & Christine T. Röhr Abb. 15: Beispiel „ schmutzig “ (aus Datenerhebung für DFG-Projekt BA 4734/ 1); ► eContent_KU_c.wav und ► eContent_KU_d.TextGrid: Illustration der Kommentarebene. Die Unklarheit bezieht sich sowohl auf die Tonals auch auf die Prominenzebene. Die alternative Annotation erfolgt nacheinander in der Reihenfolge der Annotationsebenen, hier die Abfolge von Ton- und Prominenzebene. Abb. 16: Beispiel „ Ritterfestspiele “ (aus Datenerhebung für DFG-Projekt BA 4734/ 1); ► eContent_KU_q.wav und ► eContent_KU_r.TextGrid: Illustration der Kommentarebene. Die Unklarheit bezieht sich auf die Prominenzebene. Mit dem „ ? “ auf der Prominenzebene wird die Abwesenheit einer Prominenz markiert, als Alternative dazu wird auf der Kommentarebene die Prominenzstufe 1 notiert. eContent_KU_q. wav eContent_KU_r. TextGrid Deutsche Intonation, Modellierung und Annotation (DIMA) 47 4 Übersetzbarkeit in phonologische Systeme Es soll grundsätzlich möglich sein, die DIMA-Annotation mit Hilfe von Regeln in ein phonologisches System zu übersetzen. Dabei zielen wir ab auf die phonologischen Systeme der verschiedenen Intonationsmodelle des Deutschen, die als off-ramp-Modell (Féry 1993, 2012, Mayer 1995, Peters 2009, 2014) oder als on-ramp-Modell (Grice, Baumann & Benzmüller 2005) unterschiedliche phonologische Annahmen machen (zur Kategorisierung in on-ramp vs. off-ramp siehe Gussenhoven 2004). Beispiele zur Übersetzung von DIMA zu GToBI, dem Stuttgarter ToBI und dem Oldenburger Modell werden auf der DIMA-Homepage (http: / / dima.uni-koeln.de) veröffentlicht. Literaturverzeichnis Ahn, Byron, Nanette Veilleux & Stefanie Shattuck-Hufnagel. 2019. Annotating Prosody with PoLaR: Conventions for a Decompositional Annotation System. In Sasha Calhoun, Paola Escudero, Marija Tabain & Paul Warren (Hrsg.), Proceedings of the 19th International Congress of Phonetic Sciences (ICPhS), 1302 - 1306. Melbourne, Australien. Beckman, Mary E. & Gayle Ayers Elam. 1997. Guidelines for ToBI Labelling. Columbus, Ohio: Ohio State University. http: / / www.cs.columbia.edu/ ~agus/ tobi/ labelling_gui de_v3.pdf. Beckman, Mary E. & Janet Breckenridge Pierrehumbert. 1986. Intonational Structure in Japanese. Phonology Yearbook 3. 255 - 309. Benzmüller, Ralf & Martine Grice. 1998. The Nuclear Accentual Fall in the Intonation of Standard German. ZAS Papers in Linguistics: Papers on the conference „ The word as a phonetic unit “ . 79 - 89. van den Berg, Rob, Carlos Gussenhoven & Toni Rietveld. 1992. Downstep in Dutch - Implications for a Model. In Gerard J. Docherty & D. Robert Ladd (Hrsg.), Papers in Laboratory Phonology II, 335 - 359. Cambridge: Cambridge University Press. Boersma, Paul & David Weenink. 2017. Praat: Doing Phonetics by Computer [Computer program]. Retrieved from http: / / www.praat.org/ (May 2017). Dilley, Laura C. & Meredith Brown. 2005. The RaP (Rhythm and Pitch) Labeling System (v. 1.0). MIT. Eckart, Kerstin, Arndt Riester & Katrin Schweitzer. 2012. A Discourse Information Radio News Database for Linguistic Analysis. In Christian Chiarcos, Sebastian Nordhoff & Sebastian Hellmann (Hrsg.), Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata, 65 - 75. Heidelberg: Springer. von Essen, Otto. 1964. Grundzüge der hochdeutschen Satzintonation. 2. Aufl. Ratingen: Henn. Féry, Caroline. 1993. German Intonational Patterns. Tübingen: Niemeyer. Féry, Caroline. 2012. Die Annotation der deutschen Intonation: Wie kann GToBI die Syntax und die Semantik integrieren? Linguistische Berichte 229. 39 - 97. 48 Frank Kügler, Stefan Baumann & Christine T. Röhr Grabe, Esther, Brechtje Post & Francis Nolan. 2001. Modelling Intonational Variation in English. The IViE system. In Stanislaw Puppel & Grazyna Demenko (Hrsg.), Proceedings of Prosody 2000, 51 - 57. Poznan, Polen: Adam Mickiewitz University. Grice, Martine & Stefan Baumann. 2016. Intonation in der Lautsprache: Tonale Analyse. In Ulrike Domahs & Beatrice Primus (Hrsg.), Handbuch Laut, Gebärde, Buchstabe, 84 - 105. De Gruyter. Grice, Martine & Stefan Baumann. 2002. Deutsche Intonation und GToBI. Linguistische Berichte 191. 267 - 298. Grice, Martine, Stefan Baumann & Ralf Benzmüller. 2005. German Intonation in Autosegmental-Metrical Phonology. In Sun-Ah Jun (Hrsg.), Prosodic Typology: The Phonology of Intonation and Phrasing, 55 - 83. Oxford: Oxford University Press. Gussenhoven, Carlos. 2004. The Phonology of Tone and Intonation: Cambridge: Cambridge University Press. Hualde, José I. & Pilar Prieto. 2016. Towards an International Prosodic Alphabet (IPrA). Laboratory Phonology 7(1). 1 - 25. Khan, Sameer ud Dowla. 2019. InTraSAL: An Intonational Model for South Asian languages. Vortrag Satellite Workshop “ Intonational Phonology of Typologically Rare or Understudied Languages ” of the 19th International Congress of Phonetic Sciences (ICPhS), Melbourne, Australien, 4. August 2019. Kohler, Klaus J. 1990. Macro and Micro F0 in the Synthesis of Intonation. In John Kingston & Mary E. Beckman (Hrsg.), Papers in Laboratory Phonology I, 115 - 138. Cambridge University Press. Kohler, Klaus J. 1991. A Model of German Intonation. Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitung der Universität Kiel (AIP UK) 25. 295 - 360. Kohler, Klaus J. 2005. Form and Function of Non-Pitch Accents. Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitung der Universität Kiel (AIP UK) 35 a. 97 - 123. Kügler, Frank, Stefan Baumann, Bistra Andreeva, Bettina Braun, Martine Grice, Jana Neitsch, Oliver Niebuhr, Jörg Peters, Christine T. Röhr, Antje Schweitzer & Petra Wagner. 2019. Annotation of German Intonation: DIMA Compared with other Annotation Systems. In Sasha Calhoun, Paola Escudero, Marija Tabain & Paul Warren (Hrsg.), Proceedings of the 19th International Congress of Phonetic Sciences (ICPhS), 1297 - 1301. Melbourne, Australien. Kügler, Frank, Stefan Baumann, Antje Schweitzer & Petra Wagner. 2017. Reliabilität zwischen Annotatoren in DIMA - Ein Vergleich der Annotation von Experten und einer Trainingsgruppe. Poster Präsentation Phonetik und Phonologie im deutschsprachigen Raum (P&P) 13, Berlin, Deutschland, 28. September 2017. Kügler, Frank & Caroline Féry. 2017. Postfocal Downstep in German. Language and Speech 60(2). 260 - 288. Kügler, Frank, Bernadett Smolibocki, Denis Arnold, Stefan Baumann, Bettina Braun, Martine Grice, Stefanie Jannedy, Jan Michalsky, Oliver Niebuhr, Jörg Peters, Simon Ritter, Christine T. Röhr, Antje Schweitzer, Katrin Schweitzer & Petra Wagner. 2015. DIMA - Annotation Guidelines for German Intonation. In The Scottish Consortium Deutsche Intonation, Modellierung und Annotation (DIMA) 49 for ICPhS 2015 (Hrsg.), Proceedings of the 18th International Congress of Phonetic Sciences (ICPhS), vol. 317, 1 - 5. Glasgow, UK: The University of Glasgow. Ladd, D. Robert. 1988. Declination “ Reset ” and the Hierarchical Organization of Utterances. Journal of the Acoustical Society of America 84. 530 - 544. Ladd, D. Robert. 2008. Intonational Phonology: Cambridge: Cambridge University Press. Mayer, Jörg. 1995. Transcription of German intonation: the Stuttgart System. Ms., University of Stuttgart. Möbius, Bernd. 1993. Ein quantitatives Modell der deutschen Intonation: Analyse und Synthese von Grundfrequenzverläufen. Tübingen: Niemeyer. Möbius, Bernd, Alice Zimmermann & Wolfgang Hess. 1987. Microprosodic Fundamental Frequency Variations in German. Proceedings of the 11th International Congress of Phonetic Sciences (ICPhS) 1, 146 - 149. Tallinn, Estland Nespor, Marina & Irene Vogel. 1986. Prosodic Phonology. Berlin: Mouton De Gruyter. Niebuhr, Oliver. 2013. Resistance is Futile - The intonation between Continuation Rise and Calling Contour in German. Proceedings of 14th InterSpeech, 225 - 229. Lyon, Frankreich. Niebuhr, Oliver, Benno Peters, Rabea Landgraf & Gerhard Schmidt. 2015. The Kiel Corpora of “ Speech & Emotion ” - A Summary. In Proceedings of the 41st Conference of the German Acoustical Society, 1 - 4. Nürnberg, Deutschland: German Acoustical Society (DEGA). Ohala, John J. & Brian W. Eukel. 1987. Explaining the Intrinsic Pitch of Vowels. In Robert Channon & Linda Shockey (Hrsg.), In honor of Ilse Lehiste. Ilse Lehiste Pu ’ hendusteos, 207 - 215. Dordrecht: Foris. Peters, Jörg. 2009. Intonation. In Duden - Die Grammatik, Kap. 2, Bd. 4, 95 - 128. Mannheim: Bibliographisches Institut Mannheim. [8. neu bearb. Aufl.] Peters, Jörg. 2014. Intonation. Heidelberg: Winter. Pierrehumbert, Janet B. 1980. The Phonology and Phonetics of English Intonation. Bloomington: MIT PhD thesis. Selkirk, Elisabeth O. 1984. Phonology and Syntax: The Relation between Sound and Structure. Cambridge, MA: MIT Press. Uhmann, Susanne. 1991. Fokusphonologie. Eine Analyse deutscher Intonationskonturen im Rahmen der nicht-linearen Phonologie. Tübingen: Niemeyer. Wells, John C. 1997. SAMPA Computer Readable Phonetic Alphabet. In Dafydd Gibbon, Roger Moore & Richard Winski (Hrsg.), Handbook of Standards and Resources for Spoken Language Systems, Part IV, section B. Berlin and New York: Mouton de Gruyter. Whalen, Douglas H. & Andrea G. Levitt. 1995. The Universality of Intrinsic F0 of Vowels. Journal of Phonetics 23. 349 - 366. 50 Frank Kügler, Stefan Baumann & Christine T. Röhr Anhang Symbole Beschreibung Labelkonvention & Beispiel Anmerkungen mind. 2 Textebenen (interval tiers): Wort & Silbe 3 Ebenen der prosodischen Annotation (Ebene 1 - 3 = point tiers): 1. Phrase (Ebene 1) % - Beginn und Ende einer prosodischen Phrase mit starker bzw. schwacher Grenze - Pause zwischen Phrasen: Label am Ende der 1. Phrase und Label am Beginn der 2. Phrase - Keine Pause zwischen Phrasen: ein Label, das zugleich das Ende der 1. und den Beginn der 2. Phrase markiert - Schwache prosodische Phrasen kommen immer innerhalb von starken prosodischen Phrase vor. - Phrasenlabel erhalten einen Ton auf Tonebene. v Diakritika ! ^ phrasaler Downstep bzw. Upstep: - Verschiebung des kompletten Tonhöhenumfangs (pitch range) zwischen zwei oder mehreren Phrasen - (perzeptuell deutlich wahrnehmbare) Reduzierung bzw. Erweiterung der Tonhöhenspanne (pitch span) - am Beginn des Registerbruchs Diakritikum links vom Phrasenlabel: ! % | ! - | ^% | ^- - kein Diakritikum am Ende der Phrase - Bleibt das Tonhöhenregister verschoben: keine Markierung, da kein Tonhöhenregisterbruch vorliegt. - Kehrt das Tonhöhenregister zu seinem Ausgangslevel zurück: Markierung des Tonhöhenbruchs, sofern diese Verschiebung des Tonhöhenregisters perzeptuell auffällig ist. & Disfluenzen, die eine Phrase unterbrechen: z. B. Häsitationen wie „ ähm “ mit wahrnehmbaren Merkmalen der Unterbrechung Diakritikum links vom Phrasenlabel: &% | &- Disfluenzen können am Anfang und/ oder am Ende einer Phrase vorkommen, oder eine eigene Phrase bilden. Deutsche Intonation, Modellierung und Annotation (DIMA) 51 Symbole Beschreibung Labelkonvention & Beispiel Anmerkungen 2. Prominenz (Ebene 3) 1 schwache (rhythmisch oder tonal bedingte) Prominenz, die nicht notwendigerweise mit einer (eindeutigen) F0-Bewegung einhergehen muss Label im Vokal der prominenten Silbe - Jede Prominenzstufe kann auf Tonebene mit einem Akzentton, einem Nicht- Akzentton oder keinem Ton vorkommen. - Prominenzlabel müssen ggfs. in einem weiteren Schritt mit Tonlabeln aligniert werden. - Die Prominenzstufen 2 und 3 korrespondieren i. d. R. mit einem Akzentton auf der Tonebene. - Eine prosodische Phrase mit starker Grenze enthält i. d. R. mind. eine Prominenz der Stufe 2. - Extra-starke Prominenz geht deutlich über die starke Prominenz hinaus. 2 starke Prominenz, die i. d. R. primär auf tonale Parameter zurückzuführen ist (und mit einem Akzentton zusammenfällt) Label im Vokal der prominenten Silbe 3 extra-starke Prominenz, die i. d. R. emphatische Realisierungen von vollen Akzenttönen mit starker Prominenz kennzeichnet (ausgedrückt durch F0 und/ oder segmentale Hyperartikulation) Label im Vokal der prominenten Silbe 3. Ton (Ebene 2) H L 1. Grenztöne = tonale Markierung von Phrasengrenzen Phrasenlabel (Ebene 1) gehen grundsätzlich mit einer Tonannotation einher, auch an Grenzen, die durch Disfluenzen hervorgerufen sind: - Label unterhalb des Phrasenlabels platzieren - Bei einem Phrasenlabel fürAnfang und Ende einer Phrase können zwei Tonlabel (ohne Leerzeichen) vergeben werden, wenn diese sich in ihrem Tonwert unterscheiden (z. B. HL | LH); andernfalls wird nur ein Tonwert gelabelt. - Eine große prosodische Phrase beginnt i. d. R. mit einem tiefen Grenzton „ L “ (= Standardwert der Phrasenanfänge im unteren bis mittleren Stimmumfang repräsentiert). - Beginnt eine Phrase eindeutig mit einer hohen F0, wird ein hoher linker Grenzton „ H “ festgesetzt. - Phraseninitiale Grenztöne können weder heraufnoch herabgestuft sein. 52 Frank Kügler, Stefan Baumann & Christine T. Röhr Symbole Beschreibung Labelkonvention & Beispiel Anmerkungen H* L* 2. Akzenttöne = tonale Elemente, die deutlich zur Prominenzwahrnehmung beitragen (entspricht vollen Tonakzenten) Label wird grundsätzlich in der prominenten (betonten) Silbe eines Wortes platziert: - F0-Min./ Max. innerhalb der prominenten Silbe = Label auf F0-Min./ Max. - F0-Min./ Max. außerhalb der prominenten Silbe = Label in der Mitte des Vokals - kein deutlicher F0-Zielpunkt erkennbar = Label in der Mitte des Vokals (z. B. ! H*, Plateaukonturen) - Der Stern zeigt den Kern (= phonologische Assoziation eines Tons mit einer prominenten Silbe), der bloße Ton die Position! - Ein Akzentton fällt mindestens mit Prominenzstufe 1 zusammen. - Prominenzlabel müssen mit den entsprechenden Akzenttönen synchronisiert werden. H L 3. Nicht-Akzenttöne = Zielpunkte in der F0- Kurve vor und nach einem Akzentton, die nicht notwendigerweise mit der Wahrnehmung einer Prominenz einhergehen Label wird grundsätzlich auf dem F0-Min./ Max. platziert: - keine Annotation von mikroprosodischen Perturbationen = Platzierung der Label/ Zielpunkte ggf. unmittelbar vor bzw. nach Perturbationen - wahrgenommener tiefer Zielpunkt vor hohem Akzentton = L-Ton an tiefste F0 in oder vor der akzenttontragenden Silbe (Im Falle von nicht-sonoranten Segmenten kann dieser Tiefpunkt auch deutlich vor der Akzentsilbe liegen.) - Nach einem hohen Akzentton (und besonders häufig vor einer rechten Phrasengrenze) wird ein L-Ton annotiert, wenn die F0 ein hör- und sichtbares Minimum bildet (Fallbewegungen mit deutlichem Knick am Ende einer Phrase = keine Interpolation zwischen linker Grenze und hohem Akzentton). - Ein Prominenzlabel muss nur dann mit einem Nicht-Akzentton aligniert werden, wenn beide in derselben Silbe stehen. v Diakritika ! ^ tonaler Downstep bzw. Upstep Diakritikum links vom Symbol für (Nicht-)Akzentton bzw. phrasenfinalem Grenzton: ! L | ! L* | ^L | ^L* | ! H | ! H* | ^H | ^H* Die Operationen sind relational zum vorangehenden Ton gleicher Qualität innerhalb derselben Phrase zu interpretieren (= keine Markierung initialer Grenzen! ) Deutsche Intonation, Modellierung und Annotation (DIMA) 53 Symbole Beschreibung Labelkonvention & Beispiel Anmerkungen < > tonaler Zielpunkt, der in der nachfolgenden bzw. vorangehenden Silbe des Akzenttons erscheint Diakritikum auf F0-Min./ Max. außerhalb der prominenten (wortbetonten) Silbe: - in der nachfolgenden Silbe des Akzenttons: H* < - in der vorangehenden Silbe des Akzenttons: > H* Das Label zeigt auf den Ton und signalisiert damit die Zugehörigkeit zum entsprechenden Akzentton: < Zugehörigkeit zum vorangehenden Akzentton > Zugehörigkeit zum nachfolgenden Akzentton Ebene für Kommentare (Ebene 4 = point tier): ? Alternativlabel Text Zweifelsfälle (alternative Annotation) Bei Bedarf: Kommentare aller Art (z. B. Lachen, Disfluenzen oder andere Auffälligkeiten, die nicht vom Prosodieinventar erfasst werden) - bei Unsicherheit auf einer Ebene = „ ? “ + alternatives Phrasen-, Tonbzw. Prominenzl. - bei Unsicherheit auf mehreren Ebenen = alternative Annotationen nacheinander in der Reihenfolge der Annotationsebenen: z. B. ? L, ? 1 - bei Alternativannotation zweier Tonlabel, die sich aufeinander beziehen = Klammern: z. B. (? L* ? H) - Unklarheiten werden generell durch ein „ ? “ links vom entsprechenden Label angezeigt. - Ein „ ? “ ohne Zusatzlabel kann als Ausdruck von Unklarheit bezügl. der An- und Abwesenheit eines Ereignisses verwendet werden. Die Alternative zur Nicht- Existenz eines Ereignisses sollte dann auf der Kommentarebene vermerkt werden. Tab. 3: Kurzanleitung zu den DIMA-Annotationsrichtlinien; ► eContent_KU_s. (1) Annotationsprozess: 1. Phrasenebene > 2. Prominenzebene > 3. Tonebene (Entsprechend dieser Abfolge werden die Label und Diakritika im Folgenden erläutert.); (2) F0-Kontur: Zur Identifikation von Phrasengrenzen, Prominenzen und Tönen soll die F0-Kontur zunächst ausgeblendet werden. Zur Synchronisierung der Label mit dem F0-Verlauf wird die Kontur anschließend wieder eingeblendet. (3) Anordnung der Ebenen im Annotationsprogramm (z. B. praat): 1. Phrasenebene, 2. Tonebene, 3. Prominenzebene (erleichtert Synchronisierung von Tonlabeln mit Phrasen-/ Prominenzlabeln) eContent_KU_s. pdf 54 Frank Kügler, Stefan Baumann & Christine T. Röhr A phonetic view on annotating speech pauses and pause-internal phonetic particles Jürgen Trouvain & Raphael Werner Abstract: This paper aims to give an overview on the complexities of pauses and their phonetic components. After a brief presentation of the main functions of pauses in speech, the major challenges for the definition, the detection, segmentation and annotation of speech pauses are illustrated with speech signals from conversational corpora. The focus of the phonetic particles in so-called “ silent ” pauses is on breath noises. Keywords: pause, prosodic breaks, silence, breath noises, filler particles 1 Introduction The aim of this paper is to provide an overview on how speech pauses and the phonetic particles within speech pauses can be annotated and described. The most important concepts of pauses are discussed and illustrated by numerous samples taken from different speech corpora. Rather than a research study, this paper is meant to show and discuss some fundamental issues on pauses and pause-internal phonetic particles. It may form the base for a phonetically oriented guideline for the annotation of pauses in data collections. The structure of this article is as follows: after a brief overview of various functions of pauses (section 2) we distinguish in section 3 between four different domains of pauses: i) articulatory pauses, ii) mute phases as listeners, iii) gaps at turn taking, and iv) typical speech pauses within turns. Section 4 summarises approaches of the transcription of pauses whereas the focus of section 5 is on the annotation and segmentation of pauses in acoustic signals. The subsequent sections treat important aspects for pauses in general: the distinction of silent vs. filled pauses in spontaneous speech (section 6), the acoustic breath information in many pauses (section 7), the consideration of pause-internal phonetic particles beyond silent phases (section 8), and perceptual aspects of pauses that are often exclusively regarded from a speech production perspective (section 9). In the final section we draw some conclusions and give an outlook on important research questions and matters of annotation not treated here. 2 Functions of pauses The temporal structure of speech is determined - among other timing parameters - by pauses. They are an essential part of speech production, because it is impossible not to pause after a given time of speaking. Likewise, pauses are an essential part of speech perception, because listening to a longer stretch of speech without any pauses would give the listener a very hard time for processing. Pauses can reflect many different functions only three of which are listed here. Speech pauses often reflect syntactic-prosodic boundaries that delimit prosodic phrases. In the framework of Prosodic Hierarchy, prosodic breaks (or boundaries) reflect (morpho-)syntactic boundaries (cf. Shattuck-Hufnagel & Turk 1996). Higher-level syntactic boundaries are linked to stronger prosodic breaks, whereas lower-level syntactic boundaries are linked to weaker prosodic breaks. While the hierarchical structure of syntactic boundaries remains the same in a given text, the hierarchical structure of prosodic breaks may change. This optionality is also true for the phonetic marking of prosodic breaks, for instance by producing pauses, especially breath pauses which motivated the use of the term breath-groups for prosodic phrases (Lieberman 1967) five decades ago. The idea of a hierarchy of prosodic break strength is for instance taken up in annotation approaches like Tone and Break Indices (ToBI) where the break indices range from 1 (weakest) to 6 (strongest) (Beckman & Ayers 1994). However, most applications of ToBI seem to be restricted to the break indices 3 and 4 which correspond to minor and major breaks in other approaches. One problem is that the phonetic descriptions of the different strength levels with respect to pauses are rather vague in ToBI and other approaches. Pauses are one of the main features of tempo and fluency of speech. Fluently produced read speech is ideal to study the relationship between syntactic and prosodic boundaries and its acoustic markers because the spoken versions of written texts can be investigated for different variables, e. g. comparisons within and across individuals or across languages. Comparisons between different tempo categories (Trouvain & Grice 1999, Werner et al. 2020) show that there are several options for which syntactic boundaries should be reflected by which prosodic breaks (as mentioned above). In addition, there are many individual strategies as to how this prosodic break should be marked with which pause. Different levels of fluency and pausing can be observed in second language speech and in spontaneous speech (also in the first language). Speakers use more 56 Jürgen Trouvain & Raphael Werner and longer pauses in their second language compared to their native language (Lennon 1990, Cucchiarini et al. 2002, Trouvain & Braun 2020). In spontaneous speech we encounter disfluencies of various kinds in addition to speech pauses, sometimes in incomplete sentence constructions. In a recent approach, Brugos et al. (2019) suggest a ToBI annotation scheme (for English) to account also for disfluencies. Pauses can play a key role in expressivity, e. g. to signal different emotional states with pauses (Viola & Madureira 2008). A higher degree of arousal is normally reflected by a higher (perceived) speech tempo. For instance, horse race commentaries are usually described as getting faster the closer the horses are coming to the finish. However, acoustic analyses of those commentaries (Trouvain & Barry 2000) reveal that the articulation rate remains the same over the race and that the number of pauses increases towards the end instead of decreasing as expected. The main characteristic of these pauses in the final part is that they are shorter and filled with strong inhalation noise - together with an immense increase of the mean pitch. Pauses can also be used to express emphasis as Strangert (2003) showed with experimental data, but dramatic effects can also be observed in spontaneous conversational data (e. g. Ward 2019). It must be stressed that pauses in speech can reveal multiple origins. In their historical overview on speech pause research (with comprehensive parts on “ filled pauses ” ) O ’ Connell & Kowal (1983: 222) note that [p]auses are determined by breathing, embarrassment, weariness, anxiety, confusion, anger, interruption, pain, syntactic complexity, mendacity, availability of lexical items, emphasis, boredom, and a host of other situational, organismic, intersubjective, linguistic, and conventional factors. 3 Defining a pause in speech Although speech pauses and what they constitute often seems to be taken for granted, presumed ad-hoc definitions along the lines of “ a speech pause is an interruption of speech ” often fall short when it comes to the annotation of pauses in spoken data. We distinguish here four types of “ interruptions of speech ” : i) articulatory pauses, ii) pauses as listeners ( “ mute ” phases in talk-ininteraction), iii) gaps at turn changes in conversations, and iv) pauses in connected speech sections when e. g. having the turn in a conversation. Only the last type is considered here as a typical speech pause. However, a clear distinction from the other types is not always possible and should be borne in mind when annotating pauses. A phonetic view on annotating speech pauses and pause-internal phonetic particles 57 3.1 Articulatory pauses in stop consonants Interruptions of the acoustic flow of speech can also be observed in the closure phases of unvoiced stops (Fig. 1). These intermissions that are often clearly visible in the speech signal are part of the articulatory movement and should therefore not be considered a speech pause (Hieke et al. 1983). 0 2 4 6 8 kHz t k t k 0 1.5 Fig. 1: Audio signal (duration: 1.5 sec) with four “ articulatory pauses ” , i. e. interruptions of the exhalatory flow in the closure phase of voiceless stops in the section “ versucht Kinder zu kriegen ” (speaker: l03kpa (at 150.9 sec) from the Lindenstrasse corpus (IPDS 2006)). ( ► eContent_TR_a and ► eContent_TR_b.TextGrid) 3.2 “ Mute ” phases as listener in conversations In conversations it is typically the case that, most of the time, only one interlocutor is speaking, while the other/ s do/ es not speak (Fig. 2), though there are also phases where speakers overlap each other. Should the “ mute ” phases be considered as speech pauses? It could be argued that the time from one feedback utterance (backchannel) to the next one or the next opportunity to take the floor could be seen as a pause - which seems to be very different to speech pauses when speakers have the floor. These “ listener pauses ” can be considered from two different perspectives: one is taking into account the conversational role of the interlocutor, here as the listener who is not claiming or attempting to take the turn. The other perspective is the speech production of the “ active listener ” . Listening often involves articulatory activity, for instance feedback (or backchannel) utterances which can show a great variation: from simple phonatory “ grunts ” (often transcribed as “ hm ” ) to “ ja ” and reduplications like “ jaja ” and “ jajaja ” up to short eContent_TR_a. wav eContent_TR_b. TextGrid 58 Jürgen Trouvain & Raphael Werner phrases (in Fig. 2 the speaker uses “ ach so ” and “ nee nee nee ” ). These short articulatory sections are part of the listener role but they are not silence. sil sil sil mute phase Time (s) 0 35 Fig. 2: Audio signal (duration 35 sec) of both speakers from a dialogue. The top speaker showed a longer “ mute phase ” of nearly 30 sec. She uttered “ ach so [silence] nee nee nee [long silence] ja im Schweinestall die Szene hab ich wieder gesehen ” (speaker l03ape at 94.0 sec from the Lindenstrasse corpus). ( ► eContent_TR_c) 3.3 Gap between speakers at turn changes in conversation Another pause-like phenomenon in talk-in-interaction can be observed between speakers when the transfer of the floor is organised. These stretches of silence between interlocutors are usually called gaps (Fig. 3) and there seems to be a universal tendency to apply a “ no gap, no overlap ” principle (Sacks, Schegloff & Jefferson 1974, Stivers et al. 2009, Heldner 2011). gap Time (s) 471.5 475.3 Fig. 3: Pause as a gap (920 ms) between speakers (with separated channels) in a conversation (audio signal (3.8 sec) taken from the IFADV corpus (van Son et al. 2008)). ( ► eContent_TR_d) eContent_TR_c. wav eContent_TR_d. wav A phonetic view on annotating speech pauses and pause-internal phonetic particles 59 3.4 Typical speech pauses The speech pauses we consider here do neither fall under the articulatory pauses nor the pauses without having the turn nor the between-turn pauses. The speech pauses considered here are always produced by speakers within their turn sections (as illustrated in Fig. 4). These pauses are usually the main markers of syntactic-prosodic breaks between sentences (in read speech). p p p p p p p p p p p p p inh inh inh inh inh inh Time (s) 0 31 Fig. 4: Typical speech pauses (label “ p ” in the top tier) at the beginning and in the middle of turns. These pauses contain silence and often inhalation noises, the latter marked on an extra tier (label “ inh ” in the bottom tier). Please note that the boundaries of an inhalation noise within a pause do often not align with the pause boundaries (see section on breath information). Audio signal (duration: 31 sec) taken from the Lindenstrasse corpus (speaker l03kpa at 195.0 sec). ( ► eContent_TR_e) 4 Transcription of pauses In phonetic notation it seems not very popular to mark pauses, presumably because phonetic alphabets like the International Phonetic Alphabet (IPA) are mainly used for the transcriptions of segments, very often for single words. In the IPA overview there is a section on “ suprasegmentals ” and the double bar symbol “‖” represents the boundary of a “ major (intonation) group ” which comes closest to a pause if IPA is used for stretches of speech that span more than a single prosodic phrase. Hualde & Prieto (2016) follow this tradition with the development of an International Prosodic Alphabet (IPrA). If pauses are considered at all in IPrA, then as markers of prosodic breaks. This line of transcription is continued in the German prosodic transcription scheme Deutsche Intonation: Modellierung und Annotation (DIMA) by Kügler et al. (2019) (see also Kügler et al. in this volume) where the focus is on intonation, less so on prosodic phrasing, and not at all on pausing. When transcribing conversations often more detailed approaches of marking pauses are applied. For instance, Crystal & Davy (1976: 11) distinguish between different pause length categories: “ Four lengths of pauses are marked, the eContent_TR_e. wav 60 Jürgen Trouvain & Raphael Werner shortest with a dot (·), the next longest with a dash ( - ), the next with two dashes ( - - ), and the longest with three ( - - - ). ” This length categorisation is also reflected in other transcription schemes for conversations such as Gesprächsanalytisches Transkriptionssystem (GAT), e. g. in the updated version GAT2 (Selting et al. 2009). Pause duration can either be estimated or measured. If estimated, GAT2 follows a similar typographic notation as Crystal & Davy (1976) for (.) ‘ micropauses ’ (shorter than 0.2 sec), (-) ‘ short pauses ’ (between 0.2 and 0.5 sec), ( - - ) ‘ medium pauses ’ (between 0.5 and 0.8 sec) and ( - - - ) ‘ longer pauses ’ (between 0.8 and 1 sec). If measured, then deciseconds of pauses are given, e. g. ‘ (0.4) ’ for a measured pause duration of around 0.4 sec. 5 Annotation and segmentation of pauses in the speech signal There is no generally agreed upon cut-off point for a pause, it varies e. g. from 100 ms (Trouvain 2004) to 200 ms (Lennon 1990, Cucchiarini et al. 2002) and 400 ms (Tavakoli 2011), just to mention three different values. It is proposed here not to have a fixed threshold in the acoustic correlate of a pause but to define a pause as a perceived pause plus a silence (excluding the closure phases of plosives). Such a definition may also include pauses shorter than 100 ms (Fig. 5). This would have the advantage of taking very short pauses into account which would be missed otherwise. Using a threshold can have a substantial influence on the results as a large-scale multilingual study of pause duration by Campione & Véronis (2002) could show. 0 2 4 6 8 kHz sil 0 0.8 Time (s) Fig. 5: Very short pause within an utterance at a minor prosodic phrase boundary with a silence shorter than 100 ms (here 52 ms). Audio signal (duration: 0.8 sec) taken from the Lindenstrasse corpus (speaker l0kpa at 195.0 sec utters “ (ausei)nander [sil] weißt du mit dem ” ). ( ► eContent_TR_f and ► eContent_TR_g.TextGrid) eContent_TR_f. wav eContent_TR_g. TextGrid A phonetic view on annotating speech pauses and pause-internal phonetic particles 61 A pertinent problem with the segmentation of pauses in an acoustically based speech signal is that the closure phases of plosives after a pause and at the beginning of an inter-pause stretch can usually not be visually detected. The pragmatic solution we propose is to take a constant value of a plausible duration, e. g. 50 ms, as a differential value to subtract consistently from the entire pause duration. A further problem comes with the detection of pauses, and subsequently with their segmentation. In linguistics there are also recordings analysed with an acoustic quality that is too low to detect all pauses. This is particularly problematic for pauses that are shorter than expected. In addition, rather often conversational corpora contain data where only one channel was recorded for all speakers. Such a signal makes it impossible to determine whether and when exactly which speaker produced a pause. A similar problem comes with data where individual speakers were recorded with separated microphones but where the vocalisations of the other speaker(s) make it difficult, and sometimes impossible, to have an exact segmentation of pauses. Those acoustic masking effects are often ignored or underestimated in the design of conversational corpus recordings. 6 “ Silent ” vs. “ filled ” pauses Filler particles like [ əː ] and [ əː m] are often denoted as “ filled pauses ” . Those filler particles, that can be observed in many languages, are displayed with very different orthographic transcriptions in different languages such as “ äh-ähm ” , “ euh-euhm ” , “ uh-u(h)m ” , “ er-erm ” , and there seems to be no standard orthography within the same language for those particles. It is often overseen that there seems to be a variation of phonetic forms for the sequence of oral vowel plus nasal consonant across languages, e. g. in Chinese there is no “ um ” but “ un ” (Tian et al. 2017). In addition, there are more filler particles than just a lengthened central vowel that can be followed by a nasal consonant, for instance glottalisations (Belz & Trouvain 2019). In contrast to these “ filled pauses ” , the term “ silent pauses ” (or “ empty pauses ” ) is in use. Both terms, “ silent pauses ” and “ filled pauses ” are highly problematic when looking at pauses from a phonetic perspective. The presumed idea of a “ filled pause ” is that there is a silence that is enriched with a phonetic particle, and that this filler particle plus the surrounding silence represents the “ filled pause ” . However, most of the time the term is used rather loosely in research, and whenever more concrete definitions are given it becomes clear that a “ filled pause ” is used synonymously with the term filler particle - and not the entire silence. Fig. 6 shows an example of such a filler particle (here “ uhm ” ) - often denoted “ filled pause ” - nested in a pause with breath noise and silence before the speech part. 62 Jürgen Trouvain & Raphael Werner 0 2 4 6 8 kHz inh sil uhm sil speech sil 0 2.6 Time (s) Fig. 6: Pause with a filler particle ( “ uhm ” ) in a disfluent section containing two silent phases ( “ sil ” ) and an inhalation noise ( “ inh ” ) before speech (the word “ als ” ) starts. Audio signal (duration: 2.6 sec) taken from the Lindenstrasse corpus (speaker l03kpa at 121.16 sec)). ( ► eContent_TR_h and ► eContent_TR_i.TextGrid) In addition, those filler particles/ filled pauses can occur in fluent sections of speech without any silence at all before or after, or even be cliticized onto adjacent words (Clark & Fox Tree 2002). Fig. 7 displays a filler particle with an extremely short silence before the particle and no silence at all after it, so that listeners would not perceive it as disfluent here. Those cases make it clear that the term “ pause ” for a filler particle is a misnomer. Also, denoting a filler particle in a fluent section of an inter-pause unit as a “ disfluency ” does not match the core idea of fluency vs. disfluency. 0 2 4 6 8 kHz uhm 0 2.3 Time (s) Fig. 7: Filler particle in a fluent section with a very short pause (56 ms “ sil ” ) before. Audio signal (duration: 2.3 sec) taken from the Lindenstrasse corpus (speaker l03kpa at 93.2 sec who utters “ ist sie denn nun eigentlich [ähm] unfruchtbar ” ). ( ► eContent_TR_j and ► eContent_TR_k.TextGrid) eContent_TR_h. wav eContent_TR_i. TextGrid eContent_TR_j. wav eContent_TR_k. TextGrid A phonetic view on annotating speech pauses and pause-internal phonetic particles 63 The label “ silent ” in “ silent ” pauses is a misnomer as well. From an acousticphonetic point of view “ silence ” would be the absence of phonetic activity which excludes the acoustic correlates of inhalation and, to a lesser extent, exhalation in speech pauses. In other words, many “ silent pauses ” are in reality breath pauses with inhalation noises, i. e. not silent (or empty) at all. 7 Breath information in pauses Phonetic studies have shown that duration and intensity of inhalation noises can be indicators of utterance planning in speech production and inform listeners about the length of the upcoming phrase (Fuchs et al. 2013, 2015). A recent study also suggests that in read speech, duration and intensity of inhalation noises are linked to a ‘ recovery ’ from the effort of the prior utterance (Kallay et al. 2019). When speakers are under physical stress they show different breathing patterns and forms of breath noises in speech pauses, e. g. with many exhalation noises that are otherwise infrequent in speech (Trouvain & Truong 2015). A typical non-verbal vocalisation in spontaneous speech is laughter of which various forms can be described with characteristic noises of exand inhalation (Bachorowski & Owren 2001, Truong et al. 2019). A strong inhalation noise can mark the offset of a long and complex laugh (Chafe 2007, Truong et al. 2019). Also in (other) affect bursts, breath noises can play a crucial role, e. g. when startling or crying (Trouvain 2011). On the level of pragmatics, breath noises can be used as discourse markers, signalling an intent to take the turn, and in some cultures respiratory noises are markers of politeness, e. g. in Korean (Winter & Grawunder 2012). Breath noises also have a high potential of signalling individuality, either by idiosyncratic acoustics, e. g. by inhalation noises with [s ↓ ], an ingressive alveolar fricative (Trouvain 2015), or by different patterns of inhalation and exhalation (Lauf 2001, Kienast & Glitza 2003). The incomplete list above shows that breath noises are a rather rich source of information on the linguistic but also on the non-linguistic level. Fig. 8 and 9 show typical examples of speech pauses with nasal and oral inhalation noises which are sandwiched between edges of silence. 64 Jürgen Trouvain & Raphael Werner 0 2 4 6 8 kHz sil oral inh nasal inh sil 0 3 Time (s) Fig. 8: Speech pause with a breath noise between silences that consists of an oral inhalation noise followed by a nasal inhalation noise. Audio signal (duration: 3.0 sec) taken from the Lindenstrasse corpus (speaker l03ape at 14.14 sec who utters “ wusste noch von nichts [pause] und ” ). ( ► eContent_TR_l and ► eContent_TR_m. TextGrid) 0 2 4 6 8 kHz sil inh sil 0 2 Time (s) Fig. 9: Speech pause with an oral inhalation breath noise between silences. Audio signal (duration: 2.0 sec) taken from the Lindenstrasse corpus (speaker l03ape at 54.8 sec who utters “ an ihm [pause] naja und nun ” ). ( ► eContent_TR_n and ► eContent_- TR_o.TextGrid) eContent_TR_l. wav eContent_TR_m. TextGrid eContent_TR_n. wav eContent_TR_o. TextGrid A phonetic view on annotating speech pauses and pause-internal phonetic particles 65 8 Silence and phonetic particles in “ silent pauses ” As elaborated above, so-called “ silent pauses ” do most of the time also contain phonetic particles other than silence. Speech pauses can be enriched with one or more particles of, for instance, the following categories: breath noises, tongue clicks, glottal reflections. So far, there is no consistent use of the annotation of pause-internal phonetic particles (Trouvain & Werner 2020), and thus, there is no established set for those particles that could be recommended to be used for annotation. Breath noises can be divided into those stemming from inhalation (with ingressive airstream) and those from exhalation (with egressive airstream). Breath noises should be made distinct from articulation with ingressive airstream, e. g. used for feedback utterances (backchannels) in various languages (see e. g. Eklund 2008), and of course to articulation with egressive airstream which is the normal way of speaking. Another distinction in breath noises can be made between the airways, i. e. whether it is only nasal on the one hand or oral (and potentially nasal at the same time) on the other hand. For inhalation, there are sometimes cases where speakers change their airways in the same breath noise, e. g. oral followed by nasal, or vice versa (see e. g. Kienast & Glitza 2003). Although breath noises are very often clearly visible in the spectrogram of speech signals, they might be of such a low intensity that their annotation should be primarily based on the audible inspection. Tongue clicks can occur rather frequently in languages in which click sounds do not have a phonemic status (cf. Wright 2011, Trouvain 2014). They are not only used as word-like vocal gestures expressing disapproval (and other meanings) but they also occur in an unconscious way for word search and at beginnings of new discourse units in conversations. Often, they co-occur with inhalation noises (Trouvain 2014), see Fig. 10. 66 Jürgen Trouvain & Raphael Werner 0 2 4 6 8 kHz sil inhalation clicks sil 0 1.6 Time (s) Fig. 10: Speech pause with an inhalation noise followed by clicks (highlighted) and a short silence before the speech. Audio signal (duration: 1.6 sec) taken from the Lindenstrasse corpus (speaker l03ape at 481.9 sec who utters “ [pause] bei mir waren ” ). ( ► eContent_TR_p and ► eContent_TR_q.TextGrid) Glottal reflections can be considered as under-researched phenomena of phonetic particles in speech pauses (Belz & Trouvain 2019). They can appear in different phonetic shapes and can be regarded as interrupted intent of articulation. The example in Fig. 11 shows a hesitation consisting of a silence with additional creaky voice at the end of the first word and at the beginning of the second word including some isolated glottalisations. Acoustically, these glottal articulations are often hard to describe and physiological measurements such as electroglottography would be needed to get a clearer idea of their production process. eContent_TR_p. wav eContent_TR_q. TextGrid A phonetic view on annotating speech pauses and pause-internal phonetic particles 67 0 2 4 6 8 kHz glottal re ections 0 1 Time (s) Fig. 11: Speech pause with a mixture of silence and glottalisations. Audio signal (duration: 1.0 sec) taken from the Lindenstrasse corpus (speaker l03ape at 89.3 sec who utters “ sie [glott] halt ” ). ( ► eContent_TR_r and ► eContent_TR_s. TextGrid) One frequent non-verbal phenomenon in spontaneous speech that often happens in pauses is laughter (Trouvain 2014). Very often, laughter itself consists of elements that are treated here as pause particles such as inhalation noises and silence (see e. g. Truong et al. 2019). Although many instances of laughter can show clear links to speech pauses, speech planning and turntaking, it seems reasonable to consider laughing as a complex phenomenon of its own that can be analysed independently from speech pauses. 9 Perceived pauses The perception of pauses in speech depends on various factors for different levels of linguistic and phonetic processing (cf. Duez 1993, Strangert 1993, Swerts 1998, Carlson et al. 2005). Apart from silence and the afore-mentioned pause-internal particles such as inbreath noises and filler particles, there are further cues for pause perception in speech: phrase-final (or pre-pausal) lengthening, intonational boundary tones, voice quality (e. g. creaky voice), drops in intensity, and of course syntactic information. Trouvain & Werner (2021) could show that listeners are able to detect pauses in (spontaneous) speech without any presence of silence or pause-internal phonetic particles at all, though this was valid not for all participants in their eContent_TR_r. wav eContent_TR_s. TextGrid 68 Jürgen Trouvain & Raphael Werner experiment. It is important to say that there was no subject in this study who was able to detect all pauses in the stimuli. It is argued that a pause in speech perception should not be confused with a pause in speech acoustics. Automatic procedures to detect pauses, e. g. de Jong & Wempe (2009), can reliably help when segmenting inter-pause units in the speech signal. In human speech perception, the detection of pauses seems to be strongly linked to the listeners ’ interpretation of silences and other expected cues in the linguistic message. Arguably, pauses with breath noises (or breath pauses in short) are strong markers of prosodic boundaries, besides the other cues mentioned above. In general, breath pauses seem to occur in longer pauses whereas shorter pauses do usually not contain breath noises (Fuchs et al. 2013, Trouvain et al. 2020). There seems to be also a correlation with pause duration and prosodic boundary strength with longer pauses (and mostly breath pauses) reflecting a higher-level prosodic break (Trouvain et al. 2020). 10 Conclusions and outlook Being inherent in speech, pauses should not be ignored in phonetic annotation of speech material that goes beyond single utterances (even if that means marking them as absence of speech). Their variable character poses challenges for definitions in terms of function, duration, and phonetic components. Our illustrations and descriptions made it clear that speech pauses can be regarded from different angles. Depending on the perspective, pauses can be defined and categorised in different ways, with consequences for the annotation and segmentation in corpora. We hope that we raised awareness that a “ pause ” for one line of research is not necessarily identical with a “ pause ” in another line of research. Although in this article we looked at pauses from a phonetic point of view, it cannot be taken for granted that phonetic studies in general have such a detailed view. Belz & Trouvain (2019) suggest six levels for the annotation of pauses and pause-internal particles, in contrast to most other annotation procedures that consider pauses on just a single level. In this article, we described pauses with respect to both the acoustic and the perceptual domain but there is also the articulation side to them in natural speech. While their acoustic manifestations may be similar, there are articulatory differences concerning rest postures, speech-ready, and inter-speech pause postures (Ramanarayanan et al. 2013). It should thus be emphasised that there are mismatches and a pause in one domain may not always entail pauses in the other two domains., e. g. closure phases of plosives vs. perceived pauses without stretches of silence. A phonetic view on annotating speech pauses and pause-internal phonetic particles 69 This article on pauses in speech had the focus on the acoustic signal and ignored visual signals, e. g. from video recordings or motion capture films. It remains an open question how pauses - and pause-internal particles - are manifested visually either in read aloud speech (e. g. newscasters) or in spontaneous conversations. Further rather unexplored research areas concern the pausing behaviour in using a sign language (for an exception see Grosjean 1979) which can likewise be investigated as scripted language (e. g. with an interpreter of a news broadcasting) and of course spontaneous signed conversations. Acknowledgements The authors thank Bernd Möbius and Beeke Muhlack but also both editors for their helpful comments on an earlier draft of this article. This research was funded in part by the Deutsche Forschungsgemeinschaft (DFG, German Research Foundation) - Project-ID TR 468/ 3-1. References Bachorowski, Joanne A. & Michael J. Owren. 2001. Not all laughs are alike: voiced but not unvoiced laughter readily elicits positive affect. Psychological Science 12. 252 - 257. Beckman, Mary E. & Gayle A. Ayers. 1994. Guidelines for ToBI Labelling. http: / / www. speech.cs.cmu.edu/ tobi/ (last accessed 20 July 2021) Belz, Malte & Jürgen Trouvain. 2019. Are ‘ silent ’ pauses always silent? Proc. 19th International Congress of Phonetic Sciences (ICPhS), Melbourne. 2744 - 2748. Brugos, Alejna, Langston, Alison, Shattuck-Hufnagel, Stefanie & Nanette Veilleux. 2019. A cue-based approach to prosodic disfluency annotation. Proc. 19th International Congress of Phonetic Sciences (ICPhS), Melbourne. 3414 - 3417. Campione, Estelle & Jean Véronis. 2002. A large-scale multilingual study of silent pause duration. Proc. Speech Prosody, Aix-en-Provence. 199 - 202. Carlson, Rolf, Julia Hirschberg & Swerts, Marc. 2005. Cues to upcoming Swedish prosodic boundaries: Subjective judgment studies and acoustic correlates. Speech Communication 46(3 - 4). 326 - 333. Clark, Herbert H. & Jean E. Fox Tree. 2002. Using uh and um in spontaneous speaking. Cognition 84(1). 73 - 111. Chafe, Wallace. 2007. The Importance of Not Being Earnest. Amsterdam: Benjamins. Crystal, David. & Derek Davy. 1976. Advanced Conversational English. London: Longman. Cucchiarini, Catia, Helmer Strik, & Lou Boves. 2002. Quantitative assessment of second language learners ’ fluency: Comparisons between read and spontaneous speech. Journal of the Acoustical Society of America 111(6). 2862 - 2873. 70 Jürgen Trouvain & Raphael Werner Duez, Danielle. 1993. Acoustic correlates of subjective pauses. Journal of Psycholinguistic Research 22(1). 21 - 39. Eklund, Robert. 2008. Pulmonic ingressive phonation: Diachronic and synchronic characteristics, distribution and function in animal and human sound production and in human speech. Journal of the International Phonetic Association 38(3). 235 - 325. Fuchs, Susanne, Caterina Petrone, Jelena Krivokapi ć & Phil Hoole. 2013. Acoustic and respiratory evidence for utterance planning in German. Journal of Phonetics 41. 9 - 47. Fuchs, Susanne, Caterina Petrone, Amélie Rochet-Capellan, Uwe Reichel & Laura Koenig. 2015. Assessing respiratory contributions to f0 declination in German across varying speech tasks and respiratory demands. Journal of Phonetics 52. 35 - 45. Grosjean, François. 1979. A study of timing in a manual and a spoken language: American sign language and English. Journal of Psycholinguistic Research 8. 379 - 405. Heldner, Mattias. 2011. Detection thresholds for gaps, overlaps, and no-gap-no-overlaps. Journal of the Acoustical Society of America 130(1). 508 - 513. Hieke, Adolf E., Sabine Kowal & Daniel C. O ’ Connell. 1983. The trouble with “ articulatory ” pauses. Language and Speech 26. 203 - 214. Hualde, José I. & Pilar Prieto. 2016. Towards an International Prosodic Alphabet (IPrA). Laboratory Phonology: Journal of the Association for Laboratory Phonology, 7(1), 5. DOI: http: / / doi.org/ 10.5334/ labphon.11 IPDS 2006. Video Task Scenario: Lindenstraße - The Kiel Corpus of Spontaneous Speech, Volume 4, DVD, Institut für Phonetik und Digitale Sprachsignalverarbeitung Universität Kiel. Jong, Nivja H. de & Ton Wempe. 2009. Praat script to detect syllable nuclei and measure speech rate automatically. Behavior Research Methods 41(2). 385 - 390. Kallay, Jeffrey E., Ulrich Mayr & Melissa A.Redford. 2019. Characterizing the coordination of speech production and breathing. Proc. 19th International Congress of Phonetic Sciences (ICPhS), Melbourne, 1412 - 1416. Kienast, Miriam & Florian Glitza. 2003. Respiratory sounds as an idiosyncratic feature in speaker recognition. Proc. 15th International Congress of Phonetic Sciences (ICPhS), Barcelona. 1607 - 1610. Kügler, Frank, Stefan Baumann, Bistra Andreeva, Bettina Braun, Martine Grice, Jana Neitsch, Oliver Niebuhr, Jörg Peters, Christine T. Röhr, Antje Schweitzer & Petra Wagner. 2019. Annotation of German Intonation: DIMA compared with other systems. Proc. 19th International Congress of Phonetic Sciences (ICPhS), Melbourne. 1297 - 1301. Lauf, R. 2001. Aspekte der Sprechatmung: Zur Verteilung, Dauer und Struktur von Atemgeräuschen in abgelesenen Texten. In Angelika Braun (ed.), Beiträge zu Linguistik und Phonetik, 406 - 420. Stuttgart: Franz Steiner Verlag. Lennon, Paul. 1990. Investigating fluency in EFL: A quantitative approach. Language Learning 40. 387 - 417. Lieberman, Philipp. 1967. Intonation, Perception and Language. Cambridge, Mass.: MIT Press. O ’ Connell, Daniel C. & Sabine Kowal. 1983. Pausology. In Walter A. Sedelow & Sally Yeates Sedelow (eds): Computers in Language Research 2, 221 - 299. Berlin: de Gruyter. A phonetic view on annotating speech pauses and pause-internal phonetic particles 71 Ramanarayanan, Vikram, Louis Goldstein, Dani Byrd, & Shrikanth Narayanan. S. 2013. An investigation of articulatory setting using real-time magnetic resonance imaging. The Journal of the Acoustical Society of America 134(1), 510 - 519. https: / / doi.org/ 10. 1121/ 1.4807639 Sacks, Harvey, Emanuel A. Schegloff & Gail Jefferson. 1974. A simplest systematics for the organization of turn taking in conversation. Language 50. 696 - 735. Shattuck-Hufnagel, Stefanie & Alice E. Turk. 1996. A prosody tutorial for investigators of auditory sentence processing. Journal of Psycholinguistic Research 25(2). 193 - 247. Selting, Margaret, Peter Auer, Dagmar Barth-Weingarten, Jörg Bergmann, Pia Bergmann, Karin Birkner, Elisabeth Couper-Kuhlen, Arnulf Deppermann, Peter Gilles, Susanne Günthner, Martin Hartung, Friederike Kern, Christine Mertzlufft, Christian Meyer, Miriam Morek, Frank Oberzaucher, Jörg Peters, Uta Quasthoff, Wilfried Schütte, Anja Stukenbrock & Susanne Uhmann. 2009. Gesprächsanalytisches Transkriptionssystem 2 (GAT 2). Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion 10. 353 - 402. Stivers, Tanya, Nick J. Enfield, Penelope Brown, Christina Englert, Makoto Hayashi, Trine Heinemann, Gertie Hoymann, Federico Rossano, Jan de Ruiter, Kyung-Eun Yoon & Stephen C. Levinson. 2009. Universals and cultural variation in turn-taking in conversation. Proceedings of the National Academy of Sciences of the United States of America (PNAS) 106(26). 10587 - 10592. Strangert, Eva. 1993. Speaking style and pausing. Phonum 2. 121 - 137. Strangert, Eva. 2003. Emphasis by pausing. Proc. 15th International Congress of Phonetic Sciences (ICPhS), Barcelona. 2477 - 2480. Swerts, Marc. 1998. Filled pauses as markers of discourse structure. Journal of Pragmatics 30(4). 485 - 496. Tavakoli, Parvahneh. 2011. Pausing patterns: differences between L2 learners and native speakers. ELT Journal 65(1). 71 - 79. Tian, Ye, Jonathan Ginzburg & Takehiko Maruyama. 2017. Self-addressed questions and filled pauses: A cross-linguistic investigation. Journal of Psycholinguistic Research 46 (1), 905 - 922. Trouvain, Jürgen. 2004. Tempo Variation in Speech Production. Implications for Speech Synthesis. PhD thesis, Saarland University. Phonus 8, Phonetics, Saarbrücken. Trouvain, Jürgen. 2010. Affektäußerungen in Sprachkorpora. Proc. 21st Konferenz Elektronische Sprachsignalverarbeitung (ESSV), Berlin. 64 - 70. Trouvain, Jürgen. 2011. Zur Wahrnehmung von manipuliertem Weinen als Lachen. Proc. 22nd Konferenz Elektronische Sprachsignalverarbeitung (ESSV), Aachen. 253 - 260. Trouvain, Jürgen. 2014. Laughing, breathing, clicking — The prosody of nonverbal vocalisations. Proc. Speech Prosody, Dublin. 598 - 602. Trouvain, Jürgen & William J. Barry. 2000. The prosody of excitement in horse race commentaries. Proc. ISCA-Workshop on Speech and Emotion, Newcastle (Northern Ireland). 86 - 91. 72 Jürgen Trouvain & Raphael Werner Trouvain, Jürgen & Bettina Braun. 2020. Sentence prosody in a second language. In Carlos Gussenhoven & Aoju Chen (eds.), The Oxford Handbook of Language Prosody, 605 - 618. Oxford: Oxford University Press. Trouvain, Jürgen & Martine Grice. 1999. The effect of tempo on prosodic structure. Proc. 14th International Congress of Phonetic Sciences (ICPhS), San Francisco. 1067 - 1070. Trouvain, Jürgen & Khiet P. Truong. 2015. Prosodic characteristics of read speech before and after treadmill running. Proc. Interspeech, Dresden. 3700 - 3704. Trouvain, Jürgen & Raphael Werner. 2020. Comparing annotations of non-verbal vocalisations in speech corpora. Proc. 6th Workshop on Laughter and Other Nonverbal Vocalisations, Bielefeld. 69 - 72. Trouvain, Jürgen, Raphael Werner & Bernd Möbius. 2020. An acoustic analysis of inbreath noises in read and spontaneous speech. Proc. Speech Prosody, Tokyo. 789 - 793. Trouvain, Jürgen & Raphael Werner. 2021. Human pause detection in spontaneous speech in an online experiment. Proc. 32nd Konferenz Elektronische Sprachsignalverarbeitung (ESSV), Berlin. 59 - 66. Truong, Khiet P., Jürgen Trouvain & Michel-Pierre Jansen. 2019. Towards an annotation scheme for complex laughter in speech corpora. Proc. Interspeech, Graz. 529 - 533. Son, Rob van, Wieneke Wesseling, Eric Sanders, & Henk van den Heuvel. 2008. The IFADV corpus: A free dialog video corpus. Proc. 6th International Conference on Language Resources and Evaluation (LREC 2008). 501 - 508. Viola, Izabel Cristina & Sandra Madureira. 2008. The roles of pause in speech expression. Proc. Speech Prosody, Campinas (Brazil). 721 - 724. Ward, Nigel. 2019. Prosodic Patterns in English Conversation. Cambridge: Cambridge University Press. Werner, Raphael, Jürgen Trouvain & Möbius, Bernd. 2020. Ein sprachübergreifender Vergleich des Pausenverhaltens natürlicher Sprecher in verschiedenen Sprechtempi mit TTS-Systemen. Proc. 31st Konferenz Elektronische Sprachsignalverarbeitung (ESSV), Magdeburg. 101 - 108. Winter, Bodo & Sven Grawunder. 2012. The phonetic profile of Korean formal and informal speech registers. Journal of Phonetics 40. 808 - 815. Wright, Melissa. 2011. On clicks in talk-in-interaction. Journal of the International Phonetic Association 41(2). 207 - 229. A phonetic view on annotating speech pauses and pause-internal phonetic particles 73 Zur Transkription von Lautobjekten in der Gesprächsanalyse Heike Baldauf-Quilliatre Abstract: Lautobjekte (auch bezeichnet als vocalizations oder liminal signs) stellen die gesprächsanalytische Transkription vor eine Herausforderung, da sie nicht oder nur bedingt orthographisch transkribiert werden können. Neuere Untersuchungen haben aber gezeigt, dass eine genaue Transkription auch für ein besseres Verständnis der Interaktionsorganisation wesentlich ist. Dieser Artikel plädiert daher in Bezug auf Lautobjekte für eine systematische Integration phonetischer Transkription in ein gesprächsanalytisches Basistranskript. Er bezieht sich dabei sowohl auf herkömmliche Praktiken der Transkription von Lautobjekten in der Konversationsanalyse, als auch auf eine Beispielanalyse des Lautobjekts „ pff “ . Keywords: Gesprächs-/ Konversationsanalyse, non-lexical vocalizations, sound objects, Interjektion, phonetische Transkription 1 Einleitung Wer mündliche Interaktion transkribiert, trifft früher oder später auf sie: Laute, die keinem Wort im traditionellen Sinn entsprechen, die nicht oder nicht vollständig lexikalisiert sind und denen die Beteiligten dennoch eine Funktion zuschreiben. Die grammatische Kategorie der Interjektion suggeriert eine Einheitlichkeit und Abgeschlossenheit, die sich bei näherer Betrachtung schnell als trügerisch erweist 1 - auch in Bezug auf die Möglichkeit einer schriftlichen Darstellung. Manche Lautverbindungen gelten gemeinhin als Interjektionen und sind unter Umständen sogar in Wörterbüchern zu finden (z. B. igitt, au, brr). 2 1 Darauf weisen grammatisch orientierte Arbeiten allerdings auch immer wieder hin (z. B. Nübling 2004; Ehlich 2007). 2 Kursivsetzung verweist auf Interjektionen, die als solche in Wörterbüchern verzeichnet und beschrieben sind. In Anführungszeichen ( „ oh “ ) werden in Transkripten und Analysen verzeichnete Lautobjekte gesetzt. Sie können in der Regel relativ problemlos orthographisch transkribiert werden - dabei fasst man jedoch unter Umständen lautliche Realisierungen, die verschieden verwendet werden, unter einer (Schrift)Form zusammen. Für andere Laute bzw. Lautverbindungen gibt es mehr oder weniger konventionalisierte Schreibungen aufgrund ihrer Verwendungen in bestimmten schriftlichen Kommunikationsformen bzw. Textsorten (z. B. oh, hm). Das stellt im Alltag kein Problem dar, ist aber in einer gesprächsanalytischen Transkription zum Teil zu ungenau und zieht im Weiteren Schwierigkeiten in der Analyse nach sich, etwa in Bezug auf die temporale Entfaltung der Interaktion. Wieder andere können phonetisch beschrieben und transkribiert werden (z. B. Clicks). Ihre Transkription mit Zeichen des lateinischen Alphabets ist aber problematisch, da eine genaue gesprächsanalytische Transkription relativ schnell unlesbar (und nicht nachvollziehbar) wird bzw. die Buchstaben Laute suggerieren, die dem eigentlich realisierten Laut nur bedingt entsprechen. Und schließlich gibt es jene Laute, die auch das Internationale Phonetische Alphabet vor Herausforderungen stellen (z. B. Ächz- und Stöhnlaute, wie sie Hofstetter 2020 analysiert). Seit Beginn gesprächs- und konversationsanalytischer Forschungen wird darauf hingewiesen, dass diese Lautobjekte, ebenso wie Schweigephasen bzw. Pausen, Wiederholungen oder andere sogenannte syntaktische „ Disfluenzen “ , nicht ignoriert werden dürfen (siehe etwa Schegloff 1982, Goodwin 1986). Im Gegenteil, sie sind wichtige Elemente in der Interaktionskonstitution und tragen wesentlich zur Organisation (aus Teilnehmer*innensicht) und zum Verständnis der Interaktion (aus Forscher*innensicht) bei. Auch wenn die lautliche Form an sich in gesprächsanalytischen Arbeiten nicht im Vordergrund steht, stellt sich daher durchaus die Frage nach der Darstellung dieser Laute bzw. Lautverbindungen in der Transkription. Im Folgenden (Abschnitt 2) soll zunächst aufgezeigt werden, wie Lautobjekte in Gesprächs- und Konversationsanalyse konzipiert sind. Diese Frage ist insofern wichtig, als sie Überlegungen zur Transkription in bestimmte Richtungen lenkt (lenken kann). Im Anschluss daran (Abschnitt 3) werden mit Bezug auf gesprächsbzw. konversationsanalytische Arbeiten Fragen und Probleme hinsichtlich ihrer Transkription diskutiert; es geht also in gewisser Hinsicht um Fragen der Phonem-Graphem-Beziehung aus gesprächsanalytischer Sicht. Ein dritter Teil (Abschnitt 4) argumentiert an Hand eines nicht-lexikalisierten Lautobjekts wie „ pff “ , warum es sinnvoll ist, zumindest Nicht-lexikalisiertes in gesprächsanalytischen Arbeiten phonetisch zu transkribieren. Zur Transkription von Lautobjekten in der Gesprächsanalyse 75 2 Von response cries, vocalizations, sound objects und liminal signs Als einer der ersten hat Erving Goffman (1981) eine Gruppe von nicht- oder halblexikalisierten „ Ausrufen “ (response cries) und ihre Funktionen in der Interaktion beschrieben. Die Besonderheit dieser response cries besteht u. a. darin, dass sie keine Antworthandlung verlangen und es somit den anderen Interaktionsteilnehmer*innen erlauben, sie „ zu überhören “ . Andererseits handelt es sich aber um soziale Phänomene ( „ creatures of social situations “ ; 1981: 121), die in eine interaktionale Sequenz integriert sein können. Goffman beschreibt response cries als eine spezifische Form von „ Herausplatzern “ (blurtings). In etwa vergleichbar, aber meines Erachtens weniger klar ist der Begriff outloud, den Szymanski (1999) in Bezug auf Goffmans „ Selbstgespräch “ (self talk) benutzt: „ Outloud utterances may not be designed in their production specifically to re-engage a next turn at talk; however, they can provide a source for future talk about specific aspects of the task. “ (Szymanski 1999: 19). Konversationsanalytische Studien sprechen in Anlehnung an Schegloff (1982) weitestgehend von „ Vokalisierung “ (vocalization). Schegloff versteht darunter zunächst einmal mehr oder weniger lexikalisierte Formen (wie ‚ uh huh ‘ oder ‚ yeah ‘ ), die in der Regel als continuer 3 benutzt werden und daher nicht das Rederecht einfordern (1982: 73 - 74). Mit Verweis auf die zunehmende Forschung in diesem Bereich unternehmen Keevallik & Ogden (2020) eine genauere Begriffsbestimmung. Sie beschreiben Vokalisierungen als „ körperliche Prozesse “ (bodily processes; 2020: 8): „ some vocal tract sounds have a more obviously somatic origin, while, like laughter and crying, they can be positioned in meaningful ways in sequences of action “ (2020: 8). Keevallik & Ogden stellen ebenfalls heraus, dass es sich um ein Kontinuum mit mehr oder weniger konventionalisierten Formen handelt, von denen manche phonetisch unterspezifiziert sind (im Sinne von Keating 1988 4 ) bzw. genuin multimodal (das heißt sie sind eng mit bestimmten körperlichen Aktivitäten verwoben). Die Beiträge in dem von Keevallik & Ogden herausgegebenen Special Issue der Zeitschrift Research on Language and Social Interaction zeigen, wie wichtig die Berücksichtigung der Körperlichkeit des Sprechens vor allem hier ist und das eine genaue Analyse eine genaue Transkription aller Parameter einschließt - sowohl multimodale, als auch phonetisch-prosodische. 3 Siehe dazu Goodwin (1986). 4 „ For the vocalization to be recognizable as a token of a particular type of vocalization, speakers have to produce some phonetic events, with freedom to vary some elements. “ (Keevallik & Ogden 2020: 6) 76 Heike Baldauf-Quilliatre Im Bereich der Interaktionalen Linguistik ist ebenfalls regelmäßig die Rede von „ Lautobjekten “ (sound objects). Dieser Begriff wurde von Reber & Couper- Kuhlen (2010) geprägt und in Reber (2012) weiterentwickelt. Den Autorinnen geht es bei der Begriffswahl darum, auf die Rolle phonetisch-prosodischer Parameter für die Bedeutung im semantischen Sinne hinzuweisen: „ the label sound object aims to reflect the fact that these objects are spoken language resources for which the sound pattern and its context-specific use are distinctive for the meaning “ (Reber 2012: 12). Ein neues und meines Erachtens sehr interessantes Konzept umfasst der von Dingemanse (2020) geprägte Begriff der „ Grenzsignale “ (liminal signs). Dingemanse argumentiert gegen die negative und ausschließende Beschreibung dieser Lautobjekte (etwa als nicht-lexikalisiert oder nonverbal) und plädiert für eine Hervorhebung des In-between-Charakters dieser Laute oder Lautverbindungen: „ Liminal signs are signs that derive interactional utility from being ambiguous with regard to conventionality, intentionality, and accountability. Their in-between status [ … ] is an essential part of their form and function, as they occupy the interstices of talk and frequently serve to navigate liminal and transitory spaces in interaction. “ (Dingemanse 2020: 191). Die Analyse von Grenzsignalen wird möglich durch und bedarf zum einen einer genauen Darstellung (unter anderem um die genaue zeitliche Entfaltung in der Interaktionssequenz zu verstehen) und zum anderen einer genauen theoretischen Konzeption (etwa durch die Verbindung mit anderen Disziplinen und deren Forschungsergebnissen in diesem Bereich). Ich werde im Folgenden von Lauten bzw. Lautverbindungen sprechen, wenn es sich um eine spezifische phonetische Realisierung handelt, ohne dass eine Aussage über eventuelle Funktionen in der Interaktion getroffen wird. Um auf eine bestimmte Gestalt zu verweisen, die eine Funktion in der Interaktion ausübt, werde ich Rebers Begriff des Lautobjekts verwenden. 3 Lautobjekte transkribieren: Fragen, Vorschläge und Probleme Der deutliche Bezug auf die Rolle phonetisch-prosodischer und körperlicher Aspekte für die Konstitution von Lautobjekten, vor allem in neueren interaktionsphonetischen Arbeiten, verweist auch auf Fragen zu deren Transkription. Wenn nämlich Laute oder Lautverbindungen benutzt werden, die normalerweise nicht in der untersuchten Sprache vorkommen oder wenn es sich um Laute handelt, die eng an bestimmte körperliche Aktivitäten geknüpft sind (wie etwa das Heben eines schweren Gegenstandes), dann greift eine Transkription, die sich an der jeweiligen (Schrift)Sprache orientiert oder die körperliche Phänomene ignoriert, im besten Fall zu kurz. Zur Transkription von Lautobjekten in der Gesprächsanalyse 77 Transkriptionen dienen in erster Linie dazu, die Flüchtigkeit mündlicher Äußerungen oder Interaktionen festzuhalten. Sie erlauben es im Weiteren, Daten zugänglich und Analysen für andere nachvollziehbar zu machen. Das setzt voraus, dass sie bestimmten, mehr oder weniger einheitlichen Konventionen folgen, die in einer bestimmten Wissenschaftsgemeinschaft bekannt und anerkannt sind. Aus gesprächsbzw. konversationsanalytischer Sicht ist Transkribieren mehr als nur ein genaues schriftliches Abbilden von Interaktionen. Transkribieren ist Teil des analytischen Prozesses (Psathas & Anderson 1990) und wird daher auch entsprechend reflektiert (z. B. ten Have 2002, Bucholtz 2007, Davidson 2010, Bolden 2015). Deppermann & Schütte (2008) weisen darauf hin, dass beim Transkribieren epistemologische und pragmatische Entscheidungen getroffen werden, etwa hinsichtlich der Granularität in Abhängigkeit vom zu untersuchenden Phänomen, von der interaktionalen Relevanz oder vom Adressaten des Transkripts (siehe auch Deppermann 2001). Ayass (2016) spricht von einer Generierung der Daten durch die Transkription ( „ The process of transcription generates the data upon which the analysis is built. “ 2016: 511). Mondada (2007: 809) beschreibt Transkripte als „ evolving flexible object “ und Transkribieren als „ situated practice “ . Lautobjekte müssen in gesprächsanalytischen Transkripten immer und systematisch erfasst werden. In Bezug auf die Art der Transkription stellt sich nun aber die Frage: Wie genau soll ein Lautobjekt transkribiert werden, so dass seine phonetisch-prosodische Realisierung und seine Einbettung in den Interaktionsverlauf einerseits nachvollziehbar wird, andererseits aber nicht die Lesbarkeit des Transkripts schmälert? Und inwiefern müssen sichtbare Aspekte ihrer Realisierung (Reber & Couper-Kuhlen 2010) bzw. körperliche Aktivitäten, die damit in Zusammenhang stehen können (Keevalik & Ogden 2020) systematisch in der Transkription berücksichtigt werden? Erste Überlegungen zur Transkription von Lautobjekten im weiteren Sinne finden sich bereits in den 1980er Jahren bei Gail Jefferson. Im Rahmen ihrer Untersuchungen zum Lachen plädiert sie gegen eine Beschreibung als „ ((laughter)) “ und für eine genaue Transkription der Lachpartikel ( Jefferson 1985). Diese ermöglichen es nämlich, die genaue Platzierung in einem bestimmten Turnsegment zu bestimmen, was wiederum die Analyse der Lachsequenz beeinflusst (siehe auch das entsprechende Kapitel in Hepburn & Bolden 2017). Potter & Hepburn (2009) führen diese Überlegungen weiter, indem sie Lachpartikel innerhalb eines Wortes als „ interpolare Aspirationspartikel “ (interpolated particles of aspiration) bezeichnen. Was zunächst wie eine (zu) komplizierte terminologische Wortschöpfung erscheinen mag, ist eine durchaus berechtigte Ausdifferenzierung, die auf der Annahme basiert, dass die Bezeich- 78 Heike Baldauf-Quilliatre nung als Lachpartikel diese Phänomene in die Nähe des Lachens rückt und damit auch bestimmte Interpretationen nahe legt. Das im deutschen Sprachraum übliche Gesprächsanalytische Transkriptionssystem (Selting et al. 2009) unterscheidet sich diesbezüglich von Jeffersons Konventionen: GAT2 bietet sowohl die Beschreibung ( „ ((lacht)) “ ), als auch eine Transkription als silbisches Lachen ( „ hahaha “ ) an; sprechbegleitendes Lachen wird als „ vorangestellte Beschreibung mit Angabe der Extension erfasst “ , vom Einfügen von Lachpartikeln in Wörter wird abgeraten, da diese die automatische Suche in Transkriptionen beeinträchtigen (Selting et al. 2009: 367). Klassische konversationsanalytische Studien orientieren sich in der Regel an Jefferson (2004). Lautobjekte werden dabei durch Buchstaben oder Buchstabenverbindungen transkribiert, die dem ursprünglichen Laut so nah wie möglich kommen. Charakteristische prosodisch-phonetische Aspekte wie Länge, Stimmqualität, Behauchtheit etc. sind durch entsprechende Zeichen markiert (siehe dazu Hepburn & Bolden 2017). Für stärker konventionalisierte oder sogar lexikalisierte Formen wie oh, ah, aha, hm, äh und ähnliches stellt dies insofern ein geringeres Problem dar, als es sich um eine konventionalisierte Schreibung handelt. Schwierig wird es aber für weniger konventionalisierte Formen. Hepburn & Bolden (2017: 93) geben in diesem Fall folgenden allgemeinen Ratschlag: „ Generic advice in this situation would be to first have a go at the basic sound. For instance, for a throat clear one would expect an out-breath element, a guttural element, ‚ g ‘ , ‚ gh ‘ , ‚ ugh ‘ , etc., sometimes a ‚ k ‘ sound, all of which i soften done through closed or sealed lips, giving a possible ‚ m ‘ sound, so ‚ hgm ‘ or ‚ mhgmhm ‘ . “ Konkret etwa bietet Hepburn (2004: 262) für Schniefen in englischsprachigen Wein-Sequenzen (sniffing) eine Transkription mit „ .shih “ (Schniefen in Verbindung mit Tränen) bzw. „ .skuh “ (Schniefen in Verbindung mit einem Schnauben im Rachenraum) an - der dem „ s “ vorangestellte Punkt signalisiert eine Lautproduktion während der Inspiration. In Hepburn & Bolden (2017: 83 - 84) erwähnt sie auch noch „ .snih “ . Hoey (2020) transkribiert Schniefen ohne Weinen (sniffing) mit „ >.nh< “ - „ >< “ signalisiert ein schnelleres Tempo in Bezug auf das Sprechtempo in der Umgebung. Mondada (2020) untersucht Schnüffeln in Riech-Sequenzen (sniffing) und transkribiert es ebenfalls als „ .nh “ mit Variationen in Hinsicht auf Lautheit und Tempo. In allen drei Arbeiten wird das untersuchte Phänomen als sniffing bezeichnet und die Transkription zeigt, dass es sich um bei der Inspiration produzierte Laute handelt; ansonsten bestehen aber deutliche Unterschiede: So sind, wenn man sich auf die Transkription bezieht, die sogenannten „ feuchten Schniefer “ nur in Hepburn ’ s Wein-Sequenzen zu finden. Mondada ’ s „ Schnüffler “ in Riechsequenzen sind immer nasal, aber von verschiedener Länge. Hoey ’ s Schniefer, die in Konversationen spezi- Zur Transkription von Lautobjekten in der Gesprächsanalyse 79 fische Funktionen im Rahmen des Turntaking ausüben, sind ebenfalls nasal, werden aber immer mit sehr hohem Tempo produziert - was nicht der Fall ist für Mondadas Beispiele. Diese Beobachtung führt nun zu mehreren Überlegungen: Als erstes kann man feststellen, dass diese Unterschiede bei einer Beschreibung des Lautobjekts als „ ((sniff )) “ entgehen würden (siehe dazu auch Dingemanse 2020: 192). Nun könnte man natürlich einwenden, dass die Granularität der Transkription von der jeweiligen Fragestellung abhängt (siehe etwa Mondadas 2007 Beschreibung von Transkribieren als situierte Praktik). Dies setzt aber voraus, dass man tatsächlich genauer transkribiert, sobald das Lautobjekt in der Analyse relevant wird. Zwar ist das Verbessern und Verfeinern von Transkripten in Gesprächs- und Konversationsanalyse durchaus gängige Praxis, aber problematisch bleibt die Frage, ob eine (zu) ungenaue Transkription nicht dazu führt, dass manche Forschungsfragen gar nicht gestellt werden. Als zweites wäre zu fragen, ob hier nicht Dinge terminologisch zusammengefasst werden, die eigentlich nicht zusammen gehören. Wenn es sich um Lautphänomene handelt, die nicht nur Unterschiede hinsichtlich ihrer Realisierung, sondern auch hinsichtlich ihrer Verwendung aufweisen und wenn die Realisierungsarten mit verschiedenen Verwendungsweisen zu korrelieren scheinen, dann führt das Zusammenfassen unter einem Begriff meines Erachtens in eine falsche Richtung. Hier wird nämlich suggeriert, dass es sich um ein und dasselbe Phänomen handelt (siehe etwa die erwähnten Beispiele verschiedener Arten von „ Schnüfflern “ und ihrer Funktionen). Ich möchte in diesem Zusammenhang auch noch einmal auf Potter & Hepburn (2009) verweisen, die meines Erachtens zu Recht auf den Unterschied zwischen Lachen und sogenannten Lachpartikeln innerhalb eines Wortes hinweisen und für eine terminologische Trennung plädieren. Drittens kann man sich fragen, bis zu welchem Grad eine Transkription funktioniert, die versucht, Laute, für die es in der untersuchten Sprache keine Entsprechung gibt, im Rahmen eines sprachgebundenen Transkriptionssystems wiederzugeben. Wäre es denn in diesem Fall nicht sinnvoller, auf andere Transkriptionssysteme, wie etwa das Internationale Phonetische Alphabet, zurückzugreifen? Das mag zwar auf den ersten Blick gewöhnungsbedürftig erscheinen, es würde aber meines Erachtens eine bessere Nachvollziehbarkeit und Genauigkeit erlauben. Und verschiedene konversationsanalytische Arbeiten zeigen, dass dies durchaus möglich und sinnvoll ist (etwa Hofstetter 2020; Keevallik & Ogden 2002; Couper-Kuhlen & Reber 2020; Wiggins & Keevallik 2020). Im Gegensatz zu phonetischen Arbeiten geht es in Gesprächs- und Konversationsanalyse weniger um die möglichst genaue Darstellung des Lautobjekts, sondern darum zu zeigen, dass und wie es die nachfolgende Rede beeinflusst bzw. dass und wie es sich auf die vorangegangene Rede bezieht. Dies 80 Heike Baldauf-Quilliatre ist meines Erachtens allerdings kein Widerspruch. Wenn ein Lautobjekt in der Interaktionskonstitution eine Rolle spielt, dann betrifft dies nicht nur die sequenzielle und multimodale Einbettung, sondern ebenso die lautliche, phonetisch-prosodische Realisierung. Ungenauigkeiten oder vorschnelle Verallgemeinerungen können hier zu falschen Interpretationen führen. Dies zeigt sich zum Beispiel bei Untersuchungen zu (lexikalisierten) Diskursmarkern und Antwortpartikeln: So wurde etwa gezeigt, dass deutsches „ jaja “ nicht nur in unterschiedlichen Sequenzen und sequenziellen Positionen auftritt, sondern dabei auch unterschiedlich realisiert wird (Golato & Fagyal 2008; Barth- Weingarten 2011). Für eine genaue Analyse bedarf es hier einer prosodisch genauen Transkription. In Arbeiten zu den französischen Diskursmarkern „ oh “ und „ ah “ wird darauf hingewiesen, dass „ ah “ zwar wesentlich häufiger vorkommt und dass beide in vergleichbaren sequenziellen Kontexten auftreten können, es sich jedoch um zwei unterschiedliche Lautobjekte handelt (Fauré & Vérine 2001; ICOR 2008). Weiterführende Untersuchungen zu „ oh là là “ erwähnen mögliche Unterschiede zu ähnlichen Formen wie „ ah là là “ oder „ roh là là “ (Baldauf-Quilliatre et al. 2016). Auch hier wird deutlich, dass eine phonetisch genaue Transkription (im Sinne der Unterscheidung zwischen [a], [o] und [xo]) für eine genaue Analyse unabdingbar ist. Ein letztes Beispiel: In ihren Untersuchungen zum Ausdruck von negativen oder positiven Geschmackserlebnissen beschreibt Wiggins (2002) einen emphatisch, mit steigend-fallender Tonhöhenbewegung realisierten, stark gelängten Nasal [m: ], der in Anwesenheit von Speisen bzw. Getränken produziert wird und dazu dient, ein positives (angenehmes) sensorielles Erlebnis zu äußern. Dieses gustatory mm unterscheidet sich von anderen „ mm ’ s “ , etwa sogenannten acknowledgement tokens oder continuers (Gardner 2001) nicht nur durch die spezifische sequenzielle Platzierung, sondern auch durch eine spezifische phonetisch-prosodische Realisierung und eine spezifische Verbindung mit anderen multimodalen Ressourcen wie Blick, Mimik, etc. (Gonzalez Temer 2017; Wiggins & Keevallik 2020). Was also etwa in einer Basisversion als „ mm “ transkribiert wird, können letztlich sehr unterschiedliche Phänomene sein, bei denen die gleiche Schreibweise eine Gemeinsamkeit suggeriert, die möglicherweise gar nicht existiert. Je genauer die Transkription, desto feiner lässt sich im Weiteren auch differenzieren. Das zeigen etwa die Untersuchungen von Gonzalez Temer (2017) und Wiggins & Keevallik (2020), die jeweils nicht nur die genaue prosodische Realisierung verschiedener gustatory „ mm “’ s, sondern auch die jeweilige materielle Realisierung bzw. die Verbindung mit verschiedenen anderen multimodalen Ressourcen transkribieren. So verbinden zum Beispiel Wiggins & Keevallik (2020) eine konversationsanalytische Transkription nach Jefferson und eine multimodale Transkription nach Mondada (2018) mit logarithmischen Zur Transkription von Lautobjekten in der Gesprächsanalyse 81 Tonhöhenkurven und können dadurch zeigen, dass gustatory „ mm “ in verschiedenen Sequenzen auftreten kann, dabei verschieden realisiert wird und verschieden in andere Handlungen der Teilnehmer*innen eingebunden ist. All diese Beispiele machen deutlich, wie problematisch es sein kann, wenn scheinbar ähnliche (oder ähnlich klingende) Phänomene unter einer Form zusammengefasst werden. Ein genauerer Blick zeigt unter Umständen, dass diese Phänomene gar nicht so ähnlich sind. Dies betrifft nicht nur das sequenzielle Umfeld, sondern auch die genaue lautliche, also phonetisch-prosodische Realisierung und die multimodale Einbettung. Das bedeutet nun nicht, dass Lautobjekte immer systematisch phonetisch-prosodisch transkribiert werden müssen. Aber so, wie es inzwischen zur guten Forschungspraxis gehört, in einem interaktionslinguistischen Transkript Fokusakzente und Intonationsphrasen zu notieren und so, wie der multimodale Charakter der Interaktion sich auch immer stärker in Transkription und Analyse widerspiegelt, so sollte man auch darüber nachdenken, bestimmte Phänomene wie nicht-lexikalisierte Lautobjekte phonetisch-prosodisch genauer zu transkribieren - zumindest dann, wenn man sich in der Analyse darauf bezieht. 4 Plädoyer für eine phonetische Transkription: das Lautobjekt „ pff “ In diesem Teil möchte ich an Hand eines konkreten Beispiels zeigen, wie wesentlich die phonetisch genaue Transkription ist, wenn es darum geht, ein Lautobjekt zu beschreiben bzw. zunächst einmal zu bestimmen. Ich beziehe mich dabei auf eine stimmlose konsonantische egressive Lautverbindung, die Schmidt et al. (2015) 5 in ihren Konventionen zu cGAT erwähnen und als „ pff “ transkribieren. Die Annahme eines solchen Lautobjekts ist allerdings nicht selbstverständlich: In deutschen Wörterbüchern gibt es in der Regel keinen Artikel über eine Interjektion / ein Lautobjekt „ pff “ und auch in Arbeiten zu deutschen Interjektionen, die grammatisch argumentieren oder auf schriftsprachlichen Korpora beruhen, wird „ pff “ kaum erwähnt. Allerdings findet man Beispiele für „ pff “ in Arbeiten zur Kurznachrichtenkommunikation (z. B. Balnat 2012). Außerdem gibt es (schriftsprachliche) Interjektionen, die dem nahe kommen könnten. So führt zum Beispiel Nübling (2004: 15) in ihrer Liste prototypischer 5 Es handelt sich dabei um ein Handbuch für computergestützte Transkription (mit dem Transkriptionseditor FOLKER), mit dem im Rahmen der Datenbank FOLK gearbeitet wird. Die Transkription folgt im Wesentlichen dem gesprächsanalytischen Transkriptionssystem GAT2, weist aber einige Ergänzungen oder Änderungen auf. 82 Heike Baldauf-Quilliatre Interjektionen neben „ pfui! “ eine konsonantische Interjektion „ phh! “ an, die Gleichgültigkeit und Verachtung ausdrücken soll und zwei weitere Interjektionen „ puh! “ und „ pah! “ , die dazu dienen, Erleichterung und Ekel bzw. Verachtung und Geringschätzung anzuzeigen. Betrachtet man nun Studien, die sich auf authentische gesprochensprachliche bzw. interaktionale Korpora beziehen, ist ein Lautobjekt „ pff “ durchaus präsent. So beschreibt etwa Pompino-Marschall (2004) in seiner Studie eines 45-minütigen Fernsehinterviews 83 „ echte “ Interjektionen und listet an dritter Stelle mit einer Frequenz von 12 % eine Interjektion „ pff “ , die verschieden realisiert werden kann (mit entstimmlichtem bilabialem Trill, stimmlosem bilabialem Frikativ und anderen Frikativvarianten; Pompino-Marschall 2004: 78) und die zwischen 110 und 675 Millisekunden dauert. Im Rahmen ihrer Konventionen für computergestütztes Transkribieren in Anlehnung an GAT2 erwähnen Schmidt et al. (2015) „ pff “ als Beispiel einer Interjektion, „ die nicht im Duden verzeichnet ist und für die damit auch keine empfohlene Schreibung existiert “ (Schmidt et al. 2015: 21). In diesem Fall, so die Autor*innen (siehe auch Winterscheidt et al. 2019), sollte man sich einerseits für eine Schreibweise entscheiden ( „ pff “ an Stelle von „ pf “ oder „ ph “ , um die Verwechslung mit einem Wortabbruch zu vermeiden), andererseits aber phonetische Unterschiede berücksichtigen (z. B. „ pft “ , wenn die Interjektion mit einem Plosiv endet). Winterscheidt et al. (2019: 16) erwähnen „ pff “ dabei im Rahmen der usuellen Interjektionen, auch wenn es keinen Wörterbucheintrag dafür gibt. In allen diesen Fällen wird das Lautobjekt als „ pff “ transkribiert, in Anlehnung an Jeffersons Prinzip, eine Buchstabenverbindung zu finden, die der tatsächlichen Lautverbindung möglichst nahe kommt. Auch ohne eine genauere Untersuchung stellt sich hier bereits eine erste Frage: Wenn „ pff “ phonetisch verschieden realisiert wird (so wie es Pompino-Marschall suggeriert) und wenn es sich um keine lexikalisierte Form mit Wörterbucheintrag handelt, wenn es keine oder kaum eingehende Untersuchungen bzw. Beschreibungen gibt, wie kann man dann davon ausgehen, dass es sich bei all den Varianten um das selbe Lautobjekt handelt? Wie kann man bestimmte phonetische Unterschiede in der Transkription berücksichtigen - und etwa den plosiven Abschluss als eigenständige Form interpretieren, die entsprechend anders (als „ pft “ ) transkribiert werden muss, während andere Varianten wie etwa ein bilabialer Trill an Stelle eines bilabialen Plosivs oder ein bilabialer Frikativ an Stelle eines labiodentalen unberücksichtigt bleiben? Im Folgenden soll nun detailliert gezeigt werden, was einerseits für die Annahme eines Lautobjekts „ pff “ spricht und was andererseits eine phonetische Transkription im Rahmen einer gesprächsanalytischen Beschreibung dieses Lautobjekts leisten kann. Ausgangspunkt dafür ist die Datenbank FOLK des Zur Transkription von Lautobjekten in der Gesprächsanalyse 83 Leibniz-Instituts für deutsche Sprache, die 376 Okkurrenzen von „ pff “ und 133 Okkurrenzen von „ pf “ verzeichnet (Stand: 01.03.2021). Die Häufigkeit des Auftretens rechtfertigt im Übrigen die Kategorisierung als usuelle Interjektion (Winterscheidt el al. 2019): Betrachtet man im Vergleich dazu andere usuelle Interjektionen mit Wörterbucheintrag, findet man bei einigen eine ähnliche oder sogar geringere Anzahl von Okkurrenzen (etwa „ uff “ mit 327 Okkurrenzen zuzüglich 147 Fälle von „ uf “ oder „ tja “ mit 338 Okkurrenzen). Für diese nachfolgende Untersuchung wurden alle Fälle von „ pff “ auditiv phonetisch und sequenziell analysiert. Interessant ist „ pff “ aus interaktionsphonetischer Sicht vor allem wegen seiner Stimmlosigkeit, die keine prosodische Analyse zulässt. Soweit möglich (nicht im Overlap, keine parasitären Geräusche, etc.) wurde die auditive Analyse durch PRAAT unterstützt. Dabei bewegt sich die phonetische Analyse hier in bestimmten Grenzen: so wurden etwa Längen nicht in Bezug gesetzt zum Sprechtempo, Intensität nicht zur durchschnittlichen Intensität des*der Sprecher*in etc. Eine solche, phonetisch genaue Analyse würde es sicher erlauben, die hier getroffenen tendenziellen Aussagen zu präzisieren. Bei Videodaten wurden ebenfalls multimodale Aspekte, insbesondere bezüglich der materiellen Realisierung der Lautverbindung (soweit sichtbar) hinzugezogen. In einem ersten Schritt schließt die Analyse alle Fälle aus, in denen „ pff “ für mich nicht hörbar war. Eine segmentalphonetische Untersuchung der 353 „ echten “ Lautverbindungen zeigte daraufhin folgendes Bild: - hinsichtlich des ersten Segments: In 80 % der Fälle (282 Okk.) wurde ein bilabialer stimmloser Plosiv produziert [p], in 7 % der Fälle (26 Okk.) handelt es sich um einen (stimmhaften oder entstimmten) Trill/ Vibranten [ ʙ ] oder [ ʙ ̥ ]. In 9 % der Fälle (33 Okk.) war kein Plosiv oder Trill nachweisbar, die Lautverbindung bestand nur aus dem Frikativ; 4 % (12 Okk.) waren unklar. - hinsichtlich des zweiten Segments: In 47 % der Fälle (165 Okk.) produzierten die Sprecher*innen einen stimmlosen labiodentalen Frikativ [f], in 46 % (162 Okk.) handelt es sich um einen stimmlosen bilabialen Frikativ [ ɸ ], in 4 % der Fälle (16 Okk.) war kein Frikativ nachweisbar und in 3 % (10 Fälle) war das Segment eher unklar. 84 Heike Baldauf-Quilliatre Abb. 1: Anteile der untersuchten „ pff “ -Segmente 1 (links) und 2 (rechts) In der überwiegenden Mehrheit der Fälle wird also tatsächlich ein bilabialer Plosiv und ein bilabialer oder labiodentaler Frikativ realisiert, so wie es die Transkription als „ pff “ suggeriert. Interessant sind aber nun meines Erachtens die abweichenden Fälle und die Grenzen. Mit anderen Worten: - Besteht die Lautäußerung obligatorisch aus zwei Segmenten (Plosiv/ Trill + Frikativ), d. h. handelt es sich bei Formen wie [p], [ ʙ ], [f] oder [ ɸ ] um andere Lautobjekte (d. h. Lautverbindungen mit anderen Funktionen in der Interaktion)? - Besteht ein Unterschied zwischen der Verwendung eines Plosivs und eines Trills bzw. eines bilabialen oder labiodentalen Frikativs? Plosiv/ Trill Ein Blick auf die 16 Fälle, in denen kein Frikativ zu hören ist (obwohl die Transkription in FOLK durchgängig „ pff “ aufweist), zeigt, dass es sich dabei immer um einen stimmhaften oder entstimmlichten Trill handelt. Beispiel 1 stellt einen solchen Fall dar: 6 Es handelt sich um einen Ausschnitt aus einer Fahrschulstunde: die Fahrschülerin soll mit dem Auto rückwärts einparken und dafür die Räder einschlagen. Der Ausschnitt beginnt, wenn sie mit den Rädern an der Bordsteinkante anstößt. 6 Die Transkription „ pff “ in FOLK wird hier und in den folgenden Beispielen systematisch durch eine IPA-Transkription ersetzt. Zur Transkription von Lautobjekten in der Gesprächsanalyse 85 Beispiel 1 FOLK_E_00167_SE_01_T_01 7 (https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=display TranscriptVideo&id=FOLK_E_00167_SE_01_T_01_DF_01&cID=c790&wID=w1431&text Size=200&contextSize=4) 778 RK n jetz kanns du nich mehr lenken ne 779 (0.24) 780 EA ja 781 (0.5) 782 RK so un jetzt kanns du nur noch hoffen 783 (0.2) 784 RK passt oder passt nich 785 (1.3) 786 RK weil jetzt hab ich den fehler gemacht 787 (0.92) 788 RK weil Ich bin zu SCHNELL gefahrn, 789 (0.28) 790 RK Aber? #1(.) #2[ ʙ ̥ ] #3(.) #1 #2 #3 791 EA passt gAr nicht (mehr) beSTIMMT, 792 RK das MACHT nichts jetz [ … ] Der entstimmte Trill [ ʙ ̥ ] ist hier deutlich sichtbar durch die aufgeblähten Wangen und vorgestülpten Lippen (#2) - im Gegensatz zu #1 und #3. Er befindet sich am Ende einer längeren Erklärsequenz, in der RK den aktuellen Zustand formuliert (Z. 778), davon ausgehend die zukünftigen Handlungen der Fahrschülerin projiziert und sie damit vor eine Entscheidungssituation stellt (Z. 782 und 784), um schließlich in einem Account die Gründe für diesen Zustand anzugeben, wobei er sich selbst als Schuldigen bezeichnet (Z. 786 und 788). Dieser relativ lange Turn wird abgeschlossen durch den Konnektor „ aber “ , der 7 Die Transkription folgt den Konventionen von GAT2 (Selting et al. 2009). Die Daten in diesem Beitrag entstammen dem FOLK-Korpus aus der Datenbank Gesprochenes Deutsch (DGD) des Leibniz-Instituts für Deutsche Sprache Mannheim (https: / / dgd.ids -mannheim.de). Um auf die entsprechenden Daten, d. h. das AV-Material und die vollständigen Transkripte, zugreifen zu können, ist es notwendig, sich beim ersten Zugriff über einen der Links bei der DGD anzumelden. Danach funktioniert die weitere Anzeige durch Anklicken der Links. 86 Heike Baldauf-Quilliatre eine adversative oder konzessive Fortführung ankündigt und ein von Mikropausen eingerahmtes [ ʙ ̥ ]. Eine vergleichbare Position findet man auch bei Formen mit Frikativ. Im letzteren Fall zeigt der Sprecher jedoch an, dass a) eine bereits zuvor geäußerte Bewertung oder Schlussfolgerung bekannt ist und nicht noch einmal erklärt werden muss und dass b) eine erneute Wiederholung nicht nur unnötig, sondern auch unerwünscht ist (siehe Beispiel 5). In Beispiel 1 ist dies jedoch nicht der Fall. Zwar interpretiert die Fahrschülerin EA den Turn ebenfalls als abgeschlossen und antwortet auf die indirekte Frage, die mit der Aufforderung zur Entscheidung verbunden war (Z. 791), aber RK führt seinen Turn in Z. 792 fort. Es handelt sich somit nicht um einen Abschluss, sondern ausschließlich um die Ankündigung einer Positionierung des Sprechers. Es geht auch nicht darum, auf etwas rückzuverweisen und es als schon gesagt und bekannt darzustellen; [ ʙ ̥ ] projiziert eine Positionierung des aktuellen Sprechers. Betrachtet man nun im Weiteren die Realisierung des Plosivs/ Trills in allen Okkurrenzen, fällt auf, dass dieser regelmäßig und individuell unabhängig mehr oder weniger stark aspiriert und mit einem mehr oder weniger deutlichen Verschluss produziert wird. Dabei handelt es sich wie bereits erwähnt nur um tendenzielle Angaben, da individuelle und andere Besonderheiten in der Artikulation bei der Analyse nicht berücksichtigt wurden. Ausschnitt 2 zeigt ein Beispiel mit einem intensiven Verschluss, Ausschnitt 3 einen eher schwachen. In Beispiel 2 handelt es sich um ein Telefongespräch zwischen zwei Freundinnen. Beispiel 2 FOLK_00084_SE_01_T_01 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTran script&id=FOLK_E_00084_SE_01_T_01_DF_01&cID=c619&wID=w3450&textSize=200 &contextSize=4 618 FR und habt ihr schon irgendwelche plÄne fürs WOchenende, 619 EG °h ja [ ʙɸ ] äh ja ich [xxx] heute mit [name] was MAchen, FR stellt eine Entscheidungsfrage, die aber, im Gegensatz zum Format der Frage, im Rahmen der Interaktion einer weiteren Elaboration bedarf (Raymond 2003). EG antwortet auf diese Frage zunächst mit der Minimalantwort „ ja “ , erweitert ihre Antwort aber in einem nachfolgenden Account (Z. 619). Die Lautverbindung befindet sich, gemeinsam mit einer Zögerungspartikel „ äh “ als eine Art Pivot zwischen der Minimalantwort und der Erklärung (Baldauf-Quilliatre Zur Transkription von Lautobjekten in der Gesprächsanalyse 87 2019). In der Mehrzahl der Fälle dieser Art (Pivot zwischen präferierter Minimalantwort und Account) scheint der Verschlusslaut relativ intensiv. Aber es gibt auch Gegenbeispiele bzw. andere Sequenzen, in denen der Verschlusslaut mit relativ hoher Intensität realisiert wird. Beispiel 3 ist ein Ausschnitt aus einem sprachbiographischen Interview, in dem der Rentner AK von zwei Studentinnen interviewt wird. Beispiel 3 FOLK_00147_SE_01_T_02 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTran script&id=FOLK_E_00147_SE_01_T_02_DF_01&cID=c591&wID=w2288&textSize=200 &contextSize=4 581 EH wie is denn das verhältnis zu den LEUten [ … ] 585 kommen die mit den TIEren zurecht und äh [wie sin]d die so 586 AK [die äh ] 587 EH dr[Auf, ] 588 AK [räuspert sich] (.) wir verstEhen uns eigentlich ALLE, 589 ich ich ich äh 590 (0.25) 591 AK °hhh (.) sAch ma eh 592 (0.47) 593 AK ich bin oäh [pf: ] 594 (0.35) 595 AK ja FRIEDlich; 596 ((lacht)) °hh [also] 597 EH [UMgä]nglich; 598 AK äh [umgänglich] (.) ja 599 EH [((lacht)) ] In Zeile 581 - 587 stellt EH stellt eine Frage, auf die AK antwortet (Z. 586 - 597). Ab Z. 588 deuten Wiederholungen, Pausen, Reformulierungsindikatoren, Zögerungspartikel u. ä. auf Formulierungsschwierigkeiten hin (z. B. Gülich & Kotschi 1996). Er beginnt daraufhin eine neue Konstruktion ( „ ich bin “ , Z. 593), schließt aber erneut mit verschiedenen Zögerungsmerkmalen wie einer nicht usuellen Partikel, der Lautverbindung [pf: ] und einer Pause an, bevor er die Konstruktion mit „ ja friedlich “ (Z. 595) zu Ende führt. Wie in den meisten Fällen dieser Sequenz tritt die Lautverbindung nach der Zögerungspartikel „ äh “ (bzw. ihrer Varianten, hier „ oäh “ ) und vor lexikalisierten epistemischen Markern unterschiedlicher Art (hier die Partikel „ ja “ ) auf. Das deutet darauf hin, dass die Lautverbindung nicht nur dazu dient, Formulierungsprobleme anzuzeigen. Der Verschlusslaut ist dabei in der Regel kurz und vor allem wenig intensiv. 88 Heike Baldauf-Quilliatre Allerdings gibt es auch hier Gegenbeispiele und eine vergleichbare geringe Intensität findet sich auch in anderen sequenziellen Kontexten. Ob es sich bei starkem oder schwachem Verschluss nur um Varianten handelt oder ob die Stärke des Verschlusses auf verschiedene Funktionen hinweist, lässt sich nur durch eine Sequenzanalyse mit einer systematischen, phonetisch genauen Transkription des Lautobjekts feststellen. Mit aller Vorsicht könnte man sagen, dass in bestimmten Sequenzen möglicherweise eher ein starker Verschluss zu erwarten ist, während in anderen der Verschluss wahrscheinlich schwach wird. Dabei handelt es sich aber keinesfalls um voneinander abgegrenzte Kategorien, sondern sicherlich eher um Tendenzen, die gleichzeitig mit der Art der Positionierung, der lautlichen Umgebung, eventuellem phonetischem Alignment, und nicht zuletzt habitueller und individueller Sprechweise korrelieren. Zu einem vergleichbaren Schluss kommt auch Proske (2014) in Bezug auf „ komm “ , für das sie ebenfalls Tendenzen aufzeigt, ohne zum Zeitpunkt des Aufsatzes eine genauere Kategorisierung vornehmen zu können. Frikativ Wie stellt sich nun die Situation in Hinblick auf den frikativischen Laut dar? Es wurden 33 Fälle identifiziert, in denen nur ein bilabialer (17 Okk.) oder labiodentaler (16 Okk.) Frikativ auftritt. Auch hier wurden in FOLK alle Okkurrenzen als „ pff “ transkribiert und somit dem Lautobjekt „ pff “ zugeordnet. Die Frikative können dabei sowohl lang (16 Okk.), als auch kurz (17 Okk.) sein - wobei es sich auch hier um relative und approximative Angaben handelt. Die Laute werden in ähnlichen sequenziellen Positionen und mit ähnlichen Funktionen benutzt, wie die Lautverbindung mit bilabialem Plosiv bzw. Trill, auch wenn es einige Unterschiede bezüglich der Lautverbindung/ des Lautes „ Plosiv/ Trill + Frikativ “ oder „ Plosiv/ Trill “ gibt. So zeigt eine genauere Untersuchung der sequenziellen Einbettung, dass es sich in der Mehrzahl um einen Laut handelt, der innerhalb eines Turns produziert wird und von Pausen oder anderen Partikeln eingerahmt ist (16 Fälle) oder der allein oder mit einem epistemischen Disclaimer einen Antwortturn darstellt (9 Fälle). Betrachtet man diese 25 Okkurrenzen aus sequenzieller und soweit möglich multimodaler Sicht, wird deutlich, dass es sich um Fälle handelt, in denen der Frikativ entweder dazu beiträgt ein Formulierungsproblem anzuzeigen (sei es als Indiz für Ungenauigkeit und Vagheit, sei es als Suche nach dem passenden Element) oder auf ein Disalignment bzw. Disengagement des Sprechers hinweist. Ausschnitt 4 zeigt einen Beitrag aus dem Saalpublikum im Rahmen einer Podiumsdiskussion. Zur Transkription von Lautobjekten in der Gesprächsanalyse 89 Beispiel 4 FOLK_E_00391_SE_01_T_04 8 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTran scriptVideo&id=FOLK_E_00391_SE_01_T_05_DF_01&cID=c254&wID=w3133&textSize =200&contextSize=4 254 DH [ … ] i hab jetz einfach mal GANZ a polemische frAge; 255 °h (.) ma rEd immer so von baNAnarepublik; #4 h° #4 256 +°h (.) so+#5 ä+h #6[f: ]+ +dreht kopf nach re+ +dreht kopf nach li+ #5 #6 257 +was weiss Ich=keine Ahnung; + +mehrmaliges kopfschütteln+ 258 +venezuEla mExiko+ +bewegt mikro zwei mal von re nach li+ 259 +is mir jetz au WURSCHT; + +kleines schnelles kopfschütteln+ 260 #7°h wia kann des sei [ … ] #7 Nachdem er seinen Namen genannt und sich vorgestellt hat (im Transkript nicht reproduziert), kündigt der Sprecher eine Frage an (Z. 254). Bevor er 8 Die multimodale Transkription folgt Mondada (2019). 90 Heike Baldauf-Quilliatre allerdings die Frage stellt (Z. 260 ff.) äußert er eine Behauptung (Z. 255), die er anschließend durch Beispiele spezifiziert (Z. 256 - 258). Diese Spezifizierung erfolgt jedoch nicht geradlinig: nach einer Mikropause beginnt die Konstruktion mit „ so “ , das hier unterschiedliche Funktionen erfüllen könnte. Die Formulierung wird dann unterbrochen durch eine Zögerungspartikel, den gelängten Frikativ [f: ] und zwei epistemische Disclaimer. Die beiden nachfolgenden Beispiele (Venezuela und Mexiko) werden somit als approximativ und unsicher markiert. Die explizite Positionierung des Sprechers „ is mir jetz au wurscht “ zeigt, dass es sich nicht nur um Ungenauigkeit bzw. Unsicherheit handelt, sondern auch, wie sich der Sprecher zu dieser Ungenauigkeit positioniert. Interessant ist in diesem Zusammenhang ein Blick auf die körperliche Realisierung der Formulierungssuche und der Positionierung. Während Kopfhaltung und Blickrichtung des Sprechers zunächst sehr wahrscheinlich auf die Experten auf dem Podium gerichtet sind (#4), beginnt mit dem „ so “ eine Kopfbewegung und eine Änderung der Blickrichtung, zunächst nach rechts (#5) und anschließend nach links (#6). Dieses relativ langsame Drehen des Kopfes geht über in ein Kopfschütteln und in eine Hin- und Her-Bewegung des Mikrofons während der Nennung der beiden Beispiele (Venezuela und Mexiko). Die Positionierung ( „ is mir jetz au wurscht “ ) wird von einem kleinen, sehr schnellen Kopfschütteln begleitet. Noch vor dem hörbaren Einatmen und der Frage befinden sich Kopf und Blick wieder in einer stabileren Haltung, nach vorn und auf das Podium gerichtet. Diese, zeitlich genau auf den verbalen Turn abgestimmten Bewegungen verdeutlichen nicht nur den Sonderstatus der Parenthese in Z. 257 - 259, sondern auch die Positionierung im Sinne eines Disengagement, genauer gesagt, einer Markierung von Desinteresse bezüglich der Genauigkeit in der Formulierung (siehe auch Baldauf-Quilliatre 2019), angekündigt durch [f: ]. Während also der Sprecher im vorangegangenen Beispiel 3 ([pf: ] mit schwachem Verschluss) kein weiteres Indiz gibt, dass er nicht wirklich in die Suche nach dem bestmöglichen Element engagiert ist, handelt es sich in Beispiel 4 ([f: ]) um ein relativ eindeutiges Anzeichen von Desinteresse. Interessant ist hier nun, dass in beiden Fällen entweder nur ein schwacher oder gar kein Verschluss vorhanden ist. Gleichzeitig wird in den gesamten 553 untersuchten Okkurrenzen in keiner Sequenz dieser Art (Anzeigen von Formulierungsproblemen mit oder ohne Disengagement) ein Verschlusslaut (Plosiv oder Trill) ohne Frikativ benutzt. Schwieriger sind Aussagen hinsichtlich der Länge des Frikativs in der Variante ohne Verschluss. Produziert ein Sprecher oder eine Sprecherin nur einen frikativischen Laut ist dieser in der Regel gelängt oder kurz mit relativ starker Intensität. Länge und Intensität des Frikativs variieren auch, wenn es Zur Transkription von Lautobjekten in der Gesprächsanalyse 91 sich um die Lautverbindung mit Plosiv oder Trill handelt. In beiden Fällen kann der Laut mit unterschiedlicher Intensität und in unterschiedlicher Länge realisiert werden, wobei labiodentale Frikative wohl nur dann kurz sind, wenn sie mit höherer Intensität produziert werden. Bilabiale Frikative weisen dagegen nur selten eine hohe Intensität auf, unabhängig davon, ob sie lang oder kurz sind. Hinsichtlich der sequenziellen Einbettung und Verwendung lassen sich, vergleichbar zu den Untersuchungen des Plosivs, nur Tendenzen aufzeigen. So sind etwa die Frikative in der Regel (aber nicht systematisch) relativ stark gelängt, wenn es sich um eine Positionierung des Sprechers handelt. Wird das Lautobjekt als Marker für den Abschluss einer Sequenz benutzt, ist der Frikativ in der Regel sehr kurz und schwach. Ausschnitt 5 zeigt ein solches Beispiel und kann bis zu einem gewissen Grad mit dem ersten Beispiel (entstimmlichter Trill) verglichen werden. Es handelt sich um einen Ausschnitt aus einem Coaching, in dem TB, ein ehemaliger Pharmareferent eine neue Anstellung sucht und dafür die Hilfe eines Coachs (TN) 9 in Anspruch nimmt. Beispiel 5 FOLK_E_00173_SE_01_T_05 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTran scriptVideo&id=FOLK_E_00173_SE_01_T_05_DF_01&cID=c175&wID=w896 &textSize=200&contextSize=4 178 TN [ … ] vor (.) DEM hintergrund würd ich ’ s glaub ich [dann eher so machen. ] 180 TB [((schmatzt)) genAUso seh ich_s AU]CH. =ja. 181 (0.60) 182 TN dann hab ich zwar wieder ne KÜNdigungsfrist aber [pf: ] 183 TB °h 184 (0.20) 185 TB JA was aber [entschEI ]dend is, [ … ] DerAusschnitt beginnt mit dem Ende einer Sequenz, in der sich die beiden Partner daraufhin einigen, dass es besser ist, zunächst einmal eine Stelle anzunehmen, auch wenn sie nicht vollkommen den eigenen Wünschen und Ansprüchen entspricht. Nach einer Pause öffnet nun TN in Z. 182 eine neue Sequenz mit einem Einwand - der Konnektor „ aber “ projiziert hier eine adversative Konstruktion, in welcher der Einwand aufgehoben wird. Diese Aufhebung wird jedoch nicht expliziert, TN beendet seinen Turn mit einem kurzen, 0,18 Sekunden 9 Für eine genauere Analyse siehe Baldauf-Quilliatre & Imo (2020). 92 Heike Baldauf-Quilliatre dauernden [pf], das sich phonetisch durch eine relativ geringe Intensität und ein hörbares Nachlassen der Spannung auszeichnet. Die Lautverbindung befindet sich nicht im Overlap, ein Sprecherwechsel wird jedoch gleich anschließend mit TB ’ s hörbarem Einatmen angekündigt und TB formuliert einen neuen Einwand - die Kündigungsfrist ist somit nicht mehr aktuell. Außerdem befindet sich [pf] hier an der Stelle einer Proposition, die bereits expliziert wurde (es ist besser, sich nicht aus der Arbeitslosigkeit heraus zu bewerben). Insofern handelt es sich weder um eine trail-off-Konjunktion (Walker 2012), noch um einen Turnabbruch und eine Einladung an die anderen Teilnehmer*innen, nach weiteren, nicht explizierten Inhalten zu suchen (Raymond 2004 für englisches „ so “ in dieser Position). Im Gegenteil, [pf] lädt vielmehr dazu ein, in den vorangegangenen Turns nach dem nicht explizierten Argument zu suchen. Gemeinsam hat dieses Beispiel mit dem ersten Ausschnitt aus phonetischer Sicht die Fokussierung auf den Verschlusslaut, wobei es sich in Beispiel 1 um einen mit relativ hoher Intensität produzierten Trill handelt (deutlich sichtbar auch in den aufgeblähten Wangen und gestülpten Lippen), während in Beispiel 5 auch der bilabiale Plosiv [p] eher schwach und kurz ist. Sequenziell betrachtet, handelt es sich in Beispiel 1 um die Ankündigung einer Positionierung innerhalb eines von längeren Pausen unterbrochenen Turns, während Beispiel 5 den Abschluss eines Turns markiert und auf vorangegangene Sequenzen rückverweist. Ein letzter Ausschnitt aus einem Interview zeigt einen langen bilabialen Frikativ in einer typischen Verwendungsweise. AH erzählt von seiner Zeit als Malerlehrling und erwähnt dabei ein Gespräch, indem er angegeben hatte, dass er gern etwas anderes gelernt hätte. Beispiel 6 FOLK_E_00325_SE_01_T_01 https: / / dgd.ids-mannheim.de/ DGD2Web/ ExternalAccessServlet? command=displayTran script&id=FOLK_E_00325_SE_01_T_01_DF_01&cID=c1014&wID=w3294&textSize=200 &contextSize=4 [ … ] 1011 AH sei doch froh dAss schon mal ein beruf hast andere ham GAR kein beruf und- [°hh ] 1012 ML [hmhm] 1013 (0.36) 1014 na ja un[d [p ɸ : ] hm gr ]oß 1015 [um zu zeigen ] 1016 AH vertEIdigen konnt ich mich NICH, 1017 AH hmhm; 1018 (0.42) Zur Transkription von Lautobjekten in der Gesprächsanalyse 93 Nachdem AH in Zeile 1011 eine Redewiedergabe inszeniert, erklärt er in Zeile 1014 - 1016 sein damaliges Verhalten aus gegenwärtiger Sicht. Die Erklärung wird eingeleitet durch die Lautverbindung [p ɸ : ], bestehend aus einem relativ schwachen Verschluss und einem sehr langen Frikativ mit abnehmender Intensität, mit einer Dauer von insgesamt ca. 0,87 Sekunden. Im Unterschied zu Beispiel 3, wo die Lautverbindung ebenfalls turnmedian auftritt, gibt es hier kein Anzeichen von Formulierungsschwierigkeiten: der Turn weist weder Wiederholungen oder Reformulierungen, noch Pausen oder andere Zögerungssignale auf. Auch findet man keine lexikalischen Anzeichen für Vagheit oder Hinweise auf eine gemeinsame Suche nach dem am besten geeigneten Element. In Hinblick auf andere hier diskutierte oder bereits beschriebene Verwendungen, u. a. als Einleitung einer Bewertung, lässt sich [p ɸ : ] in diesem Kontext als Anzeichen für eine Positionierung beschreiben. Da keine der anderen Teilnehmerinnen hörbar darauf reagiert, ist die Art der Positionierung nicht zu bestimmen, allerdings weist die nachfolgende Proposition ( „ groß verteidigen konnt ich mich nich “ ) und der in anderen sequenziellen Kontexten beschriebene Zusammenhang zu Desinteresse und Disengagement auf eine Art Defätismus hin. Fazit In Hinblick auf die zu Anfang des Abschnitts gestellten Frage nach (1) der Existenz eines Lautobjekts „ pff “ mit eventuell verschiedenen Funktionen oder mehrerer verschiedener Lautobjekte und (2) der Funktion einer phonetischen Transkription im Rahmen der Gesprächsanalyse lässt sich Folgendes feststellen: Betrachtet man nur die in FOLK als „ pff “ transkribierten Okkurrenzen (entsprechend der eingangs gezeigten Kategorisierung, siehe Schmidt et al. 2015 und Winterscheidt et al. 2019), zeigt eine genauere phonetische Transkription, dass hier eine Reihe verschiedener Lautverbindungen aus Plosiv/ Trill und Frikativ zusammengefasst werden, wobei es sich zum Teil sogar nur um einen einzelnen Laut (Plosiv/ Trill oder Frikativ) handelt. Beide Segmente weisen Unterschiede hinsichtlich Intensität und Aspiration (Plosiv/ Trill) bzw. Intensität und Länge (Frikativ) auf. 10 Eine Sequenzanalyse verdeutlicht, dass es bestimmte Tendenzen bezüglich der Verwendung bestimmter Varianten in bestimmten Kontexten gibt, aber eine deutliche kategoriale Trennung scheint nicht zu bestehen (allerdings müsste diese Aussage durch systematischere interaktions- 10 Aus Platzgründen wurden hier nur zwei Aspekte näher betrachtet: die Intensität (der Verschlusslaute) und die Länge (der Frikative). Weitere Kombinationen wie etwa Intensität und Aspiration in Bezug auf Verschlusslaute oder Intensität bzw. Intensität und Länge in Bezug auf Frikative wurden nicht im Detail untersucht. 94 Heike Baldauf-Quilliatre phonetische Analysen bestätigt werden). Das lässt nun den Schluss zu, dass es eine Gruppe von stimmlosen konsonantischen egressiven vorderen (labialen) Lautverbindungen gibt, die in bestimmten sequenziellen Kontexten auftreten. Insofern ist die Annahme einer Lautobjekts „ pff “ durchaus zutreffend, allerdings kann nur die Berücksichtigung der phonetischen Unterschiede diese Annahme auf ein solides Fundament stellen - inwiefern „ pft “ (mit abschließendem Verschlusslaut) tatsächlich eine eigene Form darstellt oder ebenfalls zu den Varianten von „ pff “ gehört (und dann auch keiner besonderen Transkription bedarf ), ist hier nicht untersucht wurden. Die Annahme einer Gruppe von Lautverbindungen, die sowohl phonetische Ähnlichkeiten aufweisen, als auch in vergleichbaren sequenziellen Kontexten auftreten, wird durch andere Studien zu Lautobjekten bzw. Vokalisierungen in der Interaktion gestützt. So argumentiert etwa Ward (2006: 137), der versucht Laut-Bedeutungs-Korrespondenzen für englische, nicht-lexikalisierte Vokalisierungen aufzuzeigen, dass es sich dabei um nicht-kategoriale graduelle Formen handelt. Gleichzeitig wird darauf hingewiesen, dass die Variabilität und somit die Anpassungsfähigkeit an die lokale Umgebung zu den Charakteristika von nicht-lexikalisierten Vokalisierungen zählt (Keevallik & Ogden 2020: 5). Während die phonetische Transkription also einerseits dazu beiträgt, die Annahme eines Lautobjekts „ pff “ zu bestätigen, erlaubt sie andererseits eine Präzisierung hinsichtlich verschiedener Funktionen. So scheint ein Verschlusslaut notwendig, wenn es sich um das Anzeichen einer Positionierung handelt, er ist aber nicht notwendig, wenn Formulierungsschwierigkeiten angezeigt werden. Angaben dieser Art sind nun nicht nur für eine genauere Ausdifferenzierung eines Lautobjekts interessant, sondern auch in Bezug auf die Körperlichkeit des Sprechens. Zum einen kann die sichtbare Realisierung des Lautobjekts deren Wahrnehmung und Interpretation in der Interaktion beeinflussen. Ein sichtbarer Verschluss mit vorgestülpten Lippen und geblähten Wangen (Bsp. 1) ist für die anderen Interaktionsteilnehmer deutlich sichtbar und weist somit auch auf seine Bedeutung und seine Verantwortbarkeit (accountability) in der Interaktion hin. Zum anderen kann eine phonetisch exaktere Beschreibung sowohl die teilweise enge Verbindung zwischen Lautobjekt und physiologischen Prozessen, als auch deren interaktionale Nutzung genauer aufzeigen. 5 Schluss Das gesprächsanalytische Transkriptionssystem GAT2 (Selting et al. 2008) sieht drei Granularitätsstufen vor (Minimaltranskript, Basistranskript und Feintranskript), die sich überwiegend hinsichtlich der Einbeziehung prosodischer Zur Transkription von Lautobjekten in der Gesprächsanalyse 95 Parameter unterscheiden. Das Basistranskript mit Angaben zu Fokusakzent und Tonhöhenbewegungen am Segmentende gilt dabei als Standard für interaktionslinguistische Arbeiten. Vor allem interaktionsphonetische Arbeiten haben immer wieder auf die Bedeutung prosodischer Parameter für die Interaktionskonstitution hingewiesen und ihre grundsätzliche Berücksichtigung in der Transkription (und somit auch mehr oder weniger in einer Analyse, die nicht primär auf prosodische Phänomene zielt) resultiert daraus. Lautobjekte hingegen stehen erst seit kurzem im Fokus interaktionslinguistischer und besonders interaktionsphonetischer Arbeiten, auch wenn ihre Bedeutung für die Interaktionskonstitution bereits seit langem bekannt ist. Dies spiegelt sich auch in der Transkription wieder, da es hierzu kaum Angaben in Bezug auf „ gute Forschungspraktiken “ gibt. Die hier vorgestellten Überlegungen sollen erste Schritte in diese Richtung sein. Lautobjekte stellen die gesprächsanalytische Transkription vor mehrere Probleme. Usuelle und stärker lexikalisierte Formen besitzen in der Regel eine Schreibweise, die eine orthographische Transkription ermöglicht. Allerdings haben gesprächsanalytische Arbeiten gezeigt, dass insbesondere eine Interpretation ohne Bezug auf prosodische Parameter nicht möglich ist (siehe etwas „ oh “ oder „ hm “ ). Eine Notation ohne tonale Struktur kann daher meines Erachtens nur bei einer sehr groben Granularität möglich sein und erlaubt nur sehr begrenzte Aussagen zur Funktion des Lautobjekts in der Interaktion. Während für Tonstrukturen in GAT2 durchaus Lösungen angeboten werden (wenn auch nicht spezifisch für die Transkription von Lautobjekten), sind segmentalphonetische Parameter überhaupt nicht erwähnt. Dabei kann es durchaus wesentlich sein, wie ein Laut realisiert wird. Das trifft nun noch stärker auf weniger oder nicht-lexikalisierte Formen ohne konventionalisierte Schreibweisen zu. Welche phonetischen Parameter hier obligatorisch sind und welche nicht, ist oft (noch) nicht erwiesen. Bei stimmlosen Lautobjekten wie dem hier als Beispiel erwähnten „ pff “ , kommt der lautlichen Realisierung besonderes Gewicht zu, da bestimmte prosodische Aspekte wie Tonhöhenbewegungen nicht zum Tragen kommen. Eine relativ exakte Transkription der produzierten Laute ist daher zumindest in einem ersten Schritt notwendig. Ist der phonetische Bereich, in dem sich ein Lautobjekt bewegt, bekannt, spricht meines Erachtens nichts für die Einigung auf eine Schreibweise im Minimaltranskript. 11 Basis- oder Feintranskripte allerdings sollten der Komplexität von Lautobjekten Rechnung tragen und daher den Laut/ die Lautverbindung so 11 Ein Minimaltranskript erfasst Wortlaut und segmentale Unterteilung einschließlich Überlappungen, Verzögerungen, Pausen, Ein- und Ausatmen, Lachen, Nonverbales sowie Schwer- oder Unverständliches (Selting et al. 2019: 359). 96 Heike Baldauf-Quilliatre genau wie möglich beschreiben, und zwar sowohl in Bezug auf die prosodische als auch auf die segmentale Realisierung. Wenn das Internationale Phonetische Alphabet dafür entsprechende Zeichen zur Verfügung hat, ist es sinnvoll, diese auch zu nutzen. Literaturverzeichnis Ayaß, Ruth. 2015. Doing data: The status of transcripts in Conversation Analysis. Discourse Studies 17(5), 505 − 528. Baldauf-Quilliatre, Heike. 2018. Über Lautäußerungen und ihr Verhältnis zur Sprache (am Beispiel von pff ). In Laurent Gautier et al. (Hrsg.): Diskursive Verfestigungen. Schnittstellen zwischen Morphosyntax, Phraseologie und Pragmatik im Deutschen und im Sprachvergleich, Berlin: de Gruyter, 293 - 310. Baldauf-Quilliatre, Heike. 2019. Entre langage et extralinguistique: Pour une intégration des phénomènes vocaux non-lexicalisés dans une conception du langage - l ’ exemple de „ pff “ en allemand et en français, Unveröffentlichte Habilitationsschrift. Baldauf-Quilliatre, Heike & Wolfgang Imo. 2020. pff. In: Wolfgang Imo & Jens Lanwer (Hrsg.): Prosodie und Konstruktionsgrammatik. Berlin: de Gruyter, 201 - 232. Baldauf-Quilliatre, Heike et al. 2014. oh là là - The contribution of the multimodal database CLAPI. In Henry Tyne et al. (Hrsg.): French through Corpora: Ecological and Data-Driven Perspectives in French Language Studies. Newcastel: Cambridge Publishers, 167 − 197. Balnat, Vincent. 2012. was is der hässliche zwerch? ? ^^g - Anpassungsstrategien im Chat. In Anne Larrory-Wunder (Hrsg.): Intersubjektivität und Sprache. Zur An- und Abgleichung von Sprecher- und Hörervorstellungen in Texten und Gesprächen, Tübingen: Stauffenburg, 91 - 116. Barth-Weingarten, Dagmar. 2011. Double sayings of German JA — More observations on their phonetic form and alignment function. Research on language and social interaction 44(2), 157 − 185. Bolden, Galina. 2015. Transcribing as research: “ manual ” transcription and conversation analysis. Research on Language and Social Interaction 48(3), 276 − 280. Bucholtz, Mary. 2007. Variation in transcription. Discourse studies 9(6), 784 − 808. Davidson, Christina. 2010. Transcription matters: Transcribing talk and interaction to facilitate conversation analysis of the taken-for-granted in young children ’ s interactions. Journal of Early Childhood Research 8(2), 115 − 131. Deppermann, Arnulf. 2001. Gespräche analysieren. Opladen: Leske+ Budrich. Deppermann, Arnulf & Wilfried Schütte. 2008. Data and transcription. In Gerd Antos & Elja Ventola (Hrsg.): Handbook of interpersonal communication, Berlin: de Gruyter, 179 − 213. Dingemanse, Mark. 2020. Between Sound and Speech: Liminal Signs in Interaction. Research on Language and Social Interaction 53(1), 188 - 196. Ehlich, Konrad. 2007. Interjektion und Responsiv. In Ludger Hoffman (Hrsg.): Deutsche Wortarten. Berlin: de Gruyter, 423 - 444. Zur Transkription von Lautobjekten in der Gesprächsanalyse 97 Fauré, Laurent, & Bertrand Verine. 2001. Authentifier un discours autre en y mettant du sien: les vocalisations ah et oh en frontière de discours rapporté direct à l ’ oral. In Juan- Manuel Lopez-Munoz et al. (Hrsg.): Le discours rapporté dans tous ses états. Paris: L ’ Harmattan, 317 − 327. Gardner, Rod. 2001. When Listeners Talk, Amsterdam, Philadelphia: Benjamins. Goffman, Erving. 1981. Forms of talk. University of Pennsylvania Press. Golato, Andrea & Zsuzsanna Fagyal. 2008. Comparing single and double sayings of the German response token ja and the role of prosody: A conversation analytic perspective. Research on language and social interaction 41(3), 241 − 270. Goodwin, Charles. 1986. Between and within: Alternative sequential treatments of continuers and assessments. Human Studies 9, 205 - 217. Gonzalez Temer, Veronica. 2017. A multimodal analysis of assessment sequences in Chilean Spanish interaction. PhD Thesis, University of York. http: / / etheses.whiterose.ac.uk/ 20579/ (zuletzt aufgerufen am 20.07.2021) Gülich, Elisabeth & Thomas Kotschi. 1996. Textherstellungsverfahren in mündlicher Kommunikation. Ein Beitrag am Beispiel des Französischen. In Wolfgang Motsch (Hrsg.): Ebenen der Textstruktur. Sprachliche und kommunikative Prinzipien. Tübingen: Niemeyer, 37 - 80. Hepburn, Alexa. 2004. Crying: Notes on description, transcription, and interaction. Research on Language and Social Interaction 37(3), 251 − 290. Hepburn, Alexa & Galina Bolden 2017. Transcribing for social research. London: Sage. Hoey, Elliott. 2020. Waiting to inhale: On sniffing in conversation. Research on Language and Social Interaction 53(1), 118 − 139. Hofstetter, Emily. 2020. Non-lexical ‘ moans ’ : Response cries in board game interactions. Research on Language and Social Interaction 53(1), 42 - 65. ICOR. 2008. “ Oh: : , oh là là, oh ben …” , les usages du marqueur “ oh ” en français parlé en interaction. Actes du Congrès Mondial de Linguistique Française (CMLF08). https: / / doi. org/ 10.1051/ cmlf08099 (zuletzt aufgerufen am 20.07.2021) Jefferson, Gail. 1985. An exercise in the transcription and analysis of laughter. In Teun van Dijk (Hrsg.): Handbook of discourse analysis, Vol. 3: Discourse and dialogue, London: Academic Press, 25 − 34. Jefferson, Gail. 2004. Glossary of transcript symbols. In Gene Lerner (Hrsg.): Conversation analysis: Studies from the first generation. Amsterdam: Benjamins, 13 − 31. Keating, Patricia 1988. Underspecification in phonetics. Phonology 5(2), 275 - 292. Mondada, Lorenza. 2007. Commentary: Transcript variations and the indexicality of transcribing practices. Discourse studies 9(6), 809 − 821. Mondada, Lorenza. 2018. Multiple temporalities of language and body in interaction: Challenges for transcribing multimodality. Research on Language and Social Interaction 51(1), 85 − 106. Mondada, Lorenza. 2019. Conventions for multimodal transcription (erste Version: 2001; Aktuelle Version: 5.0.1, Nov. 2019), https: / / www.lorenzamondada.net/ multimodal-tr anscription (zuletzt aufgerufen am 20.07.2021). 98 Heike Baldauf-Quilliatre Mondada, Lorenza. 2020. Audible sniffs: Smelling-in-interaction. Research on Language and Social Interaction 53(1), 140 − 163. Nübling, Damaris. 2004. Die prototypische Interjektion: Ein Definitionsvorschlag. Zeitschrift für Semiotik 26(1 - 2), 11 − 46. Keevallik, Leelo & Richard Ogden. 2020. Sounds on the Margins of Language at the Heart of Interaction. Research on Language and Social Interaction 53(1), 1 − 18. Pompino-Marschall, Bernd. 2004. Zwischen Tierlaut und sprachlicher Artikulation: Zur Phonetik der Interjektionen. Zeitschrift für Semiotik 26(1 - 2), 71 − 84. Potter, John & Alexa Hepburn. 2010. Putting aspiration into words: ‘ Laugh particles ’ , managing descriptive trouble and modulating action. Journal of Pragmatics 42(6), 1543 − 1555. Proske, Nadine. 2014. „ .h ach KOMM; hör AUF mit dem klEInkram “ . Die Partikel komm zwischen Interjektion und Diskursmarker. Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion, 15, 121 - 160 www.gespraechsforschung-ozs.de (zuletzt aufgerufen am 20.07.2021). Psathas, George & Timothy Anderson. 1990. The ‘ practices ’ of transcription in conversation analysis. Semiotica 78(1 - 2), 75 − 100. Raymond, Geoffrey. 2003. Grammar and social organization: Yes/ no interrogatives and the structure of responding. American Sociological Review, 939 − 967. Raymond, Geoffrey. 2004. Prompting action: The stand-alone “ so ” in ordinary conversation. Research on Language and Social Interaction 37(2), 185 − 218. Reber, Elisabeth. 2012. Affectivity in interaction. Sound objects in English. Amsterdam: Benjamins. Reber, Elisabeth & Elizabeth Couper-Kuhlen. 2010. Interjektionen zwischen Lexikon und Vokalität: Lexem oder Lautobjekt. In Arnulf Deppermann & Angelika Linke (Hrsg.): Sprache intermedial: Stimme und Schrift, Bild und Ton, Berlin: de Gruyter, 69 − 96. Reber, Elisabeth & Elizabeth Couper-Kuhlen. 2020. On ‘ whistle ’ sound objects in English everyday conversation. Research on Language and Social Interaction 53(1), 164 - 187. Schegloff, Emmanuel. 1982. Discourse as an interactional achievement: Some uses of ‘ uh huh ’ and other things that come between sentences. In Deborah Tannen (Hrsg.): Analyzing discourse: Text and talk, Washington: Georgetown University Press, 71 − 93. Schmidt, Thomas, Wilfried Schütte & Jenny Winterscheid. 2015. cGAT. Konventionen für das computergestützte Transkribieren in Anlehnung an das Gesprächsanalytische Transkriptionssystem 2 (GAT2). https: / / ids-pub.bsz-bw.de/ frontdoor/ deliver/ index/ docId/ 4616/ file/ Schmidt_Schuette_Winterscheid_cGAT_2015.pdf (zuletzt aufgerufen am 20.07.2021) Selting, Margret et al. 2009. Gesprächsanalytisches Transkriptionssystem (GAT2). Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion 10, 353 - 402 www.ge spraechsforschung-ozs.de (zuletzt aufgerufen am 20.07.2021) Szymanski, Margaret. 1999. Re-engaging and dis-engaging talk in activity. Language in Society 28, 1 - 23. Ten Have, Paul. 2002. Reflections on transcription. Cahiers de praxématique, 39, 21 − 43. Zur Transkription von Lautobjekten in der Gesprächsanalyse 99 Wiggins, Sally. 2002. Talking with your mouth full: Gustatory mmms and the embodiment of pleasure. Research on language and social interaction 35(3), 311 − 336. Wiggins, Sally & Leelo Keevallik. 2021. Enacting gustatory pleasure on behalf of another: the multimodal coordination of infant tasting practices. Symbolic Interaction 44(1), 87 − 111. Winterscheid, Jenny, Arnulf Deppermann, Thomas Schmidt, Wilfried Schütte, Evi Schedl & Julia Kaiser. 2019. Normalisieren mit OrthoNormal. Konventionen und Bedienungshinweise für die orthografische Normalisierung von FOLKER-Transkripten. https: / / idspub.bsz-bw.de/ frontdoor/ deliver/ index/ docId/ 9326/ file/ Winterscheid_etal._Normali sierungskonventionen_2019.pdf (zuletzt aufgerufen am 20.07.2021) Walker, Gareth. 2012. Coordination and interpretation of vocal and visible resources: ‘ Trail-off ’ conjunctions. Language and speech 55(1), 141 − 163. Ward, Nigel. 2006. Non-lexical conversational sounds in American English. Pragmatics & Cognition 14(1), 129 − 182. 100 Heike Baldauf-Quilliatre B Multimodalität GAT2 trifft das International SignWriting Alphabet (ISWA) Ein neues System für die Transkription von Multimodalität Carolin Dix Abstract: Transkripte sind ein wichtiges Handwerkszeug interaktionsanalytischer Forschung. Während es jedoch für die Verschriftung verbaler und vokaler Interaktionsressourcen bereits etablierte Konventionen gibt, fehlt ein solches einheitliches System für die Transkription visuell-leiblicher Ressourcen sowie multimodaler Aspekte. Der Beitrag stellt in diesem Zusammenhang ein neues Transkriptionssystem vor, das bestehende Konventionen, v. a. zur Transkription verbaler und vokaler Ressourcen, mit dem Zeicheninventar des International SignWriting Alphabet (ISWA) verknüpft. Dadurch entsteht eine standardisierte, forschungsübergreifende und dennoch an die Daten, den Transkriptionszweck und die jeweilige Forschungsfrage anpassbare Konvention für die Transkription von Videodaten, die keine verbale Beschreibung visueller Handlungen mehr notwendig macht. Keywords: Transkription, Multimodalität, GAT2, ISWA, Sutton SignWriting 1 Einleitung Im Zuge des mit der Entwicklung moderner Videotechnik einher gehenden ‚ visual-turn ‘ in den Geistes- und Sozialwissenschaften vollzog sich eine Hinwendung zum Zusammenspiel verbaler, vokaler und visuell-leiblicher Interaktionsressourcen bei der Analyse sozialer Interaktion (Knoblauch & Heath 2006, Heath et al. 2010: 5, Schmitt 2015: 18 f). In diesem Zusammenhang wird die Bedeutung von Transkripten als einem wesentlichen Analyseinstrument um so deutlicher (Birkner 2009: 2, Ayaß 2015: 508), denn sie sind innerhalb des Forschungsprozesses sowohl in der Phase der Datenaufbereitung als auch in der Phase der Datenanalyse essenziell, da sie die detaillierte Repräsentation und Verdauerung flüchtiger verbaler wie visueller Interaktion ermöglichen. Dabei zeigt sich die Notwendigkeit die temporale und sequenzielle Ausfaltung sowie die intra- und interpersonelle Orchestrierung genutzter Interaktionsressourcen darzustellen (Stukenbrock 2009: 146, Mondada 2018: 87, Imo & Lanwer 2019: 121). Transkripte dienen darüber hinaus in Datensitzungen, Vorträgen sowie in wissenschaftlichen Publikationen dazu, die Analyseergebnisse für andere Forschende nachvollziehbar zu machen (Redder 2001: 1038, Deppermann 2008: 41, FN3, Mondada 2018: 87). Sie sichern so die Überprüfbarkeit der Analyse (Mondada 2007: 811). Auch wenn Transkripte immer eine analytisch notwendige Reduktion der komplexen, beobachtbaren Interaktionsereignisse darstellen (Deppermann 2008: 46, Stukenbrock 2009: 147, Ayaß 2015: 510, Imo & Lanwer 2019), wird durch sie eine an Mikrostrukturen interessierte Interaktionsforschung erst möglich (Luff & Heath 2015: 373). Trotz zahlreicher Vorschläge, wie eine Multimodaltranskription aussehen könnte, wird nach wie vor betont, dass eine Transkriptionskonvention fehlt, die, ähnlich wie GAT2 (Selting et al. 2009) oder Jefferson (2004) für verbale und vokale Aspekte, einheitlich, ausbaubar und forschungsübergreifend anwendbar visuell-leibliche Ressourcen repräsentieren kann (Sager 2001: 1069, Mittelberg 2007: 227, Stukenbrock 2009: 146, Bohle 2013: 993, vom Lehn 2014: 399, Luff & Heath 2015: 367, Hepburn & Bolden 2017, Mondada 2018: 88, Imo & Lanwer 2019: 121). Mehrere Gründe sind dafür denkbar: Zum einen, dass die Notwendigkeit für ein standardisiertes System nicht gegeben ist, zum anderen, dass noch kein System entwickelt wurde, dass den hohen Anforderungen gerecht wird, für alle visuellen Ressourcen und Praktiken (von manuellen Zeigegesten über Lippenschürzen bis zu Kopfschütteln) gleichermaßen praktische Transkriptionslösungen anzubieten. Gerade vor dem Hintergrund immer stärker wachsender Forschungen im Bereich der Multimodalität sehen es jedoch mehr und mehr Forschende als unerlässlich an, eine forschungsübergreifende Konvention zu entwerfen, um die Vergleichbarkeit und den Nachvollzug von Forschungsergebnissen zu erleichtern (Stukenbrock 2009: 146, Ayaß 2015). Der vorliegende Beitrag greift diese Forschungsdiskussion auf und stellt ein Transkriptionssystem vor, das eine Lösung für das Problem der adäquaten Repräsentation der Multimodalität sozialer Interaktion bereitstellt. Es kombiniert Konventionen für die Verbaltranskription mit dem speziell für die Verschriftung von Bewegungen entwickelten Inventar des International SignWriting Alphabet (ISWA, vgl. Sutton 2010). 1 In diesem Beitrag wird das Modell exemplarisch in der Verknüpfung von GAT2 (Selting et al. 2009) und dem 1 Ich danke den Gebärdendolmetscherinnen Prof. Dr. Rachel Rosenstock, Andra Heinz und Susann Müller für erste Impulse zur Entwicklung des Modells und den regen Austausch. 104 Carolin Dix ISWA vorgestellt. Es ist jedoch keine exklusive Zusammenführung, da auch eine Kombination mit anderen Konventionen und Modellen, etwa Jefferson oder HIAT, problemlos möglich ist. Dadurch entsteht ein standardisiertes und gleichzeitig flexibel anpassbares System, das die multimodale Orchestrierung verbaler, vokaler und visueller Interaktionsressourcen detailliert abzubilden vermag, ohne auf metakommunikative Beschreibungen leiblichen Handelns zurückgreifen zu müssen. Nachfolgend werden zunächst bereits bestehende Konventionen überblicksartig vorgestellt und die grundlegenden Gütekriterien eines Multimodaltranskripts skizziert (Abschnitt 2). Im Anschluss daran wird das von Valerie Sutton konzipierte Modell des Sutton SignWriting sowie das ISWA eingeführt (Abschnitt 3). Den Kern dieses Beitrags bildet die Darstellung des neu erarbeiteten Systems (Abschnitt 4). Seine Tragfähigkeit wird anhand von Beispielen unterschiedlicher Interaktionssettings und verschiedener Ressourcenebenen aufgezeigt. Den Abschluss des Beitrags bildet die Diskussion der Potenziale und der aktuell noch bestehenden Schwierigkeiten des hier vorgestellten Transkriptionssystems (Abschnitt 5). 2 Multimodaltranskripte - bestehende Konventionen und Gütekriterien Vorschläge für die Gestaltung von Multimodaltranskripten werden seit den Anfängen der Auseinandersetzung mit sozialer Interaktion anhand von Videodaten vorgelegt (siehe die Übersicht in Hepburn & Bolden 2017: 101 - 103). Allerdings konzentrieren sich diese häufig auf eine spezifische Ressource, wie das Blickverhalten oder die Gestik (Goodwin 1981, Kendon 2004, Streeck 2009, Rossano 2013). Konventionen, die unterschiedliche Ressourcenebenen repräsentieren, wurden in den letzten Jahren z. B. von Heath et al. (2010) und Mondada (2019) erarbeitet. Die Frage ist also nicht, ob auch visuell-leibliche Interaktionsaspekte in Transkripten abgebildet werden sollen, sondern wie dies geschieht. In diesem Zusammenhang wird über die Anforderungen bzw. die Gütekriterien von Multimodaltranskripten diskutiert. Die nachfolgend aufgelisteten Aspekte erscheinen dabei als zentral und sind für das in diesem Beitrag entwickelte Transkriptionssystem (siehe Abschnitt 4) wegweisend. a) Anpassbarkeit des Transkript an die jeweiligen Daten, die spezifische Forschungsfrage und den Verwendungszweck (Analysevs. Präsentationstranskript; Selting et al. 1998: 109, Sager 2001: 1069, Deppermann 2008: 47, Luff & Heath 2015: 382, Hepburn & Bolden 2017: 101, Mondada 2018: 88), GAT2 trifft das International SignWriting Alphabet (ISWA) 105 b) adäquate, präzise, detaillierte Abbildung aller relevanten Phänomene, die trotz Reduktion, Abstraktion und Selektion im Prozess des Transkribierens trennscharf zuordenbar sein sollen (Sager 2001: 1070, Hepburn & Bolden 2017: 103, Mondada 2018: 88), c) eindeutige Alignierung und Abbildung der Simultaneität und Orchestrierung verschiedener Interaktionsressourcen sowie der temporalen, räumlichen und sequenziellen Erstreckung und Entfaltung einzelner Ressourcen (Selting et al. 1998, Sager 2001: 1079, Deppermann 2015: 45, Luff & Heath 2015: 373, Mondada 2018: 88, Mondada 2019), d) Ausbaubarkeit (Zwiebelprinzip) des Transkripts hinsichtlich unterschiedlicher Detaillierungsgrade (Selting et al. 1998: 92) sowie Erweiterung bereits vorhandener Verbaltranskripte um die Notation visuell-leiblicher Aspekte (Selting et al. 1998: 111), e) Einfachheit und Praktikabilität, besonders in Bezug auf die leichte Erlernbarkeit und die unproblematische Realisierung in Textverarbeitungsprogrammen (Sager 2001: 1069, Deppermann 2008: 46), f) Lesbarkeit und Übersichtlichkeit, trotz, oder gerade aufgrund der Komplexität von Multimodaltranskripten (Selting et al. 1998, Sager 2001: 1069, Deppermann 2008: 46, Hepburn & Bolden 2017: 106), g) Reduzierung beschreibender Metakommentare und die neutrale Abbildung der untersuchten Phänomene (Selting et al. 1998: 110, Sager 2001: 1070, Deppermann 2008: 48). Aufgrund dieses umfangreichen Katalogs und der Vielfältigkeit der Kriterien wird jedoch betont, dass es kaum möglich ist, allen Aspekten in einem Multimodaltranskript gleichermaßen gerecht zu werden, zumal sich z. B. Detailliertheit und Übersichtlichkeit auszuschließen scheinen (Luff & Heath 2015: 385). Die Forschenden müssen vielmehr abhängig von der Fragestellung und dem Transkriptionszweck entscheiden, welche Anforderungen in den Vordergrund rücken und welche vernachlässigt werden. Heath et al. (2010) etwa legen in ihrem Modell den Fokus ganz grundsätzlich auf die Orchestrierung verbaler und visueller Handlungen. Dazu entwickeln sie ein Partiturtranskript, bei dem die visuell-leiblichen Aspekte um das Verbaltranskript bzw. eine Zeitleiste herum angeordnet sind (Heath et al. 2010: 71, Luff & Heath 2015: 371, Abb. 1). 106 Carolin Dix Abb. 1: Transkription nach Heath et al. (Luff & Heath 2015: 377) Mondada stellt bei ihrem Modell neben der Repräsentation der Temporalität einzelner Ressourcen und der Simultaneität unterschiedlicher Ressourcen (Mondada 2019: 3) die exakte zeitliche Alignierung zwischen Verbalem und Visuellem sowie die Darstellung der Art der ausgeführten Handlungen in den Mittelpunkt (Mondada 2019: 3, Abb. 2). GAT2 trifft das International SignWriting Alphabet (ISWA) 107 Abb. 2: Transkription nach Mondada (2019: 6) Auch Selting et al. (1998) haben im Zuge der Entwicklung des Gesprächsanalytischen Transkriptionssystems (GAT) Möglichkeiten zur Repräsentation visuell-leiblicher Interaktionsressourcen reflektiert, entwickeln das Modell jedoch vor allem für verbale und vokale Aspekte, sodass in GAT2 (Selting et al. 2009) lediglich darauf verwiesen wird, dass die Konventionen aus GAT übernommen und nicht weiter ausgebaut werden. Die vorgeschlagenen Konventionen sind ähnlich denen, die auch Heath et al. und Mondada nutzen: eine separate, nicht nummerierte Zeile unterhalb der verbalen Aktivitäten (Selting et al. 1998: 110) in der die Dauer einer Handlung, Anfangs- und Endpunkt und die Art der Bewegung markiert wird (Selting et al. 1998: 110, Abb. 3). Abb. 3: Transkription nach GAT (Selting et al. 1998: 110) 108 Carolin Dix Während die Darstellung der temporalen und sequenziellen Erstreckung von Bewegungen und die Alignierung mit dem Gesprochenen in allen drei Konventionen unproblematisch mithilfe eines symbolischen Zeicheninventars (Kommata, Punkte, Pluszeichen etc., angelehnt an die Konventionen nach Goodwin 1981) realisiert wird, stellt vor allem die Repräsentation der Art und Weise des leiblichen Handelns ein Problem dar. Sowohl Heath et al. (2010) als auch Mondada (2019 a) und Selting et al. (1998) integrieren in ihre Transkripte kurze Beschreibungen der ausgeführten visuellen Handlungen bzw. spezielle Kodierungen, obwohl die Autoren betonen, dass es das Ziel sein sollte Bewegungsparaphrasen auf ein Minimum zu reduzieren und im Idealfall gänzlich auf sie zu verzichten (Heath et al 2010: 71, Mondada 2019: 7). Für einfache Bewegungen scheinen Verbalisierungen eine zielführende Lösung zu sein. Bei komplexen Bewegungen sind Beschreibungen jedoch schlicht zu umfangreich, was wiederum die Lesbarkeit der Transkripte beeinträchtigt. Vor allem für diesen Aspekt wurde bislang keine adäquate Lösung erarbeitet. Neben der symbolischen Transkription werden auch die Vor- und Nachteile einer ikonischen Transkription diskutiert. Diese umfasst sowohl spezielle Piktogramme als auch eine Reihe von Standbildern oder auf der Grundlage des Videos angefertigte Zeichnungen, die die Verbaltranskription ergänzen (Sager 2001). Vor allem Standbilder werden genutzt, um die Nachvollziehbarkeit der Transkripte zu erhöhen. Dazu werden die Bilder aus dem Video punktuell in das Transkript eingefügt und zeitlich auf die repräsentierten verbalen und visuellen Ressourcen bezogen. Die Auswahl der Bilder muss dabei theoretisch reflektiert erfolgen (Stukenbrock 2009: 148, Aarsand & Sparrman 2019: 2, Imo & Lanwer 2019). Immer wieder gibt es zudem Überlegungen, die Standbilder und Zeichnungen in den Mittelpunkt der Transkription zu stellen und das verbal Geäußerte als Untertitel in diese einzufügen (Schmitt 2016). Transkriptionssysteme, die explizit für die Verschriftung von Bewegungen entwickelt wurden, z. B. Labanotation 2 für Tanzchoreographien (Kennedy 2013, Sutton 1981/ 1982: 79) oder HamNoSys 3 für Gebärdensprache (Hanke 2004), wurden in der interaktionslinguistischen Forschung bisher nicht hinsichtlich ihrer Möglichkeiten für die Erstellung von Multimodaltranskripten sozialer Interaktionen zwischen Hörenden rezipiert. Argumentiert wird, dass Zeicheninventare, die für Tanzbewegungen oder Gebärden entwickelt wurden, zu starr und präskriptiv sind, um das nicht konventionalisierte leibliche Handeln 2 Übersicht über das System: https: / / user.uni-frankfurt.de/ ~griesbec/ LABAN.H TML, zuletzt abgerufen am 23.03.2021 3 Übersicht über die Fingerzeichen des HamNoSys: https: / / www.sign-lang.uni-hamburg. de/ dgs-korpus/ files/ inhalt_pdf/ HamNoSys_2018.pdf, zuletzt abgerufen am 23.03.2021 GAT2 trifft das International SignWriting Alphabet (ISWA) 109 spontaner Interaktion zu repräsentieren (Luff & Heath 2015: 168). Zudem seien die verwendeten Piktogramme entweder zu abstrakt oder zu komplex, was sich auf die Übersichtlichkeit und Lesbarkeit der Transkripte auswirkt (Sager 2001: 1073, Dittmar 2002: 191). Der Transkriptionsaufwand werde zudem durch eine lange Einarbeitungszeit in die verwendeten Zeichen und die Nichtkompatibilität mit gängigen Transkriptionsprogrammen erhöht (u. a. Sager 2001: 1070, Dittmar 2002: 191, Stukenbrock 2009: 161). Dieser Beitrag zeigt jedoch anhand natürlicher Daten unterschiedlicher Interaktionssettings, dass gerade in speziell für die Bewegungstranskription entwickelten Systemen ein großes Potenzial steckt - vor allem hinsichtlich der Forderung nach einer Reduzierung von Bewegungsparaphrasen bei gleichzeitiger präziser und übersichtlicher Repräsentation der Art leiblichen Handelns - das die interaktionsanalytische Forschung bislang nicht erkannt hat, das es jedoch auf dem Weg zu einer einheitlichen Konvention für Multimodaltranskripte (neu) zu reflektieren gilt. Im Mittelpunkt steht nachfolgend das Inventar des International SignWriting Alphabets (ISWA), das innerhalb der Konvention Sutton SignWriting erarbeitet wurde. 3 Sutton SignWriting und ISWA Außerhalb der verbal-linguistischen Forschung hat sich u. a. Valerie Sutton dem Problem der Transkription von Bewegungen angenommen und mit dem Sutton Movement Writing (Sutton 1981/ 1982) in den 1970er Jahren ein Beschreibungssystem entwickelt, das mithilfe konventionalisierter ikonischer, indexikalischer und symbolischer Zeichen Bewegungen abstrahiert abbildet und dadurch auf verbale Beschreibungen verzichtet. Ihr Ziel war es, jegliche Bewegungen (seien es Gebärden, Tanzbewegungen, Pantomime, Sportübungen etc.) sprach- und disziplinunabhängig sowie losgelöst von linguistischen Überlegungen zu repräsentieren (Sutton 1981/ 1982: 79; siehe auch Wöhrmann 2005: 7). 4 Ihr System wurde in der Folge vor allem für die Notation von Gebärden optimiert und zu dem Modell Sutton SignWriting (SSW) ausgebaut. Dessen Zeicheninventar wird im International SignWriting Alphabet (ISWA) zusammengefasst (Wöhrmann 2005: 7, Parkhurst & Parkhurst 2008, Sutton 2010). Das SSW unterscheidet im Prozess der Verschriftung von Bewegungen zwischen einer Produzentenperspektive (expressive viewpoint) und einer Rezipientenperspektive (receptive viewpoint; Parkhurst & Parkhurst 2008: 2, Wöhrmann 2005: 14). Innerhalb der Gebärdensprachforschung werden die ISWA- 4 Siehe dazu die Übersicht: https: / / www.movementwriting.org, zuletzt abgerufen am 09.04.2021 110 Carolin Dix Zeichen aus der Produzentenperspektive notiert (Wöhrmann 2005: 15, Hoffmann-Dilloway 2018: 90). Obwohl interaktionsanalytische Arbeiten in der Tradition der Konversationsanalyse den Fokus auf die deskriptive Beobachtung von Bewegungen legen, eröffnet die Produzentenperspektive auch für wissenschaftliche Analysen neue Möglichkeiten. So rücken nicht nur die handelnden Personen in das Zentrum der Transkription (Wöhrmann 2005: 15, Hoffmann- Dilloway 2018: 90), sondern es können auf methodischer Ebene auch unterschiedliche Kameraperspektiven aufgehoben und so die Darstellung vereinheitlicht werden. Dies erhöht wiederum die Vergleichbarkeit der Transkripte. Um komplexe Bewegungsabläufe abzubilden, wurde mit dem ISWA ein umfangreiches Inventar ikonischer, indexikalischer und symbolischer Zeichen u. a. zur Darstellung manueller (Arm,- Hand-, Fingerpositionen), mimischer, taktiler (Berührungen) und proxemischer Ausdrucksressourcen (z. B. Bewegungsrichtung) entwickelt (Wöhrmann 2005, Parkhurst & Parkhurst 2008, Sutton 2010). 5 Die Qualität von Bewegungen sowie die Bewegungsrichtung, die Bewegungsebene und die Bewegungsdynamik wird etwa mithilfe von Pfeilen angegeben. Es wird dabei grundlegend zwischen zwei Ebenen unterschieden: der „ Fensterputzebene “ (wall plain, d.h Bewegungen, die parallel zu einer vorgestellten senkrechten Fläche ausgeführt werden, Wöhrmann 2005: 88) und der „ Schreibtischebene “ (floor plain, d.h Bewegungen, die parallel zum Boden ausgeführt werden; Wöhrmann 2005: 48 - 61, siehe Abb. 4). 6 Abb. 4: ISWA-Zeichen für Bewegungen (Parkhurst & Parkhurst 2008: 24) ( ► eContent_DI_a) 5 Übersicht des Zeicheninventars des ISWA: https: / / slevinski.github.io/ SuttonSignWriting/ characters/ symbols.html#? ui=en&set=swu, zuletzt abgerufen am 10.04.2021 6 Alle Zeichen des ISWA besitzen einen Unicode: https: / / slevinski.github.io/ SuttonSignWri ting/ characters/ symbols.html#? ui=en&set=swu, zuletzt abgerufen am 23.03.2021 eContent_DI_a. mov GAT2 trifft das International SignWriting Alphabet (ISWA) 111 Verändert ein Körper bzw. ein Körperteil seine Position nach oben, unten, rechts, links oder diagonal (Fensterputzebene), verwendet man einen Doppelschaftpfeil ( ). Werden die Bewegungen dagegen parallel zum Boden ausgeführt, verändert sich also die Lage vor oder zurück (Schreibtischebene), werden Pfeile mit einfachem Schaft verwendet ( ). Eine genauere Differenzierung danach, welche Körperseite die Bewegung ausgeführt, wird durch die Art der Pfeilspitze erzielt: eine gefüllte Pfeilspitze ( ) markiert, dass die Bewegung mit der rechten Körperhälfte bzw. Hand etc. ausgeführt wird, eine nicht gefüllte Pfeilspitze ( ) zeigt an, dass die Bewegung mit der linken Körperhälfte bzw. Hand etc. vollzogen wird, und eine offene Pfeilspitze ( ) macht deutlich, dass die Bewegung mit dem gesamten Körper bzw. beiden Händen etc. realisiert wird. Die Dynamik einer Bewegung kann über die Größe der Pfeile markiert werden. Die Verortung einer Bewegung im Raum ist, so betont Sutton (1981/ 1982: 80), ein entscheidender Mehrwert des SMW. So kann nicht nur die räumliche Ebene einer Bewegung repräsentiert werden, sondern auch die Position einer Person bzw. ihre körperliche Ausrichtung in Relation zu einem zuvor bestimmten indexikalen Zentrum. Dazu werden achteckige Symbole genutzt. Es wird dabei erneut zwischen der ‚ Fensterputzebene ‘ und der ‚ Schreibtischebene ‘ unterschieden (Abb. 5). Abb. 5: Raumposition Schreibtischebene (links) und Fensterputzebene (rechts) Mithilfe dieser Zeichen können in dem nachfolgend vorgestellten System (Abschnitt 4) Veränderungen in der personalräumlichen Orientierung und der Interaktionsordnung im Transkript deutlicher aufgezeigt werden, als dies in anderen Konventionen möglich ist. Um die Origo eindeutig zuordnen und entsprechende Positionsveränderungen erkennbar machen zu können, wird zunächst auf der Grundlage des entsprechenden Datenmaterials das ‚ vorne ‘ der Person festgelegt (siehe Abschnitt 4, Beispiel 4 und 5). Die Art der Position, z. B. der Hände, wird mithilfe ikonischer Zeichen repräsentiert (Abb. 6 & 7). 7 7 Einführungsvideos: https: / / www.youtube.com/ watch? v=0WdqJF_5iBk und https: / / www. youtube.com/ watch? v=ttkMauu_I60, zuletzt abgerufen am 10.04.2021 112 Carolin Dix Abb. 6: ISWA-Zeichen für Handpositionen (Wöhrmann 2005: 54) ( ► eContent_DI_b) Abb. 7: ISWA-Zeichen für Handstellungen (Parkhurst & Parkhurst 2010: 29) ( ► eContent_DI_c) Zur Verdeutlichung der Stellung der Hand auf der Fensterputzebene bzw. der Schreibtischebene in Relation zur ausführenden Person werden unterschiedliche Farbgebungen eingesetzt. So sind weiß ausgefüllte Zeichen die Markierung dafür, dass der jeweiligen Person die Handinnenfläche zugewandt ist, die schwarz ausgefüllten Zeichen markieren wiederum, dass die Person ihren Handrücken vor sich hat. Kopfpositionen und faziale Ressourcen werden ebenfalls ikonisch visualisiert (Abb. 8): eContent_DI_b. mov eContent_DI_c. mov GAT2 trifft das International SignWriting Alphabet (ISWA) 113 Abb. 8: ISWA-Zeichen für faziale Ressourcen (Sutton 1982: 82) Ein Kreis repräsentiert den Kopf. Die Zeichenkombination aus einem Kreis und spitz nach oben verlaufenden Strichen in der oberen Kreishälfte visualisiert dann, dass die Person ihre Augenbrauen nach oben gezogen hat. Augen- und Mundpositionen werden u. a. durch Halbkreise markiert. Das System des SSW ermöglicht so eine Transkription von Bewegungen, die gänzlich auf Bewegungsparaphrasen verzichtet. Die vorliegende Arbeit zeigt im nachfolgenden Abschnitt, wie produktiv die Kombination des ISWA mit bereits vorhandenen Transkriptionskonventionen ist und welche Möglichkeiten sich u. a. für die Verschriftung fazialer Bewegungen eröffnen. 4 GAT2 meets ISWA Dieser Beitrag entwirft ein forschungsübergreifend nutzbares Transkriptionssystem, das das Zeicheninventar des ISWA (Sutton 2010, Parkhurst & Parkhurst 2008) mit den Konventionen für die Verbaltranskription des GAT2 (Selting et al. 2009) zusammenführt. GAT2 kann mit den gängigen Textverarbeitungsprogrammen (z. B. Word) und ebenso spezieller Transkriptionssoftware (z. B. FOLKER, PRAAT, f4, Elan etc.) genutzt werden. Die Zeichen des ISWA sind z. B. über das Programm ‚ SignMaker 2017 ‘ 8 abrufbar und dort als Bilddatei exportierbar. Das Programm erlaubt es zudem nicht nur, bereits bestehende Zeichen zu nutzen, sondern auch indivi- 8 Zugang zum Programm über: http: / / www.signbank.org/ signmaker/ #? ui=de&dictionary =gsg oder https: / / slevinski.github.io/ signmaker/ #? ui=en, zuletzt abgerufen am 30.10.2020; Stephen Slevinski stellt die technischen Details des Programms zudem in verschiedenen Videos vor (YouTube-Kanal: SignWriting Channel), siehe u. a. https: / / w ww.youtube.com/ watch? v=gQNHRBWdOk8&t=5s, zuletzt abgerufen am 11.04.2021 114 Carolin Dix duelle Zeichenkombinationen zu erstellen (siehe Beispiel 4). Dadurch kann das Repertoire des ISWA forschungsbezogen erweitert werden, um nichtstandardisierte visuell-leibliche Aspekte darzustellen. Eine Übertragung der ikonischen, indexikalischen und symbolischen Zeichen in Transkriptionsprogramme wie Elan ist bisher noch nicht möglich. Die Multimodaltranskripte in diesem Beitrag wurden daher in einem Textverarbeitungsprogramm erstellt. 4.1 Aufbau des Multimodaltranskripts Aufgrund der temporalen Struktur nicht nur des gesprochenen Wortes, sondern auch des leiblichen Handelns, bildet die Repräsentation der zeitlichen Erstreckung einer Interaktion den Ausgangspunkt der Transkription. Dies kann sowohl verbale und vokale Ressourcen umfassen (das von einer Person verbal Geäußerte) als auch Stille oder Pausen, d. h. Interaktionsphasen, in denen nicht gesprochen wird. Nach der Konvention des Zeilentranskripts GAT2 gestaltet, wird jede Intonationsphrase auf einer eigenen, nummerierten Zeile notiert. Diese wird als Verbalzeile bezeichnet (Abb. 9). Abb. 9: Transkriptaufbau ( ► eContent_DI_d) Am Beginn einer Zeile wird die Sigle der Person vermerkt, der der Interaktionsbeitrag zugeordnet wird (in Abb. 9: P für Prediger). Phasen der Abwesenheit verbaler Äußerungen werden, abweichend von GAT2, nach Zehntelsekunden aufgeschlüsselt, wie Heath et al. es vorschlagen (Heath et al. 2010, Luff & Heath 2015: 371) und ebenfalls auf der Verbalzeile transkribiert. Ein senkrechter Strich mit einer darüberstehenden Zahl markiert eine volle Sekunde. Durch diese Art der Repräsentation kann genauer dargestellt werden, an welcher Stelle z. B. einer Pause eine Bewegung einsetzt, ihren Höhepunkt erreicht oder endet. Unterhalb der Verbalzeile werden dann Visualzeilen eingefügt, auf denen jeweils getrennt voneinander Phänomene unterschiedlicher Ressourcenebenen (z. B. Körperorientierung, Kopfposition, Handstellungen, Schulterbewegungen, faziale Gestik etc.) dargestellt werden. Dabei handelt es sich um eine künstliche eContent_DI_d. mov GAT2 trifft das International SignWriting Alphabet (ISWA) 115 Trennung, die im weiteren Datenanalyseprozess wieder aufgehoben werden muss. Die einzelnen Zeilen erhalten keine Nummerierung. So kann die Anzahl der Zeilen nicht nur an das jeweilige Datenmaterial angepasst, der Feinheitsgrad und die Komplexitätsstufe des Transkripts variiert, sondern auch ein bereits vorhandenes Verbaltranskript nachträglich ergänzt werden. Unterhalb der Sprechersigle platziert, erhält jede Visualzeile eine Zeilensigle, die die transkribierte Ressourcenebene angibt. In den nachfolgenden Beispielen werden z. B. Zeilen für die Ausrichtung der Körper im Raum (Sigle O), die Bewegung des gesamten Körpers (Sigle M), die Bewegungen des Kopfes (Sigle K), der Augenlider (Sigle L), derAugenbrauen (Sigle E), des Oberköpers/ Torsos (Sigle T), Blickveränderungen (Sigle G) sowie Positionen und Bewegungen der Hände (Sigle H) notiert. Welche Zeilen notiert werden und ob darüber hinaus weitere angeführt werden, die hier nicht erwähnt sind, hängt vom jeweiligen Datenmaterial ab. Ein wesentlicher Bestandteil des Transkripts sind darüber hinaus unterhalb der Visualzeilen eingefügte Standbilder (Sigle S). Diese verdeutlichen das Zusammenspiel unterschiedlicher Ressourcen zu einem bestimmten Zeitpunkt der Interaktion und unterstützen die ganzheitliche Betrachtung der einzelnen Ebenen. Ein zusätzliches Visualisierungselement sind die entsprechenden Videoausschnitte, die, sofern dies aus rechtlichen Gründen möglich ist, z. B. über QR-Codes zur Verfügung gestellt werden. Dadurch entsteht eine enge Verzahnung zwischen dem Video und dem Transkript. Innerhalb der einzelnen Visualzeilen werden die ISWA-Zeichen aus der Produzentenperspektive notiert (siehe Abschnitt 3) und exakt unterhalb der Stelle im Verbaltranskript vermerkt, an der sie parallel zum Gesprochenen bzw. in Relation zur vergehenden Zeit (bei Stille) auftreten. Um eine noch bessere Alignierung zu erreichen, kann die entsprechende Silbe oder Pause fett hervorgehoben werden, da diese Markierung in GAT2 noch nicht mit einer anderen Bedeutung belegt ist. 4.2 Transkription intrapersoneller Koordinierung, Kopfbewegungen und Mimik Der nachfolgende Auszug zeigt den Beginn einer christlichen Predigt, der gänzlich ohne verbale Ressourcen realisiert wird. In der nummerierten Visualzeile wird aufgrund dessen die zeitliche Erstreckung in Zehntelsekunden aufgeschlüsselt. Der Fokus liegt auf dem Prediger (P) und den von ihm genutzten visuell-leiblichen Ressourcen, in diesem Beispiel exemplarisch die Position und Bewegung des Kopfes (Sigle K) und die Position der Augenlider (Sigle L). Diese Aspekte wurden auf jeweils einer eigenen Visualzeile notiert. 116 Carolin Dix Beispiel 1: Gebet ( ► eContent_DI_e) Nach dem drei Sekunden dauernden Gang des Predigers (P) von seinem Sitzplatz zu dem auf einer Bühne stehenden Pult, von dem aus er die Predigt halten wird, tritt er mit Erreichen des Predigtortes in eine Phase der intrapersonellen Koordination ein. Der Prediger steht zunächst mit nach unten gesenktem Kopf ( ) am Pult, die Augenlider sind geöffnet ( ). Durch die Nutzung des ISWA können an dieser Stelle des Beispiels nicht nur Bewegungen repräsentiert werden, sondern auch statische bzw. gehaltene Positionen aus denen heraus sich Bewegungen entfalten. Nach weiteren drei Sekunden in dieser Position (währenddessen er mit seinem Tablet beschäftigt ist), schließt der Prediger seine Augenlider ( , Sek.6,5). Das ISWA Zeichen markiert den Beginn der Bewegung, die Dauer der Bewegung wird mithilfe von Punkten angezeigt. Dadurch lässt sich nicht nur die Temporalität einer einzelnen Ressource abbilden, sondern auch die Simultaneität mehrerer Ressourcen in ihrer jeweiligen zeitlichen Erstreckung. Mit nun geschlossenen Augen ( ) hebt der Prediger seinen Kopf so weit an ( ), dass er in eine gerade Position kommt ( ). Um das Transkript trotz seiner Komplexität übersichtlich zu gestalten, werden die Zeichen für feste Positionen, hier z. B. die Kopfposition nach unten oder die geschlossenen Augen, jeweils am Anfang der Position notiert. Ein weiteres Zeichen wird erst dann eingefügt, wenn eine Bewegung einsetzt. Besonders fruchtbar ist das hier vorgestellte System auch dort, wo bisherige Konventionen noch nicht ausgereift genug sind, wie bei der Transkription fazialer Gestik in der Interaktion (Alt 2020), etwa dem Heben der Augenbrauen. eContent_DI_e. mp4 GAT2 trifft das International SignWriting Alphabet (ISWA) 117 Im nachfolgenden Transkript handelt es sich um eine dyadische Sequenz innerhalb einer multiparty-Interaktion im Rahmen eines Kochabends. Die Interaktion während des gemeinsamen Essens wurde mit einer 360°-Kamera aufgezeichnet. Person E (männlich) sitzt mit weiteren Personen am Tisch und schaut sich ein Kochbuch an, in dem Gerichte nach bekannten Trickfilmen benannt sind. U. a. auch nach dem Film ‚ Susi und Strolch ‘ . Zunächst verhandelt er mit Person TM (weiblich), wann der Film in die Kinos kam und richtet die Frage schließlich auch an Person A (weiblich), die an der Stirnseite des Tisches sitzt. Vier Ressourcenebenen werden im nachfolgenden Transkript dargestellt: die Position und Bewegung des Kopfes (Sigle K), die Position und Bewegung des Oberkörpers (Sigle T), die Position und Bewegung der Augenbrauen (Sigle E) und die Bewegung der Augenlider (Sigle L). 118 Carolin Dix Beispiel 2: Susi und Strolch (Teil 1) ( ► eContent_DI_f) Nachdem E zunächst mit Person TM über das Buch gesprochen hat, wendet er sich in Zeile 42 mit den Worten „ susi und STROLCH? “ an A. Parallel mit seinem Redebeitrag hebt er seinen Kopf aus einer nach unten gesenkten Position ( ) an und dreht ihn nach links zu A ( , Zeile 42), bis sein Kopf auf sie ausgerichtet ist ( ). Auch A orientiert sich körperlich auf E, indem sie ihren Kopf in seine Richtung dreht ( , Zeile 42) und ihren Oberkörper nach rechts verlagert ( ). Damit ratifiziert sie sich als Adressatin und stellt eine eContent_DI_f. mov GAT2 trifft das International SignWriting Alphabet (ISWA) 119 fokussierte Interaktion mit E her. Es folgt eine verbale Reparaturinitiierung von A ( „ WIE bitte? “ , Z.43), auf die E jedoch nicht mit der Wiederholung seiner Äußerung reagiert, sondern mit einer candidate answer, wann A den Film zur Kenntnis genommen haben könnte ( „ in deiner JUgend, “ , Z.44). Daraufhin re-etabliert A ihre Reparaturinitiierung mithilfe visueller Ressourcen. Sie hebt auf die betont Silbe von „ JUgend “ ihre Augenbrauen an ( ) und hält diese Position ( ). Kurz darauf führt sie auch ihren Kopf nach oben ( ) und schließt und öffnet in der folgenden Pause kurz beide Augenlider ( ). Die Bewegung der Augenbrauen, der Augenlider und des Kopfes sind hier situierte visuellleibliche Praktiken, um eine Reparatur zu initiieren. Beispiel 3: Susi und Strolch (Teil 2) 120 Carolin Dix E wiederholt daraufhin zunächst den Gegenstand seiner Frage ( „ susi und STROLCH? “ , Z.45) und A senkt ihre Augenbrauen ab ( ), sodass diese wieder eine neutrale Position erreichen ( ). Während der Frage „ wann WAR d_n das “ (Z.46) von E nimmt A die Ausrichtung ihres Oberkörpers zurück, in dem sie ihre Schulterverlagerung aufhebt ( ) und die Schultern in eine neutrale Position bringt ( ). Parallel dazu bewegt sie ihren Kopf auf und ab ( ). Dieser als Nicken interpretierbaren Bewegung folgt die verbale Bestätigung „ KENN ich “ (Z.48). Auf eine erneute candidate answer von E hinsichtlich des Erscheinungszeitraums des Films (Z.47 und 49) reagiert A schließlich mithilfe visueller Ressourcen, indem sie ihre Augenbrauen anhebt. Im Gegensatz zu Zeile 44 handelt es sich hier um ein Zucken, d. h. ein kurzes Heben und Senken ( , Z.50, eyebrow flash bzw. facial shrug). A kontextualisiert so visuell-leiblich einen negativen epistemischen stance und damit Nichtwissen. Zudem wendet sie ihren Blick ab ( , Z.50) und hebt so die fokussierte Interaktion auf. Mithilfe der in das Transkript integrierten ISWA-Zeichen können die Art der fazialen Bewegung (kurzes Zucken oder länger gehaltene Position), ihre temporale Entfaltung und das multimodale Zusammenspiel mit verbalen und anderen visuellen Ressourcen, wie der Bewegung des Kopfes, ohne Bewegungsparaphrase repräsentiert werden. Das Heben der Augenbrauen wird dann als faziale Geste rekonstruierbar, die situativ und kontextsensitiv von den Interagierenden eingesetzt wird. 4.3 Transkription interpersoneller Koordinierung und körperlicher Ausrichtung Beispiel 2 hat in Z.42 bereits gezeigt, wie das hier vorgestellte System dyadische Interaktionen verschriftet und damit nicht nur die intrapersonelle, sondern auch die interpersonelle Orchestrierung unterschiedlicher interaktiver Ressourcen deutlich gemacht werden kann. Das nachfolgende Beispiel aus einer Dialogpredigt zeigt hier die Möglichkeiten des Systems noch einmal auf. GAT2 trifft das International SignWriting Alphabet (ISWA) 121 Beispiel 4: Gedanken ( ► eContent_DI_g) Werden mehrere Personen in einem Transkript abgebildet, wird vor die einzelnen Visualzeilen die Sigle des jeweiligen Interagierenden platziert, um diese zuordnen zu können. Der weitere Aufbau des Transkripts ist identisch mit dem für Einzelpersonen. Das obige Beispiel zeigt einen Auszug aus einer Dialogpredigt, bei der sich zwei Prediger gleichzeitig am Predigtort befinden und gemeinsam den Wortbeitrag gestalten. Das Visualtranskript besteht aus drei Bereichen: Der Transkription des ersten Predigers (P1, links im Bild, Abb. 10), der Transkription des zweiten Predigers (P2, rechts im Bild, Abb. 10) und den Standbildern. eContent_DI_g. mov 122 Carolin Dix Abb. 10: Räumliche Anordnung Bühnenformat Predigt Folgende Visualebenen sind im Transkript repräsentiert: Für P1 die Ebenen der Körperorientierung (Sigle O), des Kopfes (Sigle K), der Bewegung des gesamten Körpers (Sigle M), des Oberkörpers (Sigle T) und der Hände (Sigle H); für P2 die Ebenen der Körperorientierung (Sigle O) und der Kopfposition (Sigle K). Auf jeder dieser Ebenen wird nun aus Produzentenperspektive, aligniert mit dem Gesprochenen und/ oder anderen visuellen Ressourcen, abgebildet, welche Positionen und Bewegungen eingenommen bzw. ausgeführt werden. Dadurch entsteht eine Darstellung der inter- und intrapersonellen Orchestrierung der genutzten Ressourcen. In diesem Beispiel spielt vor allem die körperliche Ausrichtung der beteiligten Personen eine wesentliche Rolle bei der Analyse (Sigle O). Da es sich hier um einen Auszug aus einer Predigt handelt, die prototypisch eine Interaktionsordnung als Bühnenformat aufweist, wird die Ausrichtung auf die Gemeinde als deiktische Verankerung, d. h. als ‚ Vorne ‘ der Prediger, festgelegt und folgendes Zeichen genutzt: , um diese Position zu repräsentieren. Am Beginn des Beispielauszugs ist P1 schräg nach links ausgerichtet ( , Z.226), verändert diese Position dann, indem er sich zunächst nach links dreht ( ), kurzzeitig eine Position face-to-face zu P2 einnimmt ( ), sich anschließend wieder nach rechts dreht ( ), bis er frontal auf die vor ihm sitzende Gemeinde ausgerichtet ist ( ). Parallel zu dieser letzten Drehung geht er nach hinten ( ). Da es sich hier um eine Bewegung des ganzen Körpers handelt, die nicht zwingend auch eine Veränderung in der körperlichen Orientierung beinhaltet, wird diese Positionsveränderung auf einer eigenen GAT2 trifft das International SignWriting Alphabet (ISWA) 123 Visualzeile notiert. Der Kopf von P1 verharrt in dieser Zeit in einer geraden Position ( ). Da sich daran im weiteren Verlauf seines Redebeitrags nichts ändert, wird diese Visualzeile nur am Anfang notiert und in der nächsten Intonationsphrase nicht wieder aufgenommen. Dies erhöht bzw. gewährleistet die Übersichtlichkeit des Transkripts. Während er spricht, verändert P1 nicht nur seine Körper-, sondern auch seine Handposition. Zunächst bewegt er auf die erste Silbe von „ IMMer “ (Z.226) seine rechte Hand nach vorn ( ). Der Zeigefinger ist dabei ausgestreckt, die Handfläche gekrümmt, der Handrücken zeigt nach oben ( ). Im Anschluss daran dreht er sein Handgelenk nach vorn ( ), führt gleichzeitig die Hand zu sich und berührt schließlich mit der geöffneten Handfläche bei der betonten Silbe von „ geDANken “ (Z.227) seine Brust ( ). Da es sich dabei um eine komplexe Berührung handelt, wird das entsprechende Zeichen aus unterschiedlichen ISWA-Zeichen, angepasst an die Daten, individuell mithilfe des Programms SignMaker 2017 zusammengestellt. Das Zeichen repräsentiert dann nicht nur die Handposition (die Handfläche ist zum Prediger gerichtet, ), sondern auch die Stelle der Berührung (am Oberkörper, ) und den Berührungskontakt (markiert durch den Asterisk). Während P1 spricht, steht P2 zunächst seitlich nach rechts vorn ausgerichtet ( , Z.226) und mit nach links unten gesenktem Kopf ( ) am Rednerpult. Erst bei „ geDANken “ wendet er sich nach rechts ( , Z.227) und verharrt schließlich auf P1 ausgerichtet ( ). Während P2 in dieser Position bleibt, verändert P1 immer wieder seine körperliche Ausrichtung, sodass sowohl eine Formation face-to-face als auch faceto-side erkennbar wird. Gleichzeitig mit seiner körperlichen Bewegung hebt P2 den Kopf an ( ) und bringt ihn dadurch in eine gerade Position ( ), ebenfalls auf P1 ausgerichtet. Konzentriert sich die Forschungsfrage vor allem auf die Veränderungen in der körperlichen Ausrichtung der Prediger zueinander und zur Gemeinde, kann das Transkript z. B. zu Präsentationszwecken auf die entsprechenden Visualzeilen eingegrenzt werden (Beispiel 5). 124 Carolin Dix Beispiel 5: Gedanken (nur körperliche Ausrichtung) Das Transkript kann so dazu beitragen, die Positionsveränderungen der zwei Prediger während ihres Wortbeitrags nachvollziehbar zu machen und den Wechsel in der körperlichen Ausrichtung der Prediger zueinander und zur GAT2 trifft das International SignWriting Alphabet (ISWA) 125 Gemeinde als wichtiges Element und den Wechsel zwischen Bewegungen und statischen Positionen als charakteristischen Aspekt innerhalb von Dialogpredigten herauszuarbeiten. Anhand der gezeigten Beispiele wird deutlich, dass das System unterschiedliche Ressourcenebenen berücksichtigt, die entsprechend des Materials und der Fragestellung angepasst werden können, sowohl statische Positionen als auch Bewegungen abbilden kann und die temporale Entfaltung einer Ressource genauso wie die Simultaneität unterschiedlicher Ressourcen intrawie interpersonell darstellt. 5 Potenziale und offene Fragen Das hier vorgestellte Transkriptionssystem, das das Zeichenrepertoire von Konventionen verbal-vokaler Transkription (hier GAT2) und visueller Transkription (hier ISWA) miteinander kombiniert, liefert einen neuen Ansatz für die Diskussion um eine Standardisierung von Multimodaltranskripten, da es aufgrund der Nutzung ikonischer, indexikalischer und symbolischer Zeichen, die speziell für die Verschriftung von Bewegungen entwickelt wurden, international lesbar und forschungsübergreifend einsetzbar ist. Angepasst an das jeweilige Datenmaterial, aber nicht explizit für dieses entwickelt, können die Zeichen des ISWA einheitlich verwendet werden. Es entsteht dadurch eine ähnliche Robustheit, wie sie die bestehenden Systeme für die Verbaltranskription bereits aufweisen. Die Tragfähigkeit und die Potenziale der Kombination aus GAT2 und ISWA werden auch dann deutlich, wenn man die vorgestellten Gütekriterien (siehe Abschnitt 2) berücksichtigt: 1. Erweiterbarkeit und Verfeinerbarkeit. Gemäß des Anspruchs an eine Anpassung an die Forschungsfrage und den Transkriptionszweck, kann das (Verbal)Transkript individuell um einzelne, nicht-nummerierte Visualzeilen ergänzt oder reduziert werden. Dadurch lassen sich bereits bestehende Transkripte mühelos erweitern. Auch innerhalb der einzelnen Visualzeilen können Phänomene eher grob, aber auch sehr fein mithilfe des ISWA- Inventars verschriftlicht werden. Damit folgt das hier vorgestellte System dem in GAT2 (Selting et al. 2009) als fruchtbar herausgearbeiteten Zwiebelprinzip. 2. Reduzierung von sprachlichen Beschreibungen. Durch die Nutzung ikonischer, indexikalischer und symbolischer Zeichen, die speziell für die Verschriftung von Bewegungen entwickelt wurden, entfällt eine verbale Beschreibung innerhalb der hier präsentierten Transkripte. Dadurch wird das Ziel der Interaktionsforschung, in den Transkripten möglichst präzise aligniert, 126 Carolin Dix detailliert und weitgehend interpretationsarm das abzubilden, was in der Interaktion tatsächlich geschieht, auch in das Transkript visueller Komponenten übertragbar. 3. Gewährleistung von Übersichtlichkeit und Lesbarkeit. Trotz der zu erwartenden Komplexität ist das Transkript klar strukturiert. Die Einarbeitung in das Zeicheninventar des ISWA ist notwendig, aber aufgrund der hohen Ikonizität leicht und schnell machbar. 4. Stärkung des Nachvollzugs der Orchestrierung sowie der temporalen und sequenziellen Entfaltung unterschiedlicher Ressourcen. Verbale, vokale und visuelle Aspekte der Interaktion sind eindeutig und exakt aufeinander beziehbar. Dadurch wird die Synchronisierungsleistung der Interagierenden sichtbar. Auch wenn die einzelnen Ressourcen notwendig untereinander angeordnet werden (müssen), verweist die Struktur trotzdem auf die Haltung, verbale, vokale und visuelle Aspekte zunächst als gleichwertig zu betrachten und zu berücksichtigen, welchen Stellenwert und welche Gewichtung die Interagierenden den einzelnen Ressourcen selbst geben, bzw. welche sie in die Interaktion einbringen und relevant setzen. 5. Anpassbarkeit an Daten und Transkriptionszweck. Die einzelnen Visualzeilen können, angepasst an den Fokus und die Fragestellung, nicht nur für jede interagierende Person ausgewählt, sondern auch im Verlauf des Transkripts ergänzt oder entfernt werden. Dadurch bleibt die Übersichtlichkeit erhalten und das Transkript kompakt. Zudem können die Zeichen des ISWA variabel kombiniert werden. Dadurch verliert das Argument, dass Zeichen, die für die Bewegungstranskription entwickelt wurden, zu starr sind, an Gewicht, denn es lassen sich mithilfe individueller Zeichenverbindungen auch nicht-standardisierte Körperpositionen und -bewegungen repräsentieren. Neben den zahlreichen Möglichkeiten, die das vorgestellte System für die Transkription von Multimodalität hat, sind jedoch zum jetzigen Zeitpunkt auch noch Fragen offen, die in der weiteren kritischen Auseinandersetzung bearbeitet werden müssen. Schwierigkeiten entstehen bei der Verknüpfung von GAT2 und dem ISWA u. a. dadurch, dass mit einem Zeicheninventar gearbeitet wird, das in den letzten Jahren vor allem für manuelle und faziale Bewegungen bzw. allgemeiner Bewegungen der oberen Körperhälfte einer Einzelperson weiterentwickelt wurde. Das Inventar muss entsprechend für die Darstellung von Bewegungen der unteren Körperhälfte, für sozio-taktile Bewegungen und darüber hinaus für die Darstellung des Umgangs mit Artefakten erweitert werden. Die bereits vorhandenen Ansätze zur Transkription jenseits von Gebärden (Sutton MovementWriting) liefern dazu wichtige Impulse, müssen jedoch in der weiteren Diskussion eine Verfeinerung erfahren. GAT2 trifft das International SignWriting Alphabet (ISWA) 127 Die wohl größte Herausforderung liegt jedoch in der technischen Umsetzung des vorgestellten Transkriptionssystems. Es gibt zum jetzigen Zeitpunkt keine Transkriptionssoftware, die das Zeicheninventar des ISWA integrieren kann. Werden die Verbaltranskripte jedoch in ein Textverarbeitungsprogramm (z. B. Word) übertragen und die ISWA-Zeichen mit SignMaker 2017 als Bilddatei exportiert, kann beides problemlos, wenn auch über einen Umweg, zusammengefügt werden. Literaturverzeichnis Aarsand, Pal & Anna Sparrman. 2019. Visual transcription as socio-technical assemblages. Visual Communication. 1/ 2019. 1 - 21. Alt, Franziska. 2020. Report on the international workshop “ Facial Gestures in Interaction ” from 30 - 31 January 2020 at the University of Bayreuth. In: Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion. 21/ 2020. 133 - 141. Online abrufbar: http: / / www.gespraechsforschung-online.de/ fileadmin/ dateien/ heft2020/ tb-facial-gestures.p df (zuletzt abgerufen am 13.11.2020). Ayaß, Ruth. 2015. Doing data: The status of transcripts in Conversation Analysis. Discourse Studies. 17/ 5. 505 - 528. Birkner, Karin. 2009. Einleitung - Die Arbeit mit Transkripten. In Karin Birkner & Anja Stukenbrock (Hrsg.), Die Arbeit mit Transkripten in Fortbildung, Lehre und Forschung, 2 - 5. Mannheim: Verlag für Gesprächsforschung. Online abrufbar: http: / / www.verlaggespraechsforschung.de/ 2009/ birkner.htm (zuletzt abgerufen am 19.06.2019) Bohle, Ulrike. 2013. Approaching notation, coding, and analysis from a conversational analysis point of view. In Cornelia Müller et al. (ed.), Body - Language - Communication. An International Handbook on Multimodality in Human Interaction (HSK 38), Band 1, 992 - 1007. Berlin u.a: de Gruyter. Deppermann, Arnulf. 2008. Gespräche analysieren. Eine Einführung. Wiesbaden: Springer VS. Dittmar, Norbert. 2002. Transkription. Ein Leitfaden mit Aufgaben für Studenten, Forscher und Laien. Opladen: Leske und Budrich. Goodwin, Charles. 1981. Conversational Organization: Interaction between speakers and hearers. New York u. a.: Academic Press. Hanke, Thomas. 2004. HamNoSys - representing sign language data in language resources and language processing contexts. In Oliver Streiter & Chiara Vettori (eds.), LREC 2004, Workshop proceedings: Representation and processing of sign languages, 1 - 6. Paris: ELRA. https: / / www.sign-lang.uni-hamburg.de/ dgs-korpus/ fi les/ inhalt_pdf/ HankeLRECSLP2004_05.pdf (zuletzt abgerufen am 23.03.2021) Heath, Christian et al. 2010. Video in Qualitative Research. Analysing social interaction in everyday life. Los Angeles u. a.: Sage. Hepburn, Alexa & Galina B. Bolden. 2017. Transcribing for social research. London u. a.: Sage. 128 Carolin Dix Hoffmann-Dilloway, Erika. 2018. Feeling your own (or someone else ’ s) face: Writing signs from the expressive viewpoint. In Language and Communication. 1 - 14. Imo, Wolfgang & Jens Philipp Lanwer. 2019. Interaktionale Linguistik. Eine Einführung. Metzler. Jefferson, Gail. 2004. Glossary of transcript symbols with an introduction. In Gene H. Lerner (ed.), Conversation Analysis. Studies from the first generation, 13 - 31. Amsterdam & Philadelphia: John Benjamins. Kendon, Adam. 2004. Gestures. Visible Action as utterances. Kennedy, Antja. 2013. Laban based analysis and notation of body movement. In Cornelia Müller et al. (ed.), Body - Language - Communication. An international Handbook on Multimodality and Human Interaction. Handbücher zur Sprach- und Kommunikationswissenschaft (HSK 38.1). 941 - 958. Knoblauch, Hubert & Christian Heath. 2006. Die Workplace Studies. In Werner Rammert & Cornelius Schubert (eds.), Technografie. Zur Mikrosoziologie der Technik, 141 - 161. Frankfurt & New York: Campus. Kowal, Sabine & Daniel O´Connell. 2015. Zur Transkription von Gesprächen. In Uwe Flick et al. (Hrsg.), Qualitative Forschung. Ein Handbuch, 437 - 447. Reinbek bei Hamburg: Rowohlt. Lehn, Dirk vom. 2014. Transkription und ethnomethodologische Videoanalyse. In Christine Moritz (Hrsg.), Transkription von Video- und Filmdaten in der Qualitativen Sozialforschung. Multidisziplinäre Annäherungen an einen komplexen Datentypus, 391 - 406. Wiesbaden: Springer. Luff, Paul & Christian Heath. 2015. Transcribing Embodied Action. In Deborah Tannen et al. (eds.), The Handbook of Discourse Analysis, 367 - 390. Chichester: Wiley and Sons. Mittelberg, Irene. 2007. Methodology for multimodality. One way of working with speech and gesture data. In Monica Gonzalez-Marquez et al. (Ed.), Methods in Cognitive Linguistics, 225 - 248. Amsterdam & Philadelphia: John Benjamins. Mondada, Lorenza. 2007. Commentary: transcript variations and the indexicality of transcribing practices. In Discourse Studies. 9/ 6. 809 - 821. Mondada, Lorenza. 2018. Multiple Temporalities of Language and Body in Interaction. Challenges for Transcribing Multimodality. In Research on Language and Social Interaction. 51/ 1. 85 - 106. Mondada, Lorenza. 2019. Conventions for multimodal transcription. Online abrufbar: www.lorenzamondada.net/ multimodal-transcription. Version 11/ 2019. (zuletzt abgerufen am 12.11.2020). Parkhurst, Stephen & Dianne Parkhurst. 2008. A cross-linguistic guide to SignWriting. A phonetic approach. Online abrufbar: http: / / www.signwriting.org/ archive/ docs7/ sw0 617_Cross_Linguistic_Guide_SignWriting_Parkhurst.pdf (zuletzt abgerufen am 20.10.2020). Redder, Angelika. 2001. Aufbau und Gestaltung von Transkriptionssystemen. In Klaus Brinker et al. (Hrsg.), Text- und Gesprächslinguistik. Ein internationales Handbuch zeitgenössischer Forschung. Handbücher zur Sprach- und Kommunikationswissenschaft (HSK 16.2), 1038 - 1059. Berlin & Boston: deGruyter. GAT2 trifft das International SignWriting Alphabet (ISWA) 129 Rossano, Federico. 2013. Gaze in Conversation. In Jack Sidnell & Tanja Stivers (eds.), The Handbook of Conversation Analysis, 308 - 329. Oxford: Blackwell. Sager, Sven F. 2001. Probleme bei der Transkription nonverbalen Verhaltens. In Klaus Brinker et al. (Hrsg.), Text- und Gesprächslinguistik. Ein internationales Handbuch zeitgenössischer Forschung. Handbücher zur Sprach- und Kommunikationswissenschaft (HSK 16.2). 1069 - 1985. Berlin & Boston: de Gruyter. Schmitt, Reinhold. 2015. Positionspapier multimodale Interaktionsanalyse. In Ulrich Dausendschön-Gay et al. (Hrsg.), Ko-Konstruktion in der Interaktion. Die gemeinsame Arbeit an Äußerungen und anderen sozialen Ereignissen, 43 - 51. Bielefeld: transcript. Schmitt, Reinhold. 2016. Der Frame-Comic als Dokument multimodaler Interaktionsanalyse. In Hausendorf, Heiko et al. (Hrsg.), Interaktionsarchitektur, Sozialtopographie und Interaktionsraum, 189 - 224. Tübingen: Narr. Selting, Margret et al. 1998. Gesprächsanalytisches Transkriptionssystem (GAT). In Linguistische Berichte. 173. 91 - 122. Selting, Margret et al. 2009. Gesprächsanalytisches Transkriptionssystem 2 (GAT2). In Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion. 10/ 2009. 353 - 390. Online abrufbar: http: / / www.gespraechsforschung-online.de/ heft2009/ heft2009.html (zuletzt abgerufen am 30.10.2020). Streeck, Jürgen. 2009. Gesturecraft. The manu-facture of meaning. Amsterdam & Philadelphia: John Benjamins. Stukenbrock, Anja. 2009. Herausforderungen der multimodalen Transkription: Methodische und theoretische Überlegungen aus der wissenschaftlichen Praxis. In Karin Birkner & Anja Stukenbrock (Hrsg.), Die Arbeit mit Transkripten in Fortbildung, Lehre und Forschung, 144 - 169. Mannheim: Verlag für Gesprächsforschung. Online abrufbar: http: / / www.verlag-gespraechsforschung.de/ 2009/ birkner.htm (zuletzt abgerufen am 30.10.2020). Sutton, Valerie. 1981/ 1982. Sutton Movement Writing and Shorthand. In Dance Research Journal. 14/ 1 & 2. 78 - 85. Sutton, Valerie. 2010. The SignWriting Alphabet. Read and Write any Sign Language in the World. ISWA Manual 2010. The SignWriting Press. Online abrufbar: http: / / www.mo vementwriting.org/ symbolbank/ (zuletzt abgerufen am 30.10.2020). Wöhrmann, Stefan. 2005. Handbuch zur GebärdenSchrift. O. A.: Birgit Jacobsen. Übersicht verwendete ISWA-Zeichen Körperausrichtung gerade Körperausrichtung schräg links vorn Körperausrichtung schräg nach rechts Körperausrichtung nach links Körperausrichtung nach rechts Bewegung nach oben bzw. unten (ganzer Körper) Bewegung nach hinten (ganzer Körper) 130 Carolin Dix Drehung nach links (ganzer Körper) Drehung nach rechts (ganzer Körper) Bewegung nach vorn mit rechts (abhängig von der Ressourcenebene) Bewegung nach vorn und wieder zurück zum Körper mehrfache Bewegung unten - oben (z. B. bei Nicken) Bewegung nach oben und unten Kopfposition gerade Kopf nach unten geneigt Kopf nach schräg links unten geneigt Kopf nach links ausgerichtet Kopf nach rechts ausgerichtet Kopfbewegung nach unten Kopfbewegung nach oben Kopfbewegung nach links Kopfbewegung nach rechts Kopfbewegung nach schräg links oben rechte Hand berührt die Mitte des Oberkörpers, die Handfläche zeigt zur Person rechte Hand, Zeigefinger nach vorn gestreckt, Handrücken zeigt nach oben (Schreibtischebene) rechte Hand, Zeigefinger nach vorn gestreckt, seitlich gekippt (Fensterputzebene) Augenbrauen in gerader/ neutraler Position Augenbrauen nach oben gezogen Bewegung der Augenlider nach unten Augenlider geöffnet Augenlider geschlossen Oberkörper in gerader Position Bewegung des Oberkörpers nach vorn Bewegung des Oberkörpers nach rechts Bewegung des Oberkörpers nach links Oberkörper nach vorn geneigt Oberkörper nach schräg rechts vorn geneigt GAT2 trifft das International SignWriting Alphabet (ISWA) 131 Die Transkription folgt den Daten Multikonventionelles Transkribieren 1 Ingmar Rothe Abstract: Für jedes interaktionsanalytische Forschungsprojekt, für das neue audiovisuelle Daten erhoben werden, stellt sich von Anfang an die Frage, wie diese zu transkribieren seien. Die Suche nach einer allgemeingültigen Konvention führt zu mehreren erprobten und bewährten Systemen, aber auch zu der Feststellung, dass für die Notation multimedial erhobener Daten kein einheitlicher Standard existiert. Dieser Beitrag geht von der Prämisse aus, dass die Entscheidung für eine Notationsweise von aktueller Analysephase und Fragestellung des Projekts sowie dem Verwendungszweck des Transkripts abhängen. Anhand eines Datenfragments werden einschlägige Notationsweisen miteinander verglichen. Darauf aufbauend wird ein integrativer Vorschlag abgeleitet und zur Diskussion gestellt. Keywords: Konversationsanalyse, Multimodalität, Multimedialität, Transkriptionsformate, Transkriptionsfunktionen, Videografie 1 Einleitung Die Planung einer größeren interaktionsanalytischen (videografischen, konversationsanalytischen, gesprächsanalytischen) Studie mit audiovisuellen Daten sieht sich mit der Frage konfrontiert, wie die zugrunde gelegten Daten aufbereitet und verwaltet werden sollen. Das betrifft insbesondere jene Projekte, an deren Anfang neue Daten aufgezeichnet werden, die sich also nicht mit einem bestehenden Korpus beschäftigen. Was diese Entscheidungen so schwie- 1 Ich danke den Herausgebenden dieses Bandes sehr für wertvolle Hinweise und die richtigen Fragen zu einer ersten Fassung des Textes. rig macht, ist deren Folgenreichtum für den gesamten Forschungsprozess. Eine der schwierigsten und zugleich wichtigsten Fragen betrifft die Verschriftung bzw. Transkription der erhobenen Daten. Zum einen ist die Überführung eines Ereignisses von einem Medium (audiovisuell) in ein anderes (grafisch) (Deppermann 2008: 39) schlicht nötig: Fragmente werden verlangsamt und unbegrenzt wiederholbar, der Gesamtüberblick über ein Ereignis oder eine ganze Interaktion wird erheblich erleichtert und die Analyse wird wissenschaftlich publizierbar (Deppermann 2008: 40). Zum anderen ist Transkribieren zwangsläufig eine „ selektive, interpretierende und strukturierende Handlung “ (Mondada 2016 b: 113) und damit keine voranalytische Aufbereitung des Materials, sondern bereits Teil der Analyse. Dies gilt insbesondere für audiovisuelle Daten und umso mehr, wenn diese in einem konversationsanalytischen Paradigma untersucht werden (Ayaß 2015). Dass transkribiert werden muss, steht also außer Frage, wie die Transkription von audiovisuellem Material jedoch zu bewerkstelligen ist, lässt sich nicht pauschal beantworten. Vielmehr gilt nach wie vor: [ … ] eine Vereinheitlichung der Notationsregeln (ist) nicht in Sicht und möglicherweise nicht einmal wünschenswert. So wie sich gutes Werkzeug seinem Zweck anpasst oder umgebaut werden kann, verlangen neue Analyseinteressen u. U. neue Notationskonventionen (Stukenbrock & Birkner 2009: 3). Dieser Befund ist auf der einen Seite frustrierend, auf der anderen Seite ist er Ausdruck einer grundsätzlichen Forderung an Transkripte (die im Übrigen auch an sogenannte Verbaltranskripte gestellt ist): Diese sollten an „ unterschiedliche Untersuchungsfragen, Arbeitsbedingungen Adressatenkreise etc. “ (Deppermann 2008: 48) anpassbar sein. Das bedeutet: Im Grunde ist jede Forschende dazu aufgefordert (man könnte auch sagen, gezwungen) ein eigenes Transkriptionssystem zu entwickeln und gegebenenfalls immer wieder anzupassen. Bei Null beginnen muss die Suche nach einem passenden System indes nicht, denn dankenswerter Weise ist im vergangenen Jahrzehnt eine ganze Reihe an Vorschlägen zur Transkription audiovisueller Daten erschienen (exemplarisch Stukenbrock 2009, vom Lehn 2014, Moritz 2014, Mondada 2016 a,b). Der vorliegende Artikel ist in derAuseinandersetzung mit diesen Vorschlägen im Hinblick auf ein konkretes Forschungsprojekt entstanden. Darin werden Mehr-Personen-Interaktionen an einem Multitouch-Tabletop in einem Museum untersucht. Ziel der Analyse ist es, interaktive Praktiken herauszuarbeiten und zu beschreiben, mittels derer sich Museumsbesucher und -besucherinnen den Tabletop als digitales Spielgerät in einer Ausstellung aneignen. Für diese Analyse muss die Verschriftung räumliche, körperliche und vokale Aktivitäten zwischen den Beteiligten und in Bezug auf das Objekt erfassen. Die Transkription folgt den Daten 133 Mit dieser Problemstellung spiegelt der Beitrag auch eine Momentaufnahme der Reflexion meiner eigenen Transkriptionspraxis wider und wird damit einer zentralen Forderung nach der Verstärkung solcher Reflexionsbemühungen (Mondada 2016 b: 155) gerecht. Es geht hierbei nicht um einen abgeschlossenen Vorschlag einer multimodalen Transkriptionskonvention oder um eine individuelle Erweiterung einer bestehenden Konvention. Vielmehr möchte ich für einen integrativen Ansatz plädieren, der die tatsächliche Praxis immer wieder überprüft und möglichst konsequent auf die empirische Grundlage bezieht. Deshalb folgt dieser Beitrag den Aspekten, an denen sich Transkriptionsentscheidungen ausrichten. In Abschnitt 2 werden die wichtigsten Prämissen einer ethnomethodologisch-konversationsanalytisch informierten Analysehaltung und die Spezifika multimedialer Daten in ihren Konsequenzen für die Transkription besprochen. Da alle weiteren Überlegungen eng mit einem konkreten Gegenstand und dem dazugehörigen Datenmaterial verknüpft sind, wird beides in Abschnitt 3 vorgestellt. Abschnitt 4 behandelt die Frage, mit welchen unterschiedlichen Zielen innerhalb eines Projekts transkribiert werden kann und welche Folgen diese für die Transkript-Gestaltung haben. Für einen aktuellen Stand in der Diskussion stelle ich in Abschnitt 5 vier populäre Vorgehensweisen anhand jeweils eines Transkriptausschnittes vor und arbeite deren Erkenntnispotenziale heraus. Der Vergleich bildet die Grundlage für meinen integrativen Vorschlag (Abschnitt 6). 2 Prämissen für das (multimodale) Transkribieren ‚ Multimodales Transkribieren ‘ meint eigentlich die Transkription multimedial gewonnener Daten. Gegenstand der Datengewinnung ist ein Ereignis, das immer ein multimodales ist (siehe z. B. Stukenbrock 2009). Aus Gründen der Praktikabilität und in Anlehnung an einschlägige Publikationen wird hier auch die verkürzte Bezeichnung ‚ multimodale Transkription ‘ gebraucht. Innerhalb der qualitativen Sozialforschung gehören Transkriptionsprozesse unterschiedlicher Art und Auflösung zu den grundlegenden Schritten im Forschungsprozess (Moritz 2014). Vor allem in der Ethnomethodologischen Konversationsanalyse wird das Transkribieren „ [ … ] a central methodical element “ (Ayaß 2015: 506). Folglich erscheinen drei Prinzipien grundlegend für die Ausrichtung der Interaktions-Notation: Indexikalität, Reflexivität und Sequenzialität (vom Lehn 2014: 394). Wenn im ethnomethodologischen Sinne Sprache als indexikalisch bezeichnet wird, so ist damit gemeint: „ Sprache ist unheilbar vage, und konkrete Äußerungen erhalten ihre Bedeutung erst durch den Bezug auf den sozialen Kontext “ (Birkner et al. 2020: 10). Gleichzeitig stehen „ Handlungen und Kontext 134 Ingmar Rothe in einer reflexiven Beziehung “ (vom Lehn 2018: 43). Handlungen ‚ geschehen ‘ also nicht nur im Kontext, sie stellen gleichzeitig Kontext her. Der Sinn von Handlungen ist deshalb nicht losgelöst erkennbar, sondern nur im Davor und Danach des Handlungsverlaufs (vom Lehn 2018: 43) - in anderen Worten: im sequenziellen Verlauf. „ Intersubjektivität - in Form von geteilten Bedeutungen und koordinierten Handlungen - wird dadurch hergestellt, daß Gesprächsteilnehmer Schritt für Schritt verdeutlichen, wie sie einander verstehen “ (Deppermann 2008: 48 - 49). Was heißt das für die (multimodale) Notation von Interaktionsereignissen? Aus allen drei Prämissen lässt sich ableiten, dass es nicht genügt, eine fokale Äußerung oder Bewegung losgelöst vom Davor und Danach zu verschriften. Stattdessen muss der Verlauf im Transkript sichtbar sein und damit der Anschluss an vorangegangene Aktivitäten als auch Reaktionen auf das fokale Element, um den lokalen Kontext deutlich machen und die Bedeutung rekonstruieren zu können. Die Frage, wie Interaktionsbeteiligte Kontext herstellen, hat zudem Einfluss auf die Granularität oder Auflösung des Transkripts, je nachdem, welche Ressourcen in ihrer Aufeinanderbezogenheit an der Kontextualisierung beteiligt sind. Die erforderliche Darstellung von Zeitlichkeit (Sequenzialität) bedeutet gerade für multimodale Analysen ein „ Grundproblem “ (Mondada 2016 b: 139). Unabhängig davon, wie kinetisch realisierte Handlungen im Endeffekt dargestellt werden - es muss ebenfalls dargestellt werden, wie viel Zeit währenddessen verstreicht. Mindestens ebenso bedeutsam ist die Tatsache, dass die Arbeit mit multimedialen Daten neben der grundsätzlichen Sequenzialität die gleichermaßen grundsätzliche Simultaneität berücksichtigen und darstellen muss. Im zeitlichen Verlauf müssen also auch die simultan zum Verbalen stattfindenden kinetischen Aktivitäten lesbar gemacht werden. Bei der Simultaneität von Segmentalia und Suprasegmentalia ist das je nach Granularität noch gut leistbar (siehe GAT 2). Die Integration körperlichen Verhaltens stellt dagegen die zentrale Frage multimodaler Transkription dar. Neben diesen methodologischen Prämissen haben auch die spezifischen Eigenschaften audiovisueller Daten Einfluss auf die zu treffenden Notationsentscheidungen. Dazu gehören: Permanenz, Relevanz der Perspektive und Reichhaltigkeit: • Permanenz (Tuma, Schnettler & Knoblauch 2013: 33): Das ursprünglich flüchtige Interaktionsereignis wird verstetigt und dadurch manipulierbar. Das gilt genauso für reine Audiodaten, die Folgen für Notation und Analyse sind jedoch unterschiedlich. Gesprochene Worte werden als geschriebene Worte dargestellt, die beim Lesen wieder ‚ flüssig ‘ werden, weil die Rezeption Die Transkription folgt den Daten 135 sequenziell erfolgt, also von vorn nach hinten, von oben nach unten. Film wird im Transkript jedoch zumeist als Standbildfolge repräsentiert, die sich vom Film gravierend unterscheidet. Im Standbild wird Bewegung nicht nur verlangsamt, sondern eingefroren (Stukenbrock 2009: 149). Selbst bei Standbildfolgen wird mehr ausgelassen als gezeigt, es sei denn die Folge besteht aus allen 25 (bis zu 50) Frames je Sekunde. Eine solche Darstellung wäre schlicht nicht praktikabel. In anderen Worten: Was in der interaktiven Wirklichkeit und im Video eine flüssige Bewegung ist, erscheint in derTranskription als eine Abfolge von körperlichen Einstellungen. Mondada (2016: 135 - 136) spricht in diesem Zusammenhang von der „ Paradoxie des Versuchs, Bewegung durch starre Bilder darzustellen “ . Diese Tatsache muss in die Genese von Standbildern oder anderen sekundären Repräsentationen methodisch eingehen. • Relevanz der Perspektive (Tuma, Schnettler & Knoblauch 2013: 35): Auch Videodaten transformieren die soziale Wirklichkeit. Es entsteht ein Bildausschnitt, der nicht der Teilnehmendenperspektive entsprechen muss (und in den meisten Fällen nicht entsprechen wird) und auch analysierende Forschende haben „ nur “ die Perspektiven zur Verfügung, die ihnen die Aufnahmen zur Verfügung stellen (Tuma, Schnettler & Knoblauch 2013: 35). Die Kamerahandlung an sich ist zwangsläufig selektiv (Tuma, Schnettler & Knoblauch 2013: 39). Bei der Umsetzung für die Notation sind zusätzliche Eingriffe wie Vergrößerungen, Vignetten, Pfeile etc. möglich und mitunter sinnvoll. Allerdings entsteht durch sie auch zusätzliche Verfremdung. • Reichhaltigkeit: Durch die Fülle der „ points “ (Sacks 1985: 22), die potenziell relevant sein könnten, ist es unmöglich, mit Blick auf ein Korpus oder auch nur eine Aufnahme von vornherein festzulegen, in welchem Umfang transkribiert werden sollte (Mondada 2016 b). Denn gleichzeitig gilt für Transkripte eine „ unvoreingenommene Detailliertheit “ (Mondada 2016: 114). Transkribieren bedeutet „ das genaue Hinhören (und Hinsehen, I. R.) und die „ demütige “ Verschriftung von Details, so merkwürdig, widersinnig oder unwichtig sie auch zu sein scheinen “ (Deppermann 2008: 40). Ein Durchtranskribieren eines ganzen Korpus ist multimodal nicht möglich. Vielmehr müssen die „ points “ umsichtig und reflektiert ausgewählt werden, sobald Kandidatenphänomene identifiziert wurden. Eingedenk dieser folgenreichen Prämissen für die Transkription audiovisueller Daten, die mit hohen Ansprüchen an den Detaillierungsgrad, die Darstellungsebenen und den Umfang von Transkripten einhergehen, darf für die Analyse nicht vergessen werden: Das Transkript ist nicht das Datum (vom Lehn 2014: 396, Mondada 2016 b: 113). Es ist Teil der Analyse, auf keinen Fall aber ist es deren alleinige Grundlage. 136 Ingmar Rothe 3 Ein exemplarischer Gegenstand: Die interaktive Aneignung eines Interfaces Die praktischen Anforderungen der Transkription multimedialer Daten möchte ich anhand eines Forschungsprojektes, in dessen Rahmen audiovisuelle Daten erhoben wurden, darstellen. Gegenstand der Aufzeichnungen sind Interaktionen von Museumsbesucherinnen und -besuchern an einem Multitouch-Tabletop 2 , der zur Dauerausstellung im Sächsischen Industriemuseum Chemnitz gehört. Das gesamte Korpus umfasst 22 Stunden dyadische und Mehr-Personen-Interaktionen. Bei deren Analyse interessiert mich vor allem, in welcher Weise die Besucher ihre Aktivitäten koordinieren, um gemeinsam am Tabletop ein digitales Kartenspiel zu spielen. In anderen Worten: Wie eignen sich die Besucherinnen das Interface an und wie tun sie das insbesondere interaktiv? Um spielen zu können, ist ein geteiltes Verständnis des Objekts, des Interfaces und der Spielregeln notwendig. Das Analyseziel ist also, zu beschreiben, wie die Benutzenden zu diesem geteilten Verständnis kommen und in welcher Weise der Tabletop als Objekt mit seinen materialen Eigenschaften diesen Prozess beeinflusst. Grundsätzlich kommen für diese Aneignungsaktivitäten alle zur Verfügung stehenden Ressourcen in Frage. Körperposition und -haltung können einen Einfluss auf den Zugang zum Interface und die Sichtbarkeit von Dialogflächen haben. Handbewegungen, insbesondere der Finger, sind für die Auswahl von Elementen auf dem Display notwendig und die Art dieser Bewegungen kann einen Einfluss auf den Erfolg einer Aktion haben. Die Blickrichtung zeigt an, welchen Teil des Raums oder des Displays die Beteiligten fixieren usw. Für die Notation des Geschehens schließt sich daran die Frage an, ob alle Ressourcen für das gesamte Material transkribiert werden sollten und könnten, mit welcher Ressource man anfängt und wie Bewegungen dargestellt werden. Gibt es bei den Bewegungen ein Grundrepertoire wie wischen, ziehen, tippen und kann man diese mithilfe von Symbolen erfassen? Oder muss jede Bewegung beschrieben oder am Standbild gezeigt werden? In der Materialität der zu beobachtenden Phänomene liegt ein wesentlicher Untersuchungsschwerpunkt der Studie. Also: In welcher Weise ist der Tabletop als Objekt Teil des interaktiven Geschehens, bzw. in welcher Weise ist das 2 Der Tabletop wurde speziell für dieses Museum im Rahmen des Graduiertenkollegs Crossworlds (DFG #1708/ 1) an der Technischen Universität Chemnitz entwickelt und realisiert. Das Besondere an der Entwicklungsgeschichte ist die interdisziplinäre Zusammenarbeit im iterativen Gestaltungsprozess. D. h. die Entwicklung wurde im Wechsel von Entwurf - Testung mit ethnografischer Beobachtung - Anpassung des Entwurfs - … vollzogen (Storz et al. 2015). Die Transkription folgt den Daten 137 interaktive Geschehen auf den Tabletop bezogen. Heath, Hindmarsh und Luff (2010) fordern für solche Gegenstände eine weitreichende Transkriptionsarbeit, beschränken diese aber gleichzeitig auf kurze Ausschnitte des Datenmaterials: Transcriptions of fragments should be sensitive to the conduct of all participants in perceptual range of the event and any use of tools, systems or other objects relevant to the activity at hand. (Heath, Hindmarsh & Luff 2010: 108) Von den potenziell in Frage kommenden Ressourcen sollte demnach so viel wie möglich im Transkript erfasst sein. Damit ist implizit auch eine Grundforderung an die Videoaufnahmen gestellt, denn auch diese müssen so produziert werden, dass der gesamte Wahrnehmungsraum der Beteiligten überhaupt aufgezeichnet wird, und gleichzeitig müssen diese Aufnahmen so hoch aufgelöst sein, dass der Gebrauch der Werkzeuge, Systeme und anderer Objekte ausreichend gut sichtbar ist. Ein Vorteil des Systems Tabletop liegt darin, dass es keine vom Ausgabegerät (Display) getrennte Eingabeschnittstelle gibt, Ein- und Ausgabe also auch nicht getrennt voneinander synchron erfasst werden müssen, wie es z. B. in den U-Bahn Kontrollzentren in den Arbeiten von Heath und Luff (2000) der Fall war. Konversationsanalytisch konsequent müsste jeweils eine Kamera die Perspektiven der Teilnehmenden filmen (s. Kap. 2). Technisch ist das nach wie vor kaum praktikabel zu realisieren und selbst Eyetracker wären nicht unbedingt dazu geeignet, möglichst natürliche Aufnahmen herzustellen. Die Lösung für diese Anforderungen ist immer ein Kompromiss aus technischen Möglichkeiten und praktischer Machbarkeit. Im ursprünglichen Setup des Tabletops waren beispielsweise Kameras in den Gehäusen auf den Tischbeinen zur Personenerkennung vorgesehen (siehe Abb. 1 / ► eContent_RO_a). Technisch hat sich diese Lösung nicht bewährt, so dass die Display-Ecken auch für Eye-Tracker nicht in Frage kamen. Aus den Entscheidungen zur Erhebung ergeben sich auch Folgen für die Transkriptionspraxis. Für die Video-Aufnahmen am Tabletop waren folgende Überlegungen leitend: • Der Raum sollte möglichst vollständig erfasst werden, wozu eine Kameraeinstellung in der Totale benötigt wird. Diese wurde zusätzlich so gewählt, dass die Tischoberfläche in den meisten vorstellbaren Szenarien vollständig zu sehen ist. Das ist aus der Stirnseitenperspektive am wahrscheinlichsten, weil an dieser Seite keine Sitze installiert sind auch keine Dialogfenster erscheinen. • Weil die von der Kamera abgewandte Seite der Besucherinnen in dieser Totale zwangsläufig verdeckt ist, erschien eine Gegenschuss-Perspektive notwendig. Diese wurde konsequent gewählt, d. h. die Totale zeigt das Objekt und die Besucher von einer Seite oben, die Gegenschuss-Kamera zeigt die Szene von eContent_RO_a. tiff 138 Ingmar Rothe der gegenüberliegenden Seite unten, so dass sich in der Perspektive eine Diagonale zwischen den Kameras ergibt. • Für das Erfassen von Ein- und Ausgaben war zwar von Vorteil, dass beides über dieselbe Oberfläche stattfindet. Allerdings kommt mit dem Touch- Display eine Dimension der Eingabe hinzu, die recht vielfältig sein kann. Die Aufzeichnung musste in der Lage sein, nicht nur zu erfassen, was eingegeben wird, sondern auch, wie es eingegeben wird. Dabei war von vornherein nicht abzusehen, welche unterschiedlichen Eingabemodi überhaupt vorkommen können - welche Modi die Entwicklerinnen geplant hatten, hatte dafür höchstens prognostischen Wert, zumal bei einem Multitouch-Display dieser spezifischen Bauart auch Eingaben versehentlich bspw. durch Jackenärmel gemacht werden können. Die beste Lösung schien eine Kamera aus der Vogelperspektive zu sein. Diese erfasst nicht nur das Display, sie kommt auch der Perspektive der Spielerinnen nahe, weil diese das Display ebenfalls von oben, wenn auch mit geringerem Abstand, sehen. Ein erheblicher Nachteil dieser Perspektive liegt darin, dass die verwendeten Kameras trotz der Auslegung auf schnell wechselnde Lichtverhältnisse und hohe Auflösungen entweder die Personen im Bild unter- oder das Display überbelichten. Auf die höchstmögliche 4K-Auflösung musste zudem verzichtet werden, weil aufgrund der Datenmenge sonst die Gefahr bestanden hätte, mitten in einer Spiel-Interaktion die Speicherkarten wechseln zu müssen. Für die Analyse ergibt sich daraus die Einschränkung, dass die Spielkarten im Bild nicht immer zweifelsfrei identifiziert werden können. Für die Funktionstasten (Öffnen, Schließen, Beenden, Hilfe usw.) stellt das kein Problem dar, weil sich diese immer am selben Ort befinden und mit guter Kenntnis der Oberfläche rekonstruiert werden können, gleiches gilt für die Hilfetexte. Da die Karten jedoch randomisiert verteilt werden, lässt deren Position auf dem Spielfeld keine Rückschlüsse auf den abgebildeten Gegenstand zu. Spätestens in der Analyse zeigt sich, dass eine Forderung nach Aufnahmen aus der Teilnehmendenperspektive zwar theoretisch plausibel ist, in der Realität der Datenerfassung jedoch zu mehr Problemen als Erkenntnissen führen könnte. Aus meiner Sicht sprechen nicht nur die bereits formulierte Befürchtung, die Natürlichkeit der Daten werde eingeschränkt, dagegen, sondern auch ganz praktische Effekte. Wollte man an einem normalen Tag im Museum nicht nur bestimmte Besucher bei ihrem Kontakt zum Tisch filmen, sondern alle, müsste man dazu in der Lage sein, mindestens 20 Personen parallel mit Eyetrackern oder vergleichbarer Kameratechnik auszustatten. Bewegen sich die Besuchenden mit den Trackern dann durch das ganze Museum, steigt die Gefahr, dass einzelne Geräte ausfallen und keine Daten produzieren, was man erst bei der Die Transkription folgt den Daten 139 Datensichtung bemerkt. Im schlimmsten Fall sind dann ganze Spielinteraktionen problematisch, weil nur ein Teil der Spielenden konstant diese Art der Perspektive produziert. Alle anderen Kameras müssten also zur Sicherheit ebenfalls laufen. Auch aus analytischen Gesichtspunkten erscheint es wenig sinnvoll, eine Perspektive komplett durch die Tracker zu ersetzen, weil nicht jede Aktivität oder Aktion, die interaktiv relevant werden könnte, auch in ihrer Gänze von anderen Teilnehmenden gesehen wird. In anderen Worten: Auch wenn der Nukleus einer körperlichen Aktion von Teilnehmenden zu sehen ist, werden ihr Aufbau und damit auch ihr Timing mitunter nur aus der Beobachterperspektive einer Kamera erfasst. Eine Teilnehmendenperspektive wäre unter dem Strich also allenfalls eine zusätzliche Analyseressource, die in Zweifelsfällen klarifizierend eingesetzt werden kann. Die Abwägung zwischen Überfrachtung der räumlichen Umgebung, der Belastung und Involvierung der Besucherinnen und dem analytischen Gewinn fiel für diese Untersuchung zugunsten der beschriebenen bewährten multiperspektivischen Variante aus. Abb. 1: Kameraperspektiven (Markierung: Kamera-/ Mikrogehäuse); ► eContent_RO_a Welche Fragen ergeben sich daraus für die Transkription des Ereignisses? Neben der Frage der Granularität der Annotations-Auflösung muss entschieden werden, wie körperliche Aktivitäten darzustellen sind. Diese können im Transkript kurz und möglichst objektiv und im Analysetext genauer beschrieben werden. Anfang, Verlauf und Ende können auch symbolisch repräsentiert werden, gleiches gilt für die Bewegungen selbst, wenn es sich um ein begrenztes Repertoire handelt (bspw. ‚ Taste drücken ‘ , ‚ Schaltfläche berühren ‘ , ‚ Klicken ‘ , eContent_RO_a. tiff 140 Ingmar Rothe ‚ Wischen ‘ ). Die Bewegungen können auch am Standbild gezeigt werden. Allein mit der Verwendung des Standbildes sind weitere Fragen verknüpft. Ganz grundlegend ist die Frage nach der Auswahl. Soll das Standbild mit einer symbolischen Transkription verbunden oder durch Zeichen und Pfeile im Bild selbst ergänzt werden? Arbeitet man bei mehreren Standbildern mit einer Darstellung im Splitscreen oder eher mit den einzelnen Perspektiven? Und muss in der Darstellung für eine Publikation dieselbe Ansicht verwendet werden, wie bei derAnalyse? Sollte immer dann ein Detail herangezoomt werden, wenn man das für die Analyse auch gemacht hat, oder nur dann, wenn es um eine fokale Aktivität geht? Für die Bedienung des Interfaces muss zudem überlegt werden, ob in einer extra Zeile fortlaufend erfasst wird, was die Benutzenden eingeben und ob dazu die jeweiligen Ausgaben ebenfalls erfasst werden müssen, um etwa Latenzen zu erfassen, die potenziell das Timing der Nutzeraktivitäten beeinflussen. Erhebungspraxis und Transkription sind somit wechselseitig miteinander verknüpft. Mit der Perspektive auf eine möglichst genaue Erfassung und Darstellung aller Aktivitäten müssen die audiovisuellen Daten von hoher Qualität sein. Eine hohe Datenqualität macht es grundsätzlich möglich, sehr reichhaltige Notationen anzufertigen, so dass zahlreiche Entscheidungen zu treffen sind. Die Art der Fragen, die sich im Rahmen der Tabletop-Studie ergeben haben, veranschaulicht einmal mehr, wie eng Datum, Gegenstand und Notation jeweils zusammenhängen und wie schwierig es demzufolge ist, allgemeingültige Regeln zu formulieren. 4 Zu welchem spezifischen Zweck wird transkribiert? Auf der Basis der oben angeführten allgemeinen Prämissen herrscht weitgehend Einigkeit über mindestens zwei verschiedene Zwecke der Transkription: (1) Analyse im Forschungsprozess und (2) Präsentation in Publikationen und Vorträgen. Diese beiden Zwecke müssen einerseits getrennt voneinander behandelt werden, andererseits ist eine Präsentation ohne vorangegangene Analyse natürlich nicht denkbar. Dennoch gibt der Zweck einer Verschriftung vor, wie diese konkret gestaltet werden kann. Das heißt auch, dass ein Analyse- Transkript eben nicht einfach publiziert werden kann und dass ein Präsentationstranskript zugeschnitten werden muss auf den Ort, den Anlass und die Zielgruppe der Präsentation 3 . Wünschenswert wäre dennoch ein gewisser Grad 3 Da die Möglichkeiten des Datenhostings immer besser werden, ist außerdem vorstellbar, im Sinne der Transparenz die ausführlicheren Analysetranskripte online zur Verfügung zu stellen. Die Transkription folgt den Daten 141 an Analysierbarkeit auch für ein Präsentationstranskript, denn schließlich soll die Interpretation der Daten im Text bzw. im Vortrag nachvollzogen werden können und der Forschungsprozess so transparent wie möglich sein. Sollen Anforderungen an eine multimodale Transkription formuliert werden, müssen aus meiner Sicht die beschriebenen Prämissen mit dem jeweiligen Zweck verknüpft werden. Hier soll zunächst der Versuch unternommen werden, diese Verknüpfung herzustellen, bevor einschlägige Verfahren miteinander verglichen werden. Transkripte zur Analyse(unterstützung) Die Trennung in Analyse- und Präsentationstranskript soll vor allen Dingen einen Schwerpunkt deutlich machen. Sie soll keinesfalls verschleiern, dass es sich bei einem Transkript um ein Datum zweiter Ordnung handelt, das nicht Gegenstand, sondern Teil der Analysearbeit ist. Die Analysegrundlage ist immer das Video (Mondada 2016 b: 112). Transkripte zur Unterstützung der Analysephase sollten: • Sequenzialität rekonstruierbar machen; • eine revidierbare temporale Struktur haben (vom Lehn 2014); • an den Gegenstand anpassbar sein, d. h. materiale Vorgänge sollten auch ohne Verbales strukturierbar sein; • möglichst mit Standard-Zeicheninventar erstellbar sein; • idealerweise softwaregestützt zu erstellen sein, um das Archivieren, Erstellen von Kollektionen, Kodieren und Durchsuchen zu ermöglichen; • Bezüge zu räumlichen Gegebenheiten eindeutig sichtbar machen und • jeglichen Gebrauch der materialen Umgebung abbilden können (Heath, Hindmarsh & Luff 2010: 108, eig. Übers.). Insbesondere zwei Aspekte erscheinen zentral: • I. S. v. „ there is order at all points “ (Sacks 1985) und der Prämisse der Detailliertheit (s. o.) müssen Transkripte diese Detailtiefe abbilden können und sichtbar machen. • Es muss nicht nur sichtbar werden, wie sich Teilnehmende aufeinander bezogen verhalten, sondern auch wie sich die Ressourcen, zum Beispiel Gestik und Sprechen, aufeinander beziehen. Transkripte zur Präsentation in Publikationen und Vorträgen Die Veröffentlichung von Daten, oder deren „ Kommunikation “ (Deppermann 2008), stellt einen zentralen Verwendungszweck von Transkriptionen dar. Heath, Hindmarsh und Luff (2010) trennen die Verwendungszwecke auch 142 Ingmar Rothe begrifflich und sprechen von „ Transkription “ nur im Analysezusammenhang und von „ Präsentation “ , wenn es um publizierbare Verschriftungen geht. Präsentable Transkripte sollten: • zuallererst lesbar sein und, abhängig von der Zielgruppe, verständlich; • an das Medium anpassbar sein (also auch druckbar); • das konkrete Phänomen zeigbar machen, z. B. in seinem spezifischen Timing, und deshalb auch • den zeitlichen Verlauf einer Sequenz nachvollziehbar machen. Ob das Transkript grundsätzlich einen holistischen Eindruck vermitteln soll, muss von Fall zu Fall entschieden werden, denn damit ist immer auch die Gefahr der Überfrachtung verbunden. In vielen Fällen ist es ausreichend, wenn all jene Elemente zu sehen sind, die für das beschriebene Phänomen und die damit verbundene Argumentation entscheidend sind (Heath, Hindmarsh & Luff 2010). Für beides ist die Integration von Standbildern meist praktikabel und i. S. d. Anschaulichkeit einem reinen Zeichentranskript vorzuziehen. Wo immer möglich trägt die Integration von Primärdaten dazu bei, die Analyse transparenter und das Transkript verständlicher zu machen. Für Vorträge 4 gilt das ohnehin, für Printpublikationen zeigt dieser Sammelband, wie eine solche Integration gelingen kann. In der Kombination aus Video und Transkript, wie in den Beispielen in Abschnitt 5 gezeigt werden wird, spielen beide ihre Stärken aus. Das Video erlaubt eine holistische Perspektive auf das Material, das ergänzende Transkript fokussiert die Phänomene, die Gegenstand der Analyse sind. Die Anforderungen an Transkripte multimedialer Daten sind vielfältig und schließen einander mitunter aus (z. B. möglichst genaue holistische Darstellung und Vermeidung von Überfrachtung). Auch deshalb hat sich das Standbild als zentrales Element präsentabler Transkripte durchgesetzt und wird in allen Ansätzen, die im folgenden Abschnitt demonstriert werden, verwendet. 4 Die Präsentation von Videos innerhalb von Vorträgen wird ausführlich und in erster Linie praxisorientiert behandelt von Heath, Hindmarsh und Luff (2010), deren grundsätzliche Hinweise auch vor dem Hintergrund der technischen Entwicklungen in den letzten Jahren nach wie vor gelten. Die Transkription folgt den Daten 143 5 Populäre Vorschläge zur Transkription multimedialer Interaktionsdaten Die Herangehensweisen an das multimodale Transkribieren sind durchaus verschieden und sie reichen von unterschiedlich stark angereicherten Verbaltranskripten mit ergänzenden Standbildern über Standbilder mit ergänzendem reduzierten Verbaltranskript bis hin zu aufwändig gestalteten integrativen Darstellungen, die nur mittels leistungsfähiger Grafikprogramme realisierbar sind (z. B. Tuma 2017). Einen Sonderstatus nimmt der Vorschlag des Frame- Comics von Schmitt (2016) ein - zum einen, weil dieser kein Transkript i. e. S. ist, zum anderen, weil die Standbildauswahl hierbei nicht am verbalen Geschehen orientiert ist. Standbilder haben gegenüber detaillierten „ Übersetzungen “ von Bildern in Text gravierende Vorteile: • Sie vermitteln einen holistischen Eindruck; • Anonymisierungen und • Ausschnittvergrößerungen sind mit relativ geringem technischen Aufwand möglich; • Standbilder sind selbst mittels einfacher Videoschnittprogramme problemlos aus Videos zu extrahieren; • einzelne Stills können als Abfolge zu quasi-Filmstreifen, in denen Bewegungsverläufe sichtbar sind, zusammengestellt werden. Demgegenüber stehen Nachteile, die jedoch je nach Einsatz unterschiedlich schwer wiegen: • Auch die Auswahl des einzelnen Standbildes ist ein interpretativer Schritt; • bei 25 Frames/ Sekunde sind echte Filmstreifen nicht herstellbar; • das Standbild verleitet dazu, es bezüglich seiner Aussagekraft überzubewerten - vor allem, wenn man das Material gut kennt; • so einfach die Extraktion aus dem Originaldatum ist - i. d. R. müssen die Bilder nachbearbeitet werden, um im Print gut „ lesbar “ zu sein; insbesondere der Unterschied zwischen Bildschirm und Papier ist mitunter gravierend und tritt im schlimmsten Fall spät im Publikationsprozess zu Tage; • der holistische Eindruck birgt die Gefahr, den entscheidenden Aspekt im Bild zu verstellen; gleichzeitig ist jede Ausschnittsauswahl ein umso größerer interpretativer Schritt. Die Bedeutung des Standbildes ist dennoch unbestritten. Welche Vorteile und Nachteile mehr oder weniger bedeutsam sind, wird erst anhand des konkreten Gegenstands sichtbar. Im Folgenden möchte ich vier Transkriptions-Vorschläge 144 Ingmar Rothe im Hinblick i) auf ihren Umgang mit dem Standbild als Repräsentation des Videodatums und ii) auf die Integration des verbalen Transkripts vergleichen. Am Ende des Kapitels möchte ich zeigen, welche Leistungen jede der Herangehensweisen für den oben beschriebenen Gegenstand birgt: Das Interesse meiner Studie liegt, wie in Kapitel 4 dargestellt, darin, Praktiken auf die Spur zu kommen, mittels derer Museumsbesucher/ Tabletop-Nutzer die Nutzung des Interfaces gemeinsam erarbeiten, und welche Rolle die Umgebung und das Interface selbst dabei spielen. Es ist nicht vorhersagbar, ob diese Erarbeitung sprachlich oder körperlich dominiert ist (und ob überhaupt eine der Ressourcen dominant ist). Damit stellt sich z. B. auch die Frage, mit welcher Ressource im Transkriptionsprozess begonnen werden sollte. Was dagegen auf der Hand liegt, ist, dass insbesondere der gestaltete Raum analytisch relevant ist und deshalb in irgendeiner Weise in die Transkription Eingang finden muss. Die Reihenfolge der hier dargestellten Ansätze versteht sich keinesfalls als Rangfolge. Mit dem Ansatz von Stukenbrock (2009) liegt ein Versuch vor, die Stärken des Standbildes mit den Stärken der symbolischen Transkription zu kombinieren. Mondada (2016 b) arbeitet mit insgesamt weniger Standbildern und stützt sich auf eine stetig aktualisierte, sehr ausgefeilte und vergleichsweise weit verbreitete Konventionalisierung (Mondada 2014, 2018). Vom Lehn (2014) geht zurück auf die wegweisenden Vorschläge von Heath und Luff (2000) sowie Heath, Hindmarsh und Luff (2010). Ein Sonderstatus kommt Schmitt (2016) zu, der mit dem Frame-Comic ein Verfahren vorstellt, bei dem mithilfe des Standbildes v. a. Sequenzen dargestellt werden können, in denen nicht gesprochen wird. Die Integration der textlichen Verschriftung wird im Frame-Comic daher eher randständig behandelt. 5.1 Visuell-symbolische Transkription, Stukenbrock (2009) Stukenbrock (2009) schlägt eine Kombination aus bildlicher und symbolischer Transkription vor, um die Nachteile des einen durch die Vorteile des jeweils anderen Verfahrens zu kompensieren (164). Besonderes Augenmerk liegt dabei auf der Auswahl und Begründbarkeit des einzelnen Standbildes: Jedes muss dezidiert als „ prägnantester Moment “ (Stukenbrock 2019: 154) erklärt werden können. Welche Kriterien dafür infrage kommen, ist abhängig vom Gegenstand und muss immer wieder neu festgelegt werden. Typischerweise handelt es sich um Zeitpunkte der Veränderung wie z. B. „ Anfangs-, End- und Gipfelpunkt einer Geste; der Augenblick, in dem der Blick den Raum für eine Geste herstellt [ … ] “ und Ähnliches (154). An diesen ‚ Wendepunkten ‘ werden die Formen einer vollzogenen Handlung am besten sichtbar. Wie für audiovisuelle Daten allgemein gilt auch hierbei, dass der prägnanteste Augenblick nur aus einer Analysebzw. Beobachterperspektive identifiziert werden kann (167) - ob Die Transkription folgt den Daten 145 dieser Moment auch der prägnanteste für die Interaktionsteilnehmerinnen ist, ist nicht endgültig zu entscheiden. Damit ist die letztlich getroffene Standbildauswahl ein Produkt von Abwägung und Interpretation. Das ist nicht unbedingt ein Nachteil, zeigt aber, warum multimodale Transkription weniger ein neues „ Format “ erforderlich macht als ein neues Verständnis (147). Den wesentlichen Unterschied zwischen bildlicher und symbolischer Transkription beschreibt Stukenbrock (2009) so: Während bei der Standbilderstellung und -rezeption die holistische Wahrnehmung zunächst leitend ist und analytische Details erst metareflexiv isoliert werden müssen, findet bei der symbolischen Transkription ein unmittelbarer Zerlegungsprozess statt, bei dem die Gestalthaftigkeit der Phänomene zwangsläufig verloren geht (161). Das Grundproblem einer symbolischen Darstellung besteht darin, dass weitreichende Vorentscheidungen getroffen werden müssen, was wie dargestellt wird, und diese Vorentscheidungen mitunter davon abhängig sind, was überhaupt dargestellt werden kann (etwa im Hinblick auf begrenzte Zeicheninventare oder die Lesbarkeit des Transkripts (161). Eine allgemeine Konvention liefe dann Gefahr, sich auf den konkreten Gegenstand nicht ausreichend anpassen zu lassen oder Phänomene zu transkribieren, deren Betonung dann aus dem Transkript herrührt, nicht aus ihrer tatsächlichen interaktiven Bedeutung. Stukenbrock (2009) schlägt deshalb vor, für die symbolische Transkription eigene Zeilen pro Aktivitätsgruppe (Gestik, Blickrichtung etc.) im Transkript zu verwenden, wodurch eine Partitur entsteht. Die dargestellten Bewegungen werden dann in ihren Anfangs- und Endpunkten sowie in ihrer Bewegung oder Beibehaltung dargestellt. Anderen „ Aktivitäten werden dann im Transkript eigene Zeichen (Zahlen, Buchstaben, Zahlen-Buchstaben-Kombinationen oder andere Abkürzungen) zugeordnet, deren Erläuterung in der Legende erfolgt “ (163 - 164). Durch die Verbindung mit den Standbildern erübrigt sich i. d. R. die um Präzision bemühte Beschreibung kinetischer Aktivitäten, wodurch die symbolische Darstellung schlank bleiben kann. Im folgenden Beispiel habe ich neben dem Gesprochenen die Aktivitätsgruppen Blickrichtung (Ma_B und Re_B) und Handbewegungen (Ma_H und Re_H) transkribiert. In diesem Fragment sind die Museumsbesuchenden Manfred und Renate seit zwölf Minuten mit dem Tabletop beschäftigt. Renate steht vor einem Problem: Sie hat das Hilfemenü geöffnet, das nun ihre Spielkarten größtenteils verdeckt. Sie versucht diese herauszuziehen, Manfred sieht ihr dabei zu. In einer langen Verbalpause versucht Manfred nun, Renate beim Herausziehen der Karten zu helfen und bewegt seine linke Hand in Richtung Karte. Renate zieht ihre Spielhand zwar kurz zurück, hat ihre Hand aber genau in dem Moment über der Karte, in dem Manfred ebenfalls die Karte berühren will. Im Transkript ist zu 146 Ingmar Rothe sehen, dass sich die kurze Rückwärtsbewegung von Renates Hand mit der Seitwärtsbewegung von Manfreds Spielhand überlagert ( - - - - ) und beide Hände im selben Moment den jeweiligen Apex über der Karte erreichen ( ▲ ). Renate verhindert so, dass Manfred die Karte erreicht, so dass er seine Hand in die Ruheposition zurückzieht und in der Ausgangsposition ablegt. Abb. 2: Eingreifen_3b; visuell-symbolische Transkription nach Stukenbrock (2009); ► eContent_RO_b und ► eContent_RO_g Ein großer Vorteil dieser Darstellungsweise liegt in der Sichtbarkeit von Haltedauern und von Überlappungen kinetischer Aktivitäten. Haltedauern im Standbild so darzustellen, dass sie von der Leserin nachvollzogen werden können, ist sonst kaum möglich. Die Simultaneität von Bewegungen kann zwar auch im Bild grundsätzlich gesehen werden. Bei der Vielzahl an sichtbaren Einzelheiten im Standbild ist aber nicht garantiert, dass diese auch tatsächlich erfasst werden. Insofern trägt die symbolische Ergänzung des Standbildes zur selektiven Wahrnehmbarkeit durch den Betrachter bei. Durch die Auswahl der Ressourcen wird ein spezifisches Merkmal in den Mittelpunkt der Datenpräsentation gerückt. (Erkenntnis-)Potenziale visuell-symbolischer Notation Ihre Stärken spielt diese Darstellungsform aus, wenn es um Koordinierungsaktivitäten auf der Mikroebene geht. Gerade die Simultaneität von Aktivitäten oder deren Abfolge wird so sichtbar - zumindest dann, wenn die betrachteten Interaktionen über zwei Teilnehmende nicht hinausgehen. Bei Mehr-Personen- Interaktionen kommt einer der größten Nachteile zum Tragen: der erhebliche Platzaufwand. Bei drei notierten Aktivitätsgruppen kommen inklusive Verbaltranskript 4 Spuren je Teilnehmerin (! ) zur Standbildzeile dazu. Die von eContent_RO_b. tiff eContent_RO_g. mov Die Transkription folgt den Daten 147 Stukenbrock (2009) vorgeschlagene Spiegelung der Zeilen funktioniert dann ebenfalls nicht mehr, worunter die Lesbarkeit leidet. Auch in Bezug auf die Standbilder zeigt der zur Verfügung stehende Raum der Darstellungsweise Grenzen auf. Die Bilder müssen ausreichend groß sein, um etwas erkennen zu lassen, was die Bildauswahl von vornherein begrenzt (ob ein Bild prägnant ist oder nicht, ist also auch immer vom verfügbaren Platz abhängig) - Splitscreens zu verwenden ist nahezu unmöglich. Die Anordnung der Bilder in der Horizontalen erinnert an einen Filmstreifen, was eine haptische Nähe zum Video herstellt. Das ist gestalterisch ein schöner Effekt, leitet allerdings auch fehl, denn ein echter Filmstreifen benötigte mindestens 24 oder 25 Bilder pro Sekunde. Für die Repräsentation der Temporalität eines Datenausschnitts heißt das, dass zwischen den Bildern, auch wenn sie zueinander passen, unterschiedlich viel Zeit vergeht. Für die Betrachtung einer Bildreihe in einer Publikation ist das ein eher marginales Problem, es verdeutlicht jedoch die grundsätzliche Problematik der Übertragung von Bewegtin Standbild. Schwieriger ist die Verknüpfung von verbalem Gehalt und zugehörigem Bild, die aus Platzgründen nicht aligniert dargestellt werden können (dies wird über die Striche gelöst). Mit der aus Verbaltranskripten vielfach gewohnten Segmentschreibweise ist diese Mischform aus symbolischer und bildlicher Darstellung nicht zu vereinen. Diese Einschränkungen zeigen, dass multimodale Transkriptionsverfahren grundsätzlich vom Gegenstand her gedacht und ausgearbeitet werden müssen und „ dass der Repräsentationsstatus multimodaler Transkripte im Hinblick auf die Qualität und Quantität der dargestellten und darstellbaren visuellen Phänomene nicht in Analogie zur Relation zwischen Audiodaten und dem klassischen konversationsanalytischen Verbaltranskript gedacht werden kann “ (Stukenbrock 2009: 167). 5.2 Beschreibende Transkription, Mondada (2014, 2016 a, 2018) Mondada (2014, 2016 a) schlägt zur Transkription multimedialer Daten einen elaborierten Hybrid aus Text und Bild vor, der von vornherein als erweiterbar gedacht wird. D. h. ähnlich der Abstufung von Minimal-, Basis- und Feintranskript in GAT 2 wird auch hier je nach Bedarf angereichert (oder weggelassen). Inzwischen ist das Transkriptionsverfahren relativ weit verbreitet und es beruht auf Konventionen (Mondada 2014), die ständig ergänzt werden. Der Leseverständlichkeit kommt zugute, dass die Konventionen zur Transkription des Gesprochenen von etablierten Verfahren wie Jefferson ( Jefferson 2004) oder GAT 2 (Selting et al. 2009) übernommen werden und das Verbaltranskript auch der temporalen Orientierung dient (Mondada 2016 b). 148 Ingmar Rothe Rein praktisch wird zunächst das Verbalsprachliche transkribiert und Bilder werden im zweiten Schritt für den holistischen Eindruck ergänzt, denn „ [e]ingebettete Bilder tragen zur Transkription in einer Weise bei, die eine rein textbasierte Darstellung aus prinzipiellen Gründen nicht leisten kann “ (Mondada 2016 b: 130) - insbesondere, wenn es um Position(en) im Raum und Bewegungsabläufe geht. Die Auswahl der Bilder folgt dabei nicht vorher festgelegten Kriterien, sondern analytischen Entscheidungen (Mondada 2016 b: 139 - 154), die immer wieder neu getroffen werden müssen. Ob der analytische Fokus deutlicher wird, indem zwischen den Standbildern möglichst große Kontraste liegen, oder ob es hilfreicher ist, einen Film-ähnlichen Verlauf herzustellen, ist abhängig davon, wo das Phänomen liegt. Auch die Frage, ob die Nutzung des Raums gezeigt werden soll oder eine konkrete Geste, hat einen Einfluss auf die Bildauswahl (Mondada 2016 b: 131 - 133). Wie auch immer die Entscheidung im jeweiligen Fall ausgeht: „ Bilder in Transkriptionen entsprechen [ … ] eher einer ‚ Montage ‘ und ‚ Collage ‘ als einer wirklichkeitsgetreuen, transparenten Abbildung der ursprünglichen Handlung “ (Mondada 2016 b: 136). Der Vorschlag von Mondada besteht darin, das Einzelbild exakt zu verorten, so dass es sich „ auf einen Zeitpunkt bezieht und nicht auf eine Zeitspanne “ (131). Im folgenden Beispiel wird dieselbe Szene wie in Kapitel 5.1 auf diese Weise verschriftet: Abb. 3: Eingreifen_3c; beschreibende Transkription nach Mondada (2014, 2016); ► eContent_RO_c und ► eContent_RO_g (Erkenntnis-)Potenziale beschreibender Notation Eine entscheidende Eigenschaft dieser Konvention liegt in der Bindung der multimodalen Transkription an das Sprechen, denn dieses setzt den zeitlichen Maßstab (Mondada 2016 b: 127). Die Temporalität wird im Transkript also nicht eContent_RO_c. tiff eContent_RO_g. mov Die Transkription folgt den Daten 149 durch abstrakte Zeitmarken dargestellt, sondern entlang der wahrgenommenen (oder relativen) Zeit, die während einer sprachlichen Äußerung vergeht. Dieses Prinzip gerät an seine Grenzen, wenn nicht gesprochen wird, also bspw. in Verbalpausen. Dann bleibt lediglich die Möglichkeit, auf gemessene Zeiten zurückzugreifen (Mondada 2016 b: 127 - 128.). Eine standardisierte Position des Bildes oder der Bilder gibt es nicht, sie ist der Segmentschreibweise untergeordnet, wodurch die Collagen-artige Anmutung verstärkt wird. Die Segmentzeilen werden flexibel durch die jeweils zu fokussierende(n) non-vokale(n) Aktivität(en) ergänzt, so dass sich eine Mischform aus Segment- und Partiturdarstellung ergibt. Flexibel bleibt das Transkript auch in Bezug auf die annotierten Ressourcen. Mondadas Transkriptionsvorschlag setzt zwei Prämissen konsequent um: Erstens die Darstellung von Zeitlichkeit im Transkript und zweitens die Reflexion der Auswahl jedes einzelnen Standbildes und dessen Verknüpfung mit anderen Bildern. Weil die Standbilder per se Momentaufnahmen sind und die Darstellung von Verläufen problematisch ist, werden die Bewegungsverläufe, also Start- und Endpunkte, im Transkript ergänzt und mit einem festen Zeicheninventar charakterisiert (siehe Beispiel). Für die Analyse kann das von erheblichem Vorteil sein, weil Beginn und Ende, Simultaneität und Sequenzialität präzise abgebildet werden können. Darüber hinaus können die annotierten Bewegungen am Bild visuell nachvollzogen werden. Für die Darstellung in Publikationen, sei es auf Präsentationsfolien oder in Artikeln, hat das mitunter zur Folge, dass die Transkripte nur nach intensiver Einarbeitung wirklich lesbar sind. Durch die wechselnde Position der Standbilder lassen sich Bild und Text kaum „ auf einen Blick “ erfassen, nicht selten wirken die Darstellungen zunächst sehr kompliziert. 5.3 Bebildertes Verbaltranskript, vom Lehn (2014) Sowohl Stukenbrock (2009) als auch Mondada (2016 a,b) orientieren sich bei der symbolischen Darstellung von Haltedauern und Bewegungswechseln an Vorschlägen, die aus den soziologischen Arbeiten zur qualitativen Videoanalyse stammen (z. B. Heath & Luff 2000, Heath, Hindmarsh & Luff 2010). Auch vom Lehn (2014) bezieht sich auf diese Grundlagen, plädiert aber noch deutlicher für eine klare Trennung von Analyse- und Präsentationstranskript. Diese unterscheiden sich nicht nur durch unterschiedliche Auflösungsgrade oder die genutzte Software, sondern auch durch das Medium, in dem sie erstellt werden: Die Arbeitstranskripte werden mit Bleistift auf Millimeter-Papier erstellt und während der gesamten Auseinandersetzung mit dem Datum fortlaufend modifiziert. Darauf gibt es eine x-Achse für die Zeit und eine y-Achse für beteiligte 150 Ingmar Rothe Personen und ggf. Objekte (vom Lehn 2014: 399). Eine ähnliche Vorgehensweise wäre in ELAN (ELAN Version 6.0) denkbar, denn auch darin wird die Abfolge von Aktivitäten grundsätzlich zeitlich auf einer x-Achse verortet. Die Transkription der verbalen Aktivitäten erfolgt konversationsanalytischen Gewohnheiten gemäß zunächst in Segmentschreibweise (vom Lehn 2014: 396) und ist grundsätzlich der erste Schritt, der erlaube, „ sichtbare und materiale Handlungen in Beziehung zu den hörbaren Äußerungen der TeilnehmerInnen zu stellen und im Transkript abzubilden “ (404). Für Präsentationstranskripte wird die Segmentschreibweise teilweise aufgelöst und die Transkription an sich vereinfacht, um die Lesbarkeit zu erleichtern. Zwei Ideen sind dabei leitend: Die „ direkte “ Verknüpfung von Bild und Verschriftung und eine strenge Bindung an das zu beschreibende Phänomen (vom Lehn 2014: 402), auch wenn das heißt, dass Lesende nicht „ alles auf einen Blick “ erfassen können. Die Standbildauswahl geschieht gegenstandsbezogen. Stehen also (gemeinsame) Orientierungen im Analysefokus, sind „ markante “ Orientierungen und Orientierungswechsel ausschlaggebend für die Entscheidung, womit die zugrundeliegende Dynamik „ zumindest angedeutet “ wird (vom Lehn 2014: 402). Abb. 4: Eingreifen_3d; bebildertes Verbaltranskript nach vom Lehn (2014); ► eContent_RO_d und ► eContent_RO_g (Erkenntnis-)Potenziale des bebilderten Verbaltranskripts Der Unterschied zwischen analyseunterstützender Annotation und Publikations-Transkript desselben Fragments könnte größer nicht sein. Idealerweise führt der Wechsel von Millimeterpapier auf Textverarbeitung dazu, dass die eContent_RO_d. tiff eContent_RO_g. mov Die Transkription folgt den Daten 151 publizierte Version eng auf die Argumentation der Analyse zugeschnitten ist. Durch die direkte räumliche Verknüpfung von verbalen Aktivitäten, repräsentiert durch das Textsegment, mit den körperlich-materialen Aktivitäten im Bild wird die feste Zeilen- oder Spaltenstruktur aufgelöst. Eine zusätzliche symbolische Transkription kann ergänzt werden. Im Vergleich zu den in 5.1 und 5.2 demonstrierten Vorschlägen ist diese Darstellung deutlich reduzierter und individueller. Es geht jedoch auch weniger darum, eine Interaktionssequenz adäquat darzustellen, als vielmehr darum, deren adäquate Beschreibung im Text zu unterstützen (vom Lehn 2014: 404). Das Transkript als solches hat eher einen illustrierenden als einen dokumentierenden Charakter. Konsequenter Weise folgt daraus, dass weder das Transkript noch die Beschreibung des Fragments ohneeinander funktionieren. 5.4 Bildfolge statt Transkript - der Frame-Comic, Schmitt (2016) Der Frame-Comic (Schmitt 2016) nimmt in der Reihe der Transkriptionsvorschläge schon insofern eine Sonderstellung ein, als dass es sich dabei gar nicht um eine Transkription i. e. S. handelt: „ Aufgrund seines Status als autonomes Sekundärdokument fehlt dem Frame-Comic nicht nur kein Transkript, sondern er will auch keins haben “ (190). Der Status des Standbildes unterscheidet sich im Frame-Comic fundamental von jenem in den drei anderen Ansätzen, weil es hierbei darum geht, eine Standbildfolge zu produzieren, die als sekundäres Dokument analysierbar ist: Aus analytischer Perspektive ist der Frame-Comic gerade wegen der motivierten Auslassungen von besonderem Interesse, weil die dadurch bewusst herbeigeführte „ Informationsverknappung “ und „ Ent-Dynamisierung des Vollzugs “ spezifische Rekonstruktionsverfahren verlangt (Schmitt 2016: 190). Die Zielstellung des Frame-Comics ist damit auch eine gänzlich andere als jene, die vor allem ein Präsentationstranskript verfolgt: Das Standbild soll nichts illustrieren, es soll analytisch ernstgenommen werden. Die zeitliche Kontinuität des Videos wird zugunsten sequenziell geordneter Einzelbilder aufgelöst, die Bilder (zunächst) ohne Rücksicht auf Gesprochenes ausgewählt. Begründet ist diese methodische Herangehensweise auch mit den Fragestellungen sozialtopografischer Analysen, die die „ situative Raumnutzung “ in den Blick nehmen (Schmitt 2016: 190). Wie im gezeichneten Comic erzählen die Bilder eine Handlung, die sich über markante Punkte hinweg erstreckt. Verständlich wird diese, weil beim Betrachten der Übergang vom einen zum nächsten Bild automatisch ergänzt wird. Die Handlungssequenz wird also auf das Minimum der Darstellung, das zum Verständnis notwendig ist, begrenzt: 152 Ingmar Rothe [ … ] alle vom Analytiker als wesentlich erachteten Veränderungen des im Video vollständig dokumentierten Interaktionsgeschehens [sollen] in einzelnen, sequenziell geordneten Standbildern präsentiert sein. Der Frame-Comic gibt in diesem Sinne die Eckdaten einer Handlungslogik oder eines Aktivitätsstrangs - wie beim Comic - auf der Grundlage ausgewählter Frames/ Bilder wieder (Schmitt 2016: 199). Das Problem der darzustellenden Zeitlichkeit der Bildabfolge stellt sich beim Frame-Comic genauso wie bei einem der multimodalen Transkripte i. e. S., denn die Reihenfolge der Standbilder ist für die Interpretation natürlich entscheidend und im Unterschied zu einem Verbaltranskript ist bei einer Bildfolge weniger eindeutig zu entscheiden, welche Sequenz vorausgeht und welche nachfolgt. Dafür werden die Standbilder nummeriert und mit Zeitstempeln versehen, die nicht nur die Abfolge bestimmen, sondern auch zeigen, wie viel Zeit zwischen zwei Einstellungen vergeht (Schmitt 2016: 216 - 217). Dass es sich dabei um eine abstrakte Darstellung von Zeit handelt, wird zwangsläufig in Kauf genommen. Abb. 5: Eingreifen_3e; Frame-Comic nach Schmitt (2016); ► eContent_RO_e und ► eContent_RO_g eContent_RO_e. tiff eContent_RO_g. mov Die Transkription folgt den Daten 153 (Erkenntnis-) Potenziale des Frame-Comics Viel deutlicher als die zuvor dargestellten Arbeitsweisen ist der Frame-Comic auf spezifische Verwendungszusammenhänge ausgerichtet. Abgesehen von sozialtopografischen Fragestellungen spielt der Frame-Comic seine Stärken dann aus, wenn sich Handlungen über eine längere Phase ohne verbale Aktivität erstrecken, etwa in Verbalpausen, die mehrere Minuten andauern (Schmitt 2016: 192 - 195). Daneben entfaltet er sein Erkenntnispotenzial „ bei der Rekonstruktion kleiner und dynamischer lokaler Handlungszusammenhänge “ (Schmitt 2016: 218) - dann aber als Teil einer multimodalen Gesamtanalyse und der verbalen Rekonstruktion vorgeordnet. In der Standbildauswahl schlägt Schmitt eine eigene Vorgehensweise zur methodisch kontrollierten Auswahl vor. Das Prinzip besteht darin, zu Anfang mittels Screenshots eine große Zahl Stills zu produzieren und diese anschließend über mehrere Iterationsstufen zu reduzieren (oder „ einzukochen “ ) (Schmitt 2016: 204 - 205). Dadurch entsteht eine „ handlungskonsistente Standbildfolge “ (ebd.: 218) und als ‚ Nebenprodukt ‘ eine große Datenvertrautheit, die zum Aufdecken und Verstehen von Zusammenhängen beiträgt. 6 Kombination statt Konvention Ich habe versucht, die vier vorgestellten Transkriptionsverfahren in ihren Grundzügen zu beschreiben und darzustellen, in welchen wesentlichen Aspekten sie sich voneinander unterscheiden. Diese Unterschiede sollen hier noch einmal zusammengefasst werden: • Stukenbrock (2009) ( ► eContent_RO_b): Der Kern des Vorschlags besteht darin, das verbale Transkript mit Standbildern und einer symbolischen Transkription zu kombinieren. Das Arrangement der Standbilder ist daran orientiert, Aktivitäten in ihrem Verlauf darzustellen, wobei die Auswahl jedes einzelnen Bildes umfangreich reflektiert wird. • Mondada (2014, 2016 a) ( ► eContent_RO_c): Kinetische Aktivitäten werden beschrieben und in ihrer Ausdehnung angezeigt. Das Verfahren ist besonders flexibel, weil es je nach Phänomen und Zweck angereichert und reduziert werden kann. Die Segmentschreibweise verbaler Transkriptionen wird beibehalten, was gängigen Lesegewohnheiten entspricht, Visuelles wird in zusätzlichen Zeilen eingefügt. Charakteristisch ist, dass grundsätzlich viel auf einen Blick erfasst werden kann, die Transkripte jedoch schnell ‚ voll ‘ und damit schlechter lesbar werden. eContent_RO_b. tiff eContent_RO_c. tiff 154 Ingmar Rothe • vom Lehn (2014) ( ► eContent_RO_d): Demgegenüber zeichnet eine gewisse ‚ Schlichtheit ‘ die Transkripte nach den Vorschlägen von vom Lehn aus, die für Präsentation oder Publikation erheblich reduziert werden und dann mit dem ursprünglichen Analysetranskript nur noch wenig zu tun haben. Die Segmentschreibweise wird vorsätzlich aufgegeben, um eine enge Verbindung zwischen Text und Bild herzustellen. Als Leser muss man sich dadurch jedoch auch immer wieder neu im Transkript orientieren. Standbilder haben v. a. illustrierenden Charakter, sind also nicht darauf ausgelegt, einen Verlauf zu zeigen. • Schmitt (2016) ( ► eContent_RO_e): Der Frame-Comic ist strenggenommen kein Verfahren zur Transkription, stellt allerdings ebenfalls ein Sekundär-Dokument dar. Die herausragende Besonderheit ist der Einsatz bei der „ visuellen Erstanalyse “ . Der Frame-Comic ist damit auch das einzige unter den hier vorgestellten Verfahren, das nicht mit der Transkription des Hörbaren beginnt. Als durchgehendes Transkriptionsverfahren ist er weder angelegt, noch erscheint er dafür uneingeschränkt geeignet. Hilfreich ist der Frame-Comic gleichwohl, um interessante Punkte im Interaktionsverlauf visuell zu identifizieren, um der körperlich-räumlichen Ordnung auf die Spur zu kommen sowie für die Analyse von langen Verbalpausen. Konsens herrscht in der Diskussion dahingehend, dass die Forderung, die Methode müsse dem Gegenstand, der Forschungsfrage und dem zu analysierenden Phänomen folgen, für die Transkription multimedial erstellter Daten in besonderer Weise gilt. Konsequenterweise hieße das, dass innerhalb einer Studie bzw. eines Forschungsprojekts je nach zu beschreibendem Phänomen die Darstellung der Daten angepasst werden müsste - wenn sich eine der Darstellungsformen besser eignet als eine andere. Innerhalb der Konventionen, die Mondada (2014, 2016 a) vorschlägt, ist diese Flexibilität insofern implizit, als dass ein Transkript je nach Bedarf reduziert oder erweitert werden kann, auch wenn es im Grundaufbau gleichbleibt. Vom Lehn (2014) zeigt radikaler, wie sich der Analysefokus auch auf die Darstellung auswirkt, indem Parameter wie Bildposition, Text-Bild-Alignierung, Vorhandensein des Bildes etc. wechseln (vom Lehn 2014: 84 - 93). Was für die Darstellungsform gilt, gilt ebenso für die Transkription im Analyseprozess. Für das hier dargestellte Forschungsprojekt haben sich in der Erschließung des Datenmaterials verschiedene Herangehensweisen ergeben. Teile der Aufnahmen wurden von mehreren Personen jeweils ressourcenbezogen transkribiert - d. h. alles Hörbare von einer Hilfskraft, alles Sichtbare von einer anderen Hilfskraft, die Zusammenführung und Verfeinerung eContent_RO_d. tiff eContent_RO_e. tiff Die Transkription folgt den Daten 155 wurde von mir, und damit von einer dritten Person, vorgenommen. Die auditive Transkription wurde im Transkriptionseditor FOLKER (FOLKER Version 1.2) durchgeführt, die visuelle Transkription sowie die Zusammenführung und weitere Analyse wurden in ELAN (ELAN Version 6.0) realisiert. Mit diesen getrennten Aufbereitungsschritten waren jeweils produktive Perspektivwechsel möglich. ELAN sieht per se eine Notation in Partiturschreibweise vor, so dass für die Analyse Teile des Materials symbolisch transkribiert wurden, um Anfangs- und Endpunkte von Gesten präzise zu erfassen. In einigen Fällen wurden als zusätzliche Perspektivwechsel-Methode Frame-Comics erstellt, um konsequent die visuell wahrnehmbare Sequenzialität eines Datenfragments zu fokussieren. Da die Verteilung der Transkriptionsaufgaben auf mehrere Personen nicht für das gesamte Material möglich war, wurden einige Fragmente ausschließlich von mir selbst transkribiert, wobei je nach Phänomen zuerst das Verbale oder das Visuelle erfasst wurde. Grundsätzlich ist das Delegieren der Transkription multimedialer Daten wegen der weitreichenden analytischen Implikationen nicht unproblematisch (ähnlich argumentieren auch Stukenbrock & Birkner 2009). Die folgende Darstellung kombiniert die vorgestellten Transkriptionsansätze. Es handelt sich um dieselbe Sequenz wie in den vergleichenden Beispielen (s. o.). Die Standbildauswahl erfolgte in den Schritten zur Erstellung eines Frame-Comic (Schmitt 2016) und damit systematisch und methodisch begründet. Zugunsten der Lesbarkeit wird die tabellarische Segmentschreibweise aus GAT 2 (Selting, Auer & Barth-Weingarten 2009) übernommen. Für die Repräsentation des Verbalsprachlichen wird auf die Empfehlung von Mondada (2014) zurückgegriffen und die Verbalpause von 6,7 Sekunden so geteilt, dass in der Verbalspalte jeweils die Zeit abgelesen werden kann, die zwischen zwei aufeinanderfolgenden Bildern vergeht. Der Zeitpunkt des Standbildes wird durch # markiert. 156 Ingmar Rothe Abb. 6: Eingreifen_3f; kombiniertes Transkript; ► eContent_RO_f und ► eContent_RO_g Analyseleitend war im Fall dieses Fragments die Feststellung, dass es immer wieder zwischen Spielenden (nicht nur zwischen den zwei hier gezeigten) zu Situationen kommt, in denen eine spielende Person in den Zug einer anderen eingreift - ohne dass dies explizit problematisiert würde. Erst die „ Auflösung “ des Videomaterials in die Einzelbilder des Frame-Comics hat mir hier zu der eContent_RO_f. tiff eContent_RO_g. mov Die Transkription folgt den Daten 157 Feststellung verholfen, dass die Übergriff-Sequenzen hochgradig körperlich koordiniert verlaufen - was eine verbale Aushandlung in den meisten Fällen obsolet macht. Aus dieser Analyse heraus wurden die Bilder für die Darstellung dann übernommen. Bei der Darstellung anderer Phänomene erfolgt die Standbildauswahl eher illustrativ. Zum Beispiel dann, wenn beim Aushandeln der Spielregeln von einer Spielerin eine Hypothese aufgestellt und durch eine begleitende Zeigegeste demonstriert wird, diese einen klaren End- und Anfangspunkt hat und es keine Überlappung mit körperlichen Aktivitäten eines anderen Spielers gibt. Die Art der fokalen körperlichen Aktivitäten entscheidet, wie im Beispiel, auch über die Auswahl des Bildausschnitts. Das Fragment in (Abb. 6 / ► eContent_RO_f ) steht hier für sich, weshalb das erste und das abschließende Bild nicht nur Hände und Display zeigen, sondern die gesamte Situation. In Still 2 bis 4 ist bewusst ein vergrößerter Ausschnitt gewählt, weil deutlich werden soll, dass Übergriff-Versuch und -Abwehr in dem kleinen Bereich über den aktiven Spielfeldern stattfinden und sich körperlich auf die Hände und Unterarme der Spielenden beschränken. Die Annäherung an den Tabletop durch eine Person oder die Einnahme eines Sitzplatzes würde dementsprechend an einem anderen Bild-Ausschnitt oder dem Splitscreen gezeigt. Im hier gezeigten Fall kann auf eine zusätzliche symbolische Transkription der Handbewegungen verzichtet werden, weil auf den Standbildern deutlich zu sehen ist, was genau passiert. Prinzipiell wäre diese Erweiterung aber denkbar. Als nicht erforderlich hat sich die Erfassung der berührten Tasten und Dialogflächen in einer extra Zeile erwiesen. Wenn Flächen berührt werden, ist die Berührung immer der Endpunkt einer Bewegung und kann deshalb in der Partiturzeile der jeweiligen Hand erfasst werden. Im Transkriptionsprozess ist es ohne weiteres möglich, das Transkript in einem Partitur-Editor wie ELAN nach Bedarf zu erweitern und wieder zu reduzieren. Das tabellarische standbildbasierte Transkript ist insofern die vorläufig letzte Stufe der Transkription und fungiert als Beleg in der Darstellung derAnalyse, weshalb die Auswahl auch erst nach der Identifikation von Kandidatenphänomenen erfolgt. Für die Transkription großer Datenmengen ist diese Form schon allein wegen des hohen Platzbedarfs nicht geeignet. Weil aber die Annotation bereits erstellt ist, ist der reine Aufwand für Export und Layout mit dem eines Verbaltranskripts vergleichbar. Die am schwersten zu kalkulierende Komponente ist die sorgfältige Auswahl geeigneter Standbilder. eContent_RO_f. tiff 158 Ingmar Rothe 7 Zusammenfassung und Diskussion Ganz gleich, für welche Darstellungsform(en) man sich am Ende entscheidet - die Verfahren müssen sich daran messen lassen, ob im visuellen Produkt die Gesamtheit der Handlung erkennbar ist und ob ‚ der lokale Kontext rekonstruierbar ist bzw. deutlich wird ‘ (Kap. 2, s. o.). Für Analysierende, die intensiv mit den Daten beschäftigt sind, ist das unter Umständen nicht leicht zu beurteilen, weil der in der Analyse gewonnene holistische Eindruck so stark ist, dass die visuelle Darstellung beim Betrachten automatisch um dieses Wissen ergänzt wird. Auch Transkripte für gedruckte Publikationen oder Präsentationen sollten deshalb idealerweise in Datensitzungen zur Diskussion gestellt werden. Ein möglicher Ansatz, um eine größere Transparenz der Analyse und Nachvollziehbarkeit der Visualisierung zu erreichen, ist die zusätzliche Verwendung von Videoclips oder gifs, die über QR-Codes o. ä. in Publikationen wie den vorliegenden Band eingebettet werden. Obsolet wird die Transkription dennoch nicht: „ even within a - highly desirable - editorial model of scientific articles that include clips in the analytical text, transcripts would still be needed for precise temporal and sequential analysis “ (Mondada 2018: 87). Mit den Transkriptionskonventionen nach Jefferson ( Jefferson 2004) oder GAT 2 (Selting et al. 2009) sind für Verbaltranskripte bewährte und erfolgreiche Systeme vorhanden. Sie erleichtern auch den Eingang von Transkriptionspraxis in die Hochschullehre. Nicht zuletzt dadurch werden auch Publikationen für potenzielle Leserinnen zugänglicher und für (Nachwuchs-)forschende sinkt die Einstiegsschwelle in interaktionsanalytisches Arbeiten. Für die Annotation multimedialer Daten jedoch existieren zahlreiche unterschiedliche Ansätze, aus denen ich für die vergleichende Darstellung nur vier herausgegriffen habe. Jedes dieser Verfahren erfüllt spezifische Zwecke, nicht nur für unterschiedliche Gegenstände und Forschungsfragen, sondern auch für unterschiedliche Arbeitsphasen und Phänomene. Die Frage nach der Angemessenheit eines Verfahrens muss also immer wieder neu gestellt werden - und ein Wechsel kann sich sogar innerhalb einer Untersuchung als produktiv erweisen. Eine solche Flexibilität der Konventionen erweitert die Idee der variablen Detailliertheit, die u. a. bei Goodwin (z. B. 2003), Heath et al. (2010) oder Mondada (2016 b) ebenfalls verfolgt wird. Realistischer als die Einigung auf ein einzelnes multimodales Transkriptionssystem erscheint daher die Verständigung auf einheitliche Grundregeln, die den Rahmen setzen für die Kombination verschiedener Systeme. Ähnlich flexibel wäre ein Minimal- oder Basissystem, das den spezifischen Anforderungen entsprechend angepasst werden kann. Die Transkription folgt den Daten 159 Eine Forderung, die ich in diesem Aufsatz lediglich wiedergegeben habe, ist die konsequente und von vornherein mitgedachte Trennung von Analyse, Transkript und Präsentation, wobei letztere die größten Freiheiten genießt. Insofern könnte man grundsätzlich von ‚ Transkription ‘ im Sinne einer wissenschaftlichen Praxis (Ayaß 2015) nur dann sprechen, wenn mit ihrer Hilfe analysiert wird, was zunehmend innerhalb von Softwareanwendungen passiert. Im Umkehrschluss hieße das, immer dann, wenn etwas gezeigt wird, von ‚ Präsentation ‘ (multimedialer Daten) zu sprechen. Aus forschungspraktischer Sicht fehlen nach wie vor Lösungen, die die Arbeitsschritte von der Analyse zur Präsentation multimodaler Daten verkürzen oder teilautomatisieren. Auch wenn die damit einhergehende Erleichterung Forschende nicht davon befreien würde, sich um rezeptionsfreundliche Darstellungen von Interaktionsdaten in Publikationen zu bemühen. 5 Literaturverzeichnis Ayaß, Ruth. 2015. Doing data: The status of transcripts in Conversation Analysis. Discourse Studies 17(5). 505 - 528. 0.1177/ 1461445615590717 (zuletzt aufgerufen am 13.01.2021). Birkner, Karin, Peter Auer, Angelika Bauer & Helga Kotthoff. 2020. Einführung in die Konversationsanalyse. Berlin & Boston: Walter de Gruyter. Deppermann, Arnulf. 2008. Gespräche analysieren. Wiesbaden: VS. ELAN (Version 6.0) [Computer software]. (2020). Nijmegen: Max Planck Institute for Psycholinguistics, The Language Archive. Retrieved from https: / / archive.mpi.nl/ tla/ elan. FOLKER (Version 1.2) [Computer software]. (2017). Hamburg & Mannheim: HZSK, Leibniz-Institut für Deutsche Sprache. https: / / exmaralda.org/ de/ . Garfinkel, Harold. 1967. Studies in Ethnomethodology. Englewood Cliffs & New Jersey: Prentice-Hall, Inc. Goodwin, Charles. 2003. Pointing as Situated Practice. In Kita Sotaro (ed.), Pointing, 317 - 341. New York [u. a.]: Psychology Press. Heath, Christian & Paul Luff. 2000. Technology in Action. Cambridge: Cambridge University Press. Heath, Christian, Jon Hindmarsh & Paul Luff. 2010. Video in Qualitative Reasearch. London: Sage. Jefferson, Gail. 2004. Glossary of transcript symbols with an introduction. In Gene H. Lerner (ed.), Conversation Analysis, 13 - 31. Amsterdam u. a. 5 Der Beitrag wurde gefördert durch die Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 416228727 - SFB 1410. 160 Ingmar Rothe Mondada, Lorenza. 2014. Conventions for multimodal transcription. www.unibas.ch. https: / / franz.unibas.ch/ fileadmin/ franz/ user_upload/ redaktion/ Mondada_conv_mul timodality.pdf (zuletzt aufgerufen am 18.04.2019). Mondada, Lorenza. 2016 a. Conventions for multimodal transcription. https: / / franzoe sistik.philhist.unibas.ch/ fileadmin/ user_upload/ franzoesistik/ mondada_multimodal conventions.pdf (zuletzt aufgerufen am 15.05.2019). Mondada, Lorenza. 2016 b. Zwischen Text und Bild: Multimodale Transkription. In Heiko Hausendorf, Reinhold Schmitt & Wolfgang Kesselheim (Hrsg.), Interaktionsarchitektur, Sozialtopographie und Interaktionsraum, 111 - 160. Tübingen: Narr. Mondada, Lorenza. 2018. Multiple Temporalities of Language and Body in Interaction: Challenges for Transcribing Multimodality. Research on Language and Social Interaction 51(1). Routledge. 85 - 106. 10.1080/ 08351813.2018.1413878 (zuletzt aufgerufen am 13.01.2021). Moritz, Christine (Hrsg.). 2014. Transkription von Video- und Filmdaten in der Qualitativen Sozialforschung. Wiesbaden: Springer VS. Sacks, Harvey. 1985. Notes on methodology. In J. Maxwell Atkinson & John Heritage (eds.), Structures of Social Action, 21 - 27. Cambridge University Press. 10.1017/ CBO9780 511665868.005 (zuletzt aufgerufen am 13.01.2021). Schmitt, Reinhold. 2016. Der „ Frame-Comic ” als Dokument multimodaler Interaktionsanalysen. In Heiko Hausendorf, Reinhold Schmitt & Wolfgang Kesselheim (Hrsg.), Interaktionsarchitektur, Sozialtopographie und Interaktionsraum, 189 - 224. Tübingen: Narr. Selting, Margret, Peter Auer, Dagmar Barth-Weingarten, Jörg Bergmann, Pia Bergmann, Karin Birkner, Elizabeth Couper-Kuhlen, Arnulf Deppermann, Peter Gilles, Susanne Günthner, Martin Hartung, Friederike Kern, Christine Mertzlufft, Christian Meyer, Miriam Morek, Frank Oberzaucher, Jörg Peters, Uta Quasthoff, Wilfried Schütte, Anja Stukenbrock & Susanne Uhlmann. 2009. Gesprächsanalytisches Transkriptionssystem 2 (GAT 2). Gesprächsforschung Online 10. 353 - 402. Storz, Michael, Kalja Kanellopoulos, Claudia Fraas & Maximilian Eibl. 2015. Designing with Ethnography: Tabletops and the Importance of their Physical Setup for Group Interactions in Exhibitions. i-com 14(2). 115 - 125. 10.1515/ icom-2015-0031 (zuletzt aufgerufen am 13.01.2021). Stukenbrock, Anja. 2009. Herausforderungen der multimodalen Transkription: Methodische und theoretische Überlegungen aus der wissenschaftlichen Praxis. In Anja Stukenbrock & Karin Birkner (Hrsg.), Die Arbeit mit Transkripten in Fortbildung, Lehre und Forschung, 144 - 169. Mannheim: Verlag für Gesprächsforschung. Stukenbrock, Anja & Karin Birkner (Hrsg.). 2009. Die Arbeit mit Transkripten in Fortbildung, Lehre und Forschung. Mannheim: Verlag für Gesprächsforschung. Tuma, René. 2017. Videoprofis im Alltag. Wiesbaden: Springer VS. Tuma, René, Bernt Schnettler & Hubert Knoblauch. 2013. Videographie. Wiesbaden: Springer VS. Die Transkription folgt den Daten 161 vom Lehn, Dirk. 2014. Transkription und ethnomethodologische Videoanalyse. In Christine Moritz (Hrsg.), Transkription von Video- und Filmdaten in der Qualitativen Sozialforschung, 391 - 406. Wiesbaden: Springer VS. 10.1007/ 978-3-658-00879-6_16 (zuletzt aufgerufen am 13.01.2021). vom Lehn, Dirk. 2018. Ethnomethodologische Interaktionsanalyse. Weinheim, Basel: Beltz Juventa. 162 Ingmar Rothe Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren Sandra Reitbrecht Abstract: Erklärvideos als Bildungsmedien erleben derzeit einen Höhenflug an Relevanz, was auch in der (didaktischen) Forschung entsprechendes Interesse geweckt hat. So gilt es, angemessene forschungsmethodische Zugänge zu Erklärvideos zu finden und zu erproben. Am Beispiel screencast-basierter schreibdidaktischer Modellvideos zeigt der Beitrag, wie bestehende Verfahren zur Inventarisierung und Transkription multimodaler Daten auf den „ neuen “ Untersuchungsgegenstand angewandt werden können und welchen Mehrwert hierfür gesprächsanalytische Zugänge bereithalten, wenn es um das präzise Aufzeigen räumlich-zeitlicher Koordination beim Erklären bzw. Modellieren geht. Keywords: Erklärvideos, Inventarisierung, Transkription, Multimodalität, Interaktionalität, digital mediatisierte Handlungen 1 Einleitung Erklärvideos stehen als Bildungsmedien derzeit hoch im Kurs: Eine Studie des Rats für Kulturelle Bildung (2019: 28) zeigt, dass 47 Prozent der befragten Schüler*innen YouTube für Themen, die in der Schule behandelt werden, als wichtig oder sehr wichtig erachten. Neben dieser individuellen Nutzung von YouTube-Videos für Lernzwecke integrieren auch Lehrwerksverlage vermehrt Videos in ihre Angebote für formelle Lernsituationen. Apps und Softwareprogramme ermöglichen zudem auch Lehrenden ein weitgehend unkompliziertes Erstellen von Erklärvideos (vgl. Dorgerloh & Wolf 2020). Die didaktische Forschung reagiert auf diese Entwicklung mit Forschungsvorhaben, in denen neben primär beschreibend-analytischen Zugängen (z. B. zur Systematisierung unterschiedlicher Erklärvideoformate und multimodaler Erklärpraktiken) oftmals auch eine wertende Perspektive auf die Erklärqualität und Wirksamkeit der Videos eingenommen wird (vgl. Findeisen et al. 2019). Erklärvideos als multimodale Forschungsobjekte stoßen in diesem Zusammenhang demnach auch die Diskussion um angemessene forschungsmethodische Herangehensweisen an den Untersuchungsgegenstand an. Erste Annäherungen und Vorschläge liegen bereits vor. Auffällig ist, dass sie sich hinsichtlich der Umsetzung eines Transkriptionsschrittes vor der Datenanalyse bzw. einer Darstellung ihres Vorgehens in Publikationen unterschiedlich verhalten. Der vorliegende Beitrag knüpft an diesen Ist-Stand an und präsentiert am Genre screencast-basierter schreibdidaktischer Modellvideos ein gesprächsanalytisches Vorgehen für die multimodale Inventarisierung und Transkription der Daten (Abschnitt 4). Dafür werden zunächst die hier im Zentrum stehenden schreibdidaktischen Modellvideos in ihrer Machart und ihren typischen Gestaltungsmitteln als Untersuchungsgegenstand näher beschrieben (Abschnitt 2). Abschnitt 3 widmet sich der Diskussion der hier vorgeschlagenen Verfahren für Inventarisierung und Transkription, und zwar aus zwei unterschiedlichen Blickwinkeln: Zum einen möchte ich mit Blick auf die oben angesprochenen rezenten methodischen Zugriffe auf Erklärvideos die forschungsmethodische Relevanz von Inventarisierung und Transkription der Videodaten herausarbeiten. Zum anderen beleuchtet der Abschnitt angesichts des Rückgriffs auf Verfahren der multimodalen Gesprächsbzw. Interaktionsanalyse näher, wie sich der hier fokussierte Transkriptionsgegenstand der schreibdidaktischen Modellvideos hinsichtlich der Merkmale Multimodalität und Interaktionalität verhält bzw. näher bestimmen lässt. Ein Fazit (Abschnitt 5) schließt den Beitrag ab. 2 Screencast-basierte schreibdidaktische Modellvideos als Untersuchungsgegenstand Bei den im Fokus stehenden schreibdidaktischen Modellvideos handelt es sich um ein spezifisches Genre von Erklärvideos: Lehrpersonen modellieren, d. h. sie zeigen vor und kommentieren, wie sie eine (Schreib-)Aufgabe lösen, und legen dabei im Verbalkommentar auch mentale Prozesse (z. B. handlungsleitende Entscheidungen und Begründungen oder metakognitive Regulationsmechanismen) offen, die aus der sichtbaren Handlung nicht oder nur ansatzweise erschlossen werden können. (Kognitives) Modellieren definiert sich damit als eine spezifische, vom eigenen Handeln ausgehende Form multimodalen Erklärens (Klein 2009: 29 - 30) und ist zugleich als geplante, didaktisch motivierte Lehrhandlung zu verstehen. Das heißt, dass man beim Modellieren zwar vom durch Lautes Denken begleiteten Handeln ausgeht, zugleich aber eine kommunikativ orientierte Erklärhaltung einnimmt, die sich an einer Zielgruppe und 164 Sandra Reitbrecht an konkreten Lehrzielen ausrichtet und sowohl das Laute Denken als auch die visuelle Darstellung didaktisch verdichtet (vgl. Philipp 2015: 131, Sturm & Weder 2016: 84 - 86). Modellvideos 1 ähneln damit Video-Tutorials (Wolf 2015: 123) und grenzen sich zugleich von sogenannten Performanzvideos ab, „ in denen eine beobachtbare Fertigkeit im Sinne einer Dokumentation oder einer Selbstdarstellung ohne weitere didaktische Aufarbeitung gezeigt wird “ (Wolf 2015: 123) (vgl. zu einer differenzierten genretheoretischen Bestimmung von Modellvideos: Reitbrecht 2021: 317 - 319). Als genretypische Gestaltungselemente der didaktisch intendierten und verdichteten schreibdidaktischen Modellvideos 2 konnten bisher folgende Elemente ermittelt werden (vgl. auch Reitbrecht 2021: 311 - 317), die auf visueller und/ oder verbaler Ebene (im Beitrag durchgängig verstanden als gesprochen-verbale Ebene) realisiert werden: • Strukturierende Elemente: Diese liegen außerhalb des modellierten (Textproduktions-)Prozesses und sind Produkt der didaktisch motivierten Erklärhaltung. Es handelt sich dabei z. B. um Begrüßungspraktiken, Lehrzielformulierungen ( ► eContent_RE_a; zugleich Bsp. 2 in Abschnitt 4.2.2) oder aber auch Passagen, die Lehr-Lerninhalte, z. B. Merkmale einer Textsorte oder ein Strategienbündel ( ► eContent_RE_b und ► eContent_RE_c), erklären bzw. darstellen, die für den modellierten Prozess von Relevanz sind. • (Geraffte) verbale Modellierungen (anhand von Produkten): Dabei handelt es sich um Modellierungen mit zusammenfassendem Charakter. Entweder ausschließlich verbal ohne spezifische Bezugnahme auf visueller Ebene oder anhand eines Zwischenproduktes (z. B. anhand eines erstellten Schreib- 1 Eingesetzt werden Modellvideos im Rahmen von Modelllernverfahren, bei denen die zentrale Phase der Modellbeobachtung durch weitere vorbereitende und nachbereitende didaktische Schritte gerahmt ist (vgl. u. a. Self-Regulated Strategy Development: Graham & Harris 2005; reflexives Modelllernen: Reitbrecht et al. 2019). Eine individuell-informelle Verwendung der Videos zu Lernzwecken ist aber ebenso denkbar. 2 Die Datenbeispiele in diesem Beitrag stammen aus dem AaMoL-Modellvideo 1, erstellt im Rahmen des Forschungsprojektes „ Am Modell lernen, als Modell lernen “ (im Zeitraum 04/ 2018 bis 11/ 2019 gefördert vom österreichischen Bundesministerium für Bildung, Wissenschaft und Forschung im Rahmen der Förderschiene Sparkling Science) und in seiner vollständigen Fassung auf der Projektehomepage der Universität Wien abrufbar: www.univie.ac.at/ aamol. Das Modellvideo wurde von Brigitte Schatzl entwickelt. Ihr gilt an dieser Stelle mein besonderer Dank. Ebenso danke ich sehr herzlich Nina Hansmann, Esther Schmudde und Lisa Wagner, die im Rahmen eines Seminars im Masterstudium DaF/ DaZ an der Universität Wien Modellvideos entwickelt haben und der Veröffentlichung von Screenshots aus ihren Videoprojekten zur weiteren Veranschaulichung der Gestaltungselemente zugestimmt haben ( ► eContent_RE_b und ► eContent_RE_c). eContent_RE_a. mp4 eContent_RE_b. jpg eContent_RE_c. jpg Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren 165 plans oder eines fertig verfassten Absatzes) werden die zurückliegenden Prozesse gerafft modelliert. Die Prozesshaftigkeit des (kognitiven) Modellierens kann dabei stark reduziert werden. Raffungen dieser Art sind aber angesichts der Dauer von Textproduktionsprozessen sowie der Fokussierung auf spezifische Lehrziele notwendig ( ► eContent_RE_d). • Modellierte Prozesse: In diesen Phasen der Modellvideos werden Handlungen tatsächlich sicht-/ erfahrbar und im Sinne des (kognitiven) Modellierens verbal kommentiert ( ► eContent_RE_e; zugleich Bsp. 3 in Abschnitt 4.2.3). Darüber hinaus ist das hier thematisierte Korpus von schreibdidaktischen Modellvideos durch weitere gestalterische Merkmale gekennzeichnet, die für transkriptionsbezogene Entscheidungen handlungsleitend sind: In ihrer Machart zeichnen sich die Modellvideos durch einen technisch einfachen Produktionsprozess aus. Es handelt sich in den meisten Fällen um Bildschirmaufzeichnungen mit Audiospur für den verbalen Kommentar, aber ohne Webkamera- Einspielung. Man sieht die sprechende Person zumeist also nicht im Video. (Schreib-)Handlungen wie in den oben genannten modellierten Prozessen werden ebenso zumeist ausschließlich in ihrer digital mediatisierten Form beobachtbar. Hinsichtlich des multimodalen Charakters der Videos ist des Weiteren festzuhalten, dass aufgrund des schreibdidaktischen Inhalts zumeist Präsentations-, Textverarbeitungs- oder Readerprogramme zum Einsatz kommen. Aufwändige Animationen sowie Musik-/ Geräuscheinspielungen finden nur spärlich Verwendung. Dadurch ist die visuelle Ebene im Vergleich zu anderen Videoformaten oftmals über längere Passagen hinweg statisch. Geräusche und Musik als weitere Modalitäten sind bis auf hörbare Tipp-/ Klickgeräusche kaum von Relevanz. Ziel der Auseinandersetzung mit der soeben skizzierten Datensammlung ist es, beschreibend-analytisch (sowie auch vergleichend-bewertend 3 anhand von zu Beginn sowie am Ende einer Lehrveranstaltung erstellten Modellvideos) strukturelle Aspekte von Modellvideos sowie Praktiken des Modellierens in ihrem multimodalen Charakter und ihrer Koordination zu erschließen. Deshalb muss das Transkriptionsverfahren grundsätzlich dem multimodalen Charakter der Daten unter Berücksichtigung paraverbaler Merkmale gerecht werden, zudem „ die simultane und sequenzielle Koordination verschiedener multimodaler Ressourcen “ (Deppermann 2018: 57) präzise repräsentieren. 3 Vgl. zu Bewertungen sprachlichen Handelns, die über das rekonstruktive Analyseverständnis der Gesprächsforschung hinausgehen, die aktuelle Diskussion bei Brünner & Pick (2020). eContent_RE_d. mp4 eContent_RE_e. mp4 166 Sandra Reitbrecht 3 Transkriptions- und analysemethodische Zugänge zu Erklärvideos Betrachtet man vor diesem Hintergrund aktuelle forschungsmethodische Zugänge zu Erklärvideos, so unterscheiden sich diese durchaus in ihrem Umgang mit Transkription sowie hinsichtlich ihrer Passung mit den soeben genannten Anforderungen. Zeigen möchte ich diese Unterschiedlichkeit an drei Verfahren, die als Bezugspunkte - gemeinsam mit dem hier präsentierten gesprächsanalytischen Zugang - einen Raum forschungsmethodischer Handlungsmöglichkeiten für die Auseinandersetzung mit Erklärvideos aufspannen. Wolf & Kratzer (2015) arbeiten beispielsweise in einem mediendidaktischen Kontext mit einem Analyseraster, das direkt in der (wiederholten) Videobeobachtung angewendet wird. Ein Transkriptionsschritt ist dabei nicht vorgesehen. Neben Kontextinformationen (z. B. Sprache, Dauer des Videos) sowie Filmgestaltungsmerkmalen (z. B. Kameraperspektive) umfasst der Analysebogen als dritten Teil ein differenziertes Kategoriensystem zur Erfassung der didaktischen Gestaltung von Erklärvideos. Damit verkörpert er ein standardisiertes, empirisch erprobtes und vergleichsweise zeitökonomisches Instrument zur Beurteilung des Vorhandenseins sowie der qualitativen Ausprägung struktureller Elemente und bestimmter Merkmale von Erklärvideos (Wolf & Kratzer 2015: 34 - 36). Berücksichtigung finden dabei unter anderem die Modalitäten der Videos, z. B. in den genannten Erklärmitteln (Bilder, Sprache, Videos, anwesende Person, Schrift) oder in weiteren Kategorien wie Soundeffekten oder flüssiger Sprache, zudem ihre strukturellen Elemente (Intro, Begrüßung, Zielformulierung am Anfang der Erklärung, u. a.). Ebenso wird die Kommunikation mit dem Publikum durch eine Analyse anhand mehrerer Kategorien (direkte Ansprache einer Person, direkte Ansprache einer Gruppe, Interaktion) im Analyseinstrument berücksichtigt (Wolf & Kratzer 2015: 36). Zugleich werden aber auch Grenzen des Zugangs erkennbar, da in der Analyse durch die Kategorienorientierung im Raster das Erklärvideo in seinen Merkmalen und Modalitäten vor allem analytisch dekomponiert wird, darüber hinaus aber kaum Aussagen über das räumlich-zeitliche Zusammenwirken der einzelnen Elemente und Merkmale erschließbar werden (z. B. im Sinne einer modalitätsübergreifenden Kohärenz; vgl. Lobin 2013: 68 - 71; siehe vergleichbar das oben angeführte Zitat von Deppermann 2018: 57). Damit bleibt auch die Sequenzialität der einzelnen multimodalen Praktiken weitestgehend unerschlossen. Ansatzweise erkennbar wird die Dimension der Zeit nur in wenigen Analysekategorien des Rasters, so z. B. in der oben genannten Kategorie „ Zielformulierung am Anfang der Erklärung “ oder auch bei „ [r]egelmäßige Zusammenfassungen “ und „ Erklärung Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren 167 induktiv, vom Beispiel zur allgemeinen Regel “ (Wolf & Kratzer 2015: 36; Kursivierungen S. R.). Ebel (2021) wählt aus einer sprechwissenschaftlich-phonetischen Perspektive auf die Verständlichkeit von Erklärvideos ein Verfahren, das eine Transkription der verbalen Ebene nach GAT 2 (Selting et al. 2009) sowie Segmentierungen in PRAAT zur Aufbereitung der Daten für messphonetische Zugriffe (z. B. zur Ermittlung der Artikulationsrate) umfasst. Damit wird ein viel präziserer bzw. feinkörnigerer Blick auf verbale Erklärpraktiken in ihrer Sequenzialität und ihrer paraverbalen Qualität und Gestaltung möglich. Die visuelle Ebene wird in die Darstellung der Analyseergebnisse ebenfalls durch Screenshots und Beschreibungen mehrfach einbezogen, genaueren Einblick in die Berücksichtigung der visuellen Ebene bei der Datenaufbereitung und -transkription gibt der Beitrag aber nicht. 4 Schöne & Wedler (2021) wählen einen textanalytischen Zugang und verstehen ein Erklärvideo als multimodalen Text, der neben weiteren Modalitäten „ mindestens ein sprachliches Zeichen enthält (welches meistens durch gesprochene Sprache realisiert wird) “ (Schöne & Wedler 2021: 280). In ihrer beispielhaften multimodalen Textanalyse eines Erklärvideos ziehen sie die von Stöckl (2016: 22 - 25) vorgeschlagenen Kategorien heran (Gliederung/ Abgrenzung, Handlungsstruktur, Themenstruktur, multimodale Verknüpfung und Intertextualität) und erweitern diese um die Kategorie des situativen Kontexts (Schöne & Wedler 2021: 281 - 287). Damit berücksichtigen die Kategorien des textanalytischen Zugriffs stärker als das oben gezeigte Analyseinstrument von Wolf & Kratzer (2015) die Dimension der Zeit bzw. die zeitliche Strukturierung und Sequenzialität bezogen auf Themen und Handlungen. Die Kategorie der multimodalen Verknüpfung greift zudem das Zusammenwirken der einzelnen Modalitäten im Erklärvideo auf. Hinsichtlich der Datenaufbereitung bzw. eines etwaigen Transkriptionsschrittes geben Schöne & Wedler (2021) in ihrem Beitrag allerdings keine Auskunft. Relevanz und Funktion von Transkription werden im Kontext der multimodalen Textanalyse aber sehr wohl diskutiert (so z. B. auch bei Schöne 2018). Für Schneider & Stöckl (2011: v. a. 28 - 33) beispielsweise stellt ein Vorgehen ohne Transkription in der textanalytischen Auseinandersetzung mit multimodalen Texten wie Werbespots keine forschungsmethodische Handlungsoption dar: „ Will man multimodale Texte - wie in 4 Vgl. diesbezüglich auch Stukenbrock (2009: 148): „ Die Integration von aussagekräftigen Standbildern der analysierten Videoausschnitte in den Transkript-Text, die eine holistische Repräsentation des kommunikativen Ereignisses leistet, wird in verschiedenen Publikationen erfolgreich praktiziert, allerdings ohne dass die Kriterien der Standbildgewinnung formuliert würden, so dass der Naivitätsverdacht hinsichtlich des repräsentationalen Status von Standbildern nahe liegt. “ 168 Sandra Reitbrecht unserem Fall einen TV-Werbespot - unter verschiedenen Gesichtspunkten untersuchen, so muss man sie zunächst transkribieren. “ (Schneider & Stöckl 2011: 28; Kursivierung S. R.). Die Umsetzung der Transkription erfolgt in tabellarischer Form, wobei Spalten für die Kategorien Zeit (kumuliert in Sekunden), Kamera (Beschreibung der Kameraperspektive sowie auch zentraler Handlungen im Video), Einstellung (Abbildung eines Screenshots), Sprachtext (Transkription der verbalen Ebene unter Berücksichtigung von Überlappungen) und Ton (Beschreibung von Geräuschen und Musik) vorgesehen sind (vgl. Schneider & Stöckl 2011: 39 - 44). 5 Stertkamp & Schüler (2014) wenden eine vergleichbare tabellarische Darstellung auch auf screencast-basierte Daten aus zwei unterschiedlichen Forschungsprojekten an. In einem der beiden Projekte geht es um die multimodale Interaktion (Videochat, Interagieren in einem Videospiel mittels Avataren und Videotelefonie) von Personen in einem Online- Rollenspiel, die füreinander nicht (oder nur in Form ihrer Avatare) sichtbar sind (vgl. Machart der Modellvideos zumeist ohne Webcam-Video in meiner Datensammlung). Die verbale Interaktion wird dabei mit GAT 2 transkribiert, zudem werden unterschiedliche, teils auch nicht-konventionalisierte Verfahren (z. B. Rahmungen) für das Darstellen von Überlappungen bzw. Simultanität (auch zwischen Videochatnachrichten und Interaktionen via Videotelefonie) in der Tabelle angewandt (vgl. Stertkamp & Schüler 2014: 341 - 352), womit das Verfahren in Summe den am Ende von Abschnitt 2 genannten Anforderungen in vielen Punkten am nächsten kommt. Der im Folgenden gezeigte gesprächsanalytische Zugang für die multimodale Aufbereitung und Transkription von Modellvideos knüpft hier an und stellt einen weiteren methodischen Zugriff auf Erklärvideos dar, erfüllt dabei die in Abschnitt 2 genannten Anforderungen und zieht gezielt standardisierte und erprobte Verfahren heran: Es sind dies das Gesprächsinventar (Deppermann 2008: 32 - 35), das Gesprächsanalytische Transkriptionssystem 2 (GAT 2; Selting et al. 2009) sowie die Conventions for multimodal transcription (Mondada 2019). Sie erlauben den mit den Konventionen vertrauten Leser*innen einen Nachvollzug der Daten ohne großen Aufwand. Zudem kann durch Verweise auf die entsprechenden Verfahren auch in Publikationen geringeren Umfangs Transparenz gewährleistet werden, da nur mehr etwaige Erweiterungen oder Spezifizierungen der Konventionen ergänzend dargestellt werden müssen. Die folgenden Ausführungen verdeutlichen, dass diese Erweiterungen und Spezi- 5 Vgl. in diesem Zusammenhang auch das Verfahren der Feldpartitur zur Filmtranskription in der Qualitativen Sozialforschung (Moritz 2011), das allerdings für die Aufbereitung und Transkription von Videodaten vordefinierte und damit immer gleich lange Zeiteinheiten (ab einer Dauer von 0,4 Sekunden) vorsieht. Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren 169 fizierungen in Summe gering ausfallen (vgl. auch die Anwendung von GAT 2 durch multimodale Erweiterungen auf einen Werbespot bei Meer & Pick 2019: 90 - 100). GAT 2 berücksichtigt zudem die paraverbalen Charakteristika des Sprechens für die hier verfolgten Erkenntnisinteressen angemessen und bietet dahingehend mit Minimal-, Basis- und Feintranskript auch unterschiedliche Ausbaustufen an. Mit dem vorgeschalteten Erstellen von Gesprächsinventaren zu den Videos können bereits wichtige analytische Zugriffe auf makrostrukturelle Organisation und die multimodale Qualität der Datensätze erfolgen. Auch erlaubt dieser Zwischenschritt im Sinne der Zeitökonomie eine Vorsortierung und Auswahl von Videopassagen, die je nach Forschungsfrage/ interesse tatsächlich einer Transkription zugeführt werden. Mondadas Konventionen für die multimodale Transkription (2019) ermöglichen des Weiteren zur Verlaufsdarstellung von Aktivitäten einen Präzisions- und Granularitätsgrad in der Repräsentation multimodaler Koordinationen im Transkript (vgl. Deppermann 2018: 57), der für die Darstellung der kommentierten mediatisierten Handlungen in den Modellvideos eine Bereicherung darstellt (vgl. v. a. das Beispiel Cursorbewegungen in Abschnitt 4.2.2) und dabei den oben vorgestellten forschungsmethodischen Zugriffen überlegen ist. Damit sind die Gründe für die Wahl der genannten Transkriptionsverfahren offengelegt, sie können mit Blick auf den Untersuchungsgegenstand der Modellvideos als gegenstandsangemessen qualifiziert werden. Nicht geklärt ist allerdings die Frage, wie sich der Untersuchungsgegenstand hinsichtlich der in der multimodalen Gesprächsbzw. Interaktionsanalyse relevanten Merkmale Multimodalität und Interaktionalität verhält, ob also aus Perspektive der gewählten Verfahren grundsätzlich ebenfalls eine Passung erkennbar ist, worauf ich an dieser Stelle abschließend eingehen möchte. Hinsichtlich des Multimodalitätsbegriffs ist in der multimodalen Gesprächsbzw. Interaktionsanalyse oftmals eine Engführung auf nonverbales Verhalten (als Ergänzung zum verbalen) erkennbar. Dies scheint auch durch die zentralen Forschungsinteressen an Interaktionen bei Ko-Präsenz der beteiligten Personen sowie aus einer historischen Perspektive durch das erst nach und nach vermehrte Arbeiten mit Videographie statt ausschließlich Audiographie zur Datengewinnung bedingt zu sein. Grundsätzlich nämlich finden sich in der einschlägigen Fachliteratur durchaus auch Ausführungen, die auf offene Begriffskonzepte hindeuten, wenn beispielsweise laut Birkner, Auer, Bauer & Kotthoff aus konversationsanalytischer Perspektive in multimodalen Transkripten neben dem Gesprochenen auch „ andere körperliche bzw. visuelle Ausdrucksressourcen notiert werden “ (2020: 24). Visuelle Ausdrucksressourcen können dabei meines Erachtens auch auf die Gestaltungsmöglichkeiten bei der Videoproduktion sowie auf die digital mediatisierten Handlungen, bei denen die 170 Sandra Reitbrecht Personen in ihrem Handeln für das Gegenüber nur mehr eingeschränkt und mittelbar durch das Medium des Modellvideos erfahrbar werden, bezogen werden. Rückendeckung erhält ein offenes Verständnis von Multimodalität in gewisser Weise auch von Imo & Lanwer (2019: 246 - 248). Sie unterscheiden Multimodalität im engeren Sinne von Multimodalität im weiteren Sinne: Die Interaktionale Linguistik folge dabei zwar einem engen Begriffsverständnis, in dem Multimodalität „ das Zusammenspiel von gesprochener Sprache und visuell-körperlichen Ausdrucksmitteln wie Gestik, Mimik usw. “ meint (Imo & Lanwer 2019: 248). Angesichts immer präsenter werdender medial-vermittelter Interaktionen scheint aber ergänzend ein erweiterter Multimodalitätsbegriff zielführend, der z. B. auch das Zusammenwirken von gesprochenen und geschriebenen Sprachnachrichten sowie übermittelten Bildern in der WhatsApp-Kommunikation einschließt (Imo & Lanwer 2019: 248) und damit auch für die Modellvideos Gültigkeit hat. Deppermann (2018: 58) geht aus einem anderen Blickwinkel an die Begriffsfrage heran und erachtet den Begriff „ Multimodalität “ an sich als unzureichend spezifisch, wenn es konkret um die „ [m] ultimodale Interaktion unter Anwesenden “ geht. Diese sei vorrangig durch „ Leiblichkeit “ gekennzeichnet. „‚ Multimodalität ‘ hebt dagegen hervor, dass leibliches Handeln Ressourcen verschiedener Modalität benutzt “ (Deppermann 2018: 58), womit im Umkehrschluss der Multimodalitätsbegriff ebenfalls offen für andere als ausschließlich leibliche (oder in ihrer Leiblichkeit unmittelbar wahrnehmbare) multimodale Ressourcen ist. Die Frage, ob in den Modellvideos darüber hinaus auch das Merkmal der Interaktionalität gegeben ist, hat vermutlich ebenso Potenzial für eine wissenschaftliche Kontroverse. Auch hierzu finden sich aber Positionen in der Fachliteratur, die für ein offenes, erweitertes Begriffsverständnis plädieren und damit auch bei der hier gezeigten Kommunikation via Modellvideos von Interaktionalität sprechen. Konkret tut dies z. B. Schmidt (2018: 29), indem er Interaktion auch dann als gegeben erachtet, wenn wie beispielsweise in Fernsehsendungen „ eine Antwort (in welcher Form auch immer) ‚ gesucht ‘ wird, was sich wiederum im Produkt einschreibt “ , und „ ein dreizügiger Austausch (Angebot/ Annahme/ Weitersenden) in formaler und vermittelter Form zustande kommt “ (Schmidt 2018: 29). Für die Modellvideos, die sich durch einen hohen Grad didaktischer Intentionalität auszeichnen (vgl. Abschnitt 2), werden diese Kriterien mit Blick auf ihren Einsatz in Lehr-Lern-Situationen erfüllt: So können z. B. Schüler*innen das Video zum Lernen nutzen und Lehrpersonen in weiterer Folge zu diesem Lernprozess Feedback geben. Ins Produkt eingeschrieben wird dies, wenn z. B. die Lehrperson den Schüler*innen im Video abschließend alles Gute beim Lösen einer vergleichbaren Schreibaufgabe wünscht. Ebenso können Lernende nach der Rezeption des Videos im Unterrichtsgeschehen Fragen an die Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren 171 Lehrperson richten, welche diese wiederum beantwortet. Darüber hinaus können die Videos aber auch Spuren explizit antizipierter Dreizügigkeit beinhalten, wenn die Lehrperson die Beantwortung potenzieller Schüler*innenfragen im Sinne kompetenten Lehrendenhandelns bereits im Video einlöst (fiktives Beispiel: „ Ihr fragt euch nun vielleicht, warum ich mich für diese Vorgehensweise entschieden habe. Nun, das lässt sich ganz einfach beantworten: Ich kann damit beim Schreiben viel schneller vorgehen, muss nicht noch einmal alle Informationen in den Quellen recherchieren. “ ). 4 Gesprächsanalytisches Vorgehen für Dateninventarisierung und -transkription 6 4.1 Schreibdidaktische Modellvideos inventarisieren Gesprächsinventare dienen dem schnellen Überblick sowie einer ersten Gliederung von Gesprächen und stellen eine Grundlage für weitere forschungsmethodische Entscheidungen (z. B. die Auswahl zu transkribierender Passagen) dar (vgl. Deppermann 2008: 32). Sie umfassen ein Deckblatt ( ► eContent_RE_f, S. 1), welches im Fall der schreibdidaktischen Modellvideos auch den im Video produzierten Text beinhaltet, sowie ein tabellarisch gestaltetes Formblatt. Abb. 1 zeigt in diesem Zusammenhang die von Deppermann (2008: 34) vorgeschlagenen Kategorien der Tabelle, Abb. 2 die adaptierte Form für die hier fokussierte Datensammlung screencast-basierter schreibdidaktischer Modellvideos. Ergänzend kann das in den Kernkategorien vollständige Gesprächsinventar ( ► eContent_RE_f ) digital abgerufen werden. Zeit Transk Sprecher*in Inhalt-Handlung Memo Forschungsfrage Beginnzeit des Abschnitts laut Aufnahme Anm., ob Transkript existiert; Angabe v. Seite bzw. Zeilen Siglen der am Gespräch teilnehmenden Personen wesentliche Gesprächsthemen und -phasen in einfacher, stichwortartiger Beschreibung Auffälligkeiten verschiedenster Art (z. B. non-verbale Phänomene; Kommen u. Gehen von Personen) Überlegungen zu Forschungsfragen: zumeist erst bei der Materialbearbeitung befüllt Tab. 1: Kategorien eines Gesprächsinventars nach Deppermann (2008: 32 - 35); Erläuterungen auf Basis der Quelle von der Autorin ergänzt 6 Sowohl für die Segmentierung und Annotationen im Gesprächsinventar, die Erstellung der Screenshots als auch die Transkription wurde die Software ELAN verwendet. Die Daten wurden nach dem Export entsprechend weiterverarbeitet. eContent_RE_f. pdf eContent_RE_f. pdf 172 Sandra Reitbrecht Tr Zeit Inhalt-Handlung Zeit Visuelle Ebene Aufbereitung Bild Merkmale Forschungsfrage 00: 00 Begrüßung und Kontextualisierung 00: 00 Begrüßungsfolie stat, klic 00: 26 Ankündigung der Lehr- Lernziele 00: 34 Folie zu Lehr- Lernzielen v2a (00: 34) v2b (00: 41) v2c (00: 42) v2d (00: 56) v2e (01: 03) takt, klic 00: 43 Erläuterung des 1. Ziels: Auswahl der Informationen aus den Materialien Tab. 2: Kategorien des adaptierten Gesprächsinventars für Modellvideos Die Kategorien „ Transkript “ (Transk bzw. Tr) und „ Forschungsfrage “ erfüllen auch im adaptierten Inventar die bei Deppermann (2008) genannten Funktionen. Ebenso gilt dies für die Spalte „ Inhalt-Handlung “ und die links davon angeführte Zeitspalte. Die Kategorie Sprecher*in entfällt aufgrund des monologischen Charakters der Modellvideos, die entsprechende Information kann dem Deckblatt entnommen werden. Erweiterungen bzw. Spezifikationen erfolgen mit Blick auf den spezifischen multimodalen Charakter der Modellvideos wie folgt: Neben einer Zeitspalte, die der (verbalen) Handlungslogik des Modellvideos folgt, wird eine zweite Zeitspalte ergänzt, die sich an der Abfolge der visuellen Elemente orientiert. In der Spalte rechts davon werden die einzelnen visuellen Elemente knapp beschreibend genannt. Eine neue Zeile wird immer dann gesetzt, wenn im Video ein Dokumentenwechsel bzw. Schnitt erfolgt. Versetzte Zeilen zeigen Abweichungen in der Taktung der verbalen und visuellen Gestaltungsebene an. Die Spalte „ Aufbereitung Bild “ erlaubt vergleichbar der Spalte „ Transkript “ Verweise auf Screenshots zur Aufbereitung der visuellen Gestaltungsebene der Videos. Mittels Hyperlinks können die Dateien ebenso wieTranskripte direkt im Gesprächsinventar hinterlegt werden. Auch ein Einfügen der Screenshots in die Datei als Bilder ist denkbar (vgl. dazu z. B. das Vorgehen bei Schneider & Stöckl 2011: 39 - 44). Im Gesprächsinventar zum AaMol-Modellvideo 1 ( ► eContent_RE_f ) ist diese Spalte beispielhaft für jene drei Videoabschnitte ausgefüllt, die auch im Abschnitt 4.2 hinsichtlich ihrer Transkription näher vorgestellt werden. Das Basisprinzip ist dabei ein Minimum von einem Screenshot unmittelbar nach Beginn des Abschnitts. Weitere Screenshots werden je nach Gestaltung der visuellen Ebene (z. B. getaktete Präsentation, Cursorbewegungen, Schreibprozesse) ergänzt. Die Zeitmarken dieser weiteren Bildaufnahmen eContent_RE_f. pdf Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren 173 stimmen mit den Zeitpunkten entsprechender Ereignisse/ Veränderungen überein und sind bereits auf die Datentranskription abgestimmt (s. Abschnitt 4.2). Die Spalte „ Memo “ im Gesprächsinventar nach Deppermann (2008) wird in eine Spalte „ Merkmale “ umbenannt. Damit wird in Abgrenzung zum Memo- Begriff explizit gemacht, dass in dieser Spalte bereits Ergebnisse aus der analytischen Auseinandersetzung mit dem Videomaterial festgehalten werden, und zwar solche, die sich auf die in den einzelnen Abschnitten erkennbaren (genrespezifischen) Gestaltungselemente beziehen. Dafür empfiehlt sich die Entwicklung eines Kodesystems für gängige multimodale Gestaltungsformen der screencast-basierten Modellvideos. Zur Veranschaulichung eines solchen zum aktuellen Zeitpunkt noch unvollständigen Kodesystems wurde die entsprechende Spalte ebenfalls für die drei in Abschnitt 4.2 ausgewählten Auszüge befüllt. 4.2 Schreibdidaktische Modellvideos transkribieren Die Transkripte zu den Modellvideos umfassen bis zu vier Zeilen. 7 Neben der verbalen Ebene (transkribiert als Basistranskript nach GAT 2; Selting et al. 2009) berücksichtigen die weiteren Zeilen die visuelle Gestaltung des Videos (orientiert an Mondada 2019). Die v-Zeile steht dabei für den „ Videohintergrund “ . Die beiden weiteren Zeilen bilden auf dem Bildschirm sichtbare Bewegungen (z. B. Cursorbewegungen) und Prozesse (z. B. Schreibprozesse) ab. Klick-/ Tippaktivitäten, die durch den Mediatisierungsprozess ausschließlich zu einem Wechsel des Videohintergrunds (z. B. Folienwechsel bei getakteter Präsentation wie in Bsp. 1 unten) führen, können durch die v-Zeile erfasst werden und werden daher im Sinne der Ökonomie kein zweites Mal abgebildet. Ebenso gibt die v-Zeile das Einsetzen eines neuen Videohintergrunds bereits im präzisen zeitlichen Abgleich mit der verbalen Ebene an, sodass auch von einer eigenen Zeile für Screenshots (vgl. Mondada 2019) abgesehen wird. Die folgenden Beispiele 8 verdeutlichen das Transkriptionsverfahren anhand von drei häufig vorkommenden multimodalen Praktiken in den Modellvideos. 4.2.1 Getaktete Präsentation Beispiel 1 ( ► eContent_RE_a) zeigt die oben bereits erwähnte getaktete Präsentation, bei der auf einer Präsentationsfolie weitere Elemente ergänzt werden. 7 Weitere Zeilen für eingespielte Geräusche/ Musik sind ebenfalls möglich, werden hier aufgrund ihres geringen Vorkommens im Korpus nicht näher erläutert. Verweise auf hörbare Tipp-/ Klickgeräusche erfolgen in der Merkmalspalte des Gesprächsinventars. 8 Die Beispiele verfolgen das Ziel, das Transkriptionsverfahren zu veranschaulichen. Dass die Auszüge in ihrem Anfang und Ende dabei nur teilweise der Strukturierung im Gesprächsinventar folgen, ist diesem Punkt geschuldet. eContent_RE_a. mp4 174 Sandra Reitbrecht Das Transkript umfasst zur Darstellung dieses Prinzips zwei Zeilen: neben der Zeile für das Verbaltranskript auch die v-Zeile. Bsp. 1: getaktete Präsentation, aus: AaMoL-Modellvideo 1, BS, 00: 34 - 00: 55 01 BS *(--) und ZWA: R (---) äm: : beziehen w_äm: ; v *v2a---> v2a (00: 34) 02 BS und zwar berücksichtigen WIR besonders DR*EI aspekte, (-)*°hh (-) v ->*v2b----------->*v2c---> v2b (00: 41) v2c (00: 42) 03 BS der erste W Äre die auswahl der passenden informaTIOnen aus den SEHR umfangreichen mateRIAlien, °hh 04 BS das HEISST- 05 BS die erGEBnisse °hh äm: der studien und die meTHOdik der studien; v ----------------------->> Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren 175 Die ab 00: 34 transkribierte Sequenz setzt mit einem Wechsel auf visueller Ebene ein (vgl. Gesprächsinventar: Visuelle Ebene). Zwei Erweiterungen erfolgen durch die getaktete Präsentation auf der gezeigten Folie, die durch die Screenshots v2b uns v2c veranschaulicht werden. Die mit * markierten Stellen zeigen den konkreten Moment der Veränderung an. In den Zeilen 03 und 04 wird die v- Zeile aufgrund des kontinuierlichen Fortlaufens von v2c nicht gesondert angezeigt, erst wieder am Ende des Transkriptauszugs (Zeile 05), wobei der doppelte Pfeil am Ende der v-Zeile signalisiert, dass das Bildelement v2c auch noch über den Transkriptauszug hinaus die visuelle Ebene des Modellvideos ausmacht (vgl. Mondada 2019). Bei Präsentationen mit animiertem Wechsel (z. B. Einfliegen neuer Elemente) könnte für diese jeweils kurze animierte Phase die bei Mondada (2019) vorgesehene Konvention für die vorbereitende Phase von Handlungen herangezogen werden (z. B. *v2a --- >*. . . . . .*v2b --- >). Zeile 02 verdeutlicht dabei das Potenzial des gewählten Verfahrens für den präzisen Nachvollzug der „ simultane[n] und sequenzielle[n] Koordination verschiedener multimodaler Ressourcen “ (Deppermann 2018: 57). Das Transkript lässt dank der berücksichtigten paraverbalen Parameter in der Verbaltranskriptzeile sowie der ebenfalls abgebildeten v-Zeile schnell erkennen, dass die Wechsel des Bildhintergrunds als mediatisierte Aktivitäten intrapersonal koordiniert mit einer Akzentuierung bzw. in einer Pause erfolgen. Im weiteren Abgleich mit den abgebildeten Screenshots werden weitere Aspekte des multimodalen Zusammenwirkens erkennbar: So folgt die Lehrperson in Zeile 02 dem Wortlaut der Präsentationsfolie. In Zeile 03 bis 05 zeigen sich hingegen auch Abweichungen. Im gesprochenen Kommentar wird das Adverb SEHR ergänzt und dabei auch betont realisiert. Die Ausführungen in Zeile 04 und 05 erläutern bzw. konkretisieren den Text auf der Folie. 4.2.2 Cursorbewegungen Bespiel 2 widmet sich Cursorbewegungen (mit deiktischer Funktion) auf einem statischen, unveränderten Hintergrund ( ► eContent_RE_g). Um diese beiden Qualitäten, also den statischen Hintergrund zum einen und die Cursorbewegung zum anderen, zu berücksichtigen, umfasst das Transkript bis zu drei Zeilen. Es setzt einige Sekunden nach dem Beginn der Erläuterungen zur Schreibaufgabe ein. eContent_RE_g. mp4 176 Sandra Reitbrecht Bsp. 2: Cursorbewegungen, aus: AaMoL-Modellvideo 1, BS, 01: 36 - 02: 02 v3a (01: 20) 01 BS durch die +HÄKchen,+ (1.3) bs +Cursor geht über rechtes zum linken Häkchen+Cursor zeichnet beide Häkchen nach---> v >>v3a--------------------> 02 BS äm: : °hh+ stellt man LEICHT fest; bs ------->+Cursor kreist über Arbeitsauftrag 1 und 2---> 03 BS was bereits DA ist-+ bs ------------------>+ 04 BS +un: d welche +DREI: - (--) bs +............+Cursor unterstreicht Vergleicht, Macht und Beantwortet---> 05 BS äm a+rbeitsaufträge noch zu erF+ÜLlen sind, (1.5)+°hh bs --->+..........................+Cursor geht nach rechts oben, dann nach rechts unten in den schwarzen Rand"---> 06 BS diese darstellung gibt auch schon eine- °h+ bs "+ 07 BS äm: ein sehr gutes beispiel AB- °h 08 BS wie g: anz generell SCHREIB (.) planung aussehen (-) KÖNNte; (--) 09 BS oder KANN. °hhh (1.5) v ------------------->> Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren 177 Die in Zeile 01 und 09 ausgewiesene v-Zeile zeigt an, dass v3a als Hintergrund statisch bleibt, bereits vor 01: 36 (>>; Mondada 2019) beginnt und erst nach 02: 02 ( --- >>; Mondada 2019) endet. Die Cursorbewegungen werden in der bs-Zeile beschrieben. Die Transkriptionszeichen für vorbereitende Schritte einer Handlung ( … ; Mondada 2019) werden dabei für die Passagen verwendet, in denen keine klare Gerichtetheit bzw. explizite deiktische Funktion der Bewegungen erkennbar ist. Die Zeichen für nachbereitende Schritte "; Mondada 2019) werden für jene Phase ab Zeile 05 genutzt, in welcher der Cursor noch im rechten schwarzen Streifen in Form eines Pfeils sichtbar ist, aber nicht mehr aktiv bewegt/ gelenkt wird. Der im Gesprächsinventar vermerkte zweite Screenshot ( ► eContent_RE_h) ist einem Zeitpunkt entnommen, in dem der Cursor sichtbar ist. Er ist für das Nachvollziehen der Cursorbewegung in zeitlicher Abstimmung mit dem Verbaltranskript nicht weiter relevant, erlaubt aber ein Verständnis der formalen Gestaltung des Cursors (Pfeil), was für einzelne folgende Analyseschritte ebenfalls von Relevanz sein kann. 4.2.3 Produktionsprozess: Auszug eines modellierten Schreibprozesses Beispiel 3 zeigt einen modellierten Schreibprozess ( ► eContent_RE_e). Das Transkript umfasst bis zu vier Zeilen (siehe Zeile 06). eContent_RE_h. jpg eContent_RE_e. mp4 178 Sandra Reitbrecht Bsp. 3: Produktionsprozess, aus: AaMoL-Modellvideo 1, BS, 09: 06 - 10: 07 v12a (09: 06) 01 BS *(0.6)+(1.6)+und NU: N: -+ (--) bs +Cursor klickt in Zeile+geht rechts in grauen Rand"---> v *v12a-----------------------> 02 BS äm: (--) schreib ich also den zweiten ABsatz, (1.8) 03 BS in dem es um die ECKdaten der d °hh äh der DREI studien GEHT, 04 BS diese eckdaten werden nun verGLICHen- 05 BS und einander gegenÜbergestellt. 06 BS (1.1)+*% (1.9) % (1.3) % (0.6) % bs ---->+ bs %BEtrachtet% (1.3) %°[E]{e}man% v ----->* 07 BS %beTRACH%Tet man nu: n- (--) bs % (-)%°nun°die°drei----> 08 BS die%drei: : (0.4)%(1.4) STUdien; (---) bs -->% (---) %°STudien°[T]{t} hinsichtlich-> 09 BS hinsich%tlich% (--) ihrer ECK (--) % DAten- (0.5)%(0.7) bs ---->% (--) %°ihrer° Eck (-) daten% (1.1) %,°so°ergeben--> 10 BS so er%GEben (0.1)%(0.6) sich auch DAbei; (0.6)%(0.9)% (2.4) %(0.6)% bs ---->% (--) % °sich°auch°dba[ab]abei %(0.9)%°Untersc (-) hiede%(0.6)% 11 BS %UN%terschiede in den d%rei: %(0.7)%(0.6) %STÄ%dten; (0.6)%(0.8)%*(0.3) °h bs %(-)% °in°den°drei % (-)%°Städ%(0.6) %ten% (1.2) % .° % v *v12b---> Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren 179 v12b (09: 52) 12 BS ich habe mich für diesen EINstieg inem absatz (-)entschieden-= 13 BS =oder mir diesen EINstieg in den absatz überLE: GT, °hh 14 BS um (-) die leserin den leser auf den absatz EINzustimmen; 15 BS und auch: (-) etwas auf den INhalt VORzubereiten. (1.6)* v ------------------>* Mehrere Verfahren sind bereits aus Beispiel 2 bekannt, so die Darstellung der Cursorbewegungen und die Umsetzung der v-Zeile. Unterbrochen wird die v- Notation hier allerdings für den Zeitraum des Schreibprozesses (Zeile 06 bis 11), da das Hintergrunddokument in dieser Phase einer permanenten Veränderung unterworfen ist. Erst in Zeile 11, als der Prozess mit dem Satzende stoppt und die Schreiberin in weiterer Folge die Funktion des Satzes erläutert, bleibt der Hintergrund v12b bis Zeile 15 unverändert, bevor die Produktion eines weiteren Satzes beginnt (im Ausschnitt nicht mehr ersichtlich). Ein vergleichbares Unterbrechen der Notation auf der v-Zeile bietet sich beispielsweise auch bei Scrollbewegungen an. Für die Umsetzung des Schreibprozesses müssen einzelne Sonderzeichen und Konventionen ergänzt werden: 9 Im gezeigten Transkript erfolgt der Abgleich zwischen Schreibprozess und verbaler Kommentierung nach Pausen und weitgehend flüssig-zusammenhängenden Tippphasen. Die Pausennotation entspricht den Prinzipien für die Zeile des Verbaltranskripts. Im Schreibprozess gesetzte Leerräume werden mit ° dargestellt. Löschungen werden in eckige Klammern gesetzt und strikt in der zeitlichen Reihenfolge ihres Auftretens 9 Vgl. zu einem - wenn auch stark am Endprodukt orientierten - Nachvollzug von Textentstehungsprozessen inkl. Textrevisionen die in der Schreibprozessforschung etablierte S-Notation (Severinson Eklundh & Kollberg 1996). 180 Sandra Reitbrecht angegeben (z. B. [ab] in Zeile 10: a wird vor b gelöscht). Bei Autokorrekturschritten werden diese ebenfalls genau zum Zeitpunkt ihres Auftretens notiert. Dies ist z. B. in Zeile 06 der Fall, wenn durch das Setzen des Leerraums nach der zeitlichen Pause das zunächst großgeschriebene E automatisch durch ein kleingeschriebenes e ersetzt wird. Die Löschung steht wie manuell vorgenommene Tilgungen in eckigen Klammern, also [E], der eingefügte Kleinbuchstabe in geschwungenen Klammern, also {e}. Geschwungene Klammern können ebenso für manuell gesteuerte Einfügungen verwendet werden. 5 Fazit Das Gesprächsinventar sowie die drei Transkriptbeispiele verdeutlichen, dass bereits bestehende Konventionen und Verfahren zur gesprächsanalytischen Aufbereitung und Transkription multimodaler Daten (Deppermann 2008, Mondada 2019, Selting et al. 2019) für den Untersuchungsgegenstand der screencast-basierten schreibdidaktischen Modellvideos zielführend angewandt werden können. Der Transkriptionsaufwand steigt dabei mit dem Vorkommen von dynamischen Elementen/ Prozessen, v. a. Schreibprozessen, stark an. Für das AaMoL-Modellvideo 1, welches in seiner Gestaltung als typisch für die hier thematisierte Datensammlung bezeichnet werden kann, fällt dieser Aspekt allerdings hochgerechnet auf eine Transkription des gesamten Videos in überschaubarem Ausmaß ins Gewicht: So erstrecken sich Schreibprozesse nur auf eine Dauer von knapp 2,5 Minuten des insgesamt ca. 19,5 Minuten langen Videos. Für andere Erklärvideoformate (z. B. mit höheren Anteilen an Animationen) muss das hier vorgestellte Vorgehen aber im Sinne einer Kosten- Nutzen-Rechnung am Untersuchungsgegenstand und an den Forschungszielen geprüft werden. In Kapitel 3 wurde diesbezüglich versucht, einen Überblick über ausgewählte aktuelle Forschungsprojekte und ihre forschungsmethodischen Zugänge zu Erklärvideos als Anhaltspunkte für eigene forschungsmethodische Entscheidungen zu geben. Zu bedenken gilt es hinsichtlich der Wahl des Transkriptionsverfahrens allerdings auch, dass allein ein vergleichsweise aufwändiges Verfahren wie das hier gezeigte der präzisen Repräsentation multimodaler Koordination gerecht werden kann (vgl. dazu auch die Erläuterungen zum ersten Beispiel in Abschnitt 4.2.1). Zugleich gilt es hier aber auch auf Grenzen des Verfahrens hinzuweisen, da beispielweise bei Atemgeräuschen aufgrund unterschiedlicher Hörbarkeit die Granularität des Abgleichs dennoch Einschränkungen unterliegt. Auch gilt es in diesem Zusammenhang im Sinne einer reflektierten Forschungspraxis anzumerken, dass man als Transkribent*in in diesen sehr feinkörnigen Bereichen vermutlich verstärkt zum Darstellen von Simultanität Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren 181 tendiert, z. B. zwischen dem Abschließen einer Cursorbewegung und dem Einsetzen eines Atemgeräuschs. Auch gilt es, das mögliche Vorhandensein von Medieneffekten (z. B. Zeitverzögerungen zwischen Manipulation via Tastatur und Erscheinen am Bildschirm durch Überlastung des Rechners) als Einflussfaktor zu berücksichtigen (vgl. z. B. die Diskussion zu Medieneffekten bei der Arbeit mit Telekonferenzen bei Bliesener 2014). Die Datentranskription sollte aber nicht nur einen festen Platz in der Umsetzung von Forschungsprojekten, sondern auch in deren Darstellung in Publikationen haben. Dass dabei nämlich die Datenaufbereitung und Transkription inkl. der Auswahl der Standbilder vermutlich oftmals nach wie vor jene Teilaspekte sind, die angesichts begrenzter Zeichenzahlen ausgeblendet werden, bleibt kritisch zu sehen. Mit dem Rückgriff auf bestehende Konventionen und Verfahren kann in diesem Zusammenhang mit vergleichsweise geringer Zeichenzahl dennoch Transparenz gewährleistet werden. Bezüglich der Ausführungen zu Multimodalität und Interaktionalität in Abschnitt 3 möchte ich abschließend hervorheben, dass anzunehmen ist, dass Kommunikationssituationen, in denen man das Gegenüber hören sowie durch digital mediatisierte Handlungen erleben, nicht aber in seiner Leiblichkeit unmittelbar wahrnehmen kann, zunehmen (werden). Man denke z. B. an die aktuell (April 2021) sehr häufig stattfindenden Videokonferenzen, in denen der Bildschirm geteilt, aber die Webkameras aller Beteiligten möglicherweise abgeschaltet sind. Es bleibt zu beobachten, wie sie in der Forschung aufgegriffen und zur Diskussion von Begriffskonzepten beitragen werden (vgl. dazu u. a. die aktuellen Forschungsbestrebungen zu multimodaler Interaktion am IDS Mannheim, online; ebenso die Diskussion zu Multimodalität als eigenständiger Disziplin bei Wildfeuer et al. 2020). Literaturverzeichnis Birkner, Karin, Auer, Peter, Bauer, Angelika & Kotthoff, Helga. 2020. Einführung in die Konversationsanalyse. Berlin & Boston: De Gruyter. Bliesener, Thomas. 2014. Transkription synchroner multimedialer rechnerbasierter Telekonferenzen. In Christine Moritz (Hrsg.), Transkription von Video- und Filmdaten in der Qualitativen Sozialforschung. Multidisziplinäre Annäherungen an einen komplexen Datentypus, 283 - 310. Wiesbaden: Springer VS. Brünner, Gisela & Pick, Ina. 2020. Bewertungen sprachlichen Handelns und good practice in der Angewandten Gesprächsforschung. Zeitschrift für Angewandte Linguistik 72, 63 - 98. Deppermann, Arnulf. 2018. Sprache in der multimodalen Interaktion. In Arnulf Deppermann & Silke Reineke (Hrsg.), Sprache im kommunikativen, interaktiven und 182 Sandra Reitbrecht kulturellen Kontext (Germanistische Sprachwissenschaft um 2020 3), 51 - 85. Berlin u. a.: De Gruyter. Deppermann, Arnulf. 2008. Gespräche analysieren. Eine Einführung. 4. Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften. Dorgerloh, Stephan & Wolf, Karsten D. (Hrsg.). 2020. Lehren und Lernen mit Tutorials und Erklärvideos. Weinheim & Basel: Beltz. Ebel, Alexandra. 2021. Einfluss sprachlicher und sprecherischer Merkmale auf die Verständlichkeit von Lernvideos auf YouTube. In Katharina Staubach (Hrsg.), Multimodale Kommunikation in den Hypermedien und Deutschunterricht. Theoretische, empirische und unterrichtspraktische Zugänge, 250 - 275. Baltmannsweiler: Schneider Verlag Hohengehren. ELAN (Version 6.0). 2020. Nijmegen: Max Planck Institute for Psycholinguistics, The Language Archive. https: / / archive.mpi.nl/ tla/ elan. Findeisen, Stefanie, Horn, Sebastian & Seifried, Jürgen. 2019. Lernen durch Videos - Empirische Befunde zur Gestaltung von Erklärvideos. MedienPädagogik, 16 - 36. Graham, Steve & Harris, Karen. 2005. Writing better: Effective strategies for teaching students with learning difficulties. Baltimore: Paul Brookes. IDS Mannheim. Projekt „ Multimodale Interaktion “ . https: / / www1.ids-mannheim.de/ pr ag/ interaktion/ multimodal.html (zuletzt abgerufen am 23.04.2021). Imo, Wolfgang & Lanwer, Jens Philipp. 2019. Interaktionale Linguistik. Eine Einführung. Berlin: J. B. Metzler. Klein, Josef. 2009. Erklären-Was, Erklären-Wie, Erklären-Warum. Typologie und Komplexität zentraler Akte der Welterschließung. In Rüdiger Vogt (Hrsg.), Erklären. Gesprächsanalytische und fachdidaktische Perspektiven, 25 - 36. Tübingen: Stauffenburg Verlag. Lobin, Henning. 2013. Visualität und Multimodalität in wissenschaftlichen Präsentationen. Zeitschrift für Germanistische Linguistik 41(1), 65 - 80. Meer, Dorothea & Pick, Ina. 2019. Einführung in die Angewandte Linguistik. Gespräche, Texte, Medienformate analysieren. Berlin: J. B. Metzler. Mondada, Lorenza. 2019. Conventions for multimodal transcription. https: / / 344cc026-c 96f-49aa-b4bc-071b454d3061.filesusr.com/ ugd/ ba0dbb_986ddd4993a04a57acf20ea06e 2b9a34.pdf (zuletzt abgerufen am 10.02.2021). Moritz, Christine. 2011. Die Feldpartitur. Multikodale Transkription von Videodaten in der Qualitativen Sozialforschung. Wiesbaden: VS Verlag für Sozialwissenschaften. Philipp, Maik. 2015. Lesestrategien. Bedeutung, Formen und Vermittlung. Weinheim & Basel: Beltz Juventa. Rat für Kulturelle Bildung (Hrsg.). 2019. Jugend/ YouTube/ Kulturelle Bildung. Horizont 2019. Essen: Rat für Kulturelle Bildung e.V. https: / / www.rat-kulturelle-bildung.de/ f ileadmin/ user_upload/ pdf/ Studie_YouTube_Webversion_final.pdf (zuletzt abgerufen am 10.02.2021). Reitbrecht, Sandra. 2021. Schreibdidaktische Modellvideos: Lehrer*innen schreiben für ihre Schüler*innen. In Katharina Staubach (Hrsg.), Multimodale Kommunikation in den Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren 183 Hypermedien und Deutschunterricht. Theoretische, empirische und unterrichtspraktische Zugänge, 303 - 326. Baltmannsweiler: Schneider Verlag Hohengehren. Reitbrecht, Sandra, Dawidowicz, Marta, Flotzinger-Aigner, Silvia & Schatzl, Brigitte. 2019. Schreibkompetenzen in der Fremdsprache Deutsch durch Modelllernen fördern. German as a foreign language 2, 85 - 109. http: / / www.gfl-journal.de/ 2-2019/ reitbrecht. pdf (zuletzt abgerufen am 10.02.2021). Schmidt, Axel. 2018. Interaktion und Kommunikation. In Dagmar Hoffmann & Rainer Winter (Hrsg.), Mediensoziologie. Handbuch für Wissenschaft und Studium, 15 - 38. Baden-Baden: Nomos. Schneider, Jan Georg & Stöckl, Hartmut. 2011. Medientheorien und Multimodalität: Zur Einführung (inkl. Transkripte). In Jan Georg Schneider & Hartmut Stöckl (Hrsg.), Medientheorien und Multimodalität. Ein TV-Werbespot - Sieben methodische Beschreibungsansätze, 10 - 44. Köln: Herbert von Halem Verlag. Schöne, Justine. 2018. Potenziale von Erklärvideos als Bildungsmedium. Eine linguistische Untersuchung. https: / / sway.office.com/ QXZkttzaK0iZOhMr? ref=Link (zuletzt abgerufen am 22.04.2021). Schöne, Justine & Wedler, Katharina. 2021. Erklärvideos in der LehrerInnenausbildung: Textanalytische und produktionsorientierte Zugänge. In Katharina Staubach (Hrsg.), Multimodale Kommunikation in den Hypermedien und Deutschunterricht. Theoretische, empirische und unterrichtspraktische Zugänge, 276 - 302. Baltmannsweiler: Schneider Verlag Hohengehren. Selting, Margret et al. 2009. Gesprächsanalytisches Transkriptionssystem 2 (GAT 2). Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion 10, 353 - 402. Severinson Eklundh, Kerstin & Kollberg, Py. 1996. Computer tools for tracing the writing process. From keystroke records to S-notation. In Gert Rijlaarsdam, Huub van den Bergh, & Michel Couzijn (Hrsg.), Current research in writing. Theories, models and methodology, 526 - 541. Amsterdam: Amsterdam University Press. Stertkamp, Wolf & Schüler, Lisa. 2014. Transkription multimodaler Gefüge: Herausforderungen bei der Untersuchung interaktiver Prozesse am PC. In Christine Moritz (Hrsg.), Transkription von Video- und Filmdaten in der Qualitativen Sozialforschung. Multidisziplinäre Annäherungen an einen komplexen Datentypus, 311 - 358. Wiesbaden: Springer VS. Stöckl, Hartmut. 2016. Multimodalität - Semiotische und textlinguistische Grundlagen. In Nina-Maria Klug & Hartmut Stöckl (Hrsg.), Handbuch Sprache im multimodalen Kontext, 3 - 35. Berlin: De Gruyter. Stukenbrock, Anja. 2009. Herausforderungen der multimodalen Transkription: Methodische und theoretische Überlegungen aus der wissenschaftlichen Praxis. In Karin Birkner & Anja Stukenbrock (Hrsg.), Die Arbeit mit Transkripten in Fortbildung, Lehre und Forschung, 144 - 169. Mannheim: Verlag für Gesprächsforschung. Sturm, Afra & Weder, Mirjam. 2016. Schreibkompetenz, Schreibmotivation, Schreibförderung. Grundlagen und Modelle zum Schreiben als soziale Praxis. Stuttgart: Klett Kallmeyer. 184 Sandra Reitbrecht Wildfeuer, Janina, Pflaeging, Jana, Bateman, John A., Seizon, Ognyan & Tseng, Chiao-I. 2020. Multimodality: Disciplinary Thoughts and the Challenge of Diversity - Introduction. In Janina Wildfeuer, Jana Pflaeging, John Bateman, Ognyan Seizov & Chiao-I Tseng (Hrsg.), Multimodality. Disciplinary Thoughts and the Challenge of Diversity, 3 - 38. Berlin/ Boston: De Gruyter. Wolf, Karsten D. 2015. Video-Tutorials und Erklärvideos als Gegenstand, Methode und Ziel der Medien- und Filmbildung. In Anja Hartung, Thomas Ballhausen, Christine Trültzsch-Wijnen, Alessandro Barberi & Katharina Kaiser-Müller (Hrsg.), Filmbildung im Wandel, 121 - 131. Wien: new academia press. Wolf, Karsten D. & Kratzer, Verena. 2015. Erklärstrukturen in selbsterstellten Erklärvideos von Kindern. In Kai-Uwe Hugger, Angela Tillmann, Stefan Iske, Johannes Fromme, Petra Grell & Theo Hug (Hrsg.), Jahrbuch Medienpädagogik 12: Kinder und Kindheit in der digitalen Kultur, 29 - 44. Wiesbaden: Springer VS. Schreibdidaktische Modellvideos multimodal inventarisieren und transkribieren 185 Medienlinguistisch transkribieren Transkriptions- und Annotationspraktiken in der qualitativen Forschung zu digitaler Medienkommunikation Daniel Pfurtscheller Abstract: Der Beitrag beschäftigt sich mit Herausforderungen der multimodalen Transkription im Kontext medienlinguistischer Fragestellungen. Der Fokus liegt dabei auf digitaler Multimodalität und der Untersuchung digitaler und audiovisueller Formate in medienvermittelter Kommunikation. Anhand exemplarischer Fälle von Social-Media-Interaktion (auf Twitter und YouTube) wird gezeigt, welche medialen Bedingungen multimodales Transkribieren in digitalen Medien antrifft und wie Transkripte als Arbeitsmittel zur Analyse und Darstellung von digitaler Multimodalität angelegt sein können. Der Beitrag diskutiert zum einen grundsätzliche Fragen der Medialität multimodaler Transkripte und zeigt zum anderen Herausforderungen sowie Chancen der digitalen Transkription für (medienlinguistische) Interaktionsanalysen auf. Keywords: Medienlinguistik, Social-Media-Daten, Interaktionsmedien, Digitale Multimodalität, linguistische Medienforschung, qualitative Analysen, Visualisierung 1 Einleitung Mit der Digitalisierung der Forschung und dem Trend zu einer stärker visuell orientierten Gestaltung von wissenschaftlichen Texten und Präsentationen hat sich auch Transkription und ihr epistemischer Status verändert (Ayaß 2015). So fordert Stukenbrock (2009) angesichts der digitalen Verfügbarkeit von (audiovisuellen) Forschungsdaten nicht nur neue multimodale Transkriptionsformate, sondern auch eine verstärkte Reflexion über das Konzept und den Stellenwert der Transkription im Forschungsprozess selbst: Die Vorstellung, dass das Transkript sozusagen „ alle “ wesentlichen Informationen enthalte und in der Analyse nur hin und wieder auf die Tonaufnahmen rekurriert werden müsse, ist nicht mehr aufrecht zu erhalten. Dasselbe gilt für die intersubjektive Nachvollziehbarkeit und Überprüfbarkeit der Forschungsergebnisse. (Stukenbrock 2009: 147 - 148) Die Überlegungen, die hier im Zusammenhang mit der Forschung zur Multimodalität sogenannter natürlicher Interaktion angestellt wurden, lassen sich auch auf die Medienkommunikation übertragen. Neben den grundsätzlichen Herausforderungen der multimodalen Transkription - was soll überhaupt wie dargestellt und transkribiert werden, um es einer analytischen Betrachtung zugänglich zu machen - ergeben sich spezifische Fragen, die mit medienlinguistischen Erkenntnisinteressen sowie der Medialität und Materialität der untersuchten Daten zu tun haben. Zwar besteht in der Medienlinguistik ein Konsens darüber, „ dass natürliche diskursive Interaktion (Gespräche) in der Regel eine andere Art der Transkription erfordert als inszenierte massenmediale Artefakte, insbesondere was die Detailfülle und Analysetiefe angeht “ (Schneider & Stöckl 2011: 29). Wie diese andere Art der medienlinguistischen Transkription auszusehen hat, darüber gibt es allerdings bisher keine intensiveren Überlegungen. Diese Aufgabe fokussiere ich im Folgenden im Bereich digitaler Medienkommunikation: Wie wird digitale Multimodalität in der Medienlinguistik untersucht und auf welcher Datenbasis? Welche medienlinguistischen Transkriptions- und Annotationspraktiken von Social-Media-Daten gibt es und wo liegen spezifischen Herausforderungen? Welchen Stellenwert hat die multimodale Machart von Websites, Apps und Plattformen, die als digitale Medienumgebungen Interaktionsmuster vorstrukturieren? Entlang dieser Fragen nähere ich mich dem Thema der multimodalen Transkription aus einer medienlinguistischen Perspektive. Die Medienlinguistik ist eher eine im Entstehen begriffene, als eine in sich geschlossene Teildisziplin und hat Fragen der multimodalen Transkription bislang nur punktuell behandelt (z. B. Schneider & Stöckl 2011: 29 - 31). Man kann aber zumindest zwei medienlinguistische Grundfragen herausstellen, die für Fragen der Transkription von digitaler Mediensprache und Mediendiskursen besonders relevant sind (Luginbühl 2015): Zum einen wird in medienlinguistischen Arbeiten danach gefragt, wie sich Sprache „ in den Medien “ als mediatisierter Sprachgebrauch beschreiben lässt. Medienlinguistik untersucht sprachliche Verwendungszusammenhänge in Hinblick auf ihre die technologischen, institutionellen und kontextuellen Rahmenbedingungen. Je nach Medienbegriff variieren die Bezeichnungen und Konzepte. Traditionell wird von einer technischen Prägung Medienlinguistisch transkribieren 187 oder Vorstrukturierung des Sprachgebrauchs gesprochen und Medienkommunikation entlang bestimmter Merkmale typologisiert. Vor dem Hintergrund einer umfassenderen Theorie der Medialität (Schneider 2008), die Medien nicht als technische Apparaturen, sondern als Verfahren zur Zeichenprozessierung versteht, ist von einer „ Durchformung “ die Rede (Luginbühl 2019). Die Grundfrage bleibt aber immer, wie sich einzelne sprachliche Praktiken und Diskurse im Zusammenhang von Medien (und Medialität) beschreiben lassen. Die zweite Grundfrage hängt damit eng zusammen und betrifft die Multimodalität von Mediensprache: Hier geht es darum, den genutzten Bestand von unterschiedlichen Kommunikations- und Gestaltungsmitteln zu untersuchen, die Verfahrensweisen in Mikroanalysen zu rekonstruieren und Musterhaftigkeiten in Mediendiskursen und im medialen Wandeln zu beschreiben. Für beide Dimensionen - Mediatisierung und Multimodalisierung des Sprachgebrauchs - ist die Medienlinguistik auf Theorieimport angewiesen. Es werden sowohl text- und gesprächslinguistische als auch medien- und kommunikationswissenschaftliche Analysekonzepte genutzt. Dieser charakteristische methodische Eklektizismus betrifft auch Transkriptionspraktiken, die in der Regel eher der „ Beschreibungslogik des gesunden Menschenverstandes “ (Schneider & Stöckl 2011: 31) folgen und selten begründet oder ausführlicher kommentiert werden. Ziel dieses Beitrags ist es, gängige Transkriptionspraktiken aus einer medienlinguistischen Perspektive zu reflektieren und die spezifischen Herausforderungen im größeren Kontext der multimodalen Transkription zu diskutieren. Zunächst gehe ich auf grundlegende Begriffe im Kontext der medienlinguistischen Datenarbeit ein (Abschnitt 2). Ich erläutere anhand eines Beispiels, wie digitale Multimodalität transkribiert werden kann (Abschnitt 3), welche Notationsmittel dabei verwendet werden und welche Transformationen und Reduktion dabei wirksam werden (Abschnitt 4). Dann stelle ich die Herausforderungen vor, die im Umgang mit der multimodalen Gestaltung von Medienumgebungen bestehen (Abschnitt 5) und beleuchte, wie sich Daten für die Untersuchung mediatisierter Praktiken anreichern lassen (Abschnitt 6). Damit möchte ich am Schluss zeigen, wie multimodale Transkripte im Wechsel von Reduktion und Anreicherung als verdichtete Datensätze erscheinen können (Abschnitt 7). 2 Transkription und multimodale Datenarbeit in der Medienlinguistik Beim Arbeiten am Material ist in medienlinguistischen Studien in ganz unterschiedlichem Ausmaß von Annotieren, Codieren oder Transkribieren die Rede. Je nach Forschungsparadigma und Methodologie stehen hinter diesen Begriffen 188 Daniel Pfurtscheller unterschiedliche Forschungsaktivitäten, mit denen multimodale Daten für die Analyse aufbereitet werden. Unter Annotationen versteht man in der Regel Zusatzinformationen, die den sogenannten Rohdaten hinzugefügt werden. Bei linguistischer Annotation geht es etwa meist darum, grammatikalische, phonetische und morphologische Merkmale in digitalen Sprachdaten zu identifizieren und zu kennzeichnen; diese Kennzeichnung (Tagging) kann durch Software automatisiert durchgeführt werden und hat zum Ziel, größere Korpora besser durchsuchbar zu machen. Parallel zu den Entwicklungen in der Korpuslinguistik wurde etwa in letzter Zeit auch im Bereich der Multimodalitätsforschung gefordert, das Potenzial von Computermethoden für die Verarbeitung und Annotation von Daten auszuloten (z. B. Hiippala 2021; O ’ Halloran, Pal & Jin 2021). Im Zusammenhang mit stärker inhaltsanalytisch ausgerichteten Methodologien ist häufiger von Codieren die Rede. Auch hier geht es darum, ein bestimmtes Kategoriensystem (Codes, die in einem Codebuch definiert sind) auf die Daten zu beziehen. Von multimodalem Annotieren bzw. Codieren kann man beispielsweise dann sprechen, wenn audiovisuelles Material (Bilder, Videos) mit sprachlichen Labels versehen wird. Während es beim Annotieren oder Codieren also darum geht, deskriptive oder analytische Metadaten oder Kategorien in rohes Datenmaterial einzubinden, verstehe ich unter Transkription ein spezifisches Verfahren, mit dem Datenmaterial umgewandelt und entlang von gewissen Regeln in eine neue Form gebracht wird (Abb. 1). Abb. 1: Vergleich von Annotieren/ Codieren und Transkribieren (eigene Darstellung) In der Medienlinguistik wird die Transkription in der Regel nur dann eingesetzt, wenn die Datenlage dies erfordert. Besteht das Forschungsmaterial z. B. aus audiovisuellen Daten, umfasst Gespräche aus Radio und Fernsehen etc., müssen diese für eine medienlinguistische Analyse aufbereitet und wiedergegeben werden. So sind beispielsweise die TV-Beispiele im Einführungsbuch von Medienlinguistisch transkribieren 189 Burger &Luginbühl (2014) in tabellarischer Form (unterteilt in Zeit, Ton und Bild) transkribiert. Typisch ist dabei, dass die sprachliche Ebene im Vergleich zu einem gesprächslinguistischen Verbaltranskript sehr weit transkribiert wird (d. h. in einer partiellen Partiturnotation und mit Markierung von auffälligen Betonungen); Musik und Geräusche aber ebenso notiert werden wie die medial konstitutive Bildebene, die in Form von Standbildern und Bildbeschreibungen im Transkript erscheinen. Als vorrangiges Prinzip wird dabei die „ gute Lesbarkeit “ (Burger & Luginbühl 2014: 523) angeführt, die multimodale Transkriptionsmethode wird jedoch nicht näher begründet, erläutert oder in Theorie eingebunden. Wenn man im Umfeld der deutschsprachigen Medienlinguistik nach Reflexionen des Transkriptionsbegriffs sucht, wird man am ehesten dort fündig, wo Fragen der Multimodalität selbst Teil des Erkenntnisinteresses sind. So wird etwa im Sammelband von Schneider & Stöckl (2011), in dem ein TV-Spot aus sieben verschiedenen theoretisch-methodischen Perspektiven beleuchtet wird, die den Analysen zugrunde liegende Transkription eingehender reflektiert und ihre Bedeutsamkeit hervorgehoben. Während man ohne Transkription „ bestenfalls kursorische Bemerkungen “ zur Multimodalität machen könne, ermögliche „ das grafisch fixierte Transkript [ … ] eine Fülle von Ansatzpunkten “ (Schneider & Stöckl 2011: 29). Transkripte erscheinen hier, aus der Perspektive der Multimodalitätsforschung, nicht nur als praxisrelevantes Hilfsmittel, sondern als ein wesentliches Analyseinstrument: Die Hauptfunktion multimodaler Transkripte besteht darin, den zeitlichen Verlauf oder die räumliche Anordnung von Zeichen verschiedener ‚ Modi ‘ zu reproduzieren und für die wiederholte und studierende Lektüre der multimodalen Texte oder Daten überhaupt erst fassbar und zugänglich zu machen. (Schneider & Stöckl 2011: 29) Aus dieser Perspektive sind multimodale Transkripte der Ausgangspunkt für wiederholbare und nachvollziehbare Detailanalysen. Komplexe raum-zeitliche Zeichen müssen (in einer nicht näher erläuterten Weise) in eine zugängliche Darstellung transformiert werden. Transkripte können demnach als multimodale Dokumente verstanden werden, die ebenso gut am Ende einer multimodalen Analyse stehen können. So formuliert Bateman (2008: 17) als übergeordnetes Ziel der empirisch basierten Multimodalitätsforschung, eine Darstellungsform zu finden, die hinreichend gut definiert ist, um reproduzierbare Analysen zu ermöglichen. Neben der multimodalen Transkription in tabellarischer Form werden in medienlinguistischen Studien auch konversationslinguistische Transkriptionssysteme verwendet (z. B. in Anlehnung an GAT 2 nach Selting et. al 2009). So haben etwa Schmidt & Marx (2020) für ihre Analyse von Let ’ s Plays (das sind 190 Daniel Pfurtscheller YouTube-Videos, die Computerspiele für andere inszenieren, meist mit Kommentar und einer Kameraperspektive auf das Gesicht der Spielenden) die Transkriptionskonventionen von Mondada (2014) adaptiert (für die Transkription von Gaming-Streams vgl. auch Recktenwald 2017). Bei der Analyse von Videomaterial ist es üblich, verbale Transkripte durch Standbilder zu ergänzen (vgl. Meer & Pick 2019; Böckmann et al. 2019). Dies geschieht jedoch in der Regel ohne eine genauere methodische Klärung des Status dieser Standbilder, wie sie von Stukenbrock (2009: 154 - 156) nahelegt wird. Klar ist, dass auch in der Medienlinguistik die Transkripte immer für einen bestimmten Zweck angefertigt werden und dabei das Ergebnis von - mitunter sehr intensiver - Datenarbeit sind (Ayaß 2015). Bereits Ochs (1979) hat darauf hingewiesen, dass Transkription kein transparenter, an sich verständlicher Vorgang ist, sondern als eine Reihe von Entscheidungen begriffen werden muss, die der Explikation bedürfen. Im Zuge dieser methodisch-theoretischen Klärung kann man danach fragen, wie Transkription definiert und verstanden wird, wie Transkription durchgeführt wird und wie über Transkription in Forschungsstudien berichtet wird (Davidson 2009). Auch für medienlinguistische Studien ist daher eine größere Sorgfalt im Umgang mit Transkription angesagt. Im Zusammenhang mit der Analyse und Interpretation von Videodaten kann diese Reflexion an grundlegende Fragen anschließen, wie sie in der Literatur im Hinblick auf die multimodale Transkription aus unterschiedlichen theoretischen Perspektiven bereits diskutiert worden sind (z. B. Flewitt et. al 2014; Thibault 2000; Stertkamp & Schüler 2014; Baldry & Thibault 2006; Stukenbrock 2009). 3 Digitale Medienkommunikation erfassen, annotieren, transkribieren Die Frage, wie sich digitale Multimodalität transkribieren lässt, bleibt also ein offenes Problem. Gleichzeitig gewinnen Fragen der multimodalen Transkription im Internet an Relevanz. So haben sich beispielsweise Formen der computervermittelten Kommunikation (computer-mediated commucation, CMC) in den letzten vierzig Jahren von ihren rein schriftbasierten Anfängen entfernt und werden heute in ihrer Vielfalt als inhärent multimodal rekonzeptualisiert (Herring 2019: 41). Auch macht der Umstand, dass man es bei der Analyse von Interaktionen in digitalen Medienumgebungen häufig mit textbasierten und visuellen Daten zu tun hat, die Transkription nicht überflüssig. Um strukturelle Unterschiede zwischen Chat-Kommunikation und Gesprächen empirisch zu untersuchen, hat etwa Beißwenger (2007: 336 - 263) ein eigenes Transkriptionsformat entwickelt, das Chatverlauf, Blickverhalten und Schreib- Medienlinguistisch transkribieren 191 tischaktivität zusammenbringt (vgl. dazu Beißwenger 2009: 125 - 130). Wie Giles et al. (2017: 38) betonen, ist angesichts der Komplexität multimodaler Online- Umgebungen die Transkription ein zentrales Anliegen der Mikroanalyse. Während sich das Forschungsfeld der Multimodalität ( Jewitt 2016) in den letzten Jahren in Bezug auf Theorie und Praxis weiterentwickelt hat, befindet es sich in Bezug auf die Transkription noch in einem vergleichsweise frühen Stadium. Für die Analyse der digitalen Multimodalität ergeben sich zusätzliche Schwierigkeiten, wenn bereits ausgearbeitete multimodale Frameworks, die ursprünglich nicht für digitale Daten konzipiert wurden, für die Analyse digitaler multimodaler Daten verwendet werden sollen (Bou-Franch & Garcés-Conejos Blitvich 2018). Forschungspraktisch gesehen gibt es zwei Ansätze zur Erfassung von Daten im Bereich der digitalen Medienkommunikation (Pfurtscheller 2020: 355 - 356): Der eine Weg orientiert sich an wahrnehmbaren Bedienoberflächen (User- Interface, kurz UI) und dokumentiert sichtbare Elemente auf Bildschirmen. Zu solchen On-Screen-Methoden gehören Screenshots, mit denen sichtbare Bildschirmausschnitte als Bilddateien gespeichert werden können, die Extraktion von Textinhalten (per Copy-and-Paste) sowie die elaborierte Erfassung von Bildschirminhalten als durchsuchbare Snapshots. Der andere Ansatz basiert auf dem parametrischen Unterbau von digitalen Angeboten. Inhalte von Webseiten (bestehend aus HTML-, CSS- und JS-Dateien) können über Scraping-Verfahren extrahiert werden; bestimmte Social-Media-Plattformen bieten zudem über Programmierschnittstellen (Application Programming Interface, kurz API) einen eingeschränkten Zugriff auf bestimmte Datenstrukturen, die in strukturierte Textformate umgewandelt werden können. Ein ausgefeiltes Transkriptions- und Annotationsverfahren für CMC-Daten ist im TEI-Framework entwickelt worden und liegt als standardisiertes Schema vor (Beißwenger & Lüngen 2020). Im Folgenden möchte ich die spezifischen Vor- und Nachteile dieser Verfahren im Hinblick auf die Transkription von digitaler Multimodalität anhand eines Beispiels aus Twitter aufzeigen. Das Beispiel stammt aus der österreichischen Innenpolitik und ist ein Beispiel für eine ironische Entgegnung auf Twitter. Der Kontext der Handlungssequenz sind die Ergebnisse einer Landtagswahl im Januar 2019, bei der die Freiheitliche Partei Österreichs (FPÖ) schlecht abgeschnitten hat. Heinz-Christian Strache, ehemaliger FPÖ-Obmann und nach politischen Affären rund um das sogenannte „ Ibiza-Video ” aus der Partei ausgeschlossen, schreibt dazu auf Twitter (Angaben in Klammern: Account, Zeitstempel, Antworten/ Retweets/ Favorisierungen): 192 Daniel Pfurtscheller 1. Die Burgenland-Wahl zeigt: Unter @norbertghofer und Co. geht die FPÖ in die Richtung Irrelevanz und verliert, was ich einst hinzugewinnen konnte. Was geht zuerst aus? Die Wähler oder die Ausreden? Für Johann Tschürtz tut es mir leid, das hat er nicht verdient. (hcstrache1, 26.01.2020 16: 58, 137/ 42/ 148) Parteichef Hofer, der von Strache auf diese Weise angegriffen wurde, reagiert auf diese Provokation mit einer knappen Erwiderung und einem Bild aus der Berichterstattung über das Ibiza-Video: 2. Besten Dank … . [Strache-Ibiza-Bild] (norbertghofer, 26.01.2020 23: 52, 160/ 190/ 2026) Eine solche Wiedergabe von Tweets als Textbeleg findet sich in vielen medienlinguistischen Studien und wird auch in Studienbüchern empfohlen (z. B. Marx & Weidacher 2014: 18). Die Umsetzung von Social-Media-Daten in Textbelege kann als eine Form der Transkription gesehen werden, bei der die inhaltsbezogenen Aspekte der geschriebenen Twitter-Posts in den Vordergrund treten. Da die verwendeten Notationsmittel nicht über das hinausgehen, was in wissenschaftlichen Darstellungsformen (in Publikationen und Präsentationen) verfügbar ist, ist diese Transkriptionsvariante einfach handhabbar und robust. Sie eignet sich auch wegen der Kompaktheit der Darstellung und der Leichtigkeit, mit der bestimmte Ausdrücke oder Passagen hervorgehoben und als relevant für die Analyse markiert werden können (z. B. durch Fettdruck im Manuskript). Die Informationen in den Klammern erlauben auch die Angabe von Metadaten, die für die Interaktion relevant sind. In diesem speziellen Fall sehen wir, dass Hofers (2) Reaktion etwa sieben Stunden später erfolgte und eine große Anzahl von Beteiligungsaktivitäten (Antworten, Retweets, Favorisierungen) hervorrief. Die Handlungssequenz (bestehend aus Straches Initialbeitrag und Hofers Reaktion) lässt sich als textformbasierte Interaktion (Beißwenger 2020) konzeptualisieren und in CMC-TEI transkribieren ( ► eContent_PF_a). Dabei werden die Daten (entweder manuell oder maschinell) in ein XML-Format umgewandelt, das einem bestimmten standardisierten Schema entspricht. Abbildung 2 zeigt auszugsweise, wie dieser Transfer technisch gelöst ist. Die Tweets werden in Post-Elemente umgewandelt und mit bestimmten Attributen (Art des Tweets, Zeit, Account etc.) ergänzt. Das XML-Schema legt genau fest, welche Notationsmittel für diese Art der Transkription erlaubt sind, wodurch die Daten auch gegen das Schema validiert werden können (d. h. Fehler in der XML-Struktur als Verstöße gegen die Transkriptionskonventionen markieren). eContent_PF_a. xml Medienlinguistisch transkribieren 193 Dadurch wird ein hohes Maß an Standardisierung und Interoperabilität gewährleistet. Abb. 2: TEI Transkript Strache-Hofer Diesen Vorteilen der textbasierten Transkriptionsmethoden steht jedoch ein entscheidender Nachteil gegenüber: der Verlust der multimodalen Gestaltung. Zwar basiert das Design von Twitter, wenn man die Web-Architektur betrachtet, letztlich auch auf einer textuellen Repräsentation, die über Stylesheets auf den Bildschirm gerendert wird; einfache Textdokumente oder XML-Daten erlauben es aber in der Regel nicht, dieses multimodale Design analytisch zu erfassen oder zu begreifen. Im vorliegenden Fall ist diese Gestaltung jedoch wichtig: Um Hofers Reaktion als ironische Entgegnung zu verstehen, ist eine Darstellungsform notwendig, die den Beitrag im Kontext der multimodalen Medienumgebung von Twitter zeigt. In Abbildung 3 ist ein entsprechender Bildschirmausschnitt dargestellt, der die Sequenz der beiden aufeinander bezogenen Tweets zeigt. 194 Daniel Pfurtscheller Abb. 3: Bildschirmfoto Strache-Hofer Das Bild ist von zentraler Bedeutung für die Beschreibung der Handlungssequenz. Hofer entnimmt das Bild der journalistischen Berichterstattung über die sogenannte Ibiza-Affäre und verwendet es im Zuge einer ironischen Erwiderung als intertextuellen Verweis auf die Verantwortung Straches. Als Erwiderung auf den rhetorischen Angriff und die vorgebliche Sorge um die Zukunft der Partei kann der Tweet also in etwa wie folgt verstanden werden: Jemand, der der Partei so großen Schaden zugefügt hat wie Strache (siehe Ibiza), hat jede argumentative Grundlage für Kritik verloren. Hofer kann sich darauf verlassen, dass diese Diskursreferenz via rekontextualisiertem Bild (das Strache auch praktischerweise wenig schmeichelhaft zeigt) nahezu ikonisch für die ganze Affäre steht und im Kontext des politik- und journalismusaffinen Mediums Twitter leicht entschlüsselt werden kann. Indem er seinen Gegenangriff auf diese indirekte Weise umsetzt, bricht Hofer mit den üblichen Formen der politischen Diskussion. Um dieses recipient design aber so wirksam umsetzen zu können, ist er auf das Design der Plattform Twitter angewiesen, das die effektive Nutzung dieser Kommunikationsformen ermöglicht und begünstigt. Medienlinguistisch transkribieren 195 4 Notationsressourcen und Reduktionsprozesse Drei Verfahren zur Transkription bzw. Annotation von Twitter-Interaktionen wurden bisher skizziert: als einfacher textueller Beleg, als standardisiertes Datum in CMC-TEI und als Bildschirmfoto. Hinsichtlich ihrer Qualität lassen sich die Verfahren nicht pauschal beurteilen, vielmehr zeigt sich, dass je nach Funktion unterschiedliche Typen angemessen sein können. Ist man daran interessiert, einen nachnutzbaren Datensatz aufzubauen, der in einem Forschungsnetzwerk verwendet werden kann, ist eine Transkription als CMC-TEI sicher hilfreicher als eine Sammlung von Screenshots. Für eine qualitative Studie zur interaktionsorientierten Bildnutzung hingegen kann ein textueller Nachweis in Kombination mit Bildern völlig ausreichend sein. Man kann diese Transkriptionsverfahren aus einer multimodalen Perspektive betrachten und sie in Bezug auf das genutzte Zeichenrepertoire vergleichen. Cowan & Kress (2017) greifen dazu auf den Begriff der Notationsressource zurück. Notationen kann man verstehen als jene Zeichen, die verwendet werden, um ausgewählte Aspekte des kommunikativen Verhaltens zu repräsentieren; ein Transkriptionssystem besteht aus der Summe aller (potenziellen) Notationen und den Regeln, wie dieses Inventar an notationalen Zeichen angeordnet werden kann (Kowal & O ’ Connell 2014: 68). In Transkripten dienen Notationen dazu, bestimmte Dinge festzuhalten, sie zu vermerken und so die multimodale Produktion von Bedeutung zu dokumentieren. Auf diese Weise unterstützt der Prozess der Notation bestimmte „ Noticings “ (Cowan & Kress 2017: 59). Transkriptionskonventionen gehen in der Regel sehr bewusst mit dem Notationsinventar um. So wurde GAT 2 bewusst so gestaltet, dass Transkripte mit gängigen Textverarbeitungsprogrammen erstellt werden können (Selting et al. 2009: 354). Aus einer multimodalen Perspektive sind Transkriptionen damit mit einer Veränderung der Medialität verbunden. Wie Kress (2005) ausgeführt hat, gibt es bei diesem Wechsel der Medialität nicht nur Verluste, sondern auch Gewinne. So ist es oft gerade das Ziel der Transkription, nicht nur bestimmte flüchtige Aspekte zu fixieren, sondern durch die Reduktion von Komplexität auch bestimmte Aspekte in den Vordergrund zu rücken, die im Originalmaterial nicht unmittelbar ersichtlich sind. Das Bildschirmfoto ist aus der Perspektive der multimodalen Transkription ein recht leistungsfähiges Vehikel der Notation: Es erlaubt, die Tweets in ihrer multimodal wahrnehmbaren Erscheinung zu vergegenwärtigen und im Forschungskontext zu rekontextualisieren. Auf diese Weise wird nicht nur nachweisbar, dass ein Bild verlinkt und in den Tweet integriert wurde; es kann beispielsweise auch deutlich gezeigt werden, welche prominente Stellung die 196 Daniel Pfurtscheller Darstellung des Bildes in der medialen Umgebung von Twitter einnimmt. Im Hinblick auf die Transkription digitaler Multimodalität sind Bildschirmfotos dabei stets ausschnitthaft und mit einer Reduktion verbunden. Alles, was auf dem Bildschirm wahrnehmbar wird, basiert auf einer langen Kette von Rechenprozessen. Bei Social-Media-Plattformen wie Twitter haben wir es mit komplexen Softwarearchitekturen zu tun, die aus Skripten, die auf dem lokalen Rechner laufen, und serverseitigen Ressourcen bestehen. Die Bildschirmansicht ist das Ergebnis einer komplexen parametrischen Unterstruktur, die nur das erfasst, was auf einem bestimmten Gerät, in einer bestimmten Konfiguration und zu einem bestimmten Zeitpunkt gerendert wurde. Diese gerenderte Sicht ist jedoch nur die oberste (d. h. direkt auf dem Bildschirm wahrnehmbare) Schicht einer dynamischen Unterstruktur, die aus verschiedenen Flächen besteht. Dieser dynamische und dreidimensionale Unterbau der HTML-Elemente kann entlang einer Z-Achse visualisiert werden, indem man die hypertextuellen Layer verwendet, die im Quellcode der Plattform zu finden sind (Abb. 4; ► eContent_PF_b). Neben der Auseinandersetzung mit der Leistungsfähigkeit der bildschirmgestützten Datendokumentation geht es bei der Reflexion über multimodale Transkription auch darum, das Bewusstsein dafür zu schärfen, was Bildschirmfotos sind: die ausschnitthafte Projektion vielschichtiger Rechenprozesse auf eine fixierte Fläche. Abb. 4: Rendersicht und dynamischer Unterbau Digitale Medienumgebungen lassen sich nicht auf eine einzige Ansicht reduzieren, die als kanonisch gelten kann. Die Darstellung des Userinterface ist immer an bestimmte Einstellungen und technische Gegebenheiten geknüpft. Bildschirmfotos sind daher nicht nur datierbare Momentaufnahmen, sondern sie verweisen indexikalisch immer auch auf den Zeitpunkt der Aufnahme und die technische Ausstattung der Person, die das Bildschirmfoto erstellt hat. Bildschirmfotos können zudem nur eine statische Sicht auf potenziell interaktiv eContent_PF_b. mp4 Medienlinguistisch transkribieren 197 erschließbare Angebote bieten. Diese grundsätzliche Einschränkung betrifft digitale Angebote insgesamt, zeigt sich aber auch bei vergleichsweise kleinen Datenausschnitten. In der Regel muss daher auch ein Tweet selbst als nonlinearer Beitrag konzeptionalisiert werden. Das wird noch deutlicher, wenn Twitterbeiträge mit Bildern, Videos oder anderen Elementen ergänzt und multimodal ausgebaut werden. In Abbildung 5 ist neben der schematischen Darstellung der Retweet-Umgebung ein Bildschirmfoto eines derart komplex ausgebauten Zitations-Tweets zu sehen. Abb. 5: Komplexer Zitations-Retweet Ähnlich wie im oben besprochenen Beispiel geht es auch hier um das Zitieren eines als besonders schlagfertig wahrgenommen Konterzugs. Kontext des Beispiels ist die Präsidentschaftswahl in den USA 2020. Als Reaktion auf die Forderung von Donald Trump, die Stimmauszählung vorzeitig zu stoppen, schrieb Greta Thunberg: „ So ridiculous. Donald must work on his Anger Management problem, then go to a good old fashioned movie with a friend! Chill Donald, Chill! “ . Einen bis auf den Namen wortgleichen Tweet hatte Trump fast ein Jahr früher über Greta Thunberg geschrieben, als diese im Dezember 2019 vom Times Magazin zur „ Person des Jahres “ ernannt wurde. Diese wörtliche Übernahme wurde als virale Retourkutsche millionenfach rezipiert und über achtzigtausendmal auf ähnliche Art und Weise via Zitierung mit anderen geteilt. Im ausgewählten Beitrag wird der Thunberg-Tweet zitiert, mit einem Textkommentar versehen und mit Bildern ergänzt (die in diesem Fall wiederum Bildschirmfotos von Tweets sind). Alle diese Bereiche sind interaktive Flächen in der medialen Umgebung von Twitter, die verschiedene Aktivitäten und 198 Daniel Pfurtscheller mediatisierte Verknüpfungsaktionen ermöglichen: Der Text kann markiert und kopiert werden; durch Anklicken der Vorschaubilder können die per Bildschirmfotos eingefügten Tweets einzeln betrachtet, verglichen oder sogar wiederverwendet werden; der in das Zitat eingebettete Tweet ermöglicht es wieder zum ursprünglichen Kontext der zitierten Interaktion zu navigieren ( ► eContent_PF_c). Im Hinblick auf die Problemstellung des multimodalen Transkribierens ergibt sich die Frage, wie solche nicht-linearen und interaktiven Elemente dokumentiert, annotiert und transkribiert werden können und welche theoretischen Konsequenzen dies für die Untersuchung der digitalen Multimodalität hat. 5 Multimodalität und Affordanzen digitaler Medienumgebungen In der Regel haben wir es in der Online-Kommunikation mit nicht-linearen und interaktiven Umgebungen zu tun, die auf mehreren Ebenen multimodal ausgestaltet sind. Wie im letzten Beispiel deutlich wurde, ist bereits ein einzelner Social-Media-Post ein non-linearer Beitrag, der im Rahmen der digitalen Umgebung an spezifische Affordanzen (Pentzold, Fraas & Meier 2013) geknüpft ist. Im Fall von Twitter ist damit beispielsweise die Möglichkeit gemeint, einen anderen Beitrag zu zitieren, statische und bewegte Bilder einzufügen etc. Zu diesen plattformspezifischen Affordanzen kommen noch weitere Handlungsoptionen, die sich aus der technologischen Infrastruktur und Software ergeben (z. B. Copy-und-Paste von Inhalten, Verlinkungen via URLs etc.). Plattformbetreiber haben umfangreichere Handlungsmöglichkeiten. So zeigt sich die Volatilität digitaler Medienumgebungen im eben besprochenen Beispiel auch darin, dass der ursprüngliche Tweet von Donald Trump inzwischen nicht mehr abrufbar ist, weil sein Account unterdessen gesperrt wurde. Der Trump-Tweet überdauert jedoch diese Löschung im Bildschirmfoto des Nutzers (gewissermaßen als dokumentierende Notation). Vor diesem Hintergrund kann die Einbindung der Bildschirmfotos auch als ein Verfahren verstanden werden, das den intertextuellen Zusammenhang der zitierten Interaktion für andere nachvollziehbar macht. Websites, Online-Plattformen und mobile Apps etablieren dabei jeweils spezifische mediale Rahmenbedingungen, geben das Repertoire der verwendbaren Zeichen vor, bestimmen Interaktionsprozesse und strukturieren so kommunikative Praktiken. Aus medienlinguistischer Perspektive ist es daher geboten, sich neben der Analyse der eigentlichen Kommunikationsdaten (d. h. den individuellen Kommunikationsbeiträgen in der Form von Kommentaren, Videos, Blogpostings etc.) auch mit den technischen Bedingungen ihrer ProeContent_PF_c. mov Medienlinguistisch transkribieren 199 duktion und Einbettung in gestaltete Medienumgebungen auseinanderzusetzen (Siever 2015: 342). Plattformen wie Twitter oder YouTube stellen als „ kommunikative Zentren für die Veröffentlichung individueller One-to-Many-Kommunikation “ (Meier 2016: 430) eine allgemein zugängliche Infrastruktur zur Verfügung und schaffen durch explizite Regeln und Designentscheidungen strukturelle Rahmenbedingungen (Kavoori 2015). Barton & Lee (2013: 29) haben darauf hingewiesen, dass die Interaktion hier in einem stark vorstrukturierten „ designed space “ stattfindet. Durch die Nutzung der Dienste erklärt man sich bereit, innerhalb einer vorgegebenen Struktur zu kommunizieren, die an Affordanzen der Videoplattform gebunden ist. Die Möglichkeiten werden sowohl durch das wahrnehmbare Front-End der Benutzeroberfläche als auch durch das Back-End (die nicht öffentlich sichtbare Substruktur des Systems) gesteuert und „ datenbank- und softwareseitig vorstrukturiert “ (Meier 2016: 431). Die Herausforderung für die Analyse und die multimodale Transkription besteht nun darin, zu entscheiden, wie und in welcher Tiefe die medialen Affordanzen beschrieben werden sollen und mit welchen Notationsmitteln sich das multimodale Plattformdesign dokumentieren und präsentieren lässt. Zur Beschreibung eines Teilbereichs eines multimodalen Ensembles, der für sich gestaltet werden kann, wurde der Begriff des Canvas vorgeschlagen. Darunter verstehen Wildfeuer, Bateman & Hiippala (2020: 103 - 104) „ sowohl reelle als auch virtuelle Umgebungen, Orte oder Flächen, in bzw. auf die die jeweiligen materiellen Regelmäßigkeiten ‚ geschrieben ‘ oder eingetragen sein können “ . In Abbildung 6 habe ich versucht, die Subcanvases einer exemplarischen YouTube-Videoseite zu illustrieren. Die Videoseite ist für verschiedene Aufgaben eingerichtet (Kavoori 2011: 5): das Video (a.1) und zugehörige Textinformationen (a.2 und a.3) werden präsentiert, ein Kommentarbereich (b) ermöglicht Partizipation der Nutzer*innen und es gibt algorithmisch generiert Hinweise auf weitere Videoangebote (c); ebenso ist im Design ein Platz für Werbung (d) reserviert. 200 Daniel Pfurtscheller Abb. 6: Seitenumgebung von YouTube.com Man kann diese Teilbereiche als multimodale Subcanvases der Videoseite von YouTube verstehen, mit jeweils spezifischen Anforderungen für die multimodale Transkription: Jeder Subcanvas aktiviert spezifisches Wissen, das wir aus anderen Kontexten und Forschungsprojekten in die Situation mit einbringen. Es beinhaltet auch Wissen darüber, wie Zeichenmodalitäten in der jeweiligen Situation bzw. auf dem jeweiligen Canvas funktionieren können und wie dieses Funktionieren entsprechend analytisch zu erarbeiten ist. (Wildfeuer, Bateman & Hiippala 2020: 262) Jede Teilfläche des multimodalen Ensembles hat spezifische Eigenschaften und Regeln, zum Beispiel hinsichtlich der Affordanzen oder des Inventars an nutzbaren Zeichen. Der Videoplayer, der Kommentarbereich und die Empfehlungsliste unterscheiden sich folglich nicht nur funktional, sondern auch hinsichtlich ihrer potenziellen multimodalen Dichte: Das Videomaterial selbst bietet den größten kommunikativen Spielraum und führt daher bei einer entsprechend engen Übertragung auch zu einem entsprechend dichten Transkript. Allerdings erlaubt es der Canvas-Begriff auch, „ größere, komplexe kommunikative Situationen in kleinere, kompatible Einzelteile zu zerlegen “ (Wildfeuer, Bateman & Hiippala 2020: 121). Das Prinzip dabei lautet Teile-und-Herrsche: Der Canvas-Begriff kann iterativ angewendet werden, um die Kompositionalität digitaler Multimodalität auf einer Makro- oder Mikroebene zu erfassen und der Transkription zugänglich zu machen (siehe Material ► eContent_PF_d). Bei dem vorliegenden Video- Beispiel handelt es sich um ein sogenanntes „ Reaktionsvideo “ . Das sind VideoeContent_PF_d. mp4 Medienlinguistisch transkribieren 201 beiträge, in denen Personen auf andere Videos reagieren, die meist auch auf YouTube erschienen sind (McDaniel 2020). Im konkreten Fall handelt es sich um ein Reaktionsvideo der zweiten Stufe: Der österreichische Videoproduzent KsFreak reagiert darin auf Reaktionen auf sein zuvor veröffentlichtes Musikvideo. Wie bei solchen Reaktionsvideos üblich, wird die intertextuelle Kette durch mehrfache Überlagerungen in den Videodaten sichtbar (Abb. 7). Im ersten Reaktionsvideo läuft der ursprüngliche Beitrag des Musikvideos im Hintergrund, in einem kleinen Ausschnitt davor ist die reagierende Person zu sehen, die den Videoplayer bedient und kommentiert. Dieses Reaktionsvideo ist wiederum Ausgangspunkt für den Musiker selbst, der in ähnlicher Weise auf die Reaktion auf sein Werk reagiert. Durch diese palimpsest-artige Überlagerung ist dieses Video ein extremes Beispiel für intertextuelle Verdichtung. Abb. 7: Verschachtelte Subcanvases innerhalb eines YouTube-Videos Diese Konstellation bleibt während des gesamten Videos konstant. Ist sie auf diese Weise anhand dieser annotierten Zusammenstellung geklärt, kann die Transkription der gegenseitigen Kommentare mit relativ überschaubarem Aufwand durchgeführt werden. Eine solche visuelle Aufbereitung der multi- 202 Daniel Pfurtscheller modalen Medienumgebung und der Subcanvases des Videoensembles kann insofern auch dazu dienen, die multimodale Transkription durch Auslagerung von Teilbeschreibungen zu entlasten. 6 Mediatisierte Handlungen und Anreichungsprozesse Während bisher davon gesprochen wurde, dass multimodale Transkription mit Reduktionsprozessen einhergeht, möchte ich nun den umgekehrten Weg einschlagen. Dies gibt mir abschließend die Gelegenheit, die Relevanz von mediatisierten Praktiken und unterschiedlichen Datenquellen zu diskutieren. Wenn in medienlinguistischen Studien nach dem kommunikativen Handeln in und mit Medien gefragt wird, geht es darum, den situierten Umgang mit digitalen Handlungsressourcen zu beschreiben. Gewendet auf die Fragestellung des Beitrags geht es also darum, wie sich mediatisierte Praktiken transkribieren lassen. Unter mediatisierten Praktiken verstehe ich (Bündel von) Handlungen, die an einer oder mehreren Stellen digitale Technologie involvieren, gleichzeitig auf prä-digitalen Blaupausen beruhen, also außerhalb digitaler Medien erworben werden und kulturell und sozial verankert sind. Hinter dem Begriff der mediatisierten Praktik, der zuletzt von Androutsopoulos (2016) für die medienlinguistische Forschung stark gemacht wurde, stehen also zwei medientheoretische Annahmen: Sprachliches Handeln in und mit digitalen Medien ist von Technologie durchdrungen. Gleichzeitig vollzieht sich sprachliches Handeln in digitalen Medienumgebungen vor der Folie eines prä-digitalen Erwerbs und Gebrauchs von Sprache. Die eingangs behandelte Twitter-Auseinandersetzung zwischen Hofer und Strache hat die Besonderheiten solche mediatisierten Praktiken schon vor Augen geführt: So ist das schlagfertige Kontern von Hofer eine Praktik, die im Kontext der digitalen Medienumgebung nach anderen Regeln gespielt werden kann (zeitlich verzögert, unter Verwendung eines Bildes, etc.). Die Multimodalität der mediatisierten Praktiken ist eine spezifische Herausforderung für die Transkription. Ich möchte dies im Folgenden am Beispiel von Twitter als Social-Media-Plattform noch einmal ausführen. Ich konzentriere mich auf ein Phänomen, das zu den spezifischen Affordanzen von Twitter gehört: Zitierungen (quote retweets). Jeder Twitter-Beitrag kann innerhalb der Plattform zitiert und im Zuge des Zitats auch kommentiert werden. Am Beispiel eines konkreten Zitiervorgangs auf Twitter habe ich versucht zu zeigen, auf welchen Ebenen der Umgang mit digitalen Medien zu beobachten ist ( ► eContent_PF_e). Um die situierte Nutzung digitaler Medien zu erfassen, besteht eine Möglichkeit darin, die Situation, in der die Mediennutzung verankert ist, videografisch eContent_PF_e. mp4 Medienlinguistisch transkribieren 203 zu dokumentieren (Abb. 8). Dabei erhält man (abhängig vom kameratechnischen Aufwand) eine oder mehrere Ansichten, die gleichzeitig die körperlichen Aktivitäten der beteiligten Personen, verbale Äußerungen und Bildschirmaktivitäten sichtbar machen. In den Videodaten hat man es mit einem kontinuierlichen Strom von körperlichen Aktivitäten und Bildschirmaktivitäten zu tun, meist verbunden mit verbalen Äußerungen. Diese erste Beobachtungsebene dokumentiert die Interaktion einer Person mit einem Desktop- Computer: Ein Beitrag auf Twitter wird in einem Browser aufgerufen und anschließend als Retweet-Zitat veröffentlicht. Eine etwas andere Sicht auf die Interaktion mit digitalen Medien eröffnet sich, wenn man sich lediglich auf eine Aufzeichnung der Bildschirmaktivitäten konzentriert: Diese Sichtweise ist eine Reduktion der Multimodalität insofern, als die Bildschirmaktivitäten nur ein Teil der übergeordneten Situation ist. Abb. 8: Beobachtungsebene Interaktion mit und auf Bildschirmen Auf einer anderen Betrachtungsebene kann man den Vorgang des Zitierens untersuchen und nachvollziehen, indem man den digitalen Spuren folgt, die diese Aktivitäten auf der Twitter-Plattform hinterlassen (Abb. 9). Die digitalen Spurdaten (trace data), die betrachtet werden können, sind die verfestigten Beiträge und Datenwerte, die durch mediatisierte Handlungen erzeugt und verändert werden. Im konkreten Fall sind dies z. B. die Anzahl der Zitierungen, die im ursprünglichen Beitrag sowohl in der Benutzeroberfläche (UI) als auch über die Programmierschnittstelle ablesbar sind. Die Retweet-Aktion verändert nicht nur diese Datenbankwerte, sondern generiert auch einen neuen Zitat- Tweet, der als eigenes Datenprodukt (Retweet) auf Twitter greifbar wird und eine Reihe weiterer relationaler Metadaten mit sich bringt. Sowohl über die Benutzeroberfläche als auch über den API-Zugriff lassen sich entlang dieser Spurdaten einzelne Aktivitäten und kommunikative Handlungen rekonstruieren sowie hinsichtlich ihrer Verflechtungsgrade analysieren (z. B. mit den Mitteln der Netzwerkanalyse). 204 Daniel Pfurtscheller Abb. 9: Beobachtungsebene digitale Spurdaten Je nach gewähltem Ansatz ergeben sich unterschiedliche Sichten auf die digitale Multimodalität und es können unterschiedliche Daten transkribiert und annotiert werden. Beispielsweise lassen sich auf Basis der Videodaten auf Beobachtungsebene 1 auch Produktions- und Bearbeitungsaktivitäten transkribieren (wie z. B. bei Beißwenger 2009: 131). Die leicht verfügbaren Spurdaten von Twitter erlauben es, ausgehend von einer Mikroperspektive auf einen einzelnen Tweet größeren Diskurszusammenhängen nachzugehen und diese aus Makroperspektive zu visualisieren (wie z. B. bei Maireder 2014: 62 - 63). Die zentrale Herausforderung der Datenarbeit betrifft dabei das Miteinander von Datenerhebung und -aufbereitung. Das gilt insbesondere, wenn die Medienlinguistik die Verbindung von digitalem Sprachgebrauch und sozialen Praktiken in den Blick nimmt. So hat Dang-Anh (2019: 191 - 192) für seine medienlinguistische Untersuchung von Straßenprotesten die Primärdaten aus Twitter entnommen, diese aber für eine „ multiple Perspektivierung “ durch sekundäre Daten wie Situationsbeobachtungen, Interviews, Feldnotizen und Screenshots angereichert. Die multimodale Transkription digitaler Medienkommunikation steht vor der Herausforderung, die unterschiedlichen Datenquellen hinsichtlich ihrer Leistungsfähigkeit zu reflektieren und funktional im Hinblick auf das spezifische Erkenntnisinteresse zu nutzen. 7 Schluss: Multimodale Transkripte als verdichtete Daten Die Multimodalität von digitalen Medienumgebungen stellt Transkriptionsmethoden vor eine doppelte Aufgabe: Zum einen gilt es, nicht nur einzelne Beiträge zu berücksichtigen, sondern diese auch innerhalb der strukturell relevanten Mediengestaltung zu kontextualisieren; zum anderen muss die komplexe Rollenverteilung zwischen den unterschiedlichen Beteiligten und Plattformfunktionalitäten berücksichtigt werden. Medienlinguistisch transkribieren 205 Transkripte sollten den für das jeweilige Projekt notwendigen analytischen Nutzen bieten. Um dies zu erreichen, muss im medienlinguistischen Forschungsprozess immer eine Balance zwischen „ groben “ oder „ feinen “ Transkripten gefunden werden. Ein traditionelles Qualitätskriterium bei der Transkription ist die Detailtreue bzw. Wiedergabegenauigkeit ( „ fidelity “ , Ayaß 2015: 510). Generelle Aussagen über die Qualität von Transkripten sind jedoch kaum zu treffen. Ein Transkript ist nicht intrinsisch korrekt, sondern für einen bestimmten Zweck geeignet: „ it is the research interests that determine the choice of transcription “ (Flewitt et. al 2014: 57). Allerdings können analytischer Nutzen und intersubjektives Verstehen in einem Spannungsverhältnis stehen, weil multimodale Transkripte als zunehmend komplexe Ensembles auch schwieriger zu entschlüsseln und für unkundige Lesende weniger zugänglich sind. Stukenbrock (2009: 147) hat im Zuge ihres Aufrufs zur Reflexion der Transkription darauf hingewiesen, dass die Transformationsprozesse umso weitreichender sind, „ je zahlreicher (quantitativ) und je heterogener (qualitativ) die zu betrachtenden Einzelphänomene sind “ . Im Fall der Untersuchung von digitaler Multimodalität ist genau das der Fall - man hat viele und viele bunte Daten. Aber gerade die Medienlinguistik ist herausgefordert, den notwendigen Wandel der Medialitäten nicht nur als Makel, sondern als Werkzeug zu begreifen. Transkriptionspraktiken sind dabei nicht isoliert, sondern im Kontext der medienlinguistischen Methodik zu betrachten. In Anlehnung an das Konzept der „ dichten Beschreibung “ von Geertz (1973) haben Latzko-Toth et al. (2016: 202) erklärt, wie sich digitale Spurdaten im Zug einer Online-Ethnografie „ eindicken “ lassen ( „ thickening the data “ ). Wie ich versucht habe zu zeigen, ist diese Verdichtung im Fall des medienlinguistischen Transkribierens nicht als additives Hinzufügen von immer mehr Details zu verstehen, sondern als Transformationsprozess im Wechselspiel von Reduktion und Anreicherung. Literaturverzeichnis Androutsopoulos, Jannis. 2016. Mediatisierte Praktiken: Zur Rekontextualisierung von Anschlusskommunikation in den Sozialen Medien. In Arnulf Deppermann, Helmuth Feilke & Angelika Linke (Hrsg.), Sprachliche und kommunikative Praktiken ( Jahrbuch Des Instituts Für Deutsche Sprache 2015), 337 - 367. Berlin, Boston: De Gruyter. https: / / doi.org/ 10.1515/ 9783110451542-014. Ayaß, Ruth. 2015. Doing data: The status of transcripts in Conversation Analysis. Discourse Studies 17(5). 505 - 528. https: / / doi.org/ 10.1177/ 1461445615590717. Baldry, Anthony & Thibault, Paul J. 2006. Multimodal Transcription and Text Analysis: A. Multimedia Toolkit and Coursebook. London: Equinox. 206 Daniel Pfurtscheller Barton, David & Carmen Lee. 2013. Language Online. Investigating Digital Texts and Practices. London, New York: Routledge. Bateman, John. 2008. Analysing Multimodal Documents: A Foundation for the Systematic Analysis of Multimodal Documents. New York: Palgrave Macmillan. Beißwenger, Michael & Harald Lüngen. 2020. CMC-core: a schema for the representation of CMC corpora in TEI. Corpus (20). https: / / doi.org/ 10.4000/ corpus.4553. http: / / jour nals.openedition.org/ corpus/ 4553. Beißwenger, Michael; Fladrich, Marcel; Imo, Wolfgang; Ziegler, Evelyn. 2020. Die Mobile Communication Database 2 (MoCoDa 2). In: Henning Lobin, Konstanze Marx & Axel Schmidt (Hrsg.): Deutsch in sozialen Medien: interaktiv, multimodal, vielfältig, 349 - 352. Jahrbuch 2019 des Leibniz-Instituts für Deutsche Sprache. Berlin/ Boston: De Gruyter Beißwenger, Michael. 2007. Sprachhandlungskoordination in der Chat-Kommunikation. Berlin u.a: de Gruyter. Beißwenger, Michael. 2009. Multimodale Analyse von Chat-Kommunikation. In Karin Birkner & Anja Stukenbrock (Hrsg.): Die Arbeit mit Transkripten in Fortbildung, Lehre und Forschung, 117 - 143. Mannheim: Verlag für Gesprächsforschung. Beißwenger, Michael. 2020. Internetbasierte Kommunikation als Textformen-basierte Interaktion: ein neuer Vorschlag zu einem alten Problem. In Konstanze Marx, Henning Lobin & Axel Schmidt (Hrsg.), Deutsch in Sozialen Medien, 291 - 318. Berlin, Boston: De Gruyter. Benson, Phil. 2017. The Discourse of YouTube. New York, London: Routledge. Böckmann, Barbara, Dorothee Meer, Michelle Mohn, Anastasia-Patricia Och, Ilaria Paltrinieri, Alina Renelt, Christine Ramdorf, Daniel Rettinghausen, Katharina Staubach & Martin Tenz. 2019. Multimodale Produktbewertungen in Videos von Influencerinnen auf YouTube: Zur parainteraktiven Konstruktion von Warenwelten. Zeitschrift für Angewandte Linguistik 70(1). 139 - 172. Bou-Franch, Patricia & Pilar Garcés-Conejos Blitvich. 2018. Relational work in multimodal networked interactions on Facebook. Internet Pragmatics 1(1). 134 - 160. https: / / doi.org/ 10.1075/ ip.00007.bou. Burger, Harald & Martin Luginbühl. 2014. Mediensprache. 4., überarb. und erw. Aufl. Berlin, New York: de Gruyter. https: / / doi.org/ 10.1515/ 9783110285925. Cowan, Katharine & Gunther Kress. 2017. Documenting and Transferring Meaning in the Multimodal World. In: Frank Serafini & Elisabeth Gee (Ed.). Remixing Multiliteracies: Theory and Practice from New London to New Times 50 - 61. Dang-Anh, Mark. 2019. Protest twittern. Eine medienlinguistische Untersuchung von Straßenprotesten. Bielefeld: transcript. Davidson, Christina. 2009. Transcription: Imperatives for Qualitative Research. International Journal of Qualitative Methods 8(2). 35 - 52. Flewitt, Rosie; Hampel, Regine; Hauck; Mirjam; Lancaster, Lesley. 2014. What are multimodal data and transcription? In: Carey Jewitt (Ed.): The Routledge Handbook of Multimodal Analysis, 44 - 59. New York: Routledge. Medienlinguistisch transkribieren 207 Geertz, Clifford. 1973. Dichte Beschreibung. Bemerkungen zu einer deutenden Theorie von Kultur. In: Dichte Beschreibung. Beiträge zum Verstehen kultureller Systeme, 7 - 48. Frankfurt a. M.: Suhrkamp. Giles, David, Wyke Stommel & Trena M. Paulus. 2017. The Microanalysis of Online Data: The next stage. Journal of Pragmatics 115. 37 - 41. Herring, Susan C. 2019. The Coevolution of Computer-Mediated Communication and Computer-Mediated Discourse Analysis. In Patricia Bou-Franch & Pilar Garcés- Conejos Blitvich (eds.), Analyzing Digital Discourse, 25 - 67. Cham: Springer. https: / / doi.org/ 10.1007/ 978-3-319-92663-6_2. Hiippala, Tuomo. 2021. Distant viewing and multimodality theory: Prospects and challenges. Multimodality & Society. https: / / doi.org/ 10.1177/ 26349795211007094. Jewitt, Carey. 2016. Multimodal analysis. In Alexandra Georgakopoulou & Tereza Spilioti (eds.), The Routledge handbook of language and digital communication, 69 - 84. London: Routledge. Kavoori, Anandam. 2011. Reading YouTube. New York, Bern u. a.: Peter Lang. Kavoori, Anandam. 2015. Making Sense of Youtube. Global Media Journal 13(24). 1 - 25. http: / / www.globalmediajournal.com/ open-access/ making-sense-of-youtube.pdf. Kowal, Sabine & Daniel C. O ’ Connell. 2014. Transcription as a Crucial Step of Data Analysis. In Uwe Flick (ed.), The SAGE Handbook of Qualitative Data Analysis, 64 - 78. London: SAGE. Kress, Gunther. 2005. Gains and losses: New forms of texts, knowledge, and learning. Computers and Composition 22(1). 5 - 22. https: / / doi.org/ 10.1016/ j.compcom.2004. 12.004. Latzko-Toth, Guillaume, Claudine Bonneau & Mlanie Millette. 2016. Small Data, Thick Data: Thickening Strategies for Trace-based Social Media Research. In The SAGE Handbook of Social Media Research Methods, 199 - 214. https: / / doi.org/ 10.4135/ 97814 73983847.n13 Luginbühl, Martin. 2015. Media Linguistics: On Mediality and Culturality. 10plus1 (1). 9 - 26. http: / / 10plus1journal.com/ wp-content/ uploads/ 2015/ 09/ 00_OPENER_Lugin buehl.pdf. Luginbühl, Martin. 2019. Mediale Durchformung. Fernsehinteraktion und Fernsehmündlichkeit in Gesprächen im Fernsehen. In Konstanze Marx & Axel Schmidt (Hrsg.), Interaktion und Medien. Interaktionsanalytische Zugänge zu medienvermittelter Kommunikation, 125 - 146. Heidelberg: Winter. Maireder, Axel. 2014. Ein Tweet: Zur Struktur von Netzöffentlichkeit am Beispiel Twitter. In Heike Ortner, Daniel Pfurtscheller, Michaela Rizzolli & Andeas Wiesinger (Hrsg.), Datenflut und Informationskanäle, 55 - 70. Innsbruck: iup. Marx, Konstanze & Georg Weidacher. 2014. Internetlinguistik. Tübingen: Narr. McDaniel, Byrd. 2020. Popular music reaction videos: Reactivity, creator labor, and the performance of listening online. New Media & Society https: / / doi.org/ 10.1177/ 1461 444820918549. Meer, Dorothee & Ina Pick. 2019. Einführung in die Angewandte Linguistik: Gespräche, Texte, Medienformate analysieren. Berlin: J. B. Metzler. 208 Daniel Pfurtscheller Meier, Stefan. 2016. Websites als multimodale digitale Texte. In Hartmut Stöckl & Nina- Maria Klug (Hrsg.), Handbuch Sprache im multimodalen Kontext, 410 - 436. Berlin, New York: De Gruyter. Mondada, Lorenza. 2014. Conventions for multimodal transcription. https: / / franzoesis tik.philhist.unibas.ch/ fileadmin/ user_upload/ franzoesistik/ mondada_multimodal_ c onventions.pdf Ochs, Elinor. 1979. Transcription as theory. Developmental Pragmatics, 10(1), 43 - 72. O ’ Halloran, Kay L., Gautam Pal & Minhao Jin. 2021. Multimodal approach to analysing big social and news media data. Discourse, Context & Media 40. https: / / doi.org/ 10.1016/ j.dcm.2021.100467. Pentzold, Christian, Claudia Fraas & Stefan Meier. 2013. Online-mediale Texte: Kommunikationsformen, Affordanzen, Interfaces. Zeitschrift für germanistische Linguistik 41(1). 81 - 101. https: / / doi.org/ 10.1515/ zgl-2013-0005 Pfurtscheller, Daniel. 2020. Öffentlichen Sprachgebrauch auf Facebook untersuchen. Zugänge, Probleme, Erste Hilfe. In Deutsch in Sozialen Medien Interaktiv - multimodal - vielfältig, vol. 2019, 355 - 358. Berlin, Boston: De Gruyter. https: / / doi.org/ 10.1515/ 9783110679885-020. Recktenwald, Daniel. 2017. Toward a transcription and analysis of live Streaming on Twitch. Journal of Pragmatics 115, 68 - 81. Schmidt, Axel & Konstanze Marx. 2020. Making Let ’ s plays watchable: An interactional approach to gaming visualizations. In Crispin Thurlow, Christa Dürscheid & Federica Diémoz (eds.), Visualizing Digital Discourse, 131 - 150. Berlin, Boston: De Gruyter. Schneider, Jan Georg. 2008. Spielräume der Medialität (Linguistik - Impulse & Tendenzen 29). Berlin, New York: De Gruyter. Schneider, Jan Georg & Hartmut Stöckl. 2011. Medientheorien und Multimodalität: Zur Einführung. In Jan Georg Schneider & Hartmut Stöckl (Hrsg.), Medientheorien und Multimodalität, 10 - 38. Köln: von Halem. Selting, Margret, Peter Auer, Dagmar Barth-Weingarten, Jörg Bergmann, Pia Bergmann, Karin Birkner & Elizabeth Couper-Kuhlen. 2009. Gesprächsanalytisches Transkriptionssystem 2 (GAT 2). Gesprächsforschung 10. 353 - 402. Siever, Christina Margrit. 2015. Multimodale Kommunikation im Social Web (Sprache - Medien - Innovationen 8). Frankfurt a. M.: Peter Lang. Stertkamp, Wolf & Lisa Schüler. 2014. Transkription multimodaler Gefüge: Herausforderungen bei der Untersuchung interaktiver Prozesse am PC. In Christine Moritz (ed.), Transkription von Video- und Filmdaten in der Qualitativen Sozialforschung, 311 - 358. Wiesbaden: Springer Fachmedien Wiesbaden. https: / / doi.org/ 10.1007/ 978-3- 658-00879-6_14. Stukenbrock, Anja. 2009. Herausforderungen der multimodalen Transkription: Methodische und theoretische Überlegungen aus der wissenschaftlichen Praxis. In: Karin Birkner & Anja Stukenbrock. 2009. Die Arbeit mit Transkripten in Fortbildung, Lehre und Forschung, 144 - 169. Verlag für Gesprächsforschung, Mannheim. Medienlinguistisch transkribieren 209 Thibault, Paul J. 2000. Multimodal transcription of a television advertisement: Theory and practice. In A. Baldry (Ed.), Multimodality and multimediality in the distance learning age, 311 - 385. Campobasso: Palladino. Wildfeuer, Janina, John A Bateman & Tuomo Hiippala. 2020. Multimodalität: Grundlagen, Forschung und Analyse. De Gruyter. 210 Daniel Pfurtscheller C Mehrsprachigkeit Telefondolmetschen Arabisch-Deutsch Gesprächstranskription im Spannungsfeld von Mehrsprachigkeit, schriftlichem Standard und Varietätenvielfalt 1 Rahaf Farag & Bernd Meyer Abstract: In diesem Beitrag wird anhand von per Telefon gedolmetschten Gesprächen zwischen einer deutschsprechenden Asylverfahrensberaterin und arabischsprechenden KlientInnen die Notwendigkeit eines reflektierten computergestützten Transkriptionsverfahrens für interaktionsbezogene Untersuchungen diskutiert. Gesprächstranskription erfordert die Verwendung eines romanisierten, rechtsläufigen Schriftsystems für die schriftliche und grafische Darstellung der zeitlichen Dimensionen, d. h. die Synchronizität, Simultaneität und Reziprozität des sprachlichen Handelns. Durch die Entwicklung einer transparenten Systematik zur Romanisierung und Übersetzung von Gesprächsdaten wird ihre Opazität sowohl für LeserInnen ohne Arabischkenntnisse als auch für Sprachkundige ohne Kenntnisse über die rekonstruierten Varietäten reduziert und ansatzweise eine Lesbarkeit auch für Nicht-Sprachkundige geschaffen. Dies ist für die Datenkuratierung und etwaige Nachnutzungen von besonderer Bedeutung. Keywords: Gesprochenes Arabisch, Varietätenvielfalt, Transkription, Mehrschriftigkeit, literarische Umschrift, Transkriptübersetzung, Telefondolmetschen 1 Dieser Beitrag baut auf Farag (2019) auf. Er entstand im Rahmen des von der Deutschen Forschungsgemeinschaft geförderten Projekts „ Turn-Taking und Verständnissicherung beim Telefondolmetschen Deutsch-Arabisch “ . Weitere Informationen zum Projekt auf ‹ https: / / ikk.fb06.uni-mainz.de/ forschung/ laufende-drittmittelprojekte/ laufednde-dritt mittelprojekte-tedo/ › (Februar 2021). Ein herzliches Dankeschön geht an die Deutsche Forschungsgemeinschaft für die Förderung des Vorhabens. 1 Einleitung Die Transkription bzw. Verschriftung natürlicher gedolmetschter Gesprächsdaten mittels computergestützter Verfahren ist seit vielen Jahren ein integraler methodischer Bestandteil der linguistischen Gesprächsanalyse 2 und auch der interaktionsorientierten Dolmetschforschung (Amato et al. 2018; Angermeyer et al. 2012; Apfelbaum 2004; Baraldi & Gavioli 2012; Bolden 2000; Braun 2013, 2017; Bührig & Meyer 2014; Davitti & Braun 2020; Meyer 2004; Rivas-Carmona 2018 u. a.). Angesichts der zunehmenden sprachlichen Heterogenität nicht nur in Europa im Zuge des Braingains, der Wirtschaftsmigration und der anhaltenden Fluchtbewegungen weltweit, ergeben sich vermehrt Untersuchungen auf der Basis von Transkripten mehrsprachiger Daten aus verschiedenen institutionellen Bereichen. Die Verfahren zur Erhebung und Konstitution der Daten (Elizitations- und Transkriptionsverfahren) werden jedoch nicht immer methodologisch reflektiert und offengelegt. Dies betrifft auch mehrsprachige Transkripte mit unterschiedlichen Schriftsystemen. 3 Der vorliegende Beitrag setzt sich zum Ziel, die methodischen Besonderheiten und Herausforderungen der empirischen Arbeit mit arabisch-deutschen Daten für interaktionsbezogene, linguistisch und translationswissenschaftlich motivierte Analysen natürlicher Gespräche aufzuzeigen. Zentrale Frage ist dabei, wie eine für gesprächsanalytische Fragestellungen geeignete Transkription erreicht werden kann. Ein besonderes Ziel der computergestützten Transkription ist darüber hinaus, die nachhaltige Zugänglichkeit, Vorhaltung und Nachnutzung der digital gespeicherten und aufbereiteten Gesprächsdaten für anderweitige Lehr- und Forschungszwecke zu ermöglichen und ihre Eingliederung als multimediale Sprachressource in eine digitale Forschungsinfrastruktur zu erleichtern. 4 Zu Beginn stellen wir den Forschungsrahmen und die erhobenen Daten (Abschnitt 2) vor, ehe wir die Anforderungen an deren Erschließung und die methodischen Herausforderungen vortragen (Abschnitt 3). Insbesondere skizzieren wir ein gesprächsanalytisch inspiriertes Transkriptionssystem 5 für 2 Gesprächsanalyse ist ein Sammelbegriff für die verschiedenen Forschungsrichtungen der gesprochenen Sprache, nämlich die Diskurs-, Dialog- und Konversationsanalyse (Hausendorf 2001: 971). In diesem Beitrag stehen schulenübergreifende methodische Aspekte der Arbeit mit empirischem Datenmaterial im Vordergrund. 3 Zu den Schwierigkeiten der Transkriptionsarbeit mit nicht lateinbasierten Schriftsystemen und dem Phänomen unterschiedlicher Gerichtetheit siehe auch Egbert et al. (2016). 4 Siehe hierzu etwa Schmidt et al. (2006). 5 Im Verständnis dieses Beitrags sind Transkriptionssysteme Zeicheninventare, mit denen gesprochene Sprache in einer verschrifteten Form dargelegt wird (z. B. Standardorthografie, literarische Umschrift, phonetische Umschrift). Transkriptionskonventionen 214 Rahaf Farag & Bernd Meyer gesprochenes Arabisch (Abschnitt 4). Im zweiten Teil wenden wir die formulierten Leitlinien (Abschnitt 4.1) anhand eines Beispielen an (Abschnitt 4.2) und instrumentalisieren sie zur exemplarischen Untersuchung eines Problemfalls aus gesprächsanalytischer Perspektive, um die Zielsetzung des Vorgehens und die darstellungsbezogenen Möglichkeiten, die das vorgeschlagene System mit sich bringt, in einer erweiterten Analyse zu verdeutlichen (Abschnitt 5). 2 Forschungsrahmen Im Rahmen des Forschungsprojekts „ Turn-Taking und Verständnissicherung beim Telefondolmetschen Arabisch-Deutsch “ wird der Frage nachgegangen, welche sprachlich-kommunikativen Verfahren die dolmetschenden Personen in medial vermittelten Dolmetschsituationen nutzen, um die mangelnde Kopräsenz mit den primären Gesprächsbeteiligten zu kompensieren. In gedolmetschten Gesprächen geht die Präsenz einer dritten Partei, der dolmetschenden Person, grundsätzlich mit zusätzlichen kommunikativen Herausforderungen einher. Die im Sammelband von Baraldi & Gavioli diskutierten Verfahren werden in der Regel unter dem Oberbegriff „ coordination “ zusammengefasst. „ Coordination “ beinhaltet sowohl inhaltsbezogene Redezüge, wie etwa Nachfragen bei Verstehensproblemen, als auch Handlungen, die einen geordneten Verlauf des Gesprächs ermöglichen sollen, wie etwa die explizite oder implizite turn-Zuweisung. Bei telefonisch erbrachten Verdolmetschungen stellt sich die Frage, wie die Beteiligten den Sprecherwechsel und die Bearbeitung von Kommunikationsbzw. Verständigungsbrüchen bewältigen. Während die Beteiligten in face-toface-Interaktionen für die Gesprächskoordination meist verschiedene Ausdrucksmodalitäten nutzen, die aufgrund der räumlichen und visuellen Kopräsenz verfügbar sind, wie etwa Interjektionen und Rückmeldungen (backchannels) und/ oder mimische und gestische Ressourcen (cues), stehen diese Ressourcen in telefonisch gedolmetschten Gesprächen nicht im gleichen Maße zur Verfügung. Ungeklärt ist bisher, wie koordinierende Aktivitäten beim Telefondolmetschen von den Beteiligten gemeinsam gestaltet werden, wenn visuelle und akustische Wahrnehmungsmöglichkeiten nicht oder nur begrenzt bestehen. Hierzu zählen die fortlaufende Aushandlung von Beteiligungsrollen (turn bezeichnen konventionalisierte Regeln für die schriftliche Repräsentation gesprochener Sprache (für eine Auswahl siehe u. a. Dittmar 2009; Ehlich & Switalla 1976; Redder 2001) und Transkriptionstools bzw. -editoren die Software-Werkzeuge des Transkribierens im engeren und weiteren Sinne (z. B. Annotation, Verwaltung von Metadaten). Alle drei Aspekte werden in dem Oberbegriff Transkriptionsverfahren zusammengefasst. Telefondolmetschen Arabisch-Deutsch 215 taking) und die Bewältigung von gesprächsorganisatorischen Problemen, wie simultanes Sprechen (Überlappung) und gegenseitige Unterbrechungen. Neben den formalen, gesprächsaufrechterhaltenden Aspekten richtet sich das Augenmerk der Untersuchung auf koordinierende Handlungen inhaltlicher Natur seitens der dolmetschenden Person zur vorbeugenden oder reparierenden Bearbeitung von potenziellen bzw. manifesten Verständigungsschwierigkeiten, zum Beispiel durch Wiederholungen und Erläuterungen (Birkner & Ehmer 2013) oder Reformulierungen (Bührig 1996) und weiteren adressatenorientierten, dem Kommunikationszweck adäquaten Verfahren, die ihr aus dem besonderen Beteiligungsstatus als involved actor (Wadensjö 1998) - trotz eingeschränktem Zugang zum Geschehen am anderen Ende der Leitung - erwächst und zugeschrieben wird. Verstehen wird in diesem Zusammenhang nicht als psychisch-kognitiver Prozess, sondern als interaktionaler Vorgang analysiert, der von den Beteiligten gestaltet wird. In diesem Sinne wird Verständigung als Aushandlungsprozess begriffen, in dem SprecherInnen und HörerInnen sich wechselseitig sinnvolles Handeln unterstellen und nur in bestimmten Fällen mentale Verarbeitungsprozesse und -probleme explizit versprachlichen und thematisieren (Deppermann & Schmitt 2008; Kameyama 2004; Mondada 2011). Untersucht werden gedolmetschte Beratungsgespräche zu asylbezogenen Themen im Sprachenpaar Arabisch-Deutsch. Die Gespräche fanden in dem üblichen Setting der Asylverfahrensberatung bei einer kommunalen Beraterin statt. Die KlientInnen sind Geflüchtete mit geringen oder ohne Deutschkenntnisse(n). Sie haben echte Beratungsanliegen. Doch die Möglichkeit, vorab ausgewählte, professionelle DolmetscherInnen in Präsenz oder per Telefon zu nutzen, besteht normalerweise nicht. Diese Möglichkeit wurde im Rahmen des Forschungsprojektes ausnahmsweise geschaffen, um die Datenerhebung zu erleichtern. Das Aufnahmesetting bezeichnen wir daher als semi-kontrolliert. Die dolmetschenden Personen wurden telefonisch dazu geschaltet. Sie konnten nur auditiv mit den wiederum physisch kopräsenten KlientInnen und BeraterInnen interagieren (telephone-based interpreting). Alle zugeschalteten DolmetscherInnen verfügten über langjährige Erfahrungen im Dolmetschen und Übersetzen. Zusätzlich zu den Audioaufnahmen wurden die Gespräche auch per Video aufgezeichnet. Abbildung 1 zeigt einen Screenshot zur Veranschaulichung des Erhebungssettings. 216 Rahaf Farag & Bernd Meyer Abb. 1: Screenshot des Erhebungssettings mit Beraterin, Klienten und räumlich getrenntem Dolmetscher Im Unterschied zum herkömmlichen Gesprächsdolmetschen von Angesicht zu Angesicht wohnen diesen besonderen Umständen, abgesehen von den räumlichen Verhältnissen, latente Quellen zur Entstehung bzw. Verstärkung von Verstehensproblemen inne. Hierzu zählen unter anderem (1) jegliche Störungen im Telefonnetz und (2) weitere technisch bzw. situativ nicht antizipierbare bzw. einfach behebbare Beeinträchtigungen (z. B. Hintergrundgeräusche und Lautstärkeschwankungen) sowie (3) die (fast immer) unterschiedlichen regionalen Varietäten von KlientIn und dolmetschender Person, die wohl am Telefon, vor allem bei mangelnder kommunikativer Reichweite der sprachlichen Äußerungen, ohne unterstützende visuelle Eindrücke, beispielsweise Lippenbewegungen, verstärkt werden. Die Aufbereitung der Daten in Form von Transkripten ermöglicht eine genauere Analyse der multimodalen Verfahren, mit deren Hilfe diese potentiellen Störquellen bearbeitet wurden. 3 Computergestützte Transkription gedolmetschter arabischdeutscher Gespräche: methodische Vorüberlegungen 3.1 Grundlegende Aspekte der Gesprächstranskription Die von uns erhobenen Daten sind audiovisuelle Aufzeichnungen dolmetschvermittelter Beratungsgespräche aus einem semi-kontrollierten Setting mit den Sprachen Arabisch und Deutsch. Die Verschriftung solcher Daten erfordert ein Verfahren, dass nicht nur den üblichen Erfordernissen der gesprächsanalyti- Telefondolmetschen Arabisch-Deutsch 217 schen Verfahren nachkommt, wie der Darstellung synchroner und reziproker Bedingungen mündlichen sprachlichen Handelns, der Erfassung redebegleitender Handlungen und prosodischer Aspekte sowie dem reflektierten Einsatz der Standardschreibung im Rahmen der „ Literarischen Umschrift “ ). Vielmehr muss auch geklärt werden, wie die Besonderheiten des Arabischen (in Laut und Schrift) mit den Mitteln des lateinischen Alphabets wiedergegeben werden können. Zur Darstellung der Multidimensionalität - des Mit- und Nacheinanders - des Geschehens nutzen wir die Konventionen der Halbinterpretativen Arbeitstranskription (HIAT) (Rehbein et al. 2004) und die Software EXMARaLDA Partitur-Editor (Schmidt 2002; Schmidt & Wörner 2005, 2014), insbesondere das davon bereitgestellte Partiturformat. Die lineare Entwicklung des Gesprächs und die gleichzeitigen Handlungen der Aktanten - seien sie verbal, nonverbal oder paraverbal - sowie redebegleitende bzw. nicht redebegleitende akustische und/ oder visuelle Phänomene (z. B. Störungen in der Telefonleitung, Verständigung beeinträchtigende Hintergrundgeräusche) lassen sich innerhalb der fortlaufenden Partiturfläche mithilfe einer rechtsläufigen Zeitachse und turn-bezogen horizontal segmentierten Intervallen sowie vertikal angeordneten Spuren bzw. Handlungslinien visualisieren (Rehbein et al. 2004: 6 - 8). Von Belang ist für die vorliegende Untersuchung vor allem die Möglichkeit, Einträge in den Spuren bzw. Segmenten, wie bei einer Musikpartitur, miteinander zu synchronisieren. So ergaben die ersten Analysen, dass Schwierigkeiten bei der turn-Übergabe und der turn-Übernahme unter anderem auf die fehlende physische Präsenz der dolmetschenden Person und ihre entfallenen kinesischen Möglichkeiten am Telefon, beispielsweise die Nichtwahrnehmbarkeit von (a) Denk- oder Atempausen, (b) zum Sprechen ansetzenden verbalen Phänomenen, (c) kinesisch realisierten turn-bezogenen Handlungen und (d) mimischen Reaktionen darauf, sowie auf die technische bedingte Übertönung durch die Gesprächspartner zurückzuführen sind (Farag 2021). Ein weiterer Grund dafür, warum sich die HIAT-Konventionen für das vorgestellte Forschungsvorhaben als geeignet erwiesen, besteht in ihrer gewissen Indifferenz gegenüber der sprachlichen Variation auf der phonetischen Ebene. Dennoch lassen sie - ähnlich wie andere auf die Interaktion ausgerichtete Konventionen, wenn in ein Partiturformat integrierbar (z. B. GAT) - verschiedene Grade der Granularität zu. Aussprachebesonderheiten sollten im Grunde nur insofern abgebildet werden, als sie mit Blick auf die antizipierbaren oder aus einer Mikroperspektive ermittelten Problemquellen für die Analyse relevant sind. Bei der Aufbereitung von arabischen Daten gewinnt der Mittelweg, der mit der literarischen Umschrift (Rehbein et al. 2004: 11 - 12) eingeschlagen wird, an Wichtigkeit, und zwar aufgrund der vielfältig auf- 218 Rahaf Farag & Bernd Meyer getretenen standardfernen Varietäten, die, wenn umfassend wiedergegeben, eine computergestützte Auswertung erschweren würden. 3.2 Herausforderungen der arabischen Schrift für Transkriptionseditoren Bei der Transkription stellen sich einige Herausforderungen, die sich aus den Besonderheiten der arabischen Verschriftung (Zeichensätze, Linksläufigkeit, gesprochene Sprache vs. Schriftsprache, Sprachvarietäten) ergeben und die Bearbeitung der Forschungsfragen erheblich betreffen. Neben dem Darstellungsformat der Transkripte und der Art und Weise, wie die LeserInnen - seien sie arabischkundig oder nicht - an die aufbereiteten Daten herangeführt werden, müssen auch texttechnologische und transkriptionstechnische Aspekte berücksichtigt werden. Exemplarisch werden in diesem Abschnitt die Probleme der computergestützten Transkription arabisch-deutscher Gesprächsdaten, speziell Darstellungsformat und Verschriftungssystem, geschildert. 3.2.1 Darstellung von Zeitlichkeit, Räumlichkeit und Gerichtetheit Eine zentrale Schwierigkeit bei der computergestützten Transkription arabischer Daten ist in der Linksläufigkeit der arabischen Schrift begründet. Die existierenden Transkriptionstools, einschließlich EXMARaLDA, wurden für rechtsläufige Schriftsysteme entwickelt. Die fortlaufende Zeitbzw. Handlungslinie unterstützt nur eine Schreibrichtung in der Partiturfläche, die waagerechte rechtsläufige. Wenn sich jedes arabischsprachige Segment von rechts nach links entgegen der anders gerichteten Zeitachse schreiben lässt, dann würde damit die Handlungslinie insgesamt verstellt wiedergegeben. Die Lesbarkeit arabischer Äußerungen, vor allem nach der Komprimierung in ein DIN- A4 Seitenformat und dem Umbruch von einer Seite zur anderen, würde erheblich erschwert und die turn-übergaberelevanten Stellen aus der Perspektive eines/ einer Arabisch verstehenden LeserIn zum falschen Zeitpunkt aligniert. So würden beispielsweise Pausen, Äußerungsabschlüsse und Unterbrechungen aus Sicht der Software am Anfang einerÄußerung bzw. eines Segments stehen, wie in Abbildung 2. Telefondolmetschen Arabisch-Deutsch 219 Abb. 2: Bidirektionales Transkript ̶ ̶ Beispiel (1) 6 Wie aus Abbildung 2 zu ersehen ist, ermöglicht das Tool zwar eine horizontal linksläufige Schrift innerhalb eines Segments und die Ausgabe bidirektionaler Transkripte, allerdings beeinträchtigen die Bidirektionalität der Fläche und die Tridirektionalität der Leserichtungen (links-rechts, oben-unten, rechts-links) die Darstellung der simultanen Handlungen von dolmetschenden Person und Klienten 7 in den Segmenten 948 - 955. Sie lassen keine zeitlich korrekt alignierte Visualisierung reziproker Handlungen zu. So beginnt Segment 949 bereits mit einem Punkt, der den Abschluss einer Äußerung markiert. Der stockende Lesefluss wird in den Segmenten 951 - 955 deutlicher: Der Dolmetscher setzt nach einer Atempause des Klienten zum Sprechen an und initiiert eine turn- Übergabe mittels Gliederungspartikel „ Ja “ , nachdem seine turn-Beanspruchung in Segment 948 mit der gleichen Gliederungspartikel auf Arabisch ﻧ ﻌ ﻢ (na ᶜ am; dt. „ Ja “ ) durch die technisch bedingte Übertönung für die Gesprächspartner im Beratungsraum nicht wahrgenommen wurde. Bei der Beanspruchung des Rederechts und den Versuchen des Klienten, seinen turn zu halten und die Äußerungseinheit zu Ende zu führen, kam es zu mehrfachen Überlappungen. Die Verwendung der arabischen Schrift würde also zu einer inkonsistenten 6 Abkürzungen: K = Klient, TD = Telefondolmetscher. Die Übersetzungsspur wurde bewusst weggelassen, um die Aufmerksamkeit ausschließlich auf die unterschiedlichen Laufrichtungen zu richten. Graue Pfeile wurden nachträglich hinzugefügt, um die Problematik zu veranschaulichen. 7 Das Beispiel stammt aus einem Beratungsgespräch mit einem subsidiär geschützten syrischen Geflüchteten. Er besuchte zum Zeitpunkt der Beratung einen A2-Deutschkurs und wünschte sich sprachliche Unterstützung bei Familiennachzug. In diesem Ausschnitt stellt er der Beraterin seine Fluchtgründe und gesundheitlichen Beeinträchtigungen dar. Dabei wird er von einem beeidigten syrisch-deutschen Dolmetscher per Telefon unterstützt, der über einen einschlägigen Hochschulabschluss und eine fünfjährige Berufserfahrung verfügt, jedoch nicht in remote-Situationen. 220 Rahaf Farag & Bernd Meyer Darstellung der zeitlichen Verhältnisse führen und die Analysemöglichkeiten damit erheblich einschränken. 3.2.2 Gesprochene Sprache und geschriebene Sprache im Arabischen Wie in Abschnitt 3.2.1 angesprochen, können Verfahren zur Transkription und Annotation nicht einfach auf unterschiedlich zu kombinierende Schriftsysteme als Mittel zur Visualisierung und Verdauerung natürlicher Gespräche übertragen werden. Weniger auffällig als die Abbildung der linearen Zeitstruktur und die verzerrten Handlungslinien ist für die nicht sprachkundigen LeserInnen die Verschriftung der arabischen Äußerungen, genauer deren Überführung in ein Schriftbild, das sich an der Standardorthografie orientiert und gleichzeitig diversen phonetischen Aspekten Rechnung trägt. Ähnlich wie im Deutschen erzeugen die Schriftzeichen ein rudimentäres Abbild der sprachlichen Realität. 8 Allerdings erwachsen aus der heterogenen Sprachlandschaft im Arabischen größere Herausforderungen an ‚ denaturierte ‘ Transkriptionsprozesse (Bucholtz 2000), die der beträchtlichen Diskrepanz zwischen der gesprochenen Sprache und der Schriftsprache geschuldet sind. Die komplexe sprachlich-kulturelle Situation in den arabischsprachigen Ländern kann mit dem Konzept eines Sprachkontinuums erfasst werden. Dieses ermöglicht, im Unterschied zu den kategorialen -glossie-Konzepten, eine Untersuchung von Interaktionsdynamiken und sprachlicher Akkommodation bzw. ein- oder wechselseitigen Angleichungen und Anpassungen sowie anderen Formen der Varietätenmischung zum Zwecke der Verständnissicherung und der Herstellung eines Näheverhältnisses (Badawi & Hinds 1986; Kaye 1994; Mejdell 2006 u. a.). Unterschieden wird hier zwischen der Standardvarietät 9 (Modernes Standardarabisch), die über eine überregionale kommunikative Reichweite verfügt und einer weitgehenden Normierung unterliegt, und den standardfernen, orthografisch kaum kodifizierten Regionalvarietäten. Die Kommunikation auf regionalsprachlicher Ebene stellt in den aufgezeichneten Gesprächssituationen - aufgrund der größtenteils unterschiedlichen sprachlichkulturellen Zugehörigkeiten von KlientInnen und dolmetschenden Personen sowie der mangelnden Kopräsenz und des Telefonkanals - eine mögliche Quelle 8 Überblick über die verschiedenen Varietäten des Arabischen bei Behnstedt & Woidich (2005), Fischer & Jastrow (1980), Owens (2013), Versteegh (2006, 2014) u. a. 9 Es wird bewusst vereinfachend der Singular verwendet, auch wenn die Standardvarietät keineswegs völlig einheitlich ist. Als Beispiel seien die regional geprägten phonetischen Besonderheiten und (kulturell bedingten) lexikalischen Unterschiede erwähnt, die in weniger fachlichen Anlässen vorwiegend aus Interferenzprozessen (Diem 1974) hervorgehen und im Bereich der Fachterminologie, vor allem der rechtssystemgebundenen juristischen Terminologie (Alaoui 2010), noch grundlegender und ausgeprägter sind. Telefondolmetschen Arabisch-Deutsch 221 für Verständnisschwierigkeiten dar. Deshalb erfordert die Untersuchung eine Transkription, die die gesprochensprachlichen Realisierungen und deren (von den Beteiligten unterstellte) Verständigungsmöglichkeiten nicht nur in einer möglichst aufschlussreichen Bandbreite und nach einer vollziehbaren Systematik rekonstruiert, sondern auch die vorhandenen Elemente der arabischen Standardsprache (einschließlich gehobenem Stil oder eher schriftsprachlichen Erscheinungen) kenntlich macht. Dieser Anspruch kann mit dem Inventar der arabischen Standardorthografie (auf der lexikalisch-morphologischen Ebene) nur begrenzt erfüllt werden. 4 Entwurf einer Transkriptionssystematik Aus dem Problemaufriss lässt sich der Bedarf nach einer gesprächsanalytisch inspirierten Konzeption eines Transkriptionssystems für gesprochenes Arabisch ableiten. Dieses soll nicht nur mit den HIAT-Konventionen, sondern auch mit anderen Verfahren, die Interaktionsprozesse veranschaulichen, vereinbar sein. Im Folgenden wird ein System zur computergestützten, interaktionsgerechten und möglichst authentischen Transkription arabisch-deutscher Gespräche skizziert. Anschließend erfolgen eine Erklärung der Maximen, die diesem System zugrunde liegen, sowie eine Diskussion eines Transkriptionsausschnitts im Hinblick auf seine Darstellungslogik und Analysierbarkeit. Die Arbeit mit arabischen Daten erfordert eine besondere Berücksichtigung ihrer phonetischen Elemente, die in der arabischen Konsonantenschrift nicht uneingeschränkt erscheinen. Als Beispiel seien die kurzen Vokale und Konsonantenverdopplungen (Gemination) genannt, die schriftlich allenfalls noch in punktierten Texten als diakritische Zeichen auftreten: • ﹷ : [a], [ ə ] 10 ( ► eContent_FA_a) 11 • ﹻ : [e], [i], [ ə ] ( ► eContent_FA_b) • ﹹ : [u], [o] ( ► eContent_FA_c) • ﹽ : geminierter Laut ( ► eContent_FA_d) Demzufolge weist das lateinische Abbild in der Regel eine stärkere Graphem- Phonem-Beziehung auf. Ziel dabei ist, mithilfe der erhöhten lexikalisch-semantischen und grafischen Klarheit Bedeutung zu inferieren, die - im Falle 10 Die große Schwankungsbreite, in der die Vokallaute, anders als im Schriftbild festgehalten, realisiert werden, kann hier nicht berücksichtigt werden. 11 Die in diesem Beitrag hinterlegten Audiobeispiele stammen vorwiegend aus interaktiv produzierten Äußerungen syrisch- und marokkanisch-arabischsprechender Personen. eContent_FA_a. wav eContent_FA_b. wav eContent_FA_c. wav eContent_FA_d. wav 222 Rahaf Farag & Bernd Meyer einer graphemischen 1: 1-Wiedergabe in einem anderen Schriftsystem - sonst nicht klar wird. Da das deutsche Zeicheninventar allein nicht ausreicht, um das arabische Phoneminventar zu rekonstruieren, ist die Verwendung einer (im Idealfall) eineindeutigen, die verschiedenen Varietäten berücksichtigenden Umschrift unter Zuhilfenahme diakritischer und phonologischer Zeichen unumgänglich (für eine detaillierte Einsicht siehe Farag 2019). Diese Darstellung lässt die zugrunde liegende Wortstruktur erkennen und somit die Verschriftung im Original rekonstruieren, was den sprachbzw. varietätenkundigen LeserInnen den Zugang zu den (in einer ungewohnten äußerlichen Form präsentierten) Daten erleichtert. Das entwickelte System baut in weiten Teilen auf dem Regelwerk der Deutschen Morgenländischen Gesellschaft (DMG) aus dem Jahr 1935 (Brockelmann et al.) und, je nach sprachlichem Hintergrund aufgezeichneter Personen, auf daran angelehnten dialektologischen Arbeiten auf. Dieses Regelwerk behandelt ausschließlich Schriftsprachen (Hochbzw. Modernes Standardarabisch) und nicht die gesprochenen Varietäten bzw. deren Anwendung in Interaktionssituationen (Brockelmann et al. 1935: 3). Dementsprechend beachtet das für die vorliegende Untersuchung entworfene System diverse Sprechmerkmale, die für den Datentyp gesprochenes Arabisch eigentümlich sind und im Falle einer strengen Umsetzung der DMG-Umschrift aus den Transkripten nicht mehr ablesbar wären. Genannt seien beispielgebend folgende Phänomene: • Kürzung langer Vokale im Auslaut, wie Syrisch-Arabisch ha¯d a (statt transliteriert ha¯da¯ ; „ dt. „ dieser “ , „ das “ ; ► eContent_FA_e); • von der Standardlautung abweichende Artikulationsarten konsonantischer Phoneme, wie eher standardfern artikuliertes li z a¯lek ( ► eContent_FA_f ) vs. (quasi) standardlautlich artikuliertes li ḏ a¯lik oder li ḏ a¯lek (dt. „ deshalb “ ; ► eContent_FA_g); • Kontraktionen (lautliche Zusammenziehungen), wie Syrisch-Arabisch ǝ l -ḥ amd ǝ llah ( ► eContent_FA_h) statt standardnahes alḥ amdu li-lla¯h (dt. „ Gott sei Dank! “ ); • Tilgungen (Phonemschwund), wie Syrisch-Arabisch ᵓǝ nn o (nicht ᵓǝ nn oh ; dt. „ dass “ , „ dass er “ ; ► eContent_FA_i). Die Erfassung solcher Phänomene mag zwar für das allgemeine Verstehen nicht immer unabdingbar erscheinen. Für die schnelle analyserelevante Erkennung der regionalsprachlichen Zugehörigkeiten der Beteiligten und der (bewusst oder unbewusst) gewählten Varietät kann aber eine systematische Erfassung durchaus relevant sein, ebenso für die Erkennung sprachlicher Wechselphänomene entlang des Varietätenkontinuums. Handlungen, mit denen eine eContent_FA_e. wav eContent_FA_f. wav eContent_FA_g. wav eContent_FA_h. wav eContent_FA_i. wav Telefondolmetschen Arabisch-Deutsch 223 gewisse Nähe hergestellt oder Verständlichkeit gewährleistet werden, z. B. mittels Paraphrasen, Elaborationen, lexikalischen Anpassungen (in einer mehr oder weniger standard- oder regionalsprachlichen Form), kann ein gewöhnliches orthografisches, überwiegend graphemgetreues System nicht wiedergeben. Mit der vorgeschlagenen Modifikation bzw. Erweiterung des DMG-Systems 12 wird also eine phonologisch orientierte Transkription nicht standardkonformer Merkmale angestrebt. Sie stellt den Versuch dar, eine literarische Umschrift für arabische Gesprächsdaten anzubieten. Ähnlich wie im Deutschen, sollen die tatsächliche Lautung und regelhafte lautliche Veränderungen (Allophone) nicht erhalten bleiben. Etwaige Ungenauigkeiten dürften bzw. sollten allerdings für die interaktionsinteressierten Fragestellungen in Kauf genommen werden. Die hier postulierte Abweichungstoleranz bewegt sich im Spannungsfeld zwischen einer exakten Erfassung der phonetischen Realisierung (etwa aus einer Selbstverpflichtung zur wissenschaftlichen Präzision) und einer lesbaren sowie zeit- und arbeitsökonomisch sinnvollen, aber zugleich auch zielführenden Gestaltung der Transkripte, um sie auch für die (wissenschaftliche) Kommunikationsgemeinschaft öffnen zu können. Die entwickelte Umschrift kann, in Anlehnung an Biere (1994: 170), als ein „ System mittleren Differenzierungsgrades “ aufgefasst werden, jedoch nicht im Sinne eines vertretbaren Kompromisses, sondern im Sinne einer bewussten Bevorzugung von phonologischer vor einer maschinenfreundlichen morphologischen Genauigkeit 13 . Der Grund hierfür liegt wiederum darin, dass gesprächsbezogene Phänomene mit potenziell relevanter kommunikativer Wirkung auf die gesprächskoordinierenden oder verständnissichernden Handlungen beim Telefondolmetschen möglichst gesprächsanalytisch adäquat dargestellt werden sollen. Ein Beispiel wäre die Unterscheidung zwischen dem gesprochensprachlichen ma s alan ( ► eContent_FA_j) und dem standardsprachlichen ma ṯ alan (dt. „ zum Beispiel “ ; ► eContent_FA_k), also die Markierung des lautlichen Wandels des Konsonanten ﺙ (DMG: ṯ ), der im gegenwärtigen, nicht zuletzt auch informellen Sprachgebrauch unter anderem als stimmloses [s] artikuliert wird. Eine Bewegung hin zur Standardlautung dürfte interaktional relevant und eine soziale Bedeutung haben, die im Transkript zu erfassen wäre. Aus der fehlenden Systematik zur untersuchungsgerechten Rekonstruktion der tatsächlichen Sprachverwendung erwächst die Notwendigkeit, die Anfor- 12 Die vorgeschlagenen Zeichen zur Erweiterung der DMG-Umschrift wurden bereits durch Dr. Thomas Schmidt (Leibniz-Institut für Deutsche Sprache in Mannheim) in das Transkriptionstool EXMARaLDA Partitur Editor implementiert (Schmidt 2017). Die ergänzte Belegung für die virtuelle Tastatur ist als DMG+ bezeichnet. 13 Vgl. hierzu Schmidt (2005: 85 - 87). eContent_FA_j. wav eContent_FA_k. wav 224 Rahaf Farag & Bernd Meyer derungen an das Arbeitstranskript sowie die bisher aufgetretenen Schwierigkeiten und eingeschlagenen Lösungswege auszuformulieren. Vorab sei allerdings das vertretene Transkriptionsverständnis, analog zu Schmidt (2004: 2 - 3), unter dem (oben wiederholten) Schlagwort „ Visualisierung “ zusammenzufassen. Damit soll der „ Stellvertretungscharakter einer Transkription “ sowie seine „ Selektivität “ und „ Zweckgebundenheit “ in den Vordergrund gestellt werden. Ein Transkript soll dementsprechend als zeitliches und räumliches Abbild von (bewusst) ausgewählten Interaktionsphänomenen aufgefasst werden, sodass die entworfene lateinische Umschrift lediglich als analytisches Darstellungsmittel neben anderen konstitutiven Elementen, wie der multidimensionalen Oberfläche des Transkriptionstools, gelten kann. 4.1 Transkriptionsmaximen Die Transkription des gesprochenen Arabisch erfordert einen erheblichen Arbeitsaufwand. Daher stellt sich die Frage, wie sich der Verschriftungsprozess möglichst leicht handhabbar und effizient einsetzbar und das Umschriftsystem sowohl schulungsfreundlich als auch für Dritte möglichst gut nachvollziehbar gestalten lassen. Zu klären wäre zudem, wie dieses Umschriftsystem in HIATartige Formate integriert werden könnte. Hierfür liefern die Hauptkennzeichen der HIAT-Konventionen - (1) Einfachheit und (2) leichte Verwendbarkeit der Transkripte trotz erhobenem Genauigkeitsanspruch sowie (3) schnelle Erlernbarkeit (Ehlich & Rehbein 1979: 52) - wesentliche Orientierungspunkte. Die handlungsleitenden Maximen und konkreten Entscheidungen sollen anschließend ausgeführt werden. 4.1.1 Lesbarkeit und Verständlichkeit Das rechtsläufige Umschriftsystem für gesprochenes Arabisch ermöglicht eine für sprachkundige Wissenschaftler les- und analysierbare Partiturdarstellung. Das lateinische Abbild widerspricht nicht zwangsläufig der Lesegewohnheit von sprachkundigen, (digital) gebildeten LeserInnen, denn die lateinischen Schriftzeichen sind im Alltag der arabischen Sprachgemeinschaften allgegenwärtig. Der Leserkreis wird erst durch die Erweiterung des lateinischen bzw. deutschen Alphabets durch zusätzliche Transkriptionszeichen eingeschränkt. Daraus ergibt sich die Anforderung, die Lesbarkeit, die ohnehin im Zuge der Rekonstruktion der tatsächlichen, standardfernen Sprachverwendung erschwert wird, nicht noch stärker durch die Erfassung sämtlicher (phonetischer) Eigenheiten zu beeinträchtigen. Für eine verständliche und weniger komplexe Gestaltung sollten so wenig spezielle Zeichen wie möglich eingebaut werden, nicht nur um jene LeserInnen, die mit dem DMG-System vertraut sind, zu entlasten, sondern auch andere, nicht in der Regionalvarietät versierte Leser. Telefondolmetschen Arabisch-Deutsch 225 Eine weitere Herausforderung besteht darin, RezipientInnen ohne Arabischkenntnissen Zugang zu den Daten zu verschaffen. Grundsätzlich gilt, dass eine tiefergehende Analyse von Gesprächsphänomenen nur möglich ist, wenn alle im Transkript vorkommenden Sprachen von den Analysierenden beherrscht werden. Dies setzt jedoch enge Grenzen für die Nutzbarkeit der Daten. Auch die Vermittlung von Analyseergebnissen in Veröffentlichungen ist eingeschränkt, wenn nicht zusätzliche Rückübersetzungen der fremdsprachlichen Äußerungen im Transkript angebracht werden. Die angewandten Übersetzungsverfahren für Transkriptionen werden oftmals von AutorInnen nicht angegeben und die inhärenten Schwierigkeiten dieses Arbeitsschrittes wurden bisher nur selten in der gesprächsanalytischen Literatur diskutiert (für einen Überblick vgl. Belczyk-Kohl 2016). Eine Ausnahme ist beispielsweise das HIAT-Handbuch von Rehbein et al. (2004), in dem ein Drei-Ebenen-Verfahren mit einer morphematischen Glossierung, einer äußerungsbezogenen und einer freien, idiomatischen Übersetzung vorgeschlagen wird. In unserem Korpus von telefonisch gedolmetschten Beratungsgesprächen haben wir uns aufgrund des hohen Arbeitsaufwandes lediglich für eine durchgängige relativ idiomatische Übersetzung der arabischen Gesprächsanteile ins Deutsche entschieden, um Personen ohne Arabischkenntnisse einen inhaltlichen Zugang zu den Daten zu eröffnen. Dabei wurden zwei arabische Muttersprachlerinnen mit sehr guten Deutschkenntnissen eingesetzt, die als studentische Hilfskräfte jeweils Übersetzungen erstellten und sich gegenseitig kontrollierten (sog. 4-Augen-Prinzip). Unsichere Abschnitte wurden markiert und in Teamsitzungen unter Teilnahme einer weiteren sprachkundigen Mitarbeiterin entschieden. Die so erstellten Übersetzungen bieten damit einen relativ hohen Übersetzungsstandard. Durch die weitgehend idiomatischen Übersetzungen in Verbindung mit der romanisierten Schreibung haben unseres Erachtens auch deutsche LeserInnen ohne Arabischkenntnisse einen, wenn auch eingeschränkten, Zugang zu den Daten. 4.1.2 Einheitlichkeit Die Anwendung von Regionalvarietäten oder regional unüblichen standardsprachlichen Ausdrücken stellt eine potenzielle Quelle für Verstehensprobleme unter den Gesprächsbeteiligten dar und könnte unter anderem zu Erschwernissen in der Kommunikation führen, ja sogar Spannungen auf der Inhalts- oder Beziehungsebene (aufgrund erwartbarer und z.T. feststellbarer Frustration und Ressentiments) erzeugen. Solche Schlüsselstellen bzw. Auslöser sollen in den Transkripten erkennbar sein. Zugleich sollten die sprachlichen Einheiten, trotz varietätenreichen sprachlichen Handelns, möglichst einheitlich transkribiert werden, um die kontext- 226 Rahaf Farag & Bernd Meyer sensitive Suche im Gesprächskorpus und die computergestützte Datenauswertung zu erleichtern. Deshalb sollte die Umschrift ein maschinelles Erkennen der Wortformen und eine intuitiv-automatische Suche (potenziell) relevanter Einheiten erlauben. Hierfür ist eine weitgehend einheitliche Schreibung in der romanisierten Umschrift vonnöten. Das Ziel dabei ist, Inkonsistenzen und Fehlerquoten gewissermaßen zu verringern. Darum gilt es, möglichst wenige Varianten eines Wortes bzw. einer Zeichenkette zu erzeugen. Alle nicht bedeutungsunterscheidenden Variationen von Ausdrücken sollten außer Acht gelassen werden. Variationen morphologisch-lexikalischer Art müssten dagegen weiterhin berücksichtigt werden. Aus diesem Grund dient das vor allem unter Arabisten und Orientalisten bekannte DMG-System als Bezugsgröße bei Transkriptionsentscheidungen. Es soll nur so weit erweitert bzw. ignoriert werden, wie es für die Untersuchung nötig ist. Diese Bestrebung soll wiederum auch den Maximen der Lesbarkeit und Verständlichkeit gerecht werden. Eine möglichst authentische Abbildung des Gesprächsgeschehens in der Transkription ist also sowohl für die zu untersuchenden Phänomene des Telefondolmetschens als auch für andere interaktionsbezogene Forschungsvorhaben unabdingbar. Eine allzu differenzierte phonologische Gestaltung des Transkripts würde hingegen nicht dem Zweck der Untersuchung dienen. Wie sich diese Ansprüche konkret umsetzen lassen, soll im Folgenden an einem Beispiel gezeigt werden. 4.2 Darstellung des Transkriptionsverfahrens an einem Beispiel Im folgenden Beispiel, das im Rahmen des Forschungsprojekts erstellt wurde, lassen sich die Transkriptionsmaximen erläutern (Abb. 3). Die in Abbildung 2/ Beispiel 1 visualisierten Daten wurden mithilfe der entwickelten Systematik so bearbeitet, dass sich die Fläche unidirektional mit einer von links nach rechts laufenden Schrift einrichten ließ. Die Weglassung der arabischen Zeichen und Hinzuziehung des lateinischen bzw. diakritischen Inventars erlaubte eine korrekte Alignierung des Interaktionsgeschehens, die für die Gesprächsanalyse benötigt wird. Nach den langen Ausführungen des Klienten zu seinen Fluchtgründen versucht der Dolmetscher, den turn zu ergreifen, beispielsweise in den Segmenten 951 - 952 nach der Atempause des Klienten (s950). Dies gelingt ihm aber erst nach einer kurzen Denkpause des nun stotternden Klienten (s956). Die vermerkten Pausen, schnellen Anschlüsse mittels Ligaturbogen, Äußerungsabschlüsse und Unterbrechungen stehen nun in räumlichen Beziehungen zueinander, die den zeitlichen Beziehungen in etwa entsprechen. Dies dürfte nicht nur für die Analyse, sondern auch für die maschinelle Korpussuche und Auswertung sowie für die Quantifizierung nützlich sein. Telefondolmetschen Arabisch-Deutsch 227 Abb. 3: Transkriptausschnitt aus dem TeDo-Korpus (Beispiel 1; ► eContent_FA_l) 14 Ein weiterer Vorteil der Umschrift besteht in der adäquaten Darstellung der Überlappungen sowie der parallelen Annotationsspuren, die hier mit analyserelevanten Informationen angereichert wurden. Hierzu zählen die prosodischen bzw. artikulatorischen Handlungen ( „ laut “ , „ leise “ , „ gedehnt “ ) und die Kommentare zur akustischen Wahrnehmbarkeit der Äußerungen in beiden Interaktionsräumen (s948). Darüber hinaus ließ sich das gesprochene Arabisch im Zuge des phonetischorthografischen Verfahrens weitgehend abbilden. Die Regionalvarietät des syrischen Klienten (Provinz Rif Dimashq; ► eContent_FA_m) und die gesprochensprachlichen Eigenheiten, etwa Planbildung ( „ und, also = “ ; s954 - 956), sind erkennbar. Die Pause, die während der Konstruktion der lexikalischen Einheit ﻭ ﻳ ﻌ ﻨ ﻲ ( w-ya ᶜ ni ; dt. „ und, also “ ) vorkommt (s955), und die nachfolgenden Wörter stehen nun in der richtigen Reihenfolge, und sind dementsprechend linear lesbar. Wie man sieht, lassen sich mithilfe der romanisierten Transkription der arabischen Anteile mehrsprachige Daten mit unterschiedlichen Schriftsystemen in einem Transkript zusammenführen. Der Vorteil dieser Darstellungsart liegt nicht nur in der Erfüllung darstellungsbezogenerAnforderungen (adäquate Visualisierung zeitlicher Bezüge, simultaner Sequenzen, reziproken und multimodalen Handelns etc.). Diese literarische Transkription lässt einerseits die arabische Gesprochensprachlichkeit im grafischen Medium so weit wie möglich und nötig sichtbar machen. Die Anwendung einer romanisierten Umschrift des 14 Abkürzungen: K3 = Klient, TD2 = Telefondolmetscher. eContent_FA_l. mp4 eContent_FA_m. wav 228 Rahaf Farag & Bernd Meyer Arabischen geht andererseits mit einem hohen Zeit- und Arbeitsaufwand einher, zumindest bis zur Systematisierung des Vorgehens und Formulierung genauerer Richtlinien, etwa zum Umgang mit der Kluft zwischen dem arabischen Schriftbild standardnaher Lautung und dem Lautbild standardferner Artikulation, zum Umgang mit phonetischen Variationen und lautlichen Verschiebungen, mit den im Schriftbild üblicherweise fehlenden Kurzvokalen, mit Konsonantenhäufungen und komplexen morphologischen Konstruktionen, die im lateinischen Schriftbild ohne entsprechende semiotische Hervorhebung sonst nicht lesbar werden, und dergleichen mehr (Farag 2019: 311 - 322). Außerdem setzt diese Umschrift einen spezialisierten Leserkreis voraus. Sie fördert hingegen aber die authentischere und genauere sowie verfeinerbare Wiedergabe aufgezeichneter verbaler Kommunikation. Unzulänglichkeiten auf der Ebene der Praktikabilität dürften unseres Erachtens deshalb in Kauf genommen, doch auch weiter optimiert werden, denn solch ein Verfahren kommt durch die Hinwendung zur gesprochenen Sprache grundsätzlich zum Gütekriterium der intersubjektiven Nachvollziehbarkeit rekonstruierter Äußerungen und eingeschlagenen Analysewegs gerecht. Zudem trägt dieses Verfahren zur computergestützten Analyse der angefertigten Transkripte bei, nicht zuletzt aufgrund der verbesserten Recherchierbarkeit erstellter Korpora. Abschließend wird beispielhaft vorgeführt, wie die entworfene Transkriptionssystematik in einer größeren Analyse zum Tragen kommen kann. 5 „ kanti “ - Exemplarische Analyse eines Verstehensproblems Im Folgenden soll anhand eines längeren Transkriptausschnitts gezeigt werden, wie sich die fehlende räumliche Kopräsenz beim Telefondolmetschen auf die wechselseitige Verständigung auswirkt. K6 a ist eine syrisch-kurdische Hausfrau aus der Stadt Afrin in der Region Aleppo. Sie hat einen Aufenthaltsstatus als subsidiär geschützte Geflüchtete und lebt mit ihrer Schwiegertochter und ihrem Enkel in einer süddeutschen Kreisstadt. Ihr Anliegen ist die Familienzusammenführung mit ihrem Sohn, der sich im Libanon aufhält. Die Beraterin ist ihr aus früheren Kontakten bekannt. Den telefonisch zugeschalteten Dolmetscher kennt sie hingegen nicht. Sie hat bisher auch wenig Erfahrung mit organisierten Dolmetschdiensten. Ausgangspunkt für ein Verständigungsproblem sind die Verwandschaftsbezeichnungen, die die Klientin K6 a für ihre Schwiegertochter verwendet. Dabei spielt der Ausdruck „ kanti “ eine Rolle, eine regionale Bezeichnung für „ Schwiegertochter “ , der im levantinischen Sprachraum häufig zudem als [k ǝ nti] gesprochen wird, von ihr jedoch als [kanti]. Der Grund für die ungewöhnliche Aussprache ist in diesem speziellen Fall unklar. Der marokkanische Dolmetscher TD3 hat jedenfalls Probleme, diesen Ausdruck zu verstehen. Telefondolmetschen Arabisch-Deutsch 229 Dies manifestiert sich in Nachfragen und weiterhin auch in nonverbalen Handlungen, die jedoch für die anderen Gesprächsbeteiligten nicht sichtbar sind. Die lautliche Realisierung der Klientin kommt zwar einer standardsprachlichen Lautung [kannati] nahe. Doch der Ausdruck, selbst wenn standardlautlich realisiert, ist nicht allseits bekannt (Kriterium der kommunikativen Reichweite; s. Abschnitt 3.2.2). In Segment 107 verwendet die Klientin erneut den Ausdruck „ kanti “ , den sie schon einige Äußerungen zuvor verwendet hatte, ohne dass der Dolmetscher darauf reagiert hatte. Sie unterstreicht die Notwendigkeit der Familienzusammenführung mit Hinweis auf das jugendliche Alter der Schwiegertochter ( „ Meine Schwiegertochter ist klein. “ ). Der Dolmetscher stellt in den Segmenten 113 und 114 zunächst eine Nachfrage zum Wohnort. In Segment 120 fragt er dann explizit nach den beteiligten Personen: „ Familienzusammenführung mit wem? “ . Die Klientin beantwortet diese Frage und erläutert, ihre Schwiegertochter ( „ kanti “ ) und deren Sohn seien bei ihr (Segment 123). Daraufhin zuckt der Dolmetscher mit den Schultern, neigt den Kopf stark zum Telefon und fragt nach einer langen Pause: „ Mit deinem Sohn und dem Sohn deines Sohnes? “ (Segment 126). Dies verneint die Klientin und wiederholt, dass ihr Sohn im Libanon sei, ihre Schwiegertochter und deren Sohn jedoch bei ihr (Segment 131). In dieser Äußerung verwendet sie eine Umschreibung für „ Schwiegertochter “ ( „ marto “ , dt. „ seine Frau “ ). Der Dolmetscher fragt, ob die genannten Angehörigen im Libanon seien. Die Klientin verneint dies erneut und wiederholt, dass ihr Enkel und die Frau ihres Sohnes ( „ marto “ ) bei ihr seien. Der Dolmetscher fragt erneut nach: „ Sie wohnen bei dir äh in A-Heim? “ (Segment 140). Dies wird von der Klientin bejaht und der Dolmetscher stellt eine weitere Nachfrage, die nicht mehr die beteiligten Personen thematisiert. Der komplexe Ablauf kann folgendermaßen zusammengefasst werden: 1. Verwendung eines nicht gebräuchlichen Ausdrucks ( „ kanti “ , dt. „ Schwiegertochter “ ); 2. Nichtverstehen des Dolmetschers und Verbalisieren des Verstehensproblems in Segment 120; 3. Erneute Verwendung der trouble source „ kanti “ durch die Klientin: 4. Erneute Nachfrage des Dolmetschers in Segment 126, verbunden mit nonverbalen Handlungen, die ein Verstehensproblem anzeigen; 5. Wechsel der Klientin zu einem gebräuchlicheren Ausdruck ( „ marto “ , „ seine Frau “ ); 6. Erneute Nachfrage des Dolmetschers; 7. Erneute Verwendung des gebräuchlicheren Ausdrucks in Segment 138; 8. Wechsel des Themas durch eine weitere Nachfrage des Dolmetschers. 230 Rahaf Farag & Bernd Meyer Beispiel 2: „ kanti “ (dt. „ Schwiegertochter “ ) Telefondolmetschen Arabisch-Deutsch 231 Abb. 4: Transkriptausschnitt aus dem TeDo-Korpus (Beispiel 2; ► eContent_FA_n) 15 Der Ablauf im Beispiel „ kanti “ zeigt, wie das Erkennen von Verstehensproblemen und die interaktive Herstellung von Verstehen beim Telefondolmetschen 15 In Anlehnung an Ehlich/ Rehbein (1981) werden folgende Abkürzungen zur Bezeichnung der Körperteile verwendet: KO = Kopf, RO = rechtes Ohr, SC = Schultern. Die Umrundungen wurden nur zu Illustrationszwecken nachträglich hinzugefügt, um die sprachliche Manifestation des Verstehensproblems hervorzuheben. eContent_FA_n. mp4 232 Rahaf Farag & Bernd Meyer teilweise eingeschränkt sind, weil für die Beteiligten nonverbale Handlungen nicht wahrnehmbar sind. Gerade gestische und mimische Informationen können jedoch bei face-to-face-Gesprächen in physischer Kopräsenz mit der dolmetschenden Person zusätzliche Hinweise auf die Verarbeitung des Gesagten durch die Rezipienten geben. Zugleich zeigt das Beispiel, dass Klärungssequenzen trotz dieser Einschränkungen möglich sind und im Prinzip ähnlich ablaufen wie die von Bolden (2000) beschriebenen clarification turns, in denen die Abklärung von bestimmten inhaltlichen Aspekten der Verdolmetschung vorangeht. 6 Fazit In diesem Beitrag wurde ein Verfahren skizziert, mit dem arabisch-deutsche Transkripte für gesprächsanalytische Untersuchungen erstellt werden können. Der Anwendungsfall ist eine Untersuchung zum Telefondolmetschen, bei der sowohl zusätzliche Annotationen als auch die Erfassung prosodischer Aspekten und redebegleitender Handlungen erforderlich sind. Das verwendete Werkzeug ist der bekannte Transkriptionseditor EXMARaLDA. Um die Abbildung zeitlicher Verhältnisse in der Transkription zu ermöglichen, wurde für eine romanisierte Umschrift des Arabischen plädiert (Farag 2019). Zugleich werden mit dieser Umschrift Aspekte der Mündlichkeit und - aufgrund des arabischen Varietätenreichtums - Regionalismen erfasst, die für die Analyse des Verständigungshandelns in gedolmetschten Interaktionen potentiell relevant sind. Anhand eines Beispiels wurde gezeigt, wie durch die romanisierte Umschrift und Bereitstellung von systematisch erstellten Übersetzungen der arabischen Äußerungen eine bessere Verständlichkeit und Lesbarkeit der Transkription auch für nicht sprachkundige LeserInnen erreicht werden kann. Literaturverzeichnis Alaoui, Mohammed. 2010. Die Rechtsterminologie im Deutsch-Arabischen Wörterbuch von Götz Schregle. In Hannelore Lee-Jahnke & Erich Prun č (Hrsg.), Am Schnittpunkt von Philologie und Translationswissenschaft: Festschrift zu Ehren von Martin Forstner, 1 - 19. Bern: Peter Lang. Amato, Amalia et al. (Hrsg.). 2018. Handbook of Remote Interpreting - SHIFT in Orality Erasmus+ Project: Shaping the Interpreters of the Future and Today. Bologna: University of Bologna, Department of Interpretation and Translation. Angermeyer, Philipp et al. 2012. Sharing community interpreting corpora: A pilot study. In Thomas Schmidt & Kai Wörner (Hrsg.), Multilingual Corpora and Multilingual Telefondolmetschen Arabisch-Deutsch 233 Corpus Analysis (Hamburg Studies on Multilingualism 14), 275 - 294. Amsterdam: Benjamins. Apfelbaum, Birgit. 2004. Gesprächsdynamik in Dolmetsch-Interaktionen: Eine empirische Untersuchung von Situationen internationaler Fachkommunikation unter besonderer Berücksichtigung der Arbeitssprachen Deutsch, Englisch, Französisch und Spanisch. Radolfzell: Verlag für Gesprächsforschung. Badawi, El-Said & Martin Hinds. 1986. A Dictionary of Egyptian Arabic: Arabic-English. Beirut: Librairie du Liban. Baraldi, Claudio & Laura Gavioli. 2012. Introduction: Understanding coordination in interpreter-mediated interaction. In Claudio Baraldi & Laura Gavioli (Hrsg.), Coordinating Participation in Dialogue Interpreting (Benjamins Translation Library 102), 1 - 21. Amsterdam: Benjamins. Baraldi, Claudio, und Laura Gavioli (Hrsg.). 2012. Coordinating Participation in Dialogue Interpreting (Benjamins Translation Library 102). Amsterdam: John Benjamins. Behnstedt, Peter & Manfred Woidich. 2005. Arabische Dialektgeographie: Eine Einführung (Handbuch der Orientalistik 78). Leiden: Brill. Belczyk-Kohl, Yvonne. 2016. Some remarks on transcript translation in discourse analysis. European Journal of Applied Linguistics 4(1). 139 - 164. Biere, Bernd Ulriche. 1994. Verstehen und Beschreiben von Dialogen. In Fritz Gerd & Franz Hundsnurscher (Hrsg.), Handbuch der Dialoganalyse, 155 - 175. Tübingen: Niemeyer. Birkner, Karin & Oliver Ehmer (Hrsg.). 2013. Veranschaulichungsverfahren im Gespräch. Mannheim: Verlag für Gesprächsforschung. Bolden, Galina B. 2000. Toward Understanding practices of medical interpreting: interpreters ’ involvement in history taking. Discourse Studies 2(4). 387 - 419. Braun, Sabine. 2013. Keep your distance? Remote interpreting in legal proceedings. A critical assessment of a growing practice. Interpreting: International Journal of Research and Practice in Interpreting 15(2). 200 - 228. Braun, Sabine. 2017. What a micro-analytical investigation of additions and expansions in remote interpreting can tell us about interpreters ’ participation in a shared virtual space. Journal of Pragmatics 107. 165 - 177. Brockelmann, Carl et al. 1935. Die Transliteration der arabischen Schrift in ihrer Anwendung auf die Hauptliteratursprachen der islamischen Welt: Denkschrift dem 19. Internationalen Orientalistenkongreß in Rom, vorgelegt von der Transkriptionskommission der Deutschen Morgenländischen Gesellschaft. Leipzig: Deutsche Morgenländische Gesellschaft in Kommission bei F. A. Brockhaus. Bucholtz, Mary. 2000. The politics of transcription. Journal of Pragmatics 32. 1439 - 1465. Bührig, Kristin & Bernd Meyer. 2014. Interpreting risks: Medical complications in interpreter-mediated doctor-patient communication. European Journal of Applied Linguistics 2(2). 233 - 353. Davitti, Elena & Sabine Braun. 2020. Analysing interactional phenomena in video remote interpreting in collaborative settings: implications for interpreter education. The Interpreter and Translator Trainer 14(3). 279 - 302. 234 Rahaf Farag & Bernd Meyer Deppermann, Arnulf & Reinhold Schmitt. 2008. Verstehensdokumentationen: Zur Phänomenologie von Verstehen in der Interaktion. Deutsche Sprache 36(3). 220 - 245. Diem, Werner. 1974. Hochsprache und Dialekt im Arabischen. Untersuchungen zur heutigen arabischen Zweisprachigkeit (Abhandlungen für die Kunde des Morgenlandes 41/ 1). Wiesbaden: Steiner. Dittmar, Norbert. 2009. Transkription: Ein Leitfaden mit Aufgaben für Studenten, Forscher und Laien (Qualitative Sozialforschung 10). 3. Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften. Egbert, Maria et al. 2016. An investigation of how 100 articles in the Journal of Pragmatics treat transcriptions of English and non-English languages. Journal of Pragmatics 94. 98 - 111. Ehlich, Konrad & Bernd Switalla. 1976. Transkriptionssysteme: Eine exemplarische Übersicht. Studium Linguistik 2. 78 - 105. Ehlich, Konrad & Jochen Rehbein. 1979. Erweiterte Arbeitstranskription (HIAT 2): Intonation. Linguistische Berichte 59: Forschung, Information, Diskussion. 51 - 75. Ehlich, Konrad & Jochen Rehbein. 1981. Zur Notierung nonverbaler Kommunikation für diskursanalytische Zweck: Erweiterte halbinterpretative Arbeitstranskriptionen (HIAT 2). Methoden zur Analyse von Face-to-Face-Situationen. Hrsg. Peter Winkler. Stuttgart: Metzler, 302 - 329. Farag, Rahaf. 2019. Aspekte der computergestützten Transkription deutsch-arabischer Gesprächsdaten. Gesprächsforschung: Online-Zeitschrift zur verbalen Interaktion 20. 270 - 322. Farag, Rahaf. 2021. Kommunikative Verfahren beim Telefondolmetschen Arabisch- Deutsch in der institutionellen Kommunikation mit Geflüchteten. In Beatrix Kreß et al. (Hrsg.), Mehrsprachigkeit, Interkulturelle Kommunikation, Sprachvermittlung: Internationale Perspektiven auf DaF und Herkunftssprachen (Hildesheimer Schriften zur Interkulturellen Kommunikation). Frankfurt am Main: Peter Lang. (im Druck). Fischer, Wolfdietrich & Otto Jastrow (Hrsg.). 1980. Handbuch der arabischen Dialekte (Porta linguarum orientalium 16). Wiesbaden: Harrassowitz. Hausendorf, Heiko. 2001. Gesprächsanalyse im deutschsprachigen Raum. In Klaus Brinker et al. (Hrsg.), Text- und Gesprächslinguistik: Ein internationales Handbuch zeitgenössischer Forschung 2 (Handbücher zur Sprach- und Kommunikationswissenschaft 16/ 2), 971 - 979. Berlin u. a.: De Gruyter. Kameyama, Shinichi. 2004. Verständnissicherndes Handeln: Zur reparativen Bearbeitung von Rezeptionsdefiziten in deutschen und japanischen Diskursen (Mehrsprachigkeit 14). Münster: Waxmann. Kaye, Alan S. 1994. Formal vs. Informal in Arabic: Diglossia, Triglossia, Tetraglossia etc., Polyglossia - Multiglossia Viewed as a Continuum. Zeitschrift für Arabische Linguistik 27. 47 - 66. Mejdell, Gunvor. 2006. Mixed Styles in Spoken Arabic in Egypt: Somewhere between Order and Chaos (Studies in Semitic Languages and Linguistics 48). Leiden: Brill. Telefondolmetschen Arabisch-Deutsch 235 Meyer, Bernd. 2004. Dolmetschen im medizinischen Aufklärungsgespräch: Eine diskursanalytische Untersuchung zur Arzt-Patienten-Kommunikation im mehrsprachigen Krankenhaus (Mehrsprachigkeit 13). Münster: Waxmann. Mondada, Lorenza. 2011. Understanding as an embodied, situated and sequential achievement in interaction. Journal of Pragmatics 43(2). 542 - 552. Owens, Jonathan. 2013. History. In Jonathan Owens (Hrsg.), The Oxford Handbook of Arabic Linguistics, 451 - 471. Oxford: Oxford University Press. Pöllabauer, Sonja. 2005. „ I don ’ t understand your English, Miss. “ : Dolmetschen bei Asylanhörungen (Translationswissenschaft 2). Tübingen: Narr. Redder, Angelika. 2001. Aufbau und Gestaltung von Transkriptionssystemen. In Brinker et al. (Hrsg.), Text- und Gesprächslinguistik: Ein internationales Handbuch zeitgenössischer Forschung 2 (Handbücher zur Sprach- und Kommunikationswissenschaft 16/ 2), 1038 ̶ 1059. Berlin u. a.: De Gruyter. Rehbein, Jochen et al. 2004. Handbuch für das computergestützte Transkribieren nach HIAT (Arbeiten zur Mehrsprachigkeit: Folge B 56). Hamburg: Sonderforschungsbereich 538 Mehrsprachigkeit. Rivas-Carmona, María Del Mar. 2018. Conversation Analysis as a Methodologic Tool in the Training and Study of Telephone Interpreting. In Aurora Ruiz Mezcua (Hrsg.), Approaches to Telephone Interpretation: Research, Innovation, Teaching and Transference (Linguistic Insights 250), 107 - 127. Bern: Peter Lang. Schmidt, Thomas et al. 2006. Avoiding Data Graveyards: From Heterogeneous Data Collected in Multiple Research Projects to Sustainable Linguistic Resources. Tools and Standards: The State of the Art. Proceedings of the EMELD 2006 - Workshop on Digital Language Documentation. Lansing, Michigan. Schmidt, Thomas & Kai Wörner. 2005. Erstellen und Analysieren von Gesprächskorpora mit EXMARaLDA. Gesprächsforschung: Online-Zeitschrift zur verbalen Interaktion 6. 171 - 195. Schmidt, Thomas & Kai Wörner. 2014. EXMARaLDA. In Jacques Durand et al. (Hrsg.), The Oxford Handbook of Corpus Phonology, 402 - 419. Oxford: Oxford University Press. Schmidt, Thomas. 2002. Gesprächstranskription auf dem Computer. Das System EXAM- RaLDA. Gesprächsforschung: Online-Zeitschrift zur verbalen Interaktion 3. 1 - 23. Schmidt, Thomas. 2004. EXMARaLDA: ein Modellierungs- und Visualisierungsverfahren für die computergestützte Transkription gesprochener Sprache. In Ernst Buchberger (Hrsg.), Proceedings of Konvens 2004 (Schriftenreihe der Österreichischen Gesellschaft für Artificial Intelligence 5), 1 - 8. Wien: ÖGAI. Schmidt, Thomas. 2005. Computergestützte Transkription: Modellierung und Visualisierung gesprochener Sprache mit texttechnologischen Mitteln (Sprache, Sprechen und Computer: Computer Studies in Language and Speech 7). Frankfurt am Main: Peter Lang. Schmidt, Thomas. 2017. New or modified keyboard for Arabic transliteration #129. EXMARaLDA GitHub. ‹ https: / / github.com/ Exmaralda-Org/ exmaralda/ issues/ 129 › (zuletzt aufgerufen am 18.02.2021). 236 Rahaf Farag & Bernd Meyer Versteegh, Kees (Hrsg.). 2006. Encyclopedia of Arabic language and linguistics. 5 Bde. Leiden: Brill. Versteegh, Kees. 2014. The Arabic Language. 2. Aufl. Edinburgh: Edinburgh University Press. Wadensjö, Cecilia. 1998. Interpreting as Interaction (Language in Social Life Series). Vorw. Candlin, Christopher N. London: Longman. Telefondolmetschen Arabisch-Deutsch 237 Herausforderungen bei der Transkription und Annotation von mehrsprachigen Audio- und Videodaten und mögliche Lösungen in einem empirischen Forschungsprojekt zum frühen gleichzeitigen Fremdsprachenlernen Kathrin Wild Abstract: Die Aufbereitung von mehrsprachigen Daten in Form von Transkription stellt Forschende vor vielfältige Herausforderungen, die im Bereich der Sprachenlehr- und -lernforschung bisher noch wenig diskutiert wurden. Aufbauend auf Reflexionen zur Sprachenwahl in Transkriptionen und Annotationen sowie zum Umgang mit mehrsprachigen Phänomenen und nicht-erstsprachlichen Äußerungen werden Anforderungen an Transkribierende und Übersetzende abgeleitet und Überlegungen zur Übersetzung selbst angestellt. Anhand von ausgewählten Beispielen aus einem empirischen Forschungsprojekt, in dem mehrsprachige Unterrichtssituationen video- und audiographiert wurden, werden die dort getroffenen Entscheidungen und Umsetzungen kritisch hinterfragt. Keywords: Transkription, Annotation, Datenaufbereitung, Audiographie, Videographie, Mehrsprachigkeit, Übersetzung 1 Einleitung Sprachdaten müssen in der Regel aus Gründen der Nachvollziehbarkeit transkribiert werden. Unabhängig davon, ob es sich um audio- oder videographierte Daten handelt, wird eine genaue schriftliche Abbildung der realen Kommunikationssituation angestrebt, auch wenn keine 1: 1-Wiedergabe möglich ist (Dittmar 2009: 52 - 53). Bei Videodaten muss zusätzlich das Zusammenwirken verschiedener Aspekte wie u. a. Sprache, Körperausdruck, Blicke und räumliche Gegebenheiten berücksichtigt werden. Dieses führt zu umfangreicheren Transkriptionen und damit verbundenen vielfältigen Herausforderungen. Forschende müssen bei der Datenverschriftlichung Entscheidungen treffen zu Transkriptionsart (z. B. phonetische, literarische oder morphologische Transkription), Transkriptionssystem (z. B. GAT2 (Selting et al. 2009), konversationsanalytische Verfahren (Sacks et al. 1974; Jefferson 2004) oder HIAT (Ehlich & Rehbein 1979, 1976)) und Transkriptionsprogramm (z. B. f4/ 5 (Pehl & Dresing 2021), EXMARaLDA (Sonderforschungsbereich „ Mehrsprachigkeit “ 2017), ELAN (Max Planck Institute for Psycholinguistics, The Language Archive 2020) oder Praat (Boersma & Weenink 2020)). Bei zwei- und mehrsprachigen Daten, wie sie u. a. in der Sprachenlehr- und -lernforschung vorkommen (exemplarisch Kuyumcu 2014 & 2017, Schlabach 2020, Ş eny ı ld ı z 2010), aber auch in der linguistischen Gesprächsanalyse und der interaktionsorientierten Dolmetschforschung (s. der Beitrag von Farag & Meyer in diesem Band), stellen sich zusätzlich zu den bereits genannten Herausforderungen weitere zur Vorgehensweise bei der Datenaufbereitung. Von Mehrsprachigkeit im Forschungsprozess geht Schittenhelm (2017: 102) aus, wenn [ … ] Erhebung, Auswertung und Präsentation qualitativer Daten nicht ausschließlich in einer Sprache stattfinden. Forschende können mehrsprachig erheben, auswerten und präsentieren, indem sie sich gekonnt mehrerer Sprachen bedienen. Besondere Anforderungen stellen sich allerdings, wenn sie nicht alle Sprachen kennen, die in einer Untersuchung zur Anwendung kommen. Bisher gibt es noch kaum Beiträge in der Sprachenlehr- und -lernforschung, die sich mit Fragen zur Transkription und der hiermit üblicherweise verbundenen Übersetzung von mehrsprachigen Video- und Audiodaten beschäftigen (Enzenhofer & Resch 2013: 217). 1 Gleiches stellt Nikander (2008: 226 - 227) bereits für qualitative Forschung im Allgemeinen fest und thematisiert das Problem der unterschiedlichen Publikationsanforderungen. Der hier vorliegende Text entstand aufgrund verschiedener Herausforderungen bei der Transkription und Annotation in einem empirischen Forschungsprojekt zum frühen gleichzeitigen Fremdsprachenlernen. Im vorliegenden Beitrag sollen zunächst auf theoretischer Ebene Überlegungen zur Sprachenwahl in Transkriptionen angestellt (Abschnitt 2.1) und der Umgang mit mehrsprachigen Phänomenen und nichterstsprachlichen Äußerungen diskutiert werden (Abschnitt 2.2), werden. Daraus leiten sich Anforderungen an Transkribierende und Übersetzende ab (Abschnitt 2.3) sowie Überlegungen zur Übersetzung selbst (Abschnitt 2.4). Abschnitt 3 stellt das Forschungsprojekt „ Frühes DaFmE “ vor. Im Projekt wurden 1 Zur Transkription von telefongedolmetschten Gesprächen s. der Beitrag von Farag & Meyer i. d. B. Transkripton und Annotation von mehrsprachigen Audio- und Videodaten 239 mehrsprachige Situationen im Deutsch- und Englisch-als-Fremdsprache-Unterricht in der Schuleingangsphase video- und audiographiert. Während des Transkriptions- und Annotationsprozesses stellten sich die in Abschnitt 2 vorgestellten Herausforderungen und Fragen. Die im Projekt getroffenen Entscheidungen und Umsetzungen werden anhand von ausgewählten Beispielen auf der Basis der in Abschnitt 3 diskutierten theoretischen Überlegungen kritisch hinterfragt und Umsetzungs- und Lösungsmöglichkeiten aufgezeigt. In Abschnitt 4 werden die wichtigsten Erkenntnisse zusammengefasst und Empfehlungen ausgesprochen. 2 Transkription und Annotation mehrsprachiger Daten Bei der Verschriftlichung von audio- und videographierten Daten sind im Vorfeld Überlegungen zur Transkription und Annotation anzustellen und Entscheidungen zu treffen. In Anlehnung an Wörner (2009: 8 - 9) soll hier unter dem Begriff Transkription die Verschriftlichung audiobzw. videographisch aufgenommener gesprochener Sprache (samt Übersetzungen) verstanden werden. Annotation meint beschreibende und analytische Bezeichnungen, die der Transkription hinzugefügt werden. Zu beiden Punkten sind im Vorfeld Überlegungen anzustellen und Entscheidungen zu treffen. Hierbei muss die Verwendung von Sprachen sowie der Umgang mit mehrsprachigen Phänomenen und nicht-erstsprachlichen Äußerungen geklärt werden. Dieses zieht nach sich, dass Transkribierende und notwendigerweise auch Übersetzende über bestimmte Fertigkeiten verfügen müssen. Nicht zuletzt ist ein Problembewusstsein notwendig, was Übersetzungen leisten sollen und können und welche Schwierigkeiten hierbei häufig auftreten. 2.1 Sprachenwahl In der Literatur wurde der Sprachenwahl bei der Transkription und Annotation in der Sprachenlehr- und -lernforschung bisher noch wenig und nur punktuell Aufmerksamkeit gewidmet (dazu auch Enzenhofer & Resch 2013: 202). Möglicherweise liegt dieses darin begründet, dass Daten deutlich häufiger einals mehrsprachig sind. Erheben wir aus unterschiedlichen Gründen mehrsprachige Daten, stellen sich für den Transkriptions- und Annotationsprozess einige Fragen: 1. In welcher Sprache soll die Transkription erfolgen? 2. Wie werden Phänomene wie Sprachenwechsel, Code-switching oder Codemixing transkribiert und annotiert? 240 Kathrin Wild 3. Welche verbalen, non-verbalen und paraverbalen Phänomene werden übersetzt? 4. Wo wird was in der Transkription vermerkt? Ad 1): Enzenhofer & Resch (2013: 208) fordern im Sinne der Nachvollziehbarkeit, dass in der/ den Originalsprache/ n transkribiert wird. Dies erscheint unstrittig, denn dieses Vorgehen trägt unabhängig vom Untersuchungskontext dazu bei, die Erhebungssituation genauso wiederzugeben, wie sie stattgefunden hat. Ad 2) Zur Notation von Code-Switching, wie es in mehrsprachigen Daten innerhalb eines Diskurses, eines Sprecherbeitrags oder innerhalb einer Äußerung vorkommen kann, raten Rehbein et al. (2004: 66 - 67), die lediglich von zweisprachigen Daten ausgehen, die geswitchten Passagen entsprechend einsprachigen zu transkribieren. Dieses dürfte analog für Sprachenwechsel und Code-mixing gelten. Bei der Übersetzung und der morphologischen Transliteration sei darauf zu achten, dass diese evtl. nur für eine der verwendeten Sprachen erforderlich sei, wobei möglicherweise unterschiedliche Abkürzungsstandards zu beachten sind. Konzett-Firth (i. d. B.) weist darauf hin, dass Sprachenwechsel in der Übersetzungszeile häufig verloren gehen und deshalb Original- und Übersetzungszeile parallel gelesen werden müssen. Bei der Datenpräsentation kann zwecks Identifizierung eine Markierung der unterschiedlichen Sprachen sinnvoll sein, insbesondere wenn es sich um weniger geläufige Sprachen bzw. Sprachen mit „ großer wahrgenommener Ähnlichkeit “ (Rehbein et al. 2004: 67) handelt. Es kann zweckmäßig sein, Switches zur besseren Auffindbarkeit in einer zusätzlichen Annotationsspur zu markieren und evtl. zu kategorisieren. Schlabach (2020) wählt für die Kennzeichnung der in seinen Daten vorkommenden verschiedenen Sprachen jeweils eine Farbe pro Sprache. Dieses bietet den Vorteil, dass Code-mixing transparent dargestellt werden kann. Zusätzlich fügt er eine Annotationsspalte hinter der Transkription ein, in die er einträgt, ob es sich um Sprachenwechsel, Code-switching oder Code-mixing handelt. Ad 3) Rehbein et al. (2004: 60 - 61) empfehlen, para- und nonverbale Phänomene in der Originalsprache anzugeben und in der Übersetzungsspur zu übersetzen. Kommentare zur Sprechweise und andere Phänomene sollen nur einmal in der für die Analyse verwendeten Meta- oder Präsentationssprache notiert und nicht weiter übersetzt werden. Wie geht man aber bei Daten vor, die mehrsprachig sind? In der Sprachenlehr- und -lernforschung werden zunehmend mehrsprachige Daten erhoben (s. hierzu das in Abschnitt 3 beschriebene Forschungsprojekt, in dem sich entsprechende forschungspraktische Herausforderungen zeigten), bei denen im Transkriptions- und Annotationsprozess Transkripton und Annotation von mehrsprachigen Audio- und Videodaten 241 weitere Fragen aufgeworfen werden: Was ist die Originalsprache, welche Sprache/ n verwendet man für die Analyse und Präsentation? Es ist anzunehmen, dass jede von den Untersuchungsteilnehmenden verwendete Sprache als Originalsprache gelten kann. In welcher Sprache Analyse und Präsentation vorgenommen werden, dürfte je nach Kontext, z. B. Veröffentlichungs- oder Tagungssprache, variieren. Es darf angezweifelt werden, dass in mehrsprachigen Kontexten nur eine Sprache dominant und von Bedeutung für die Analyse und Präsentation ist. Denken wir z. B. an die Transkription und Interpretation 2 von Körpersprache, so ist zu bedenken ist, dass diese stark individuell sowie kulturabhängig ist: „ Die Körpersprache hat vielfältige Facetten, aber keinen eindeutigen Code. Abhängig von der Situation, der Vorgeschichte, vom Geschlecht sowie der Kulturzugehörigkeit wird nonverbales Verhalten interpretiert und ausgeführt “ (Mempel 2010: 241). Deshalb schlägt Mempel (2010: 247) vor, eine einheitliche Systematik zu erarbeiten. Dieses kann gerade in mehrsprachigen und letztendlich mehrkulturellen Transkriptionsprozessen aufgrund unterschiedlicher Konnotationen schwierig sein. Können bzw. sollten Analysen nicht auch mehrsprachig durchgeführt werden, wenn die analysierende/ n Person/ en selbst mehrsprachig ist/ sind? Was, wenn sie es nicht ist/ sind? Ad 4) Transkriptionen werden mit unterschiedlichen Transkriptionsprogrammen wie z. B. EXMARaLDA (Sonderforschungsbereich „ Mehrsprachigkeit “ 2017), f4 (Pehl & Dresing 2021) oder ELAN (Brugman & Russel 2004, Max Planck Institute for Psycholinguistics, The Language Archive 2020) angefertigt. In diesen Programmen können z.T. mehrere Spuren angelegt werden, sodass hier separate Spuren für die Originalsprachen samt ihren Übersetzungen angelegt werden können. Rehbein et al. (2004: 60 - 61) sprechen hierzu einige Empfehlungen aus: - Es sind sowohl eine Originalals auch eine Übersetzungsspur anzulegen. - Notationen von Pausen und anderen Phänomenen gesprochener Sprache(n), z. B. Abbrüche oder Korrekturen, sind in der Original- und in der Übersetzungsspur vorzunehmen. - Sprecherspurinterne, -zugeordnete und -unabhängige Kommentare zu redebegleitenden Nonverbalia sollen sowohl in der/ den Originalsprache/ n als auch in der Übersetzung angeführt werden. 2 Bei der Transkription sollte nach Dittmar (2009: 87) möglichst nicht interpretiert, sondern die Interaktion so genau wie möglich abgebildet werden. Obgleich dieser Forderung grundsätzlich zuzustimmen ist, muss bedacht werden, dass jede Transkription in sich schon eine Interpretation darstellt (dazu auch Mondada (2018: 103)), was für die Transkription mehrsprachiger Daten noch stärker als für die Transkription einsprachiger Daten gelten dürfte. 242 Kathrin Wild - Externe Kommentare zur Sprechweise und zu anderen Phänomenen sind nur einmalig in der für die Analyse bzw. Präsentation verwendeten Sprache zu verschriftlichen und werden nicht übersetzt. Rehbein et al. (2004: 60) raten, für die Übersetzung eine Annotationsspur zur zugehörigen Sprecherspur anzulegen und dabei für den betreffenden Datenkorpus einheitliche Konventionen bezüglich der jeweiligen Schriftgrößen festzulegen. Die Originalsprecherspur sollte dabei die größte räumliche Ausdehnung haben, damit sich an der grafischen Repräsentation der kommunikativen Simultaneitätsverhältnisse nichts ändert, etwa indem durch die nachträgliche Hinzufügung einer Übersetzung in der Originalsprecherspur grafische Zwischenräume zwischen den einzelnen Äußerungen entstehen, die den Eindruck von de facto nicht existierenden Sprechpausen nahe legen könnten. Das Verhältnis der Schriftgrößen zueinander sollte dem jeweiligen Sprachenpaar angepasst sein [ … ]. (Rehbein et al. 2004: 60) Auch wenn sie darauf hinweisen, dass dieses nicht standardisierbar sei, dürfte dies heute aufgrund technischer Weiterentwicklungen und Standardisierungsbestrebungen nicht mehr uneingeschränkt gelten. 2.2 Mehrsprachige Phänomene und nicht-erstsprachliche Äußerungen Besonderheiten gesprochener Sprache stellen Forschende vor einige Herausforderungen bei der Datenaufbereitung. Dieses gilt sowohl für die Transkription und Annotation einals auch mehrsprachiger Daten (s. auch der Beitrag von Farag & Meyer in diesem Band). Mündliche Daten unterscheiden sich grundlegend von schriftlichen, da es hier einerseits stärker zu Abweichungen von der Standardsprache 3 kommt und andererseits zur Sprache auch Multimodalität sowie Objekte und spezifische Phänomene gehören und damit eine räumlichzeitliche Kopräsenz vorliegt. Es können phonologische und morphosyntaktische Phänomene, z. T. in Zusammenhang mit Dialekten, Soziolekten, Kreol- und Pidginsprachen und/ oder idiosynkratische Variationen auftreten, aber auch Phänomene der Sprache von Kindern, Zweitspracherwerbenden und Fremdsprachenlernenden. Insbesondere in mehrsprachigen Daten kommt es darüber hinaus zu Sprachenwechseln (vgl. Abschnitt 3.1) bis hin zur Vermischung aller genannter Phänomene. Diese können sowohl systematisch als auch unsystematisch auftreten (Rehbein et al. 2004: 67 - 68). Rehbein et al. (2004: 68) folgend sollte unabhängig von der Art der Abweichung vom angenommenen Standard 3 An dieser Stelle kann aus Platzgründen nicht auf die grundsätzliche Problematik der Annahme, es gäbe eine „ Standardsprache “ , eingegangen werden. Transkripton und Annotation von mehrsprachigen Audio- und Videodaten 243 das Gehörte bei der Transkription nicht geändert, sondern möglichst originalgetreu und ohne Korrekturen verschriftlicht werden. Transkriptionsprogramme bieten teilweise die Möglichkeit, sprachliche Besonderheiten außerhalb der eigentlichen Transkription zu notieren. In EXMA- RaLDA können Informationen zu den Sprechenden, ihren Erst-, Zweit- und Fremdsprachen sowie zu den verwendeten Sprachen und systematisch auftretenden Besonderheiten in einer Sprechertabelle eingetragen werden. Letztendlich können diese Angaben bei der Datenauswertung helfen, sie können aber nur ein unzureichendes Bild der (mehrsprachigen) Untersuchungsteilnehmenden zeichnen. Z. B. kann über diese zusätzlichen Informationen nicht abgeleitet werden, ob sich Ausspracheabweichungen verstärken, weil Sprechende affektiv beteiligt sind. Affektiv besetzte Sprache ist in hohem Maße anfällig für erstsprachliche Einflüsse, da Sprechende diese aufgrund der hohen inneren Beteiligung kaum kontrollieren können (dazu auch die von Labov (1966: 107 - 108) beschriebene „ danger-of-death “ -technique). Globale Informationen wie „ spricht mit dänischem Akzent “ , die auf Intuition beruhen, wie z. B. die Einschätzung der Art eines Akzents, können problematisch sein, da diese nicht immer transparent überprüfbar sind (Rehbein et al. 2004: 68). Stattdessen sollten auftretende Phänomene entsprechend ihres Auftretens im Detail deskriptiv transkribiert werden. Rehbein et al. (2004: 68) empfehlen hierzu graphische Markierungen in der Originalspur sowie die Eintragung z. B. der Standardversion in einer externen Kommentarspur. 2.3 Anforderungen an Transkribierende und Übersetzende Fragen der Sprachenverwendung ziehen unweigerlich Überlegungen zu den Anforderungen an Transkribierende nach sich. Es ist zu überlegen, welche sprachlichen Kompetenzen für die Anfertigung einer mehrsprachigen Transkription notwendig sind. Rehbein et al. (2004: 57) fordern eine zuverlässige, nach Möglichkeit muttersprachliche Vertrautheit bzw. die volle Kompetenz der Transkribierenden mit den zu transkribierenden Sprachen in ihrem mündlichen und schriftlichen Gebrauch [ … ]. Entscheidend für die Zwecke der Transkription ist eine Kompetenz, die die relevanten Phänomene ausreichend sicher und differenziert erfassen und kodieren kann. Die Autor/ innen diskutieren in diesem Zusammenhang die Begriffe „ muttersprachliche Kompetenz “ und „ volle Kompetenz “ , da diese - nicht nur - in mehrsprachigen Gesellschaften relativ sind: So umfasst eine volle Kompetenz aufbauend auf der muttersprachlichen oder auch annähernd muttersprachlichen, später erworbenen, Kompetenz zusätzlich institutio- 244 Kathrin Wild nell erworbene formale, schriftliche und diskursartenspezifische sprachliche Fähigkeiten. Entscheidend für die Zwecke der Transkription ist eine Kompetenz, die die relevanten Phänomene ausreichend sicher und differenziert erfassen und kodieren kann. (Rehbein et al. 2004: 57) Dieser Forderung ist grundsätzlich zuzustimmen, obgleich es nicht für jede Sprachenkombination einfach sein dürfte, sprachlich kompetente Transkribierende zu finden, die über entsprechende diskursartenspezifische sprachliche Fähigkeiten verfügen, insbesondere wenn die Daten mehr als zwei Sprachen enthalten. Der Sprachengebrauch, der Hintergrund von Forschenden sowie die Rolle der Übersetzenden werden in interlingualen Settings häufig vernachlässigt (Regmi et al. 2010: 17). Mehrsprachige Transkriptionen bedürfen aufgrund verschiedener Zwecke Übersetzungen, sei es um Daten den Forschenden zugänglich zu machen, sie zu diskutieren oder auch der Öffentlichkeit zu präsentieren (zu Transkripten in Publikationen s. der Beitrag von Konzett-Firth i. d. B.). 4 In Anlehnung an Rehbein et al. (2004: 57) ist zuallererst zu fragen: Verfügen Personen mit hoher Sprachenkompetenz auch über die notwendigen Übersetzungskompetenzen? Diese umfassen die Sprachenkompetenz in Ausgangs- und Zielsprache, Kulturkompetenz, Fach- und Recherchekompetenz sowie Transferkompetenz (Enzenhofer & Resch 2013: 210, Enzenhofer & Resch 2011: 60 - 61). Letztere beinhaltet Wissen um Übersetzungsstrategien und -techniken und fasst die vorhergehenden Kompetenzen zusammen. Harkness (2011: 1) weist darauf hin, dass für eine Übersetzung mehr notwendig ist, als zwei Sprachen sprechen und schreiben zu können, i. e. dass bestimmte Techniken und Vorgehensweisen beherrscht werden müssen. Die fremdsprachliche Kompetenz ist nach Hansen (2006: 341) Teil der 1) übersetzerischen Kompetenz, 2) der sozialen, kulturellen und interkulturellen sowie 3) der kommunikativen Kompetenz, die jeweils aus impliziten Fähigkeiten und explizitem Wissen besteht: 1) Die implizite übersetzerische Kompetenz ist die Fähigkeit, den Ausgangstext funktionsgerecht im Zieltext wiederzugeben. Darüber hinaus bedarf es explizitem Wissen über Konzepte, Methoden und Strategien der Übersetzung. 4 Sidnell (2010: 22) fordert, dass sich Konversationsanalytiker zumindest einige Sprachkenntnisse des Materials, mit dem sie arbeiten, aneignen, weil es nicht ausreiche, nur mit Übersetzungen zu arbeiten. Ob einige Sprachkenntnisse ausreichen, um das Material hinlänglich zu analysieren, ist fraglich (s. auch der Beitrag von Farag & Meyer i. d. B.). Dies unterstreicht, wie wichtig eine hohe Übersetzungsqualität ist. Transkripton und Annotation von mehrsprachigen Audio- und Videodaten 245 2) Die soziale, kulturelle und interkulturelle Kompetenz umfasst implizites soziales und kulturbedingtes Verständnis und Verhalten sowie explizites Wissen über Regeln und Unterschiede im Bereich Kultur und Gesellschaft, wozu u. a. Werte, Normen, Haltungen, Intentionen und Handlungsmotive zählen. 3) Die kommunikative Kompetenz setzt sich aus pragmatischer und linguistischer Kompetenz zusammen, die jeweils wiederum sowohl implizite Fähigkeiten als auch explizites Wissen beinhalten. Übersetzung wird als kulturelle Transferhandlung, sogar als „ Sondersorte interkultureller Kommunikation ” (Witte 2006: 346) beschrieben und Übersetzende als Kulturmittelnde (Witte 2006: 345 - 346), womit ihnen eine Expertenrolle zugeschrieben wird (Risku 2006: 108) Dieses unterstreicht noch einmal, dass es mit der reinen Sprachenbeherrschung nicht getan ist, eine intuitive Kulturkenntnis nicht ausreicht, sondern vielmehr eine bewusste Kulturkompetenz vorliegen muss (Witte 2006: 346). Transkribierende zu finden, die über die notwendigen Kompetenzen, möglicherweise zusätzlich über eine Übersetzungsausbildung verfügen, kann - auch aus Ressourcengründen - schwierig sein. Zur Qualitätssicherung der Transkription und Übersetzung ist zu überlegen, ob beide voneinander getrennt werden sollen. Es sind unbedingt mehrere Arbeits- und Kontrollschritte mit mehreren Beteiligten zu empfehlen, die möglichst alle über die notwendigen Kompetenzen verfügen. 2.4 Übersetzung Bei Übersetzungen müssen im Vorfeld Funktion und Zweck 5 sowie Kontext, Umfang und die Übersetzungsstrategie geklärt werden. Eine Übersetzung muss ihre Funktion erfüllen, andernfalls ist das übersetzte Transkript fehlerhaft (Enzenhofer & Resch 2013: 217, 219). Übersetzungsleitend sollte die Erhaltung der genauen kontextuell angemessenen Bedeutung sein (Wild 2019: 76 - 78). Zudem ist zu überlegen, ob in eine oder mehrere Sprachen zu übersetzen ist. Der Fokus sollte grundsätzlich auf der „ Wiedergabe der spezifischen Handlungsqualität bzw. des handlungsspezifischen Zwecks der Ausgangssprache “ (Rehbein et al. 2004: 58) liegen. Nachvollziehbarkeit einzelner sprachlicher Elemente in ihrer Einzelfunktion ordnen Rehbein et al. (2004: 58) dieser Forderung nach. Form-Funktionsordnungen können durch zusätzliche morphologische Transliteration vorgenommen werden. Dieses ist insbesondere im Kontext von Codemixing relevant. Sowohl Rehbein et al. (2004) als auch Enzenhofer und Resch 5 Vgl. hierzu den Skoposbegriff (Dizdar 2006: 104 - 105). 246 Kathrin Wild (2013: 223) empfehlen, dass eine Äußerung im Original nur einer Äußerung in der Übersetzung entspricht, sei sie abgeschlossen oder nicht. Ein Zusammenlegen zweier/ mehrerer oder ein Aufteilen einer Äußerung sollte nicht vorgenommen werden, um die Äußerung als Ganzes in ihrer grammatischen Struktur nachvollziehen und analysieren zu können. Weichen Sprachenpaare in ihrer Syntax stark voneinander ab oder die Originalsprache und die Übersetzung verfügen über entgegengesetzt läufige Schriftsystems (s. der Beitrag von Farag & Meyer i. d. B.), kann die örtliche Wiedergabe des Abbruchs schwierig sein. Bei unvollständigen Äußerungen, die sich nicht erschließen lassen, empfehlen Rehbein et al. (2004: 58) ein Gleichheitszeichen (=) zu nutzen, um diese als unübersetzbar darzustellen. Strukturelle Unterschiede zwischen Sprachen führen im Übersetzungsprozess häufig zu Problemen (Haas 2009: 65). Schreiber (2017: 47) weist darauf hin, dass es unmöglich ist, die formale Struktur des Ausgangstextes in der Zielsprache voll und ganz zu reproduzieren. Morphologische Kategorien wie Numerus, Modus und Tempus lassen sich bei Inkongruenzen zwischen Ausgangs- und Zielsprache nicht eindeutig übersetzen. Vielmehr beruht die vorgenommene Übersetzung auch hier auf der Interpretation des/ der Übersetzenden (Schreiber 2017: 101). Werden Idiome wortwörtlich übersetzt, können sie ihre originäre Bedeutung verlieren (Su & Parham 2002: 582). Insbesondere Adverbien, die z. B. auf Zeit- und Besitzkonzepten beruhen, haben je nach Kultur unterschiedliche Konnotationen. Haas (2009: 64) plädiert dafür, die kontextuell angemessene Bedeutung der Zielsprache in den Vordergrund zu stellen, dabei jedoch Nuancen in der Originalals auch Zielsprache zu berücksichtigen. Es lässt sich fragen, inwieweit Bedeutung und Relevanz in zwei unterschiedlichen Kulturen gleich ist, insbesondere im Kontext qualitativer Forschung (Regmi et al. 2010: 22). So ist die sprachliche Übersetzung von Konzepten nicht in jede beliebige Sprache adäquat möglich, zumal nicht alle Konzepte in jeder Sprache vorhanden sind oder sich nur aufwändig umschreiben lassen. Ist eine angemessene Übersetzung möglich, kann sie über unterschiedliche Konnotationen verfügen (ausführlicher hierzu Wild 2019: 76 - 77). Soziale Praktiken wie die Ansprache von Personen oder duzen vs. siezen unterscheiden sich je nach Kultur und der damit verbundenen Sprache voneinander und können zu Problemen bei der Übersetzung führen, da die Übertragung von einer Sprache in die andere unweigerlich eine Interpretationsleistung durch die übersetzende Person verlangt. Während Metaphern besonders fehleranfällig sind (van Nes et al. 2010: 316) und semantische Lücken Probleme bereiten, lassen sich Mehrdeutigkeiten, die durch Weglassen von Vokalen oder Silben ein anderes Wort ergeben, nicht Transkripton und Annotation von mehrsprachigen Audio- und Videodaten 247 eindeutig übersetzen, da hiermit in der Übersetzung eine Eindeutigkeit geschaffen würde, die so in der Ausgangssprache nicht vorliegt (Schittenhelm 2017: 109) und es hierdurch zu Fehlübersetzungen kommen kann (Schreiber 2017: 113). Unweigerlich beinhalten Übersetzungen die Interpretation des Gesagten durch die übersetzende Person (van Nes et al. 2010: 314). Besonders problematisch ist die Übersetzung von Dialekten, Soziolekten, Pidgin- und Kreolsprachen sowie idiosynkratischen Variationen. Deren phonologische, morphologische, lexikalische, syntaktische und pragmatische Abweichungen von der sog. Standardsprache lassen sich nicht 1: 1 von der Ausgangsin die Zielsprache übersetzen, denn sie sind in hohem Maße kulturgebunden, identitätsstiftend und mit Werten, Status sowie Assoziationen verbunden (Kolb 2006: 278). Phänomene der Sprache von Kindern und lernersprachliche Phänomene lassen sich ebenfalls nicht als passgenaues Äquivalent übersetzen. Insbesondere in mehrsprachigen Daten kommt es darüber hinaus zu Sprachenwechseln. Diese Sprachenwechsel können nur durch zusätzliche Kennzeichnung des Wechsels in übersetzten Fassungen aufgespürt werden. 3 Empirische Studie: „ Frühes DaFmE “ 3.1 Zielsetzungen und Fragestellungen Die im Folgenden diskutierten Beispiele für Herausforderungen bei der Transkription entstammen der Querschnittsstudie „ Frühes DaFmE “ , die den Umgang mit sog. unbeabsichtigten Sprachenwechseln im simultanen Fremdsprachenunterricht im Schuleingangsbereich untersucht (Wild 2020). Erforscht wird, wie Lehrende die lernerseitige Produktion von Englisch im Deutschunterricht und Deutsch im Englischunterricht in Unterrichtsinteraktionen mit ihren Lernenden bearbeiten, wie sich die Lernenden an der Sprachenwahl der Lehrkräfte orientieren und inwieweit Lernende als multiple Sprachenbenutzer/ innen mit ihren mehrsprachigen Äußerungen anerkannt werden. Ziele der Studie sind • die Identifizierung und Analyse von Interaktionsmustern bei lernerseitigen unbeabsichtigten Sprachenwechseln im fremdsprachlichen Anfangsunterricht, • die Empirie-induzierte Theoriebildung zu Varianten des Umgangs mit unbeabsichtigtem Sprachenwechsel im früh einsetzenden simultanen Fremdsprachenunterricht. Als Forschungsfragen werden bearbeitet: 1. Welche Interaktionsmuster finden sich bei lernerseitigen unbeabsichtigten Sprachenwechseln im Deutsch-mit-Englisch-als-Fremdsprache-Unterricht? 248 Kathrin Wild 2. Wie orientieren sich die Lernenden an der Lehrkraft bezüglich der Sprachenwahl? 3. Inwieweit werden Lernende als multiple Sprachenbenutzer/ innen von Lehrenden zugelassen? 6 3.2 Untersuchungskontext Die im Folgenden angeführten Datenbeispiele entstammen der Schuleingangsphase einer dänischen privaten Grundschule (0.-9. Klasse) im dänisch-deutschen Grenzgebiet. Alle Schüler/ innen lernen Englisch und Deutsch ab der Vorschulklasse. Der Unterricht in beiden Fremdsprachen wird in der 0. Klasse (Vorschulklasse) als auch in der jahrgangsübergreifenden 1./ 2. Klasse in seinem natürlichen Umfeld erforscht. Dabei wurde möglichst wenig in das Unterrichtsgeschehen eingegriffen und eine sechswöchige Feldannäherung durchgeführt, sodass von authentischem Unterrichtssituationen ausgegangen werden kann. 7 3.3 Forschungsdesign Zur Erforschung von komplexen Interaktionsprozessen in einem natürlichen Umfeld (Riemer & Settinieri 2010: 767) wurde mit einem explorativ-interpretativen Vorgehen ein qualitativer Forschungsansatz gewählt. Da Videodaten zur Untersuchung von Interaktionen besonders geeignet sind (Schramm 2014: 243), wurde der Deutsch- und Englisch-Unterricht in beiden Klassen mit jeweils zwei Kameras gefilmt. Zusätzlich wurden mit einem Zoom H6-Gerät Audioaufnahmen angefertigt. Im Zeitraum Februar bis Juni 2015 wurden insgesamt 55 Unterrichtseinheiten mit einem Umfang von 1.417 Minuten video- und audiographiert: Fach Klasse Anzahl SuS Anzahl Unterrichtseinheiten Daten in Min. Deutsch 0. 16 16 424 1./ 2. 24 12 214 Englisch 0. 16 17 426 1./ 2. 24 10 353 insgesamt 40 55 1.417 Tab. 1: Datenüberblick 6 Es wird in diesem Kontext untersucht, inwieweit Lehrkräfte es tolerieren oder (dis)präferieren, dass Lernende andere Sprachen als die gerade unterrichtete in Unterrichtsinteraktionen verwenden und inwieweit sie den Gebrauch einer bestimmten Sprache durchzusetzen versuchen. 7 Für eine ausführlichere Darstellung der Untersuchung vgl. Wild (2020). Transkripton und Annotation von mehrsprachigen Audio- und Videodaten 249 In der 0. Klasse wurden von derAutorin 16 Deutsch- und 17 Englischunterrichtseinheiten mit einer Dauer von 424 bzw. 426 Minuten aufgenommen. In der 1./ 2. Klasse zeichnete sie 12 Deutschunterrichtseinheiten im Umfang von 214 Minuten und 10 Englischeinheiten mit 353 Minuten Dauer auf. Zusätzlich wurden Feldnotizen erstellt. 3.4 Datenaufbereitung Zur Datenaufbereitung erfolgte ein Zusammenschnitt der Videoaufnahmen aus beiden Perspektiven, um eine Splitscreen-Darstellung zu erhalten. Die zusätzlichen Audioaufnahmen verfügen zumeist über eine bessere Tonqualität als die Kameraaufnahmen, sodass diese bis auf wenige Ausnahmen unter die Videosequenzen gelegt wurden. Nach dem Zusammenschnitt wurden die Sequenzen, die die Verwendung mehrerer Fremdsprachen und somit unbeabsichtigter Sprachenwechsel im Unterricht enthalten, ermittelt und extrahiert. Aufgrund unvermeidlicher Selektion und Abstraktion im Transkriptionsprozess sollten und wurden für die Datenanalyse immer (pseudonymisiertes) Transkript und audio-/ videographierte Daten zusammen herangezogen (vgl. zu diesem Vorgehen auch Bergmann 1988: 25; Buttlar 2018: 326; Heller & Morek 2016: 228 - 229). Die Transkriptionen wurden von einer wissenschaftlichen Hilfskraft und der Autorin in GAT2 (Selting et al. 2009) im EXMARaLDA Partitur Editor (Sonderforschungsbereich „ Mehrsprachigkeit “ 2017) erstellt. DaF-/ DaZ-Studierende in Master-Seminaren zu Forschungsmethoden in der Sprachenlehr- und -lernforschung fertigten zu Übungszwecken ebenfalls Transkripte von Datenausschnitten, die möglichst keine oder nur wenige dänische Wörter enthielten, an. Basistranskripte wurden durch Angaben zu Akzentuierung, Tonhöhenbewegung am Ende von Intonationsphrasen, Veränderungen der Stimmqualität und Artikulationsweise ergänzt. Jede Transkription wurde mit einem Transkriptionskopf versehen, der sowohl Angaben zur Sequenz als auch zur Transkription enthält. Für eine sinnverstehende Rekonstruktion in Form einer Transkription ist es nützlich, an der Erhebungssituation teilgenommen zu haben (Dittmar 2009: 59). Während die Autorin an den aufgezeichneten und zu transkribierenden Unterrichtseinheiten teilnahm, konnte die wissenschaftliche Hilfskraft erst nach Ende der Datenerhebung beschäftigt werden. Die Seminare fanden ebenfalls zu einem späteren Zeitpunkt statt. 3.4.1 Sprachenwahl Zu den in Abschnitt 2.1 gestellten Fragen bezüglich der Sprachenwahl wurden im Projekt „ DaFmE “ folgende Entscheidungen getroffen: 250 Kathrin Wild 1. Im Sinne der Nachvollziehbarkeit wurde in den von den Lehrkräften und Lernenden des Projekts verwendeten Sprachen transkribiert, sodass das Stattgefundene originalgetreu wiedergeben wird. 2. Code-switching wurde entsprechend einsprachigen Passagen so transkribiert, wie es stattfand. Übersetzungen werden jeweils abhängig von den Kontexten, in denen Daten analysiert und präsentiert werden, vorgenommen. Dazu ein Beispiel ( ► eContent_WI_a): In einer Englischstunde schreibt die Lehrerin die Zehnerzahlen in Ziffern an die Tafel, zuletzt die Zahl 100. Einige Schüler/ innen melden sich. Die Lehrkraft ruft zunächst eine Schülerin auf, die mit „ a hundred “ auf Englisch antwortet, woraufhin die Lehrerin nickt. Als sie anfängt, die nächste Zahl an die Tafel zu schreiben, sagt ein Schüler „ og så kommer tausend eller hvad det hedder “ ( „ und dann kommt tausend oder wie das heißt “ ). In diesem ansonsten dänischen Satz wird die Zahl auf Deutsch genannt. Die Lehrkraft reagiert darauf nicht, sondern schreibt die Zahl zu Ende und nickt einem Schüler zu, der auf Dänisch sagt, dass er die Zahl auf Dänisch erinnert. [1] 0 [0.] 1 [4.8]2 [5.5] 3 [5.7]4 [6.8]5 [7.5]6 [8.2] T [nv] schreibt 100 an die Tafel nickt zustimmend, zeigt auf Ha schreibt 110 an die Tafel Ha [v] a hundred Ha [Üb] hundert Fe [v] og så kommer tausend eller Fe [Üb] und dann kommt tausend oder wie [2] .. 7 [9.3]8 [9.4]9 [11.0] 10 [13.7]11 [15.4] T [nv] nickt Fe [v] hvad det hedder Fe [Üb] das heißt Fr [v] det der det der tal kan jeg godt huske på dansk hundrede ti Fr [Üb] die die Zahl da erinnere ich gut auf Dänisch hundertzehn [3] .. 12 [16.2]13 [16.3] T [v] det er rigtigt det er hundrede og ti på dansk T [Üb] das ist richtig das ist hundertzehn auf Dänisch T [nv] zustimmend zeigt auf die 1 der 110 und dann auf die 10 Fr [v] Fr [Üb] Abb. 1: Transkription von Code-switching ( ► eContent_WI_a) eContent_WI_a. mp4 eContent_WI_a. mp4 Transkripton und Annotation von mehrsprachigen Audio- und Videodaten 251 Aufgrund des Forschungsinteresses (Umgang mit mehrsprachigen Äußerungen, vgl. Abschnitt 3.1) wurden keine morphologische Transliteration vorgenommen. Die Sprachen unterscheiden sich deutlich voneinander, sodass keine Markierungen zur Identifizierung der einzelnen Sprachen vorgenommen werden musste. Es erfolgte keine Kategorisierung. 3. Ausgehend von der Annahme, dass jede der verwendeten Sprachen als Originalsprache gelten kann, werden para- und nonverbale Phänomene - wie von Rehbein et al. (2004: 60 - 61) empfohlen - normalerweise in der jeweils in der Situation gesprochenen Sprache mit möglichst neutraler Formulierung wiedergegeben. In den Transkriptionen, die von Studierenden angefertigt wurden, wurde die Sprachenwahl recht unterschiedlich gehandhabt und zeigte, dass gerade nicht ausreichende Sprachkompetenzen (vgl. Abschnitt 2.3) zu Schwierigkeiten in der Anfertigung von Transkriptionen führen. Für Präsentationen und Veröffentlichungen wird in der Übersetzungszeile eine Übersetzung in die entsprechend für den Anlass verwendete Sprache vorgenommen (hier Deutsch), da dieses zum besseren Verständnis der Daten beiträgt. 4. Eine einheitliche Systematik für nonverbales Verhalten, wie Mempel (2010: 247) sie vorschlägt, wurde nicht vorher erarbeitet, wäre aber unter Umständen sinnvoll gewesen. Gerade die von Studierenden angefertigten Transkripte zeigten dies. Nicht zu unterschätzen ist dabei der Umfang solch eines Unternehmens, denn auch hier müsste ja für alle Phänomene in (mindestens) drei Sprachen übersetzt werden. Darüber hinaus ist dieses in mehrsprachigen und dadurch mehrkulturellen Situationen durch unterschiedliche Konnotationen nicht unproblematisch (vgl. Abschnitt 2.4). 5. Da die Transkriptionen mit dem EXMARaLDA Partitur Editor erstellt wurden, wurden die Empfehlungen von Rehbein et al. (2004: 60 - 61) fast durchgehend umgesetzt. Es wurden separate Spuren für die Originalsprachen sowie Übersetzungsspuren, soweit notwendig, angelegt. Dabei wurden Pausen und Phänomene gesprochener Sprache wie z. B. Abbrüche oder Korrekturen sowohl in der Originalals auch in der Übersetzungsspur angegeben ( ► eContent_WI_b): eContent_WI_b. mp4 252 Kathrin Wild [1] 32 [00: 29.0] 33 [00: 31.1] LE0 [v] NOW it is three o'clock nu er den ( ) LE0 [Üb] jetzt ist es LE0 [nv] dreht die wanduhr auf halb drei zeigt auf der Wanduhr von halb drei auf drei, dann senkrecht hinunter von drei El [nv] meldet sich [2] .. 34 [00: 33.0]35 [00: 33.0]36 [00: 34.8] 37 [00: 38.3]38 [00: 38.7]39 [00: 39.4]40 [00: 40.0]41 [00: 40.1]42 [00: 41.0] LE0 [v] den er halv (.) forbi hvad halv forbi LE0 [Üb] es ist halb (.) nach was halb nach was jacob LE0 [nv] auf halb drei zeigt den schülern die uhrzeit schaut zu ja El [nv] Da [nv] meldet sich meldet sich P1 [v] heulen langes heulen P2 [v] hoooo [3] 43 [00: 41.2]44 [00: 41.8]45 [00: 41.8]46 [00: 42.7]47 [00: 43.0] 48 [00: 44.4] LE0 [v] hvad jacob half past two LE0 [Üb] LE0 [nv] Ja [v] to half past two Ja [Üb] zwei El [nv] Abb. 2: Transkription von Pausen in Original- und Zielsprache ( ► eContent_WI_b) Sprecherspurinterne, -zugeordnete und -unabhängige Kommentare zu redebegleitenden Nonverbalia werden in der Originalsowie in der Übersetzungsspur angeführt, wobei für jede/ n Sprecher/ in eine Annotationsspur für Übersetzungen angelegt wurde. Die Transkription durch Studierende zeigte die Problematik, in welcher Sprache sprecherspurinterne, -zugeordnete und -unabhängige Kommentare zu redebegleitenden Nonverbalia zu transkribieren sind, besonders deutlich. Für diese Fälle wurde empfohlen, für die Transkription die jeweils in den Daten unterrichtete Fremdsprache (Deutsch oder Englisch) zu wählen. Externe Kommentare zur Sprechweise und zu anderen Phänomenen werden nur in der für die Analyse bzw. Präsentation verwendeten Sprache verschriftlicht und nicht übersetzt. Für die Originalsprecherspur wurde eine größere Schriftgröße als für die Annotationsspur gewählt. Hierbei zeigt sich, wie Abb. 2 illustriert, dass dadurch die Übersetzung weniger Platz innerhalb der Spur einnimmt, was durchaus kontrovers diskutiert werden kann. eContent_WI_b. mp4 Transkripton und Annotation von mehrsprachigen Audio- und Videodaten 253 3.4.2 Mehrsprachige Phänomene und nicht-erstsprachliche Äußerungen Im Projekt wurden mündliche Daten erhoben, die unweigerlich Abweichungen von der sog. Standardsprache mit sich bringen (vgl. Abschnitt 2.2). Die zur Analyse ausgewählten Unterrichtssequenzen zeichnen sich aufgrund des Untersuchungsfokus durch Mehrsprachigkeit aus. Alle kindlichen Lernenden sprechen Dänisch als Schulsprache, ein Viertel der Lernenden in beiden untersuchten Lerngruppen verfügt über mehr als eine Erstsprache. Hinzu kommt, dass die Schule in einem Gebiet liegt, in dem zusätzlich Dialekt (Sønderjydsk) gesprochen wird. Die Daten wurden im Fremdsprachenunterricht für die Fächer Deutsch und Englisch erhoben. Alle von zuhause mitgebrachten und in der Schule gesprochenen sowie unterrichteten Sprachen sind zu berücksichtigen und so genau wie möglich zu verschriftlichen. Insbesondere in mehrsprachigen Daten kommt es darüber hinaus zu Sprachenwechseln (vgl. Abschnitt 2.1) bis hin zur Vermischung aller genannter Phänomene. Systematisch wurde aufgrund der noch geringen Fremdsprachenkenntnisse häufig die Schulsprache Dänisch von den Lernenden und individuell unterschiedlich auch von den Lehrenden genutzt. Hierbei kam es gelegentlich zur Nutzung des Dialekts Sønderjydsk. Beide Transkribentinnen wissen um den gelegentlichen Gebrauch von Sønderjydsk in der Region, sind ihm mehrere Jahre sporadisch ausgesetzt gewesen, beherrschen diesen Dialekt jedoch nicht aktiv und verstehen nicht alle dialektalen Ausdrücke, die z.T. deutlich vom Reichsdänischen als Standardsprache abweichen ( ► eContent_WI_c). 8 Hierdurch ist es durchaus möglich, dass Äußerungen nicht verstanden und deshalb als unverständlich gekennzeichnet wurden. Unsystematisch traten Sprachenwechsel zwischen den beiden Schulfremdsprachen im Fremdsprachenunterricht auf. Es wurde der Empfehlung von Rehbein et al. (2004: 68) gefolgt, indem grundsätzlich das Gehörte möglichst originalgetreu transkribiert und dabei keine Glättung oder Korrektur vorgenommen wurde. Im EXMARaLDA Partitur Editor wurden in der Sprechertabelle für jede Transkription Informationen zu den Sprechenden, ihren Erst- und Zweitsprachen vermerkt. Die fokussierten verwendeten Schulfremdsprachen wurden als verwendete Sprachen notiert: 8 In der Audiodatei ( ► eContent_WI_c) „ Rigsdansk vs. Sønderjydsk “ ist zum lautlichen Vergleich jeweils zuerst ein Satz auf Reichsdänisch und danach auf Sønderjydsk zu hören. Die Sätze lauten: 1) jeg går på holbøl skole (ich gehe auf die holbøl schule) 2) jeg har fødselsdag den tiende april (ich habe geburtstag am zehnten april). eContent_WI_c. wav 254 Kathrin Wild Abb. 3: Sprechertabelle Die Verwendung von Herkunftssprachen wurde nicht beobachtet. Ausspracheabweichungen wurden in der Studie nicht untersucht, weshalb hierüber keine zusätzlichen Informationen in der Sprechertabelle eingetragen wurden. Es erschien ausreichend, Abweichungen möglichst originalgetreu zu transkribieren. Eine Einschätzung der Art des Akzents wurde ebenfalls nicht vorgenommen. 3.4.3 Anforderung an Transkribierende und Übersetzende Im beschriebenen Forschungsprojekt verfügen beide Transkribentinnen, die auch die zugehörigen Übersetzungen anfertigten, die von Rehbein et al. (2004: 57) geforderte „ volle Kompetenz “ in den Sprachen Dänisch, Deutsch und Englisch bezüglich der sozialen, kulturellen und interkulturellen sowie der kommunikativen Kompetenz (Hansen 2006: 341). Beide Transkribentinnen haben ein dänisches Studium absolviert und in Dänemark gelebt. Die Autorin verfügt aufgrund mehrjähriger Tätigkeit in der dänischen und deutschen Englisch- und Deutschlehreraubildung über diskursartenspezifische sprachliche Fähigkeiten. Sie ist dadurch in der Lage, die relevanten Phänomene - mehrsprachige Äußerungen - sicher und differenziert zu erfassen. Aufgrund der Ausbildung zur Kultur- und Sprachmittlerin verfügen beide Transkriben- Transkripton und Annotation von mehrsprachigen Audio- und Videodaten 255 tinnen für die anzufertigenden Übersetzungen über entsprechende Kulturkompetenz, Fach-, Recherche und Transferkompetenz (Enzenhofer & Resch 2013: 210, Enzenhofer & Resch 2011: 60 - 61), wobei das Wissen um Übersetzungsstrategien und -techniken im Studium der Kultur- und Sprachmittlung gewiss nicht im gleichen hohen Maße wie in einem Übersetzungsstudium erworben wurde. Da es sich aber lediglich um Übersetzungen für Präsentations- und Publikationszwecke handelt, wird dieses nicht als großes Defizit angesehen. Es stellte sich als durchaus schwierig heraus, eine Transkribentin mit den entsprechend notwendigen Sprach- und Übersetzungsfähigkeiten zu finden, da es sich bei der Sprache Dänisch um eine Sprache mit wenigen Sprechenden handelt. Zur Qualitätssicherung der Transkription und Übersetzung wurde jede Transkription durch die Autorin mehrfach Korrektur gehört und gelesen. Die von den Studierenden angefertigten Transkriptionen wurden von der Autorin und/ oder der wissenschaftlichen Hilfskraft und mindestens einer/ m weiteren Master-Studierenden Korrektur gelesen. Es war im Vorhinein mit der wissenschaftlichen Hilfskraft vereinbart worden, dass keine sprachlichen Glättungen und/ oder Kürzungen im Transkript vorzunehmen sind und welcher Genauigkeitsgrad bei der Transkription erforderlich ist. 3.4.4 Übersetzung Übersetzungen werden lediglich für Ergebnispräsentationen und Veröffentlichungen vorgenommen, wodurch der Übersetzungsumfang überschaubar ist. Für die Analyse selbst ist aufgrund der vorhandenen Sprachenkompetenzen der Forschenden (vgl. Abschnitt 3.4.3) keine Übersetzung notwendig. Es wird jeweils in die Sprache der Präsentation bzw. Veröffentlichung übersetzt. Leitend bei allen Übersetzungen ist die Erhaltung der genauen kontextuell angemessenen Bedeutung (vgl. Abschnitt 2.4), wobei die Übersetzungen so eng wie möglich an den Originalsprachen bleiben und der handlungsspezifische Zweck erhalten bleiben muss. Aufgrund des Untersuchungsfokus werden keine morphologischen Transliterationen vorgenommen. Entsprechend der Empfehlungen von Rehbein et al. (2004) sowie Enzenhofer und Resch (2013: 223) wird eine Äußerung im Original nur mit einer Äußerung übersetzt. Dies geschieht unabhängig davon, ob die Äußerung abgeschlossen ist oder nicht. Bislang ließen sich die zu übersetzenden Äußerungen immer erschließen. Im Bereich der strukturellen sprachlichen Unterschiede kommt es für gewöhnlich bei Übersetzungen aus dem Dänischen ins Deutsche zu Problemen bei Passivkonstruktionen, Pluralformen und der Syntax. Im Dänischen werden Passivkonstruktionen genutzt, wo dies im Deutschen oder Englischen nicht der Fall ist, wie folgendes Beispiel illustriert: 256 Kathrin Wild 32 [00: 35.8] Mi [v] kan vi skiftes? Mi [Üb] können wir uns abwechseln? Abb. 4: Übersetzungsschwierigkeiten bei Passivkonstruktionen Darüber hinaus unterscheidet sich die Anwendung von Pluralformen im Dänischen, Deutschen und Englischen. Es wird dann die jeweils für die Sprache gebräuchliche Form verwendet, wobei dies auch von der Interpretation der Übersetzerin abhängt. Bei Idiomen und sprachlichen Äquivalenten kommt es immer wieder zu Schwierigkeiten. Als Beispiel mag folgende Äußerung dienen: 18 [00: 16.5] LD2 [v] ja: hvad kom vi til mika? LD2 [Üb] ja wo waren wir mika? Abb. 5: Übersetzungsschwierigkeiten bei Idiomen Wortwörtlich wäre dies mit „ ja wo kamen wir hin mika? “ zu übersetzen. Hierdurch ginge die originäre Bedeutung verloren. In solchen Fällen wird wie von Haas (2009: 64) vorgeschlagen, die kontextuell angemessene Bedeutung der Zielsprache präferiert. Wo notwendig, werden Nuancen in Original- und Zielsprachen berücksichtigt. Probleme beim Übersetzen von Konzepten entstanden u. a. bei Klassenbezeichnungen, z. B. beim Klassennamen „ muldvarpe “ , was „ Maulwürfe “ auf Deutsch bedeutet. Mit diesem Namen werden die Lernenden als ganze Gruppe regelmäßig angesprochen. Übersetzt wurden die Klassennamen wortwörtlich, also z. B. mit „ Maulwürfe “ im Deutschen, obgleich dies für Erstsprachler/ innen etwas merkwürdig klingen mag. Soziale Praktiken hinsichtlich der Ansprache von Lehrkräften und dem damit verbundenen Duzen bzw. Siezen führen zu Problemen, da in Dänemark normalerweise geduzt wird - auch wenn eine Siezform existiert - , sodass Schüler/ innen ihre Lehrkräfte duzen. In Übersetzungen ins Deutsche wird das Duzen der Lehrkräfte beibehalten, im Englischen existiert ohnehin nur die Form „ you “ . Metaphern werden, soweit diese überhaupt in den Daten vorkommen, entweder - falls vorhanden - mit einem Pendant übersetzt, ansonsten wortwörtlich. Dies ist ein besonders schwierig handhabbares Problem. Mehrdeutigkeiten sind bisher in den Daten nicht aufgetaucht. Möglich ist aber auch, dass diese nicht erkannt wurden. Transkripton und Annotation von mehrsprachigen Audio- und Videodaten 257 Der von den Kindern immer mal wieder verwendete Dialekt „ Sønderjydsk “ wird nicht in einer gesonderten Zeile übersetzt. Phänomene der kindlichen Sprache und lernersprachliche Phänomene lassen sich nicht als 1: 1-Äquivalent übersetzen, hier wird je nach Fall unterschieden. Sprachenwechsel werden entsprechend in der Übersetzung, in der sie unweigerlich unsichtbar werden, gekennzeichnet. 4 Fazit Auf Basis der theoretischen Überlegungen und praktischen Erprobung lässt sich festhalten, dass Transkriptionen in den Originalsprachen notwendig sind. Dabei ist es sinnvoll, eine literarische Transkription zu nutzen, insbesondere bei L2- Sprechenden. Problematisch gestaltet sich dies jedoch bei der Übersetzung. Je nach Untersuchungsziel muss entschieden werden, ob morphologische Transkriptionen erfolgen sollen. Die Notation von Code-switching, Code-mixing und Sprachenwechseln in den Originalsprachen ist als sinnvoll zu erachten. Dabei sollte die Übersetzung je nach adressiertem Publikum erfolgen und dann zur besseren Anschaulichkeit entsprechend markiert werden. Der EXMARaLDA Partitur-Editor - möglicherweise auch andere Transkriptionsprogramme - ist eine wertvolle Unterstützung beim mehrsprachigen Transkribieren und ermöglicht vielfältiges Annotieren. Die Sprachenwahl gestaltet sich bei Nonverbalia unterschiedlich und muss dem Zweck angepasst werden. Die Notation von Pausen und anderen Phänomenen gesprochener Sprache erfolgt sinnvollerweise sowohl in der Originalals auch in der Übersetzungsspur. Mehrsprachige Daten zeichnen sich durch mehrsprachige Phänomene wie Sprachenwechsel und/ oder nicht-erstsprachliche Äußerungen aus. Hierbei kann es zu Verständnisproblemen durch Transkribierende kommen. Es erschien ratsam, alle Phänomene und Abweichungen möglichst originalgetreu zu transkribieren und nicht Verstandenes als solches zu kennzeichnen. Glättungen und Korrektur sollten nicht vorgenommen werden, um die Originaltreue nicht zu gefährden. Das Festhalten von Informationen zu Sprechenden, ihren Erst- und Zweitsprachen sowie verwendeten Sprachen erscheint sinnvoll, um möglichst viel Kontextinformationen zu erhalten. Es lässt sich festhalten, dass für Transkribierende eine sehr hohe Kompetenz in allen in den Daten vorkommenden Sprachen notwendig ist, dieses beinhaltet auch eine grundlegende Übersetzungskompetenz. Ob eine überaus hohe Übersetzungskompetenz erforderlich ist, hängt davon ab, ob die datenanalysierende Person die verwendeten Sprachen selbst auf hinreichend hohem Niveau 258 Kathrin Wild beherrscht. Empfehlenswert ist dieses hohe Niveau, da somit die diskutierten Gefahren, die Übersetzungen mit sich bringen, auf ein Minimum reduziert werden (vgl. dazu auch van Nes et al. (2010: 315) und Sidnell (2010: 22) sowie Farag & Meyer i. d. B.). In diesem Fall sind Übersetzungen nur für Präsentations- und Veröffentlichungszwecke notwendig. Wird übersetzt, sind aufgrund der diskutierten Herausforderungen mehrere Arbeits- und Kontrollschritte mit mehreren Beteiligten anzuraten. Für Datenpräsentationen wird üblicherweise zur Nutzung von Zitaten geraten (zu Praktiken von Verweisen auf Transkripte in Publikationen vgl. Konzett-Firth i. d. B.). Dieses birgt durchaus die Gefahr - insbesondere bei übersetzten (mehrsprachigen) Daten - , dass sich Untersuchungsteilnehmende nicht angemessen wiedergegeben fühlen (van Nes et al. 2010: 315 - 316). Ob die Alternative, keine Zitate zu nutzen, besser ist, ist fraglich und sollte weiter diskutiert werden. Zusammenfassend kann festgehalten werden, dass die Transkription und Annotation von mehrsprachigen Daten vielfältige(re) Herausforderungen im Forschungsprozess mit sich bringen. Es müssen weit mehr Entscheidungen getroffen werden als bei einsprachigen Daten und es erfordert größere Ressourcen. Aufgrund der bisher nur spärlich vorliegenden Beiträge zu diesem Thema ist bei den Forschenden Mut im Entscheidungsprozess und Transparenz in Forschungsberichten gefragt. Literaturverzeichnis Bergmann, Jörg. 1988. Ethnomethodologie und Konversationsanalyse: Kurseinheit 2. Hagen. Boersma, Paul & David Weenink. 2020. Praat. Amsterdam: University of Amsterdam, Phonetic Sciences. Brugman, Hennie & Albert Russel. 2004. Annotating Multi-media / Multi-modal resources with ELAN, http: / / www.lrec-conf.org/ proceedings/ lrec2004/ pdf/ 480.pdf. (05.05.2021) Buttlar, Ann-Christin. 2018. Transkription: Analytische Aufbereitung gesprochener Sprache für die empirische Sozialforschung. In Jan Boelmann (Hrsg.), Empirische Forschung in der Deutschdidaktik (1), 313 - 327. Baltmannsweiler: Schneider Verlag Hohengehren. Dittmar, Norbert. 2009. Transkription: Ein Leitfaden mit Aufgaben für Studenten, Forscher und Laien. 3. Aufl. (Qualitative Sozialforschung Bd. 10) Wiesbaden: VS Verl. für Sozialwiss. Dizdar, Dilek. 2006. Skopostheorie. In Mary Snell-Hornby, Hans G. Hönig, Paul Kußmaul & PeterA. Schmitt (Hrsg.), Handbuch Translation, 2. Aufl. (Stauffenburg Handbücher), 104 - 107. Tübingen: Stauffenburg Verlag. Transkripton und Annotation von mehrsprachigen Audio- und Videodaten 259 Ehlich, Konrad & Jochen Rehbein. 1976. Halbinterpretative Arbeitstranskriptionen (HIAT). Linguistische Berichte 45. 21 - 41. Ehlich, Konrad & Jochen Rehbein. 1979. Erweiterte halbinterpretative Arbeitstranskriptionen (HIAT 2): Intonation. Linguistische Berichte 59. 51 - 75. Enzenhofer, Edith & Katharina Resch. 2011. Übersetzungsprozesse und deren Qualitätssicherung in der qualitativen Sozialforschung. FQS Forum: Qualitative Sozialforschung 12, http: / / www.qualitative-research.net/ . (03.07.2020) Enzenhofer, Edith & Katharina Resch. 2013. Unsichtbare Übersetzung? Die Bedeutung der Übersetzungsqualität für das Fremdverstehen in der qualitativen Sozialforschung. In Richard Bettmann & Michael Roslon (Hrsg.), Going the Distance: Impulse für die interkulturelle Qualitative Sozialforschung, 199 - 225. Wiesbaden: Springer. Haas, Helene. 2009. Übersetzungsprobleme in der interkulturellen Befragung. interculture journal. online-Zeitschrift für Interkulturelle Studien 8, http: / / www.interculturejournal.com/ index.php/ icj/ article/ view/ 93/ 149. (04.12.2015) Hansen, Gyde. 2006. Die Rolle der fremdsprachlichen Kompetenz. In Mary Snell-Hornby, Hans G. Hönig, Paul Kußmaul & Peter A. Schmitt (Hrsg.), Handbuch Translation, 2. Aufl. (Stauffenburg Handbücher), 341 - 343. Tübingen: Stauffenburg Verlag. Harkness, Janet. 2011. Translation. 1 - 35. Heller, Vivien & Miriam Morek. 2016. Gesprächsanalyse: Mikroanalytische Beschreibung sprachlicher Interaktion in Bildungs- und Lernzusammenhängen. In Jan M. Boelmann (Hrsg.), Empirirsche Erhebungs- und Auswertungsverfahren in der deutschdidaktischen Forschung, 223 - 246. Baltmannsweiler: Schneider Verlag Hohengehren. Jefferson, Gail. 2004. Glossary of transcript symbols with an introduction. In Gene H. Lerner (Hrsg.), Conversation Analysis: Studies from the first generation (Pragmatics & beyond), 13 - 31. Amsterdam, Philadelphia: John Benjamins. Kolb, Waltraud. 2006. Sprachvarietäten (Dialekt/ Soziolekt). In Mary Snell-Hornby, Hans G. Hönig, Paul Kußmaul & Peter A. Schmitt (Hrsg.), Handbuch Translation, 2. Aufl. (Stauffenburg Handbücher), 278 - 280. Tübingen: Stauffenburg Verlag. Kuyumcu, Reyhan. 2014. Sprach(en)entwicklung und Sprachreflexion: Drei Fallstudien zu zweisprachig aufwachsenden Vorschulkindern mit Erstsprache Türkisch und Zweitsprache Deutsch. Tübingen: Stauffenburg Verlag. Kuyumcu, Reyhan. 2017. Bilinguale Vorschulerziehung - Frühkindliche bilinguale Erziehung mit Türkisch als Partnersprache. In Cemal Yildiz, Insa Gülzow, Nathalie Topaj & Reyhan Thomas (Hrsg.), Die Zukunft der Mehrsprachigkeit im deutschen Bildungssystem: Russisch und Türkisch im Fokus, 237 - 253. Frankfurt a. M.: Peter Lang. Labov, William. 1966. The social stratification of English in New York City (Urban Language Series). Cambridge [u. a.]: Center for Applied Linguistics. Max Planck Institute for Psycholinguistics, The Language Archive. 2020. ELAN. Nijmegen. Mempel, Caterina. 2010. Multimedia-Transkription nonverbaler Kommunikation am Beispiel der Bilderbuchbetrachtung im Deutsch-als-Zweitsprache-Unterricht. In Karin Aguado, Karen Schramm & Helmut J. Vollmer (Hrsg.), Fremdsprachliches Handeln beobachten, messen, evaluieren: Neue methodische Ansätze der Kompetenzforschung und 260 Kathrin Wild der Videographie. (Kolloquium Fremdsprachenunterricht 37), 231 - 255. Frankfurt am Main: Peter Lang. Mondada, Lorenza. 2018. Multiple Temporalities of Language and Body in Interaction: Challenges for Transcribing Multimodality. Research on language and social interaction 51, https: / / doi.org/ 10.1080/ 08351813.2018.1413878. Nikander, Pirjo. 2008. Working with Transcripts and Translated Data. Qualitative Research in Psychology 5(3). 225 - 231. Pehl, Thorsten & Thorsten Dresing. 2021. f4transkript. Marburg: dr. dresing & pehl. Regmi, Krishna, Jennie Naidoo & Paul Pilkington. 2010. Understanding the Processes of Translation and Transliteration in Qualitative Research. International Journal of Qualitative Methods 9(1). 16 - 26. Rehbein, Jochen, Thomas Schmidt, Bernd Meyer, Franziska Watzke & Annette Herkenrath. 2004. Handbuch für das computergestützte Transkribieren nach HIAT (Arbeiten zur Mehrsprachigkeit/ Working Papers in multilingualism (Folge B, Nr. 56). Hamburg: Universität Hamburg. Riemer, Claudia & Julia Settinieri. 2010. Empirische Forschungsmethoden in der Zweit- und Fremdsprachenerwerbsforschung. In Hans-Jürgen Krumm, Christian Fandrych, Britta Hufeisen & Claudia Riemer (Hrsg.), Deutsch als Fremd- und Zweitsprache: Ein internationales Handbuch (Handbücher zur Sprach- und KommunikationswissenschaftBand 35/ 1 - 2), vol. 1, 764 - 781. Berlin: Mouton de Gruyter. Risku, Hanna. 2006. Translatorisches Handeln. In Mary Snell-Hornby, Hans G. Hönig, Paul Kußmaul & Peter A. Schmitt (Hrsg.), Handbuch Translation, 2. Aufl. (Stauffenburg Handbücher), 107 - 112. Tübingen: Stauffenburg Verlag. Sacks, Harvey, Emanuel A. Schegloff & Gail Jefferson. 1974. A Simplest Systematics for the Organisation of Turn-Taking for Conversation. Language 50. 696 - 735. Schittenhelm, Karin. 2017. Mehrsprachigkeit als methodische Herausforderung in transnationalen Forschungskontexten. Zeitschrift für qualitative Forschung 18(1). 101 - 115. Schlabach, Joachim. 2020. Herausforderungen einer mehrsprachigen Kommunikationssituation: Pilotstudie zu einem plurilingualen Kurs mit Englisch, Schwedisch und Deutsch. German as a foreign language (3). 67 - 85. Schramm, Karen. 2014. Besondere Forschungsansätze: Videobasierte Unterrichtsforschung. In Julia Settinieri, Sevilen Demirkaya, Alexis Feldmeier, Nazan Gültekin- Karakoç & Claudia Riemer (Hrsg.), Empirische Forschungsmethoden für Deutsch als Fremd- und Zweitsprache: Eine Einführung, 243 - 254. Paderborn: Ferdinand Schöningh. Schreiber, Michael. 2017. Grundlagen der Übersetzungswissenschaft: Französisch, Italienisch, Spanisch, 2. Aufl. (Romanistische Arbeitshefte 49) Berlin/ Boston: de Gruyter. Selting, Margret, Peter Auer, Dagmar Barth-Weingarten, Jörg Bergmann, Pia Bergmann, Karin Birkner, Elizabeth Couper-Kuhlen, Arnulf Deppermann, Peter Gilles, Susanne Günthner, Martin Hartung, Friederike Kern, Christine Mertzlufft, Christian Meyer, Miriam Morek, Frank Oberzaucher, Jörg Peters, Uta Quasthoff, Wilfried Schütte, Anja Stukenbrock & Susanne Uhlmann. 2009. Gesprächsanalytisches Transkriptionssystem 2 (GAT 2). Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion, http: / / orbilu.uni.lu/ bitstream/ 10993/ 4358/ 1/ px-gat2-2.pdf. (16.05.2021) Transkripton und Annotation von mehrsprachigen Audio- und Videodaten 261 Ş eny ı ld ı z, Anastasia. 2010. Wenn Kinder mit Eltern gemeinsam Deutsch lernen: Soziokulturell orientierte Fallstudien zur Entwicklung erst- und zweitsprachlicher Kompetenzen bei russischsprachigen Vorschulkindern. Zugl.: Flensburg, Univ., Diss (Forum Sprachlehrforschung 9). Tübingen: Stauffenburg Verlag. Sidnell, Jack. 2010. Conversation analysis: An introduction (Language in society 37). Malden, Mass.: Wiley-Blackwell. Sonderforschungsbereich „ Mehrsprachigkeit “ . 2017. EXMARaLDA. Universität Hamburg. Su, Chia-Ting & Linda D. Parham. 2002. Generating a Valid Questionnaire Translation for Cross-Cultural Use. American Journal of Occupational Therapy 56(5). 581 - 585. van Nes, Fenna, Tineke Abma, Hans Jonsson & Dorly Deeg. 2010. Language differences in qualitative research: is meaning lost in translation? European journal of ageing 7(4). 313 - 316. Wild, Kathrin. 2019. Überlegungen zur Fragebogenübersetzung in multilingualen Kontexten. In Diana Maak & Julia Ricart Brede (Hrsg.), Wissen, Können, Wollen - sollen? ! : (Angehende) LehrerInnen und äußere Mehrsprachigkeit, 75 - 94. Münster: Waxmann. Wild, Kathrin. 2020. Umgang mit unbeabsichtigten Sprachenwechseln im frühen gleichzeitigen Fremdsprachenunterricht. Zeitschrift für Interkulturellen Fremdsprachenunterricht 25, https: / / tujournals.ulb.tu-darmstadt.de/ index.php/ zif/ article/ view/ 1059. (02.05.2021) Witte, Heidrun. 2006. Die Rolle der Kulturkompetenz. In Mary Snell-Hornby, Hans G. Hönig, Paul Kußmaul & Peter A. Schmitt (Hrsg.), Handbuch Translation, 2. Aufl. (Stauffenburg Handbücher), 345 - 348. Tübingen: Stauffenburg Verlag. Wörner, Kai. 2009. Werkzeuge zur flachen Annotation von Transkriptionen gesprochener Sprache. Bielefeld: Universität Bielefeld. Anhang Transkriptionskonventionen: (0.3) gemessene Pause von ca. 0.3 Sek. Dauer äh ähm Verzögerungssignale ((räuspert sich)) Beschreibung des Räusperns <<lachend>> Lachpartikeln in der Rede mit Reichweite <<rufend> porc> sprachbegleitende para- und außersprachliche Handlungen und Ereignisse mit Reichweite ( ) unverständliche Passage ohne weitere Angaben (unverständlich, ca. 0.3 Sek.) unverständliche Passage mit Angabe der Dauer (miss) vermuteter Wortlaut : Dehnung, Längung, um ca. 0.2 - 0.5 Sek. : : Dehnung, Längung, um ca. 0.5 - 0.8 Sek. MORgen Fokusakzent ? hoch steigend 262 Kathrin Wild Transkriptionspraxis in mehrsprachigen Forschungskontexten Eine Bestandsaufnahme aktueller Praktiken von Verweisen auf Transkripte im Fließtext Carmen Konzett-Firth Abstract: In gesprächsanalytischen Publikationen in Sprachen, die nicht dem besprochenen bzw. analysierten Idiom entsprechen, ist es erforderlich, Transkripte von Gesprächsdaten zu übersetzen. Dass Übersetzungen von Transkripten aus verschiedenen Gründen problematisch sind, wurde bereits mehrfach diskutiert. Kaum Beachtung hat allerdings die Frage gefunden, wie im Fließtext der Analyse auf eine solche mehrsprachige bzw. übersetzte Transkription verwiesen bzw. wie daraus zitiert wird. Aber auch dieser Schritt ist notwendiger Bestandteil einer mehrsprachigen gesprächsanalytischen Forschungspraxis, unterliegt eigenen Bedingungen und erweitert die Problematik um zusätzliche Aspekte. Der vorliegende Beitrag nimmt daher eine Bestandsaufnahme von aktuell in der Konversationsanalyse üblichen Praktiken der Bezugnahme auf Transkripte in einem mehrsprachigen Kontext vor und diskutiert verschiedene Formen von Fließtextverweisen in Bezug auf Kriterien wie Verständlichkeit, Nachvollziehbarkeit und Lesbarkeit. Keywords: Übersetzung; Mehrsprachigkeit; Transkription; Verweise; Konversationsanalyse; textuelle Performanz 1 Einleitung In Publikationen aus dem Forschungsbereich der Konversationsanalyse (Birkner et al. 2020; Clift 2016) dienen Transkripte dazu, den Leser*innen direkten Zugang zu den analysierten Daten zu verschaffen. Sie tragen so zur textuellen Performanz bei, einem Gütekriterium für qualitative Sozialforschung (Strübing et al. 2018) wonach Forschende als Autor*innen in der Lage sein müssen, den durch Datengewinnung und Analyse entstandenen Erkenntnisprozess und dessen Ergebnisse den Leser*innen ihrer wissenschaftlichen Texte intersubjektiv nachvollziehbar zu kommunizieren. Strübing et al. (2018: 94) sprechen in diesem Zusammenhang von einer „ Übersetzungsleistung “ , die qualitativ Sozialforschende erbringen müssen: „ Textuelle Performanz erfordert, die Erwartungshaltung der Leser mit dem Eigensinn und den Selbstbeschreibungen des Untersuchungsfeldes in eine Passung zu bringen “ (ebd.: 93). Dazu müssen Schreibende über eine ausreichende rhetorische Kompetenz verfügen, die darin besteht, einen Text so zu gestalten und ihn derart mit Visualisierungen der Daten zu vervollständigen, dass die Lesenden von der Plausibilität und Schlüssigkeit der eigenen Argumentation überzeugt werden und im besten Fall „ Interesse und Anschlusskommunikation ausgelöst werden “ (Strübing et al. 2018: 94). Um dieses Ziel zu erreichen, muss ein Text unter anderem verständlich formuliert sein, sinnvolle Theoriebezüge herstellen sowie dem aktuellen Wissensstand und den Konventionen des Faches gerecht werden. In der Konversationsanalyse gehört zu diesen Konventionen das Veröffentlichen der Datengrundlage, damit sich die Leser*innen selbst ein Bild von der Nachvollziehbarkeit der Argumentation machen können (Clift 2016: 53). Was geschieht aber nun, wenn die Sprache der transkribierten Daten nicht mit jener Sprache übereinstimmt, in der die Daten beschrieben und diskutiert werden, also der Sprache des Publikationstextes? Solange nicht gewährleistet ist, dass die Leserschaft der Publikation auch die darin enthaltenen Transkriptauszüge lesen und verstehen kann, ist es jedenfalls notwendig, die Transkripte zu übersetzen. 1 Die Übersetzung der verbalen Anteile einer konversationsanalytischen Transkription birgt allerdings verschiedenste Schwierigkeiten, die unter anderem Fragen der Verständlichkeit und Genauigkeit sowie der visuellen Präsentation betreffen, die aber auch in Relation stehen zum kognitiven (Un)vermögen von Leser*innen, über den Umweg einer Translation den Originaltext überhaupt angemessen erfassen zu können (Egbert et al. 2016; Hepburn & Bolden 2017, 2013; Nikander 2008; Traverso 2002). In Bezug auf Transkripte zur Verwendung in gemeinsamer Analysearbeit postuliert Sidnell 1 Dies stellt den Regelfall dar, wenn es um englischsprachige Publikationen geht, in welchen anderssprachige Daten vorgestellt werden. Umgekehrt ist es durchaus üblich, englischsprachige Daten auch in anderssprachigen (z. B. deutschen) Publikationen nicht zu übersetzen. Es gibt daneben auch mehrsprachige Forschungstraditionen wie in der deutschsprachigen Romanistik, in der üblicherweise davon ausgegangen wird, dass Leser*innen einer romanischen Sprache auch Auszüge aus anderen großen romanischen Sprachen (dazu zählen üblicherweise zumindest das Französische, Italienische, Spanische und Portugiesische) ausreichend verstehen. 264 Carmen Konzett-Firth sogar, dass es unmöglich sei, einen Datensatz in einer Sprache zu analysieren, derer man nicht mächtig sei (Sidnell 2010). Man müsse zumindest zu einem gewissen Grad ein „ member “ jener Sprecher*innen- und Interaktionsgemeinschaft sein, deren Gespräche man konversationsanalytisch untersuchen wolle. Sidnell schließt dabei aus, dass man sich mit Übersetzungen behelfen könne: „ Essentially the conversation analyst must learn at least some of the language in order to work with such materials, since working via translations clearly won ’ t do “ (2010: 22). Dies mag für detaillierte Analysen in Datensitzungen gelten, aber wie steht es um die Präsentation von Transkripten in Texten, in welchen es darum geht, einen bereits erfolgten Analyseprozess und formulierten Argumentationszusammenhang sichtbar und nachvollziehbar zu machen? Wie kann in diesem Kontext sichergestellt werden, dass Leser*innen der Argumentation nicht nur im Fließtext folgen, sondern diese auch anhand der vorgestellten Transkripte verifizieren und im besten Fall ihre eigenen Schlüsse daraus ziehen können? Besonders Forscher*innen, die nicht mit englischsprachigen Daten arbeiten, aber ihre Forschungsergebnisse einem internationalen Leser*innenkreis zugänglich machen möchten, müssen sich solchen Fragen stellen. Zunächst müssen Forschende in mehrsprachigen Publikationskontexten ihre Transkripte auf geeignete Weise übersetzen (siehe dazu Abschnitt 2). Dann müssen die so vermittelten Datenausschnitte aber auch mit der Beschreibung und Argumentation im Text stringent und nachvollziehbar verknüpft werden. Dabei erfüllen Fließtextbezüge auf Transkripte verschiedene diskursive Funktionen (siehe dazu Abschnitt 3) und führen so zu unterschiedlichen praktischen Umsetzungsformen der Bezugnahme auf mehrsprachige (und häufig multimodale) Transkripte (siehe dazu Abschnitt 4). Diese unterschiedlichen Praktiken des Verweisens sind aus mindestens zwei Gründen ein für den wissenschaftlichen Diskurs relevantes Thema: einerseits spielt die rhetorische Ausgestaltung der Ergebnisdarstellung einer Forschungsarbeit in der qualitativen Sozialforschung eine epistemologisch bedeutsame Rolle (Strübing et al. 2018: 93); dies schließt also auch die Frage nach der sinnvollen Einbeziehung von Transkripten mit ein. Das textuelle Verweisen auf ein Transkript kann daher als integraler Bestandteil der professionellen Praxis einer/ eines konversationsanalytisch Forschenden gelten. Andererseits ist der Faktor ‚ Praktikabilität ‘ bei der Integration mehrsprachiger Transkripte in einem einsprachigen Text eines der vielen Rädchen im Getriebe der Wissenschafts- und Publikationspolitik und damit von wissenschaftspolitischer Relevanz. Angesichts von Tendenzen eines zunehmend monolingualen internationalen Wissenschaftsbetriebs, Forschungsergebnisse, die auf Basis von englischsprachigen Daten entstanden sind, als generalisierbar zu betrachten (Egbert et al. 2016), erscheint es umso wichtiger, dass auch anderssprachige Daten beforscht, die Ergebnisse aber (auch) auf Transkriptionspraxis in mehrsprachigen Forschungskontexten 265 Englisch publiziert und so einem internationalen Publikum zugänglich gemacht werden. Gerade im Bereich der Interaktionsforschung, die in der Ergebnisdarstellung stark auf die Präsentation von Datenmaterial in Form von Transkripten setzt, stellt diese Notwendigkeit Forschende vor nicht zu unterschätzende Hürden (Schegloff 2002). Der vorliegende Beitrag beschreibt eine der ganz konkreten praktischen Schwierigkeiten, die in einer solchen mehrsprachigen Forschungs- und Publikationspraxis auftreten und untersucht sie anhand einiger ausgewählter wissenschaftlicher Zeitschriftenaufsätze aus dem Bereich der Interaktionsforschung. Er erweitert damit den Begriff der professionellen Praxis in Bezug auf dieTranskription (Gülich & Mondada 2008: 33) und versteht sich als Reflexion und Exploration gängiger Praktiken des Einbettens von Transkripten in den Fließtext von konversationsanalytischen Publikationen. 2 Zur Übersetzung von Transkripten Der Umgang mit Übersetzungen von konversationsanalytischen Transkripten zu Zwecken der Diskussion und/ oder Verbreitung von Forschungsergebnissen, ob in Form von Datensitzungen, Vorträgen, Lehrveranstaltungen oder schriftlichen wissenschaftlichen Publikationen ist bereits mehrfach diskutiert worden (Bilmes 1996; Hepburn & Bolden 2017, 2013; Jenks 2011, 2013; Nikander 2008; Rehbein et al. 2004; Traverso 2002). Wenn Transkripte dazu dienen sollen, es den Zuhörer*innen oder Leser*innen zu erlauben, ihre eigenen Schlüsse aus den Daten zu ziehen oder zumindest die Argumentation des Vortrags oder des schriftlichen Textes selbst anhand der Daten nachzuvollziehen, dann müssen sie in einem fremdsprachigen Kontext gegebenenfalls übersetzt werden. 2 Dabei ist es durchaus möglich und üblich, dass von einer Transkription verschiedene Übersetzungen für jeweils unterschiedliche Kontexte (z. B. Vortrag über französische Daten vor deutschsprachigem Publikum vs. englischsprachiger Aufsatz über dieselben französischen Daten) angefertigt werden. Gesprächsforscher*innen sind sich weitgehend einig, dass bei der Übersetzung von Transkripten für eine Publikation am besten mit mehreren Zeilen in einem Partiturformat gearbeitet wird, wobei je nach typologischer Distanz zwischen der Ausgangs- und der Zielsprache der Übersetzung zwei oder drei Zeilen nötig 2 Mit fremdsprachigem Kontext ist hier gemeint, dass Publikations- und Transkriptsprache nicht identisch sind. Diese Konstellation kann aber noch komplexer werden, wenn es sich um originär mehrsprachige Transkripte handelt, d. h. wenn bereits das Originaltranskript verschiedene Sprachen enthält, weil die Interaktionsteilnehmenden selbst mehrere Sprachen verwendet haben. Die speziellen Herausforderungen, die eine solche Situation hervorbringt, beschreibt Wild (in diesem Band) ausführlich. 266 Carmen Konzett-Firth sind (Nikander 2008; Hepburn & Bolden 2017; Traverso 2002). 3 Dabei enthält die erste Zeile jeweils die Originalsprache und eine weitere Zeile eine idiomatische, „ äußerungsbezogene “ (Rehbein et al. 2004) Übersetzung, welche die pragmatische Intention des übersetzten Turns zum Ausdruck bringt. Dazwischen wird nach Bedarf eine zusätzliche Zeile mit einer interlinearen (morphosyntaktischen) Glossierung (gloss) hinzugefügt, deren Form allerdings meist idiosynkratischen Präferenzen entspricht und sich nicht immer an in der Linguistik üblichen Konventionen (etwa den Leipzig Glossing Rules) orientiert. Diese Transliterationszeile kann mehr oder weniger technisch-metalinguistische Umschreibungen enthalten, was häufig mit der typologischen Distanz zwischen der Ausgangssprache und der Zielsprache zusammenhängt (Hepburn & Bolden 2017). Im folgenden Beispiel (Abb. 1) wird etwa aus dem Finnischen ins Englische übersetzt: Abb. 1: Keevallik (2013: 276) In Transkriptfläche 2 ist in der zweiten Zeile eine metalinguistisch kommentierte Umschrift zu sehen, in der die Originaläußerung mithilfe der lexikalischen Grundformen grob übersetzt und mit grammatischen Zusatzinformationen linguistisch beschrieben wird. Daraufhin folgt eine Zeile, in der dieselbe Äußerung idiomatisch - also so, wie es der äquivalenten kommunikativen Intention in der Zielsprache entsprechen würde - übersetzt wird. Interessant ist in diesem Beispiel außerdem, dass die idiomatische Übersetzung mit einfachen Anführungszeichen eingefasst wird und sich damit wohl auf die aus der Linguistik bekannte Konvention bezieht, Bedeutungen mit einfachen Anführungszeichen typographisch zu markieren. Zudem werden für diese Zeile Großbuchstaben nach orthographischen Konventionen verwendet, obwohl konversationsanalytische Transkripte (z. B. nach Jefferson (2004) oder nach GAT 2 (Selting et al. 2009)) üblicherweise nur Kleinbuchstaben enthalten, um nicht schriftliche Normen auf Mündlichkeit zu applizieren. Somit indiziert die 3 Es sind auch andere Formate möglich, wie etwa das Abdrucken der Übersetzung in einem eigenen Absatz unter oder neben dem Originaltranskript. In aktuellen konversationsanalytischen Publikationen scheint aber die dreizeilige Variante die häufigste zu sein. Transkriptionspraxis in mehrsprachigen Forschungskontexten 267 abweichende Formatierung hier deutlich den Status dieser Zeile als Übersetzung und nicht als Abbildung des Gesprochenen. Abbildung 1 zeigt auch, dass es möglich ist, nur stellenweise eine Transliteration anzuführen: während die Äußerung in Transkriptfläche 2 in ihrer Formulierung von der englischen Ausdrucksweise stark genug abweicht, um eine morphologische Erklärung zu rechtfertigen, wird in Transkriptfläche 1 nur eine idiomatische Übersetzung angegeben, da es sich hier um ein tatsächlich eins-zu-eins übersetzbares Einzelwort handelt. Im Gegensatz dazu wird in Ausschnitt 2 4 (Abb. 2), überhaupt nicht mit grammatikalischen Zusatzinformationen gearbeitet. Stattdessen wird in Transkriptfläche 12 die französische Originaläußerung zunächst wortwörtlich wiedergegeben und in einer darauffolgenden Zeile ein Teil davon so umformuliert, dass er den englischen Formulierungsgepflogenheiten entspricht: Abb. 2: Konzett-Firth (2020: 220) ( ► eContent_KO_a) Auch in diesem Beispiel (Abb. 2) ist ersichtlich, dass die Kombination von wortwörtlicher und idiomatischer Übersetzung auch selektiv eingesetzt werden kann: während der Anfang und der Schluss des Turns wortwörtlich stehenbleiben können, da sie so auch im Englischen funktionieren, wird der Mittelteil durch die Zusatzübersetzung für jene Leser*innen, die nicht Französisch können, verständlich(er) 5 . In einer noch stärker kondensierten Variante (Abb. 3) werden wortwörtliche und idiomatische Übersetzungsteile in einer einzigen Zeile zusammengefügt, die stärker umschreibenden Stellen aber durch einfache Anführungszeichen gekennzeichnet: 4 Der Ausschnitt stammt aus meinen eigenen Forschungsdaten, aus dem Korpus FRAISE (Französisch in Interaktion in der Schule), das longitudinale Videodaten aus Schulunterrichtsinteraktionen enthält (vgl. Konzett-Firth 2017). 5 Die idiomatische Übersetzung dient im vorliegenden Transkript auch einer Desambiguierung: aus der wörtlichen englischen Übersetzung könnten nämlich jene, die das Französische nicht beherrschen, fälschlicherweise schließen, dass die Äußerung nicht der Norm entspräche, insbesondere da es sich hier um einen Lehr-Lern-Kontext handelt. eContent_KO_a. wav 268 Carmen Konzett-Firth Abb. 3: Transkriptausschnitt aus FRAISE (vgl. Konzett-Firth 2017) ( ► eContent_KO_b) Der folgende Ausschnitt zeigt noch eine weitere Variante einer Partitur aus Originalzeile, morphologischer Umschrift und idiomatischer Übersetzung. Hier wird alles klein geschrieben und die idiomatische Zeile wird typographisch durch Kursivierung hervorgehoben: Abb. 4: Lindström (2006: 88) Abb. 5: Mondada (2020: 148) In den beiden Beispielen 4 und 5 ist ein weiteres wesentliches Merkmal von vielen Übersetzungszeilen beobachtbar: Prosodische Merkmale (in Abb. 4 die Mikropause in Transkriptfläche 1, in Abb. 5 die betonten Passagen, die Tonhöhenbewegung am Ende der TCU und die Sprechgeschwindigkeit) oder andere Markierungen wie die Überlappung in Transkriptfläche 2 oder auch der Sprachwechsel vom Französischen ins Deutsche in Abb. 3 werden oft nicht (oder zumindest nicht systematisch) „ mit “ -übersetzt, sondern gehen in der Übersetzungszeile verloren. Das ist einerseits aus methodologischen Gründen häufig eContent_KO_b. wav Transkriptionspraxis in mehrsprachigen Forschungskontexten 269 unvermeidbar (z. B. ist es schlicht nicht möglich, die gedehnte letzte Silbe im französischen Verb „ nomme: r “ (Abb. 5) auf das englische „ name “ zu übertragen), führt aber andererseits dazu, dass im Prinzip die Übersetzungs- und die Originalzeile parallel gelesen werden müssten, um dem Transkript korrekt folgen zu können. Insgesamt verdeutlichen die bisherigen Beispielausschnitte, dass zwischen der Transkriptzeile und der Übersetzungszeile keine eins-zu-eins-Entsprechung besteht bzw. nicht bestehen kann: einerseits stellen sich bei der Übersetzung von Transkripten grundsätzliche Herausforderungen, die für jede Art von Übersetzung gelten, wie etwa kulturbezogene Unterschiede, Bildhaftigkeit und Fachsprachlichkeit sowie allgemein die pragmatische Äquivalenz einer ausgangssprachlichen Äußerung in der Zielsprache (Bilmes 1996; Hepburn & Bolden 2017; Rehbein et al. 2004; Schegloff 2002; Traverso 2002; Wild in diesem Band). Andererseits kommen bei konversationsanalytischen Transkripten auch noch spezifische Aspekte der gesprochenen Sprache und der Interaktion hinzu, die sich vielfach kaum oder gar nicht übertragen lassen, wie etwa eine nichtstandardsprachliche Aussprache (vgl. „ j ’ sais pas “ und dessen Übersetzung „ I don ’ t know “ in Abb. 5), Vokalisierungen (z. B. frz. „ ah “ vs. engl. „ oh “ in Abb. 3 und 5) oder Wortabbrüche. Insgesamt kann daher die Übersetzung einen höchstens bedingten ,Ersatz ‘ für die Originaläußerung bieten (Bilmes 1996; Traverso 2002; Hepburn & Bolden 2017). Unter anderem führen diese Schwierigkeiten zu einer mangelnden Projizierbarkeit von übersetzten Turns, d. h. Leser*innen, die nur mit der Übersetzung arbeiten können, sind nicht in der Lage, die next-turn proof procedure durchzuführen und bekommen kein „ Gefühl “ für die Interaktion, die tatsächlich abläuft (Traverso 2002: 95 - 96), sind also im Grunde in ihrer analytischen Kompetenz stark eingeschränkt. Stattdessen müssen sie sich darauf verlassen, dass ihnen die gebotene Übersetzung einen adäquaten Zugang zu den Daten und zur Analyse verschafft (Nikander 2008). Aus Sicht der Schreibenden ist die Übersetzung eines Transkripts immer adressat*innen- und zweckbezogen und im Gegensatz zu den Transkripten selbst ein statisches Produkt (Traverso 2002: 82), d. h. sie entsteht in einem letzten Schritt erst nach der Analyse und Verfeinerung eines Transkripts, also zu einem Zeitpunkt, zu dem das Transkript bereits in einer bestimmten finalen Fassung vorliegt, weil es für einen konkreten Publikationszweck bearbeitet wurde. Transkripte stehen aber nie alleine da, sondern sie werden den Leser*innen eingebettet in einen erklärenden und argumentierenden Fließtext präsentiert. Über die Übersetzung hinaus können Autor*innen diesen Raum zusätzlich nützen, um ihre Transkripte noch besser zugänglich zu machen, indem sie ergänzende Informationen oder Erklärungen anführen und so den 270 Carmen Konzett-Firth Rezipient*innen ein besseres Verständnis und Erleben der transkribierten Interaktion ermöglichen. 3 Funktionen von Transkriptzitaten im Fließtext Um die Analyse eines Ausschnitts gesprochener Sprache in Interaktion selbst im Transkript mitverfolgen zu können, müssen Leser*innen im Fließtext bestimmte Informationen erhalten, die anzeigen, welcher Moment eines Datums gerade besprochen wird. Dazu gehören zumindest Zeilenangaben und eine Beschreibung des Interaktionsmoments; häufig werden aber auch direkte Zitate aus dem Transkript hinzugefügt. Wie dies aussehen kann, zeigt der folgende Transkriptausschnitt (Abb. 6), der im selben Text zweimal besprochen wird: an einer ersten Stelle (Abb. 7a) zunächst nur mit Verweisen auf die Zeilennummern und an späterer Stelle (Abb. 7b) noch einmal mit direkten Zitaten aus dem Transkript: Abb. 6: Konzett-Firth (2019: 295) ( ► eContent_KO_c) Abb. 7a: Konzett-Firth (2019: 295) eContent_KO_c. wav Transkriptionspraxis in mehrsprachigen Forschungskontexten 271 Abb. 7b: Konzett-Firth (2019: 297) Die beiden Textausschnitte (Abb. 7a & 7b), die sich auf denselben Transkriptausschnitt (Abb. 6) beziehen, unterscheiden sich in ihrer Detailtiefe und in ihrem Grad an technisch-linguistischer bzw. interaktionsanalytischer Beschreibung. Während der erste Textauszug eine überblicksartige Zusammenfassung der Sequenz liefert und dementsprechend nur die ungefähre Position der beschriebenen Phänomene angibt, enthält das zweite Textbeispiel, das sich auf dieselben Transkriptzeilen bezieht, viel genauere Hinweise auf bestimmte Momente in der Interaktion, die hier durch eine Nennung konkreter verbaler Elemente charakterisiert sind. Die unterschiedliche Vorgehensweise ist Teil der rhetorischen Struktur des Fließtextes: während es für einen ersten Überblick über die Interaktion in Kombination mit allgemeinen Anmerkungen ausreicht, nur die jeweiligen Zeilennummern zu nennen, damit Leser*innen sich orientieren können, enthält eine genauere Auseinandersetzung mit spezifischen Aspekten auch detailliertere Verweise inklusive Nennung konkreter Elemente. 6 Noch komplexer wird die Verweispraxis, wenn es sich, wie im folgenden Beispiel, um ein multimodales Transkript handelt. Hier wurden zur Ergänzung des Verbaltranskripts Standbilder aus einer Videoaufzeichnung entnommen, als Fotografien in das Transkript eingefügt und mit Hilfe von Sonderzeichen (#) in der Verbalzeile verortet: 6 Das hier zitierte Textbeispiel stammt aus einer Publikation der romanistischen Linguistik in einer französisch-deutschsprachigen Reihe und bedurfte daher trotz der Differenz zwischen Transkript- und Fließtextsprache keiner Übersetzung. 272 Carmen Konzett-Firth Abb. 8: aus der Wieschen & Sert (2018: 7) Der in Abbildung 8 gezeigte Textabschnitt, der sich auf die darüber abgedruckten Transkriptzeilen und die dazugehörigen Standbilder aus dem Datenmaterial bezieht, verweist auf das Transkript mit Hilfe von Zeilenangaben, Paraphrasierungen und direkten Zitaten aus den Verbalzeilen. Auch die nichtsprachlichen Aktivitäten, die im Transkript sowohl durch Beschreibungen (z. B. „ points at VIL “ ) als auch auch durch Standbilder repräsentiert sind, werden im Fließtext besprochen. Die dänischen Transkriptteile werden paraphrasiert, die englischen aber zum Teil direkt zitiert. Die Mischung aus Zitat und Paraphrase ist eine in diesem Fall naheliegende Strategie, mit der Mehrsprachigkeit des Transkripts im Fließtext umzugehen, da der Fokus der Analyse in diesem Textabschnitt auf den englischsprachigen Passagen liegt. In beiden oben gezeigten Textbeispielen handelt es sich um Diskurssituationen, in denen die Autor*innen auf einen mit den Lesenden geteilten Zugang zum besprochenen Transkript zugreifen bzw. davon ausgehen. Wenn dieser gemeinsame Zugang aber nicht vorausgesetzt werden kann, weil die Leser*innen die Sprache des Transkripts nicht (gut genug) verstehen, kann nicht ohne Transkriptionspraxis in mehrsprachigen Forschungskontexten 273 weiteres auf die Originalzeilen verwiesen werden, zumindest nicht dann, wenn es um Details geht, die Sprachverständnis voraussetzen. In Abschnitt 4 sollen daher einige gängige Praktiken vorgestellt werden, wie konversationsanalytisch Forschende mit der Herausforderung umgehen, im Fließtext ihrer wissenschaftlichen Publikationen auf ihre mehrsprachigen (d. h. übersetzten) Transkripte zu verweisen. 4 Transkriptverweise im Fließtext in mehrsprachigen Kontexten Für Verweise auf Transkripte in einem Fließtext gibt es weder festgeschriebene Regeln noch Systeme, wie sie für Transkripte existieren. Aus der Literatur ist mir nur ein einziger expliziter Hinweis auf Gepflogenheiten bekannt, wonach im Fließtext sowohl der Originaltranskripttext als auch die idiomatische Übersetzung in die Publikationssprache angeführt werden sollten (Hepburn & Bolden 2017: 145). In der Praxis trifft man aber auf unterschiedliche Verfahren, die jeweils verschiedene textbezogene Zwecke erfüllen. Kleinere Unterschiede sind zum Teil auf Traditionen bestimmter Forscher*innengruppen zurückzuführen oder auf Vorgaben bestimmter Publikationsorgane oder einfach auf persönliche ästhetische oder rhetorische Vorlieben. Es lassen sich aber auch Funktionalitätskriterien identifizieren, an denen sich Forschende bei ihrer Wahl für die eine oder andere Verweisstrategie offensichtlich orientieren. Die hier getroffene Auswahl der Beispiele zielt darauf ab, einige gängige Praktiken exemplarisch herauszugreifen. Praktiken werden dabei in einem eher weiten Begriffsverständnis als routinisierte, in einen (hier: institutionell-professionsspezifischen) Kontext eingebettete, materiell-medial konstituierte, soziale Formen kommunikativen Handelns verstanden (vgl. Deppermann, Feilke & Linke 2016). Der vorliegende Beitrag versteht sich als Illustration und als Reflexionsbasis, erhebt aber keineswegs Anspruch auf Repräsentativität oder gar Vollständigkeit. Praktik 1: Zitat aus dem Originaltext ohne Übersetzung Wie in Abschnitt 3 dargestellt, werden in konversationsanalytischen Texten Verweise auf ein Transkript üblicherweise als Be- und Umschreibung eines bestimmten Interaktionsmoments unter Angabe der referenzierten Zeile(n) gestaltet. Immer wieder wird aber auch direkt aus dem transkribierten Text zitiert. Im Fall mehrsprachiger Transkripte stellt sich nun die Frage, ob die Transkriptstelle aus der originalsprachlichen Zeile oder aus der Übersetzungszeile - oder aus beiden - entnommen werden soll. Im folgenden Beispiel (Abb. 9 & 10) hat sich der Autor für erstere Variante entschieden: 274 Carmen Konzett-Firth Abb. 9: Lindström (2006: 88) Abb. 10: Lindström (2006: 88) Es gäbe in dem obigen Ausschnitt drei mögliche Zeilen, aus denen der Autor zitieren hätte können: die schwedische Originalzeile, die interlineare Gloss- Zeile oder die Übersetzungszeile. Vorrang wird in diesem Fall der Originalzeile gegeben und das schwedische Wort wird in doppelten Anführungszeichen angeführt. Das im Fokus der Analyse stehende schwedische Wort „ hördu “ wird ohne seine Übersetzung zitiert und ohne Zeilenangabe. Allerdings ist die betreffende Stelle im Transkript selbst grafisch durch einen Pfeil am Zeilenanfang und durch Fettdruck des fokussierten Wortes markiert. Außerdem ist das Element bereits zuvor im Text als Thema eingeführt worden: Abb. 11: Lindström (2006: 88) Transkriptionspraxis in mehrsprachigen Forschungskontexten 275 Der Fokus der Analyse liegt im hier abgedruckten Textausschnitt auf der Funktionalität eines konkreten schwedischen Wortes für eine ganz bestimmte Interaktionssituation. Es ist daher in diesem Fall von zentraler Bedeutung, dass der Originalausdruck verwendet wird. Das entsprechende Element kann bei der Analyse des Ausschnitts (Abb. 10) ohne Übersetzung zitiert werden, weil es bereits vorab ausführlicher erklärt wurde, indem es linguistisch kategorisiert und in zwei Versionen annähernd übersetzt wurde (Abb. 11). An jener Stelle des Textes, als „ hördu “ im Original zitiert wird, kann also davon ausgegangen werden, dass die Leser*innen bereits darauf vorbereitet und mit dem Ausdruck vertraut sind. Im Gegensatz dazu wird zwei Zeilen später ein weiteres Zitat aus dem Originaltranskript, das nicht Fokus der Analyse ist und auch nicht vorher eingeführt wurde, zusammen mit der Übersetzung (ebenfalls aus dem Transkript) zitiert, nämlich „ ,dricka ‘ ([to] drink) “ . Der Autor unterscheidet also offensichtlich zwischen verschiedenen Zitierweisen in Abhängigkeit vom Analyseziel und vom Vorwissen der Leser*innen. Wenn nicht unbedingt nötig, wird auf die Angabe der Übersetzung verzichtet, wohl auch deshalb, weil dies die Lesbarkeit des Textes deutlich erhöht. Im folgenden Beispiel ist ein ähnlich gelagerter Fall zu sehen. Auch hier (Abb. 12 & 13) wird direkt aus dem Originaltranskript zitiert und auch hier stellt einer der Ausdrücke das Fokuselement der Analyse dar, nämlich „ parce que “ . Abb. 12: Pekarek Doehler (2018: 11) 276 Carmen Konzett-Firth Abb. 13: Pekarek Doehler (2018: 12) Im Transkript (Abb. 13) wird mit zwei Zeilen gearbeitet: einer Originalzeile und einer relativ nahe am Original verbleibenden Translation, die eine Mischung aus idiomatischer (Z.11) und wörtlicher (Z. 16) Übersetzung darstellt. Der dazugehörige Textausschnitt (Abb. 13) enthält Beschreibungen der Interaktionshandlungen und direkte Zitate aus dem Originaltranskript, aber keine Übersetzungen. Zeilen 11 und 12 des Transkripts werden im Text lediglich beschrieben, während für Zeile 14 zusätzlich zur Beschreibung der Wortlaut des Transkripts angeführt wird, und zwar inklusive der prosodischen Markierung. Der Fokus des hier abgedruckten Textausschnitts liegt auf der im Transkript mit einem Pfeil markierten Zeile 16. Es wird zweimal aus dem Original zitiert, wobei objektsprachliche und metasprachliche Teile nahtlos mehrsprachig miteinander verknüpft werden. Auch hier ist anzumerken, dass das Fokuselement „ parce que “ bereits vorab ausführlich vorgestellt und diskutiert wurde, womit eine weitere Übersetzung des Französischen an dieser Stelle überflüssig ist. Ein weiteres unübersetzt zitiertes Element ist „ non “ , das aufgrund seiner Kürze und typologischen Nähe zur Publikationssprache Englisch wohl als leicht identifizierbar gelten kann. Zitate aus dem Originaltranskript scheinen vor allem dann eingesetzt zu werden, wenn es sich um einzelne und besonders um kurze Lexeme handelt, die leicht identifiziert und der Übersetzung zugeordnet werden können, sodass solche einzelnen Exkurse in die Originalsprache die Leser*innen in der Nachvollziehbarkeit eher wenig behindern. Praktik 2: Zitat aus dem Originaltext mit Übersetzung Es gibt allerdings auch Fälle, in welchen auf ähnlich kurze, leicht identifizierbare Elemente sehr wohl mit einer Kombination aus Original und Übersetzung verwiesen wird, und dies sowohl im Kontext typologisch stark abweichender Sprachen wie Englisch und Japanisch (Abb. 14 & 15) als auch bei näher verwandten Sprachen wie Französisch und Englisch (Abb. 16 & 17): Transkriptionspraxis in mehrsprachigen Forschungskontexten 277 Abb. 14: Nishizaka (2020: 297) Abb. 15: Nishizaka (2020: 298) Hier (Abb. 14 & 15) verweist der Autor innerhalb einer längeren Beschreibung eines Turns auf ein einzelnes Element aus der Originalzeile, übersetzt es aber sogleich in Klammer. Dies ist hilfreich für Leser*innen, die das Japanische nicht beherrschen, da aus der Übersetzungszeile allein nicht zu erkennen ist, ob „ koko ’ e “ nur dem einen Wort „ here “ oder den beiden Wörtern „ here at “ entspricht. Abb. 16: Persson (2020: 20) 278 Carmen Konzett-Firth Abb. 17: Persson (2020: 21) Auch in den Abbildungen 16 und 17 ist es so, dass die Übersetzungszeile allein offensichtlich nicht ausreicht, um eine klare Zuordnung von Originalelement und übersetztem Element vorzunehmen, und dies trotz der Bemühung, das Layout so zu gestalten, dass Übersetzung und übersetzter Ausdruck jeweils möglichst parallel untereinander stehen. Es ist daher nachvollziehbar, dass der Autor im Fließtext nicht nur das französische Original, sondern jeweils direkt anschließend auch die Übersetzung nennt und es den Leser*innen so ermöglicht, die genaue Stelle zu identifizieren, die besprochen wird. Hier werden übrigens auch relativ leicht identifizierbare Wörter wie Pronomina mit der Übersetzung versehen, trotz der engen typologischen Verwandtschaft von Ausgangs- und Zielsprache. Dies ist wohl dadurch zu erklären, dass der Fokus der Analyse hier im Detail bestimmten linguistischen Formen gilt und die Nachvollziehbarkeit der Argumentation von der Verständlichkeit dieser Formen für die Leser*innen abhängt. Praktik 3: Zitat aus der Übersetzung ohne Originaltext Eine dritte relativ häufige Praktik ist die Zitierung aus der Übersetzungszeile ohne Nennung des Originalwortlauts: Abb. 18: Stevanovic & Peräkylä (2014: 197) Abb. 19: Stevanovic & Peräkylä (2014: 198) Transkriptionspraxis in mehrsprachigen Forschungskontexten 279 Im hier angeführten Beispiel (Abb. 18 & 19) wird im Text überhaupt nicht aus dem finnischen Original, sondern nur aus der Übersetzung zitiert, die idiomatisch ist und keine Informationen über die grammatische Struktur der Originaläußerung liefert. Entsprechend fokussiert die Analyse im Text nicht auf das spezifisch finnische Sprachmaterial sondern auf die Äußerung als Ganzes und auf die Handlung, die durch den Turn verfolgt wird. Diese Handlung wird zunächst beschrieben und dann per Zitat aus der Übersetzungszeile und Angabe der Zeilennummer einem bestimmten Turn oder einer Turnkonstruktionseinheit zugeordnet. Der Lesefluss im Fließtext wird auf diese Weise für eine*n nicht Finnisch-Lesende*n deutlich verbessert und nicht durch unverständliche Zitate unterbrochen. Interessanterweise wurden allerdings alle prosodischen Markierungen aus der Originalzeile in die Übersetzung mit übernommen, wodurch das Transkript an dieser Stelle unter Ausblendung des finnischen Originals praktisch komplett in der Übersetzung gelesen werden kann. Dieses tritt dadurch (zumindest an dieser Stelle im Fließtext) deutlich in den Hintergrund und wirkt beinahe illustrativ. Vor dem Hintergrund der wohl berechtigten Annahme, dass den meisten Leser*innen der Zeitschrift Language in Society das Finnische nicht geläufig sein wird, ist eine solche Vorgangsweise durchaus nachvollziehbar. Trotzdem wird hier deutlich, wie sehr Leser*innen auf die Vermittlungsleistung durch die Autor*innen (cf. Strübing et al. 2018) angewiesen sind. Auch andere Autor*innen verfolgen eine ähnliche Strategie (Abb. 20 & 21): Abb. 20: Petitjean & González-Martínez (2015: 101) Abb. 21: Petitjean & Gonzalez-Martinez (2015: 101) Hier verweist der Fließtext ebenfalls ausschließlich auf die Übersetzungszeile und nicht auf die Originalsprache. Die Übersetzungszeile ist außerdem durch die Verwendung einer anderen Schriftart deutlich von der Transkriptzeile abge- 280 Carmen Konzett-Firth hoben. Es wäre auch hier möglich, das Transkript zusammen mit den Analysen des Fließtexts nur in der Übersetzung zu lesen. Die metalinguistischen Erklärungen und Beschreibungen der Autor*innen im Text beziehen sich auf Elemente der Übersetzung die zum Teil sehr spezifisch formuliert werden (z. B. „ well-prefaced response “ ) aber im Originaltranskript eigentlich gar nicht vorkommen, weil sie eben der Übersetzung entnommen sind. Eine pragmatische Äquivalenz zwischen den ausgangs- und zielsprachlichen Ausdrücken scheint aber hier gegeben, was auch eine solche Beschreibung, die sich rein auf die Übersetzung bezieht, möglich macht. Praktik 4: Verweis auf Transkriptzeile und Paraphrasierung In mehrsprachigen Kontexten, d. h. wenn in der analysierten Originalinteraktion selbst mehrere Sprachen verwendet werden (vgl. dazu Wild in diesem Band), von welchen eine der Sprache des Fließtextes entspricht, gibt es noch eine vierte häufige Vorgehensweise, die wir bereits im Beispiel 8 beobachten konnten: Abb. 22: Aus der Wieschen & Sert (2018: 7) Abb. 23: Aus der Wieschen & Sert (2018: 7) Die hier für die Analyse nicht im Vordergrund stehende Wortwahl im Dänischen wird nicht näher kommentiert. Stattdessen wird die damit gesetzte Handlung beschrieben und auf die verwendete Sprache verwiesen. Damit ist der relevante Abschnitt im Transkript en bloc gut identifizierbar. Dies scheint in Publikationen, die mehrsprachige Transkripte analysieren, die aber weder auf die Verwendung von Mehrsprachigkeit als Ressource noch auf einzelsprachliche Details fokussieren, die weitgehend übliche Praxis zu sein. Auch im folgenden Beispiel (Abb. 24 & 25) wird auf die türkischen Anteile des Transkripts nur mit einer Beschreibung der Handlung, der Angabe der Transkriptzeile und dem Verweis auf die verwendete Sprache Bezug genommen: Transkriptionspraxis in mehrsprachigen Forschungskontexten 281 Abb. 24: Can Da ş k ı n (2015: 45) Abb. 25: Can Da ş k ı n (2015: 46) Umbzw. Beschreibungen eines Transkriptabschnitts oder eines einzelnen Turns oder Turnbestandteils sind immer Bestandteil von Verweisen auf Transkripte, da sie einen Aspekt derAnalyse bilden. Dennoch ist eine ausschließliche Verwendung paraphrasierender Mittel in Texten über einsprachige Transkripte selten anzutreffen und scheint vorrangig eine Strategie für den Umgang mit mehrsprachigen Interaktionskonstellationen zu sein. 5 Konklusion Aus der explorativen Untersuchung verschiedener mehrsprachiger konversationsanalytischer Publikationen geht hervor, dass in der Forschungspraxis beim Umgang mit Fließtext-Verweisen auf mehrsprachige Transkripte kein schematisches Anwenden vorgegebener Regeln erkennbar ist. Stattdessen ist eine erstaunlich große Bandbreite an verschiedenen Praktiken des Verweisens zu beobachten. Diese sind einerseits domänenspezifisch (Deppermann et al. 2016: 6), d. h. sie orientieren sich an grundsätzlichen Formatierungs- und Textkonventionen der Gesprächsforschung und der Linguistik und weisen auch routinehafte Aspekte auf (die vermutlich für je einzelne Forscher*innen intraindividuell noch deutlicher hervortreten würden). Andererseits sind die Verweis-Praktiken stets durch lokal konstituierte Erfordernisse bedingt; sie 282 Carmen Konzett-Firth entstehen in reflexiver Weise unter Bezug auf die Produktions- und Kommunikationsbedingungen des zu publizierenden Textes bei gleichzeitiger indexikalischer Referenzierung ebendieser Kontexte. Der kommunikative Rahmen und die medial-materielle Konfiguration publizierter wissenschaftlicher Texte schaffen bestimmte Vorgaben, an denen sich textuelle Verweis-Praktiken orientieren (müssen) und durch die sie beeinflusst und möglicherweise eingeschränkt werden. Dazu gehört die rezipient*innengerechte Gestaltung des Textes, die sowohl die Einhaltung wissenschaftsdiskursiver Normen und fachsowie sprachspezifischer Konventionen, aber auch bestimmte Vorannahmen über den Wissens- und Kompetenzstand der Leser*innen - bezüglich des fachlichen Inhalts aber auch bezüglich der besprochenen Sprachen - impliziert. Ein weiterer Aspekt betrifft die Modalität und Verfasstheit von publizierten Wissenschaftstexten sowohl hinsichtlich des zur Verfügung stehenden Textumfangs, der die Länge von Zitaten und Erklärungen beeinflusst, als auch bezüglich des physischen Verfügbar-Machens der Daten, die fast immer nur als schriftliches Transkript, und - anders als in der vorliegenden Publikation - nicht über direkten Zugriff auf Audio- oder Videomaterial den Leser*innen zugänglich gemacht werden. Die beobachteten Verfahren des Verweisens auf Transkripte - und damit auf die zugrundeliegenden Daten - begegnen den genannten Anforderungen auf unterschiedliche Weise. Grundsätzlich lässt sich zusammenfassend festhalten, dass meist nach der Faustregel „ so viel Vermittlungsarbeit wie nötig, aber so wenig Übersetzung wie möglich “ vorgegangen wird. Abrupte Wechsel von einer in eine andere Sprache wirken in einem wissenschaftlichen Fließtext oft holprig und umso mehr, wenn die Leser*innen nicht beide Sprachen (gut) verstehen. Mehrsprachigkeit in dieser Form stört den Lesefluss und ist aus diesem Grund möglichst zu beschränken. Gleichzeitig ist in einem wissenschaftlichen Text auch dem Kriterium der Verständlichkeit Genüge zu tragen und darauf zu achten, dass die besprochenen und analysierten Inhalte für die Leser*innen klar und nachvollziehbar dargestellt werden. Außerdem unterliegen die meisten wissenschaftlichen Aufsätze starken Beschränkungen des Umfangs und müssen daher ihre Ausführungen möglichst knapp halten und verdichten. Auch das mag ein Grund für so manche Entscheidung gegen eine doppelte Zitierung - d. h. aus dem Original und aus der Übersetzung - sein. In den untersuchten Aufsätzen lässt sich jedenfalls erkennen, dass Interaktionsforscher*innen in mehrsprachigen Schreibkontexten sehr genau darauf achten, wie viel Übersetzung und wie viele Originalzitate ihr Text benötigt und/ oder verträgt. Dabei scheinen sich bestimmte Zitierweisen von Transkripten im Fließtext besser für bestimmte Inhalte zu eignen als andere. Bei stark auf einzelsprachliche Eigenheiten wie etwa konkrete grammatikalische oder lexika- Transkriptionspraxis in mehrsprachigen Forschungskontexten 283 lische Mittel abzielenden, linguistisch geprägten Analysen wird meist mit Auszügen aus dem Originaltranskript, vorzugsweise in Kombination mit ausführlichen Erklärungen und oft zusammen mit der Übersetzung, gearbeitet. Die Übersetzung im Fließtext wird vor allem dann benötigt, wenn die Entsprechung einer übersetzten Stelle im Transkript ohne Kenntnis der beiden Sprachen nicht eindeutig dem Original zuordenbar ist, dies aber für das Verstehen der Analyse benötigt wird. Andererseits können einzelne Wörter aus der Originalsprache nach entsprechender erklärender Vorarbeit sogar ganz ohne Übersetzung zitiert werden. Dies gilt vor allem dann, wenn sie im Zentrum der Analyse stehen und daher wiederholt vorkommen. Hingegen ist es in Kontexten, in denen die pragmatische Intention von Äußerungen oder die kommunikative Handlung statt der verbalen Formulierung im Vordergrund steht und wenn öfter längere Passagen zitiert werden, durchaus möglich, dass überhaupt nicht aus dem Original, sondern ausschließlich aus der Übersetzung zitiert wird. Diese Vorgangsweise erhöht zwar die Lesbarkeit des Fließtextes und vereinfacht auch die Bezugsherstellung zwischen Text und (übersetztem) Transkript für die Leser*innen, aber die ‚ originalen ‘ Verbalzeilen rücken dadurch stärker in den Hintergrund. Zum Teil reduziert dieses Verfahren die Originaltranskripte auf eine stark illustrative Funktion und schwächt so ihren Status als Belegmaterial zur Nachvollziehbarkeit der Argumentation. Schließlich gibt es auch Kontexte, in denen das Originaltranskript selbst bereits mehrsprachig ist, der Text sich aber hauptsächlich der Analyse jener Teile widmet, die der Publikationssprache entsprechen. In diesen Situationen ist im Fließtext häufig eine Mischform zu beobachten: aus den nicht übersetzten Teilen des Originaltranskripts, die der Publikationssprache entsprechen, wird direkt zitiert, während die im Transkript übersetzten Stellen nur beschrieben oder paraphrasiert werden. Auch in diesen Fällen wird den Leser*innen über den Fließtext also nur ein Teil des Originaltranskripts direkt zugänglich gemacht, insbesondere wenn keine morphosyntaktische Glossierung vorliegt, denn die Entsprechung der Übersetzung im Originalwortlaut lässt sich oft nicht eindeutig bestimmen. Wie alle sprachlich-kommunikativen Praktiken ist auch die Praktik „ Verweisen auf Gesprächstranskripte in einem mehrsprachigen Kontext “ mehrdimensional. Schreibende bewegen sich beim Verfassen ihres Textes in einem Spannungsfeld von materiell-medialen Bedingungen, rezipient*innenseitigen Anforderungen und Voraussetzungen und fach-/ sprachkulturell-diskursiven Konventionen. Das Verweisen auf Transkripte ist somit Teil der professionellen Praxis von Gesprächsforscher*innen und stellt einen wichtigen Baustein zur hermeneutischen Vermittlung zwischen Forschungsfeld und Leser*innen dar (vgl. Strübing et al. 2018: 93). Konkret muss für Rezipient*innen über den Umweg der Daten ein Zugang zum Forschungsfeld geschaffen werden, u. a. 284 Carmen Konzett-Firth auch um die Plausibilität der Ergebnisse verifizieren zu können. In einem mehrsprachigen Publikationskontext, in dem die Sprache der Daten und die Sprache des sie beschreibenden Textes nicht übereinstimmen, erfordert dies auch eine sprachlich-kulturelle Übersetzungsleistung der Autor*innen, sowohl in der Transkription der Daten selbst als auch auf der sekundären Ebene der Beschreibung und Interpretation. Es ist also nicht nur eine transkriptionspraktische Frage, die sich in Bezug auf Verweise in mehrsprachigen Kontexten stellt, sondern im Hinblick auf das Gütekriterium der „ textuellen Performanz “ (Strübing et al. 2018) auch eine Frage der Qualität von Forschungstexten. Forschende in mehrsprachigen Publikationskontexten müssen sich überlegen, wie sie ihren gesprächsanalytischen Text so gestalten, dass Lesbarkeit, Nachvollziehbarkeit und Verifizierbarkeit auch in der Fremdsprache gewährleistet sind. Diese Überlegungen haben klare Implikationen für Publikationsstrategien von Forscher*innen; sie sind als Konsequenz und Ausdruck einer mehrsprachigen professionellen Praxis in einer zunehmend einsprachigen Publikationswelt auch in einer wissenschaftspolitischen Dimension von hochaktueller Bedeutung. Literaturverzeichnis aus der Wieschen, Maria Vanessa & Olcay Sert. 2018. Divergent language choices and maintenance of intersubjectivity: the case of Danish EFL young learners. International Journal of Bilingual Education and Bilingualism 24 (1). 107 - 123. Bilmes, Jack. 1996. Problems and resources in analyzing Northern Thai conversation for English language readers. Journal of Pragmatics 26(2). 171 - 188. Birkner, Karin, Peter Auer, Angelika Bauer & Helga Kotthoff. 2020. Einführung in die Konversationsanalyse. Berlin: De Gruyter Clift, Rebecca. 2016. Conversation Analysis. Cambridge: Cambridge University Press. Deppermann, Arnulf, Helmuth Feilke & Angelika Linke. 2016. Sprachliche und kommunikative Praktiken: Eine Annäherung aus linguistischer Sicht. In Arnulf Deppermann, Helmuth Feilke & Angelika Linke (Hrsg.). Sprachliche und kommunikative Praktiken ( Jahrbuch des Instituts für Deutsche Sprache 2015). Berlin: De Gruyter Da ş k ı n, Nilüfer Can. 2015. Shaping learner contributions in an EFL classroom: Implications for L2 classroom interactional competence. Classroom Discourse 6(1). 35 - 56. Egbert, Maria, Mamiko Yufu & Fumiya Hirataka. 2016. An investigation of how 100 articles in the Journal of Pragmatics treat transcripts of English and non-English languages. Journal of Pragmatics 94. 98 - 111. Gülich, Elisabeth & Lorenza Mondada (2008). Konversationsanalyse. Eine Einführung am Beispiel des Französischen. Tübingen: Niemeyer. Hepburn, Alexa & Galina B. Bolden. 2017. Transcribing for social research. Thousand Oaks, CA: SAGE. Transkriptionspraxis in mehrsprachigen Forschungskontexten 285 Hepburn, Alexa & Galina B. Bolden. 2013. The Conversation Analytic Approach to Transcription. In Jack Sidnell & Tanya Stivers (Hrsg.),The Handbook of Conversation Analysis, 57 - 76. Hoboken, New Jersey: John Wiley Jefferson, Gail. 2004. Glossary of transcript symbols with an introduction. In Gene Lerner (Hrsg.), Conversation Analysis: Studies from the first generation. 13 - 31. Amsterdam: John Benjamins. Jenks, Christopher Joseph. 2011. Transcribing talk and interaction: issues in the representation of communication data. Amsterdam: John Benjamins. Jenks, Christopher Joseph. 2013. Working with transcripts: An abridged review of issues in transcription. Linguistics and Language Compass 7(4). 251 - 261. Keevallik, Leelo. 2013. Accomplishing continuity across sequences and encounters: No(h)-prefaced initiations in Estonian. Journal of Pragmatics 57. 274 - 289. Konzett-Firth, Carmen. 2017. Gesprächsforschung als Schnittstelle zwischen romanistischer Fachwissenschaft und Fachdidaktik: Vorstellung des Forschungsprojekts FRAISE - FRAnzösisch in Interaktion in der SchulE. In Johanna Wolf & Agustín Corti (Hrsg.), Romanistische Fachdidaktik. Grundlagen - Theorien - Methoden, 103 - 116. Münster: Waxmann. Konzett-Firth, Carmen. 2019. c ’ est comme en anglais: Sprachvergleichspraktiken von Schüler*innen und Lehrer*innen im Französischunterricht. In Marietta Calderón & Carmen Konzett-Firth (Hrsg.), Dynamische Approximationen. Festschriftliches pünktlichst zu Eva Lavrics 62,5. Geburtstag (Kontraste/ Contrastes), 293 - 310. Berlin u. a.: Peter Lang. Konzett-Firth, Carmen. 2020. Co-adaptation processes in plenary teacher-student talk and the development of L2 interactional competence. Classroom Discourse 11(3). 209 - 228. Lindström, Jan. 2006. Grammar in the Service of Interaction: Exploring Turn Organization in Swedish. Research on Language and Social Interaction 39(1). 81 - 117. Mondada, Lorenza. 2020. Audible Sniffs: Smelling-in-Interaction. Research on Language and Social Interaction 53(1), 140 - 163. Nikander, Pirjo. 2008. Working with transcripts and translated data. Qualitative Research in Psychology 5(3). 225 - 231. Nishizaka, Aug. 2020. Appearance and Action: The Sequential Organization of Instructions in Japanese Calligraphy Lessons. Research on Language and Social Interaction 53(3). 295 - 323. Pekarek Doehler, Simona. 2018. Elaborations on L2 interactional competence: the development of L2 grammar-for-interaction. Classroom Discourse 9(1). 3 - 24. Persson, Rasmus. 2020. Prosody and grammar of other-repetitions in French: The interplay of position and composition. Language in Society 49 (4). 585 - 618. Petitjean, Cécile & Esther González-Martínez. 2015. Laughing and smiling to manage trouble in French-language classroom interaction. Classroom Discourse 6(2). 89 - 106. Rehbein, Jochen, Thomas Schmidt, Bernd Meyer, Franziska Watzke & Annette Herkenrath. 2004. Handbuch für das computergestützte Transkribieren nach HIAT. Arbeiten zur Mehrsprachigkeit. Working Papers in Multilingualism 56 (Folge B). 1 - 79. 286 Carmen Konzett-Firth Schegloff, Emanuel A. 2002. Reflections on research on telephone conversation: Issues of cross-cultural scope and scholarly exchange, interactional import and consequences. In Kang Kwong Luke & Theodossia Pavlidou (Hrsg.), Telephone Calls. Unity and diversity in conversational structure across languages and cultures, 249 - 281. Amsterdam: John Benjamins. Selting et al. 2009. Gesprächsanalytisches Transkriptionssystem 2 (GAT2). Gesprächsforschung 10, 353 - 402. Sidnell, Jack. 2010. Conversation Analysis. An Introduction. London: Wiley-Blackwell. Stevanovic, Melisa & Anssi Peräkylä. 2014. Three orders in the organization of human action: On the interface between knowledge, power, and emotion in interaction and social relations. Language in Society 43(2). 185 - 207. Strübing, Jörg, Stefan Hirschauer, Ruth Ayaß, Uwe Krähnke & Thomas Scheffer. 2018. Gütekriterien qualitativer Sozialforschung. Ein Diskussionsanstoß. Zeitschrift für Soziologie 47(2). 83 - 100. Traverso, Véronique. 2002. Transcription et traduction des interactions en langue étrangère. Cahiers de praxématique 39. 77 - 99. Transkriptionspraxis in mehrsprachigen Forschungskontexten 287 D Methodologie & Methodik Wann ist „ gut “ gut? Problemfelder und Lösungsansätze zur Bearbeitung und Interpretation dialektaler Teuthonista-Transkripte Yvonne Kathrein Abstract: Das im Tiroler Dialektarchiv bearbeitete Datenmaterial aus den frühen 1970er-Jahren bis 2011 bietet mit seinen geschätzten 300.000 Belegen in der Lautschrift Teuthonista eine umfangreiche Forschungsgrundlage zu einzelnen Ortsdialekten Tirols. Gleichzeitig stellt das Material die Bearbeiterinnen und Bearbeiter vor mehrfache Herausforderungen: Unterschiedliche Verschriftlichungskonventionen der Explorierenden oder eine mögliche Orientierung derselben am phonologischen System der eigenen Varietät etwa lassen das Material als inhomogen, wenig reliabel und intransparent erscheinen. Die Güte ermisst sich aber nicht einzig an diesen „ Unzulänglichkeiten “ : Es gilt, die genannten Probleme bestmöglich zu überwinden, um die Daten zum einen für unterschiedliche wissenschaftliche Zwecke verfügbar machen und die sich daraus ergebenden Potentiale aufzeigen zu können, zum anderen, um ihnen jenen Wert zuzuerkennen, der ihnen als Korpus zurAbbildung sprachlich-kultureller Ausprägungen der Ortsdialekte Tirols ganz generell zusteht. Keywords: Dialektologie, Teuthonista, Transliteration, Sprachatlas, Transparenz, Konsistenz, Reliabilität 1 Einleitung Das Tiroler Dialektarchiv (im Folgenden: TDA) hat sich seit mehreren Jahren der Erstellung eines digitalen Sprachatlasses verschrieben. Dazu wird unter anderem das analog vorliegende, in der Lautschrift Teuthonista niedergeschriebene Datenmaterial mittels des eigens dafür geschaffenen Fonts Antonia Phonetic 1 1 Informationen dazu und zur Lizenz unter https: / / www.typejockeys.com/ de/ font/ antonia transliteriert, um, neben zwei Abstraktionsebenen (nämlich dem standardisierten und dem belegnahen Stichwort), auch den Originalbeleg samt vereinfachtem Beleg zu Zwecken besserer Lesbarkeit für Laien auf einer digitalen Karte darstellen zu können. (siehe Abb. 1 und 2; vgl. Gschösser & Kathrein 2019) Abb. 1: Der Originalbeleg šę ̄ ᾱ r ( ‚ Maulwurf ‘ ) und sein vereinfachter Beleg schäar sind dem standardisierten Stichwort Scher zugeordnet. Abb. 2: Die Karte für das standardisierte Stichwort Scher wiederum zeigt die belegnahen Stichwörter Schäa, Schäar und Schäare. Hier geht es also um die Abbildung des Auslauts, der entweder vokalisiert, mit Konsonant oder mit auslautendem -e erscheint. 292 Yvonne Kathrein Derartige Karten scheinen an der Oberfläche wie aus einem Guss. Tatsächlich wurden die Daten aber von unterschiedlichen Exploratoren und Exploratorinnen innerhalb von rund 40 Jahren erhoben (siehe Abschnitt 2). Diese dem Material inhärente Inhomogenität stellt grundsätzlich dann kein Problem dar, wenn lediglich ein einzelner Bestand, also die Erhebungen für eine Gemeinde bzw. Ortschaft, im Fokus der Untersuchung steht, denn ein einzelner Bestand wurde in der Regel zügig von zumeist einer explorierenden Person innerhalb weniger Tage bzw. Wochen geschaffen. Wenn allerdings, wie es bei einem Sprachatlas der Fall ist, jeweils ein Beleg aller Bestände quasi „ zeitgleich “ erscheint, führt das natürlich zu Verzerrungen. Beispielsweise wurde der Beleg für Gschnitz ( šę ̄ᾱ r ) 2 im Jahr 2000 erhoben, jener für die unweit davon entfernte Gemeinde Steinach am Brenner ( šēαr ) im Jahr 1989, jene für die Gemeinde Neustift im Stubaital ( α šē ̨ ṛ ə ), die im Nachbartal liegt, 1976/ 77. Ein Vergleich zwischen jenen Varianten mit auslautendem e und jene ohne ein solches wird dadurch erschwert, denn was für die 70er-Jahre gegolten hat, muss nicht mehr unbedingt für die 80erbzw. dann die 2000er-Jahre gelten. Eine rezente Erhebung in allen drei Gemeinden würde vielleicht nun fast idente Belege liefern, weil der auslautende Vokal in der Zwischenzeit apokopiert worden sein könnte. Die Karte hätte dann möglicherweise einen grünen Farbpunkt weniger. Unser Material ist also zum einen, was den Erhebungszeitpunkt anbelangt, inhomogen. Die zeitliche Komponente kann nicht „ wegretuschiert “ werden. Sieht man sich jedoch an, wann die Mehrzahl der Gewährspersonen geboren wurde, nämlich im ausgehenden 19. und beginnenden 20. Jahrhundert, so relativiert sich das Problem in der Gesamtschau aber auch wieder. Interpretationen können also vorgenommen werden, aber eben mit Bedacht auf diese für den Einzelfall geltenden Unebenheiten. 2 Die Originalbelege wurden in diesem Beitrag - im Gegensatz zum Fließtext - im angesprochenen unicode-basierten Font Antonia Phonetic verschriftlicht. Er ermöglicht eine originalgetreue Wiedergabe der Teuthonista, die sich unter anderem durch den Einsatz mehrfach über- und untergesetzter Diakritika auszeichnet. Dass Eingabe und Speicherung dabei als lineare Sequenz erfolgen, die Zeichen an der Oberfläche aber als zusammengesetztes Modul erscheinen, stellt einen transkriptionswissenschaftlichen Fortschritt dar. Wann ist „ gut “ gut? 293 Abb. 3: 407 Gewährspersonen, und damit fast 70 %, wurden im ausgehenden 19. und beginnenden 20. Jahrhundert geboren (n = 589). (Ich danke David Gschösser für die Erstellung dieser Grafik.) Die Daten sind zum anderen auch im Hinblick auf die Explorierenden und deren Zugang zur Materie nicht als gleich zu betrachten. So sind etwa deren Höreindrücke unterschiedlich, was sicherlich auf den Grad der jeweiligen Versiertheit zurückzuführen ist, aber unter anderem auch, und das ist nicht zu unterschätzen, auf die phonologischen Systeme, die jeder und jede der im Feld Arbeitenden mitbrachte und die quasi im Hintergrund immer „ mitmischen “ . Zwar wurden etwa für ein Viertel der Erhebungen Audioaufzeichnungen gemacht, die Aufnahmegeräte liefen aber nur während eines Teils der Sessions mit, wodurch viele Belege nicht verifiziert werden können. Zudem kommen die Explorierenden teilweise aus leicht unterschiedlichen Notationsschulen (die Lautschrift Teuthonista ist grundsätzlich ein offenes System), was entweder dazu führte, dass unser Zeichensatz um einzelne Zeichen ergänzt werden musste, aber auch, dass solche Zeichen mitunter irgendwann im Laufe mehrerer Erhebungen von den Explorierenden an jene Konventionen angepasst wurden, wie sie im Schweizerdeutschen Sprachatlas bzw. im Südwestdeutschen Sprachatlas und in weiterer Folge bei unseren Erhebungen Verwendung fanden. Im Einzelfall mangelt es den Daten also auch an Reliabilität und Transparenz. Inkonsistenzen zwischen den einzelnen Verschriftlichungskonventionen der Explorierenden können, wenn sie systematisch sind und für den einzelnen 294 Yvonne Kathrein Beleg klar ist, welche Konvention jeweils gilt, bereinigt werden. Auch die Reliabilität kann, gerade durch die Darstellungsform in einem Sprachatlas, bis zu einem gewissen Grad wiederhergestellt werden, auch wenn viele Audioaufzeichnungen fehlen. Beides soll Gegenstand dieses Beitrags sein. Es sollen die genannten Problemfelder exemplarisch anhand der unterschiedlichen Transkriptionskonventionen der Exploratorinnen und Exploratoren sowie anhand der zweifelsohne individuellen Höreindrücke derselben dargelegt sowie - nach Möglichkeit - Lösungsansätze aufgezeigt werden. 2 Datenbasis des Tiroler Dialektarchivs Die Bestände des Tiroler Dialektarchivs wurden von Beginn der 1970er-Jahre bis zum Jahr 2011 angelegt, und zwar von insgesamt zwölf dafür ausgebildeten Exploratorinnen und Exploratoren. Es handelt sich dabei um Personen, die entweder schon für andere Sprachatlanten Erhebungen durchgeführt hatten oder die eigens zur Erhebung unserer Tiroler Daten angelernt wurden, indem sie nach Aneignung der theoretischen Grundlagen (Hör- und Notationstraining) zuerst im Feld hospitiert und dann unter Anleitung schließlich selbst exploriert haben. Bei letzteren Personen handelt es sich um damalige fortgeschrittene Studierende der Germanistik. Sie alle zeichnen für Erhebungen in den 1980er-Jahren verantwortlich. Für einen Großteil der von diesen Personen durchgeführten Erhebungen existieren auch Audioaufzeichnungen, wenngleich das Audiogerät, wie oben bereits ausgeführt, nicht während der gesamten Sessions mitlief. Dabei dauerte eine Aufnahme zumeist mehrere Stunden, galt es doch, an die 2.200 Fragen aus jenem Fragebuch zu stellen und die Antworten darauf schriftlich zu dokumentieren, das für die Erfassung der bairischen Mundarten in Österreich erstellt wurde. Es wurde im Laufe der Zeit immer wieder leicht überarbeitet, sodass unser Material auf insgesamt drei Fassungen dieser Fragebücher zurückgeht. Da die Fragen unterschiedliche Sachbereiche abdecken, wurden pro Aufnahmeort zumindest zwei, meistens aber mehr Gewährspersonen befragt, die dann für den jeweiligen Bereich als Experte bzw. Expertin herangezogen wurden. Mit einem Korpus zu arbeiten, das, wie soeben dargelegt, mündliche Daten fast zur Gänze als transkribierte Belegreihen festhält und wo Audiodateien zur Verifizierung in den meisten Fällen fehlen, ein Korpus, das im Laufe von etwa 40 Jahren entstanden ist, an dessen Entstehen zwölf Exploratorinnen und Exploratoren beteiligt waren und das auf drei unterschiedliche, jeweils etwa 2.200 Fragen umfassende Fragebücher zurückgeht, mittels derer an die 300.000 Belege erfragt wurden, ein solches Korpus also scheint hochgradig problema- Wann ist „ gut “ gut? 295 tisch zu sein, sind dem Material doch Reliabilität, Homogenität und Konsistenz von vornherein ohne genauere Kenntnis desselben abzusprechen. Dass es bei der Beurteilung der Güte unseres Korpus aber vor allem darauf ankommt, sich klarzumachen, für welche Zwecke das Material erstellt wurde (Sprachatlas) und welche Fragen im Zuge weiterer Forschungen damit beantwortet werden sollen, darauf wird im Folgenden genauer einzugehen sein. 3 Unterschiedliche Transkriptionskonventionen 3.1 Neue Grapheme Wilfried Schabus hat in den 1970er-Jahren zwei Aufnahmen für das TDA gemacht, eine weitere im Jahr 1991 und schließlich zehn Aufnahmen in den Jahren zwischen 2001 und 2011. Im Material stößt man auf zwei unterschiedliche Arten von stimmlosem labiodentalem Frikativ, nämlich ein f mit Unterlänge (im Transkript in der ersten Zeile) und ein f mit horizontalem Unterstrich ohne Unterlänge, stattdessen mit einem Querstrich, der direkt auf der Zeile zu liegen kommt (im Transkript in der zweiten Zeile): Abb. 4: t͓o̭ fɪ ̈ ̨rš ̩ t - Gf. ꬵı ̨ ́ rštpâ ̃m : Zwei Antworten auf die Frage nach der ‚ Firstpfette ‘ , wobei der Explorator zwischen f mit Unterlänge (Fortisfrikativ) und ohne Unterlänge (Lenisfrikativ) unterschieden hat. (Schabus 2001 b: Frage 3.042.01) (Der erste Beleg wurde von einem Gewährsmann, der zweite von einer Gewährsfrau gegeben, weshalb vom Explorator beim zweiten ergänzend < Gf. > dazugeschrieben wurde.) Dabei steht das erste f für die Fortis und das zweite für die Lenis. 3 Diese graphematische Besonderheit entstammt der Schrifttradition des Wörterbuchs der Bairischen Mundarten in Österreich (vgl. Kramer 2009: 2), kommt aber in den Beständen der anderen Explorierenden des TDA nicht vor. Bei allen anderen wird die Lenis - wie es etwa bereits im Sprachatlas der deutschen Schweiz (vgl. Hotzenköcherle 1962 b: 88) und in weiterer Folge im Südwestdeutschen Sprachatlas (vgl. Seidelmann 1993: 73) gehandhabt wurde - mit < v > wiedergegeben. 3 In unserem Font wird jenes mit Unterlänge mit < f > wiedergegeben, jenes ohne mit < ꬵ >. 296 Yvonne Kathrein Diese Konvention war dem Explorator auch bekannt. Er versuchte sogar, sie zu implementieren, wenn er bereits 1974 bei seiner ersten Aufnahme für das TDA schreibt: „ Für v (stimmlose Reibelautlenes) habe ich meist noch ꬵ verwendet, wegen der Verwechslungsgefahr mit t (stimmlose dentale Plosivfortis) trachtete ich, das v (im oben beschriebenen Lautwert) in mein Transkriptionsschema zu übernehmen, was aber nur einige Male gelang: es ist also v nicht als stimmhafte labiodentale Reibelautlenes zu lesen! ! “ (Schabus 1974: 4; Unterstreichung im Original) 4 Offenbar ist der Explorator aber auch 2001 noch nicht dazu übergegangen, wie wir oben im Fall von ꬵı ̨ ́ rštpâ ̃m gesehen haben. Die Macht der Gewohnheit scheint stärker gewesen zu sein. In jedem Fall hatte Schabus mit ꬵ für den Lenisfrikativ ein Zeichen verwendet, das von jenen Konventionen abwich, denen man in den anderen Beständen des TDA gefolgt ist, aus welchem Grund auch immer. Abweichungen sind in der Teuthonista nicht unüblich, war es doch auch jenen, die sich dieser Lautschrift bedienten, bereits in der ersten Ausgabe der „ Zeitschrift für hochdeutsche Mundarten “ erlaubt, „ wenn sie triftige Gründe dazu haben, von der hier gegebenen Norm abzuweichen und andere Zeichen zu gebrauchen. “ (Lenz 1900: 6) Die Teuthonista war und ist eben offiziell nicht normiert 5 , und deshalb „ [ … ] existiert keine Version mit alleiniger Gültigkeit [sic! ] Weiterentwicklung ist nicht nur möglich, sie ist auch üblich. “ (Kramer 2009: 2) Das ist im Prinzip auch unproblematisch, solange der Lautwert, der mit dem Zeichen wiedergegeben werden soll, klar kommuniziert wird. Das hat der Explorator auch gemacht. In diesem Fall kann also das Gemeinte durch einen der jeweiligen Publikation vorangestellten Transkriptionsschlüssel vermittelt werden, wo also neben < v > die Alternative < ꬵ > angegeben würde. Beide Grapheme stünden für denselben Lautwert, nämlich für einen stimmlosen labiodentalen Lenisfrikativ. 3.2 Ein Graphem, mehrere Bedeutungen In jedem Fall ist es im Hinblick auf eine Darstellung im Sprachatlas sicherlich vorteilhaft, ein neues Zeichen zu verwenden, wenn dies dem Explorator/ der 4 Diese Information ist eigentlich obsolet: Stimmhaftigkeit würde in der Teuthonista ohnehin mit untergestelltem Punkt dargestellt. (vgl. Seidelmann 1993: 75) Ein stimmhafter labiodentaler Lenisfrikativ wäre also „ normalerweise “ ohnehin mit dem Zeichen < v ̣ > umzusetzen, nicht mit < v >. 5 Die Sprachatlas- und Wörterbuchprojekte haben die Schrift immer wieder für ihre Zwecke, die sich aus den regionalsprachlichen Spezifika ergeben, angepasst und dadurch haben sich Traditionen herausgebildet, die sich gegenseitig in vielen Teilen ähneln, wodurch es aber eben auch Spezifika und Unterschiede gibt. Diese - zumindest bis zu einem gewissen Grad - zu überwinden und damit eine Art Norm zu schaffen würde aber wohl neue Probleme hervorrufen, vor allem bei jenen Wörterbuchprojekten, die noch nicht abgeschlossen sind. Wann ist „ gut “ gut? 297 Exploratorin nützlich bzw. essentiell erscheint, weil etwa dadurch eine bessere Lesbarkeit erzielt wird oder der damit abgebildete Laut noch nicht durch ein bereits existierendes Zeichen der Teuthonista abgedeckt ist. Problematisch wäre es, „ lieber eine Beschreibung besonders schwieriger Laute zu geben, als zu einem neuen Zeichen zu greifen “ , wie es Teuchert (1924/ 25: 5) in seiner Vorstellung der in der Zeitschrift Teuthonista zu verwendenden Lautschrift formuliert. Sobald die Belege nämlich miteinander verglichen werden sollen, wie es eben in einem Sprachatlas der Fall ist, müsste für jeden Beleg mit solch schwierigen Lauten die jeweilige Beschreibung zur korrekten Aussprache mitgeliefert werden. Das könnte schnell unübersichtlich werden. Ein und dasselbe Graphem würde dann in unterschiedlichen Sammlungen Unterschiedliches bedeuten, wenn man nicht ständig das „ Kleingedruckte “ mitliest. Leider kommt das in den Belegen des TDA auch vor, allerdings nicht, weil es sich um schwierige Laute handelte, die nicht speziell gekennzeichnet worden wären. In der Ortsaufnahme von Bruck am Ziller beispielsweise kommt es zur Verschiebung der in zwei unterschiedlichen Systemen angepeilten Lautwerte. So schreibt der Explorator Wilfried Schabus in den Charakteristika zur Ortsaufnahme von Bruck am Ziller: Öffnungsgrade noch nach der Kranzmayer-Methode (der sog. ‚ neutrale ‘ Laut der neuen Methode entspricht einem diakritisch bezeichneten Laut der alten Methode; ein neutrales o des neuen Transkriptionsschemas würde einem o ̩ und fast noch einem ǫ meiner Tanskription [sic! ] entsprechen.) (Schabus 1974: 3 - 4) Schematisch dargestellt meint Schabus also Folgendes: Abb. 5: Schema der Öffnungsgrade nach Kranzmayer (1956: X) bzw. nach den von Werner Bauer verwendeten und später von Wilfried Schabus übernommenen Transkriptionskonventionen ( „ neue Methode “ ). In rot dargestellt sind gleiche Grapheme, die unterschiedliche Lautwerte repräsentieren. 298 Yvonne Kathrein Das Problem offenbart sich dann, wenn Belegen diese beiden unterschiedlichen Systeme zugrunde liegen und sie miteinander verglichen werden sollen. Eine Karte, in der also etwa die Verdumpfung von mhd. a dargestellt werden soll, ist notwendigerweise ungenau, weil zum Beispiel < ǫ > und < ǫ > nicht in jedem Beleg dasselbe meinen. Das ist dann so, als würde man in einer Partitur die einzelnen Notenschlüssel schwärzen. Der vom Komponisten intendierte, aufeinander abgestimmte (Gleich - )Klang wäre nicht herzustellen. Was also ist zu tun? Ein Hinweis in der Beschreibung der Transkription ist wenig hilfreich, genauso wie es wenig hilfreich wäre, am Beginn eines mehrstimmigen Musikstückes zu sagen, man stelle sich vor, die linke Hand am Klavier spiele in den Takten 7, 24 und 36 nicht ein d ‘‘ , sondern ein kleines f . Das wäre schlichtweg überfordernd. Die Lösung für eine konsistente Darstellung wäre die Generierung einer zusätzlichen, stärker interpretativen Belegebene, sodass jedes < ǫ > bei Schabus durch ein < ǫ ᪽ > ersetzt wird. Es entspricht eben einem nicht ganz so offenen o, wie es sonst mit < ǫ > wiedergegeben wird. Im besten Fall würden solche nivellierten Belege automationsunterstützt und ökonomisch mittels eines Algorithmus generiert, sodass der Bearbeiter bzw. die Bearbeiterin höchstens anfänglich stichprobenmäßig die Richtigkeit der Umsetzung überprüfen muss. Sollte der Öffnungsgrad die Grundlage für eine Kartengenerierung im Sprachatlas sein, wäre also dieser nivellierte Beleg dafür heranzuziehen. Der Originalbeleg könnte dennoch im Atlas erscheinen, aber eben optisch dezenter bzw. davon abgehoben. Dass die unterschiedlichen Systeme wenig benutzerfreundlich sind, war auch Schabus klar, weshalb ihm auch hier daran lag, weitere Aufnahmen im neuen System notieren zu wollen: „ Bei der Gemeinschaftsaufnahme mit Dr. Bauer in Kirchberg i. T. habe ich mir das neue System angeeignet. Meine künftigen Aufnn. werden also keine Umstellung des Betrachters mehr voraussetzen müssen! “ (Schabus 1974: 4 - 5) Ob er das tatsächlich umgesetzt hat, ist aber nicht klar, denn er verwendet etwa 2001 in der Sammlung von Untertilliach noch immer das Diakritikum ◌̩ . Welcher Lautwert damit dargestellt werden soll, ist unklar, denn im neuen System sollte dieses Diakritikum im Zusammenhang mit Vokalen gar nicht vorkommen. (In den Transkriptionen Bauers steht das besagte Diakritikum für die Lenisierung von Konsonanten.) Eine Überprüfung durch die Audioaufnahme ist in diesem Fall nicht möglich, da sie leider nicht vorliegt. Darüber hinaus scheint Schabus im Laufe der Aufnahme die einmal angewandten Konventionen aufgrund eines fortgeschritteneren Einhörstadiums nicht durchgängig einzuhalten. Offenbar hörte er in Untertilliach zuerst sehr geschlossene o-Laute für / ā / (etwa in fragen) und weniger geschlossene für / o/ (etwa in Wann ist „ gut “ gut? 299 Woche). „ Erst nach einer gewissen Einhörzeit “ hat er dann festgestellt, „ dass das oppositive Merkmal der Entsprechungen für / a/ und / o/ in einer gewissen Mittelgaumigkeit [ … ] besteht. “ (Schabus 2001 a: V) Deshalb vermerkt er im Anschluss daran auch die Inkonsistenz der Schreibkonventionen innerhalb der Aufnahme: „ Schreibkonventionen wie wɔ̣ xə - ꬵrọ ̄ gŋ̥ wɔ̩ xə - ꬵro̩ ̄ gŋ̥ wechseln. Gegen Ende der Aufn. ließ ich ō in Formen wie ꬵrō gŋ unbezeichnet. “ (Schabus 2001 a: VI) Man fragt sich a), ob sich die Unbezeichnetheit ausschließlich auf die Verwendung von Diakritika bei den Langvokalen bezieht, b) welchen Lautwert die Diakritika ◌ ̩ und ◌ ̣ abbilden und c) was genau „ gegen Ende der Aufn[ahme] “ heißt. Auch wenn der Explorator sich bemüht hat, reliable Aufnahmen zu machen, indem er anfängliche Höreindrücke revidiert und Selbiges dokumentiert, ist in Anbetracht der dadurch entstandenen Inkonsistenzen in den Verschriftlichungskonventionen, die eben für den Einzelfall nicht transparent sind, fraglich, wie sinnvoll in diesem Zusammenhang ein Algorithmus zur konsistenten Abbildung ein und desselben Lautwerts überhaupt ist. Es wäre unbedingt notwendig, ganz exakt zu formulieren, was wann wofür gilt, im besten Fall auch warum. 6 In solchen Fällen stößt eine automationsunterstützte Lösung an ihre Grenzen. 3.3 Unklares Verhältnis zwischen Graphem und Lautwert Voraussetzung für einen rechnergestützten Transfer ist also, dass der Explorator eine einmal begonnene Transkriptionskonvention auch durchgängig verfolgt - zumindest innerhalb einer Ortsaufnahme. In den Beständen, die durch die Exploratorin Silvia Spiegl angelegt wurden, lassen dies die jeweiligen Vorab- Informationen zur Transkription vermuten. Eine Beschreibung des Zeichensatzes bzw. der vom üblichen Zeicheninventar abweichenden Grapheme soll etwa bei den unterschiedlichen r-Lauten erkennbar machen, welches Zeichen für welche Artikulationsorte bzw. -arten steht. Probleme bereitet hier allerdings die 6 Dass das in manchen Fällen zwar dringend gefordert, praktisch aber nicht möglich ist, kann man aus den Ausführungen Königs zum Problem der engen phonetischen Transkription (König 1988) schließen. Die von ihm dort aufgelisteten Fehlerquellen sind durchwegs eingängig, so etwa Erwartungshaltungen und Voreinstellungen des Explorators (König 1988: 168 - 169), Hör- und Schreibgewohnheiten (König 1988: 169 - 170) oder die Uminterpretation des Gehörten in artikulatorische Eigenschaften (König 1988: 171 - 172) (vgl. dazu auch Hotzenköcherle 1962 a: 61 - 64). Der Mensch unterliegt demgemäß eben bestimmten Irrtümern, die gänzlich auszuschalten unmöglich ist. Ebenso kann nicht erwartet werden, dass der Explorator sich bewusst wird, bis zu welcher Stelle er sich verhört hat und wann er „ richtig “ transkribiert hat, was bedeutet, dass auch die exakte Dauer der „ gewisse[n] Einhörzeit “ nicht eruierbar ist. Insofern ist auch verständlich, dass der Explorator nicht genauer angibt, was „ gegen Ende der Aufnahme “ bedeutet. (Zu den vielfältigen Anforderungen an Exploratoren vgl. auch Hotzenköcherle 1962 a: 115) 300 Yvonne Kathrein stellenweise etwas dürftige Beschreibung derselben unter teilweisem Verzicht auf linguistische Termini. Was „ gerollt “ bedeutet, ist nicht ganz klar, denn sowohl ein apikales, alveolares r als auch ein dorsales, uvulares r können „ gerollt “ sein. Und was versteht die Exploratorin unter „ Engelaut “ , wenn im gleichen Bestand von einem davon geschiedenen „ geriebenen “ und „ gerollten “ r die Rede ist (siehe Steinach am Brenner)? Für Schönberg im Stubaital zumindest beschreibt sie ebendiesen „ Engelaut “ zusätzlich als r, bei dem die „ Zungenspitze [ … ] an den alveolaren Gaumen gehoben “ wird. Hier kommt man nicht umhin, die Audiodateien zurate zu ziehen. Und die sind hier, zumindest zum Teil, vorhanden. Gemeinde Aufnahmezeitpunkt Transkriptionskonvention r ̩ r r ̂ ṛ r ͓ Ranggen Frühjahr 1986 „ Zungenspitzen [r] “ (Spiegl 1986 b: [1]) „ Zungenspitze an palatalem Gaumen “ (Spiegl 1986 b: [1]) Schönberg im Stubaital Winter 1988 „ gerieben “ (Spiegl 1988 a: [2]) „ Engelaut “ (Spiegl 1988 a: [1]), „ Zungenspitze wird an den alveolaren Gaumen gehoben “ (Spiegl 1988 a: [2]) Achenkirch Winter 1989 „ gerolltes r “ (Spiegl 1989 a: [7]) Steinach am Brenner April 1989 „ gerollt “ (Spiegl 1989 c: [1]) „ gerieben “ (Spiegl 1989 c: [1]) „ Engelaut “ (Spiegl 1989 c: [1]) Tab. 1: Unterschiedliche Transkriptionskonventionen einer Exploratorin für unterschiedliche Bestände und deren Beschreibung Wann ist „ gut “ gut? 301 Was also ist ein „ gerolltes “ r? Es kommt etwa in den Beständen Achenkirch und Steinach am Brenner vor und hört sich folgendermaßen an: d̩ âr̩ m ( ‚ die Arme ‘ 7 ), Achenkirch (Spiegl 1989 b: 3.121.07; ► eContent_KA_a) kr̩ ū n ( ‚ Grunzen des Schweins ‘ ), Steinach am Brenner (Spiegl 1989 d: 3.024.01; ► eContent_KA_b) „ Gerollt “ meint also offenbar einen apikalen, alveolaren Vibranten, der in den beiden Beständen Achenkirch und Steinach am Brenner mit dem Zeichen < r ̩ > wiedergegeben wird. In Ranggen verwendet die Exploratorin für den gleichen Lautwert das Zeichen < r > (und nennt es „ Zungenspitzen [r] “ ), so wie es bereits bei Lenz (1906: 6) bzw. später dann bei Teuchert (1924/ 25: 5) für das „ Zungen-r “ eingeführt worden war: b͈ ū r a ( ‚ Transporteinheit beim Heueintragen ‘ ), Ranggen (Spiegl 1986 c: 3.049.06; ► eContent_KA_c) Nivellierte Belege wären also für Achenkirch und Steinach am Brenner mit bzw. kr ū n zu verschriftlichen, wenn man sich an die seit Lenz gängige Konvention für das Zungenspitzen-r hält. Aber auch in Schönberg im Stubaital und in Steinach am Brenner setzt Spiegl dasselbe Zeichen ein, nun allerdings für einen anderen Laut, den sie als „ gerieben “ bezeichnet. Hört man sich die Aufnahmen zu den beiden Gemeinden an, fällt auf, dass hier offensichtlich Inkonsequenzen bestehen: wę rf͓n̥ ( ‚ das Gebären von Jungen bei der Sau ‘ ), Steinach am Brenner (Spiegl 1989 d: 3.023.03; ► eContent_KA_d) šā r ( ‚ Teil des Pflugs, mit dem die Erde beim Pflügen seitlich gewendet wird ‘ ), Schönberg im Stubaital (Spiegl 1988 b: 3.061.04; ► eContent_KA_e) Hier steht ein apikal-alveolares r einem retroflexen gegenüber. Zu nivellieren wäre also šā r . Der Beleg würde - etwa der Konvention im Südwestdeutschen Sprachatlas für Palatalisierungen folgend (Seidelmann 1993: 75) - als šā ȓ wiedergegeben, ungeachtet der Tatsache, dass die Exploratorin diese unterschiedlichen Laute als „ gerieben “ bezeichnet. Was damit genau gemeint ist, entzieht sich unserer Kenntnis. 7 Die Worterklärungen entsprechen dem Wortlaut im jeweiligen Fragebuch bzw. leiten sich daraus ab. eContent_KA_a. wav eContent_KA_b. wav eContent_KA_c. wav eContent_KA_d. wav eContent_KA_e. wav 302 Yvonne Kathrein Um eine Palatalisierung anzugeben, verwendet Spiegl allerdings auch ein < r ̂ >, und zwar in der Erhebung von Ranggen. wǫ r̂ gl̥ ( ‚ Gerät zum Herabrollen des Heus aus besonders steilen Hängen ‘ ), Ranggen (Spiegl 1986 c: 3.049.16; ► eContent_KA_f ) Diese Konvention wird in der Erhebung von Schönberg im Stubaital leider nicht mehr verfolgt. Aufgrund der Hörprobe zum folgenden Beleg könnte man glauben, dass palatale r dort durch einen untergesetzten Punkt als Diakritikum dargestellt werden (was im Südwestdeutschen Sprachatlas eigentlich für Stimmhaftigkeit steht; vgl. Seidelmann 1993: 75). ṛ ō u̯ d͐ n̥ ( ‚ roden ‘ ), Schönberg im Stubaital (Spiegl 1988 b: 3.065.01; ► eContent_KA_g) Das stimmt nun allerdings nicht mit Spiegls Beschreibung überein, wonach es sich dabei um ein r handelt, bei dem die „ Zungenspitze [ … ] an den alveolaren Gaumen gehoben “ wird (das würde gemäß Südwestdeutschem Sprachatlas mit <r> verschriftlicht, vgl. Seidelmann 1993: 76). Das gilt auch für andere Belege in dieser Sammlung, aber nicht für alle. Es finden sich auch Beispiele, die auf die Beschreibung Spiegls passen: šā ṛ n ( ‚ Teile des Pflugs, mit denen die Erde beim Pflügen seitlich gewendet wird ‘ ), Schönberg im Stubaital (Spiegl 1988 b: 3.061.04; ► eContent_KA_h) Spätestens hier würde der Algorithmus wiederum an seine Grenzen stoßen. Sobald ein und dasselbe Zeichen für unterschiedliche Laute in ein und demselben Bestand auftritt und nicht klar markiert ist, wo sich die jeweilige Grenze befindet, ist eine Belegnivellierung, wie wir bereits bei Schabus gesehen haben, nicht mehr sinnvoll, denn Voraussetzung dafür ist eine reliable, nachvollziehbare Transkription samt eindeutiger Beschreibung. Lediglich eine stichprobenartige, händische Abklärung innerhalb eines Bestandes bezüglich fraglicher Graphem-Phonem-Beziehungen könnte in einem derartigen Fall vorab eine Einschätzung darüber liefern, ob das Generieren automationsunterstützter nivellierter Belege dennoch vertretbar ist, solange sich gewisse Unschärfen auf einem sehr niedrigen Niveau bewegen. Inkonsistenzen gibt es auch bei den von unserem Hauptexplorator Eugen Gabriel verwendeten Graphemen < x > und < ꭓ >: So hat er in seinen Erhebungen zum VALTS (= Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein, Westtirols und des Allgäus) für Westtirol Lenisbzw. Fortisrealisierungen von velarem x anfangs mit < x > (Lenis) und < ꭓ > (Fortis) wiedergegeben. Diese Zeichen konfligieren jedoch mit der in anderen Sprachatlanten gängigen Unterscheidung zwischen dem velar vs. palatal realisierten x-Laut. Dort steht < x > für den velaren Frikativ, < ꭓ > für den palatalen (vgl. z. B. eContent_KA_f. wav eContent_KA_g. wav eContent_KA_h. wav Wann ist „ gut “ gut? 303 Seidelmann 1993: 73), weshalb Gabriel später ebenfalls zu dieser gängigeren Konvention übergegangen ist. Lenes und Fortes wurden dann mit x / x ̄ (velare Lenis und Fortis) bzw. ꭓ / ꭓ ̄ (palatale Lenis und Fortis) dargestellt, was wiederum zu Verwechslungen mit der Darstellung von gelängten Fortes führte (vgl. Gabriel 1985: 73). Es ist aber bedauerlicherweise nicht nachvollziehbar, welche Konvention für welche Erhebungen gilt. Er schreibt „ anfangs “ und „ später “ . Das ist aber eben zu wenig. Auf Aufnahmen können wir, bis auf Tarrenz, Roppen und einen Ort im Ötztal, ebenfalls nicht zurückgreifen, weshalb die einzige Möglichkeit, dem eventuell beizukommen, darin bestünde, für jeden von Gabriel erhobenen Ort erneute, stichprobenartige Aufnahmen zu einzelnen Wörtern mit / x/ bzw. / ꭓ / zu machen, um sodann die nivellierten Belege auf dieser Grundlage zu erstellen. Dabei würde man allerdings davon ausgehen, dass sich der Artikulationsort seit Gabriels Aufnahmen, die zwischen 1970 und 1977 entstanden sind, nicht geändert hat. In jedem Fall gilt es, die für viele Aufnahmen vorhandenen „ Charakteristika “ zu den einzelnen Ortsdialekten, die die Explorierenden angelegt haben, zu berücksichtigen, enthalten sie doch wichtige Informationen zur Transkription, in manchem Fall, wie wir bei Schabus bereits gesehen haben, Relativierungen oder Korrekturen. Wenn also bei der Ortsaufnahme von Axams in diesen „ Charakteristika “ von der Exploratorin die Transkription von auslautendem, reduziertem [ a ] revidiert wird, so wird deutlich, wie wichtig eine nivellierte Belegausgabe - nicht nur zu Vergleichszwecken mit Belegen anderer Orte - ist: „ Erhaltung des auslautenden kurzen Vokals des Ahd. als [ a ]. Transkribiert wurde dieses durchgehend falsch mit [ α ], Wörter mit auslautendem [α ] sind also mit mehr a-Qualität zu lesen! ! ! ! “ (Spiegl, 1986 a: 1; Unterstreichung im Original) Sollte an dieser Stelle der Eindruck entstanden sein, dass hier Kritik an der Arbeit der Exploratorinnen und Exploratoren geübt wird, so sei Werner König zitiert, der sich respektvoll vor deren Leistung verneigt: Mein oberstes Gebot an alle Bearbeiter war: Es darf nicht über Exploratoren geschimpft werden. [ … ] Die Bearbeiter, die da kritisieren, wissen nicht, wie hart es im Feld ist, wenn sie nicht selber einmal exploriert haben. (König et al. 2016: 198) Wir schließen uns dem vollumfänglich an. Zudem ist natürlich auch zu berücksichtigen, wie erfahren der Explorator bzw. die Exploratorin ist. Bei den ersten Erhebungen kann man sicherlich nicht jeden Beleg auf die Goldwaage legen. Umso wichtiger ist es, die Belege nachprüfen zu können. Dass dies nicht für alle Bestände des TDA möglich ist, ist bedauerlich. Dennoch ermisst sich der Wert der Sammlung nicht an einzelnen phonetischen Unzulänglich- 304 Yvonne Kathrein keiten, sondern an Umfang und Erhebungsdichte. Darauf werden wir im nächsten Punkt noch zu sprechen kommen. 4 Beeinflussung durch das eigene phonologische System Eine weitere Problematik ergibt sich durch das phonologische System, das die Explorierenden zwangsläufig aus jener Varietät mitbringen, mit der sie jeweils aufgewachsen sind. Auch wenn es sich um versierte Exploratorinnen bzw. Exploratoren handelt: Lautungen, „ [ … ] die dem Abhörer fremd sind, werden nur sehr schwer erkannt. “ (König 1988: 161; vgl. auch Hotzenköcherle 1962 a: 62.) So wird der Explorator, in dessen muttersprachlichem Varietätensystem mhd. ô (z. B. in groß) und ue (z. B. in Gruß) zu / u α / zusammengefallen sind, kaum einen Unterschied zu Lautungen aus Varietäten erkennen, in denen das nicht der Fall ist, in denen also mhd. ô als / o α / und mhd. ue als / u α / realisiert wird. Das gilt etwa für Alpbach, wo groß (/ gro α s/ ) und Gruß (/ gru α s/ ) Minimalpaare bilden. Davon hebt sich außerdem die offenere Realisierung von mhd. ei als / ǫα / ab. In Achenkirch beispielsweise scheinen groß und Gruß hingegen in / gru α s/ zusammenzufallen. (vgl. Gschösser 2017: 63 - 64) mhd. Alpbach Achenkirch ei (Reise) ǫα ǫα ô (groß) o α u α ue (Gruß) u α Tab. 2: Dreibzw. zweiteiliges Phonemsystem für mhd. ei, ô und ue in zwei unterschiedlichen südmittelbairischen Mundarten (vgl. Gschösser 2017: 64) Der Explorator Günter Osl transkribiert in Alpbach aber durchwegs < u ̄ α > für mhd. ô, nämlich etwa b ̩ u ̄ d α b ̩ ru ̄ α t ‚ Butterbrot ‘ (Osl 1984 b: 3.188.06), gru ̄ α s ‚ groß ‘ (Osl 1984 b: 3.185.14) oder ru ̄ α t ‚ rot ‘ (Osl 1984 b: 3.150.11). Denselben Lautwert gibt er auch für Wörter mit mhd. ue an, beispielsweise o ̄ ̣ vm ̄ u ̄ ̃ α s ‚ Ofenmus ‘ (Osl 1984 b: 3.188.08), vu ̄ α sba ŋ x ə ̈ ‚ Fußbankerl ‘ (Osl 1984 b: 3.195.13) oder t ʃūαš p ẹ ̄ α n ̥ ‚ zusperren ‘ (Osl 1984 b: 3.194.14). So hält er denn in der Beschreibung zur Alpbacher Mundart auch fest, dass mhd. ô zu / ūα / werde (vgl. Osl 1984 a: 1). Dabei lässt sich in den Aufnahmen durchaus ein Unterschied festmachen, wonach eben [ o ̤ α ] für mhd. ô und [u α ] für mhd. ue transkribiert werden müsste: b̩ ū dαb̩ rū αt ( ‚ Butterbrot ‘ ), Alpbach (Osl 1984 b: 3.188.06; ► eContent_KA_i) ō ̣ vm̄ ū ̃ αs ( ‚ Ofenmus ‘ ), Alpbach (Osl 1984 b: 3.188.08; ► eContent_KA_j) eContent_KA_i. wav eContent_KA_j. wav Wann ist „ gut “ gut? 305 Im Unterschied dazu hören sich die beiden betreffenden Laute in Achenkirch folgendermaßen an: tu ̨ ̄ α d͐ n̥ grō ̨᪽ wα ( ‚ Totengräber ‘ ), Achenkirch (Spiegl 1989 b: 3.126.10; ► eContent_KA_k) gu ̨ ̄ αt͓əͥ vı ̨ ̄ αʃ ( ‚ gute Füße ‘ ), Achenkirch (Spiegl 1989 b: 3.123.06; ► eContent_KA_l) Interessant ist, dass der Explorator beim Alpbacher Beleg t ʃūαš p ẹ ̄ α n ̥ den Diphthong mit dem geschlossenen e unterstreicht, um zu dokumentieren, dass er das sicher gehört habe - ein Indiz dafür, dass der Geschlossenheitsgrad für ihn unerwartet oder zumindest besonders ist. Und in den Charakteristika zur Mundart von Brandenberg schreibt er: „ Besonders auffällig sind die extrem geschlossenen [o ̤ ] und [e ̤ ], die sich schon sehr dem / u/ bzw. dem / i/ nähern bzw. ‚ zum Verwechseln ähnlich ‘ werden. Die GP [Gewährspersonen, YK] geben allerdings an, daß sie ein / o/ bzw. / e/ sprechen (bzw. intendieren! ). Diese Geschlossenheit ist durchgängig, d. h. auch bei Diphthongen. “ (Osl o. J.a: 1) Der Hinweis in Klammern, die Gewährspersonen hätten die Intention, / o/ und / e/ zu sprechen, könnte wiederum als eine gewisse Distanzierung des Explorators den Aussagen der Gewährspersonen gegenüber gewertet werden. Dennoch transkribiert er hier α gro̤ αʃαẹ ̈᪻ pfẹ ( ‚ ein großer Apfel ‘ , Osl o. J.b: 3.066.04). Leider ist das Aufnahmejahr für Brandenberg unbekannt. Möglicherweise ist diese Aufnahme aber jünger als jene für Alpbach und der Explorator hatte sich mittlerweile besser in das Vokalsystem jener Mundarten eingehört, in denen mhd. ô und ue nicht zusammenfallen. Die Aufnahmen bestätigen jedenfalls die Transkription und damit auch das, was Gschösser bis heute für die Mundarten von „ Brandenberg, Alpbach und Wildschönau “ (2017: 63) sowie für Kirchberg und teilweise für das Zillertal beschreibt, nämlich die Unterscheidung von mhd. ei, ô und ue: lo ˛ α t α ( ‚ Leiter ‘ ), Brandenberg (Osl o. J.b: 3.069.08; ► eContent_KA_m) α gro̤ αʃαẹ ̎᪻ pfẹ ( ‚ ein großer Apfel ‘ ), Brandenberg (Osl o. J.b: 3.066.04; ► eContent_KA_n) dē ̣ sı ̄ sαgū αdsi ̯ ō gwẹ ̄sn̥ ( ‚ das war ein gutes Jahr ‘ ), Brandenberg (Osl o. J.b: 3.066.02; ► eContent_KA_o) Die Transkriptionen sind also - zumindest für Alpbach - wiederum nicht reliabel. Dennoch wird man vorerst etwa die Alpbacher Belege nicht in Zweifel ziehen, außer man ist Muttersprachler oder -sprachlerin jener Dialekte, in denen die oben beschriebene Dreiteilung vorherrscht. Ein Blick auf die Karte, die die verschiedenen Belege der unterschiedlichen Exploratorinnen und Exploratoren vereint, lässt aber dann auch ohne Kenntnisse des Alpbacherischen doch Zweifel aufkommen, vor allem, wenn man um die topographischen Gegebenheiten der betreffenden Ortschaften weiß. Da finden sich / oa/ -Belege eher in dialektalen Rückzugsgebieten wie der Wildschönau oder Brandenberg. eContent_KA_k. wav eContent_KA_l. wav eContent_KA_m .wav eContent_KA_n. wav eContent_KA_o. wav 306 Yvonne Kathrein Auch im Zillertal ist mhd. ô als / oa/ bzw. / ǫ a/ dokumentiert, und zwar von drei verschiedenen Exploratoren. Die verkehrsnäheren 8 Orte Buch, Münster oder Breitenbach am Inn wurden wiederum von Günter Osl aufgenommen, weshalb wir sie hier einmal außer Acht lassen wollen. Dennoch wurden auch für die verkehrsnäheren Orte Hopfgarten im Brixental und Schwoich von Wilfried Schabus respektive Werner Bauer / ua/ -Belege erhoben. Abb. 6: / ua/ vs. / oa/ : In Alpbach sind aufgrund des geographisch-topographischen Kontextes eigentlich Belege mit / oa/ für mhd. ô zu erwarten. Man ist also geneigt, den Alpbacher Beleg gerade durch seine Darstellung in der Gesamtschau zu hinterfragen. Hier zeigt sich, dass unser heterogenes Datenmaterial eine Datenpluralität hervorbringt, die durchaus von Vorteil sein und zur „ empirischen Sättigung “ , wie Strübing et al. (2018: 88) es formulieren, beitragen kann, worunter sie unter anderem nicht nur den Umfang, sondern auch die „ Zusammensetzung des Datenkorpus “ (Strübing et al 2018: 88) verstehen, das möglichst plural ausgestaltet sein sollte. So sind auch die daraus abgeleiteten Interpretationen besser verankert: Interpretationen können sich in der qualitativen Forschung zwar an einzelnen empirischen Details entzünden, ihre Verankerung erhalten sie jedoch in ihrer vielfachen Anbindung an das gesamte Korpus. Entsprechend ist es an diesen Punkten im Forschungsprozess notwendig, weiteres Material zu suchen, welche [sic! ] das bislang analysierte ergänzt. (Strübing et al. 2018: 89) 8 „ Verkehrsnahe “ heißt in diesem Zusammenhang leichter erreichbar und damit nicht unbedingt ein dialektales Rückzugsgebiet darstellend. Wann ist „ gut “ gut? 307 Heterogene Datentypen sind also nicht per se schlecht, sondern erhalten ihre qualitative Relevanz durch den gesamten Umfang, die kumulative Evidenz, eben die empirische Sättigung. 9 Die Güte des Materials ist also nicht nur daran zu messen, wie das jeweilige Einzeldatum qualitativ beschaffen ist, sondern wie es sich in die Gesamtmenge an Daten einfügt. Hier gilt es, sich vor Augen zu führen, was die hauptsächliche Intention der Materialsammlung war: die Erstellung eines Sprachatlasses, das heißt die Darstellung linguistischer Phänomene im Raum. Da lässt sich ein einzelnes Datum nur mit Blick auf die anderen interpretieren. Im Übrigen: Auch die Daten früherer Sprachatlanten können sehr häufig nicht nachgeprüft werden, sondern es wird das als gegeben akzeptiert, was als Transkript im Atlas vorliegt. Das macht die Daten zwar nicht besser, aber es lässt sich eben auch hier erkennen: Darum geht es in den meisten Fällen nicht. Es geht vordergründig um die Darstellung linguistischer Phänomene im Raum, deren Interpretation sich vor allem aus der räumlichen Gesamt darstellung nährt, nicht aus einzelnen, sicherlich manchmal in Frage zu stellenden Einzeldaten. Gestützt wird unsere Vermutung bezüglich der hinterfragbaren Alpbacher Belege außerdem auch durch Gschösser (2017), der zeigen konnte, dass „ im östlichen Inntal ab Buch sowie im Achental, Brixental (ohne Kirchberg) und Sölllandl mhd. ô und uo “ zusammenfallen. Hingegen wurde und wird „ [i]m Inntal um Schwaz und Stans, in den Rückzugsgebieten der mittleren Seitentäler Brandenberg, Alpbach und Wildschönau, in Kirchberg sowie teilweise im Zillertal [ … ] noch zwischen mhd. ei, ô und uo unterschieden “ (Gschösser 2017: 63). 5 Fazit Es ist sicherlich Vorsicht geboten, wenn man aus den in Teuthonista verschriftlichten Dialektdaten des Tiroler Dialektarchivs etwa die Phonemsysteme einzelner Varietäten erstellen wollte. Dafür wären viele der Aufzeichnungen schlichtweg zu intransparent und wenig reliabel. Es ist auch nicht ratsam, exakte phonetische Realisierungen wie etwa Intensitätsabstufungen von Plosiven, Quantitäts- oder Qualitätsabstufungen bei Vokalen in den Mittelpunkt der Analysen stellen zu wollen, aber dennoch sind Analysen auf phonetisch- 9 Im Sprachatlas von Bayerisch-Schwaben wurde Heterogenität sogar „ künstlich “ erzeugt, indem in festgelegten Exploratorengebieten, die von einem Explorator bzw. einer Exploratorin bearbeitet werden sollten, in einzelnen Orten ein anderer/ eine andere Aufnahmen machte. So war sichergestellt, dass Phänomene, die auf die Hörgewohnheiten der Explorierenden zurückgingen, ausgeschaltet waren (vgl. König et al. 2016: 197). 308 Yvonne Kathrein phonologischer Ebene möglich: Es ist für eine Karte, in der beispielsweise steigende vs. fallende Diphthonge vs. Monophthonge dargestellt werden sollen, irrelevant, ob es [ o ̤ α ] oder [ u α ] lautet, nicht aber, ob es [ g ʀ o ̨ ̨ ̄ αʃ ], [grous ̩ ], [ gro ˛ i ̯ ʃ ] oder [ grö ̩ ʃ ] heißt. 10 Und das ist allemal mit dem Material abbildbar. Auf Morphem- und vor allem Lexemebene ist die Relevanz der Belege ohnehin unbestritten. Dennoch können nicht alle Unzulänglichkeiten „ repariert “ werden, indem ein in manchen Beständen vorkommendes erweitertes Zeichenrepertoire in die Erläuterungen zum Transkriptionssystem aufgenommen wird, Originalbelege um nivellierte Belege ergänzt werden oder man auf das Potential der Darstellung in einem Sprachatlas setzt. Manches muss wohl auch ungelöst bleiben. Im Einzelfall kann darüber aber weitgehend hinweggesehen werden, denn Forschungsfragen werden sich immer an dem orientieren, was das Material hergibt. Strübing et al. nennen das „ multiple Passungsverhältnisse “ . Der Untersuchungsgegenstand wird demgemäß nicht nur durch „ eine Passung der Methode auf den zu untersuchenden Gegenstand “ konstituiert, sondern durch „ eine Abgestimmtheit von Theorie, Fragestellung, empirischem Fall, Methode und Datentypen “ (Strübing et al. 2018: 86). Insofern sind die meisten der genannten Probleme zwar theoretisch vorhanden, in der Praxis dann aber nicht relevant, wenn man den Untersuchungsgegenstand als Antwort auf das vorhandene Material versteht. Man kann also mit Strübing et al. zusammenfassend und auf den Begriff der ‚ Gegenstandsangemessenheit ‘ rekurrierend festhalten, dass [d]ie erste Aufgabe der Forschung [ … ] daher in der ständigen Reformulierung und Fokussierung der Fragestellungen [besteht]: ihrer empirischen Anpassung an den Fall, ihrer theoretischen Modifikation aufgrund erster Analysen [ … ], um nicht eine Fragestellung am falschen Fall zu untersuchen. (Strübing et al. 2018: 86) „ Gut “ ist das Material also dann, wenn die Passungsverhältnisse gut sind. 10 Das soll heißen, es ist irrelevant, ob die einzelnen Vokalöffnungsgrade tatsächlich in den vermeintlich ablesbaren Graden voneinander abweichen. Relevant sind aber große Unterschiede bei Öffnungsgraden, bei Realisierungen von Stimmhaftigkeit, Intensität, Monophthongen vs. Diphthongen oder bei Rundungen. Wann ist „ gut “ gut? 309 Literaturverzeichnis Primärliteratur Bauer, Werner. 1974. Charakteristika zur Ortsaufnahme der Gemeinde Kirchberg in Tirol. Tiroler Dialektarchiv. Inv.-Nr. 4090-0. Gabriel, Eugen. 1970/ 71. Ortsaufnahme der Gemeinde Matrei in Osttirol. Tiroler Dialektarchiv. Inv.-Nr. 7170-0. Gabriel, Eugen. o. J. Charakteristika zur Ortsaufnahme der Gemeinde Fulpmes. Tiroler Dialektarchiv. Inv.-Nr. 3100-0. Osl, Günter. 1984 a. Charakteristika zur Ortsaufnahme der Gemeinde Alpbach. Tiroler Dialektarchiv. Inv.-Nr. 5010-0. Osl, Günter. 1984 b. Ortsaufnahme der Gemeinde Alpbach. Tiroler Dialektarchiv. Inv.- Nr. 5010-0. Osl, Günter. o. J. a. Charakteristika zur Ortsaufnahme der Gemeinde Brandenberg. Tiroler Dialektarchiv. Inv.-Nr. 5040-0. Osl, Günter. o. J. b. Ortsaufnahme der Gemeinde Brandenberg. Tiroler Dialektarchiv. Inv.- Nr. 5040-0. Schabus, Wilfried. 1974. Charakteristika zur Ortsaufnahme der Gemeinde Bruck am Ziller. Tiroler Dialektarchiv. Inv.-Nr. 9040-0. Schabus, Wilfried. 2001 a. Charakteristika zur Ortsaufnahme der Gemeinde Untertilliach. Tiroler Dialektarchiv. Inv.-Nr. 7330-0. Schabus, Wilfried. 2001 b. Ortsaufnahme der Gemeinde Untertilliach. Tiroler Dialektarchiv. Inv.-Nr. 7330-0. Spiegl, Silvia. 1986 a. Charakteristika zur Ortsaufnahme der Gemeinde Axams. Tiroler Dialektarchiv. Inv.-Nr. 3040-0. Spiegl, Silvia. 1986 b. Charakteristika zur Ortsaufnahme der Gemeinde Ranggen. Tiroler Dialektarchiv. Inv.-Nr. 3430-0. Spiegl, Silvia. 1986 c. Ortsaufnahme der Gemeinde Ranggen. Tiroler Dialektarchiv. Inv.- Nr. 3430-0. Spiegl, Silvia. 1988 a. Charakteristika zur Ortsaufnahme der Gemeinde Schönberg im Stubaital. Tiroler Dialektarchiv. Inv.-Nr. 3500-0. Spiegl, Silvia. 1988 b. Ortsaufnahme der Gemeinde Schönberg im Stubaital. Tiroler Dialektarchiv. Inv.-Nr. 3500-0. Spiegl, Silvia. 1989 a. Charakteristika zur Ortsaufnahme der Gemeinde Achenkirch. Tiroler Dialektarchiv. Inv.-Nr. 9010-0. Spiegl, Silvia. 1989 b. Ortsaufnahme der Gemeinde Achenkirch. Tiroler Dialektarchiv. Inv.- Nr. 9010-0. Spiegl, Silvia. 1989 c. Charakteristika zur Ortsaufnahme der Gemeinde Steinach am Brenner. Tiroler Dialektarchiv. Inv.-Nr. 3550-0. Spiegl, Silvia. 1989 d. Ortsaufnahme der Gemeinde Steinach am Brenner. Tiroler Dialektarchiv. Inv.-Nr. 3550-0. 310 Yvonne Kathrein Sekundärliteratur Gabriel, Eugen. 1985. Einführung in den Vorarlberger Sprachatlas. Mit Einschluß des Fürstentums Liechtenstein, Westtirols und Allgäus (VALTS). Bregenz: Vorarlberger Landesbibliothek. Gschösser, David. 2017. Die südbairisch-mittelbairischen Lautgrenzen im Tiroler Unterland. Bisherige Darstellung und Neuerhebung. Unpubl. Masterarbeit. Innsbruck. Gschösser, David & Yvonne Kathrein. 2019. Die Digitalisierung der Bestände des Tiroler Dialektarchivs. Ein Werkstattbericht zum vorläufigen Projektende. Colloquium - New Philologies 4 (2). 52 - 84. Hotzenköcherle, Rudolf. 1962 a. Einführung in den Sprachatlas der deutschen Schweiz. A: Zur Methodologie der Kleinraumatlanten. Bern: Francke. Hotzenköcherle, Rudolf. 1962 b. Einführung in den Sprachatlas der deutschen Schweiz. B: Fragebuch. Transkriptionsschlüssel. Aufnahmeprotokolle. Bern: Francke. König, Werner. 1988. Zum Problem der engen phonetischen Transkription. Schwierigkeiten und Fehlerquellen am Beispiel von deutscher Substandard-Lautung. ZDL 55 (2), 155 - 178. König, Werner & Jürgen Erich Schmidt & Brigitte Ganswindt. 2016. „ Es darf nicht über Exploratoren geschimpft werden! “ ZDL 83 (2). 193 - 207. Kramer, Ulrike. 2009. Zur Geschichte des Transkriptionssystems Teuthonista. Online: https: / / www.yumpu.com/ de/ document/ read/ 24894161/ zur-geschichte-des-transkrip tionssystems-teuthonista (zuletzt aufgerufen am 21.10.2020) Kranzmayer, Eberhard. 1956. Historische Lautgeographie des gesamtbairischen Dialektraumes. Mit 27 Laut- und 4 Hilfskarten in besonderer Mappe. Graz - Köln: Hermann Böhlaus Nachf. Lenz, Philipp. 1900. Unsere Lautschrift. Zeitschrift für hochdeutsche Mundarten 1, 6 - 8. Lenz, Philipp. 1906. Unsere Lauschrift. Zeitschrift für Deutsche Mundarten 1, 5 - 6. Seidelmann, Erich. 1993. Das Transkriptionssystem. In Hugo Steger & Volker Schupp (Hrsg.), Einleitung zum Südwestdeutschen Sprachatlas I, 61 - 78. Marburg: Elwert. Strübing, Jörg, Stefan Hirschauer, Ruth Ayaß, Uwe Krähnke & Thomas Scheffer. 2018. Gütekriterien qualitativer Sozialforschung. Ein Diskussionsanstoß. Zeitschrift für Soziologie 47 (2). 83 - 100. Teuchert, Hermann. 1924/ 25. Lautschrift des Teuthonista. Teuthonista. Zeitschrift für deutsche Dialektforschung und Sprachgeschichte 1, 5. Wann ist „ gut “ gut? 311 Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke Abstract: Der Beitrag behandelt die Reliabilität von Transkripten, indem die Übereinstimmung von Transkriptionsentscheidungen verschiedener Transkribent*innen zum gleichen Interaktionsdokument in Bezug auf die prosodischen Merkmale Gliederung, Akzentuierung und Endmelodieverlauf als Inter-Annotator-Agreement anhand des Koeffizienten Krippendorffs Alpha ermittelt wird. Die Auswahl der Merkmale ist bestimmt von ihrer Relevanz für die grundlegenden Notationskonventionen nach GAT 2 sowie von der bereits anderweitig konstatierten Schwierigkeit ihrer Transkription. Die explorative Vorstudie soll die Eignung eines solchen Vorgehens innerhalb des Rahmens der gesprächsanalytischen Transkription authentischer Interaktion prüfen. Im Hinblick auf die Anwendung können Schlussfolgerungen für Fragen der Qualität von Transkription als Teil professioneller Praxis sowie für weitere Forschung angedeutet werden. Keywords: Inter-Annotator-Agreement, Reliabilität, Reproduzierbarkeit, Prosodie, Qualität von Transkription 1 Einleitung „ Wenn wir ein und dasselbe Datum fünf gut geschulten Transkribent_innen geben, erhalten wir am Ende fünf verschiedene Transkripte. “ (Breuer et al. 2014: 174) - so formuliert es zugespitzt der Interaktionsforscher Arnulf Deppermann in einer Podiumsdiskussion über Daten qualitativer Forschung und die Qualität von Transkripten. Er verweist darauf, dass die Reliabilität von Transkripten innerhalb gesprächsanalytischer Forschungsprozesse bislang zu wenig berücksichtigt worden ist. Im vorliegenden Beitrag wird Reliabilität im Sinne von Zuverlässigkeit und Konsistenz der Transkripte auf der Basis der zugrundeliegenden Entscheidungen sowie von deren Reproduzierbarkeit verstanden, was die Übereinstimmung der Urteile verschiedener Transkribent*innen in den Fokus rückt. Die Übereinstimmung von Transkripten verschiedener Transkribent*innen zum gleichen Interaktionsdokument ist nicht häufig Gegenstand methodisch-methodologischer Überlegungen und wird je nach disziplinärem Hintergrund als kaum herstellbar angesehen. Das gilt insbesondere für die Prosodie-Transkription (z. B. Selting 2001: 1066). Die Frage nach der Übereinstimmung von Transkriptionen gewinnt jedoch aus mehreren Gründen an Relevanz: Wenn beispielsweise mehrere Transkribent*innen am gleichen Datum arbeiten, wie es für das Arbeiten in größeren Projektzusammenhängen zutrifft, oder wenn der Konnex von Datenerheber*in und Datennutzer*in aufgehoben ist, wie es typisch ist für die Zweitbzw. Nachnutzung von Daten und Korpora durch ihre Archivierung und Verfügbarmachung in Forschungsdatenbanken (z. B. Hedeland i. d. Bd.; für eine Anwendung: Schmidt & Hedeland 2012). Weitere Gründe sind technologische Weiterentwicklungen wie Digitalisierung, maschinelle Transkription (z. B. Moore 2015) oder die maschinelle Lesbarkeit sowie Auswertung von Daten, die wiederum einhergeht mit der Weiterentwicklung korpuslinguistischer Zugänge auch für die Gesprächsforschung. Es sind also zunächst die technologischen und forschungsorganisatorischen Veränderungen des Forschungsprozesses selbst, die eine (erneute) Beschäftigung mit dem Thema der Beurteilerübereinstimmung erforderlich werden lassen. Der vorliegende Beitrag rückt dieses Thema in den Mittelpunkt. Den konzeptuellen Rahmen bildet die Gesprächsforschung (z. B. Birkner et al. 2020; Deppermann 2008), deren Transkriptionsgegenstand authentische Interaktion ist. Anwendungsbezogen geht es um die Qualität von Transkripten in solchen Transkriptionsprozessen; geprüft wird die Übereinstimmung der Urteile von Transkribent*innen in Bezug auf die prosodischen Merkmale Gliederung, Akzentuierung und Endmelodieverlauf. Für die Untersuchung wurden diese Merkmale ausgewählt, da sie für die gesprächsanalytische Transkription nach den Konventionen des weit verbreiteten Gesprächsanalytischen Transkriptionssystems 2 (GAT 2; Selting et al. 2009) zu den grundlegenden Notationskonventionen gehören; zudem wird die Transkription dieser Merkmale häufig als schwierig markiert. Darüber hinaus scheinen sie ebenfalls für andere Bereiche wie die Prosodieforschung (z. B. Breen et al. 2012; Kügler et al. i. d. Bd.) oder anwendungsbezogene Hörverstehensforschung im Bereich der Radioforschung (z. B. Bose et al. 2011: 41; Schwenke 2020) oder typologische Forschung von besonderem Interesse zu sein. Die Messung des Inter-Annotator-Agreements erfolgt anhand eines eigens dafür aufbereiteten Datensatzes. Die Begründung für das Vorgehen folgt Art- Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 313 stein (2017: 298), der diesen Zusammenhang so auffasst: „ Agreement among annotators → demonstrates reliable annotation process → necessary but not sufficient for correct annotations. ” Allerdings fokussieren wir entsprechend dem konzeptuellen Rahmen nicht korrekte Annotationen als Ziel, sondern reproduzierbare, wiederholbare und übereinstimmende Transkriptionsentscheidungen - die Diskussion, ob es innerhalb der Prosodietranskription „ korrekte Annotationen “ gibt, können wir an dieser Stelle aus Gründen der Schwerpunktsetzung nicht führen, da sie zu weit führt. Transkribieren an sich ist „ decision-making “ (Ayaß 2015: 509) und daher sind Transkriptionsentscheidungen über prosodische Merkmale in der gesprochenen Sprache kategorielle Zuordnungen, die auf prosodischer Theorie basieren. Annotation und Transkription sind nicht trennscharf voneinander abgegrenzt. Beiden gemeinsam ist, dass sie Entscheidungshandlungen einschließen. Wir verstehen Annotation als Oberbegriff, der alle beschreibenden und analytischen linguistischen Anreicherungen und Bezeichnungen der Primärdaten umfasst und Transkription als Spezialfall subsumiert (s. auch Bird & Liberman 2001: 26; Dittmar 2009: 165; Ide 2017: 2; Kügler et al. i. d.Bd. und Trouvain & Werner i. d.Bd.). Da wir uns innerhalb des gesprächsanalytischen Rahmens bewegen, sprechen wir im Folgenden jedoch von Transkription. Die präsentierte Vorstudie hat explorativen und experimentellen Charakter. Die Relevanz solcher Überlegungen ist aus unserer Sicht schwerlich zu bestreiten, denn auch wenn Transkripte als stark theoriebezogen (Psathas & Anderson 1990), selektiv und interpretativ, multimodale Transkripte im Besonderen als analytische Ergebnisse gelten (Mondada 2016: 113), bleibt die Forderung nach Transparenz und Nachvollziehbarkeit bestehen, die wiederum die Reproduzierbarkeit von Ergebnissen nach sich zieht. Das ist auch aus unserer Sicht bislang für Transkriptionsprozesse zu wenig beachtet worden. Der Beitrag verfolgt zwei Ziele: Erstens soll in einem explorativen Zugriff die Qualität von Transkriptionsentscheidungen bezüglich bestimmter Parameter anhand des Indikators Übereinstimmung der Urteile näher betrachtet werden. Dabei geht es nicht um exakt wiederholbare Transkripte in toto. Vielmehr geht es um Inter-Annotator-Agreement als die Übereinstimmung in den Entscheidungen mehrerer Transkribent*innen zum gleichen Zeitpunkt und zum gleichen Datum bezogen auf einzelne, gezielt ausgewählte Merkmale. Aus den verschiedenen möglichen Koeffizienten ist begründet Krippendorffs Alpha ausgewählt worden, um so Inter-Annotator-Agreement zu messen und daraus Aussagen zur Reliabilität ableiten zu können. Ob und inwieweit die Anwendung von Krippendorffs Alpha auf solche Datensätze und Fragen sinnvoll und vor allem erkenntnisfördernd ist, soll erprobt und, einschließlich der Anpassungsmöglichkeiten für eine experimentelle Durchführung, diskutiert werden. Zwei- 314 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke tens zielt der Beitrag auf eine Anwendung für gesprächsanalytische Fragestellungen. Denn aus den berechneten Übereinstimmungsmaßen können - mit aller Vorsicht - Konsequenzen für die Transkription als einem Teil der professionellen Praxis gezogen werden. Zur Struktur des Beitrags: Zuerst wird in Abschnitt 2 der theoretische Ausgangspunkt erörtert, innerhalb dessen wir unsere Überlegungen verorten. In Abschnitt 3 werden die für die Messung von Inter-Annotator-Agreement verwendeten Daten, also das Ausgangsmaterial und seine Aufbereitung, sowie die verwendete Methode vorgestellt. Die Ergebnisse der Messung des Inter- Annotator-Agreements mittels des Koeffizienten Krippendorffs Alpha für drei prosodische Merkmale werden in Abschnitt 4 präsentiert. Abschließend werden im Abschnitt 5 die Ergebnisse diskutiert und die Schlussfolgerungen aus der Messung der Übereinstimmung im Hinblick auf Reliabilität und Reproduzierbarkeit der Transkription bzw. die Annotation dieser Merkmale im Rahmen gesprächsanalytischer Transkription diskutiert. 2 Theoretischer und methodologischer Ausgangspunkt Zugrunde legen wir die in der Gesprächsbzw. Konversationsanalyse verbreitete Auffassung, wonach sich der Prozess der Transkription von Daten authentischer Interaktion durch eine Transformation der ursprünglichen Materialität des flüchtigen audio- oder videographierten Materials unter Nutzung von definierten Symbolen und Notationskonventionen in eine schriftliche Fixierung auszeichnet (z. B. Ayaß 2015; Birkner et al. 2020; Deppermann 2008; Deppermann & Schütte 2008; Dittmar 2009; Gülich & Mondada 2008; Hepburn & Bolden 2017; Jenks 2013; Ochs 1979; Psathas & Anderson 1990; Selting 2001). Auf diese Weise werden Daten für analytische Zwecke zugänglich und nutzbar gemacht. Transkripte sind nicht als objektive Repräsentationen von Daten anzusehen (zu dieser Diskussion: z. B. Ashmore & Reed 2000; Ayaß 2015; Deppermann & Schütte 2008: 205). Vielmehr sind sie analytisch-interpretative Datenkonstruktionen, die abhängig vom Ziel und den Fragen der Untersuchung gestaltet sind, in die die Transkription eingebettet ist (z. B. Selting 2001: 1060), und die nicht die Analyse vorwegnehmen dürfen. Konsens besteht darin, dass dieser Prozess für alle annotierten bzw. transkribierten Ebenen sowie für einzelne Merkmale theoriegeleitet ist, das heißt, dass jede Zuordnung Bedeutung hat und kategorielle Zuordnungen theoriebasiert sind. Transkribieren als Forschungsaktivität ist jedoch nicht nur als analytische, sondern auch als „ professionelle und standardisierte Praxis “ bestimmbar (Gülich & Mondada 2008: 33; s. a. Lapadat & Lindsay 1999). Manifestationen dieser Praxis sind zum einen überindividuell wie die Herausbildung bestimmter disziplinbe- Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 315 zogener Konventionen (wie bspw. die Nutzung von GAT 2 oder des Systems HIAT nach Ehlich & Rehbein 1976). In individueller Perspektive geht es um die erworbene Kompetenz der Transkribent*innen und deren professionelles Handeln innerhalb dieser Praxis, das ein Bündel von Fähigkeiten umfasst wie geschultes Sehen und Hören, Kenntnis und präzise Anwendung von Notationskonventionen, vielfältige Technologienutzung, den funktions- und adressatenspezifischen Einsatz von Transkripten (Spiegel 2009) und nicht zuletzt die Fähigkeit zur diskursiven Intersubjektivierung von Transkriptionsentscheidungen in Datensitzungen (Schwarze 2014; s. a. Imo & Lanwer 2019: 92). Unterstrichen wird, dass Transkribieren erlernt werden muss (z. B. Ayaß 2015: 510), denn es ist „ eine Tätigkeit, die wissenschaftliche Ausbildung und beständige Reflexion, ja Interpretation verlangt “ (Redder 2001: 1038). Redder rechnet Transkribieren zu den „ wissenschaftlichen Arbeitstechniken empirischer Kommunikationsforschung “ (ebd.: 1038). Dittmar (2009: 9) sieht Transkribieren als Handwerk an, das durch Handeln ( „ transcription by doing “ ) erlernt sowie durch „ hörsportliches Training “ (Dittmar 2009: 52) verfeinert wird. Auch Kowal & O ’ Connell (2014: 66) betonen den Einfluss der individuellen Kompetenz und die Notwendigkeit von Training. Dieser Einflussfaktor ist in phonetischer Perspektive auf Transkription lange bekannt und als Gegenstand bearbeitet worden (z. B. Vieregge 1989: 55). Die professionelle Fähigkeit zum Hören und die analytische Genauigkeit sind eng miteinander verwoben. Analytisches Hören, also „ die Fertigkeit, Sprechereignisse mit Hilfe des Gehörs segmental und suprasegmental mit Hilfe von Beurteilung, Skalierung und Transkription in Merkmale und Merkmalskomplexe zu zerlegen “ (Vieregge 1996: 1; s. a. Vieregge 1989: 20), zeichnet trainierte Hörer*innen aus und muss in spezifischer Weise und für unterschiedliche Zwecke sowie Bereiche trainiert werden. Insbesondere bleibt ein „ semantischer Rest “ (Vieregge 1989: 21) im analytischen Hören, auch wenn sich das Training der Aufmerksamkeit auf die Zerlegung der Formseite richtet. Da analytisches Hören immer nur einen relativen, keinen absoluten Status beanspruchen kann, wird in diesen Arbeiten (z. B. Bose 2003 a: 127; Vieregge 1996: 35) für die Arbeit in Hörer*innengruppen im Transkriptionsprozess sowie für wiederholtes Arbeiten plädiert, um die intra- und intersubjektive Übereinstimmung in Transkriptionsentscheidungen zu gewährleisten und zu prüfen. In eine ähnliche Richtung - mit dem Fokus auf Übung - zielt der Vorschlag von Bergmann & Mertzlufft (2009) für gesprächsanalytische Transkriptionsprozesse. Als zentral sehen sie die Segmentierung gesprochener Sprache an und fragen, „ anhand welcher Kriterien die Segmentierung vorzunehmen ist. Häufig wird dieses Problem gelöst, indem auf Intuition beruhende (und somit von Person zu Person divergierende Parameter) angewendet werden “ (Bergmann & 316 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke Mertzlufft 2009: 83). Um diesem Problem zu begegnen, legen sie einen didaktisch aufbereiteten Leitfaden vor, der in einem mehrstufigen Verfahren das Üben der Segmentierung von Intonationsphrasen anhand ihrer prosodischen Eigenschaften mit den Zielen der auditiven Sensibilisierung und Routinisierung der Transkribent*innen beinhaltet. Selting (2001) schlägt die „ Erstellung multipler unabhängiger Transkriptionen ” vor, bei der mehrere Transkribent*innen dasselbe Datum transkribieren und zu einem späteren Zeitpunkt ihre Entscheidungen mit dem Ziel der Vereinheitlichung der Anwendungskriterien diskutieren. Sie setzt das in den Kontext von Reliabilität und stellt als Vorteil heraus: „ Dieses Verfahren steigert die Sensibilität der Transkribierenden und erhöht die Zuverlässigkeit der Transkriptionen “ (Selting 2001: 1067). Insbesondere kooperatives Transkribieren und der Vergleich verschiedener Transkripte könnten „ Konsistenz- und Zuverlässigkeitsprobleme aufdecken und einer Lösung näherbringen “ Selting (2001: 1066). Ähnlich formuliert es Dittmar (2009: 162) und fasst „‚ Reliabilität ‘ [als] eine Funktion des Konsenses voneinander unabhängig verschriftlichender Transkribenten. Je mehr ‚ Korrekturtranskribenten ‘ die Ersttranskription gegenlesen und zu einvernehmlichen Korrekturen gelangen, desto ‚ reliabler ‘ ist die Transkription. “ Ihm zufolge kann allerdings diese „‚ Konsens ‘ -Qualität [ … ] in der Regel nicht quantifiziert werden. “ Empirisch geprüft werden sollten diese Positionen in jedem Fall, um danach gegebenenfalls modifiziert und konkreter gefasst werden zu können. Mit der Frage nach der Zuverlässigkeit sind auch Fragen nach der Qualität des Transkriptionsprozesses adressiert, dazu gehören angemessene Granularität, Deskriptivität, Robustheit, Lesbarkeit und Reliabilität des Transkripts (Breuer et al. 2014: 273 ff.; s. a. Deppermann & Schütte 2008). Die Gütekriterien lassen sich an jede einzelne Komponente anlegen, in die der Transkriptionsprozess zerlegbar ist (Kowal & O ’ Connell 2012: 438). Aus unserer Sicht sind das: • das Ausgangsmaterial und seine Eigenschaften • die transkribierenden bzw. annotierenden Personen, ihre Geschultheit und ihre Entscheidungen • das Transkript als Produkt des Prozesses und als Resultat von Transkriptionshandlungen • die Leitlinien der Transkriptionskonventionen bzw. das Transkriptionssystem • die Auswahl der zu transkribierenden Merkmale und deren Eigenschaften • der Umgang mit und die Interpretation von Schwierigkeiten im Prozess • die Leser*innen bzw. Nutzer*innen eines Transkripts Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 317 Für Fragen nach Reliabilität und Beurteilerübereinstimmung sind nicht alle Komponenten gleichermaßen relevant, vielmehr sind die Transkribierenden und ihre Aktivitäten und Entscheidungen in den Fokus zu setzen. Zugleich ist zu fragen, was das für die Transkription der untersuchten Merkmale heißt, denn kennzeichnend für die Transkription prosodischer Merkmale ist die Kategorisierung innerhalb eines Kontinuums. Hier setzen die Überlegungen zum Inter- Annotator-Agreement an und fokussieren, wie zuverlässig, robust und durch verschiedene Transkribent*innen wiederholbar ein Transkript ist, indem die Beurteilerübereinstimmung gemessen und daraus Reliabilität abgeleitet wird: „ To be clear, agreement is what we measure; reliability is what we wish to infer from it “ (Krippendorff 2004: 414). Unter der Bedingung der Ähnlichkeit von Annotationsaufgaben und ihren je eigenen Herausforderungen (wie z. B., dass Beurteilungsentscheidungen von Menschen getroffen werden, dass das Material uneindeutig ist sowie unterschiedliche Skalierungen der annotierten Merkmale anzulegen sind) kann es interessant und wichtig sein, methodische Instrumente aus benachbarten Disziplinen einzubeziehen. So werden für die Bedarfe des Annotierens und Kodierens eine Reihe von statistischen Maßen zur Einschätzung der Reliabilität zweier oder mehrerer Beurteiler*innen verwendet wie z. B. Raw Percentage Agreement, Cohens Kappa, Fleiss ’ Kappa, Krippendorffs Alpha u. a. Einen Überblick über die verschiedenen Koeffizienten und ihre Anwendung geben z. B. Artstein & Poesio (2008), Krippendorff (2004) und McHugh (2012). Eine Diskussion der Koeffizienten für verschiedene fachliche Fragestellungen führen z. B. Shriberg & Lof (1991) aus klinischer Perspektive mit dem Fokus auf Phonetik und segmentale Transkription; Vieregge & Hettinga (1999: 32) aus phonetischer Perspektive mit dem Fokus auf phonetisch-segmentale Fragen; O ’ Connell & Kowal (1999) aus psycholinguistischer Perspektive integriert in Überlegungen zur Standardisierung von Transkription sowie Artstein & Poesio (2008), Artstein (2017), Brezina (2018) für korpuslinguistische Bedarfe oder Breen et al. (2012) für das Evaluieren von Prosodie-Notationssystemen. Gorisch (2012: 75) bestimmt Inter-Rater-Agreement mittels Cohens Kappa im Rahmen einer konversationsanalytisch-prosodischen Arbeit. Für unser Erkenntnisinteresse ist der von Krippendorff (2004, 2011 a, 2019) im Rahmen der Inhaltsanalyse (content analysis) vorgeschlagene Alpha-Koeffizient interessant, der weithin Nutzung erfährt (z. B. Raupp & Vogelgesang 2009 für Medienresonanzanalysen; s. a. Oleinik et al. 2014). Dieser Koeffizient ist aus verschiedenen Gründen insbesondere für die Prosodie-Transkription geeignet (Krippendorff 2019: 291): Er korrigiert die beobachteten Übereinstimmungen im Hinblick auf Zufälligkeit, ist unabhängig von der Anzahl der Werte für eine kodierte Variable und von der Häufigkeit der einzelnen Kategorie im Datensatz, 318 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke kann für jegliche Anzahl von Annotator*innen und für ungleich große Datensätze angewendet werden. Darüber hinaus passt er verschiedene Metriken an, d. h. er erlaubt, Übereinstimmung sowohl von nominalskalierten (kategoriellen) wie ordinalskalierten (rangbasierten) als auch von intervall- und verhältnisskalierten Beurteilungsvariablen zu berechnen. Außerdem kann der Algorithmus mit fehlenden Werten gut umgehen. Die Interpretation hinsichtlich der Art der Skalierung ist durchaus nicht trivial, weil mitunter ein Kontinuum assoziiert wird, wo lediglich eine Aneinanderreihung der Ausprägungsmöglichkeiten besteht, ohne dass eine Reihenfolge zwingend wäre. Entscheidend für die Übereinstimmungsmessung ist unbestritten die Beschaffenheit des Datensatzes, die im Folgenden dargestellt wird. 3 Daten und Methode 3.1 Ausgangsmaterial und Daten Dem Datensatz, anhand dessen Inter-Annotator-Agreement gemessen wurde, liegt Material zugrunde, das einem authentischen Prüfungskontext entstammt und das zunächst beschrieben wird. Danach werden die Bearbeitungsschritte erläutert, die für die Umwandlung des Materials in verwendbare Daten nötig waren; abschließend werden die Daten selbst vorgestellt. Das Ausgangsmaterial ist folgendermaßen entstanden: Transkribiert haben 24 Studierende (L1 Deutsch; 6. Semester) eines B. A. Sprechwissenschaft im Rahmen der Prüfungsleistung einer konkreten Lehrveranstaltung, die Fragen der Gesprächsnotation zum Gegenstand hatte. Die Ausbildung in diesem B. A. Sprechwissenschaft ist kontinuierlich auf die Schulung und Optimierung analytischer Kompetenz zur Beschreibung und Wahrnehmung gesprochener Sprache ausgerichtet und fokussiert Eigen- und Analysekompetenz in Bezug auf die sprecherische Gestaltung unterschiedlicher Genres, Ausbildung im analytischen Hören sowie Übungen zur segmentalen und suprasegmentalen Transkription gesprochener Sprache. Die Studierenden sind demzufolge sensibilisiert auf die Formseite des Sprechens und darüber hinaus theoretisch und praktisch sowohl mit der sprechwissenschaftlichen Prosodienotation (Bose 2003 a; Neuber 2002; Stock 1980, 1996 a, 1996 b) als auch mit dem Transkriptionssystem GAT 2 (Selting et al. 2009) vertraut. Aufgrund ihrer strukturierten Ausbildung können sie zum Zeitpunkt der Prüfungsleistung als mittelgradige Expert*innen angesehen werden. In der Prüfungssituation wurde zeitgleich, aber unabhängig voneinander dasselbe authentische Audiomaterial innerhalb von 75 Minuten auditiv transkribiert. Die reichliche Zeitvorgabe mit 75 Minuten für 45 Sekunden Audioaufnahme (s. unten) erlaubte eine angemessene Bewältigung der Aufgabe. Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 319 Die Transkription wurde in Praat-Annotationsdateien (Textgrids; Boersma & Weenink 2021) vorgenommen und folgte grundsätzlich den Konventionen des Basistranskripts von GAT 2. Allerdings wurden dabei zwei Veränderungen vorgenommen, die einerseits sprechwissenschaftlich fachgeschichtlich durch die Orientierung an didaktisch motivierten Notationskonventionen zur Beschreibung von Vorleseleistungen begründet sind (z. B. Bose 2003 b) und sich andererseits von Analysemethoden aus aktuellen sprechwissenschaftlichen Forschungen zum Sprechen im Radio ableiten (z. B. Bose et al. 2011: 45; Schwenke 2020: 379): 1. Segmentierung in prosodische Einheiten Der Ausschnitt wurde mit dem Vermerk von Gliederungseinschnitten in turninterne prosodische Einheiten segmentiert. Selting et al. (2009: 370) betonen in der GAT 2-Einführung, dass für die Segmentierung allein die Prosodie ausschlaggebend ist und dass es „ eine Reihe fakultativer (optionaler) Grenzsignale “ gibt, die jeweils unterschiedlich stark phonetisch ausgeprägt sein können (s. a. Bergmann & Mertzlufft 2009). Bei der Segmentierung fokussiert GAT 2 aber den Tonhöhenverlauf, was auch im Terminus „ Intonationsphrase “ zum Ausdruck kommt (mit Angabe der Tonhöhenbewegung am Einheitenende in fünf Stufen). Bei der Transkription von Gliederungseinschnitten im vorliegenden Fall wurden neben dem Nachakzent-Tonhöhenverlauf am Ende der Einheit auch andere kookkurrent auftretende prosodische Merkmale berücksichtigt, z. B. Veränderungen in Sprechgeschwindigkeit, Lautheit und Sprechspannung, Stimmklang (zur komplexen Signalisierung der Grenzen prosodischer Einheiten vgl. z. B. auch Auer 2010; Barth-Weingarten 2016, 2013). Die so identifizierten prosodischen Einheiten sind darüber hinaus als prosodisch abgeschlossen (||) oder nicht-abgeschlossen (|), also eine Ergänzung bzw. Vervollständigung erwarten lassend, beurteilt worden (Stock 1980; s. a. Bose 2003 a; Barth-Weingarten 2016, 2013). Damit wurden Gliederungseinschnitte verschiedener (inhaltlich-semantisch-prosodischer) Tiefebzw. Abgeschlossenheitsgrade markiert (Bose 2003 a). 2. Erfassung von Akzentsilben ohne semantisch-pragmatische Differenzierung Innerhalb der prosodischen Einheiten wurden die akzentuierten Silben bestimmt. Selting (2001: 1066) stellt hierzu fest: „ In der gesprochenen Sprache werden akzentuierte Silben i. d. R. mit Hilfe einer Kombination der Parameter Tonhöhenbewegung und/ oder Lautstärke und/ oder Länge gegenüber unakzentuierten Silben hervorgehoben “ . Auch hier handelt es 320 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke sich also um Entscheidungen, die auf die Markierung von Komplexsignalen verweisen. Anders als in GAT 2 vorgesehen, wurde auf die semantischpragmatische Differenzierung von Fokus- und Nebenakzenten verzichtet; alle Akzente wurden gleichermaßen durch Großschreibung der Akzent tragenden Silbe transkribiert. Die Studierenden hatten allerdings die Möglichkeit, phonetisch besonders starke Akzente bzw. emphatische Akzentstärken zu markieren (wie in GAT 2). Das in der Prüfungssituation zu transkribierende Audiomaterial ist ein authentischer Ausschnitt aus einer Doppelmoderation einer Radio-Morningshow (Radiosender Bremen vier vom 21.12.2012) mit einer Dauer von 45 Sekunden. Die Aufnahme ist Bestandteil eines Audiokorpus (Finke 2019: 109 ff.), das Mitschnitte von 78 Sendungen der morgendlichen Radio-Primetime (06: 55 bis 09: 05 Uhr) von deutschen, österreichischen, schweizerischen sowie britischen Radiosendern enthält. Im verwendeten Ausschnitt interagieren eine Moderatorin (M1) und ein Moderator (M2) miteinander und es kommt mehrfach zum Sprecherwechsel. Unter der Moderation liegt durchgängig ein dynamisches Musikbett, also „ ein meist speziell angefertigte[s] [ … ] instrumentales Musikstück, das in Schleife als Unterlegmusik für die Moderationen [ … ] eingesetzt wird ” (Overbeck 2009: 349). Die Berechnung des Inter-Annotator- Agreements bezieht sich auf eine Sequenz von 24,12 Sekunden. Diese Sequenz umfasst das Mikrothema Weihnachtsferien: Ausgehend vom Sendetag, der der letzte Schultag vor Weihnachten und somit vor den Ferien ist, erinnern sich beide Moderator*innen an ihre eigenen Weihnachtsferien, die sie als Schüler*innen erlebt haben, und nutzen dies zu einer kurzen Erzählung, deren Wortlaut im folgenden Abschnitt zu sehen ist (Audio ► eContent_BO_a). Wörter 01 - 06 M2 es ist auch der letzte schultag 07 M1 ja 08 - 15 M2 ah und da habt ihr zwei wochen ferien 16 - 37 M1 oh wie schön oh und dann mit weihnachtsbaum und allem ich glaube die weihnachtsferien sind immer die schönsten im ganzen jahr oder 38 - 50 M2 ja und die gefielen mir auch am besten besser als die sommerferien weil 51 - 52 M1 ja ja 53 - 95 M2 sommerferien ist man dann meistens weggefahren und dann hat man seine schulfreunde irgendwie drei wochen nicht gesehen ähm naja die weihnachtsferien mocht ich auch da hast du immer viel zeit gehabt mit deinen geschenken so du denn welche gekriegt hast dich zu beschäftigen 96 - 100 M1 ja sehr gemütliche zeit so eContent_BO_a. wav Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 321 Da die täglich gesendeten Radio-Morningshows nicht eigens fürAnalysezwecke hergestellt sind, konnten weder die Aufnahmequalität gesteuert noch der Fokus auf transkriptionsrelevante Phänomene präzisiert werden, denn die zu untersuchenden prosodischen Merkmale sind nicht gleich verteilt. Es wurde also kein balanciertes Material genutzt. Dadurch ist möglicherweise die Aussagekraft der ermittelten Werte zur Übereinstimmungsüberprüfung nach Krippendorffs Alpha eingeschränkt, andererseits erlaubt das authentische Transkriptionssetting durchaus, Transkriptionsentscheidungen isoliert zu erheben und somit zu prüfen. Insofern ist das zugrundeliegende Material (Audioaufnahme und Transkripte) zweifach als authentisch bestimmbar und erfüllt damit Kriterien einer gesprächsanalytischen Transkriptionsaufgabe. Als Bestandteil der Daten zeigt Tabelle 1 die Transkriptionsentscheidungen für die Wörter 01 bis 06, gesprochen vom Moderator M2, die von allen Studierenden als erste prosodische Einheit bzw. erstes Segment transkribiert worden sind ( ► eContent_BO_b). Die Siglen T01 bis T24 bezeichnen das jeweilige Transkript. (Tonhöhensprünge und Melodie auf dem Akzent waren nicht obligatorisch zu transkribieren und sind deshalb hier auch nicht weiter beachtet worden.) T01 es is auch der LETZte SCHULtag ,|| T02 es IS auch der letzte ↑ SCHULtag .|| T03 es ist auch der LETZte ↑ SCHULtag ; || T04 es ist auch der LETZte ↑ SCHULtag ; || T05 es is AUCH der letzte ! SCHUL! tag -| T06 es is auch der letzte ↑ SCHULtag ; || T07 es IS auch der letzte ↑ SCHULtag .|| T08 es is auch der letzte ↑ SCHULtag ? || T09 es is auch der letzte ! ↑ SCHUL! tag-|| T10 es IS auch der letzte ! SCHUL! tag ; || T11 es is auch der letzte ↑ SCHULtag .|| T12 es is AUCH der letzte ! SCHUL! tag -| T13 es IS auch der letzte ↑ SCHULtag ; || T14 es IS auch der LETZte ↑ SCHUL ↓ tag ; || T15 es is auch der letzte ↑ SCHULtag -|| T16 es is auch der letzte ↑ SCHULtag ; | T17 es IS auch der LETZte ↑ SCHULtag ; || T18 es IS auch der letzte SCHULtag ; || T19 es IS auch der letzte ´SCHULtag ; || 322 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke T20 es is auch der letzte SCHULtag ,| T21 es IST auch der letzte SCHULtag .|| T22 es is auch der letzte ↑ SCHULtag ; || T23 es IS auch der letzte ↑ SCHUL ↓ tag || T24 es is auch der letzte ↑ SCHULtag .|| Tab. 1: Transkriptionsauszug 1 Wort 01 - 06 (Moderator M2); ► eContent_BO_b Um die Transkriptionsentscheidungen, die die diskutierten Merkmale Gliederungseinschnitt, Akzentuierung und Melodieverlauf vor Gliederungseinschnitten betreffen, zahlenmäßig erfassen und ihre Übereinstimmung berechnen zu können, wurde eine Kodiervorschrift erstellt (Tab. 2). Merkmal Erscheinungsform im Transkript Kode 1 Gliederungseinschnitt (GE) zwischen prosodischen Einheiten kein GE 0 GE nach prosodisch nicht abgeschlossener Einheit | 1 GE nach prosodisch abgeschlossener Einheit || 2 2 Akzentuierung kein Akzent 0 Akzent akZENT 1 besonders starker, emphatischer Akzent ak! ZENT! 2 3 Melodieverlauf vor Gliederungseinschnitt hoch steigend ? 1 steigend , 2 gleich bleibend - 3 fallend ; 4 tief fallend . 5 Tab. 2: Kodierung der Transkriptionsentscheidungen Um einen direkten Vergleich zu ermöglichen und das Auszählen zu vereinfachen, wurde ausgehend von den Einzeltabellen (pro Transkript) eine Tabelle pro Merkmal erstellt (Tab. 3): Ausgehend von der Gesamtheit der 24 Transkripte dient als Vergleichsgrundlage die maximal notierte Wortanzahl der betrachteten eContent_BO_b. wav Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 323 Moderationssequenz: n=100; orthografisch normalisiert in konsequenter Kleinschreibung (modifiziert nach Winterscheid et al. 2019). Falls ein Wort in einem Transkript nicht enthalten war, wurde 999 kodiert. Die Daten sind, in Abgrenzung zu multi-valued data, single-valued data, d. h. „ data in which each unit of analysis receives a unique description, one category or value from each variable of a coding instrument “ (Krippendorff 2019: 287). Für die Berechnung wurde R version 4.0.3 (2020-10-10; R Core Team 2020) und das Package icr (Staudt & L ’ Ecuyer 2020) verwendet. Wort Mod. Wortlaut orthografisch T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 01 M2 es 0 0 0 0 0 0 0 0 0 0 02 ist 1 1 0 0 0 0 1 0 0 1 03 auch 0 0 0 0 1 0 0 0 0 0 04 der 0 0 0 0 0 0 0 0 0 0 05 letzte 1 0 1 1 0 0 0 0 0 0 06 schultag 1 1 1 1 2 1 1 1 2 2 07 M1 ja 1 2 2 1 0 1 2 0 1 2 08 M2 ah 0 0 1 0 1 1 0 0 1 1 09 und 999 999 999 999 999 999 999 999 0 999 10 da 0 0 0 0 0 0 0 0 0 0 11 habt 0 0 0 0 0 0 0 0 0 0 12 ihr 0 0 0 0 0 0 0 0 0 0 13 zwei 1 1 1 1 1 1 1 1 2 1 14 wochen 1 0 0 0 0 0 0 0 0 0 15 ferien 1 1 1 1 1 1 1 1 1 1 Tab. 3: Tabellenauszug Wort 01-15 (Transkripte 1 bis 10); Kodierung der Akzentuierung Zugestimmt werden muss Kowal & O ’ Connell (2014: 70), die zur Transkription des Wortes als der core unit feststellen: „ Although this sounds like a straightforward task, in fact it is not. Before even turning to the different ways of putting spoken words on paper or on the screen, the question arises: What is considered by the transcriber to be a word? ” Wir beobachten zum Beispiel in unseren Daten, dass das Wort 09 „ und ” (Tab. 3) insgesamt lediglich in 6 Transkripten vorkommt. An einigen Stellen konnte beobachtet werden, dass die Formulierungen der Moderator*innen unterschiedlich identifiziert wurden. 324 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke Deutlich werden solche Unterschiede beispielsweise auch im Transkriptauszug 3, Wort 70 - 73 „ ähm naja die weihnachtsferien ” (Tab. 8). Solche Befunde sollen nicht unerwähnt bleiben, können aber im Rahmen dieser Darstellung nicht näher diskutiert werden. Sie betreffen vor allem (aber nicht nur) unakzentuierte kurze Wörter wie Artikel, Konnektoren, Häsitationen und Interjektionen und deuten darauf hin, dass bereits die Entscheidung darüber, was als ein Wort zu identifizieren ist, nicht trivial ist (s. a. Hedeland & Schmidt 2012: 41). Brackhane (2020) exemplifiziert dies am Beispiel von „ sag mal ” und schlägt eine experimentelle Lösung vor. 3.2 Krippendorffs Alpha Als Index für die Übereinstimmung in den betrachteten Annotationen wurde der im Rahmen der Inhaltsanalyse entwickelte Alpha-Koeffizient von Krippendorff gewählt (Krippendorff 2011 a, 2011 b, 2019; s. a. Artstein 2017). Im Kern stellt Krippendorffs Alpha die Anzahl der vorhandenen, beobachteten Nichtübereinstimmungen (observed disagreements, D o ) den rein zufälligen bzw. zufällig möglichen Nichtübereinstimmungen (expected disagreements, D e ) gegenüber: ¼ 1 D o D e ¼ 1 observed disagreement expected disagreement Formel 1: Allgemeine Formulierung von K Alpha (Krippendorff 2019: 291) Die Berechnung von Krippendorffs Alpha (im Folgenden: K Alpha) umfasst demnach nicht nur die Anzahl der vorhandenen Nichtübereinstimmungen, sondern sie stellt die Anteile (proportions) ihres Vorkommens im Datensatz dazu ins Verhältnis und wichtet diese mit der Anzahl der Kategorien. Die Korrektur betrifft den Schätzfehler mit Hinblick auf die Verhältnisse in der (unbekannten) Grundgesamtheit: „ Observed disagreement is calculated by counting the disagreeing pairs of judgements (rather than the agreeing pairs), and scaling each disagreement by the appropriate distance. “ (Artstein 2017: 301) Für ein dichotomes (oder auch binäres) Merkmal (0; 1) und zwei Annotator*innen sieht die konkrete Berechnung so aus: ¼ 1 b þ c n n 1 2 p q ¼ 1 ð b þ c Þð n 1 Þ 2 p qn Formel 2: Berechnung für dichotomes Merkmal (Krippendorff 2004: 416ff ) Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 325 Dabei sind b und c die Anteile der Nichtübereinstimmungen für die zwei Merkmalsausprägungen (Kategorien) und p ̄ und q ̄ die Anteile der Merkmale im Datensatz. Dazu steht n für die Gesamtzahl aller Kategorien aller Einheiten durch alle Annotator*innen. Bei größeren Stichproben und mehr Annotator*innen konvergiert der Faktor n/ (n-1) also gegen 1 (s. ausführlich: Krippendorff 2004, 2011 b, 2019). 4 Ergebnisse Im Folgenden wird auf Basis der drei ausgewählten prosodischen Merkmale untersucht, worin sich die Transkriptionsentscheidungen der Studierenden ähneln und an welchen Stellen sie sich unterscheiden. Da bisher K Alpha noch nicht für Transkripte bzw. Annotationen prosodischer Merkmale angewendet worden ist, liegen keine Vergleichswerte für Übereinstimmungsmessungen vor. Im Fokus steht daher kein Vergleich, sondern die Darstellung der ermittelten Übereinstimmungsmaße, die exemplarisch anhand von drei kurzen Transkriptauszügen illustriert und diskutiert werden. Wie auch andere Koeffizienten bewegt sich K Alpha zwischen 0 und 1, wobei die Übereinstimmung mit Annäherung an 1 zunimmt. 4.1 Gliederungseinschnitte Unter Einbezug aller Typen von Gliederungseinschnitten, d. h. kein Einschnitt (0), Einschnitt nach prosodisch nicht abgeschlossener Einheit (1) und Einschnitt nach prosodisch abgeschlossener Einheit (2) (Tab. 2), ergibt sich für die Reliabilität ein K Alpha-Wert von 0.675 (n=100) (Tab. 4). Fasst man diese Ausprägungen als nicht-graduell auf, kann nur eine nominale Skaleninterpretation angesetzt werden. Bei gradueller Auffassung, i. S. einer stufenweisen Abgeschlossenheit, ergibt dies einen Alpha-Wert von 0.742 (n=100). Werden die Annotationen dagegen als dichotome Kodierungen (0; 1) i. S. ‘ Gibt es einen Einschnitt oder keinen Einschnitt? ’ rekodiert, ergibt sich (bei notwendiger nominaler Interpretation) ein K Alpha von 0.854 (n=100). Maß Gliederungseinschnitt alle Werte nominal 0.675 (n=100) alle Werte ordinal 0.742 (n=100) alle Werte reduziert auf ja / nein nominal 0.854 (n=100) mindestens 1 Fall > 0; nominal 0.546 (n=33) mindestens 1 Fall > 0; reduziert auf ja / nein; nominal 0.570 (n=24) Tab. 4: Zusammenfassung der K Alpha-Werte für Gliederungseinschnitt 326 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke Generell besteht bei Nicht-Annotation die nachträgliche Schwierigkeit, festzustellen, ob hier bewusst oder unabsichtlich keine Transkription (hier: kein Einschnitt) erfolgt ist. Dies heißt für unser Korpus und alle Gliederungseinschnitte: Da die Kodierung 0 ebenfalls für ‚ nicht annotiert ‘ steht, ist es möglich, solche Fälle, die ausnahmslos 0 annotiert sind, herauszunehmen. Die dann verbleibenden 33 Fälle weisen noch einen K Alpha-Wert von 0.54 (n=33) bei nominaler Interpretation der verbleibenden zwei Stufen (nicht abgeschlossen, abgeschlossen) auf. Für den ersten Transkriptauszug Wort 01 - 06 (Tab. 1) besteht eine 100-prozentige Übereinstimmung hinsichtlich des Vorhandenseins eines Gliederungseinschnittes und eine 83-prozentige Übereinstimmung (20 zu 4 Entscheidungen) für die Transkription der prosodischen Einheit als abgeschlossen. Zum Vergleich die Entscheidungen in den anderen beiden Auszügen: Der zweite Auszug Wort 26 - 37 (Tab. 6) ist mit 96-prozentiger Übereinstimmung als prosodische Einheit transkribiert worden (22-mal prosodisch abgeschlossen, 1mal nicht abgeschlossen). In T20 wurde vor der Herausstellung (hier: Augment) ein Gliederungseinschnitt transkribiert (nach „ jahr “ ), d. h. es liegt eine Segmentierung in zwei prosodische Einheiten vor. Der dritte Auszug Wort 70 - 76 (Tab. 8) wurde mit 87-prozentiger Übereinstimmung als eine prosodische Einheit transkribiert (19-mal nicht abgeschlossen, 2-mal abgeschlossen). Darüber hinaus wurde die Wortfolge 2-mal in zwei prosodisch nicht abgeschlossene Einheiten segmentiert (in T09 GE nach „ ferien “ und in T22 nach „ naja “ ). In T24 beginnt die prosodische Einheit zwar auch mit Wort 70, ein Gliederungseinschnitt (||) wurde aber erst nach Wort 95 transkribiert (außerdem eine Einatmung °h nach Wort 92). Hinsichtlich der qualifizierenden Charakterisierung als abgeschlossen bzw. nicht-abgeschlossen eines als vorhanden transkribierten Gliederungseinschnitts besteht für unser Korpus weniger Übereinstimmung als bei der Entscheidung für bzw. gegen einen Gliederungseinschnitt, was auch eine generelle Tendenz bezüglich der Unsicherheit widerspiegelt. Diese Unsicherheit kann damit zusammenhängen, dass sich die Transkriptionsentscheidung zur Abgeschlossenheit bzw. Nichtabgeschlossenheit auf einen Komplex an prosodischen Merkmalen bezieht (vor allem durch melodischen Fall verbunden mit Spannungsabfall, aber auch mit Verringerung von Sprechgeschwindigkeit und Lautstärke nach dem letzten Akzent; s. o.) und auch nicht immer vollkommen unabhängig von semantischen und syntaktischen Kriterien getroffen wird. Verschiedene Transkribent*innen beurteilen dabei möglicherweise unterschiedliche Merkmale als besonders salient. Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 327 4.2 Akzentposition und Akzentstärke Bei der Kodierung des Vorhandenseins sowie der Stärke von Akzenten (0 bis 4, Tab. 2) steht 0 für ‚ kein Akzent ‘ , aber ebenso für fehlende Annotierung. Unter Einbeziehung aller Werte (total; n=100) beträgt der K Alpha-Wert 0.569 bei nominaler Interpretation und 0.662 bei ordinaler Interpretation. Bei Reduktion auf 1 für alle Kodierungen größer 0 unter Beibehaltung aller Fälle (n=100) ergibt sich ein K Alpha-Wert von 0.66. Das heißt, dieser Wert referiert auf die Entscheidung ‘ Akzent, ja oder nein? ’ , allerdings unter der Einschränkung (wie oben), dass 0 nicht nur eine Entscheidung gegen einen Akzent bedeuten kann, sondern auch eine simple Auslassung der Annotation. Eine Einschätzung hinsichtlich der Differenzierung und Graduierung der Akzente als Akzentstärke kann vorgenommen werden, wenn alle Nicht-0annotierten Werte für die Reliabilität verwendet werden. Werden hier alle 0 als NA, d. h. als nicht vorhandene Werte, interpretiert, fällt Alpha auf 0.128 bzw. 0.125, was für eine sehr disparate Bewertung der Akzentstärken (Akzent vorhanden vs. starker/ emphatischer Akzent) i. S. geringer Beurteilerübereinstimmung spricht. Es scheint günstiger, zuvor die möglicherweise nicht annotierten Fälle herauszunehmen. Praktisch ergibt sich das aus der Zeilensumme von 0 (für eine Fälle-als-Zeilen-Matrix; vgl. Tab. 3). Doch auch nach solch einer Reduktion von 100 auf 59 Fälle bleiben die Alpha-Werte identisch niedrig (0.128 und 0.125), d. h. die 0-Annotationen bzw. Kodierungen fallen hier nicht ins Gewicht. Für die dichotome Kodierung (0; 1) - also ‘ Akzent vorhanden oder nicht? ’ - und bei zusätzlicher Reduktion auf alle Fälle mit mindestens einer Annotation > 0 bleibt der K Alpha-Wert im mittleren Bereich bei 0.56 (n=24). Maß Akzentstärke alle Werte nominal 0.569 (n=100) alle Werte ordinal 0.662 (n=100) alle Werte, dichotom (0; 1); nominal 0.66 (n=100) mindestens 1 Fall > 0; dichotom; nominal 0.56 (n=59) mindestens 1 Fall > 0; alle 0 als NA; nominal 0.128 (n=59) mindestens 1 Fall > 0; alle 0 als NA; ordinal 0.125 (n=59) Tab. 5: Zusammenfassung der K Alpha-Werte für Akzent und Akzentstärke Die Tabelle 6 zeigt die Transkriptionsentscheidungen fürAuszug 2 (Wort 26 - 37). Hier wurden (bezogen auf die Gesamtheit aller 24 Transkripte) maximal 6 Wörter mit Akzent transkribiert, davon 2 Wörter hoch übereinstimmend: mit 100-prozentiger Übereinstimmung Wort 33 ( „ SCHÖNsten “ , 3-mal als besonders stark) und mit 96-prozentiger Übereinstimmung Wort 29 ( „ WEIHnachtsferien “ ). 328 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke Zwei Wörter wurden dagegen nur von wenigen Transkribent*innen als akzentuiert annotiert: 5-mal Wort 35 ( „ GANzen “ ) und 1-mal Wort 27 ( „ GLAUbe “ ). Nicht eindeutig als Entscheidung für ,akzentuiert ‘ , Sprachrichtigkeits- oder Konventionennutzungsfehler zu bestimmen ist der Fall von Wort 37 ( „ Oder “ ). Besonders interessant ist Wort 36 ( „ JAHR “ ), das in 13 Transkripten mit Akzent und in 11 Transkripten ohne Akzent transkribiert wurde. Offensichtlich liefern das Audiosignal und/ oder die Platzierung des Wortes innerhalb der prosodischen Einheit keine eindeutigen Hinweise auf das Vorhandensein bzw. Nichtvorhandensein eines Akzents und damit auf das Herausstellen dieses Wortes. Zur Klärung wäre eine weiterführende detaillierte akustische und linguistische Analyse notwendig. T01 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im GANzen jahr oder? || T02 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im GANzen JAHR oder? || T03 ich glaube die WEIHnachtsferien sind immer die ! SCHÖN! sten im ganzen JAHR oder? || T04 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im ganzen jahr oder,|| T05 ich GLAUbe die WEIHnachtsferien sind immer die SCHÖnsten im ganzen JAHR oder? || T06 ich glaube die WEIHnachtsferien sin immer die SCHÖNstn im ganzn JAHR oda ? || T07 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im ganzen JAHR oder? || T08 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im ganzn jahr oder; || T09 ich glaube die WEIHnachtsferien sind immer die ! SCHÖN! sten im ganzen jahr oder,|| T10 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im ganzen JAHR oder,| T11 ich glaube die WEIHnachtsferien sind immer die SCHÖNstn im ganzen JAHR oder? || T12 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im ganzen jahr oder,|| T13 ich glaube die WEIHnachtsferien sind immer die ! SCHÖN! sten im ganzen jahr oder? || T14 ich glaube die WEIHnachtsferien sind immer die SCHÖNstn im ganzen JAHR oder,|| T15 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im ganzen JAHR oder? || Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 329 T16 ich glaube die WEIHnachtferien sind immer die SCHÖNsten im ganzn JAHR oder? || T17 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im GANzen JAHR Oder-|| T18 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im GANzen jahr oda ? || T19 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im ganzen JAHR oder? || T20 ich glaube die WEIHnachtsferien sin immer die SCHÖNstn im GANzn jahr; |oder,|| T21 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im ganzen jahr oder? || T22 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im ganzen jahr oder,|| T23 ich glaube die WEIHnachtsferien sind immer die SCHÖNsten im ganzen JAHR oder? || T24 ich glaube die weihnachtsferien sind immer die SCHÖNsten im ganzen jahr oder? || Tab. 6: Transkriptauszug 2, Wort 26 - 37 (Moderatorin M1); ► eContent_BO_c Zum Vergleich die Entscheidungen in den anderen beiden Auszügen: Im ersten Auszug Wort 01 - 06 (Tab. 1) wurden (bezogen auf die Gesamtheit aller 24 Transkripte) maximal 4 Wörter mit Akzent transkribiert: mit 100-prozentiger Übereinstimmung Wort 06 ( „ SCHULtag “ , davon in 4 Transkripten als besonders stark akzentuiert); dagegen nur 2-mal das Wort 03 ( „ AUCH “ ) und 5-mal Wort 05 ( „ LETZte “ ). Wort 02 ( „ IS(T) “ ) wurde in 10 Transkripten als akzentuiert und in 14 Transkripten als nicht akzentuiert annotiert. Im dritten Auszug Wort 70 - 76 (Tab. 8) wurden (bezogen auf die Gesamtheit aller 24 Transkripte) maximal 5 Wörter mit Akzent transkribiert: jeweils mit 75prozentiger Übereinstimmung Wort 73 ( „ WEIHnachtsferien “ , davon 1-mal mit Doppelakzentuierung) und Wort 76 ( „ AUCH “ ); dagegen nur 7-mal Wort 71 ( „ naJA “ ), 3-mal Wort 74 ( „ MOCHT “ ) und 1-mal Wort 72 ( „ DIE “ ). 4.3 Melodieverlauf vor Gliederungseinschnitten Der Melodieverlauf nach der letzten Akzentsilbe vor einem Gliederungseinschnitt (im Folgenden: MelodieVorGE) wurde im vorliegenden Material in fünf Stufen transkribiert und kodiert (Tab. 2). Es ergibt sich zunächst ein Alpha-Wert von 0.50, solange noch alle Stufen und alle 100 Fälle beibehalten werden. Wenn alle Fälle ‘ ohne Angabe ’ herausgenommen werden, verbleiben 22 Fälle, also 22 prosodische Einheiten, in denen eine Annotation (mindestens 1mal > 0) vorliegt, eContent_BO_c. wav 330 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke und es reduziert sich hier K Alpha auf 0.33. Dieser Wert erhöht sich, wenn die Kodierungen von 5 auf 3 Stufen reduziert werden, zum einen (A), indem die äußeren Stufen (tief fallend + fallend|steigend + hoch steigend), zum anderen (B), indem die inneren Stufen (fallend + gleichbleibend + steigend) zusammengefasst werden. Auffällig sind die leicht höheren Werte bei der Interpretation als Kontinuum (Tab. 7). Maß MelodieVorGE alle Werte nominal 0.508 (n=100) alle Werte ordinal 0.696 (n=100) mindestens 1 Fall > 0; nominal 0.331 (n=22) mindestens 1 Fall > 0; ordinal 0.548 (n=22) mindestens 1 Fall > 0; reduziert auf 3 Stufen; nominal A (1+2|3|4+5): 0.416 (n=22) B (1|2+3+4|5): 0.436 (n=22) mindestens 1 Fall > 0; reduziert auf 3 Stufen; ordinal A (1+2|3|4+5): 0.526 (n=22) B (1|2+3+4|5): 0.554 (n=22) Tab. 7: Zusammenfassung der K-Alpha-Werte für MelodieVorGE Dass die Transkriptionsentscheidungen zum Endmelodieverlauf keine hohe Übereinstimmung aufweisen, zeigt sich auch im Transkriptauszug 3 (Wort 70 - 76, Tab. 8): Annotiert wurden insgesamt 4 verschiedene Stufen: 4-mal tief fallend, 12-mal fallend, 5-mal gleichbleibend und 1-mal steigend (im Transkript T05 sowie in T24 wurde kein Endmelodieverlauf transkribiert). Fasst man die Stufen ‘ tief fallend ’ und ‘ fallend ’ zusammen, ergibt sich eine 70-prozentige Übereinstimmung für einen fallenden Endmelodieverlauf (16 Transkripte). T01 ehm nja (die) WEIHnachtsferien mocht ich auch; || T02 ehm naJA (die) WEIHnachtsferien mocht ich AUCH; | T03 öhm naJA: d WEIHnachtsferien mocht ich AUCH; | T04 mh naja WEIHnachtsferien mochte ich AUCH; | T05 (m) naja die WEIHnachtsferien mocht ich AUCH | T06 naja WEIHnachtsferien mocht ich AUCH.| T07 hm naja die WEIHnachtsferien mocht ich AUCH.| T08 ehm naja weihnachtsferien mocht ich auch; | T09 (ehm) naja WAR_das_ferien -| MOCHT ich auch; | T10 äh naJA WEIHnachtsferien mocht ich AUCH; | T11 ähm naja (die) WEIHnachtsferien mochte ich AUCH.|| Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 331 T12 naja die WEIHnachtsferien mocht ich AUCH-| T13 ähm uhm naja weihnachtsferien mocht ich auch; | T14 ehm naJA WEIHnachtsferien mocht ich AUCH,| T15 öhm na ja WEIHnachtsferien mochte ich AUCH-| T16 naja WEIHnachtsferien mochte ich auch-| T17 hm naJA WEIHnachtsFErien mocht ich AUCH-| T18 öhm naja die weihnachtsferien mochte ich AUCH; | T19 öhm naJA die WEIHnachtsferien MOCHT ich auch; | T20 die weihnachtsferien mocht ich AUCH; | T21 m naja (die) WEIHnachtsferien mocht ich AUCH; | T22 öhm na- JA; | also die WEIHnachtsferien mocht ich AUCH-| T23 äh naja WEIHnachtsferien mocht ich AUCH.| T24 em naja WEIHnachtsferien mocht ich AUCH Tab. 8: Transkriptauszug 3 Wort 70-76 (Moderator M2): ► eContent_BO_d Zum Vergleich die Entscheidungen in den anderen beiden Auszügen: Im ersten Auszug Wort 01 - 06 (Tab. 1) streuen die Transkriptionsentscheidungen sogar über alle fünf Stufen: 5-mal tief fallend, 11-mal fallend, 4-mal gleichbleibend, 2mal steigend und 1-mal hoch steigend (im Transkript T23 wurde kein Endmelodieverlauf transkribiert). Bei einer Reduzierung auf 3 Stufen ergibt sich (bezogen auf 23 Entscheidungen) eine 69-prozentige Tendenz zu einem fallenden Verlauf (16 Transkripte). Im zweiten Auszug Wort 26 - 37 (Tab. 6) wurden vier Stufen annotiert: 15-mal hoch steigend, 7-mal steigend, 1-mal gleichbleibend und 1-mal fallend. Bei einer Reduzierung der Stufen ergibt sich eine 92-prozentige Tendenz zu einem steigenden Verlauf (22 Transkripte). 5 Diskussion und Schlussfolgerungen 5.1 Diskussion der Ergebnisse Inter-Annotator-Agreement-Messungen sagen nichts über die analysierten Phänomene selbst aus, sondern lediglich etwas über den Transkriptionsprozess und seine Qualität hinsichtlich der Reliabilität. Berechnungen von Inter-Annotator-Agreement unter Nutzung von Krippendorffs Alpha oder anderer Reliabilitätsindizes sind für gesprächsanalytische Transkriptionsprozesse wenig eContent_BO_d. wav 332 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke etabliert. Demzufolge war nicht präzise vorherzusagen, ob diese Anwendung auch im Rahmen von Transkription und Annotation in GAT 2 funktioniert und nützliche Ergebnisse zeitigt. Hinzu kommt, dass das Anlegen von Gütekriterien wie Reliabilität und die Nutzung solcher Indizes in gesprächs-/ konversationsanalytischen Arbeiten, die sich bekanntermaßen in einem qualitativen Paradigma verorten, nicht unumstritten ist (z. B. Flick 2019: 473; Strübing et al. 2018: 90 fassen das unter dem Kriterium der „ empirischen Sättigung “ ). Obschon GAT 2 nicht dafür entwickelt worden ist, lassen sich Parametrisierungen und Kodierungen zu einzelnen Merkmalen vornehmen, die eine Inter-Annotator-Agreement-Berechnung ermöglichen. Inwiefern dies auf das gesamte Inventar zutrifft oder zumindest auf Merkmale, deren Transkription häufig als ,unscharf ’ gilt, bleibt an anderer Stelle zu zeigen. Die notwendige Interpretation, die beim Kodieren der Merkmalsausprägungen passiert, inkludiert die in 4.1 bis 4.3 demonstrierte Möglichkeit, mit verschiedenen Skalenniveaus zu arbeiten. Wie Artstein & Poesio bereits 2008 resümieren, bietet sich K Alpha als in diesen Skalenniveaus flexibler als andere an. Er hat sich in diesem Sinne als brauchbar für Zwecke dieses Aufsatzes erwiesen. Krippendorff diskutiert das Verhältnis der Reliabilität einzelner Variablen, die zum Ganzen hochgerechnet werden, und betont: „ For data with many variables, the lowest alpha among them is the reliability of all. “ (Krippendorff 2019: 359) Dies ist aus Sicht der Inhaltsanalyse mit verschiedenen Variablen, die eine ‘ gleichschwere ’ Anforderung an die Beurteilenden stellen, interessant, doch trifft das für die Transkription bestimmter prosodischer Merkmale nicht zu. Die Reliabilität des gesamten Transkriptionsprozesses lag demzufolge nicht in unserem Erkenntnisinteresse, sondern die merkmalsbezogene Beurteilerübereinstimmung. Die ermittelten Übereinstimmungsmaße werden daher auch separat pro Merkmal diskutiert und weder in Beziehung zu den jeweils anderen Merkmalen gesetzt noch in Bezug auf die Gesamtheit des Transkriptionsprozesses ermittelt. Aus der mangelnden Ausbalanciertheit unseres Materials hinsichtlich gleichmäßigen Vorkommens und gleicher Schwierigkeitsanforderungen erwachsen möglicherweise die schwankenden Werte. Damit verbunden ist die nicht vollständige Unabhängigkeit der einzelnen linear stehenden Transkriptionsentscheidungen, die natürlich auch in segmentaler Transkription gegeben ist. Und obschon wir z. B. auch Häufungen von Akzenten beobachten, ist doch die Wahrscheinlichkeit für eine Akzent-Entscheidung nach einem Akzent in der zu transkribierenden Äußerung geringer und entsprechend höher für ihr Komplement ( „ kein Akzent “ ). Eine Simulation zum Verhalten bei einer größeren Anzahl von prosodischen Einheiten wurde daher in Abschnitt 5.2. unternommen. Angesichts der Tendenzen für die einzelnen Merkmale stellt sich die Frage, Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 333 ob diese ermittelten Maße als generelles Maß für die Übereinstimmung der Transkripte dienen können. Dies wird im Allgemeinen verneint und vielmehr auf die Betrachtung der Binnenstruktur verwiesen. Artstein (2017: 303) gibt darüber hinaus zu bedenken: „ For a complex annotation task (and pretty much every linguistic annotation task is complex at some level), it is important to investigate reliability at a finer grain than is provided by an overall agreement. “ Im Sinne der Gegenstandsangemessenheit wurden die Reliabilitätskoeffizienten für die Merkmale einzeln berechnet, da sie interessante Einzelfacetten in Transkriptionsprozessen widerspiegeln. Die ermittelten K Alpha-Werte für die drei ausgewählten und untersuchten Merkmale erscheinen im Vergleich zu den bisherigen Anwendungen des Koeffizienten z. B. in der Inhaltsanalyse und Medizin insgesamt nicht sehr hoch: Es zeigt sich, dass die Übereinstimmung für das Merkmal Gliederung am höchsten und für Melodieverlauf vor Gliederungseinschnitt am geringsten ist. Gliederung Die Werte für das Vorhandensein von Gliederungseinschnitten liegen bei 0.854 (n=100, nominal), was darauf schließen lässt, dass die Annotation dieses Merkmals von mittelgradigen Expert*innen zuverlässig vollzogen wird. Bisherige Befunde wie z. B. Pintér et al. (2014) zeigen, dass boundaries i. S. unserer Gliederungseinschnitte sogar sprachübergreifend zuverlässig transkribiert werden, hier also der sprachliche Hintergrund u. U. nicht so stark einwirkt. Bei der Binnendifferenzierung in prosodische Abgeschlossenheit/ Nicht-Abgeschlossenheit sinkt der K Alpha-Wert auf 0.742, sofern man diese als Ordinalskala i. S. einer Stärke des Einschnitts auffasst. Für die eineindeutigen 33 Fälle reduziert sich dies auf 0.546 (nominal; Tab. 2), was hier möglicherweise schon mit dem verkleinerten Sample (s. Abschnitt 5.2) diskutiert werden kann. Akzent Ähnliches zeigt sich bei der Transkription der Akzente und Akzentstärken. So erreicht der K Alpha-Wert 0.66 (n=100) bzw. 0.585 (n=24) für das Vorhandensein von Akzenten. Wie bereits oben genannt, ist der unmittelbare Vorlauf und Kontext innerhalb der prosodischen Einheit ein Faktor, der in einer solch einfachen Reliabilitätsberechnung wie hier nicht unmittelbar einbezogen wird. Für die Transkription bedeutet dies, dass hauptsächlich in Relation zum stärksten Akzent innerhalb der prosodischen Einheit Bezug genommen wird (s. a. Kügler et al. i. d.Bd. zur Prominenz). In allen drei Beispiel-Auszügen gibt es einzelne Wörter, die mit sehr hoher Übereinstimmung mit Akzent transkribiert wurden, aber auch Wörter, in denen sich die Transkriptionsentscheidungen die Waage halten, also Stellen markieren, die u. U. als Zweifelsfälle bzw. unklare 334 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke Transkriptionsentscheidungen definiert werden könnten. Dass die Wahrnehmung einer Prominenz i. S. eines Akzents unterschiedlich stark ausgelöst wird, z. B. durch steigende oder fallende Tonhöhenbewegungen (s. a. Hermes & Rump 1994), wie in unseren Beispielen Auszug 1 Wort 6 „ schultag “ (Tab. 1) oderAuszug 2 Wort 36 „ jahr “ (Tab. 6), schlägt sich bei der Differenzierung der Akzentstärke mit niedrigeren K Alpha-Werten 0.128 (nominal) (n=59) bzw. 0.125 (ordinal) (n=59) nieder. Melodieverlauf Für das Merkmal Melodieverlauf vor Gliederungseinschnitt zeigt sich, dass die Annotation dieses Merkmals in unserem Korpus nicht zuverlässig vollzogen wird. Wir erhalten hier maximal einen K Alpha-Wert von 0.33 (n=22) bei fünfstufiger Skalierung der Endmelodie bzw. 0.548 (n=22, ordinal), sofern die Merkmalsausprägung tatsächlich als Kontinuum gesehen werden kann. Auch hier kommt die Reduktion der Daten auf weniger Fälle zum Tragen, doch zeigt sich auch nach Reduktion auf drei Stufen nur eine geringfügige Verbesserung ungeachtet dessen, ob die äußeren Stufen (1+2|3|4+5> ‚ schmale Mitte ‘ ) oder die inneren Stufen (1|2+3+4|5> ‚ breite Mitte ‘ ) zusammengefasst werden (n=22; 0.43 bzw. 0.41). Diese Befunde geben Anlass zur Überlegung, die starke Differenzierung der Transkription des Endmelodieverlaufs (5-er Skala) aufzugeben und ggfs. experimentell zu prüfen. Obschon für den Alpha-Wert in der Inhaltsanalyse „ no less than 0.667 “ (Krippendorff 2019: 357) ausgegeben wurde, betont Krippendorff zu Standards i. S. von festen Referenzpunkten oder sog. Benchmarks, dass es auf die Frage „ What is an acceptable level of reliability? “ keine einfache Antwort gibt. Vielmehr solle in den Blick genommen werden, dass die Reliabilitätsmaße mit der angestrebten Validität der Forschungsergebnisse zu tun haben sowie mit den (auch praktischen) Konsequenzen, die aus der Beurteilerübereinstimmung erwachsen. Die Frage, wohin hohe Übereinstimmung führt, kann für unsere Zwecke so beantwortet werden: Sie führt zu zuverlässigen Forschungsdaten und damit zu einer verlässlichen Analysebasis. Wesentlich ist in diesem Zusammenhang der Hinweis, dass die Maße disziplinabhängig sind. Hinzu kommt, dass Schwellenwerte darüber hinaus stets in Beziehung zum Schwierigkeitsgrad einer Variablen zu setzen sind (Raupp & Vogelgesang 2009: 14). Der Umgang mit den als 0 kodierten Fällen in den obigen Abschnitten stellt nur eine Möglichkeit dar und ist zum einen zu hinterfragen, da 0 schließlich Teil der Skalierungen ist und zumindest von seiner erwarteten Wahrscheinlichkeit in den Index Alpha eingeflossen ist. Zum anderen trägt die Reduktion der Fälle eindeutig zur Verringerung der Werte bei. Um jedoch die Unsicherheit bezüglich Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 335 der Interpretation zu reduzieren, wäre es angebracht, über eine Art Leerstelle oder auch einen Default-Wert z. B. von 1 nachzudenken. Bei geringeren Übereinstimmungswerten ist genauer zu untersuchen, welche eventuellen Einflussfaktoren wie Training, fachlicher und sprachlicher Hintergrund, Perzeption, Aufgabenumgebung etc. eine Rolle spielen. Die Rolle des Einflussfaktors Ausbildung ließe sich nur durch den Vergleich der Transkriptionen der hier beteiligten mittelgradigen Expert*innen mit Transkriptionen vollumfänglicher Expert*innen untersuchen. Ähnliches gilt für die weiteren Einflussfaktoren wie Aufgabe, Technikbeherrschung der Transkribent*innen, Beschaffenheit des Materials sowie sprachlicher Hintergrund (L1, L2, usw.; z. B. Grawunder & Golluscio 2014; Wild i. d.Bd.). Von der Betrachtung von Fragen der Perzeption und akustischen sowie linguistischen Eigenschaften des Signals ist im vorliegenden Rahmen abgesehen worden. Gerade aber solche Fälle, in denen sich jeweils die Hälfte der Gruppe für eine Möglichkeit entschieden hat, sind interessant. Hier müssten weiterführende Analysen z. B. zur Semantik des betreffenden Wortes oder zur Position innerhalb der prosodischen Einheit durchgeführt werden, um mögliche Erklärungen zu finden. In nachfolgenden Arbeiten sollten diese Faktoren jeweils berücksichtigt werden. 5.2 Überlegungen zur Stabilität von K Alpha am Beispiel der Transkription von Akzenten Eine naheliegende Frage mit forschungsorganisatorischer Relevanz, die sich aus den vorgestellten Berechnungen ergibt, ist die nach der produktiven Anzahl bzw. einer Mindestzahl von Transkribent*innen, um stabile Übereinstimmungsmaße zu erzielen, in unserem Falle K Alpha. Korpusdaten zu Inter-Annotator- Agreement für authentische Gesprächsdaten sind nicht ohne weiteres zu vergleichen mit solchen, die in experimentellen Settings entstanden sind, weil hierbei die Herausforderungen an das Transkribieren unkontrolliert schwanken. Dennoch denken wir, dass solche Messungen einen realistischen Einblick in die mögliche Streuung geben. Am Beispiel der Transkription des Akzents in unseren Daten kann demonstriert werden, welche Streubreite für unser Korpus noch bei sehr kleinen Stichproben auftreten kann. Im Folgenden wird die zufällige Auswahl der verschiedenen Transkribent*innen simuliert. Die obere Zeile in Abbildung 1 zeigt je 200 Wiederholungen für die 100 Fälle (links) und 59 Fälle (rechts) für das Merkmal Akzent (vorhanden/ nicht vorhanden); die kleinere Fallstichprobe beruht auf dem Ausschluss aller homogen 0-kodierten Fälle. Die untere Zeile zeigt (links) je 20 Wiederholungen mit wachsender und abnehmender Zahl von Fällen im Datensatz; (rechts) eine zufällige Auswahl von Fällen (Transkripten). 336 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke So ergibt sich bei einer Auswahl aus den n=100 von nur einer Paarung, also 2 Transkribent*innen (Abb. 1 oben links), eine enorme K Alpha-Breite von 0.4 bis 0.9 ( α = 0.66 vgl. Tab. 5). Mit anderen Worten: Es handelt sich um zwei zufällig aus der Gesamtheit (n = 24) ausgewählte Transkribent*innen. Diese enorme K Alpha-Breite hat sich bei 6 Transkribent*innen halbiert. Bei Verringerung der Stichprobe auf 59 eineindeutige Fälle ( α = 0.58; Tab. 5) verhält sich diese adäquat zur vollständigen (n = 100; Abb. 1 oben rechts). Wird nun neben der Anzahl der Transkribent*innen auch die Anzahl der einbezogenen Transkripte (Fälle) verändert, so vervollständigt sich das Bild dahingehend, dass für Fallzahlen unter 25 eindeutig niedrigere Alpha-Werte zu beobachten sind und dies zusätzlich auch bei vielen Transkripten, aber wenigen Transkribent*innen eintritt (Abb. 1 unten links). Damit bestätigt sich der schon oben geäußerte Verdacht, dass die Reduktion der Fälle einen deutlichen Einfluss auf die K Alpha-Ausprägung hat und somit diese immer berücksichtigt werden muss, insbesondere wenn es sich um natürliche Korpora handelt. Abb. 1: Simulation wiederholter Stichprobenzusammensetzung Wird umgekehrt die Anzahl der zu beurteilenden bzw. zu transkribierenden Fälle reduziert, dann wird deutlich (s. Farbverlauf ), dass erst bei über 25 Fällen ein stabiler K Alpha-Wert auftritt. Zusätzlich kann ausgemacht werden, dass, wie oben schon dargestellt, auch erst ab 5 bis 6 Fällen K Alpha eine gleichbleibend robust schmale Streuung (< 0.1) aufweist. Bei randomisierter Auswahl der Fälle (2 - 59) bestätigt sich dieser Trend in dem Sinne (Abb. 1 unten rechts), dass sich der durchschnittliche K Alpha-Wert um 0.58 erst nach 15 bis 20 Fällen Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 337 einstellt, indem ein stabiler Interquartilabstand (von < 0.1) auftritt. Gerade die starke Streuung im Bereich unter 10 Transkripten macht die Grenzen von K Alpha bzw. dessen konzipierte Empfindlichkeit deutlich. Diese Schlussfolgerungen basieren natürlich zunächst nur auf unserem Korpus von 2400 Datenpunkten und sollten entsprechend überprüft werden. Alternativ stellen Hayes & Krippendorff (2007) einen ähnlichen Bootstrap-Mechanismus (wie oben) vor, der bereits in das R-Package icr (Staudt & L ’ Ecuyer 2020) implementiert ist und damit die Abschätzung der Konfidenzintervalle erlaubt. Dieser kann insbesondere bei geringen Stichprobenzahlen zur Hilfe genommen werden. 5.3 Anwendungsbezogene Schlussfolgerungen Auch wenn die Ergebnisse der explorativen Vorstudie nicht ohne weiteres zu verallgemeinern oder in die alltägliche Transkriptionspraxis zu überführen sind, verweisen sie zweifellos auf die Notwendigkeit empirischer Transkriptionsforschung. Natürlich darf man sich nicht darauf beschränken, eine Maßzahl anzugeben und Reliabilität und Reproduzierbarkeit auf diese Weise statistisch auszuweisen. Vielmehr geht es für Transkriptionsprozesse prosodischer Merkmale im gesprächsanalytischen Rahmen auch um praktische Handlungsanweisungen zur Optimierung von Transkriptionsentscheidungen mit dem Ziel, eine möglichst hohe Übereinstimmung zu erreichen, um die Zuverlässigkeit der Transkripte zu garantieren. Die Arbeit mit solchen Koeffizienten wie Krippendorffs Alpha ermöglicht, Transkripte vergleichend lesen zu können. So lassen sich z. B. Abweichungen in Transkripten empirisch basiert interpretieren; was insbesondere dann von Bedeutung ist, wenn weitere Untersuchungen vorliegen, die möglicherweise erste Tendenzen unserer Studie bestätigen oder konterkarieren (z. B. die Stabilität der Transkription von Gliederung oder die Instabilität der fünfstufigen Transkription von Endmelodieverläufen). Nicht zuletzt können Angaben zum Inter-Annotator-Agreement bzw. zur Reliabilität von Transkriptionen einen Beitrag zur Zuverlässigkeit und Nachvollziehbarkeit bereitgestellter Transkriptionen in öffentlich zugänglichen Korpora leisten. Eine genaue Dokumentation der zugrunde gelegten Stichproben wird dafür unerlässlich sein. Auf Grundlage unserer Daten können wir zeigen, dass die Position, zwischen mehreren Transkribent*innen sei kaum oder gar keine Übereinstimmung herstellbar, zu relativieren ist (Tab. 1). Die Messergebnisse (s. Abschnitt 4) machen gleichzeitig aber auch deutlich, dass lediglich die Anwendung eines Vier-Augen-Prinzips im Transkriptionsprozess (s. Abschnitte 1, 2) nicht ohne weiteres ausreichend ist, um reliable Transkriptionsentscheidungen zu generieren. Beide Grundannahmen müssten differenziert werden: erstens merkmalsbasiert, wobei zu diskutieren ist, wie bestimmte Merkmale auszulegen sind, 338 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke und zweitens in ihrem ‘ Verhalten ’ in der Simulation und nachfolgenden Analyse in natürlichen Korpora. Die Simulation verhilft zu einer besseren Einschätzung der Erwartungswerte. Mit Hinblick auf die Merkmale ist sowohl die Differenzierbarkeit i. S. einer psychoakustischen Eigenschaft als auch i. S. der Plausibilität innerhalb eines Transkriptionssystems gemeint. Die ersten Angaben zu einem stabilen Reliabilitätsindex können eine Orientierung sein für übereinstimmende, robuste, wiederholbare Transkripte und zugleich ein vertieftes Verständnis für die Schwierigkeiten im Transkriptionsprozess an sich sowie mit dem Transkriptionssystem selbst schaffen. Anwendungsbezogen - hier gehen wir über die konkreten Ergebnisse unserer Vorstudie hinaus - erlaubt diese Messung einschließlich ihrer Schlussfolgerungen eine Schärfung der Leitlinien gesprächsanalytischer Transkription. So zeigt sich die Notwendigkeit eines forschungsorganisatorischen Zwischenschritts, der als „ Transkriptionsdatensitzung “ Raum bieten könnte für Diskussionen zu problematischen Aspekten in und während der Transkription sowie für Trainingszwecke und Agreement-Messungen zu bewusst reflektierten Eichungsprozessen. Die Notwendigkeit solcher Eichungsprozesse und ihrer diskursiven Verhandlung gewinnt vor dem Hintergrund eingeschränkter universitärer Erwerbsgelegenheiten von Transkriptionskompetenz an Brisanz, verstärkt dadurch, dass es sich um relevante „ Arbeitstechniken empirischer Kommunikationsforschung “ (Redder 2001: 1038) handelt. Für weiterführende Forschung bieten sich folgende Aspekte an. Erstens: Um Aussagen über Übereinstimmung und damit auch die Reliabilität von Transkripten treffen zu können, bedarf es auch der Perspektive auf das konsistente Entscheiden einer Person im Zeitverlauf. Die Untersuchung des Inter-Annotator-Agreements müsste daher mit Berechnungen des Intra-Annotator-Agreements komplettiert werden. Zweitens: Die von uns verwendete Datenbasis ist recht schmal, zudem in Bezug auf die zu transkribierenden Merkmale nicht balanciert, aber trotzdem lassen sich bereits Tendenzen erkennen. In weiterführenden Untersuchungen, die herausfinden sollen, wie empfindlich der Koeffizient ist, wäre zu überlegen, ob zwar weiterhin mit einem authentischen, und damit in den fokussierten Merkmalen nicht ausbalancierten Datum gearbeitet wird, dies aber deutlich länger und umfangreicher ist, oder ob ein balanciertes, quasi-authentisches, elizitiertes Testmaterial für weitere Analysen erstellt wird. Das hätte zusätzlich den Vorteil, dass es Standardwerte zur Orientierung ermöglichen würde, die dann wiederum in Prüf-, Qualitätssicherungssowie Ausbildungsprozesse eingespeist werden könnten. Wenn sich Forschungspraxen ändern, dann ist es angeraten, die bestehende Praxis mit neuen, möglicherweise in der Anwendung ungewöhnlichen Werkzeugen interdisziplinär zu hinterfragen. Dafür möchten wir mit diesem Beitrag Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 339 einen Diskussionsprozess anregen und dabei Forschungsbedarf aufzeigen. Nicht zuletzt ist unser Beitrag auch ein Plädoyer für eine auf Analyse und deren Erkenntnisse gerichtete, Transkriptionsprozesse begleitende, praktische Konsequenzen zeitigende und empirische Transkriptionsforschung. 1 Literaturverzeichnis Artstein, Ron. 2017. Inter-annotator Agreement. In Nancy Ide & James Pustejovsky (eds.), Handbook of Linguistic Annotation, 297 - 313. Dordrecht: Springer Netherlands. Artstein, Ron & Massimo Poesio. 2008. Inter-Coder Agreement for Computational Linguistics. Computational Linguistics 34, http: / / www.mitpressjournals.org/ doi/ pdf/ 10.1162/ coli.07-034-R2. (04.08.2021) Ashmore, Malcolm & Darren Reed. 2000. Innocence and Nostalgia in Conversation Analysis: The Dynamic Relations of Tape and Transcript. Forum Qualitative Sozialforschung 1(3). [45 paragraphs]. Auer, Peter. 2010. Zum Segmentierungsproblem in der Gesprochenen Sprache. www. inlist.uni-bayreuth.de/ issues/ 49/ InList49.pdf. Ayaß, Ruth. 2015. Doing data: The status of transcripts in Conversation Analysis. Discourse Studies 17(5). 505 - 528. Barth-Weingarten, Dagmar. 2013. From ‘ intonation units ’ to cesuring: an alternative approach to the prosodic-phonetic structuring of talk-in-interaction. In Beatrice Szczepek Reed & Geoffrey Raymond (eds.), Units of Talk - Units of Action, 91 - 124. Amsterdam: Benjamins. Barth-Weingarten, Dagmar. 2016. Intonation units revisited: Cesuras in talk-in-interaction (Studies in language and social interaction 29). Amsterdam, Philadelphia: John Benjamins Publishing Company. Bergmann, Pia & Christine Mertzlufft. 2009. Segmentierung spontansprachlicher Daten in Intonationsphrasen - Ein Leitfaden für die Transkription. In Karin Birkner & Anja Stukenbrock (Hrsg.), Die Arbeit mit Transkripten in Fortbildung, Lehre und Forschung, 83 - 95. Mannheim: Verlag für Gesprächsforschung. Bird, Steven & Max Liberman. 2001. A formal framework for linguistic annotation. Speech Communication (33). 23 - 60. Birkner, Karin, Peter Auer, Angelika Bauer & Helga Kotthoff. 2020. Einführung in die Konversationsanalyse. Berlin/ Boston: De Gruyter. Boersma, Paul & David Weenink. 2021. Praat: doing phonetics by computer [Computer program]. http: / / www.praat.org/ . (04.08.2021) Bose, Ines. 2003 a. dóch da sín ja ‚ nur mûster / / - Kindlicher Sprechausdruck im sozialen Rollenspiel. (Hallesche Schriften zur Sprechwissenschaft und Phonetik 9). Frankfurt a. M.: Peter Lang. 1 Wir möchten uns an dieser Stelle herzlich bei Teresa Finke für die Unterstützung bei der Aufbereitung der Daten bedanken sowie bei Beatrix Schönherr und Sabine Jautz für ihre hilfreichen Kommentare zu einer früheren Version dieses Beitrags. 340 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke Bose, Ines. 2003 b. Wissenschaftliche Grundlagen der Leselehre - Aktuelle Überlegungen zu einem traditionellen sprechwissenschaftlichen Teilfach. In Lutz C. Anders & Ursula Hirschfeld (Hrsg.), Sprechsprachliche Kommunikation. Probleme, Konflikte, Störungen., 53 - 64. Frankfurt a. M.: Peter Lang. Bose, Ines, Norbert Gutenberg, Josef Ohler & Dietz Schwiesau. 2011. Testmaterial zur Hörverständlichkeit von Radionachrichten - Theoretische und methodische Grundlagen. In Ines Bose & Dietz Schwiesau (Hrsg.), Nachrichten schreiben, sprechen, hören. Forschungen zur Hörverständlichkeit von Radionachrichten., 15 - 79. Berlin: Frank & Timme. Brackhane, Fabian. 2020. [z ɐ m ɐ ] = „ sagen wir “ ? Perzeption phonetisch ambiger Reduktionsformen. In Pustka, Elissa et al. (Hrsg.), Akten der Konferenz „ Phonetik und Phonologie im deutschsprachigen Raum “ (P&P 14, 18 - 21. Wien, http: / / 10.25365/ PHAI DRA.159 (03.02.2021). Breen, M., L. C. Dilley, J. Kraemer & E. Gibson. 2012. Inter-transcriber reliability for two systems of prosodic annotation: ToBI (Tones and Break Indices) and RaP (Rhythm and Pitch). Corpus Linguistics and Linguistic Theory 8(2). 277 - 312. Breuer, Franz, Arnulf Deppermann, Udo Kuckartz, Günter Mey, Katja Mruck & Jo Reichertz. 2014. All is data - Qualitative Forschung und ihre Daten. In Günter Mey & Katja Mruck (Hrsg.), Qualitative Forschung, 261 - 290. Wiesbaden: Springer Fachmedien Wiesbaden. Brezina, Vaclav. 2018. Statistics in Corpus Linguistics: A Practical Guide. Cambridge: Cambridge University Press. Deppermann, Arnulf. 2008. Gespräche analysieren: Eine Einführung, 4. Aufl. (Qualitative Sozialforschung 3). Wiesbaden: VS Verlag für Sozialwissenschaften. Deppermann, Arnulf & Wilfried Schütte. 2008. Data and transcription. In Gerd Antos & Eija Ventola (eds.), Handbook of Interpersonal Communication (Handbooks of Applied Linguistics 2), 179 - 213. Berlin, New York: De Gruyter Mouton. Dittmar, Norbert. 2009. Transkription: Ein Leitfaden mit Aufgaben für Studenten, Forscher und Laien, 3. Aufl. (Qualitative Sozialforschung 10). Wiesbaden: VS Verlag für Sozialforschung. Ehlich, Konrad & Jochen Rehbein. 1976. Halbinterpretative Arbeitstranskriptionen (HIAT). Linguistische Berichte (45). 21 - 41. Finke, Clara L. 2019. Senderidentität und Alltagsästhetik: Radiomoderationen in der Primetime (Schriften zur Sprechwissenschaft und Phonetik 17). Berlin: Frank & Timme. Flick, Uwe. 2019. Gütekriterien qualitativer Sozialforschung. In Nina Baur & Jörg Blasius (Hrsg.), Handbuch Methoden der empirischen Sozialforschung, 2. Aufl., 473 - 488. Wiesbaden: Springer Fachmedien Wiesbaden. Gorisch, Jan. 2012. Matching across Turns in Talk-in-Interaction: The Role of Prosody and Gesture. Sheffield: University of Sheffield. Grawunder, Sven & Lucía Golluscio. 2014. ¿Lengua o hablante? - Investigando las alternancias coronal-velares en vilela. LIAMES. 41 - 72. Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 341 Gülich, Elisabeth & Lorenza Mondada. 2008. Konversationsanalyse: Eine Einführung am Beispiel des Französischen (Romanistische Arbeitshefte 52). Tübingen: Niemeyer. Hayes, Andrew F. & Klaus Krippendorff. 2007. Answering the Call for a Standard Reliability Measure for Coding Data. Communication Methods and Measures 1(1). 77 - 89. Hepburn, Alexa & Galina B. Bolden. 2017. Transcribing for social research. Los Angeles, London, New Delhi, Singapore, Washington DC, Melbourne: Sage. Hermes, Dik J. & H. H. Rump. 1994. Perception of prominence in speech intonation induced by rising and falling pitch movements. The Journal of the Acoustical Society of America 96(1). 83 - 92. Ide, Nancy. 2017. Introduction: The Handbook of Linguistic Annotation. In Nancy Ide & James Pustejovsky (eds.), Handbook of Linguistic Annotation, 1 - 18. Dordrecht: Springer Netherlands. Imo, Wolfgang & Jens P. Lanwer. 2019. Interaktionale Linguistik. Berlin: J. B. Metzler. Jenks, Christopher J. 2013. Working with Transcripts: An Abridged Review of Issues in Transcription. Language and Linguistics Compass 7(4). 251 - 261. Kowal, Sabine & Daniel C. O ’ Connell. 2012. Zur Transkription von Gesprächen. In Uwe Flick, Ernst von Kardorff & Ines Steinke (Hrsg.), Qualitative Forschung: Ein Handbuch, 9. Aufl., 437 - 447. Reinbek: Rowohlt. Kowal, Sabine & Daniel C. O ’ Connell. 2014. Transcription as a Crucial Step of Data Analysis. In Uwe Flick (ed.), The SAGE Handbook of Qualitative Data Analysis, 64 - 78. London: Sage. Krippendorff, Klaus. 2004. Reliability in Content Analysis: Some Common Misconceptions and Recommendations. Human Communication Research 30(3). 411 - 433. Krippendorff, Klaus. 2011 a. Agreement and Information in the Reliability of Coding. Communication Methods and Measures 5(2). 93 - 112. Krippendorff, Klaus. 2011 b. Computing Krippendorff ‘ s Alpha-Reliability. https: / / reposi tory.upenn.edu/ ascpapers/ 43. (29.07.2021) Krippendorff, Klaus. 2019. Content Analysis: An Introduction to Its Methodology. Los Angeles: Sage. Lapadat, Judith C. & Anne C. Lindsay. 1999. Transcription in Research and Practice: From Standardization of Technique to Interpretive Positionings. Qualitative Inquiry 5(1). 64 - 86. McHugh, Mary L. 2012. Interrater reliability: the kappa statistic. Biochemia Medica 22(3). 276 - 282. Mondada, Lorenza. 2016. Zwischen Text und Bild: Multimodale Transkription. In: Heiko Hausendorf, Reinhold Schmitt & Wolfgang Kesselheim (Hg.): Interaktionsarchitektur, Sozialtopographie und Interaktionsraum. 111 - 160. (Studien zur Deutschen Sprache, 72) Tübingen: Narr. Moore, Robert J. 2015. Automated Transcription and Conversation Analysis. Research on Language and Social Interaction 48(3). 253 - 270. Neuber, Baldur. 2002. Prosodische Formen in Funktion. (Hallesche Schriften zur Sprechwissenschaft und Phonetik 7). Frankfurt a. M.: Peter Lang. 342 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke O ’ Connell, Daniel C. & Sabine Kowal. 1999. Transcription and the Issue of Standardization. Journal of Psycholinguistic Research 28(2). 103 - 120. Ochs, Elinor. 1979. Transcription as theory. In Elinor Ochs & Bambi B. Schieffelin (eds.), Developmental pragmatics, 43 - 72. New York: Academic Press. Oleinik, Anton, Irina Popova, Svetlana Kirdina & Tatyana Shatalova. 2014. On the choice of measures of reliability and validity in the content-analysis of texts. Quality & Quantity 48(5). 2703 - 2718. Overbeck, Peter. 2009. Radiojournalismus: Ein Handbuch. Konstanz: UVK. Pintér, Gábor, Shinobu Mizuguchi & Koishi Tateishi. 2014. Perception of Prosodic Prominence and Boundaries by L1 and L2 Speakers of English. IN TERSPEECH-2014. 544 - 547. Psathas, George & Timothy Anderson. 1990. The ‘ practices ’ of transcription in conversation analysis. Semiotica 78(1 - 2). 75 - 99. R Core Team. 2020. R: A language and environment for statistical computing. R. https: / / www.r-project.org/ . (04.08.2021) Raupp, Juliana & Jens Vogelgesang. 2009. Medienresonanzanalyse: Eine Einführung in Theorie und Praxis (Lehrbuch). Wiesbaden: VS Verlag für Sozialwissenschaften. Redder, Angelika. 2001. Aufbau und Gestaltung von Transkriptionssystemen. In Klaus Brinker, Gerd Antos, Wolfgang Heinemann & Svend F. Sager (Hrsg.), Text- und Gesprächslinguistik (Handbücher zur Sprach- und Kommunikationswissenschaft16.2; 2. Hb.), 1038 - 1059. Berlin, New York: De Gruyter. Schmidt, Thomas & Hanna Hedeland. 2012. Technological and methodological challenges in creating, annotating and sharing a learner corpus of spoken German. In Thomas Schmidt & Kai Wörner (eds.), Multilingual Corpora and Multilingual Corpus Analysis (Hamburg Studies on Multilingualism 14), 25 - 46. Amsterdam: John Benjamins Publishing Company. Schwarze, Cordula. 2014. Theoretische und methodische Überlegungen zur Praxis der gesprächsanalytischen Datensitzung. In Cordula Schwarze & Carmen Konzett (Hrsg.), Interaktionsforschung. Gesprächsanalytische Fallstudien und Forschungspraxis. (Sprachwissenschaft 20), 161 - 175. Berlin: Frank & Timme. Schwenke, Anna. 2020. Nachrichten: mehr als informativ. Nachrichten-Sprechstile im Radio zwischen Formatierung und Hörverständlichkeit (Schriften zur Sprechwissenschaft und Phonetik 20). Berlin: Frank & Timme. Selting, Margret. 2001. Probleme der Transkription verbalen und paraverbalen/ prosodischen Verhaltens. In Klaus Brinker, Gerd Antos, Wolfgang Heinemann & Svend F. Sager (Hrsg.), Text- und Gesprächslinguistik (Handbücher zur Sprach- und Kommunikationswissenschaft16.2; 2. Hb.), 1059 - 1068. Berlin, New York: De Gruyter. Selting, Margret, Peter Auer & et al. 2009. Gesprächsanalytisches Transkriptionssystem 2 (GAT 2). Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion 10. 353 - 402. Shriberg, Lawrence D. & Gregory L. Lof. 1991. Reliability studies in broad and narrow phonetic transcription. Clinical Linguistics & Phonetics 5(3). 225 - 279. Spiegel, Carmen. 2009. Transkripte als Arbeitsinstrument: Von der Arbeitsgrundlage zur Anschauungshilfe. In Karin Birkner & Anja Stukenbrock (Hrsg.), Die Arbeit mit Reliabilität und Inter-Annotator-Agreement bei der Prosodie-Transkription 343 Transkripten in Fortbildung, Lehre und Forschung, 7 - 15. Mannheim: Verlag für Gesprächsforschung. Staudt, Alexander & Pierre L ‘ Ecuyer. 2020. icr: Compute Krippendorff ‘ s Alpha. R package version 0.6.2. https: / / cran.r-project.org/ package=icr. (04.08.2021) Stock, Eberhard. 1980. Untersuchungen zu Form, Bedeutung und Intonation im Deutschen (Schriften zur Phonetik, Sprachwissenschaft und Kommunikationsforschung 18). Berlin: Akademie-Verlag. Stock, Eberhard. 1996 a. Deutsche Intonation. Berlin: Langenscheidt. Stock, Eberhard. 1996 b. Text und Intonation. Sprachwissenschaft (21). 211 - 240. Strübing, Jörg, Stefan Hirschauer, Ruth Ayaß, Uwe Krähnke & Thomas Scheffer. 2018. Gütekriterien qualitativer Sozialforschung. Ein Diskussionsanstoß. Zeitschrift für Soziologie 47(2). 83 - 100. Vieregge, Wilhelm H. 1989. Phonetische Transkription: Theorie und Praxis der Symbolphonetik (Zeitschrift für Dialektologie und Linguistik Beihefte 60). Stuttgart: Steiner. Vieregge, Wilhelm H. 1996. Patho-Symbolphonetik: Auditive Deskription pathologischer Sprache. Zeitschrift für Dialektologie und Linguistik (100). Vieregge, Wilhelm H. & Paula M. Hettinga. 1999. Effiziente Zuverlässigkeitsbestimmung phonetisch-segmentaler Transkriptionen. Zeitschrift für Dialektologie und Linguistik, 66(1). 31 - 47. Winterscheid, Jenny, Arnulf Deppermann, Thomas Schmidt, Wilfried Schütte, Evi Schedl & Julia Kaiser. 2019. Normalisieren mit OrthoNormal. Konventionen und Bedienungshinweise für die orthografische Normalisierung von FOLKER-Transkripten. https: / / doi. org/ 10.14618/ ids-pub-9326. (27.07.2021) 344 Ines Bose, Sven Grawunder, Cordula Schwarze & Anna Schwenke FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten Empfehlungen und offene Fragen Hanna Hedeland Abstract: Dieser Beitrag behandelt die mittlerweile als Bestandteil guter wissenschaftlicher Praxis anerkannten FAIR-Prinzipien in Bezug auf die Transkription und Annotation gesprochener Sprache und multimodaler Interaktion. Forschungsdaten - und somit Transkriptionsdaten - sollen heute Findable, Accessible, Interoperable und Reusable sein. Der Beitrag versucht dementsprechend, empirische Methoden im Prozess der Digitalisierung und generische Prinzipien des digitalen Forschungsdatenmanagements zusammenzubringen, um für diesen Kontext einem operationalisierten Begriff der „ FAIRness “ näher zu kommen und möglichst konkrete Empfehlungen aufzustellen. Der Beitrag sollte aber gleichzeitig zur Diskussion anregen, denn konkrete Anforderungen in Bezug auf das Forschungsdatenmanagement und die Datenqualität müssen auch im Rahmen der FAIR-Prinzipien von den Fachgemeinschaften selbst herausgearbeitet werden. Keywords: FAIR, Forschungsdatenmanagement, Datenqualität, Gütekriterien, Digitalisierung, Transkription, gesprochene Sprache 1 Einleitung Der digitale Wandel beeinflusst seit mehreren Jahrzehnten sowohl die Gesellschaft selbst als auch die Methoden und Werkzeuge ihrer Erforschung. Auch wenn die heute alltägliche Erstellung von Sprach- oder Videoaufnahmen für private Zwecke nicht mit einem professionellen Forschungsdatenmanagement verglichen werden sollte, hat die Verfügbarkeit der für beide Kontexte relevanten Technologien nachhaltig die Voraussetzungen für empirische sprachwissenschaftliche Forschung verändert. Die authentischen oder elizitierten Sprachdaten, die ihre empirische Grundlage bilden, werden heutzutage nahezu ausschließlich digital und in zunehmendem Umfang erstellt. Trotz der einfacheren Verfügbarkeit von Audio- und Videoaufnahmen bleibt das Transkript als graphische Repräsentation des Gesprächs für seine Analyse im Rahmen qualitativer Methoden unabdingbar. Für die manuelle Transkription existieren seit Jahren spezifische Software und Dateiformate, die offen zugänglich und ausführlich dokumentiert sind. Mit Werkzeugen wie beispielsweise EXMARaLDA 1 , FOLKER 2 oder ELAN 3 kann z. B. nach erfolgter Transkription aus den maschinenlesbaren Transkriptionsdaten automatisch ein mit derAudio- oder Videoaufnahme aligniertes, im HTML-Format visualisiertes Multimedia- Transkript für die Projektwebseite oder eine Internetpublikation erstellt werden. Die in der Gesellschaft wahrnehmbare zunehmende Bedeutung größerer maschinenlesbarer Datenmengen schlägt sich auch in der Wissenschaft nieder, die Auswirkungen in den empirischen Sprachwissenschaften sind jedoch bisher sehr unterschiedlich ausgeprägt. Erkennbar sind jedoch zunehmend spezifische Vorgaben seitens der Förderer. So werden die sogenannten FAIR-Prinzipien (Wilkinson et al. 2016) mittlerweile im Kodex zur guten wissenschaftlichen Praxis der DFG als Maßstab herangezogen: „ Findable, Accessible, Interoperable, Reusable “ sollen Forschungsdaten sein (DFG 2019: 19). In Bezug auf die Umsetzung dieser Prinzipien in der Praxis der Transkription und Annotation gesprochener Sprache und multimodaler Interaktion sind allerdings viele Fragen noch offen. Auch deren Beziehung zu Datenqualität, die auch zunehmend thematisiert wird (vgl. RfII 2019), ist nicht offensichtlich. Das Thema „ (digitales) Forschungsdatenmanagement “ bekommt in Deutschland, wie viele Themen im Bereich der Digitalisierung, erst seit relativ kurzer Zeit diese Aufmerksamkeit, vor allem in den Geistes- und Sozialwissenschaften. Auf EU-Ebene, etwa im Rahmen der Horizon-2020-Förderlinie, wurde das Forschungsdatenmanagement jedoch bereits stärker in die Bewertung von Anträgen und Vorhaben miteinbezogen (European Commission 2019A, 2019B). In Großbritannien, wo das Digital Curation Centre 4 für die Kuration und Archivierung von Forschungsdaten bereits 2005 eingerichtet wurde und die Entwicklung entsprechend weiter ist, legen einige Förderer sogar Fristen für die Überführung erhobener Forschungsdaten in einschlägige Repositorien fest - und schließen ohne entsprechenden Nachweis weitere Förderung aus (ESRC 2021). 1 www.exmaralda.org 2 http: / / agd.ids-mannheim.de/ folker.shtml 3 https: / / archive.mpi.nl/ tla/ elan 4 https: / / www.dcc.ac.uk/ 346 Hanna Hedeland Bevor in den folgenden Abschnitten des Artikels näher auf die FAIR- Prinzipien und verwandte Qualitätskriterien eingegangen wird, sollte noch einmal verdeutlicht werden, dass Digitalisierung sprachwissenschaftlicher Forschung nicht etwa mit „ Digital Humanities “ gleichzusetzen ist, und keineswegs bedeutet, dass korpuslinguistische oder im Allgemeinen quantitative Methoden bevorzugt werden. Sprachwissenschaftliche Forschung hat sich in dieser Hinsicht zwar mehrfach von gesellschaftlichen Entwicklungen beeinflussen lassen, sowohl in den Anfängen der EDV als auch heute durch „ big data “ und maschinelles Lernen, aber Digitalisierung bedeutet nicht, dass existierende Methoden ersetzt werden, sondern sollte vielmehr die Arbeit nach existierenden Methoden unter Bewahrung ihrer definierenden Eigenschaften erleichtern und für Dritte transparenter und intersubjektiv nachvollziehbar machen. Es geht dabei einerseits um das Delegieren geeigneter Aufgaben an den Computer, wie etwa die Entdeckung von Tippfehlern oder die Verwaltung verschiedener Versionen von Dateien, um den Forschenden mehr Zeit für die eigentlichen Forschungsaufgaben zu geben. Die Vorteile von Computerunterstützung im Daten- und Informationsmanagement ist vielen durch die Literaturverwaltung bekannt - die eben auch nicht etwa die Konventionen für das wissenschaftliche Zitieren bestimmt, sondern bei deren Umsetzung hilft. Anderseits eröffnen sich aber auch tatsächlich durch die Digitalisierung neue Möglichkeiten für die Erstellung und Analyse von Transkriptionsdaten. Die manuelle Transkription mit geeigneter Software ermöglicht grundsätzlich eine genauere Erfassung, ein digitales Transkript kann mit direkt verfügbarem aligniertem Audio auf verschiedene Weise dargestellt werden und bietet somit ganz andere Möglichkeiten als die herkömmliche Papierversion. Die Darstellung von Transkriptionsdaten als Transkript wurde bisher möglicherweise auch stärker von zur Verfügung stehender Technologie bestimmt, als generell wahrgenommen und reflektiert wird, oder anders formuliert: Haben Transkripte in Partiturnotation im Gegensatz zu Gesprächsverläufen Zeilen bzw. Partiturflächen aus methodologischen Gründen, oder vielleicht doch einfach, weil sie mit der Schreibmaschine erstellt und auf Papier gelesen wurden - und nicht auf einem Bildschirm, der das Scrollen über den ununterbrochenen Gesprächsverlauf ermöglicht? Dieser Beitrag basiert auf vielfältigen Erfahrungen der letzten zehn Jahre in der Beratung und konkreten Unterstützung von Forschenden aus verschiedenen Disziplinen, deren empirische Basis Transkriptionsdaten ausmachen, und in Bezug auf verschiedene Aspekte dessen, was heutzutage als Forschungsdatenmanagement bezeichnet wird. Diese Arbeit innerhalb eines Sonderforschunsgbereichs sowie im Rahmen des Aufbaus und der operativen Leitung eines Forschungsdatenzentrums fand in einem Zeitraum statt, in dem sich die Voraussetzungen und auch die Anforderungen an das (digitale) Forschungs- FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 347 datenmanagement sehr stark verändert haben. Der Kenntnisstand, die Einstellungen und die Arbeitsweisen der Forschenden sind dadurch auch in dieser Hinsicht zurzeit sehr heterogen. Vor diesem Hintergrund wendet sich der Beitrag an Forschende in den Sprachwissenschaften, die sich im digitalen Wandel zurechtfinden und ihre digitale Expertise erweitern und vertiefen wollen, um so informierte Entscheidungen treffen und die Digitalisierung in ihrem Bereich selbstgestaltend vorantreiben zu können. Der Beitrag möchte dabei auch zur Diskussion anregen, indem er aufzeigt, dass die konkreten Anforderungen in Bezug auf das digitale Forschungsdatenmanagement und die Datenqualität stets von den Fachgemeinschaften herausgearbeitet werden müssen. Da diese Fragen jedoch im Dialog mit Vertretern von Archiven und Forschungsdatenzentren beantwortet werden müssen, kann dieser Beitrag auch das gegenseitige Verständnis und die Kommunikation unterstützen und verbessern, da die besonderen Eigenschaften sprachwissenschaftlicher Forschungsdaten, von denen Transkriptionsdaten eine Art sind, nur in Ausnahmefällen außerhalb der Fachgemeinschaften hinreichend bekannt sind. Schließlich möchte der Beitrag auch möglichst eindeutige Empfehlungen für die Arbeit mit Transkriptionsdaten geben, um Forschenden ohne entsprechende technisch-methodologische Vorkenntnisse eine solide Orientierung zu bieten. Daher sind nach jedem Abschnitt konkrete Hinweise als Empfehlungen aufgeführt, die bei der Erstellung FAIRer Daten hilfreich sein können. Gleichzeitig, und das wird auch thematisiert, können in einigen Fällen kaum konkrete Empfehlungen angeboten werden, da diese eben erst durch die Fachgemeinschaften ausgearbeitet werden müssen. Trotzdem können in den meisten Fällen grundlegende Richtungen oder Eigenschaften genannt werden. Zu diesem Zweck wird auch auf die Handreichungen der DFG zur Erhebung und Handhabung von Sprachkorpora (DFG-Fachkollegium 104 2013, 2019) sowie auf den Dienstekatalog der DHd-Datenzentren 5 , die CLARIN ERIC Service 6 und Knowledge Centres 7 und vor allem die Partner der NFDI-Konsortien, wie etwa Text+ 8 für text- und sprachbasierte Forschungsdaten, hingewiesen, denn diese Institutionen stehen Forschenden beratend und unterstützend zur Verfügung. Die Einleitung abschließend folgen einige Hinweise zur Struktur dieses Beitrags. Im Kapitel 2 werden zunächst Grundlagen des digitalen Forschungsdatenmanagements sowie die aktuellen Entwicklungen im Bereich digitale Forschungs(daten)infrastrukturen skizziert. Im Kapitel 3 werden die FAIR- 5 https: / / dhd-ag-datenzentren-dienstekatalog.github.io/ 6 https: / / www.clarin.eu/ content/ standards-and-formats#formats 7 https: / / www.clarin.eu/ content/ knowledge-centres 8 https: / / www.text-plus.org/ 348 Hanna Hedeland Prinzipien eingeführt und einige darauf aufbauende allgemeinere Empfehlungen in Bezug auf die Arbeit mit Transkriptionsdaten vorgestellt. Danach werden im Kapitel 4 wiederum Transkriptionsdaten als Ausgangspunkt gewählt und genauer analysiert und beschrieben. Es werden in diesem Rahmen vorhandene gute Praktiken als Empfehlungen dargestellt und zusätzlich mit den relevanten FAIR-Prinzipien in Beziehung gesetzt sowie teilweise in Hinblick auf die FAIR- Prinzipien ergänzt. Die Empfehlungen folgen immer abschließend nach der Einführung und Diskussion eines Themas. Kapitel 5 beinhaltet zum Schluss einige offene Fragen. 2 Digitale Forschungsdaten und -infrastrukturen Die zunehmende Verwendung digitaler - digitalisierter und born-digital - sprachwissenschaftlicher Forschungsdaten vereinfacht die Verfügbarmachung solcher Daten zur Überprüfung, Zusammenarbeit oder Nachnutzung. Durch die Etablierung entsprechender digitaler Forschungsinfrastrukturen wird eine angemessene Handhabung der Forschungsdaten in allen Phasen ihres Lebenszyklus ermöglicht, insbesondere können auch Fragen der Zugangsbeschränkung berücksichtigt werden. Abbildung 1 zeigt diese Phasen von der Planung, Erhebung, Verarbeitung und Analyse im ursprünglichen Forschungsprojekt, über die sorgfältige Dokumentation und Verfügbarmachung durch das Forschungsprojekt in Zusammenarbeit mit einem geeigneten Archiv oder Forschungsdatenzentrum, bis zur Nachnutzung in einem neuen Kontext, nachdem die Daten von anderen Forschenden aufgefunden worden sind. Das Forschungsdatenmanagement im Rahmen eines bestimmten Forschungsprojekts wird durch einen entsprechenden Datenmanagementplan dargestellt, der während der gesamten Projektlaufzeit aktuell gehalten wird. Dieser enthält alle Informationen zu den im Vorhaben relevanten Daten und ist sowohl für die eigene Arbeit als auch z. B. in Bezug auf datenschutzrechtliche Fragen, etwa zugriffsberechtigte Personen und Maßnahmen, die den unbefugten Zugriff verhindern sollen, unerlässlich. Viele Aspekte des Forschungsdatenmanagements sind disziplinenunabhängig, insbesondere die eher technisch-administrativen, z. B. Backupstrategien und Anforderungen an Dateibenennungskonventionen, denn jede Art von Forschungsdaten muss verlässlich gesichert sowie systematisch geordnet und benannt werden. Unterstützung in diesen Fragen können Kooperationspartner, die einem Vorhaben im Bereich des Forschungsdatenmanagements zur Seite stehen, bieten. FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 349 Abb. 1: Der Forschungsdatenzyklus beschreibt den Lebenszyklus von Forschungsdaten in verschiedenen Phasen eines Forschungsvorhabens. 9 Seit mehr als zehn Jahren wird in Deutschland der Aufbau digitaler Forschungsinfrastrukturen für die Geistes- und Sozialwissenschaften gefördert. Durch diese Förderung sind sowohl eine Vielzahl individueller eHumanities-Zentren des BMBF, als auch die beiden zentrenbasierten Forschungsinfrastrukturen CLARIN-D und DARIAH-DE, die nach deren Zusammenlegung in Form von CLARIAH-DE 10 weitergeführt wurden, entstanden. Zurzeit wird in Deutschland eine nationale Forschungsdateninfrastruktur (NFDI) 11 durch Konsortien mit thematischer oder fachspezifischer Ausrichtung aufgebaut. Diese steht Forschenden aller Fachrichtungen zur Verfügung - für die sprachbasierte Forschung in den Geistes- und Sozialwissenschaften bisher in Form der Konsortien Text+ 12 , NFDI4Culture 13 , (immaterielles Kulturerbe) KonsortSWD 14 (Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften) und NFDI4Memory 15 (historische Fragestellungen und Methoden). 9 Alle Abbildungen stammen von der Autorin. 10 https: / / www.clariah.de/ 11 https: / / www.dfg.de/ foerderung/ programme/ nfdi/ 12 https: / / www.text-plus.org/ 13 https: / / nfdi4culture.de 14 https: / / www.konsortswd.de/ 15 https: / / 4memory.de/ 350 Hanna Hedeland Die digitalen Forschungsinfrastrukturen ermöglichen zwar die kontrollierte Verfügbarmachung und Nachnutzung der Daten, allerdings ist die tatsächliche Nachnutzbarkeit von Forschungsdaten immer noch von der Datenqualität und der intersubjektiven Nachvollziehbarkeit fremder Daten abhängig. Der Blick hat sich daher von technisch-administrativen Rahmenbedingungen, wie einschlägigen Forschungsdatenrepositorien und angemessenen Lösungen für den Datenzugriff, zu den Eigenschaften der nachzunutzenden Forschungsdaten selbst bewegt. So hat der vom Wissenschaftsrat 2014 eingerichtete Rat für Informationsinfrastrukturen (RfII) in Hinblick auf die Gestaltung des systematischen digitalen Forschungsdatenmanagements in Deutschland eine Publikation mit dem Titel „ Herausforderung Datenqualität “ herausgegeben, in der die Sicherung und Steigerung von Datenqualität als Grundwert der guten wissenschaftlichen Praxis bestimmt wird (RfII 2019: 3). Auch die DFG beschreibt im Impulspapier zum Digitalen Wandel in den Wissenschaften die Auseinandersetzung mit Gütekriterien und die Etablierung von Metadatenstandards als einen festen Bestandteil der Forschungspraxis (DFG 2020: 9). Während für Archive und Forschungsdatenzentren bereits mehrere Zertifizierungsprozesse existieren (bspw. das CoreTrustSeal 16 und das nestor-Siegel 17 bzw. DIN 31644: 2012-04 18 ), sind Kriterien und Zertifizierungen für digitale Sprachressourcen noch Desiderata. Die FAIR-Prinzipien gelten zwar für die Daten selbst, gleichzeitig sind sprachwissenschaftliche Forschungsdaten nicht nur als erhobene Daten zu betrachten, sondern auch als Ergebnis des Forschungsvorhabens, in dessen Rahmen sie erstellt werden. Die Frage nach in dieser Hinsicht angemessenen Qualitäts- und Gütekriterien wird von den FAIR- Prinzipien zunächst gewissermaßen ausgeklammert, ist allerdings entscheidend für das Nachnutzungspotenzial. 3 FAIR-Prinzipien für Transkriptionsdaten Die FAIR-Prinzipien wurden 2016 (Wilkinson et al. 2016) aufgestellt und bilden heute eine wichtige Grundlage für jede Institution, die sich mit Forschungsdatenmanagement beschäftigt, auch für die bisher bewilligten Konsortien der nationalen Forschungsdateninfrastruktur (NFDI) 19 aus den Geistes- und Sozialwissenschaften. So werden sie direkt auf der Hauptseite des Webauftritts des 16 https: / / www.coretrustseal.org/ 17 https: / / www.langzeitarchivierung.de/ Webs/ nestor/ DE/ Zertifizierung/ nestor_Siegel/ nes tor_siegel_node.html 18 https: / / www.beuth.de/ de/ norm/ din-31644/ 147058907 19 https: / / www.dfg.de/ foerderung/ programme/ nfdi/ index.html FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 351 NFDI4Culture 20 , auf der ersten Seite des veröffentlichten Antrags des KonsortSWD 21 sowie im Bereich des Datenmanagement bei der Webseite von Text+ 22 genannt. Die Prinzipien beschreiben vier grundlegende Eigenschaften, die Forschungsdaten besitzen sollten: To be Findable: F1. (meta)data are assigned a globally unique and persistent identifier F2. data are described with rich metadata (defined by R1 below) F3. metadata clearly and explicitly include the identifier of the data it describes F4. (meta)data are registered or indexed in a searchable resource To be Accessible: A1. (meta)data are retrievable by their identifier using a standardized communications protocol A1.1 the protocol is open, free, and universally implementable A1.2 the protocol allows for an authentication and authorization procedure, where necessary A2. metadata are accessible, even when the data are no longer available To be Interoperable: I1. (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation. I2. (meta)data use vocabularies that follow FAIR principles I3. (meta)data include qualified references to other (meta)data To be Reusable: R1. meta(data) are richly described with a plurality of accurate and relevant attributes R1.1. (meta)data are released with a clear and accessible data usage license R1.2. (meta)data are associated with detailed provenance R1.3. (meta)data meet domain-relevant community standards Die Definitionen der einzelnen Prinzipien machen deutlich, dass nicht alles in der Hand einzelner Forschender liegt. Insbesondere die nachhaltige Auffind- 20 https: / / nfdi4culture.de/ 21 http: / / doi.org/ 10.5281/ zenodo.4446457 22 https: / / www.text-plus.org/ forschungsdaten/ datenmanagement/ 352 Hanna Hedeland barkeit (F - Findable) und Verfügbarkeit (A - Accessible) durch die Umsetzung angemessener Zugangsregelungen sind Aufgaben von Archiven oder Forschungsdatenzentren. Sie registrieren für die Ressource einen persistenten Identifizierer (PID), d. h. einen besonderen Link, der über eine Weiterleitung gültig bleibt, auch wenn die Ressource physisch umzieht (F1) und der direkte Link sich entsprechend ändert. Solche PIDs sind auch außerhalb der Welt des Forschungsdatenmanagements bekannt, da auch Online-Publikationen mittlerweile häufig mit einem PID in Form eines Digital Object Identifier (DOI) versehen werden, damit sie langfristig auffindbar bleiben. Archive oder Forschungsdatenzentren fügen diesen PID in die standardisierten Metadaten ein (F3) und liefern diese über hierfür vorgesehene Schnittstellen aus. Die Katalogmetadaten, eine grundlegende standardisierte Beschreibung der Ressource, stehen öffentlich zur Verfügung und können dadurch über lokale oder externe Suchportale aufgefunden werden (F4), sogar dann, wenn die Ressource selbst irgendwann nicht mehr verfügbar sein soll(te) (A2). Auch die technischen Anforderungen an den Zugriff der Daten (A1) werden von Archiven oder Forschungsdatenzentren für alle vorgehaltenen Ressourcen erfüllt, die Aufgabe der Forschenden ist es hier lediglich, geeignete Kooperationspartner für die Erfüllung dieser Anforderungen auszusuchen. Die Anforderungen können allerdings zum Teil nur dann umgesetzt werden, wenn die für die Beschreibung von und den Zugang zu der Ressource notwendigen Informationen mit den Daten zusammen übergeben werden. Die erforderlichen „ rich metadata “ (F2) sowie die für die Frage nach einer geeigneten Zugangsbeschränkung (A1.2) relevanten Informationen sind nur über das datenerstellende Projekt zu bekommen. Im Idealfall wird heute, da Förderer in der Regel Angaben zur nachhaltigen Verfügbarkeit der Daten erwarten, bereits bei der Antragstellung bzw. der Planung des Forschungsvorhabens Kontakt zu einem einschlägigen Archiv oder Forschungsdatenzentrum aufgenommen und eine Kooperation für die spätere Archivierung und Verfügbarmachung (von bestimmten Teilen) der Daten vereinbart. In Absprache mit dem Kooperationspartner und dem Datenschutzbeauftragten und/ oder der Rechtsabteilung der eigenen Institution sollten zudem die rechtlichen Rahmenbedingungen geklärt werden sowie, wenn möglich, ein Ethikvotum eingeholt werden. Viele wichtige Aspekte des Forschungsdatenmanagements und der Verfügbarmachung von Forschungsdaten lassen sich nachträglich, wenn überhaupt, nur mit sehr großem Aufwand berücksichtigen. Wenn möglich, sollten daher im Vorfeld alle Fragen zu den rechtlichen, administrativen und technischen Aspekten der Vorhaltung und Verarbeitung geklärt werden, und zwar sowohl für die Arbeit während der Projektlaufzeit, für die spätere Archivierung zur Sicherung guter wissenschaftlicher Praxis sowie für die nachhaltige Verfüg- FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 353 barmachung und Nachnutzung der Forschungsdaten. Die in der Einleitung genannten Experten in Archiven und Forschungsdatenzentren sind da, um in diesen Fragen zu beraten und zu unterstützen, unabhängig davon, in welcher Phase das Projekt sich befindet. Empfehlung Auffindbarkeit (F) und Zugänglichkeit (A) Um alle Aspekte der Auffindbarkeit und Zugänglichkeit sicherzustellen, müssen Forschende mit einem geeigneten Archiv oder Forschungsdatenzentrum zusammenarbeiten, das diese Aufgaben für sie übernimmt. Zusätzlich zu der allgemeinen Vertrauenswürdigkeit der Institution, die anhand entsprechender Zertifikate zu erkennen ist, sollten einige weitere Aspekte entsprechend den Bedarfen des Forschungsvorhabens überprüft werden. Das sind einerseits Fragen zu der Zitierfähigkeit bestimmter Teile, etwa einzelner Transkripte, einer Ressource (F1), andererseits genauere Angaben zu den Portalen und Katalogen, bei denen die Daten später gefunden werden können (F4). Sehr wichtig ist auch die Frage, wie der kontrollierte Zugriff durch Dritte umgesetzt wird, insbesondere, wer über die Zugänge entscheidet (A1.2). Während die Auffindbarkeit und die Zugänglichkeit zu einem großen Teil also dem Aufgabenbereich von Archiven und Forschungsdatenzentren angehören, geht es bei den Prinzipien zu Interoperabilität und Nachnutzbarkeit um Anforderungen, die direkt für die datenerstellenden Forschenden relevant sind. Sie werden daher hier kurz vorgestellt, in den folgenden Teilen des Beitrags dann ausführlicher behandelt. Im Bereich Interoperabilität (I - Interoperable) sind hauptsächlich I1 und I2, die Eigenschaften der formalen Sprache und der Vokabulare beschreiben, die für die Repräsentation der Daten und Metadaten verwendet werden sollen, relevant, für Transkriptionsdaten jedoch bisher sehr unüblich. Mit den geforderten formalen, offenen Sprachen für die Datenrepräsentation und Vokabularen für verwendete Kategorien, die ebenso FAIR sind wie die Daten selbst, können Daten über die syntaktische Interoperabilität hinaus auch im Idealfall semantisch interoperabel werden. Die syntaktische Interoperabilität ist für viele Dateiformate für Transkriptionsdaten hergestellt, da sie mit entsprechender Software ineinander (verlustfrei) überführt werden können. Ein gemeinsames Dateiformat reicht aber nicht aus, wenn die Konventionen für die Repräsentation verschiedener Phänomene in den Daten unterschiedlich oder gar nicht vorhanden sind für die jeweiligen Datenbestände. So können sie nicht gemeinsam abgefragt bzw. analysiert werden. Gleichzeitig kann eine semantische Interoperabilität nur für Einheiten und Eigen- 354 Hanna Hedeland schaften, die tatsächlich in mehreren Datenständen vorhanden, aber auf verschiedene Art ausgezeichnet sind, hergestellt werden. Grundlegend sind dabei beispielsweise die Sprecherzuordnung sowie die Unterscheidung von (orthographisch) transkribiertem Text gegenüber anderen Einheiten wie Pausen, nonverbalem Verhalten oder weiteren Informationen und Kommentaren zum transkribierten Text. Erst durch Herstellung semantischer Interoperabilität werden Daten verschiedener Herkunft vergleichbar und können zusammen ausgewertet werden. Das Prinzip I3 fordert darüber hinaus Verweise auf relevante verwandte Daten oder Metadaten, um so eine Vernetzung der Ressource zu ermöglichen. Hier ist das Expertenwissen der Datenersteller in Bezug auf das aktuelle Gebiet gefragt. Empfehlung Interoperabilität (I) Dateiformate sollten, da für Transkriptionsdaten weitverbreitete Lösungen im engeren Sinne von I1 bisher fehlen, so gewählt sein, dass die Daten in möglichst viele andere relevante Dateiformate überführt werden können, um von verschiedenen Werkzeugen gelesen und verarbeitet werden zu können. Dafür müssen die Dateiformate mindestens offen und gut dokumentiert sein. Wenn möglich, sollte auf offen zugängliche Vokabulare verlinkt werden, um die in den Daten verwendeten Konzepte und Definitionen möglichst eindeutig zu beschreiben. Auch die Ressource selbst sollte über Links auf andere relevante Daten verweisen. In Bezug auf die Nachnutzbarkeit (R - Reusable) wird zunächst übergreifend „ a plurality of accurate and relevant attributes “ für die Beschreibung der (Meta) Daten gefordert. Dabei ist R1.1, das Informationen zur Lizenz und zu den Nutzungsbedingungen fordert, relativ eindeutig, die weiteren Prinzipien jedoch eher vage. R1.2 besagt, dass die Herkunft der (Meta)Daten detailliert beschrieben werden soll, und in R1.3 wird lediglich auf „ domain-relevant community standards “ verwiesen. Aufgrund der inhärenten Vagheit von Prinzipien wurden zusätzlich Metriken für deren Überprüfung aufgestellt (Wilkinson et al. 2018). So gibt es auch für R1.3 eine Metrik, die eine Zertifizierung durch eine Zertifizierungsstelle vorsieht, gleichzeitig aber in einem Kommentar festhält: „ Such certification services may not exist, but this principle serves to encourage the community to create both the standard(s) and the verification services for those standards. “ . Wieder wird auf die Zuständigkeit der Communities, die Anforderungen für die Arbeit mit digitalen Forschungsdaten herauszuarbeiten, hingewiesen. Diese Arbeit ist noch in vollem Gange. Dementsprechend wurde die DFG-Handreichung zu datentechnischen Standards bei der Erhebung von Sprach- FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 355 korpora in Gesprächen innerhalb der Fachcommunities erarbeitet und bereits in einer zweiten aktualisierten Ausgabe publiziert (DFG-Fachkollegium 104 2019). Empfehlung Nachnutzbarkeit (R) In Hinblick auf die Nachnutzbarkeit sollten relevante und aktuelle fachspezifische Dateiformate und weitere Standards eingesetzt werden. Insbesondere dann, wenn es sich bei den Kooperationspartnern für das Forschungsdatenmanagement um ein generisches bzw. institutionelles Forschungsdatenzentrum (z. B. ein Zentrum für Forschungsdaten aller Fachrichtungen einer Hochschule) handelt, müssen Forschende ggf. selbst über die notwendigen Informationen hierzu verfügen. Die Handreichungen des DFG-Fachkollegium 104 „ Sprachwissenschaften “ (vgl. DFG-Fachkollegium 104 2019) sowie die in der Einleitung aufgeführten Institutionen können in diesen Fragen Auskunft geben. 4 Transkriptionsdaten in der digitalen Sprachressource Transkriptionsdaten sind üblicherweise Bestandteil einer umfassenden, in diesem Fall digitalen Ressource. Abbildung 2 zeigt die Komplexität einer derartigen Ressource, die aus vielen Objekten verschiedener Datentypen besteht, die jeweils in unterschiedlichen Beziehungen zu anderen Daten- und Metadatenobjekten stehen. Einige Objekte sind in diesem Modell abstrakt und dienen nur der Strukturierung als „ Behälter “ für zusammengehörende Daten- und Metadaten, wie Objekte für kommunikative Ereignisse, für die Teilnehmenden an den Ereignissen, oder für die Gesamtressource. Andere Objekte entsprechen physischen Daten wie einer Aufnahme oder einem Transkript, die allerdings auch in verschiedenen konkreten Dateiformaten vorliegen können, z. B. jeweils optimiert für die Archivierung oder die Distribution über ein Webportal. Nicht jede Art Ressource weist allerdings eine derartig hohe Vielfalt an Datentypen oder eine derartig hohe Komplexität auf. Teilweise werden beispielsweise Personen nicht als eigenständiges Datum modelliert, sondern lediglich als Teil der Informationen zu den kommunikativen Ereignissen aufgeführt. Genauso werden Ereignisse teilweise auch lediglich als Informationen zum Transkript behandelt, nicht als eigenständige Daten. Diese vermeintlichen Vereinfachungen, die eine Reduktion der verschiedenen Datentypen bewirken, erschweren allerdings die Überprüfung der Datenkonsistenz, z. B. wenn Personen an mehreren kommunikativen Ereignissen teilnehmen und deren grundlegende Eigenschaften daher mehrfach und redundant aufgeführt werden müssen. 356 Hanna Hedeland Abb. 2: Eine digitale Ressource mit Transkriptionsdaten. Empfehlung Nachnutzbarkeit (R1.1, R1.2, R1.3) Der Datenmanagementplan sollte genau beschreiben, welche Datentypen und dementsprechend Dateiformate die Ressource enthalten wird; auch sollte explizit festgehalten werden, welche Ordnerstruktur und Dateibenennungskonventionen jeweils verwendet werden sollen. Auf dieser Grundlage können eindeutige Angaben zu allen Verarbeitungsschritten und Vorgehensweisen, die die Einhaltung der disziplin- und ressourcentypspezifischen Standards und Konventionen sichern, gemacht werden. Auch die jeweiligen Weitergabemöglichkeiten einzelner Dateien sollten eindeutig festgehalten werden. Um die Herkunft der Daten genau beschreiben zu können (R1.2), sollten die Prozesse der Datenerhebung und -erstellung reflektiert und erfasst werden. Abbildung 3 zeigt die Entstehungsprozesse von den verschiedenen im Kontext von Transkriptionsdaten relevanten Datentypen. Die erste Ebene, die Aufnahmesituation, wird durch die Aufnahmen und erhobenen Informationen zum Kontext, also zum kommunikativen Ereignis und den Teilnehmenden, entsprechend den Bedarfen des Forschungsvorhabens beschrieben. Die Aufnahmesituation wird für die weitere Analyse auf Aufnahmen und Kontextdaten reduziert, die für das Forschungsvorhaben stellvertretend für die ursprüngliche Aufnahmesituation stehen. Teilweise werden diese Daten zudem in mehreren Schritten verarbeitet, z. B. indem detaillierte Kontextdaten auf Standardwerten oder -bereichen abgebildet und Rohaufnahmen geschnitten oder hinsichtlich FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 357 der Tonqualität bearbeitet werden. Die Prozesse der Transkription selbst wurden seit Ochs (1979) mehrfach thematisiert und problematisiert (z. B. Cook 1990, Kowal & O ’ Connell 2000, Dittmar 2004) und werden in diesem Beitrag später weiter ausgeführt. Abb. 3: Entstehungsprozesse von Transkriptionsdaten. Empfehlung Nachnutzbarkeit (R1, R1.2, R1.3) Da außerhalb der ursprünglichen Aufnahmesituation nur bedingt Zugriff auf Kontextdaten (Informationen zum kommunikativen Ereignis und den Teilnehmenden) möglich ist, sollten diese am besten sofort festgehalten und unverzüglich unter Einhaltung datenschutzrechtlicher Auflagen in hierfür vorgesehenen digitalen Formaten, wenn möglich nach anerkannten Konventionen, gesichert werden. In den Sprachwissenschaften wird häufig von Metadaten bzw. Sprechermetadaten und Kommunikations- oder (Sprech-)Ereignismetadaten gesprochen, wenn Informationen zum Erhebungskontext und den Teilnehmenden eines kommunikativen Ereignisses gemeint sind. In Abbildung 2 wird jedoch bewusst unterschieden zwischen einerseits Kontextdaten, die diese für ein Forschungsvorhaben relevante Aspekte des Erhebungskontexts dokumentieren, und anderseits Metadaten im engeren Sinn. Letzterer Begriff wird hier ausschließlich 358 Hanna Hedeland verwendet für Informationen über die Objekte der digitalen Ressource inklusive der Verfahren, die im Rahmen eines Forschungsvorhabens für ihre Erstellung angewendet werden. Unabhängig davon, ob sie sich in der Benennung der Informationen als jeweils Kontextdaten bzw. Metadaten widerspiegelt oder nicht, ist diese Unterscheidung von theoretischer und praktischer Bedeutung, denn es handelt sich um Informationen von sehr unterschiedlicher Qualität. Brinker & Sager (2006: 47) unterscheiden in Bezug auf Transkripte in diesem Sinne zwischen einerseits „ Angaben über die soziale Situation des kommunikativen Ereignisses “ und andererseits „ Angaben über das Transkript selbst und seine technisch methodischen Aspekte “ . Da die relevanten Angaben und somit die erforderlichen Kontextdaten letztendlich vom spezifischen Forschungsvorhaben bestimmt werden, und auch grundlegende Eigenschaften oder soziodemographische Merkmale der Teilnehmenden je nach Aufnahmesituation bzw. Feldzugang nicht immer erhoben werden können, ist eine zwingende Standardisierung in diesem Bereich, auch wenn sie für die breite Nachnutzung natürlich sehr förderlich wäre, nicht möglich oder sinnvoll. Die Erfassung der Metadaten zur Herkunft und Erstellung der Daten im Sinne einer Verfahrensdokumentation sollte hingegen stets möglich sein, denn den Forschenden ist immer bekannt, wer ihre Daten, ihre empirische Grundlage, auf welche Weise erstellt hat. Da, wie bereits von Ochs (1979) thematisiert wurde (vgl. auch Schmidt 2005), die Transkription niemals eine objektive Darstellung des kommunikativen Ereignisses sein kann, ist eine genaue Dokumentation über die Entscheidungen, die für die Erstellung des Transkripts relevant waren, für eine mögliche Nachnutzung entscheidend. Forschende sollten dementsprechend in Bezug auf Entscheidungen bei der Transkription „ genaue Rechenschaft ablegen “ (Deppermann 2001: 46). Dazu gehört die Frage, welche Konventionen und weitere Kategorien bei der Transkription benutzt wurden, sowie auch die Auswahl und Darstellung der Kontextdaten. Zusätzlich zu den strukturierten Metadaten kann, insbesondere da in diesem Bereich keine ausreichende Standardisierung erfolgt ist, ein eigenständiges Dokument für die Beschreibung der Daten und des Entstehungskontexts hilfreich sein, z. B. in Form eines Studienreports (Heuer et al. 2020). Empfehlung Nachnutzbarkeit (R1, R1.2, R1.3) Die Verfahrensdokumentation sollte ermöglichen, dass potentielle Nachnutzende die Eigenschaften der Forschungsdaten nachvollziehen können. Da noch keine einheitlichen Standards hierfür existieren, bleibt auch in Bezug auf die Datengrundlage das Ziel, die intersubjektive Nachvollziehbarkeit zu ermöglichen. FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 359 Metadaten, die sich auf die Auffindbarkeit und den Zugriff beziehen, müssen zwangsläufig öffentlich sein und generischen Standards entsprechen. Je detaillierter die öffentlichen Metadaten auch in Bezug auf die Voraussetzungen für Interoperabilität und die inhaltlichen Beschreibungen sind, umso eher können von potentiellen Nachnutzenden Entscheidungen bezüglich der Eignung in einem bestimmten Nachnutzungsszenario getroffen werden. Allerdings können Kontextdaten aus Datenschutzgründen in vielen Fällen nicht öffentlich verfügbar gemacht werden. In Hinblick auf die Werte, beispielsweise für beherrschte Sprachen oder Bildungsniveau, sollte laut I2 auch auf Vokabulare, d. h. Listen vorgegebener Werte, die den FAIR-Prinzipien genügen, zurückgegriffen werden. Dies wird vor allem im Bereich generischer Standards, etwa Angaben zu (Standard-)Sprachen oder Ländern, möglich sein, durchgängig zurzeit aber kaum. Empfehlung Interoperabilität (I1, I2, I3), Auffindbarkeit (F2) und Nachnutzbarkeit (R1.1) Die Verwendung generischer Standards bei den Dateiformaten der öffentlich verfügbaren Metadaten (Katalogmetadaten) sowie die Verwendung offen zugänglicher standardisierter Vokabulare für die enthaltenen Werte verbessern die Interoperabilität. Dies gilt auch für die später ggf. nicht öffentlich verfügbaren Kontextdaten. Genaue Angaben zu den Nutzungsbedingungen und Möglichkeiten des Datenzugriffs ist für die Nachnutzbarkeit von Vorteil. Insbesondere in den öffentlichen Metadaten sind Verweise auf weitere relevante Daten hilfreich für die Einordnung und Interpretation der Daten. 4.1 Transkriptionsdaten als Datentyp Nicht nur die Gesamtressource, sondern auch die einzelnen Transkripte selbst sind in vielen Fällen hoch komplex. Neben den im Signal enthaltenen gesprochenen Wörtern werden andere selbständige, beispielsweise nonverbale, und von den Wörtern abhängige, beispielsweise para-linguistische oder analytische, Informationstypen erfasst. Für die Kennzeichnung und Strukturierung verschiedener Informationstypen wurden bei der Transkription traditionell Layout, Formatierung und spezielle Symbole genutzt, die allerdings jeweils die möglichen Interpretationen des kommunikativen Ereignisses beeinflussen (z. B. Ochs 1979, Edwards 1993). Um interoperable Daten entsprechend den FAIR-Prinzipien zu erstellen, sollte zunächst kein entsprechendes digitales Textdokument, sondern ein für die Erfassung gesprochensprachlicher Transkriptionsdaten geschaffenes struktu- 360 Hanna Hedeland riertes Datenformat, in der Regel auf Basis der Auszeichnungssprache XML 23 , verwendet werden. Die Vorteile ergeben sich aus den Möglichkeiten der Zeitalignierung sowie der verbesserten Durchsuchbarkeit und Weiterverarbeitung durch entsprechende Werkzeuge. Strukturierte Formate für Transkriptionsdaten können zusätzlich auf einem Datenmodell, das unabhängig vom Layout eines Transkripts ist, basieren (vgl. Schmidt 2005). Dadurch können einmal erfasste Daten automatisch in verschiedenen Formaten und Layouts wie Zeilennotation, Spaltennotation oder Partiturnotation (vgl. Edwards 1993: 10) visualisiert werden. Die Eigenschaften des zugrundeliegenden Modells bestimmen dabei die möglichen Eigenschaften der Transkriptionsdaten. Einige Formate, wie das vom Partitur-Editor des EXMARaLDA-Systems (Schmidt & Wörner 2014), legen weit verbreitete Eigenschaften von Transkriptionsdaten durch das Datenmodell fest, während andere, wie das EAF-Format des Annotationswerkzeugs ELAN (Sloetjes 2014), den Nutzenden mehr Gestaltungsspielraum bieten. Flexiblere Formate schränken daher nicht die Forschenden in der Hinsicht, dass bestimmte Informationstypen vorgesehen sind, ein, aber die Überprüfung der Daten und die Zusammenführung verschiedener Datenbestände werden wiederum komplizierter, da keine inhaltlichen Annahmen über die Daten aufgrund des Dateiformats gemacht werden können. Empfehlung Nachnutzbarkeit (R1.3) Ein strukturiertes, offenes und gut dokumentiertes Datenformat, das auf einem Datenmodell für Transkriptionsdaten basiert, bietet mehr Möglichkeiten für die Erstellung korrekter Daten sowie für die spätere Auswertung und Darstellung. Spezifischere Formate legen bereits einen Teil der Semantik fest, wodurch die Interoperabilität vereinfacht wird. Wenn ein flexibleres Format ohne Vorgaben hinsichtlich der Informationstypen verwendet wird, sollten ein angemessenes Modell und entsprechende Möglichkeiten, Korrektheit und Konsistenz der Daten zu überprüfen, im Rahmen des Forschungsvorhabens selbst entwickelt werden. Durch den Einsatz etablierter Formate wird die Nachnutzung erleichtert. Die Transkription ist nie theorieneutral (z. B. Edwards 1993: 3), sondern trifft Entscheidungen, um bewusst die Komplexität auf für das jeweilige Vorhaben relevante Aspekte zu reduzieren. Des Weiteren wird in vielen Fällen zwischen 23 https: / / www.w3.org/ XML/ FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 361 einer grundlegenden, weniger interpretativen und analytischen Transkription gegenüber einer Anreicherung mit zusätzlichen Informationen, der Annotation (auch Kodierung), unterschieden (vgl. Schmidt 2005). Dabei ist diese Trennung und somit die Entscheidung, welche Informationen primär und welche sekundär sind, stets relativ. So zählen im Transkriptionssystem CHAT sprachliche Handlungen nicht zur Transkription (MacWhinney 2020: 19), während in HIAT die sprachliche Handlung ein grundlegender Teil der Transkription ist (Redder 2002: 122). Ayaß (2015) zeigt wiederum, wie existierende Transkriptionssysteme, auch wenn sie Videoaufnahmen und Aspekte nonverbaler Kommunikation berücksichtigen, im Grunde für Audioaufnahmen entwickelt wurden und andere Dimensionen als die gesprochenen Wörter eher unterordnen. Ob sich alternative Transkriptionspraktiken durchsetzen, wird sich in den kommenden Jahren zeigen. Immerhin stehen mit der Digitalisierung und der Auffassung von Transkription als Modellierung und Visualisierung (vgl. Schmidt 2005) flexible Mittel hierfür zur Verfügung. Über bereits existierende Verfahren für die automatische Visualisierung von Transkriptionsdaten in verschiedenen verbreiteten Layouts hinaus, wären ganz neue Arten von Visualisierungen möglich, die nicht existierende für Papiere geschaffene Layouts imitieren, sondern etwa von den vielfältigen Möglichkeiten der Gestaltungsanweisungen des CSS 24 Gebrauch machen würden, um so die Eigenschaften und Anordnung verwendeter Zeichen und Elemente der Transkription entsprechend den Bedarfen des jeweiligen Forschungsvorhabens anzupassen. Für die Interoperabilität und Nachnutzbarkeit im Sinne der FAIR-Prinzipien ist die korrekte Verwendung existierender Transkriptionssysteme der einfachste Weg. Eine Vereinfachung der teilweise sehr komplexen Konventionen kann je nach Bedarf des aktuellen Forschungsvorhabens in Betracht gezogen werden. Im deutschen Sprachraum weit verbreitete Transkriptionssysteme sind HIAT (Rehbein et al. 2004) und GAT (Selting et al. 2009, Schmidt et al. 2015) sowie für Spracherwerbsforschung CHAT (MacWhinney 2020). Empfehlung Nachnutzbarkeit (R1.3) Um eine hohe Qualität der Transkription zu gewährleisten, sollten nur die Aspekte, die für das Forschungsvorhaben unbedingt notwendig sind, erfasst werden - möglichst ausgehend von existierenden Konventionen. Die verwendeten Transkriptionskonventionen, insbesondere projektspezifische Erweiterungen oder Änderungen, sollten sorgfältig dokumentiert werden. 24 https: / / www.w3.org/ Style/ CSS/ 362 Hanna Hedeland Nicht zuletzt aus Gründen der Effizienz und Einfachheit werden bei der Transkription gesprochener Sprache Transkriptionskonventionen, die auf der standardsprachlichen Orthographie basieren und zugleich Abweichungen von der Standardorthographie vorsehen, eingesetzt. Besonders in Fällen, in denen die nicht-standardsprachlichen Aspekte der Sprache relevant sind, erweist sich die Diskrepanz zwischen Standardorthographie und mündlicher Äußerungen als problematisch. Beispielsweise erfasst die Orthographie im Unterschied zu einer rein phonetischen Transkription mittels IPA gleichzeitig Informationen auf verschiedenen sprachlichen Ebenen, die streng genommen dem Sprachsignal nicht entnommen werden können. So ist es insbesondere in Spracherwerbskontexten nicht selbstverständlich, dass die geäußerten Wörter auch im mentalen Lexikon morphologisch analysiert worden sind, was die Abbildung durch die Standardorthographie jedoch nahelegt (MacWhinney 2020: 17). Dieses Problem tritt bereits bei der Zerlegung einer Äußerung in einzelne Wörter auf, denn die Leerzeichen der Orthographie entsprechen eben keinen Pausen im Sprachfluss. Die Orthographie wird daher häufig in Form einer literarischen Umschrift verwendet, um eine Annäherung an dialektale oder auf andere Weise von einem postulierten Standard abweichende Aussprache zu ermöglichen. Da die Orthographie keine eindeutige Beziehung zwischen Phonem und Graphem bietet, existieren allerdings hierfür keine allgemeingültigen Konventionen, und es kommt teilweise zu großer Variation in der Repräsentation desselben Phänomens (Burger & Kachelrieß 1996: 7). Es ist auch unklar, ob diese Varianten tatsächlich als solche behandelt und ausgewertet werden, oder als Wörter, die grundsätzlich der Standardsprache angehören und lediglich von einer abweichenden Aussprache gefärbt sind. Gumperz & Berenz (1993: 97) warnen zudem vor abwertenden Stereotypen beim Einsatz der literarischen Umschrift für Nichstandardvarietäten. Da die Verwendung der literarischen Umschrift ein unabdingbarer Bestandteil vieler Methoden der qualitativen Analyse ist, sollte deren Stellung in Bezug auf Datenqualität und Nachnutzbarkeit reflektiert werden. Es fehlen bislang Regeln für die Transkription, die reliabel von verschiedenen Transkribenten angewendet werden können, und die Transkription gilt zugleich als wichtiger Teil derAnalyse. So spricht z. B. Dittmar (2004: 55) von einer „ tendenziellen Unteilbarkeit des Forschungsprozesses “ und Psathas & Anderson (1990: 77) schließen sogar aus diesem Grund die Transkription durch einen Assistenten oder Berufstranskribenten aus. Diese Eigenschaften sind dementsprechend grundsätzlich in Hinblick auf die Nachnutzbarkeit durch andere Forschende problematisch. Des Weiteren werden durch die Verwendung literarischer Umschrift für Besonderheiten der Aussprache ohne eine zusätzliche normalisierte Form der Wörter auch die Möglichkeiten einer maschinellen Verarbeitung einschließlich der automatischen Auswertung stark ein- FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 363 geschränkt, wodurch die Vielfalt der Nachnutzungsszenarien ebenso wiederum eingeschränkt wird. Für deutsche Daten existiert für die GAT-Konventionen (Selting 2009) bereits eine erprobte semi-automatische Vorgehensweise für die Ergänzung um eine normalisierte Darstellung des transkribierten Textes. Solche Aufgaben der Datenaufbereitung, die die Nachnutzbarkeit verbessern, können teilweise gesondert bei einer Antragstellung berücksichtigt werden (DFG 2015). Empfehlung Nachnutzbarkeit (R1.3) Die literarische Umschrift sollte dann angewendet werden, wenn sie für die Interpretation der Daten unbedingt benötigt wird, da fehlende bzw. konfligierende Standards in diesem Bereich die Nachnutzung erschweren. Durch eine zusätzliche orthographisch normalisierte Ebene der Transkription, die im Rahmen einer Antragstellung als Aufgabe der Datenaufbereitung berücksichtigt werden kann, werden die Daten für weitere Zwecke nachnutzbar, insbesondere für die automatische Verarbeitung und Auswertung. Zur grundlegenden Transkription kommen häufig im Rahmen einer Analyse weitere, stärker interpretative Informationen hinzu. Diese Annotationen sind relevant für auf den Daten basierende Forschungsarbeiten. Sie sollten daher mit den Daten in jedem Fall zur Sicherung guter wissenschaftlicher Praxis archiviert werden, können allerdings oft auch zu spezifisch sein, um für die Nachnutzung wirklich von Bedeutung zu sein. Für die Annotation als zusätzliche Ebene(n) der Transkriptionsdaten sind viele Entscheidungen nötig, in Bezug sowohl auf ihre strukturellen Eigenschaften, als auch auf methodische Überlegungen zu ihrer Anwendung. Zunächst können Annotationen entweder an bestimmten als relevant identifizierten Ausschnitten angebracht werden, etwa bei einer Fehlerannotation von Lernersprache, oder entsprechend eines Schemas an jeder Einheit eines bestimmten Typs, wie die Wortartenannotation oder die Annotation von Äußerungsmodi. Prinzipien für gute Annotationssysteme stellt Edwards (2001) auf. Es würde jedoch den Rahmen dieses Beitrags sprengen, die Anforderungen an Annotationssysteme und deren Anwendung im Detail hier auszuführen. Es lohnt sich aufgrund der Komplexität dieser Fragen, in nicht trivialen Fällen zusätzlich Expertise in der Datenmodellierung hinzuzuziehen. Können existierende Schemata nicht bzw. nicht ohne Anpassungen eingesetzt werden, ist die ausführliche Dokumentation eigener Ergänzungen oder Neuschöpfungen von größter Bedeutung. In Bezug auf die FAIR-Prinzipien für Interoperabilität und Nachnutzbarkeit sind auch in diesem Kontext laut I2 die Verwendung von Vokabularen, die den 364 Hanna Hedeland FAIR-Prinzipien genügen, erforderlich. Das würde z. B. bedeuten, dass von einzelnen Wortartenannotationen auf Elemente entsprechender formaler Vokabulare verlinkt wird, als Voraussetzung von Linked Data 25 . Dies ist in den meisten Bereichen der Sprachwissenschaft für Transkriptionsdaten bisher nicht üblich, auch wenn die Idee nicht neu ist (vgl. z. B. Farrar & Langendoen 2003) und das EAF-Format der ELAN-Software das Verlinken von sowohl Spuren bzw. Annotationsebenen als auch einzelnen Annotationswerten mit externen Vokabularen bzw. Datenkategorien vorsieht. Der Fachinformationsdienst Linguistik 26 bietet jedoch mittlerweile Materialien und Werkzeuge zu diesem Thema an (vgl. Chiarcos et al. 2016, Abromeit et al. 2020). Auch das Prinzip R1.3, das sich auf die „ domain-relevant community standards “ bezieht, ist hier relevant. Einerseits geht es dabei um Transkriptionskonventionen und Annotationsschemata, andererseits um geeignete Vokabulare. Wenn Verlinkungen im Sinne von Linked Data von existierenden Konventionen und Schemata auf gemeinsame Vokabulare entwickelt werden könnten, würden sie für alle Daten, die auf denselben Konventionen und Schemata basieren, gelten und die Interpretation dieser Daten erleichtern. Empfehlung Interoperabilität (I2) und Nachnutzbarkeit (R1.3) Wann immer möglich, sollten für die Annotation existierende Konventionen und Schemata benutzt werden. Bei neuen Annotationssystemen oder Erweiterungen sollte genau überlegt werden, welche Eigenschaften das System benötigt und wie es angewendet werden soll. Die Designentscheidungen und die Resultate der Anwendung sollten sorgfältig dokumentiert werden. Wenn möglich, sollte auf formale Vokabulare oder Ontologien verlinkt werden. Die Nachnutzung von Transkriptionsdaten ist grundsätzlich nur bei hinreichender Qualität der Transkription sinnvoll. Dabei existieren keine eindeutigen und weit verbreiteten Qualitätsmaße oder -kennzahlen, die eine schnelle Einschätzung der Qualität ermöglichen könnten. Wie oben ausgeführt handelt es sich bei der Transkription zudem um interpretative, nicht objektive Daten. Da Forschungsvorhaben völlig verschiedenen methodologischen Rahmenbedingungen unterliegen, werden dementsprechend verschiedene Interpretationen von Qualität und Güte relevant. Grundsätzlich kann hier zwischen zwei Strömungen entlang bekannter Merkmale unterschieden werden. Einerseits 25 https: / / www.w3.org/ wiki/ LinkedData 26 https: / / www.linguistik.de/ de/ FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 365 gibt es Ansätze, die auf eine kontrollierte Transkription und Annotation und somit eine verlässliche quantitative Auswertung abzielen. Anderseits sehen viele Ansätze eher eine eingehende qualitative Auswertung durch den Einsatz geeigneter Transkriptionskonventionen vor. Die erste Gruppe zeigt hinsichtlich der Einstellung zu Güte viele Überlappungen mit der Inhaltsanalyse (Krippendorff 2004), deren Herangehensweisen, inklusive spezifischer Anforderungen an Kategoriensysteme und Reliabilitätsüberprüfungen bei deren Anwendung, auch früh für Diskursannotation ins Gespräch gebracht wurden (Carletta 1996: 252). Es handelt sich dabei um sogenannte Inter-Annotator-Agreement-Maße, die ausgehend von einem Vergleich der Annotation zweier Annotatoren (oder auch zwei Annotationen eines Annotators bei Intra-Annotator-Agreement) jeweils auf verschiedene Arten berechnet werden. Mittlerweile können einige Transkriptions- und Annotationswerkzeuge (z. B. ELAN und WebAnno, vgl. Yimam et al. 2013) verschiedene Werte berechnen lassen. Da es eine Reihe von Koeffizienten gibt (vgl. Artstein & Poesio 2005), die abhängig von Eigenschaften des Annotationssystems und der Annotationsaufgabe inklusive der zu annotierenden Daten unterschiedlich geeignet sind, und die erzielten Werte zudem unter Berücksichtigung dieser Faktoren bewertet werden müssen, könnte über die Möglichkeit der automatischen Berechnung hinaus Unterstützung für die Forschenden notwendig sein, um für einen bestimmten Fall einen geeigneten Koeffizienten zu bestimmen und die Werte zu interpretieren. Für die qualitativ orientierten Ansätze wären wiederum grundlegende Gütekriterien wie die intersubjektive Nachvollziehbarkeit (vgl. Steinke 2000) oder weitere, etwa die von Strübing et al. (2018) aufgestellten Gütekriterien qualitativer Sozialforschung (Gegenstandsangemessenheit, empirische Sättigung, theoretische Durchdringung, textuelle Performanz und Originalität), relevant. Ihre genaue Ausformulierung für Transkriptionsdaten ist jedoch noch ausstehend. Häufig werden Transkripte durch mehrere Projektmitarbeiter oder die Projektleitung überprüft, ggf. korrigiert oder es werden unterschiedliche Interpretationen in der Gruppe diskutiert. Dies ermöglicht in der Regel eine hohe Qualität des Endprodukts, Informationen zu diesen Prozessen und ihren Resultaten sollten aber auch Teil der Dokumentation für Nachnutzende werden. Empfehlung Nachnutzbarkeit (R1.2, R1.3) Die genauen Verfahren und Resultate des Qualitätsmanagements sollten sorgfältig dokumentiert werden. Wenn möglich, sollten geeignete Reliabilitätsmaße eingesetzt werden. 366 Hanna Hedeland 4.2 Kontextdaten ergänzen Aufnahmen Die Angaben zur Gesprächssituation und zu den Teilnehmenden werden, wie oben ausgeführt, in diesem Artikel als Kontextdaten bezeichnet. Die Relevanz bestimmter Informationen dieser Art hängt letztlich vom einzelnen Forschungsvorhaben ab, auch wenn grundlegende Informationen zu den Teilnehmenden, ihrer Rolle im Gespräch sowie den von Ihnen verwendeten Sprachen und Varietäten in den meisten Fällen aufgeführt werden. Die als Kontextdaten erfassten Informationen sind für das gesamte Gespräch gültig, könnten aber teilweise, je nach Forschungsvorhaben, punktuell als Teil der Transkription oder Annotation beschrieben werden. Ein Beispiel sind spezifische Charakteristika der Aussprache, beispielsweise dialektale Färbung: In einigen Fällen reicht eine übergreifende Angabe zum Dialekt, in anderen Fällen sollten potentielle Änderungen während des Gesprächs möglichst genau festgehalten werden. In jedem Fall sollte darauf geachtet werden, dass die Informationen möglichst systematisch erfasst werden. Ein entscheidender Punkt in Bezug auf die Kontextdaten ist die Möglichkeit, sie automatisch zusammen mit dem transkribierten Text auszuwerten oder für die automatische Erstellung von Teilressourcen mit entsprechenden Eigenschaften zu verwenden. Hierfür ist es notwendig, solche Informationen konsistent einzugeben und Werte anzugeben, die eine automatische Verarbeitung ermöglichen. Werden Geburtsjahr und -monat nicht einheitlich und maschinenlesbar erfasst, können beispielsweise keine Transkripte mit Teilnehmenden einer bestimmten Altersgruppe herausgesucht werden. Auch in diesem Bereich sind neben den Prinzipien zur Nachnutzbarkeit spezifisch die Prinzipien I1 und I2 zu den Eigenschaften der formalen Sprache und der Vokabulare für die Repräsentation der Daten und Metadaten relevant. Wie oben ausgeführt, können verschiedene Datenbestände durch die Einhaltung dieser Prinzipien nicht nur syntaktisch, sondern auch, sofern die verwendeten Kategorien vergleichbar sind, semantisch interoperabel werden, und dadurch auch zu einer virtuellen Ressource zusammengeführt sinnvoll gemeinsam ausgewertet werden. Empfehlung Nachnutzbarkeit (R1, R1.2, R1.3) Die Informationen zum kommunikativen Ereignis und den Teilnehmenden, die übergreifend als Kontextdaten festgehalten werden können, sollten möglichst mit existierenden Formaten und Vokabularen erfasst werden. Projektspezifische Informationen benötigen eindeutige Konventionen für die Attribute und die möglichen Werte. FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 367 4.3 Aufnahmen als Grundlage Der für Transkriptionsdaten grundlegende Datentyp sind Audio- und Videoaufnahmen. Während sich in den letzten Jahren die generellen Empfehlungen in Bezug auf Audiodaten für die sprachwissenschaftliche Forschung kaum geändert haben, gibt es bei den Videodaten nicht nur mehr Veränderung, sondern auch eine höhere Komplexität durch eine Vielzahl an Parametern, die das Format endgültig mitbestimmen und nicht anhand Dateiendungen zu erkennen sind. Die Abwägung zwischen hoher Qualität und Speicherplatzbedarf ist auch bei Video von ganz anderer Bedeutung. Unkomprimierte Videodaten spielen bei Feldaufnahmen in der Regel keine Rolle, die Komprimierung fällt jedoch bei verschiedenen Formaten sehr unterschiedlich aus. Da Videoaufnahmen aber zu unterschiedlichen Zwecken erhoben werden, gelten dementsprechend auch unterschiedliche Qualitätsansprüche. Einen Überblick über die Aufnahmesituation und Einblicke in Gestik und Mimik liefern auch Aufnahmen von geringerer Qualität. Sollen aber z. B. Gesten automatisch mit Verfahren wie OpenPose (Cao et al. 2019) erkannt werden, sind Daten von höherer Qualität notwendig. Aktuell können die DFG-Handreichung „ Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora “ (DFG-Fachkollegium 104 2019) und, insbesondere in Hinblick auf alternative Videoformate, Seyfeddinipur & Rau (2020) herangezogen werden. Die Beratung durch ein einschlägiges Archiv oder Forschungsdatenzentrum zu Formaten und Workflows wird jedoch aufgrund der fortschreitenden Entwicklung dringend empfohlen. Empfehlung Nachnutzbarkeit (R1.3) Sofern keine besonderen Anforderungen seitens des Archivs oder Forschungsdatenzentrums, das die Daten übernehmen wird, bestehen, wird Audio - ggf. zusätzlich zur Videoaufnahme - in einem offenen nicht komprimierten Format aufgenommen: (L)PCM WAV hat sich als Standard etabliert, 16bit/ 48kHz bietet eine angemessene Qualität für Audio- Sprachaufnahmen. Für Video wird am besten auf für die jeweilige Forschungsfrage aktuelle Empfehlungen zurückgegriffen und in jedem Fall eine zusätzliche Audioaufnahme erstellt, wenn nicht sichergestellt ist, dass die Vorgaben durch das Audioformat der Videoaufnahme erfüllt werden. 368 Hanna Hedeland 4.4 Weitere Datentypen Neben Transkriptionsdaten und Aufnahmen gehören zu den Forschungsdaten häufig weitere Datentypen, die sich durch die spezifische Forschungsfrage und Herangehensweise ergeben. Zum Teil sind diese Daten auch sprachlich, z. B. schriftsprachliche Begleitmaterialien, die in einer Aufnahmesituation von Bedeutung waren und für das Verständnis des Gesprächs berücksichtigt werden müssen. Es kann sich auch um Fotos, Zeichnungen oder Notizen aus der Aufnahmesituation handeln, die ebenso für die Analyse relevant sind. In einigen Fällen werden auch Daten, die mit anderer Software erstellt wurden, im Ursprungsformat zu den Daten hinzugefügt, etwa statistische Daten oder Geodaten. Empfehlung Nachnutzbarkeit (R1.3) Für Daten von geläufigen Datentypen, z. B. Bildern, eignen sich offene Formate in möglichst hoher, unkomprimierter Qualität. Für Dokumente und grafische Darstellungen (nicht Fotos oder SVG-Grafiken) können in der Regel das Format PDF/ A verwendet werden. Die Kooperationspartner im Forschungsdatenmanagement können in Fragen der Datenkonvertierung beraten und ggf. unterstützen. Für Daten aus anderen Forschungskontexten oder -software sollten die geeigneten Formate am besten mit einem einschlägigen Archiv oder Forschungsdatenzentrum abgestimmt werden. 5 Offene Fragen In diesem Beitrag wurden viele Empfehlungen aufgestellt, die auf die Maschinenlesbarkeit der erstellten Daten abzielen. Strukturiertheit und Konsistenz sind dabei wichtige Faktoren. In vielen Fällen ist allerdings innerhalb des Forschungsvorhabens eine automatische Auswertung nicht vorgesehen, die Transkripte sollen lediglich von den Forschenden gelesen und interpretiert werden. Selbstverständlich führt ein digitaler Wandel nicht dazu, dass diese Methoden an Gültigkeit verlieren. Die noch zu beantwortende Frage gilt in diesem Fall dem zusätzlichen Aufwand, der durch die Erstellung konsistenter maschinenlesbarer Daten entsteht, wenn das ursprüngliche Forschungsvorhaben daraus keinen unmittelbaren Nutzen zieht. Ein Aspekt, der jedoch möglicherweise auch für das eigene Forschungsvorhaben Relevanz besitzt, ist die Frage nach der nachhaltigen Verfügbarkeit der Daten. Bereits durch die Verwendung offener statt proprietärer und/ oder binärer Formate kann vermieden werden, dass die Daten unlesbar werden. Sollten aber auch die FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 369 gewählten offenen Formate obsolet werden, können nur maschinenlesbare Daten zuverlässig in künftige Formate automatisch überführt werden. Eine manuelle Kuration bzw. Anpassung aller vorgehaltenen Daten eines Archivs oder Forschungsdatenzentrums wird bei einer derartigen Migration nicht zu leisten sein. Um Daten nicht nur für Menschen, sondern auch, wie in Wilkinson et al. (2016) beschrieben, für Maschinen verständlich zu machen, reicht es nicht aus, dass die Daten maschinenlesbar sind. Zusätzlich müssen Maschinen, also Computer, Entscheidungen über die Inhalte treffen können, z. B. welche Art von Informationen wo in den Daten zu finden sind, oder ob zwei Datensätze dieselben Informationen enthalten. Wenn die verwendeten Kategorien mittels existierender maschinenlesbarer und -interpretierbarer Vokabulare bzw. Ontologien beschrieben werden können, ergeben sie auch für Nachnutzende Sinn. Eine formale Definition und Beschreibung ist demnach nicht nur für Maschinen sinnvoll, sondern eine überprüfbare Möglichkeit, Daten nachvollziehbar zu dokumentieren. Ob diese Dokumentation ausreicht, ist allerdings fraglich. Zudem bestehen für die Herstellung intersubjektiver Nachvollziehbarkeit seitens menschlicher Nutzender weitere Möglichkeiten. Hier sind die Fachgemeinschaften gefragt, um festzulegen welche Informationen durch Verweise auf Vokabulare oder Ontologien dokumentiert werden können. Abb. 4: FAIR-Prinzipien und Gütekriterien für digitale Sprachressourcen. 370 Hanna Hedeland Wie bereits in der Einleitung angesprochen und in Abbildung 4 dargestellt, kann das Einhalten der FAIR-Prinzipien die Auseinandersetzung mit Fragen der Datenqualität nicht ersetzen, da sie lediglich für einige Aspekte der Datenqualität konkrete Vorgaben machen. Auch außerhalb der Welt der Forschungsdaten (vgl. Wang & Strong 1996) werden diese verschiedenen Aspekte der Qualität erkannt und getrennt ausgewertet. So sind z. B. Aspekte des Zugangs und (teilweise) der Repräsentation der Daten, die in Abbildung 4 den äußeren Kästen zuzuordnen wären, von kontextueller und intrinsischer Datenqualität zu unterscheiden, die in Abbildung 4 durch die inneren Kästen repräsentiert sind. Im Unterschied zu generellen Kriterien für Datenqualität oder allgemeine Gütekriterien für qualitative Forschung fehlen allerdings bislang weit verbreitete operationalisierte Qualitätskriterien für digitale Ressourcen der qualitativ ausgerichteten sprachwissenschaftlichen Forschung. Diese Kriterien, inklusive der „ domain-relevant community standards “ müssen im Dialog zwischen den relevanten Communities, die Sprachressourcen mit angemessener Qualität erstellen und nachnutzen wollen, und Archiven und Forschungsdatenzentren, die bei Datenübernahmen die Qualität der Daten einschätzen können müssen, erarbeitet werden. Durch die jeweilige sich ergänzende Expertise können gemeinsam erarbeitete Qualitätskriterien alle relevanten Aspekte berücksichtigen. Literaturverzeichnis Abromeit, Frank, Fäth, Christian, & Luis Glaser. 2020. Annohub - Annotation Metadata for Linked Data Applications. In Proceedings of the 7th Workshop on Linked Data in Linguistics (LDL-2020), Marseille, France, May 2020, 36 - 44. Artstein, Ron & Massimo Poesio. 2005. Kappa 3 = Alpha (or Beta). Essex: Natural Language Engineering and Web Applications Group, Department of Computer Science, University of Essex - NLE Technical Note 05-1, CS Technical Report, CSM-437. Ayaß, Ruth. 2015. Doing Data. The status of transcripts in Conversation Analysis. Discourse Studies 17(5). 505 - 528. doi: 10.1177/ 14614456155. Brinker, Klaus & Sven F. Sager. 2006. Linguistische Gesprächsanalyse: eine Einführung. 4. Aufl. Berlin: Schmidt. Burger, Susanne & Elke Kachelrieß. 1996. Aussprachevarianten in der VERBMOBIL Transliteration - Regeln zur konsistenteren Verschriftung. München: Ludwig-Maximilians-Universität München. Cao, Zhe, Hidalgo Martinez, Ginés, Simon, Tomas, Wei, Shih-En & Yaser A. Sheikh. 2019. OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. In IEEE Transactions on Pattern Analysis and Machine Intelligence. doi: 10.1109/ TPA- MI.2019.2929257. FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 371 Carletta, Jean. 1996. Assessing Agreement on Classification Tasks: The Kappa Statistic. Computational Linguistics 22(2). 249 - 254. Chiarcos, Christian, Fäth, Christian, Renner-Westermann, Heike, Abromeit, Frank & Vanya Dimitrova. 2016. Lin|gu|is|tik: building the linguist ’ s pathway to bibliographies, libraries, language resources and linked open data. In Nicoletta Calzolari et al. (eds.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), 4463 - 4471. Cook, Guy. 1990. Transcribing Infinity: Problems of Context Presentation. Journal of Pragmatics 14. 1 - 24. Deppermann, Arnulf. 2001. Gespräche analysieren: Eine Einführung in konversationsanalytische Methoden. 2. Aufl. Opladen: Leske & Budrich. DFG. 2015. Leitlinien zum Umgang mit Forschungsdaten. Webressource, aufgerufen am 06.05.21. https: / / www.dfg.de/ download/ pdf/ foerderung/ antragstellung/ forschungsda ten/ richtlinien_forschungsdaten.pdf DFG. 2019. Leitlinien zur Sicherung guter wissenschaftlicher Praxis. Kodex. Webressource, aufgerufen am 06.05.21. https: / / www.dfg.de/ download/ pdf/ foerderung/ rechtli che_rahmenbedingungen/ gute_wissenschaftliche_praxis/ kodex_gwp.pdf DFG. 2020. Impulspapier Digitaler Wandel in den Wissenschaften. Zenodo. doi: 10.5281/ zenodo.4191345 DFG-Fachkollegium 104 „ Sprachwissenschaften “ . 2013. Handreichung: Informationen zu rechtlichen Aspekten bei der Handhabung von Sprachkorpora. Webressource, aufgerufen am 06.05.21. https: / / www.dfg.de/ download/ pdf/ foerderung/ grundlagen_dfg_foer derung/ informationen_fachwissenschaften/ geisteswissenschaften/ standards_recht.p df DFG-Fachkollegium 104 „ Sprachwissenschaften “ . 2019. Handreichung: Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora. Stand: 31. Oktober 2019. Webressource, aufgerufen am 06.05.21. https: / / www.dfg.de/ down load/ pdf/ foerderung/ grundlagen_dfg_foerderung/ informationen_fachwissenschaf ten/ geisteswissenschaften/ standards_sprachkorpora.pdf Dittmar, Norbert. 2004. Transkription: ein Leitfaden mit Aufgaben für Studenten, Forscher und Laien. 2. Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften. Edwards, Jane A. 1993. Principles and Contrasting Systems of Discourse Transcription. In Jane A. Edwards & Martin D. Lampert (eds.), Talking Data: Transcription and Coding in Discourse Research, 3 - 31. Hillsdale & NJ: Erlbaum. Edwards, Jane A. 2001. The Transcription of Discourse. In Deborah Schiffrin, Deborah Tannen & Heidi Hamilton (eds.), The Handbook of Discourse Analysis, 321 - 348. Malden u. a.: Blackwell. ESRC. 2021. Guideline for grant holders: Submitting datasets. Webseite, aufgerufen am 06.05.21. https: / / esrc.ukri.org/ funding/ guidance-for-grant-holders/ submitting-data sets/ European Commission. 2019A. FAQ: ID: 11382. Webseite, aufgerufen am 06.05.21. https: / / ec.europa.eu/ info/ funding-tenders/ opportunities/ portal/ screen/ support/ faq/ 11382 372 Hanna Hedeland European Commission. 2019B. FAQ: ID: 11378. Webseite, aufgerufen am 06.05.21. https: / / ec.europa.eu/ info/ funding-tenders/ opportunities/ portal/ screen/ support/ faq/ 11378 Farrar, Scott & D. Terence Langendoen. 2003. A linguistic ontology for the Semantic Web. GLOT International 7(3). 97 - 100. Gumperz, John J. & Norine Berenz. 1993. Transcribing Conversational Exchanges. In Jane A. Edwards & Martin D. Lampert (eds.), Talking Data: Transcription and Coding in Discourse Research, 91 - 121. Hillsdale & NJ: Erlbaum. Heuer, Jan-Ocko, Kretzer, Susanne, Mozygemba, Kati, Huber, Elisabeth & Betina Hollstein. 2020. Kontextualisierung qualitativer Forschungsdaten für die Nachnutzung - eine Handreichung für Forschende zur Erstellung eines Studienreports. Bremen: Qualiservice. doi: 10.26092/ elib/ 166. Kowal, Sabine & Daniel C. O ’ Connell. 2000. Zur Transkription von Gesprächen. In Uwe Flick, Ernst von Kardorff & Ines Steinke (Hrsg.), Qualitative Forschung. Ein Handbuch, 437 - 447. Reinbek: Rowohlt-Taschenbuch-Verlag. Krippendorff, Klaus. 2004. Content analysis: an introduction to its methodology. 2. Aufl. Thousand Oaks [u. a.]: SAGE. MacWhinney, Brian. 2020. Tools forAnalyzing Talk Part 1: The CHAT Transcription Format. August 20, 2020. doi: 10.21415/ 3mhn-0z89 Ochs, Elinor. 1979. Transcription as theory. In Elinor Ochs & Bambi B. Schieffelin (eds.), Developmental pragmatics, 43 - 72. New York: Academic Press. Psathas, George & Timothy Anderson. 1990. The ‘ practices ’ of transcription in conversation analysis. Semiotica, 78, Nr. 1/ 2, 75 - 99. Redder, Angelika. 2002. Professionelles Transkribieren. In Ludwig Jäger & Georg Stanitzek (Hrsg.), Transkription - Medien/ Lektüre, 115 - 131. München: Fink. Rehbein, Jochen, Schmidt, Thomas, Meyer, Bernd, Watzke, Franziska & Anette Herkenrath. 2004. Handbuch für das computergestützte Transkribieren nach HIAT. Arbeiten zur Mehrsprachigkeit, Folge B, 56. RfII - Rat für Informationsinfrastrukturen. 2019. Herausforderung Datenqualität - Empfehlungen zur Zukunftsfähigkeit von Forschung im digitalen Wandel. 2. Aufl. Göttingen: RfII. Schmidt, Thomas. 2005. Computergestützte Transkription - Modellierung und Visualisierung gesprochener Sprache mit texttechnologischen Mitteln. Frankfurt a. M.: Peter Lang. Schmidt, Thomas, Schütte, Wilfried & Jenny Winterscheid. 2015. cGAT - Konventionen für das computergestützte Transkribieren in Anlehnung an das Gesprächsanalytische Transkriptionssystem 2 (GAT2). Version 1.0, November 2015. Schmidt, Thomas & Kai Wörner. 2014. EXMARaLDA. In Urike Gut, Jacques Durand & Gjert Kristoffersen (eds.) Handbook on Corpus Phonology, 402 - 419. Oxford: Oxford University Press. Selting, Margret, Auer, Peter, Barth-Weingarten, Dagmar, Bergmann, Jörg, Bergmann, Pia, Birkner, Karin, Couper-Kuhlen, Elizabeth, Deppermann, Arnulf, Gilles, Peter, Günthner, Susanne, Hartung, Martin, Kern, Friederike, Mertzlufft, Christine, Meyer, Christian, Morek, Miriam, Oberzaucher, Frank, Peters, Jörg, Quasthoff, Uta, Schütte, Wilfried, Stukenbrock, Anja & Susanne Uhmann. 2009. Gesprächsanalytisches Tran- FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten 373 skriptionssystem 2 (GAT 2). Gesprächsforschung - Online-Zeitschrift zur verbalen Interaktion 10. 353 - 402. Seyfeddinipur, Mandana. & Felix Rau. 2020. Keeping it real: Video data in language documentation and language archiving. Language Documentation & Conservation 14. 503 - 519. hdl: 10125/ 24965 Sloetjes, Han. 2014. ELAN: Multimedia annotation application. In Urike Gut, Jacques Durand & Gjert Kristoffersen (eds.) Handbook on Corpus Phonology, 305 - 320. Oxford: Oxford University Press. Steinke, Ines. 2000. Gütekriterien qualitativer Forschung. In Uwe Flick, Ernst von Kardorff & Ines Steinke (Hrsg.), Qualitative Forschung. Ein Handbuch, 319 - 331. Reinbek: Rowohlt-Taschenbuch-Verlag. Strübing, Jörg, Hirschauer, Stefan, Ayaß, Ruth, Krähnke, Uwe, & Thomas Scheffer. 2018. Gütekriterien qualitativer Sozialforschung. Ein Diskussionsanstoß. Zeitschrift für Soziologie 47(2). 83 - 100. doi: 10.1515/ zfsoz-2018-1006 Wang, Richard Y. & Diane M. Strong. 1996. Beyond accuracy: What data quality means to data consumers. Journal of Management Information Systems 12(4). 5 - 33. Wilkinson, Mark D., Dumontier, Michel, Aalbersberg, Ijsbrand Jan, Appleton, Gabrielle, Axton, Myles, Baak, Arie, Blomberg, Niklas, Boiten, Jan-Willem, Da Silva Santos, Luiz B., Bourne, Philip E., Bouwman, Jildau, Brookes, Anthony J., Clark, Tim, Crosas, Mercé, Dillo, Ingrid, Dumon, Oliver, Edmunds, Scott, Evelo, Chris T., Finkers, Richard, Gonzalez-Beltran, Alejandra, Gray, Alasdair J. G., Groth, Paul, Goble, Carole, Grethe, Jeffrey S., Heringa, Jaap, ’ t Hoen, Peter A. C., Hooft, Rob, Kuhn, Tobias, Kok, Ruben, Kok, Joost, Lusher, Scott J., Martone, Maryanne E., Mons, Albert, Packer, Abel L., Persson, Bengt, Rocca-Serra, Philippe, Roos, Marco, van Schaik, Rene, Sansone, Susanna-Assunta, Schultes, Erik, Sengstag, Thierry, Slater, Ted, Strawn, George, Swertz, Morris A., Thompson, Mark, van der Lei, Johan, van Mulligen, Erik, Velterop, Jan, Waagmeester, Andra, Wittenburg, Peter, Wolstencroft, Katherine, Zhao, Jun & Barend Mons. 2016. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data 3. doi: 10.1038/ sdata.2016.18 Wilkinson, Mark D., Sansone, Susanna-Assunta, Schultes, Erik, Doorn, Peter, da Silva Santos, Luiz O. B. & Michel Dumontier. 2018. A design framework and exemplar metrics for FAIRness. Scientific Data 5. doi: 10.1038/ sdata.2018.118 Yimam, S. M., Gurevych, I., Eckart de Castilho, Richard & Chris Biemann. 2013. WebAnno: A flexible, web-based and visually supported system for distributed annotations. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 1 - 6. 374 Hanna Hedeland Verzeichnis der Autorinnen und Autoren Dr. habil. Heike Baldauf-Quilliatre Forschungsschwerpunkte: multimodale Konversationsanalyse / Interaktionale Linguistik, Vokalität, Lautobjekte, Spielinteraktion, Positionierung, Teilnehmerkategorien Universität Lyon 2 Lumière Faculté des Langues Forschungszentrum ICAR, ENS de Lyon 15 parvis René Descartes BP 7000 69342 Lyon Cedex 7, Frankreich heike.baldauf@univ-lyon2.fr http: / / www.icar.cnrs.fr/ membre/ hbaldauf-quilliatre/ Apl. Prof. Dr. Stefan Baumann Forschungsschwerpunkte: Phonetik und Phonologie der Intonation, Annotation und Modellierung deutscher Intonation (GToBI, DIMA), Informationsstruktur: Prosodie, Semantik und Pragmatik, Prosodie und neurokognitive Sprachverarbeitung, Mehrebenen-Annotation gesprochener Sprache Universität zur Köln Institut für Linguistik (IfL), Abteilung Phonetik Herbert-Lewin-Str. 6, D-50931 Köln stefan.baumann@uni-koeln.de https: / / ifl.phil-fak.uni-koeln.de/ phonetik/ institut/ personen/ apl-prof-dr-stefanbaumann Prof. Dr. phil. habil. Ines Bose (Dipl-Sprechwiss.) Forschungsschwerpunkte: Medienrhetorik, Gesprächsforschung, Entwicklung und Förderung kindlicher Kommunikationskompetenz Institut für Musik, Medien- und Sprechwissenschaften Abteilung Sprechwissenschaft und Phonetik Martin-Luther-Universität Halle-Wittenberg Emil-Abderhalden-Straße 26/ 27 D-06108 Halle (Saale) ines.bose@sprechwiss.uni-halle.de Dr. Carolin Dix Forschungsschwerpunkte: Gesprächsforschung/ (multimodale) Interaktionsforschung, Sprache und Religion, Analyse Kommunikativer Gattungen, Videoanalyse Universität Bayreuth Arbeitsbereich Germanistische Linguistik Universitätsstraße 30 D-95440 Bayreuth carolin.dix@uni-bayreuth.de https: / / www.gl.uni-bayreuth.de/ de/ team/ carolin-dix/ index.php#tabPerson Rahaf Farag, M. A. Forschungsschwerpunkte: Interkulturelle Kommunikation, Remote Interpreting, interaktionsorientierte Dolmetschforschung zu institutionellen Einsatzbereichen (Community Interpreting), translatorisches Handeln, Gesprächstranskription und analyse, Transkriptübersetzung Johannes Gutenberg-Universität Mainz Fachbereich Translations-, Sprach- und Kulturwissenschaft Arbeitsbereich Interkulturelle Kommunikation An der Hochschule 2 D-76726 Germersheim farag@uni-mainz.de https: / / ikk.fb06.uni-mainz.de/ rahaf-farag-m-a/ Prof. Dr. Sven Grawunder Forschungsschwerpunkte: Methoden phonetischer Sprachdokumentation, Evolution von stimmlichem Ausdruck, Phonetische Arealtypologie, Lautwandel Johann Wolfgang Goethe-Universität Institut für empirische Sprachwissenschaft Senckenberganlage 31 (PF171), D-60325 Frankfurt/ M grawunder@em.uni-frankfurt.de http: / / menzerath.phonetik.uni-frankfurt.de/ staff/ graw/ Hanna Hedeland Forschungsschwerpunkte: Forschungsdatenmanagement, Mündliche und mehrsprachige Korpora, Datenqualität und Qualitätssicherung, Datenmodellierung, digitale Forschungsinfrastruktur Leibniz-Institut für Deutsche Sprache, Mannheim hedeland@ids-mannheim.de 376 Verzeichnis der Autorinnen und Autoren Mag. Dr. Yvonne Kathrein Forschungsschwerpunkte: Dialektologie des Tiroler Raumes, Historische Sprachwissenschaft, Onomastik, Laienlinguistik Institut für Germanistik | Tiroler Dialektarchiv Universität Innsbruck Innrain 52 d A-6020 Innsbruck yvonne.kathrein@uibk.ac.at Ass.-Prof. Mag. Dr. Carmen Konzett-Firth Forschungsschwerpunkte: Gesprächsforschung, Interaktionskompetenz, Fremdspracherwerb, Mehrsprachigkeit, Didaktik der Mündlichkeit im Fremdsprachenunterricht Institut für Romanistik Universität Innsbruck Innrain 52 A-6020 Innsbruck carmen.konzett@uibk.ac.at www.uibk.ac.at/ romanistik/ personal/ konzett/ Prof. Dr. Frank Kügler Forschungsschwerpunkte: Prosodie, Ton und Intonation, Annotation und Modellierung deutscher Intonation (DIMA), Intonation und Informationsstruktur, Intonation und Satzmodus, Prosodische Typologie, Prosodische Phrasierung und Rekursivität, Experimentelle Phonologie Johann Wolfgang Goethe-Universität Institut für Linguistik Norbert-Wollheim-Platz 1 D-60629 Frankfurt am Main kuegler@em.uni-frankfurt.de https: / / user.uni-frankfurt.de/ ~kuegler/ Verzeichnis der Autorinnen und Autoren 377 Univ.-Prof. Dr. Bernd Meyer Forschungsschwerpunkte: Diskursanalyse, Mehrsprachige Kommunikation, Dolmetschen, Soziolinguistik Johannes Gutenberg-Universität Mainz Fachbereich Translations-, Sprach- und Kulturwissenschaft Arbeitsbereich Interkulturelle Kommunikation An der Hochschule 2 D-76726 Germersheim meyerb@uni-mainz.de http: / / bemey.de/ Mag. Dr. Daniel Pfurtscheller Forschungsschwerpunkte: Medienlinguistik, Visuelle Kommunikationsforschung, Sprache und digitale Medien, Diskurslinguistik, qualitative Medienforschung Universität Innsbruck Institut für Germanistik Innrain 52 A-6020 Innsbruck daniel.pfurtscheller@uibk.ac.at http: / / uibk.ac.at/ germanistik/ mitarbeiter/ pfurtscheller/ Dr. Sandra Reitbrecht Forschungsschwerpunkte: Schreib-, Aussprache- und Sprechdidaktik im Kontext von Deutsch als Fremd- und Zweitsprache, sprachliche Bildung, schulische Propädeutik Pädagogische Hochschule Wien Didaktikzentrum für Text- und Informationskompetenz Grenzackerstraße 18 A-1100 Wien sandra.reitbrecht@phwien.ac.at https: / / sandrareitbrecht.wordpress.com/ 378 Verzeichnis der Autorinnen und Autoren Dr. Christine T. Röhr Forschungsschwerpunkte: Phonetik und Phonologie der Intonation, Annotation und Modellierung deutscher Intonation (GToBI, DIMA), Informationsstruktur: Prosodie, Semantik und Pragmatik, Annotation von Informationsstatus, Prosodie und neurokognitive Sprachverarbeitung Universität zur Köln Institut für Linguistik (IfL), Abteilung Phonetik Herbert-Lewin-Str. 6 D-50931 Köln christine.roehr@uni-koeln.de https: / / ifl.phil-fak.uni-koeln.de/ phonetik/ institut/ personen/ dr-christine-roehr Ingmar Rothe Forschungsschwerpunkte: Multimodale Interaktionsanalyse, Mensch-Technik- Interaktion, Wissenschaftskommunikation Universität Leipzig Institut für Kommunikations- und Medienwissenschaft Zeppelinhaus Nikolaistraße 27 - 29 D-04109 Leipzig ingmar.rothe@uni-leipzig.de PD Dr. habil. Cordula Schwarze Forschungsschwerpunkte: Gesprächsforschung/ Angewandte Gesprächsforschung, Multimodale Interaktionsanalyse, qualitative Unterrichtsforschung, Stimme in der Interaktion Universität Innsbruck Institut für Germanistik Innrain 52 A-6020 Innsbruck cordula.schwarze@uibk.ac.at https: / / www.uibk.ac.at/ germanistik/ mitarbeiter/ schwarze_cordula/ Verzeichnis der Autorinnen und Autoren 379 Dr. phil. Anna Schwenke (Dipl-Sprechwiss.) Forschungsschwerpunkte: Hörverständlichkeit, Sprechstil von Radionachrichten Universität Greifswald Arbeitsbereich Germanistische Sprachwissenschaft „ Haus der Grundschule “ Institut für Erziehungswissenschaft Steinbecker Straße 15 D-17487 Greifswald anna.schwenke@uni-greifswald.de https: / / germanistik.uni-greifswald.de/ mitarbeitende/ mitarbeitende-m-s/ anna-schwenke/ Dr. Jürgen Trouvain Forschungsschwerpunkte: speech timing, non-verbal vocalisations, non-native speech, history of speech communication research trouvain@lst.uni-saarland.de http: / / www.coli.uni-saarland.de/ ~trouvain/ index.html Raphael Werner, M. A. Forschungsschwerpunkte: speech pausing, speech breathing rwerner@lst.uni-saarland.de https: / / raphael-werner.github.io/ Dr. Kathrin Wild Forschungsschwerpunkte: Mehrsprachigkeit; frühes Fremdsprachenlernen; individuelle Faktoren beim Fremdsprachenlernen; Ausspracheerwerb, Aussprachedidaktik Europa-Universität Flensburg Auf dem Campus 1 b D-24943 Flensburg kathrin.wild@uni-flensburg.de https: / / www.uni-flensburg.de/ partnersinmobility/ team/ kathrin-wild/ 380 Verzeichnis der Autorinnen und Autoren ISBN 978-3-8233-8469-4 Transkription und Annotation als Praxen empirischer Forschung in der Linguistik und benachbarten Disziplinen erschließen Audio- und Videodaten für die Analyse. Diese Verfahren stützen sich auf umfangreiche multidisziplinäre Traditionen, müssen jedoch entlang neuer technischer Möglichkeiten und Bearbeitungstools sowie veränderter Datentypen weiterentwickelt werden. Dabei bleiben Ansprüche wie Transparenz, Detailfülle, Konsistenz und allgemeine Zugänglichkeit gültig, werden aber um Anforderungen an Reliabilität und Maschinenlesbarkeit erweitert, was zu Anpassungen und gegebenenfalls Standardisierungen in der Durchführung führen sollte. Dieser Band fokussiert auf die Forschungspraxis selbst, was erlaubt, die individuelle disziplinäre Perspektive in den Hintergrund zu rücken und gemeinsame Fragen herauszustellen. Neben einzelnen Konzepten von Transkription und Annotation werden Probleme und ihre Lösungen auf den Themengebieten von Phonetik und Prosodie, Multimodalität und Interaktion, Mehrsprachigkeit sowie methodologische Fragen exemplarisch und datenbasiert vorgestellt.